KR101805577B1

KR101805577B1 - 오디오 신호 분류 방법 및 장치

Info

Publication number: KR101805577B1
Application number: KR1020167006075A
Authority: KR
Inventors: 저 왕
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2013-08-06
Filing date: 2013-09-26
Publication date: 2017-12-07
Also published as: HK1219169A1; SG11201600880SA; US11756576B2; KR20170137217A; HUE035388T2; JP6162900B2; AU2017228659B2; ES2909183T3; MY173561A; EP3667665B1; EP4057284A2; EP3029673B1; CN106409313B; US10090003B2; JP2018197875A; EP4057284A3; KR20160040706A; US20200126585A1; JP6392414B2; AU2013397685A1

Abstract

오디오 신호 분류 방법. 이 방법은: 현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하고 그것을 주파수 스펙트럼 변동 메모리에 저장할지를 결정하는 단계(101); 상기 오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 상기 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동을 업데이트하는 단계(102); 및 상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 유효 데이터의 일부 또는 전부의 통계에 따라, 상기 현재 오디오 프레임을 음성 프레임 또는 음악 프레임으로 분류하는 단계(103)를 포함한다. 오디오 신호 분류 장치가 추가로 제공된다.

Description

오디오 신호 분류 방법 및 장치{AUDIO SIGNAL CLASSIFICATION METHOD AND DEVICE}

삭제

본 발명은 디지털 신호 처리 기술의 분야에 관한 것이고, 특히, 오디오 신호 분류 방법 및 장치에 관한 것이다.

저장 또는 송신 동안에 비디오 신호가 차지하는 자원들을 감소시키기 위해, 오디오 신호가 송신단에서 압축된 다음 수신단에 송신되고, 수신단은 압축 해제에 의하여 오디오 신호를 복원한다.

오디오 처리 응용에서, 오디오 신호 분류는 널리 적용되는 중요한 기술이다. 예를 들어, 오디오 인코딩/디코딩 응용에서, 비교적 인기 있는 코덱은 현재 인코딩과 디코딩을 혼합한 종류이다. 이 코덱은 일반적으로 스피치 생성 모델에 기초한 인코더(예를 들어 CELP)와 변환에 기초한 인코더(예를 들어 MDCT에 기초한 인코더)를 포함한다. 중간 또는 낮은 비트 레이트에서, 스피치 생성 모델에 기초한 인코더는 비교적 양호한 스피치 인코딩 품질을 획득할 수 있지만, 비교적 불량한 음악 인코딩 품질을 가지는 반면, 변환에 기초한 인코더는 비교적 양호한 음악 인코딩 품질을 획득할 수 있지만, 비교적 불량한 스피치 인코딩 품질을 가진다. 그러므로, 혼합 코덱은 스피치 생성 모델에 기초한 인코더를 이용하여 스피치 신호를 인코딩하고, 변환에 기초한 인코더를 이용하여 음악 신호를 인코딩하고, 그것에 의하여 전체적으로 최적의 인코딩 효과를 획득한다. 여기서, 핵심 기술은 이 응용이 구체적으로 관련되는 한 오디오 신호 분류, 또는 인코딩 코드 선택이다.

혼합 코덱이 최적의 인코딩 모드 선택을 획득할 수 있기 전에 혼합 코덱은 정확한 신호 종류 정보를 획득할 필요가 있다. 여기서 오디오 신호 분류기는 또한 대략 스피치/음악 분류기로서 간주될 수 있다. 스피치 인식률과 음악 인식률은 스피치/음악 분류기의 성능을 측정하기 위한 중요한 지시자들이다. 특히 음악 신호의 경우, 그 신호 특성들의 다양성/복잡성 때문에, 음악 신호의 인식은 일반적으로 스피치 신호보다 더 어렵다. 게다가, 인식 지연도 매우 중요한 지시자들 중 하나이다. 짧은 시간에서의 스피치/음악의 특성들의 애매함 때문에, 스피치/음악이 비교적 정확하게 인식될 수 있기 전에 비교적 긴 시간이 일반적으로 필요하다. 일반적으로, 동일한 종류의 신호들의 중간 부분에서, 더 긴 인식 지연은 더 정확한 인식을 나타낸다. 그러나, 2 종류의 신호들의 전이 부분에서, 더 긴 인식 지연은 더 낮은 인식 정확도를 나타내고, 이는 혼합 신호(예를 들어 배경 음악이 있는 스피치)가 입력되는 상황에서는 특히 심각하다. 그러므로, 높은 인식률과 낮은 인식 지연을 모두 갖는 것이 고성능 스피치/음악 인식기의 필요한 속성이다. 게다가, 분류 안정성도 혼합 인코더의 인코딩 품질에 영향을 주는 중요한 속성이다. 일반적으로, 혼합 인코더가 상이한 종류의 인코더들 사이에 전환할 때, 품질 열화가 발생할 수 있다. 동일한 종류의 신호들에서 분류기에서 빈번한 종류 전환이 발생하면, 인코딩 품질이 비교적 크게 영향을 받고; 따라서, 분류기의 출력 분류 결과가 정확하고 매끄러워야 한다는 것이 요구된다. 게다가, 통신 시스템에서 분류 알고리즘과 같은 일부 응용들에서는, 상업적 요건을 만족시키기 위해, 분류 알고리즘의 계산 복잡도와 저장 오버헤드가 가능한 한 낮아야 한다는 것이 또한 요구된다.

ITU-T 표준 G.720.1은 스피치/음악 분류기를 포함한다. 이 분류기는 신호 분류를 위한 주요 근거로서 주요 파라미터인 주파수 스펙트럼 변동 분산(variance) var_flux를 이용하고, 보조 근거로서 2개의 상이한 주파수 스펙트럼 첨도(peakiness) 파라미터 p1 및 p2를 이용한다. var_flux에 따른 입력 신호의 분류는 var_flux의 국부 통계에 따라 FIFO var_flux 버퍼에서 완성된다. 구체적인 프로세스는 다음과 같이 요약된다: 먼저, 주파수 스펙트럼 변동 flux가 각각의 입력 오디오 프레임으로부터 추출되고 제1 버퍼에 버퍼링되고, 여기서 flux가 현재 입력 프레임을 포함하는 4개의 최근 프레임에서 계산되거나, 다른 방법을 이용하여 계산될 수 있다. 그 후, 현재 입력 프레임을 포함하는 N개의 최근 프레임의 flux의 분산이 계산되어, 현재 입력 프레임의 var_flux가 획득되고, var_flux가 제2 버퍼에 버퍼링된다. 그 후, 제2 버퍼에서 현재 입력 프레임을 포함하는 최근 M개 프레임 중에서 그 var_flux가 제1 임계치보다 큰 프레임들의 수량 K가 카운트된다. M에 대한 K의 비율이 제2 임계치보다 크다면, 현재 입력 프레임은 스피치 프레임이라고 결정되고; 그렇지 않다면 현재 입력 프레임은 음악 프레임이다. 보조 파라미터들 p1 및 p2는 주로 분류를 수정하는 데 이용되고, 또한 각각의 입력 오디오 프레임에 대해 계산된다. p1 및/또는 p2가 제3 임계치 및/또는 제4 임계치보다 클 때, 현재 입력 오디오 프레임은 음악 프레임이라고 바로 결정된다.

이 스피치/음악 분류기의 불리한 점들은 다음과 같다: 한편으로, 음악에 대한 절대 인식률이 여전히 개선될 필요가 있고, 다른 한편으로, 분류기의 대상 응용들이 혼합 신호의 응용 시나리오에 특정적이지 않기 때문에, 혼합 신호에 대한 인식 성능의 개선에 대한 여지도 여전히 존재한다.

많은 기존의 스피치/음악 분류기들은 모드 인식 원리에 기초하여 설계된다. 이러한 종류의 분류기들은 일반적으로 입력 오디오 프레임으로부터 다수의(12개 내지 여러 12개) 특성 프라미터들을 추출하고, 이 파라미터들을 가우스 혼합 모델, 또는 신경망, 또는 다른 고전적 분류 방법에 기초한 분류기에 공급하여 분류를 수행한다.

이러한 종류의 분류기들은 비교적 탄탄한 이론적 근거를 가지고 있지만, 일반적으로 비교적 높은 계산 저장 복잡성을 가지고 있으며, 따라서, 구현 비용이 비교적 높다.

본 발명의 실시예들의 목적은 혼합 오디오 신호의 분류 인식률을 보장하면서 신호 분류 복잡성을 감소시키는, 오디오 신호 분류 방법 및 장치를 제공하는 것이다.

제1 양태에 따르면, 오디오 신호 분류 방법이 제공되는데, 이 방법은:

현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하여 상기 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지를 결정하는 단계 - 상기 주파수 스펙트럼 변동은 오디오 신호의 주파수 스펙트럼의 에너지 변동을 나타냄 -;

상기 오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 상기 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트하는 단계; 및

상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계를 포함한다.

제1 가능한 구현 방식에서, 현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하여 상기 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지를 결정하는 단계는:

상기 현재 오디오 프레임이 활성 프레임이면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 상기 주파수 스펙트럼 변동 메모리에 저장하는 단계를 포함한다.

제2 가능한 구현 방식에서, 현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하여 상기 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지를 결정하는 단계는:

상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임이 에너지 충격에 속하지 않는다면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 상기 주파수 스펙트럼 변동 메모리에 저장하는 단계를 포함한다.

제3 가능한 구현 방식에서, 현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하여 상기 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지를 결정하는 단계는:

상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임과 상기 현재 오디오 프레임의 과거의 프레임을 포함하는 복수의 연속 프레임 중 어느 것도 에너지 충격에 속하지 않는다면, 상기 오디오 프레임의 상기 주파수 스펙트럼 변동을 상기 주파수 스펙트럼 변동 메모리에 저장하는 단계를 포함한다.

제1 양태 또는 제1 양태의 제1 가능한 구현 방식 또는 제1 양태의 제2 가능한 구현 방식 또는 제1 양태의 제3 가능한 구현 방식에 관련하여, 제4 가능한 구현 방식에서, 상기 현재 오디오 프레임이 타악기적 음악인지에 따라, 상기 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트하는 단계는:

상기 현재 오디오 프레임이 타악기적 음악에 속한다면, 상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 값들을 수정하는 단계를 포함한다.

제1 양태 또는 제1 양태의 제1 가능한 구현 방식 또는 제1 양태의 제2 가능한 구현 방식 또는 제1 양태의 제3 가능한 구현 방식에 관련하여, 제5 가능한 구현 방식에서, 과거의 오디오 프레임의 활동에 따라, 상기 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트하는 단계는:

상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 상기 주파수 스펙트럼 변동 메모리에 저장되어 있고, 이전 오디오 프레임이 비활성 프레임인 것으로 결정되면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 제외하고 상기 주파수 스펙트럼 변동 메모리에 저장된 다른 주파수 스펙트럼 변동들의 데이터를 무효 데이터로 수정하는 단계; 또는

상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 상기 주파수 스펙트럼 변동 메모리에 저장되어 있고, 상기 현재 오디오 프레임 전의 3개의 연속 과거의 프레임들이 모두 활성 프레임은 아닌 것으로 결정되면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 제1 값으로 수정하는 단계; 또는

상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 상기 주파수 스펙트럼 변동 메모리에 저장되어 있고, 과거의 분류 결과가 음악 신호이고 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 제2 값보다 큰 것으로 결정되면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 상기 제2 값으로 수정하는 단계를 포함하고, 상기 제2 값은 상기 제1 값보다 크다.

제1 양태 또는 제1 양태의 제1 가능한 구현 방식 또는 제1 양태의 제2 가능한 구현 방식 또는 제1 양태의 제3 가능한 구현 방식 또는 제1 양태의 제4 가능한 구현 방식 또는 제1 양태의 제5 가능한 구현 방식에 관련하여, 제6 가능한 구현 방식에서, 상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계는:

상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 일부 또는 전부의 평균값을 획득하는 단계; 및

상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 획득된 평균값이 음악 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계를 포함한다.

제1 양태 또는 제1 양태의 제1 가능한 구현 방식 또는 제1 양태의 제2 가능한 구현 방식 또는 제1 양태의 제3 가능한 구현 방식 또는 제1 양태의 제4 가능한 구현 방식 또는 제1 양태의 제5 가능한 구현 방식에 관련하여, 제7 가능한 구현 방식에서, 상기 오디오 신호 분류 방법은:

상기 현재 오디오 프레임의 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 획득하는 단계 - 상기 주파수 스펙트럼 고주파 대역 첨도는 상기 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 나타내고; 상기 주파수 스펙트럼 상관 정도는 상기 현재 오디오 프레임의 신호 고조파 구조의, 인접한 프레임들 사이의, 안정성을 나타내고; 상기 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타냄 -; 및

상기 현재 오디오 프레임의 상기 음성 활동에 따라, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 메모리에 저장할지를 결정하는 단계를 더 포함하고,

상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 데이터의 일부 또는 전부의 통계에 따라 상기 오디오 프레임을 분류하는 단계는:

상기 저장된 주파수 스펙트럼 변동들의 상기 유효 데이터의 평균값, 상기 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값, 저장된 주파수 스펙트럼 상관 정도의 유효 데이터의 평균값, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산을 개별적으로 획득하는 단계; 및

상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값이 제1 임계치보다 작은 조건; 또는 상기 주파수 스펙트럼 고주파 대역 첨도의 상기 유효 데이터의 상기 평균값이 제2 임계치보다 큰 조건; 또는 상기 주파수 스펙트럼 상관 정도들의 상기 유효 데이터의 상기 평균값이 제3 임계치보다 큰 조건; 또는 상기 선형 예측 잔차 에너지 경사도들의 상기 유효 데이터의 상기 분산이 제4 임계치보다 작은 조건 중 하나가 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계를 포함한다.

제2 양태에 따르면, 오디오 신호 분류 장치가 제공되는데, 상기 장치는 입력 오디오 신호를 분류하도록 구성되고, 상기 장치는:

현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하여 저장할지를 결정하도록 구성된 저장 결정 유닛 - 상기 주파수 스펙트럼 변동은 오디오 신호의 주파수 스펙트럼의 에너지 변동을 나타냄 -;

상기 저장 결정 유닛이 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력할 때 상기 주파수 스펙트럼 변동을 저장하도록 구성된 메모리;

상기 오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 상기 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트하도록 구성된 업데이트 유닛; 및

상기 메모리에 저장된 상기 주파수 스펙트럼 변동들의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구성된 분류 유닛을 포함한다.

제1 가능한 구현 방식에서, 상기 저장 결정 유닛은, 상기 현재 오디오 프레임이 활성 프레임인 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성된다.

제2 가능한 구현 방식에서, 상기 저장 결정 유닛은, 상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임이 에너지 충격에 속하지 않는 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성된다.

제3 가능한 구현 방식에서, 상기 저장 결정 유닛은, 상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임과 상기 현재 오디오 프레임의 과거의 프레임을 포함하는 복수의 연속 프레임 중 어느 것도 에너지 충격에 속하지 않는 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성된다.

제2 양태 또는 제2 양태의 제1 가능한 구현 방식 또는 제2 양태의 제2 가능한 구현 방식 또는 제2 양태의 제3 가능한 구현 방식에 관련하여, 제4 가능한 구현 방식에서, 상기 업데이트 유닛은, 상기 현재 오디오 프레임이 타악기적 음악에 속한다면, 상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 값들을 수정하도록 구체적으로 구성된다.

제2 양태 또는 제2 양태의 제1 가능한 구현 방식 또는 제2 양태의 제2 가능한 구현 방식 또는 제2 양태의 제3 가능한 구현 방식에 관련하여, 제5 가능한 구현 방식에서, 상기 업데이트 유닛은, 상기 현재 오디오 프레임이 활성 프레임이고, 이전 오디오 프레임이 비활성 프레임이면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 제외하고 상기 메모리에 저장된 다른 주파수 스펙트럼 변동들의 데이터를 무효 데이터로 수정하거나; 또는

상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임 전의 3개의 연속 프레임들이 모두 활성 프레임은 아니면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 제1 값으로 수정하거나; 또는

상기 현재 오디오 프레임이 활성 프레임이고, 과거의 분류 결과가 음악 신호이고 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 제2 값보다 크면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 상기 제2 값으로 수정하도록 구체적으로 구성되고, 상기 제2 값은 상기 제1 값보다 크다.

제2 양태 또는 제2 양태의 제1 가능한 구현 방식 또는 제2 양태의 제2 가능한 구현 방식 또는 제2 양태의 제3 가능한 구현 방식 또는 제2 양태의 제4 가능한 구현 방식 또는 제2 양태의 제5 가능한 구현 방식에 관련하여, 제6 가능한 구현 방식에서, 상기 분류 유닛은:

상기 메모리에 저장된 상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 일부 또는 전부의 평균값을 획득하도록 구성된 계산 유닛; 및

상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값을 음악 분류 조건과 비교하고; 상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값이 상기 음악 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하도록 구성된 결정 유닛을 포함한다.

제2 양태 또는 제2 양태의 제1 가능한 구현 방식 또는 제2 양태의 제2 가능한 구현 방식 또는 제2 양태의 제3 가능한 구현 방식 또는 제2 양태의 제4 가능한 구현 방식 또는 제2 양태의 제5 가능한 구현 방식에 관련하여, 제7 가능한 구현 방식에서, 상기 오디오 신호 분류 장치는:

상기 현재 오디오 프레임의 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 보이싱 파라미터(voicing parameter), 및 선형 예측 잔차 에너지 경사도를 획득하도록 구성된 파라미터 획득 유닛을 더 포함하고, 여기서 상기 주파수 스펙트럼 고주파 대역 첨도는 상기 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 나타내고; 상기 주파수 스펙트럼 상관 정도는 상기 현재 오디오 프레임의 신호 고조파 구조의, 인접한 프레임들 사이의, 안정성을 나타내고; 상기 보이싱 파라미터는 상기 현재 오디오 프레임과 피치 기간 전의 신호 사이의 시간 도메인 상관 정도를 나타내고; 상기 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타내고;

상기 저장 결정 유닛은, 상기 현재 오디오 프레임의 상기 음성 활동에 따라, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 메모리들에 저장할지를 결정하도록 더 구성되고;

상기 저장 유닛은, 상기 저장 결정 유닛이 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도가 저장될 필요가 있다는 결과를 출력할 때, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 저장하도록 더 구성되고;

상기 분류 유닛은, 상기 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 상기 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 상기 유효 데이터의 상기 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구체적으로 구성된다.

상기 제2 양태의 상기 제7 가능한 구현 방식에 관련하여, 제8 가능한 구현 방식에서, 상기 분류 유닛은:

상기 저장된 주파수 스펙트럼 변동들의 상기 유효 데이터의 평균값, 상기 저장된 주파수 스펙트럼 고주파 대역 첨도의 상기 유효 데이터의 평균값, 상기 저장된 주파수 스펙트럼 상관 정도들의 상기 유효 데이터의 평균값, 및 상기 저장된 선형 예측 잔차 에너지 경사도들의 상기 유효 데이터의 분산을 개별적으로 획득하도록 구성된 계산 유닛; 및

상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값이 제1 임계치보다 작은 조건; 또는 상기 주파수 스펙트럼 고주파 대역 첨도의 상기 유효 데이터의 상기 평균값이 제2 임계치보다 큰 조건; 또는 상기 주파수 스펙트럼 상관 정도들의 상기 유효 데이터의 상기 평균값이 제3 임계치보다 큰 조건; 또는 상기 선형 예측 잔차 에너지 경사도들의 상기 유효 데이터의 상기 분산이 제4 임계치보다 작은 조건 중 하나가 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하도록 구성된 결정 유닛을 포함한다.

제3 양태에 따르면, 오디오 신호 분류 방법이 제공되는데, 상기 방법은:

입력 오디오 신호에 대해 프레임 분할 처리를 수행하는 단계;

현재 오디오 프레임의 선형 예측 잔차 에너지 경사도를 획득하는 단계 - 상기 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타냄 -;

상기 선형 예측 잔차 에너지 경사도를 메모리에 저장하는 단계; 및

상기 메모리 내의 예측 잔차 에너지 경사도들의 데이터의 일부의 통계에 따라 상기 오디오 프레임을 분류하는 단계를 포함한다.

제1 가능한 구현 방식에서, 상기 선형 예측 잔차 에너지 경사도를 메모리에 저장하기 전에, 상기 방법은:

상기 현재 오디오 프레임의 음성 활동에 따라, 상기 선형 예측 잔차 에너지 경사도를 메모리에 저장할지를 결정하고; 상기 선형 예측 잔차 에너지 경사도가 저장될 필요가 있는 것으로 결정될 때 상기 선형 예측 잔차 에너지 경사도를 상기 메모리에 저장하는 단계를 더 포함한다.

상기 제3 양태 또는 상기 제3 양태의 상기 제1 가능한 구현 방식에 관련하여, 제2 가능한 구현 방식에서, 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 통계는 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 분산이고; 상기 메모리 내의 예측 잔차 에너지 경사도들의 데이터의 일부의 통계에 따라 상기 오디오 프레임을 분류하는 단계는:

상기 예측 잔차 에너지 경사도들의 데이터의 일부의 분산을 음악 분류 임계치와 비교하고, 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 분산이 상기 음악 분류 임계치보다 작을 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계를 포함한다.

상기 제3 양태 또는 상기 제3 양태의 상기 제1 가능한 구현 방식에 관련하여, 제3 가능한 구현 방식에서, 상기 오디오 신호 분류 방법은:

상기 현재 오디오 프레임의 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 및 주파수 스펙트럼 상관 정도를 획득하고, 상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 및 상기 주파수 스펙트럼 상관 정도를 대응하는 메모리들에 저장하는 단계를 더 포함하고,

상기 메모리 내의 예측 잔차 에너지 경사도들의 데이터의 일부의 통계에 따라 상기 오디오 프레임을 분류하는 단계는:

저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 상기 유효 데이터의 상기 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계를 포함하고, 상기 유효 데이터의 상기 통계는 상기 메모리들에 저장된 상기 유효 데이터에 대해 계산 동작이 수행된 후에 획득되는 데이터 값을 지칭한다.

상기 제3 양태의 상기 제3 가능한 구현 방식에 관련하여, 제4 가능한 구현 방식에서, 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도의 유효 데이터의 통계, 및 상기 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 상기 유효 데이터의 상기 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계는:

상기 저장된 주파수 스펙트럼 변동들의 상기 유효 데이터의 평균값, 상기 저장된 주파수 스펙트럼 고주파 대역 첨도의 상기 유효 데이터의 평균값, 상기 저장된 주파수 스펙트럼 상관 정도들의 상기 유효 데이터의 평균값, 및 상기 저장된 선형 예측 잔차 에너지 경사도들의 상기 유효 데이터의 분산을 개별적으로 획득하는 단계; 및

상기 제3 양태 또는 상기 제3 양태의 상기 제1 가능한 구현 방식에 관련하여, 제5 가능한 구현 방식에서, 상기 오디오 신호 분류 방법은:

상기 현재 오디오 프레임의 주파수 스펙트럼 톤 수량 및 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율을 획득하고, 상기 주파수 스펙트럼 톤 수량 및 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 상기 비율을 대응하는 메모리들에 저장하는 단계를 더 포함하고,

상기 저장된 선형 예측 잔차 에너지 경사도들의 통계 및 저장된 주파수 스펙트럼 톤 수량들의 통계를 개별적으로 획득하는 단계; 및

상기 선형 예측 잔차 에너지 경사도들의 통계, 상기 주파수 스펙트럼 톤 수량들의 통계, 및 상기 저주파 대역에서의 상기 주파수 대역 톤 수량의 비율에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계를 포함하고, 상기 통계는 상기 메모리들에 저장된 데이터에 대해 계산 동작이 수행된 후에 획득되는 데이터 값을 지칭한다.

상기 제3 양태의 상기 제5 가능 구현 방식에 관련하여, 제6 가능 구현 방식에서, 상기 저장된 선형 예측 잔차 에너지 경사도들의 통계 및 저장된 주파수 스펙트럼 톤 수량들의 통계를 개별적으로 획득하는 단계는:

상기 저장된 선형 예측 잔차 에너지 경사도들의 분산을 획득하는 단계; 및

상기 저장된 주파수 스펙트럼 톤 수량들의 평균값을 획득하는 단계를 포함하고;

상기 선형 예측 잔차 에너지 경사도들의 통계, 상기 주파수 스펙트럼 톤 수량들의 통계, 및 상기 저주파 대역에서의 상기 주파수 대역 톤 수량의 비율에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계는:

상기 현재 오디오 프레임이 활성 프레임이고,

상기 선형 예측 잔차 에너지 경사도들의 분산이 제5 임계치보다 작은 조건; 또는

상기 주파수 스펙트럼 톤 수량들의 평균값이 제6 임계치보다 큰 조건; 또는

상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율이 제7 임계치보다 작은 조건

중 하나가 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계를 포함한다.

상기 제3 양태 또는 상기 제3 양태의 상기 제1 가능한 구현 방식 또는 상기 제3 양태의 상기 제2 가능한 구현 방식 또는 상기 제3 양태의 상기 제3 가능한 구현 방식 또는 상기 제3 양태의 상기 제4 가능한 구현 방식 또는 상기 제3 양태의 상기 제5 가능한 구현 방식 또는 상기 제3 양태의 상기 제6 가능한 구현 방식에 관련하여, 제7 가능한 구현 방식에서, 현재 오디오 프레임의 선형 예측 잔차 에너지 경사도를 획득하는 단계는:

의 식에 따라 상기 현재 오디오 프레임의 상기 선형 예측 잔차 에너지 경사도를 획득하는 단계를 포함하고,

상기 식에서 epsP(i)는 상기 현재 오디오 프레임의 i번째 차수 선형 예측의 예측 잔차 에너지를 나타내고; n은 양의 정수이고, 선형 예측 차수를 나타내고, 최대 선형 예측 차수 이하이다.

상기 제3 양태의 상기 제5 가능한 구현 방식 또는 상기 제3 양태의 상기 제6 가능한 구현 방식에 관련하여, 제8 가능한 구현 방식에서, 상기 현재 오디오 프레임의 주파수 스펙트럼 톤 수량 및 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율을 획득하는 단계는:

0 내지 8 kHz의 주파수 대역에 있고 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량을 카운트하여, 상기 수량을 상기 주파수 스펙트럼 톤 수량으로서 이용하는 단계; 및

0 내지 8 kHz의 주파수 대역에 있고 상기 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량에 대한 0 내지 4 kHz의 주파수 대역에 있고 상기 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량의 비율을 계산하여, 상기 비율을 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 상기 비율로서 이용하는 단계를 포함한다.

제4 양태에 따르면, 신호 분류 장치가 제공되는데, 상기 장치는 입력 오디오 신호를 분류하도록 구성되고, 상기 장치는:

입력 오디오 신호에 대해 프레임 분할 처리를 수행하도록 구성된 프레임 분할 유닛;

현재 오디오 프레임의 선형 예측 잔차 에너지 경사도를 획득하도록 구성된 파라미터 획득 유닛 - 상기 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타냄 -;

상기 선형 예측 잔차 에너지 경사도를 저장하도록 구성된 저장 유닛; 및

메모리 내의 예측 잔차 에너지 경사도들의 데이터의 일부의 통계에 따라 상기 오디오 프레임을 분류하도록 구성된 분류 유닛을 포함한다.

제1 가능한 구현 방식에서, 상기 신호 분류 장치는:

상기 현재 오디오 프레임의 음성 활동에 따라, 상기 선형 예측 잔차 에너지 경사도를 상기 메모리에 저장할지를 결정하도록 구성된 저장 결정 유닛을 더 포함하고,

상기 저장 유닛은, 상기 저장 결정 유닛이 상기 선형 예측 잔차 에너지 경사도가 저장될 필요가 있는 것으로 결정할 때 상기 선형 예측 잔차 에너지 경사도를 상기 메모리에 저장하도록 구체적으로 구성된다.

상기 제4 양태 또는 상기 제4 양태의 상기 제1 가능한 구현 방식에 관련하여, 제2 가능한 구현 방식에서, 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 통계는 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 분산이고;

상기 분류 유닛은, 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 분산을 음악 분류 임계치와 비교하고, 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 분산이 상기 음악 분류 임계치보다 작을 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하도록 구체적으로 구성된다.

상기 제4 양태 또는 상기 제4 양태의 상기 제1 가능한 구현 방식에 관련하여, 제3 가능한 구현 방식에서, 상기 파라미터 획득 유닛은: 상기 현재 오디오 프레임의 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 및 주파수 스펙트럼 상관 정도를 획득하고, 상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 및 상기 주파수 스펙트럼 상관 정도를 대응하는 메모리들에 저장하도록 더 구성되고;

상기 분류 유닛은, 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 통계, 및 상기 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 상기 유효 데이터의 상기 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구체적으로 구성되고, 상기 유효 데이터의 상기 통계는 상기 메모리들에 저장된 상기 유효 데이터에 대해 계산 동작이 수행된 후에 획득되는 데이터 값을 지칭한다.

상기 제4 양태의 상기 제3 가능한 구현 방식에 관련하여, 제4 가능한 구현 방식에서, 상기 분류 유닛은:

상기 제4 양태 또는 상기 제4 양태의 상기 제1 가능한 구현 방식에 관련하여, 제5 가능한 구현 방식에서, 상기 파라미터 획득 유닛은, 상기 현재 오디오 프레임의 주파수 스펙트럼 톤 수량 및 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율을 획득하고, 상기 주파수 스펙트럼 톤 수량 및 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 상기 비율을 메모리들에 저장하도록 더 구성되고;

상기 분류 유닛은, 상기 저장된 선형 예측 잔차 에너지 경사도들의 통계 및 저장된 주파수 스펙트럼 톤 수량들의 통계를 개별적으로 획득하고; 상기 선형 예측 잔차 에너지 경사도들의 통계, 상기 주파수 스펙트럼 톤 수량들의 통계, 및 상기 저주파 대역에서의 상기 주파수 대역 톤 수량의 비율에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구체적으로 구성되고, 상기 유효 데이터의 상기 통계는 상기 메모리들에 저장된 데이터에 대해 계산 동작이 수행된 후에 획득되는 데이터 값을 지칭한다.

상기 제4 양태의 상기 제5 가능 구현 방식에 관련하여, 제6 가능 구현 방식에서, 상기 분류 유닛은:

상기 저장된 선형 예측 잔차 에너지 경사도들의 분산 및 상기 저장된 주파수 스펙트럼 톤 수량들의 평균값을 획득하도록 구성된 계산 유닛; 및

상기 현재 오디오 프레임이 활성 프레임이고, 상기 선형 예측 잔차 에너지 경사도들의 분산이 제5 임계치보다 작은 조건; 또는 상기 주파수 스펙트럼 톤 수량들의 평균값이 제6 임계치보다 큰 조건; 또는 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율이 제7 임계치보다 작은 조건 중 하나가 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하도록 구성된 결정 유닛을 포함한다.

상기 제4 양태 또는 상기 제4 양태의 상기 제1 가능한 구현 방식 또는 상기 제4 양태의 상기 제2 가능한 구현 방식 또는 상기 제4 양태의 상기 제3 가능한 구현 방식 또는 상기 제4 양태의 상기 제4 가능한 구현 방식 또는 상기 제4 양태의 상기 제5 가능한 구현 방식 또는 상기 제4 양태의 상기 제6 가능한 구현 방식에 관련하여, 제7 가능한 구현 방식에서, 상기 파라미터 획득 유닛은,

의 식에 따라 상기 현재 오디오 프레임의 상기 선형 예측 잔차 에너지 경사도를 획득하고,

상기 제4 양태의 상기 제5 가능한 구현 방식 또는 상기 제4 양태의 상기 제6 가능한 구현 방식에 관련하여, 제8 가능한 구현 방식에서, 상기 파라미터 획득 유닛은, 0 내지 8 kHz의 주파수 대역에 있고 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량을 카운트하여, 상기 수량을 상기 주파수 스펙트럼 톤 수량으로서 이용하도록 구성되고; 상기 파라미터 획득 유닛은, 0 내지 8 kHz의 주파수 대역에 있고 상기 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량에 대한 0 내지 4 kHz의 주파수 대역에 있고 상기 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량의 비율을 계산하여, 상기 비율을 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 상기 비율로서 이용하도록 구성된다.

본 발명의 실시예들에서는, 오디오 신호가 주파수 스펙트럼 변동들의 장시간 통계에 따라 분류되고; 그러므로, 비교적 소수의 파라미터들이 존재하고, 인식률이 비교적 높고, 복잡성이 비교적 낮다. 게다가, 주파수 스펙트럼 변동들은 음성 활동 및 타악기적 음악과 같은 인자들을 고려하여 조정되어, 본 발명은 음악 신호에 대한 더 높은 인식률을 가지며, 혼합 오디오 신호 분류에 적합하다.

본 발명의 실시예들에서의 기술적 해법들을 보다 명확하게 설명하기 위해, 다음은 실시예들을 설명하는 데 필요한 첨부 도면들을 간단히 소개한다. 명백히, 다음 설명에서의 첨부 도면들은 본 발명의 일부 실시예들을 보여주는 것에 불과하고, 본 기술 분야의 통상의 기술자는 창의적인 노력 없이도 이 첨부 도면들로부터 다른 도면들을 도출할 수 있다.
도 1은 오디오 신호를 프레임들로 분할하는 것에 대한 개략도이다;
도 2는 본 발명에 따른 오디오 신호 분류 방법의 일 실시예의 개략 순서도이다;
도 3은 본 발명에 따른 주파수 스펙트럼 변동을 획득하는 것에 대한 일 실시예의 개략 순서도이다;
도 4는 본 발명에 따른 오디오 신호 분류 방법의 다른 실시예의 개략 순서도이다;
도 5는 본 발명에 따른 오디오 신호 분류 방법의 다른 실시예의 개략 순서도이다;
도 6은 본 발명에 따른 오디오 신호 분류 방법의 다른 실시예의 개략 순서도이다;
도 7 내지 도 10은 본 발명에 따른 오디오 신호 분류의 구체적인 분류 순서도들이다;
도 11은 본 발명에 따른 오디오 신호 분류 방법의 다른 실시예의 개략 순서도이다;
도 12는 본 발명에 따른 오디오 신호 분류의 구체적인 분류 순서도이다;
도 13은 본 발명에 따른 오디오 신호 분류 장치의 일 실시예의 개략 구조도이다;
도 14는 본 발명에 따른 분류 유닛의 일 실시예의 개략 구조도이다;
도 15는 본 발명에 따른 오디오 신호 분류 장치의 다른 실시예의 개략 구조도이다;
도 16은 본 발명에 따른 오디오 신호 분류 장치의 다른 실시예의 개략 구조도이다;
도 17은 본 발명에 따른 분류 유닛의 일 실시예의 개략 구조도이다;
도 18은 본 발명에 따른 오디오 신호 분류 장치의 다른 실시예의 개략 구조도이다;
도 19는 본 발명에 따른 오디오 신호 분류 장치의 다른 실시예의 개략 구조도이다.

아래에서는 본 발명의 실시예들의 첨부 도면들을 참조하여 본 발명의 실시예들의 기술적 해법들이 명확하게 설명된다. 분명히, 설명되는 실시예들은 본 발명의 실시예들의 전부가 아니라 일부일 뿐이다. 창조적인 노력 없이 본 발명의 실시예들에 기초하여 이 분야의 통상의 기술자에 의해 얻어지는 모든 다른 실시예들은 본 발명의 보호 범위 내에 속해야 한다.

디지털 신호 처리의 분야에서는, 오디오 코덱들 및 비디오 코덱들이 다양한 전자 장치들, 예로서 이동 전화, 무선 기기, 개인 휴대 단말기(PDA), 핸드헬드 또는 휴대용 컴퓨터, GPS 수신기/내비게이터, 카메라, 오디오/비디오 플레이어, 비디오 카메라, 비디오 레코더 및 모니터링 장치에서 광범위하게 적용된다. 일반적으로, 이러한 타입의 전자 장치는 오디오 인코더 및 오디오 디코더를 포함하고, 오디오 인코더 또는 디코더는 디지털 회로 또는 칩, 예로서 DSP(digital signal processor)에 의해 직접 구현되거나, 소프트웨어 코드 내의 프로세스를 실행하도록 프로세서를 구동하는 소프트웨어 코드에 의해 구현될 수 있다. 오디오 인코더에서는, 오디오 신호가 먼저 분류되고, 상이한 타입의 오디오 신호들이 상이한 인코딩 모드들에서 인코딩되며, 이어서 인코딩 후에 획득된 비트스트림이 디코더 측으로 전송된다.

일반적으로, 오디오 신호는 프레임 분할 방식으로 처리되며, 신호의 각각의 프레임은 지정된 지속기간의 오디오 신호를 나타낸다. 도 1을 참조하면, 현재 입력되고 분류되어야 하는 오디오 프레임이 현재 오디오 프레임으로 지칭될 수 있으며, 현재 오디오 프레임 전의 임의의 오디오 프레임이 과거의 오디오 프레임으로 지칭될 수 있다. 현재 오디오 프레임으로부터 과거의 오디오 프레임들까지의 시간 시퀀스에 따르면, 과거의 오디오 프레임들은 순차적으로 이전 오디오 프레임, 이전 두 번째 오디오 프레임, 이전 세 번째 오디오 프레임 및 이전 N 번째 오디오 프레임이 될 수 있으며, 여기서 N은 4 이상이다.

이 실시예에서, 입력 오디오 신호는 16 kHz로 샘플링된 광대역 오디오 신호이고, 입력 오디오 신호는 20 ms를 하나의 프레임으로 사용하여 프레임들로 분할되는데, 즉 각각의 프레임은 320개의 시간 도메인 샘플링 포인트를 갖는다. 특성 파라미터가 추출되기 전에, 입력 오디오 신호 프레임이 먼저 12.8 kHz의 샘플링 레이트로 다운샘플링되는데, 즉 각각의 프레임 내에 256개의 샘플링 포인트가 존재한다. 각각의 입력 오디오 신호 프레임은 아래에서 다운샘플링 후에 획득된 오디오 신호 프레임을 지칭한다.

도 2를 참조하면, 오디오 신호 분류 방법의 일 실시예는 다음의 단계를 포함한다.

S101: 입력 오디오 신호에 대해 프레임 분할 처리를 수행하고, 현재 오디오 프레임의 음성 활동에 따라, 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하여 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지를 결정하며, 주파수 스펙트럼 변동은 오디오 신호의 주파수 스펙트럼의 에너지 변동을 나타낸다.

오디오 신호 분류는 일반적으로 프레임별로 수행되며, 파라미터를 각각의 오디오 신호 프레임으로부터 추출하여, 분류를 수행하고, 오디오 신호 프레임이 스피치 프레임 또는 음악 프레임에 속하는지를 결정하고, 대응하는 인코딩 모드에서 인코딩을 수행한다. 일 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동은 오디오 신호에 대해 프레임 분할 처리가 수행된 후에 획득될 수 있고, 이어서 현재 오디오 프레임의 음성 활동에 따라 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지가 결정된다. 다른 실시예에서, 오디오 신호에 대해 프레임 분할 처리가 수행된 후, 현재 오디오 프레임의 음성 활동에 따라 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지가 결정될 수 있고, 주파수 스펙트럼 변동이 저장되어야 할 때, 주파수 스펙트럼 변동이 획득 및 저장된다.

주파수 스펙트럼 변동 flux는 신호의 주파수 스펙트럼의 단시간 또는 장시간 에너지 변동을 나타내고, 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임 및 과거의 프레임의 대응하는 주파수들 간의 대수 에너지 차이들의 절대값들의 평균값이며, 과거의 프레임은 현재 오디오 프레임 전의 임의의 프레임을 지칭한다. 일 실시예에서, 주파수 스펙트럼 변동은 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임 및 현재 오디오 프레임의 과거의 프레임의 대응하는 주파수들 간의 대수 에너지 차이들의 절대값들의 평균값이다. 다른 실시예에서, 주파수 스펙트럼 변동은 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임 및 과거의 프레임의 대응하는 주파수 스펙트럼 피크 값들 간의 대수 에너지 차이들의 절대값들의 평균값이다.

도 3을 참조하면, 주파수 스펙트럼 변동을 획득하기 위한 일 실시예는 아래의 단계들을 포함한다.

S1011: 현재 오디오 프레임의 주파수 스펙트럼을 획득한다.

일 실시예에서, 오디오 프레임의 주파수 스펙트럼이 직접 획득될 수 있으며; 다른 실시예에서는 현재 오디오 프레임의 임의의 2개의 서브프레임의 주파수 스펙트럼들, 즉 에너지 스펙트럼들이 획득되고, 현재 오디오 프레임의 주파수 스펙트럼이 2개의 서브프레임의 주파수 스펙트럼들의 평균값을 이용하여 획득된다.

S1012: 현재 오디오 프레임의 과거의 프레임의 주파수 스펙트럼을 획득한다.

과거의 프레임은 현재 오디오 프레임 전의 임의의 오디오 프레임을 지칭하며, 일 실시예에서는 현재 오디오 프레임 전의 세 번째 오디오 프레임일 수 있다.

S1013: 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임과 과거의 프레임의 대응하는 주파수들 사이의 대수 에너지 차이들의 절대값들의 평균값을 계산하여, 이 평균값을 현재 오디오 프레임의 주파수 스펙트럼 변동으로 이용한다.

일 실시예에서, 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임의 모든 주파수 빈들의 대수 에너지와 저대역 및 중간 대역 스펙트럼 상의 과거의 프레임의 대응하는 주파수 빈들의 대수 에너지 사이의 차이들의 절대값들의 평균값이 계산될 수 있다.

다른 실시예에서, 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임의 주파수 스펙트럼 피크 값들의 대수 에너지와 저대역 및 중간 대역 스펙트럼 상의 과거의 프레임의 대응하는 주파수 스펙트럼 피크 값들의 대수 에너지 사이의 차이들의 절대값들의 평균값이 계산될 수 있다.

저대역 및 중간 대역 스펙트럼은 예를 들어 0 내지 fs/4 또는 0 내지 fs/3의 주파수 스펙트럼 범위이다.

입력 오디오 신호가 16 kHz로 샘플링된 광대역 오디오 신호이고, 입력 오디오 신호가 20 ms를 한 프레임으로 사용하는 일례가 사용되고, 256 포인트의 선행 FFT 및 256 포인트의 후속 FFT가 20 ms마다의 현재 오디오 프레임에 대해 수행되고, 2개의 FFT 윈도가 50% 중첩되고, 현재 오디오 프레임의 2개의 서브프레임의 주파수 스펙트럼들(에너지 스펙트럼들)이 획득되고, 각각 C⁰(i) 및 C¹(i)로서 표시되며, i = 0, 1, ..., 127이고, C^x(i)는 x 번째 서브프레임의 주파수 스펙트럼을 나타낸다. 이전 프레임의 제2 서브프레임의 데이터가 현재 오디오 프레임의 제1 서브프레임의 FFT를 위해 사용되어야 하며, 여기서

이고, 여기서 rel(i) 및 img(i)는 각각 i 번째 주파수 빈의 FFT 계수의 실수부 및 허수부를 나타낸다. 현재 오디오 프레임의 주파수 스펙트럼 C(i)는 2개의 서브프레임의 주파수 스펙트럼들을 평균화함으로써 획득되며, 여기서

이다.

현재 오디오 프레임의 주파수 스펙트럼 변동 flux는 일 실시예에서 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임 및 현재 오디오 프레임의 60 ms 전의 프레임의 대응하는 주파수들 간의 대수 에너지 차이들의 절대값들의 평균값이며, 간격은 다른 실시예에서는 60 ms가 아닐 수 있고, 여기서

이고, 여기서 C_- ₃(i)는 현재 오디오 프레임 전의 세 번째 과거의 프레임, 즉 이 실시예에서 프레임 길이가 20 ms일 때의 현재 오디오 프레임의 60 ms 전의 과거의 프레임의 주파수 스펙트럼을 나타낸다. 본 명세서에서 X_-n()과 유사한 각각의 형태는 현재 오디오 프레임의 n 번째 과거의 프레임의 파라미터(X)를 나타내며, 현재 오디오 프레임에 대해서는 첨자 0이 생략될 수 있다. log(.)는 10을 밑으로 하는 대수를 나타낸다.

다른 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동 flux는 다음의 방법을 이용하여 획득될 수도 있는데, 즉 주파수 스펙트럼 변동 flux는 저대역 및 중간 대역 스펙트럼 상의 현재 오디오 프레임 및 현재 오디오 프레임의 60 ms 전의 프레임의 대응하는 주파수 스펙트럼 피크 값들 간의 대수 에너지 차이들의 절대값들의 평균값이며, 여기서

이고, 여기서 P(i)는 현재 오디오 프레임의 주파수 스펙트럼의 i 번째 로컬 피크 값의 에너지를 나타내고, 로컬 피크 값이 위치하는 주파수 빈은 인접하는 더 높은 주파수 빈의 에너지 및 인접하는 더 낮은 주파수 빈의 에너지보다 큰 에너지를 갖는 주파수 스펙트럼 상의 주파수 빈이고, K는 저대역 및 중간 대역 스펙트럼 상의 로컬 피크 값들의 양을 나타낸다.

현재 오디오 프레임의 음성 활동에 따라 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지를 결정하는 단계는 다수의 방식으로 구현될 수 있다.

일 실시예에서, 오디오 프레임의 음성 활동 파라미터가 오디오 프레임이 활성 프레임인 것을 나타내는 경우, 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장되고, 그렇지 않은 경우에는 주파수 스펙트럼 변동이 저장되지 않는다.

다른 실시예에서는, 오디오 프레임의 음성 활동 및 오디오 프레임이 에너지 충격인지에 따라, 주파수 스펙트럼 변동을 메모리에 저장할지가 결정된다. 오디오 프레임의 음성 활동 파라미터가 오디오 프레임이 활성 프레임인 것을 나타내고, 오디오 프레임이 에너지 충격인지를 나타내는 파라미터가 오디오 프레임이 에너지 충격에 속하지 않는다는 것을 나타내는 경우, 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장되며, 그렇지 않은 경우에는 주파수 스펙트럼 변동이 저장되지 않는다. 다른 실시예에서, 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임 및 현재 오디오 프레임의 과거의 오디오 프레임을 포함하는 다수의 연속 프레임 중 어느 것도 에너지 충격에 속하지 않는 경우, 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장되며, 그렇지 않은 경우에는 주파수 스펙트럼 변동은 저장되지 않는다. 예를 들어, 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임, 이전 오디오 프레임 및 이전 두 번째 오디오 프레임 중 어느 것도 에너지 충격에 속하지 않는 경우, 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장되며, 그렇지 않은 경우에는 주파수 스펙트럼 변동은 저장되지 않는다.

음성 활동 플래그 vad_flag는 현재 입력 신호가 활성 전경 신호(스피치, 음악 등) 또는 전경 신호의 침묵 배경 신호(예로서, 배경 잡음 또는 뮤트)인지를 나타내며, 음성 활동 검출기(VAD)에 의해 획득된다. vad_flag = 1은 입력 신호 프레임이 활성 프레임, 즉 전경 신호 프레임인 것으로 나타내며, 이와 달리 vad_flag = 0은 배경 신호 프레임을 나타낸다. VAD는 본 발명의 발명 내용에 속하지 않으므로, 여기서는 VAD의 특정 알고리즘이 설명되지 않는다.

음성 충격 플래그 attack_flag는 현재 오디오 프레임이 음악 내의 에너지 충격에 속하는지를 나타낸다. 현재 오디오 프레임 전의 여러 과거의 프레임이 주로 음악 프레임들일 때, 현재 오디오 프레임의 프레임 에너지가 현재 오디오 프레임 전의 첫 번째 과거의 프레임의 프레임 에너지에 비해 상대적으로 크게 증가하고, 현재 오디오 프레임 전의 소정 기간 내에 있는 오디오 프레임들의 평균 에너지에 비해 상대적으로 크게 증가하며, 현재 오디오 프레임의 시간 도메인 포락선이 현재 오디오 프레임 전의 소정 기간 내에 있는 오디오 프레임들의 평균 포락선에 비해 상대적으로 크게 증가하는 경우, 현재 오디오 프레임은 음악 내의 에너지 충격에 속하는 것으로 간주된다.

현재 오디오 프레임의 음성 활동에 따라, 현재 오디오 프레임이 활성 프레임일 때만 현재 오디오 프레임의 주파수 스펙트럼 변동이 저장되며, 이는 비활성 프레임의 오판정율을 줄이고, 오디오 분류의 인식률을 개선할 수 있다.

아래의 조건들이 충족될 때, attack_flag는 1로 설정되는데, 즉 현재 오디오 프레임이 하나의 음악 내의 에너지 충격이라는 것을 나타내며:

여기서, etot는 현재 오디오 프레임의 대수 프레임 에너지를 나타내고; etot_-1은 이전 오디오 프레임의 대수 프레임 에너지를 나타내고; lp_speech는 대수 프레임 에너지 etot의 장시간 이동 평균을 나타내고; log_max_spl 및 mov_log_max_spl은 각각 현재 오디오 프레임의 시간 도메인 최대 대수 샘플링 포인트 진폭 및 시간 도메인 최대 대수 샘플링 포인트 진폭의 장시간 이동 평균을 나타내고; mode_mov는 신호 분류에서의 과거의 최종 분류 결과들의 장시간 이동 평균을 나타낸다.

이전의 공식의 의미는, 현재 오디오 프레임 전의 여러 과거의 프레임이 주로 음악 프레임들일 때, 현재 오디오 프레임의 프레임 에너지가 현재 오디오 프레임 전의 첫 번째 과거의 프레임의 프레임 에너지에 비해 상대적으로 크게 증가하고, 현재 오디오 프레임 전의 소정 기간 내에 있는 오디오 프레임들의 평균 에너지에 비해 상대적으로 크게 증가하며, 현재 오디오 프레임의 시간 도메인 포락선도 현재 오디오 프레임 전의 소정 기간 내에 있는 오디오 프레임들의 평균 포락선에 비해 상대적으로 크게 증가하는 경우, 현재 오디오 프레임은 음악 내의 에너지 충격에 속하는 것으로 간주된다는 것이다.

대수 프레임 에너지 etot는 입력 오디오 프레임의 대수적인 전체 부대역 에너지에 의해 표시되며:

여기서, hb(j) 및 lb(j)는 각각 입력 오디오 프레임의 주파수 스펙트럼 내의 j 번째 부대역의 고주파 경계 및 저주파 경계를 나타내고, C(i)는 입력 오디오 프레임의 주파수 스펙트럼을 나타낸다.

현재 오디오 프레임의 시간 도메인 최대 대수 샘플링 포인트 진폭의 장시간 이동 평균 mov_log_max_spl은 다음과 같이 활성 음성 프레임에서만 업데이트된다.

일 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동 flux는 FIFO flux 이력 버퍼(historical buffer) 내에 버퍼링된다. 이 실시예에서, flux 이력 버퍼의 길이는 60(60 프레임)이다. 현재 오디오 프레임의 음성 활동 및 오디오 프레임이 에너지 충격인지가 결정되며, 현재 오디오 프레임이 전경 신호 프레임이고, 현재 오디오 프레임 및 현재 오디오 프레임 전의 2개의 프레임 중 어느 것도 음악의 에너지 충격에 속하지 않을 때, 현재 오디오 프레임의 주파수 스펙트럼 변동 flux가 메모리에 저장된다.

현재 오디오 프레임의 flux가 버퍼링되기 전에, 아래의 조건들이 충족되는지가 검사되며:

조건들이 충족되는 경우에 flux가 버퍼링되고, 그렇지 않은 경우에는 flux가 버퍼링되지 않는다.

vad_flag는 현재 입력 신호가 활성 전경 신호 또는 전경 신호의 침묵 배경 신호인지를 나타내고, vad_flag = 0은 배경 신호 프레임을 나타내고, attack_flag는 현재 오디오 프레임이 음악 내의 에너지 충격에 속하는지를 나타내고, attack_flag = 1은 현재 오디오 프레임이 하나의 음악 내의 에너지 충격임을 나타낸다.

이전의 공식의 의미는 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임, 이전 오디오 프레임 및 이전 두 번째 오디오 프레임 중 어느 것도 에너지 충격에 속하지 않는다는 것이다.

S102: 오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트한다.

일 실시예에서, 오디오 프레임이 타악기적 음악에 속하는지를 나타내는 파라미터가 현재 오디오 프레임이 타악기적 음악에 속한다는 것을 나타내는 경우, 주파수 스펙트럼 변동 메모리 내에 저장된 주파수 스펙트럼 변동들의 값들이 변경되고, 주파수 스펙트럼 변동 메모리 내의 유효 주파수 스펙트럼 변동 값들이 음악 임계치 이하의 값으로 변경되며, 오디오 프레임의 주파수 스펙트럼 변동이 음악 임계치보다 작을 때, 오디오 프레임이 음악 프레임으로 분류된다. 일 실시예에서, 유효 주파수 스펙트럼 변동 값들은 5로 재설정된다. 즉, 타악기적 사운드 플래그 percus_flag가 1로 설정될 때, flux 이력 버퍼 내의 모든 유효 버터 데이터는 5로 재설정된다. 여기서, 유효 버퍼 데이터는 유효 주파수 스펙트럼 변동 값과 등가이다. 일반적으로, 음악 프레임의 주파수 스펙트럼 변동 값은 비교적 작은 반면, 스피치 프레임의 주파수 스펙트럼 변동 값은 비교적 크다. 오디오 프레임이 타악기적 음악에 속할 때, 유효 주파수 스펙트럼 변동 값들은 음악 임계치 이하의 값으로 변경되며, 이는 오디오 프레임이 음악 프레임으로 분류될 확률을 향상시키고, 따라서 오디오 신호 분류의 정확도를 개선할 수 있다.

다른 실시예에서, 메모리 내의 주파수 스펙트럼 변동들은 현재 오디오 프레임의 과거의 프레임의 활동에 따라 업데이트된다. 구체적으로, 일 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동이 주파수 스펙트럼 변동 메모리에 저장되고, 이전 오디오 프레임이 비활성 프레임인 것으로 결정되는 경우, 현재 오디오 프레임의 주파수 스펙트럼 변동을 제외하고, 주파수 스펙트럼 변동 메모리 내에 저장된 다른 주파수 스펙트럼 변동들의 데이터가 무효 데이터로 변경된다. 이전 오디오 프레임이 비활성 프레임인 반면에 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임의 음성 활동이 과거의 프레임의 음성 활동과 다를 때, 과거의 프레임의 주파수 스펙트럼 변동이 무효화되며, 이는 오디오 분류에 대한 과거의 프레임의 영향을 줄이고, 따라서 오디오 신호 분류의 정확도를 개선할 수 있다.

다른 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동이 주파수 스펙트럼 변동 메모리에 저장되고, 현재 오디오 프레임 전의 3개의 연속 프레임 모두가 활성 프레임은 아닌 것으로 결정되는 경우, 현재 오디오 프레임의 주파수 스펙트럼 변동은 제1 값으로 변경된다. 제1 값은 스피치 임계치일 수 있으며, 오디오 프레임의 주파수 스펙트럼 변동이 스피치 임계치보다 클 때, 오디오 프레임은 스피치 프레임으로 분류된다. 다른 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동이 주파수 스펙트럼 변동 메모리 내에 저장되고, 과거의 프레임의 분류 결과가 음악 프레임이고, 현재 오디오 프레임의 주파수 스펙트럼 변동이 제2 값보다 큰 것으로 결정되는 경우, 현재 오디오 프레임의 주파수 스펙트럼 변동은 제2 값으로 변경되며, 제2 값은 제1 값보다 크다.

현재 오디오 프레임의 flux가 버퍼링되고, 이전 오디오 프레임이 비활성 프레임(vad_flag = 0)인 경우, flux 이력 버퍼 내에 새로 버퍼링된 현재 오디오 프레임 flux를 제외하고, flux 이력 버퍼 내의 나머지 데이터가 모두 -1로 재설정된다(데이터가 무효화되는 것과 등가이다).

flux가 flux 이력 버퍼 내에 버퍼링되고, 현재 오디오 프레임 전의 3개의 연속 프레임 모두가 활성 프레임은 아닌 경우(vad_flag = 1), flux 이력 버퍼 내에 방금 버퍼링된 현재 오디오 프레임 flux가 16으로 변경되는데, 즉 아래의 조건들이 충족되는지가 검사되고:

조건들이 충족되지 않는 경우, flux 이력 버퍼 내에 방금 버퍼링된 현재 오디오 프레임 flux가 16으로 변경되며;

현재 오디오 프레임 전의 3개의 연속 프레임 모두가 활성 프레임인 경우(vad_flag = 1), 아래의 조건들이 충족되는지가 검사되고:

조건들이 충족되는 경우, flux 이력 버퍼 내에 방금 버퍼링된 현재 오디오 프레임 flux가 20으로 변경되고, 그렇지 않은 경우에는 어떠한 동작도 수행되지 않으며;

여기서, mode_mov는 신호 분류에서의 과거의 최종 분류 결과들의 장시간 이동 평균을 나타내고, mode_mov>0.9는 신호가 음악 신호이며, 스피치 특성이 flux에서 발생할 확률을 줄이고, 분류 결정의 안정성을 개선하기 위해, 오디오 신호의 과거의 분류 결과에 따라 flux가 제한된다는 것을 나타낸다.

현재 오디오 프레임 전의 3개의 연속 과거의 프레임 모두가 비활성 프레임이고, 현재 오디오 프레임이 활성 프레임일 때, 또는 현재 오디오 프레임 전의 3개의 연속 프레임 모두가 활성 프레임은 아니고, 현재 오디오 프레임이 활성 프레임일 때, 분류는 초기화 단계에 있다. 일 실시예에서, 분류 결과가 스피치(음악)에 치우치게 하기 위해, 현재 오디오 프레임의 주파수 스펙트럼 변동은 스피치(음악) 임계치 또는 스피치(음악) 임계치에 가까운 값으로 변경될 수 있다. 다른 실시예에서, 현재 신호 전의 신호가 스피치(음악) 신호인 경우, 현재 오디오 프레임의 주파수 스펙트럼 변동은 분류 결정의 안정성을 개선하기 위해 스피치(음악) 임계치 또는 스피치(음악) 임계치에 가까운 값으로 변경될 수 있다. 다른 실시예에서, 분류 결과가 음악에 치우치게 하기 위해, 주파수 스펙트럼 변동이 제한될 수 있는데, 즉 현재 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동이 스피치 특성인 것으로 결정하는 확률을 줄이기 위해 주파수 스펙트럼 변동이 임계치보다 크지 않도록 변경될 수 있다.

타악기적 사운드 플래그 percus_flag는 오디오 프레임 내에 타악기적 사운드가 존재하는지를 나타낸다. percus_flag가 1로 설정되는 것은 타악기적 사운드가 검출된다는 것을 나타내고, percus_flag가 0으로 설정되는 것은 타악기적 사운드가 검출되지 않는다는 것을 나타낸다.

단시간 및 장시간 양자에서 현재 신호(즉, 현재 오디오 프레임 및 현재 오디오 프레임의 여러 과거의 프레임을 포함하는 여러 개의 최신 신호 프레임) 내에 비교적 심한 에너지 돌출이 발생하고, 현재 신호가 분명한 음성 사운드(voiced sound) 특성을 갖지 않을 때, 현재 오디오 프레임 전의 여러 과거의 프레임이 주로 음악 프레임들인 경우, 현재 신호는 하나의 타악기적 음악인 것으로 간주되며, 그렇지 않은 경우, 또한 현재 신호의 서브프레임들 중 어느 것도 분명한 음성 사운드 특성을 갖지 않고, 또한 시간 도메인 포락선의 장시간 평균에 비해 현재 신호의 시간 도메인 포락선에서 상대적으로 분명한 증가가 발생하는 경우, 현재 신호는 하나의 타악기적 음악인 것으로 또한 간주된다.

타악기적 사운드 플래그 percus_flag는 아래의 단계를 수행함으로써 획득된다.

먼저, 입력 오디오 프레임의 대수 프레임 에너지 etot가 획득되며, 대수 프레임 에너지 etot는 입력 오디오 프레임의 대수적인 전체 부대역 에너지에 의해 표시되며:

여기서, hb(j) 및 lb(j)는 각각 입력 프레임의 주파수 스펙트럼 내의 j 번째 부대역의 고주파 경계 및 저주파 경계를 나타내고, C(i)는 입력 오디오 프레임의 주파수 스펙트럼을 나타낸다.

아래의 조건들이 충족될 때, percus_flag는 1로 설정되며, 그렇지 않은 경우에는 percus_flag가 0으로 설정된다:

또는

여기서, etot는 현재 오디오 프레임의 대수 프레임 에너지를 나타내고, lp_speech는 대수 프레임 에너지 etot의 장시간 이동 평균을 나타내고, voicing(0), voicing_-1(0) 및 voicing_-1(1)은 각각 현재 입력 오디오 프레임의 제1 서브프레임 및 첫 번째 과거의 프레임의 제1 및 제2 서브프레임들의 정규화된 개루프 피치 상관도들을 나타내고, 보이싱 파라미터 voicing은 선형 예측 및 분석에 의해 획득되고, 현재 오디오 프레임과 피치 주기 전의 신호 간의 시간 도메인 상관도를 나타내고, 0과 1 사이의 값을 가지며, mode_mov는 신호 분류에서의 과거의 최종 분류 결과들의 장시간 이동 평균을 나타내고, log_max_spl_-2 및 mov_log_max_spl_-2는 각각 두 번째 과거의 프레임의 시간 도메인 최대 대수 샘플링 포인트 진폭 및 시간 도메인 최대 대수 샘플링 포인트 진폭의 장시간 이동 평균을 나타낸다. lp_speech는 각각의 활성 음성 프레임(즉, vad_flag = 1인 프레임)에서 업데이트되며, lp_speech를 업데이트하기 위한 방법은 다음과 같다.

앞의 두 개의 공식의 의미는 다음과 같다: 비교적 예리한 에너지 돌출이 짧은 시간과 긴 시간의 양쪽에서 현재 신호(즉, 현재 오디오 프레임과 현재 오디오 프레임의 몇 개의 과거의 프레임들을 포함하는 몇 개의 최신 신호 프레임들)에서 발생하고 또한 현재 신호가 어떤 명백한 음성 사운드(voiced sound) 특성도 갖지 않을 때, 현재 오디오 프레임 전의 몇 개의 과거의 프레임들이 주로 음악 프레임들이라면, 현재 신호가 하나의 타악기적 음악이라고 간주되고; 다른 경우에, 또한, 현재 신호의 서브프레임들 중 어느 것도 명백한 음성 사운드 특성을 갖지 않고 또한 비교적 명백한 증가가 이것의 긴 시간 평균에 관하여 현재 신호의 시간 도메인 포락선에서 또한 발생한다면, 현재 신호가 하나의 타악기적 음악이라고 또한 간주된다.

보이싱 파라미터 voicing, 즉 정규화된 개루프 피치 상관 정도는 현재 오디오 프레임과 피치 기간 전의 신호 사이의 시간 도메인 상관 정도를 표시하고, ACELP 개루프 피치 검색에 의하여 획득될 수 있고, 0과 1 사이의 값을 갖는다. 이것은 종래 기술에 속하고, 그러므로 본 발명에서 상세히 기술되지 않는다. 이 실시예에서, voicing은 현재 오디오 프레임의 2개의 서브프레임의 각각에 대해 계산되고, voicing들은 현재 오디오 프레임의 보이싱 파라미터를 획득하기 위해 평균화된다. 현재 오디오 프레임의 보이싱 파라미터는 또한 voicing 이력 버퍼에서 버퍼링되고, 이 실시예에서 voicing 이력 버퍼의 길이는 10이다.

mode_mov는 각각의 활동 음성 프레임에서 및 30개를 넘는 연속적 활동 음성 프레임들이 프레임 전에 발생하였을 때 업데이트되고, 업데이트 방법은 다음과 같다:

여기서 mode는 현재 입력 오디오 프레임의 분류 결과이고 또한 이진 값을 가지며, 여기서 "0"은 스피치 카테고리를 표시하고, "1"은 음악 카테고리를 표시한다.

S103: 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들의 데이터의 일부 또는 전부의 통계에 따라 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류한다. 주파수 스펙트럼 변동들의 유효 데이터의 통계가 스피치 분류 조건을 충족시킬 때, 현재 오디오 프레임은 스피치 프레임으로서 분류되고; 주파수 스펙트럼 변동들의 유효 데이터의 통계들이 음악 분류 조건을 충족시킬 때, 현재 오디오 프레임은 음악 프레임으로서 분류된다.

여기서 통계는 주파수 스펙트럼 변동 메모리에 저장된 유효 주파수 스펙트럼 변동(즉, 유효 데이터)에 대한 통계 동작을 수행함으로써 획득되는 값이다. 예를 들어, 통계 동작은 평균값 또는 분산을 획득하기 위한 동작일 수 있다. 하기 실시예들에서의 통계는 비슷한 의미를 갖는다.

실시예에서, 단계 S103은 다음을 포함한다:

주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들의 유효 데이터의 일부 또는 전부의 평균값을 획득하는 단계; 및

주파수 스펙트럼 변동들의 유효 데이터의 획득된 평균값이 음악 분류 조건을 충족시킬 때, 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않은 경우에는 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계.

예를 들어, 주파수 스펙트럼 변동들의 유효 데이터의 획득된 평균값이 음악 분류 임계치보다 작을 때, 현재 오디오 프레임은 음악 프레임으로 분류되고; 그렇지 않은 경우에는 현재 오디오 프레임은 스피치 프레임으로 분류된다.

일반적으로, 음악 프레임의 주파수 스펙트럼 변동 값은 비교적 작은 반면에, 스피치 프레임의 주파수 스펙트럼 변동 값은 비교적 크다. 그러므로, 현재 오디오 프레임은 주파수 스펙트럼 변동들에 따라 분류될 수 있다. 확실히, 신호 분류는 또 다른 분류 방법을 이용하여 현재 오디오 프레임에 대해 또한 실행될 수 있다. 예를 들어, 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들의 유효 데이터들의 수량이 카운트되고; 주파수 스펙트럼 변동 메모리는, 유효 데이터들의 수량에 따라, 근단(near end)으로부터 원단(remote end)까지 상이한 길이들의 적어도 두 개의 구간들로 분할되고, 각각의 구간에 대응하는 주파수 스펙트럼 변동들의 유효 데이터의 평균값이 획득되며, 여기서 구간들의 시작점은 현재 프레임의 주파수 스펙트럼 변동의 저장 위치이고, 근단은 현재 프레임의 주파수 스펙트럼 변동이 저장된 단이고, 원단은 과거의 프레임의 주파수 스펙트럼 변동이 저장된 단이다; 오디오 프레임은 비교적 짧은 구간에서의 주파수 스펙트럼 변동들의 통계에 따라 분류되고, 이 구간에서의 파라미터들의 통계가 오디오 프레임의 유형을 구분하는데 충분하다면, 분류 처리는 종료한다; 그렇지 않은 경우에는 분류 처리는 남아있는 비교적 긴 구간들 중 최단 구간에서 계속되고, 나머지는 유추에 의해 추론될 수 있다. 각각의 구간의 분류 처리에서, 현재 오디오 프레임은 각각의 구간에 대응하는 분류 임계치에 따라 분류되고, 현재 오디오 프레임은 스피치 프레임 또는 음악 프레임으로 분류되고, 주파수 스펙트럼 변동들의 유효 데이터의 통계가 스피치 분류 조건을 충족시킬 때 현재 오디오 프레임은 스피치 프레임으로 분류되고; 주파수 스펙트럼 변동들의 유효 데이터의 통계가 음악 분류 조건을 충족시킬 때 현재 오디오 프레임은 음악 프레임으로 분류된다.

신호 분류 후에, 상이한 신호들이 상이한 인코딩 모드들로 인코딩될 수 있다. 예를 들어, 스피치 신호는 스피치 생성 모델에 기초한 인코더(예를 들어 CELP)를 이용하여 인코딩되고, 음악 신호는 변환에 기초한 인코더(예를 들어 MDCT에 기초한 인코더)를 이용하여 인코딩된다.

앞의 실시예에서, 오디오 신호가 주파수 스펙트럼 변동들의 장시간 통계에 따라 분류되기 때문에, 비교적 소수의 파라미터들이 존재하고, 인식률이 비교적 높고, 복잡성이 비교적 낮다. 게다가, 주파수 스펙트럼 변동들은 음성 활동과 타악기적 음악과 같은 인자들을 고려하여 조절되고; 그러므로, 본 발명은 음악 신호에 대한 더 높은 인식률을 가지며, 혼합 오디오 신호 분류에 적합하다.

도 4를 참조하면, 또 다른 실시예에서, 단계 S102 후에, 방법은:

S104: 현재 오디오 프레임의 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 획득하고, 이 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 메모리들에 저장하는 단계를 더 포함하고, 여기서 주파수 스펙트럼 고주파 대역 첨도는 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 표시하고; 주파수 스펙트럼 상관 정도는 신호 고조파 구조의, 인접 프레임들 간의, 안정성을 표시하고; 및 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 입력 오디오 신호의 선형 예측 잔차 에너지가 변하는 범위를 표시한다.

선택 사항으로, 이러한 파라미터들이 저장되기 전에, 방법은 다음을 추가로 포함한다: 현재 오디오 프레임의 음성 활동에 따라, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 메모리들에저장할지를 결정하는 단계; 및 현재 오디오 프레임이 활동 프레임이라면, 파라미터들을 저장하고; 그렇지 않은 경우에는 파라미터들을 저장하는 것을 생략하는 단계.

주파수 스펙트럼 고주파 대역 첨도는 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 표시한다. 실시예에서, 주파수 스펙트럼 고주파 대역 첨도 ph는 하기 공식을 이용하여 계산된다:

,

여기서, p2v_map(i)는 주파수 스펙트럼의 i번째 주파수 빈의 첨도를 표시하고, 첨도 p2v_map(i)는 하기 공식을 이용하여 획득된다:

,

여기서, i번째 주파수 빈이 주파수 스펙트럼의 국부 피크 값이라면 peak(i) = C(i); 그렇지 않은 경우 peak(i) = 0; 및 vl(i) 및 vr(i)는 제각기 i번째 주파수 빈의 고주파수 측과 저주파수 측상에서의 i번째 주파수 빈에 가장 인접한 국부 주파수 스펙트럼 밸리 값들 v(n)를 표시하고, 여기서

, 및

.

현재 오디오 프레임의 주파수 스펙트럼 고주파 대역 첨도 ph는 또한 ph 이력 버퍼에서 버퍼링되고, 이 실시예에서 ph 이력 버퍼의 길이는 60이다.

주파수 스펙트럼 상관 정도 cor_map_sum은 신호 고조파 구조의, 인접한 프레임들 간의, 안정성을 표시하고, 하기 단계들을 수행함으로써 획득된다:

첫째로, 입력 오디오 프레임 C(i)의 플로어(floor) 제거된 주파수 스펙트럼 C'(i)가 획득되고, 여기서

,

여기서, floor(i)는 입력 오디오 프레임의 주파수 스펙트럼의 스펙트럼 플로어를 표시하며, 여기서 i = 0, 1,..., 127이고; 및

,

여기서, idx[x]는 주파수 스펙트럼상에서의 x의 위치를 표시하며, 여기서 idx[x] = 0, 1,..., 127이다.

그리고 나서, 매 두 개의 인접한 주파수 스펙트럼 밸리 값들 사이에, 입력 오디오 프레임의 플로어 제거된 주파수 스펙트럼과 이전 프레임의 플로어 제거된 주파수 스펙트럼 사이의 상관 cor(n)이 획득되고, 여기서

,

여기서, lb(n)과 hb(n)은 제각기 n번째 주파수 스펙트럼 밸리 값 구간(즉, 두 개의 인접한 밸리 값 사이에 위치한 지역)의 엔드포인트 위치들, 즉, 밸리 값 구간의 두 개의 주파수 스펙트럼 밸리 값을 제한하는 위치들을 표시한다.

최종적으로, 입력 오디오 프레임의 주파수 스펙트럼 상관 정도 cor_map_sum은 하기 공식을 이용하여 계산된다:

,

여기서, inv[f]는 함수 f의 역함수를 표시한다.

선형 예측 잔차 에너지 경사도 epsP_tilt는 선형 예측 차수가 증가함에 따라 입력 오디오 신호의 선형 예측 잔차 에너지가 변하는 범위를 표시하고, 하기 공식을 이용하여 계산되고 획득된다:

,

여기서, epsP(i)는 i번째 차수 선형 예측의 예측 잔차 에너지를 표시하고; n은 양의 정수이고, 선형 예측 차수를 표시하고, 최대 선형 예측 차수 이하이다. 예를 들어, 실시예에서, n = 15이다.

그러므로, 단계 S103은 하기 단계로 대체될 수 있다:

S105: 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 유효 데이터의 통계에 따라 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계이며, 여기서 유효 데이터의 통계는 계산 동작이 메모리들에 저장된 유효 데이터에 대해 실행된 후에 획득된 데이터 값을 지칭하며, 여기서 계산 동작은 평균값을 획득하기 위한 동작, 분산 또는 그와 유사한 것을 획득하기 위한 동작을 포함할 수 있다.

실시예에서, 이 단계는 하기를 포함한다:

저장된 주파수 스펙트럼 변동들의 유효 데이터의 평균값, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산을 별개로 획득하는 단계; 및

주파수 스펙트럼 변동들의 유효 데이터의 평균값이 제1 임계치보다 작은 조건; 또는 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값이 제2 임계치보다 더 큰 조건; 또는 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값이 제3 임계치보다 더 큰 조건; 또는 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산이 제4 임계치보다 작은 조건 중 하나가 충족할 때, 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않은 경우에는 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계.

일반적으로, 음악 프레임의 주파수 스펙트럼 변동 값은 비교적 작은 반면에, 스피치 프레임의 주파수 스펙트럼 변동 값은 비교적 크다; 음악 프레임의 주파수 스펙트럼 고주파 대역 첨도 값은 비교적 크고, 스피치 프레임의 주파수 스펙트럼 고주파 대역 첨도는 비교적 작다; 음악 프레임의 주파수 스펙트럼 상관 정도 값은 비교적 크고, 스피치 프레임의 주파수 스펙트럼 상관 정도 값은 비교적 작다; 음악 프레임의 선형 예측 잔차 에너지 경사도의 변화는 비교적 작고, 스피치 프레임의 선형 예측 잔차 에너지 경사도의 변화는 비교적 크다. 그러므로, 현재 오디오 프레임은 선행 파라미터들의 통계에 따라 분류될 수 있다. 확실히, 신호 분류는 또한 또 다른 분류 방법을 이용하여 현재 오디오 프레임에 대해 실행될 수 있다. 예를 들어, 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들의 유효 데이터들의 수량이 카운트되고; 메모리는, 유효 데이터들의 수량에 따라, 근단으로부터 원단까지 상이한 길이들의 적어도 두 개의 구간들로 분할되고, 각각의 구간에 대응하는 주파수 스펙트럼 변동들의 유효 데이터의 평균값, 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값, 주파스 스펙트럼 상관 정도들의 유효 데이터의 평균값, 및 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산이 획득되며 - 여기서 구간들의 시작점은 현재 프레임의 주파수 스펙트럼 변동의 저장 위치이고, 근단은 현재 프레임의 주파수 스펙트럼 변동이 저장된 단이고, 원단은 과거의 프레임의 주파수 스펙트럼 변동이 저장된 단임 - ; 오디오 프레임은 비교적 짧은 구간에서의 선행 파라미터들의 유효 데이터의 통계에 따라 분류되고, 이 구간에서의 파라미터들의 통계가 오디오 프레임의 유형을 구분하는데 충분하다면, 분류 처리는 종료한다; 그렇지 않은 경우에는 분류 처리는 남아있는 비교적 긴 구간들 중 최단 구간에서 계속되고, 나머지는 유추에 의해 추론될 수 있다. 각각의 구간의 분류 처리에서, 현재 오디오 프레임은 각각의 구간에 대응하는 분류 임계치에 따라 분류되고, 주파수 스펙트럼 변동들의 유효 데이터의 평균값이 제1 임계치보다 작은 조건; 또는 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값이 제2 임계치보다 더 큰 조건; 또는 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값이 제3 임계치보다 더 큰 조건; 또는 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산이 제4 임계치보다 작은 조건 중 하나가 충족될 때, 현재 오디오 프레임은 음악 프레임으로 분류되고; 그렇지 않은 경우에는 현재 오디오 프레임은 스피치 프레임으로 분류된다.

신호 분류 후에, 상이한 신호들은 상이한 인코딩 모드들로 인코딩될 수 있다. 예를 들어, 스피치 신호는 스피치 생성 모델에 기초한 인코더(예를 들어 CELP)를 이용하여 인코딩되고, 음악 신호는 변환에 기초한 인코더(예를 들어 MDCT에 기초한 인코더)를 이용하여 인코딩된다.

앞의 실시예에서, 오디오 신호는 주파수 스펙트럼 변동들, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도들, 및 선형 예측 잔차 에너지 경사도들의 장시간 통계에 따라 분류되고; 그러므로, 비교적 소수의 파라미터들이 존재하고, 인식률이 비교적 높고, 복잡성이 비교적 낮다. 게다가, 주파수 스펙트럼 변동들은 음성 활동과 타악기적 음악과 같은 인자들을 고려하여 조절되고, 주파수 스펙트럼 변동들이 현재 오디오 프레임이 위치한 신호 환경에 따라 수정되고; 그러므로, 본 발명은 분류 인식률을 향상시키고, 혼합 오디오 신호 분류에 적합하다.

도 5를 참조하면, 오디오 신호 분류 방법의 또 다른 실시예가 다음을 포함한다:

S501: 입력 오디오 신호에 대해 프레임 분할 처리를 수행한다.

오디오 신호 분류는 일반적으로 프레임별로 수행되고, 파라미터는 분류를 수행하기 위해, 오디오 신호 프레임이 스피치 프레임 또는 음악 프레임에 속하는지를 결정하기 위해, 및 대응하는 인코딩 모드에서 인코딩을 수행하기 위해 각각의 오디오 신호 프레임으로부터 추출된다.

S502: 현재 오디오 프레임의 선형 예측 잔차 에너지 경사도를 획득하는데, 여기서 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 오디오 신호의 선형 예측 잔차 에너지가 변하는 범위를 표시한다.

실시예에서, 선형 예측 잔차 에너지 경사도 epsP_tilt는 하기 공식을 이용하여 계산되고 획득된다:

,

여기서, epsP(i)는 i번째 차수 선형 예측의 예측 잔차 에너지를 표시하고; 및 n은 양의 정수이고, 선형 예측 차수를 표시하고, 최대 선형 예측 차수 이하이다. 예를 들어, 실시예에서, n = 15.

S503: 선형 예측 잔차 에너지 경사도를 메모리에 저장한다.

선형 예측 잔차 에너지 경사도는 메모리에 저장될 수 있다. 실시예에서, 메모리는 FIFO 버퍼일 수 있고, 버퍼의 길이는 60 저장 유닛이다(즉, 60 선형 예측 잔차 에너지 경사도들이 저장될 수 있다).

선택 사항으로, 선형 예측 잔차 에너지 경사도를 저장하기 전에, 방법은 다음을 추가로 포함한다: 현재 오디오 프레임의 음성 활동에 따라, 선형 예측 잔차 에너지 경사도를 메모리에 저장할지를 결정하는 단계; 및 현재 오디오 프레임이 활동 프레임이라면, 선형 예측 잔차 에너지 경사도를 저장하고; 그렇지 않은 경우에는 선형 예측 잔차 에너지 경사도를 저장하는 것을 생략하는 단계.

S504: 메모리에서의 예측 잔차 에너지 경사도들의 데이터의 일부의 통계에 따라 오디오 프레임을 분류한다.

실시예에서, 예측 잔차 에너지 경사도들의 데이터의 일부의 통계들은 예측 잔차 에너지 경사도들의 데이터의 일부의 분산이고, 그러므로, 단계 S504는 다음을 포함한다:

예측 잔차 에너지 경사도들의 데이터의 일부의 분산을 음악 분류 임계치과 비교하고, 및 예측 잔차 에너지 경사도들의 데이터의 일부의 분산이 음악 분류 임계치보다 작을 때, 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않은 경우에는 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계.

일반적으로, 음악 프레임의 선형 예측 잔차 에너지 경사도 값의 변화는 비교적 작고 스피치 프레임의 선형 예측 잔차 에너지 경사도 값의 변화는 비교적 크다. 그러므로, 현재 오디오 프레임은 선형 예측 잔차 에너지 경사도들의 통계에 따라 분류될 수 있다. 확실히, 신호 분류는 또한 또 다른 분류 방법을 이용하여 또 다른 파라미터를 참조하여 현재 오디오 프레임에 대해 실행될 수 있다.

또 다른 실시예에서, 단계 S504 전에, 방법은 다음을 추가로 포함한다: 현재 오디오 프레임의 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 및 주파수 스펙트럼 상관 정도를 획득하고, 및 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 및 주파수 스펙트럼 상관 정도를 대응하는 메모리들에 저장하는 단계. 그러므로, 단계 S504는 구체적으로:

저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 및 유효 데이터의 통계에 따라 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계이고, 여기서 유효 데이터의 통계는 계산 동작이 메모리들에 저장된 유효 데이터에 대해 실행된 후에 획득된 데이터 값을 지칭한다.

추가로, 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 및 유효 데이터의 통계에 따라 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계는:

주파수 스펙트럼 변동들의 유효 데이터의 평균값이 제1 임계치보다 작은 조건; 또는 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값이 제2 임계치보다 더 큰 조건; 또는 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값이 제3 임계치보다 더 큰 조건; 또는 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산이 제4 임계치보다 작은 조건 중 하나가 충족할 때, 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않은 경우에는 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계를 포함한다.

일반적으로, 음악 프레임의 주파수 스펙트럼 변동 값은 비교적 작은 반면에, 스피치 프레임의 주파수 스펙트럼 변동 값은 비교적 크다; 음악 프레임의 주파수 스펙트럼 고주파 대역 첨도 값은 비교적 크고, 스피치 프레임의 주파수 스펙트럼 고주파 대역 첨도는 비교적 작다; 음악 프레임의 주파수 스펙트럼 상관 정도 값은 비교적 크고, 스피치 프레임의 주파수 스펙트럼 상관 정도 값은 비교적 작다; 음악 프레임의 선형 예측 잔차 에너지 경사도 값의 변화는 비교적 작고, 스피치 프레임의 선형 예측 잔차 에너지 경사도 값의 변화는 비교적 크다. 그러므로, 현재 오디오 프레임은 선행 파라미터들의 통계들에 따라 분류될 수 있다.

또 다른 실시예에서, 단계 S504 전에, 방법은 다음을 추가로 포함한다: 저주파 대역에서의 현재 오디오 프레임의 주파수 스펙트럼 톤 수량과 주파수 스펙트럼 톤 수량의 비율을 획득하고, 및 저주파 대역에서의 주파수 스펙트럼 톤 수량과 주파수 스펙트럼 톤 수량의 비율을 대응하는 메모리들에 저장하는 단계. 그러므로, 단계 S504는 구체적으로:

저장된 선형 예측 잔차 에너지 경사도들의 통계와 저장된 주파수 스펙트럼 톤 수량들의 통계를 별개로 획득하는 단계; 및

저주파 대역에서의 선형 예측 잔차 에너지 경사도들의 통계, 주파수 스펙트럼 톤 수량들의 통계, 및 주파수 스펙트럼 톤 수량의 비율에 따라 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계이고, 통계는 계산 동작이 메모리들에 저장된 데이터에 대해 수행된 후에 획득된 데이터 값을 지칭한다.

또한, 저장된 선형 예측 잔차 에너지 경사도들의 통계들과 저장된 주파수 스펙트럼 톤 수량들의 통계를 별개로 획득하는 단계는: 저장된 선형 예측 잔차 에너지 경사도들의 분산을 획득하는 단계; 및 저장된 주파수 스펙트럼 톤 수량들의 평균값을 획득하는 단계를 포함한다. 저주파 대역에서의 선형 예측 잔차 에너지 경사도들의 통계, 주파수 스펙트럼 톤 수량들의 통계, 및 주파수 스펙트럼 톤 수량의 비율에 따라 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계는 다음을 포함한다:

현재 오디오 프레임이 활동 프레임일 때, 그리고

선형 예측 잔차 에너지 경사도들의 분산이 제5 임계치보다 작은 조건; 또는

주파수 스펙트럼 톤 수량들의 평균값이 제6 임계치보다 더 큰 조건; 또는

저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율이 제7 임계치보다 작은 조건

중 하나가 충족될 때, 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않은 경우에는 현재 오디오 프레임을 스피치 프레임으로 분류하는 단계.

저주파 대역에서의 현재 오디오 프레임의 주파수 스펙트럼 톤 수량과 주파수 스펙트럼 톤 수량의 비율을 획득하는 단계는 다음을 포함한다:

0 내지 8 kHz의 주파수 대역에 있고 또한 미리 정해진 값보다 더 큰 주파수 빈 피크 값들을 갖는 현재 오디오 프레임의 주파수 빈들의 수량을 카운트하여 이 수량을 주파수 스펙트럼 톤 수량으로 사용하는 단계; 및

0 내지 8 kHz의 주파수 대역에 있고 또한 미리 정해진 값보다 더 큰 주파수 빈 피크 값들을 갖는 현재 오디오 프레임의 주파수 빈들의 수량에 대한, 0 내지 4 kHz의 주파수 대역에 있고 또한 미리 정해진 값보다 더 큰 주파수 빈 피크 값들을 갖는 현재 오디오 프레임의 주파수 빈들의 수량의 비율을 계산하여, 이 비율을 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율로 사용하는 단계. 실시예에서, 미리 정해진 값은 50이다.

주파수 스펙트럼 톤 수량 Ntonal은 0 내지 8 kHz의 주파수 대역에 있고, 미리 정해진 값보다 큰 주파수 빈 피크 값들을 갖는 현재 오디오 프레임의 주파수 빈들의 수량을 지시한다. 실시예에서, 이 수량은 다음의 방식으로 획득될 수 있다: 0 내지 8 kHz의 주파수 대역에 있고, 50보다 큰 첨도 p2v_map(i)을 갖는 현재 오디오 프레임의 주파수 빈들의 수량을, 즉, Ntonal을 카운트하며, 여기서 p2v_map(i)은 주파수 스펙트럼의 i번째 주파수 빈의 첨도를 지시하고, p2v_map(i)의 계산 방식에 대해서는, 전술한 실시예의 설명을 참조한다.

저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율 ratio_Ntonal_lf는 주파수 스펙트럼 톤 수량에 대한 저주파 대역 톤 수량의 비율을 지시한다. 실시예에서, 이 비율은 다음의 방식으로 획득될 수 있다: 0 내지 4 kHz의 주파수 대역에 있고, 50보다 큰 p2v_map(i)을 갖는 현재 오디오 프레임의 주파수 빈들의 수량 Ntonal_lf를 카운트한다. ratio_Ntonal_lf는 Ntonal에 대한 Ntonal_lf의 비율, 즉, Ntonal_lf/Ntonal이다. p2v_map(i)는 주파수 스펙트럼의 i번째 주파수 빈의 첨도를 지시하고, p2v_map(i)의 계산 방식에 대해서는, 전술한 실시예의 설명을 참조한다. 다른 실시예에서, 복수의 저장된 Ntonal 값들의 평균과 복수의 저장된 Ntonal_lf 값들의 평균은 개별적으로 획득되고, Ntonal 값들의 평균에 대한 Ntonal_lf 값들의 평균의 비율은 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율로서 이용되도록 계산된다.

이 실시예에서, 오디오 신호는 선형 예측 잔차 에너지 경사도들의 장시간 통계에 따라 분류된다. 또한, 분류의 견고성과 분류 인식 속도의 양쪽이 고려된다; 그러므로, 비교적 소수의 분류 파라미터들이 존재하지만, 결과는 비교적 정확하고, 복잡성은 낮고, 메모리 오버헤드들은 낮다.

도 6을 참조하면, 오디오 신호 분류 방법의 다른 실시예는 다음을 포함한다:

S601: 입력 오디오 신호의 프레임 분할 처리를 수행한다.

S602: 현재 오디오 프레임의 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 획득한다.

주파수 스펙트럼 변동 flux는 신호의 주파수 스펙트럼의 단시간 또는 장시간 에너지 변동을 지시하고, 저대역 및 중대역 스펙트럼의 현재 오디오 프레임과 과거의 프레임의 대응하는 주파수들 간의 대수 에너지 차이들의 절대값들의 평균값이며, 여기서 과거의 프레임은 현재 오디오 프레임 전의 임의의 프레임을 지칭한다. 주파수 스펙트럼 고주파 대역 첨도 ph는 현재 오디오 프레임의 주파수 스펙트럼의 고주파 대역에서의 첨도 또는 에너지 첨예도를 지시한다. 주파수 스펙트럼 상관 정도 cor_map_sum은 신호 고조파 구조의, 인접 프레임들 간의, 안정성을 지시한다. 선형 예측 잔차 에너지 경사도 epsP_tilt는 선형 예측 차수가 증가함에 따라 입력 오디오 신호의 선형 예측 잔차 에너지가 변화하는 범위를 지시한다. 이러한 파라미터들을 계산하기 위한 특정 방법에 대해서는, 전술한 실시예를 참조한다.

또한, 보이싱 파라미터가 획득될 수 있다; 그리고 보이싱 파라미터 voicing은 현재 오디오 프레임과 일 피치 기간 전의 신호 사이의 시간 도메인 상관 정도를 지시한다. 보이싱 파라미터 voicing은 선형 예측 및 분석에 의해 획득되고, 현재 오디오 프레임과 일 피치 기간 전의 신호 사이의 시간 도메인 상관 정도를 나타내고, 0과 1 사이의 값을 갖는다. 이것은 종래 기술에 속하고, 그러므로, 본 발명에서 상세히 기술되지 않는다. 이 실시예에서, voicing은 현재 오디오 프레임의 각각의 두 개의 서브 프레임들에 대해 계산되고, voicing들은 현재 오디오 프레임의 보이싱 파라미터를 획득하기 위해 평균화된다. 현재 오디오 프레임의 보이싱 파라미터는 또한 voicing 이력 버퍼에 버퍼링되고, 이 실시예에서, voicing 이력 버퍼의 길이는 10이다.

S603: 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 대응하는 메모리들에 저장한다.

선택 사항으로, 이러한 파라미터들이 저장되기 전에, 방법은 다음을 더 포함한다:

실시예에서, 주파수 스펙트럼 변동을 주파수 스펙트럼 변동 메모리에 저장할지는 현재 오디오 프레임의 음성 활동에 따라 결정된다. 현재 오디오 프레임이 활성 프레임이면, 현재 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장된다.

다른 실시예에서, 주파수 스펙트럼 변동을 메모리에 저장할지는 오디오 프레임의 음성 활동, 및 오디오 프레임이 에너지 충격인지에 따라 결정된다. 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임이 에너지 충격에 속하지 않는다면, 현재 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장된다. 다른 실시예에서, 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임 및 현재 오디오 프레임의 과거의 프레임을 포함하는 복수의 연속 프레임들 중 어떤 것도 에너지 충격에 속하지 않는다면, 그 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장된다; 그렇지 않다면 주파수 스펙트럼 변동은 저장되지 않는다. 예를 들어, 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임의 이전 프레임도 현재 오디오 프레임의 두 번째 과거의 프레임도 에너지 충격에 속하지 않는다면, 그 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장된다; 그렇지 않다면 주파수 스펙트럼 변동은 저장되지 않는다.

음성 활동 플래그 vad_flag 및 음성 충격 플래그 attack_flag의 정의 및 획득 방식들에 대해서는, 전술한 실시예의 설명을 참조한다.

주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 메모리들에 저장할지를 현재 오디오 프레임의 음성 활동에 따라 결정하고; 현재 오디오 프레임이 활성 프레임이면, 파라미터들을 저장하고; 그렇지 않다면 파라미터들의 저장을 생략한다.

S604: 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 유효 데이터의 통계에 따라 오디오 프레임을 스피치 프레임 또는 또는 음악 프레임으로 분류하며, 여기서 유효 데이터의 통계는 메모리들에 저장된 유효 데이터에 대해 계산 동작이 수행된 후 획득된 데이터 값을 지칭하고, 여기서 계산 동작은 평균값을 획득하기 위한 동작, 분산을 획득하기 위한 동작, 또는 기타 등등을 포함할 수 있다.

선택 사항으로, 단계 S604 전에, 방법은 다음을 더 포함할 수 있다:

현재 오디오 프레임이 타악기적 음악인지에 따라, 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트한다. 실시예에서, 현재 오디오 프레임이 타악기적 음악이면, 주파수 스펙트럼 변동 메모리 내의 유효한 주파수 스펙트럼 변동 값들은 음악 임계치 이하의 값으로 수정되며, 여기서 오디오 프레임의 주파수 스펙트럼 변동이 음악 임계치보다 작을 때, 오디오 프레임은 음악 프레임으로 분류된다. 실시예에서, 현재 오디오 프레임이 타악기적 음악이면, 주파수 스펙트럼 변동 메모리 내의 유효한 주파수 스펙트럼 변동 값들은 5로 리셋된다.

현재 오디오 프레임의 과거의 프레임의 활동에 따라 메모리 내의 주파수 스펙트럼 변동들을 업데이트한다. 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동이 주파수 스펙트럼 변동 메모리에 저장되고 이전 오디오 프레임이 비활성 프레임이라고 결정되면, 현재 오디오 프레임의 주파수 스펙트럼 변동을 제외하고 주파수 스펙트럼 변동 메모리에 저장된 다른 주파수 스펙트럼 변동들의 데이터는 유효 데이터로 수정된다. 다른 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동이 주파수 스펙트럼 변동 메모리에 저장되고 현재 오디오 프레임 전의 세 개의 연속 프레임들이 모두 활성 프레임은 아니라고 결정되면, 현재 오디오 프레임의 주파수 스펙트럼 변동은 제1 값으로 수정된다. 제1 값은 스피치 임계치일 수 있으며, 여기서 오디오 프레임의 주파수 스펙트럼 변동이 스피치 임계치보다 클 때, 오디오 프레임은 스피치 프레임으로 분류된다. 다른 실시예에서, 현재 오디오 프레임의 주파수 스펙트럼 변동이 주파수 스펙트럼 변동 메모리에 저장되고, 과거의 프레임의 분류 결과가 음악 프레임이고 현재 오디오 프레임의 주파수 스펙트럼 변동이 제2 값보다 크다고 결정되면, 현재 오디오 프레임의 주파수 스펙트럼 변동은 제2 값으로 수정되며, 여기서 제2 값이 제1 값보다 크다.

예를 들어, 현재 오디오 프레임의 이전 프레임이 비활성 프레임(vad_flag = 0)이면, flux 이력 버퍼 내에 새로이 버퍼링된 현재 오디오 프레임 flux를 제외하고, flux 이력 버퍼 내의 나머지 데이터는 모두 -1로 리셋된다(데이터가 무효로 되는 것과 등가임). 현재 오디오 프레임 전의 세 개의 연속 프레임들이 모두 활성 프레임들(vad_flag = 1)이면, flux 이력 버퍼에 방금 버퍼링된 현재 오디오 프레임 flux는 16으로 수정된다. 현재 오디오 프레임 전의 세 개의 연속 프레임들이 모두 활성 프레임들(vad_flag = 1)이고, 과거의 신호 분류 결과의 장시간 부드러운 결과가 음악 신호이고, 현재 오디오 프레임 flux가 20보다 크면, 버퍼링된 현재 오디오 프레임의 주파수 스펙트럼 변동은 20으로 수정된다. 활성 프레임의 계산, 및 과거의 신호 분류 결과의 장시간 매끄러운 결과에 대해서는, 전술한 실시예를 참조한다.

실시예에서, 단계 S604는 다음을 포함한다:

저장된 주파수 스펙트럼 변동들의 유효 데이터의 평균값, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산을 각각 획득한다; 그리고

다음의 조건들: 주파수 스펙트럼 변동들의 유효 데이터의 평균값이 제1 임계치보다 작은 조건; 또는 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값이 제2 임계치보다 큰 조건; 또는 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값이 제3 임계치보다 큰 조건; 또는 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산이 제4 임계치보다 작은 조건 중 하나가 충족될 때, 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 현재 오디오 프레임을 스피치 프레임으로 분류한다.

일반적으로, 음악 프레임의 주파수 스펙트럼 변동 값은 비교적 작은 반면, 스피치 프레임의 주파수 스펙트럼 변동 값은 비교적 크다; 음악 프레임의 주파수 스펙트럼 고주파 대역 첨도 값은 비교적 크고, 스피치 프레임의 주파수 스펙트럼 고주파 대역 첨도는 비교적 작다; 음악 프레임의 주파수 스펙트럼 상관 정도 값은 비교적 크고, 스피치 프레임의 주파수 스펙트럼 상관 정도 값은 비교적 작다; 음악 프레임의 선형 예측 잔차 에너지 경사도 값은 비교적 작고, 스피치 프레임의 선형 예측 잔차 에너지 경사도 값은 비교적 크다. 그러므로, 현재 오디오 프레임은 전술한 파라미터들의 통계에 따라 분류될 수 있다. 확실히, 신호 분류는 또한 다른 분류 방법을 이용하여 현재 오디오 프레임에 수행될 수 있다. 예를 들어, 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들의 유효 데이터들의 수량이 카운트되고; 유효 데이터의 수량에 따라, 메모리가 근단으로부터 원단까지의 상이한 길이들의 적어도 두 개의 구간들로 분할되고, 각각의 구간에 대응하는 주파수 스펙트럼 변동들의 유효 데이터의 평균값, 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값, 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값, 및 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산이 획득되고, 여기서 구간들의 시작점은 현재 프레임의 주파수 스펙트럼 변동의 저장 위치이고, 근단은 현재 프레임의 주파수 스펙트럼 변동이 저장되는 단이고, 원단은 과거의 프레임의 주파수 스펙트럼 변동이 저장되는 단이고; 오디오 프레임은 비교적 짧은 구간의 전술한 파라미터들의 유효 데이터의 통계에 따라 분류되고, 이 구간 내의 파라미터 통계가 오디오 프레임의 타입을 구분하기에 충분하면, 분류 처리는 종료하고; 그렇지 않다면 분류 처리는 비교적 긴 구간들 중 가장 짧은 구간에서 계속되고, 나머지는 유추해서 추론될 수 있다. 각각의 구간의 분류 처리에서, 현재 오디오 프레임은 각각의 구간에 대응하는 분류 임계치에 따라 분류되고, 다음의 조건들: 주파수 스펙트럼 변동들의 유효 데이터의 평균값이 제1 임계치보다 작은 조건; 또는 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 평균값이 제2 임계치보다 큰 조건; 또는 주파수 스펙트럼 상관 정도들의 유효 데이터의 평균값이 제3 임계치보다 큰 조건; 또는 선형 예측 잔차 에너지 경사도들의 유효 데이터의 분산이 제4 임계치보다 작은 조건 중 하나가 충족될 때, 현재 오디오 프레임은 음악 프레임으로 분류되고; 그렇지 않다면 현재 오디오 프레임을 스피치 프레임으로 분류된다.

신호 분류 후에, 상이한 신호들은 상이한 인코딩 모드들에서 인코딩될 수 있다. 예를 들어, 스피치 신호는 스피치 생성 모델에 기초한 인코더(예를 들어 CELP)를 이용하여 인코딩되고, 음악 신호는 변환에 기초한 인코더(예를 들어 MDCT에 기초한 인코더)를 이용하여 인코딩된다.

이 실시예에서, 주파수 스펙트럼 변동들, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도들, 및 선형 예측 잔차 에너지 경사도들의 장시간 통계에 따라 분류가 수행된다. 또한, 분류의 견고성과 분류 인식 속도의 양쪽이 고려된다; 그러므로, 비교적 소수의 분류 파라미터들이 존재하지만, 결과는 비교적 정확하고, 인식률이 비교적 높고, 복잡성은 비교적 낮다.

실시예에서, 주파수 스펙트럼 변동 flux, 주파수 스펙트럼 고주파 대역 첨도 ph, 주파수 스펙트럼 상관 정도 cor_map_sum, 및 선형 예측 잔차 에너지 경사도 epsP_tilt가 대응하는 메모리들에 저장된 후, 상이한 결정 프로세스들을 이용하여, 저장된 주파수 스펙트럼 변동들의 유효 데이터들의 수량에 따라 분류가 수행될 수 있다. 음성 활동 플래그가 1로 설정되면, 즉, 현재 오디오 프레임이 활성 음성 프레임이면, 저장된 주파수 스펙트럼 변동들의 유효 데이터들의 수량 N이 체크된다.

메모리에 저장된 주파수 스펙트럼 변동들의 유효 데이터들의 수량 N의 값이 변화한다면, 결정 프로세스도 또한 변화한다.

(1) 도 7을 참조하면, N = 60인 경우에, flux 이력 버퍼 내의 모든 데이터의 평균값이 획득되고 flux60으로서 표시되고, 근단에 있는 30개의 데이터의 평균값이 획득되고 flux30으로서 표시되고, 근단에 있는 10개의 데이터의 평균값이 획득되고 flux10으로서 표시된다. ph 이력 버퍼 내의 모든 데이터의 평균값이 획득되고 ph60으로서 표시되고, 근단에 있는 30개의 데이터의 평균값이 획득되고 ph30으로서 표시되고, 근단에 있는 10개의 데이터의 평균값이 획득되고 ph10으로서 표시된다. cor_map_sum 이력 버퍼의 모든 데이터의 평균값이 획득되고 cor_map_sum60으로서 표시되고, 근단에 있는 30개의 데이터의 평균값이 획득되고 cor_map_sum30으로서 표시되고, 근단에 있는 10개의 데이터의 평균값이 획득되고 cor_map_sum10으로서 표시된다. 또한, epsP_tilt 이력 버퍼 내의 모든 데이터의 분산은 획득되고 epsP_tilt60으로서 표시되고, 근단에 있는 30개의 데이터의 평균값이 획득되고 epsP_tilt30으로서 표시되고, 근단에 있는 10개의 데이터의 평균값이 획득되고 epsP_tilt10으로서 표시된다. voicing 이력 버퍼에서 그 값이 0.9보다 큰 데이터들의 수량 voicing_cnt가 획득된다. 근단은 현재 오디오 프레임에 대응하는 전술한 파라미터들이 저장되는 단이다.

우선, flux10, ph10, epsP_tilt10, cor_map_sum10, 및 voicing_cnt가 다음의 조건들을 충족시키는지 체크된다: flux10 < 10 또는 epsPtilt10 < 0.0001 또는 ph10 > 1050 또는 cor_map_sum10 > 95, 그리고 voicing_cnt < 6. 조건들이 충족되면, 현재 오디오 프레임은 음악 타입(즉, Mode = 1)으로 분류된다. 그렇지 않다면, flux10이 15보다 큰지, 그리고 voicing_cnt가 2보다 큰지, 또는 flux10이 16보다 큰지 체크된다. 조건들이 충족되면, 현재 오디오 프레임은 스피치 타입(즉, Mode = 0)으로 분류된다. 그렇지 않다면, flux30, flux10, ph30, epsP_ tilt30, cor_map_sum30, 및 voicing_cnt가 다음의 조건들을 충족시키는지 체크된다: flux30 < 13 그리고 flux10 < 15, 또는 epsPtilt30 < 0.001 또는 ph30 > 800 또는 cor_map_sum30 > 75. 조건들이 충족되면, 현재 오디오 프레임은 음악 타입으로 분류된다. 그렇지 않다면, flux60, flux30, ph60, epsP_tilt60, 및 cor_map_sum60이 다음의 조건들을 충족시키는지 체크된다: flux60 < 14.5 또는 cor_map_sum30 > 75 또는 ph60 > 770 또는 epsP_tilt10 < 0.002, 그리고 flux30 < 14. 조건들이 충족되면, 현재 오디오 프레임은 음악 타입으로 분류되고; 그렇지 않다면 현재 오디오 프레임은 스피치 타입으로 분류된다.

(2) 도 8을 참조하면, N < 60 그리고 N ≥ 30인 경우에, flux 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값, ph 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값, 및 cor_map_sum 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값이 개별적으로 획득되고 fluxN, phN, 및 cor_map_sumN으로서 표시된다. 또한, epsP_tilt 이력 버퍼 내의 근단에 있는 N 개의 데이터의 분산이 획득되고 epsP_tiltN으로서 표시된다. fluxN, phN, epsP_tiltN, 및 cor_map_sumN이 다음의 조건을 충족시키는지 체크된다: fluxN < 13 + (N - 30)/20 또는 cor_map_sumN > 75 + (N - 30)/6 또는 phN > 800 또는 epsP_tiltN < 0.001. 조건이 충족되면, 현재 오디오 프레임은 음악 타입으로 분류되고; 그렇지 않다면 현재 오디오 프레임은 스피치 타입으로 분류된다.

(3) 도 9를 참조하면, N < 30 그리고 N ≥ 10인 경우에, flux 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값, ph 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값, 및 cor_map_sum 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값이 개별적으로 획득되고 fluxN, phN, 및 cor_map_sumN으로서 표시된다. 또한, epsP_tilt 이력 버퍼 내의 근단에 있는 N 개의 데이터의 분산이 획득되고 epsP_tiltN으로서 표시된다.

우선, 과거의 분류 결과의 장시간 이동 평균 mode_mov가 0.8보다 큰지 체크된다. 예(yes)이면, fluxN, phN, epsP_tiltN, 및 cor_map_sumN이 다음의 조건을 충족시키는지 체크된다: fluxN < 16 + (N - 10)/20 또는 phN > 1000 - 12.5 x (N - 10) 또는 epsP_tiltN < 0.0005 + 0.000045 x (N - 10) 또는 cor_map_sumN > 90 - (N - 10). 그렇지 않다면, voicing 이력 버퍼 내의 값이 0.9보다 큰 여러 데이터의 수량 voicing_cnt가 획득되고 다음의 조건들이 충족되는지 체크된다: fluxN < 12 + (N - 10)/20 또는 phN > 1050 - 12.5 x (N - 10) 또는 epsP_tiltN < 0.0001 + 0.000045 x (N - 10) 또는 cor_map_sumN > 95 - (N - 10), 그리고 voicing_cnt < 6. 전술한 두 개의 조건 그룹들 중 임의의 그룹이 충족되면, 현재 오디오 프레임은 음악 타입으로 분류되고; 그렇지 않다면 현재 오디오 프레임은 스피치 타입으로 분류된다.

(4) 도 10을 참조하면, N < 10 그리고 N > 5인 경우에, ph 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값, 및 cor_map_sum 이력 버퍼 내의 근단에 있는 N 개의 데이터의 평균값이 개별적으로 획득되고 phN 및 cor_map_sumN으로서 표시되고, epsP_tilt 이력 버퍼 내의 근단에 있는 N 개의 데이터의 분산이 획득되고 epsP_tiltN으로서 표시된다. 또한, 그 값이 voicing 이력 버퍼 내의 근단에 있는 6개의 데이터의 중에서 그 값이 0.9보다 큰 여러 데이터의 수량 voicing_cnt6이 획득된다.

다음의 조건들이 충족되는지 체크된다: epsP_tiltN < 0.00008 또는 phN > 1100 또는 cor_map_sumN > 100, 그리고 voicing_cnt < 4. 조건들이 충족되면, 현재 오디오 프레임은 음악 타입으로 분류되고; 그렇지 않다면 현재 오디오 프레임은 스피치 타입으로 분류된다.

(5) N ≤ 5인 경우에, 이전 오디오 프레임의 분류 결과는 현재 오디오 프레임의 분류 타입으로서 이용된다.

전술한 실시예는 주파수 스펙트럼 변동들, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도들, 및 선형 예측 잔차 에너지 경사도들의 장시간 통계에 따라 분류가 수행되는 특정 분류 처리이고, 통상의 기술자는 다른 처리를 이용하여 분류가 수행될 수 있다는 것을 이해할 수 있다. 이 실시예의 분류 프로세스는 예를 들어, 도 2의 단계 103, 도 4의 단계 105, 또는 도 6의 단계 604의 특정 분류 방법으로서 작용하기 위해 전술한 실시예의 대응하는 단계들에 적용될 수 있다.

도 11을 참조하면, 오디오 신호 분류 방법의 다른 실시예는 다음을 포함한다:

S1101: 입력 오디오 신호에 대해 프레임 분할 처리를 수행한다.

S1102: 현재 오디오 프레임의 선형 예측 잔차 에너지 경사도 및 주파수 스펙트럼 톤 수량 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율을 획득한다.

선형 예측 잔차 에너지 경사도 epsP_tilt는 선형 예측 차수가 증가함에 따라 입력 오디오 신호의 선형 예측 잔차 에너지가 변화하는 범위를 지시한다; 주파수 스펙트럼 톤 수량 Ntonal은 0 내지 8 kHz의 주파수 대역에 있고 미리 정해진 값보다 주파수 빈 피크 값들을 갖는 현재 오디오 프레임의 주파수 빈들의 수량을 지시한다; 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율 ratio_Ntonal_lf는 주파수 스펙트럼 톤 수량에 대한 저주파 대역 톤 수량의 비율을 지시한다. 구체적인 계산에 대해서는, 전술한 실시예의 설명을 참조한다.

S1103: 선형 예측 잔차 에너지 경사도 epsP_tilt, 주파수 스펙트럼 톤 수량, 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율을 대응하는 메모리들에 저장한다.

선형 예측 잔차 에너지 경사도 epsP_tilt와 현재 오디오 프레임의 주파수 스펙트럼 톤 수량은 각각의 이력 버퍼들 내에 버퍼링되고, 이 실시예에서 두 개의 버퍼들의 길이들은 또한 둘 다 60이다.

선택 사항으로, 이러한 파라미터들이 저장되기 전에, 방법은 다음을 더 포함한다: 현재 오디오 프레임의 음성 활동에 따라, 선형 예측 잔차 에너지 경사도, 주파수 스펙트럼 톤 수량, 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율을 메모리들에 저장할지를 결정함; 및 선형 예측 잔차 에너지 경사도가 저장될 필요가 있다고 결정될 때, 선형 예측 잔차 에너지 경사도를 메모리에 저장함. 현재 오디오 프레임이 활성 프레임이면, 파라미터들이 저장되고; 그렇지 않다면 파라미터들은 저장되지 않는다.

S1104: 저장된 선형 예측 잔차 에너지 경사도들의 통계 및 저장된 주파수 스펙트럼 톤 수량들의 통계를 개별적으로 획득함, 여기서 통계는 메모리들에 저장된 데이터에 대해 계산 동작이 수행된 후 획득된 데이터 값을 지칭하고, 여기서 계산 동작은 평균값을 획득하기 위한 동작, 분산을 획득하기 위한 동작, 또는 기타 등등을 포함할 수 있다.

실시예에서, 저장된 선형 예측 잔차 에너지 경사도들의 통계 및 저장된 주파수 스펙트럼 톤 수량들의 통계를 개별적으로 획득하는 것은 다음을 포함한다: 저장된 선형 예측 잔차 에너지 경사도들의 분산을 획득; 및 저장된 주파수 스펙트럼 톤 수량들의 평균값을 획득.

S1105: 선형 예측 잔차 에너지 경사도들의 통계, 주파수 스펙트럼 톤 수량들의 통계, 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율에 따라 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류한다

실시예에서, 이 단계는 다음을 더 포함한다:

현재 오디오 프레임이 활성 프레임이고, 다음의 조건:

선형 예측 잔차 에너지 경사도들의 분산은 제5 임계치보다 작은 조건; 또는

주파수 스펙트럼 톤 수량들의 평균값은 제6 임계치보다 큰 조건; 또는

저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율은 제7 임계치보다 작은 조건

중 하나가 충족될 때, 현재 오디오 프레임을 음악 프레임으로 분류하고, 그렇지 않다면 현재 오디오 프레임을 스피치 프레임으로 분류한다.

일반적으로, 음악 프레임의 선형 예측 잔차 에너지 경사도 값은 비교적 작고, 스피치 프레임의 선형 예측 잔차 에너지 경사도 값은 비교적 크다; 음악 프레임의 주파수 스펙트럼 톤 수량은 비교적 크고, 스피치 프레임의 주파수 스펙트럼 톤 수량은 비교적 작다; 저주파 대역에서의 음악 프레임의 주파수 스펙트럼 톤 수량의 비율은 비교적 낮고, 저주파 대역에서의 스피치 프레임의 주파수 스펙트럼 톤 수량의 비율은 비교적 높다(스피치 프레임의 에너지는 주로 저주파 대역에 집중됨). 그러므로, 현재 오디오 프레임은 전술한 파라미터들의 통계들에 따라 분류될 수 있다. 확실히, 신호 분류는 또한 다른 분류 방법을 이용하여 현재 오디오 프레임에 대해 수행될 수 있다.

전술한 실시예에서, 오디오 신호는 선형 예측 잔차 에너지 경사도들 및 주파수 스펙트럼 톤 수량들의 장시간 통계 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율에 따라 분류된다; 그러므로, 비교적 소수의 분류 파라미터들이 존재하고, 인식률이 비교적 높고, 복잡성은 비교적 낮다.

실시예에서, 선형 예측 잔차 에너지 경사도 epsP_tilt, 주파수 스펙트럼 톤 수량 Ntonal, 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율 ratio_Ntonal_lf가 대응하는 버퍼들에 저장된 후, epsP_tilt 이력 버퍼의 모든 데이터의 분산이 획득되고 epsP_tilt60으로서 표시된다. Ntonal 이력 버퍼 내의 모든 데이터의 평균값이 획득되고 Ntonal 60으로서 표시된다. Ntonal_lf 이력 버퍼 내의 모든 데이터의 평균값이 획득되고 Ntonal60에 대한 평균값의 비율이 계산되고 ratio_Ntonal_lf60으로서 표시된다. 도 12를 참조하면, 현재 오디오 프레임은 다음의 규칙에 따라 분류된다:

음성 활동 플래그가 1이면(즉, vad_flag = 1), 즉, 현재 오디오 프레임이 활성 음성 프레임이면, 다음의 조건이 충족되는지 체크된다: epsP_tilt60 < 0.002 또는 Ntonal60 > 18 또는 ratio_Ntonal_lf60 < 0.42, 조건이 충족되면, 현재 오디오 프레임은 음악 타입(즉, Mode = 1)으로 분류된다; 그렇지 않다면 현재 오디오 프레임은 스피치 타입(즉, Mode = 0)으로 분류된다.

전술한 실시예는 선형 예측 잔차 에너지 경사도들의 통계, 주파수 스펙트럼 톤 수량들의 통계, 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율에 따라 분류가 수행되는 구체적인 분류 프로세스이고, 본 기술 분야의 기술자는 다른 프로세스를 이용하여 분류가 수행될 수 있다는 것을 이해할 수 있다. 이 실시예의 분류 프로세스는, 예를 들어, 도 5의 단계 504 또는 도 11의 단계 1105의 구체적인 분류 방법의 역할을 하기 위해, 전술한 실시예의 대응하는 단계들에 적용될 수 있다.

본 발명은 낮은 복잡성 및 낮은 메모리 오버헤드를 가진 오디오 인코딩 모드 선택 방법을 제공한다. 추가로, 분류의 견고성과 분류 인식 속도 둘 다가 고려된다.

전술한 방법 실시예들과 관련하여, 본 발명은 오디오 신호 분류 장치를 더 제공하고, 이 장치는 단말기 디바이스 또는 네트워크 디바이스에 위치할 수 있다. 이 오디오 신호 분류 장치는 전술한 방법 실시예의 단계들을 수행할 수 있다.

도 13을 참조하면, 본 발명은 오디오 신호 분류 장치의 일 실시예를 제공하는데, 이 장치는 입력 오디오 신호를 분류하도록 구성되고, 이 장치는:

현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 획득하여 저장할지를 결정하도록 구성된 저장 결정 유닛(1301) - 상기 주파수 스펙트럼 변동은 오디오 신호의 주파수 스펙트럼의 에너지 변동을 나타냄 -;

상기 저장 결정 유닛이 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력할 때 상기 주파수 스펙트럼 변동을 저장하도록 구성된 메모리(1302);

상기 오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 상기 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트하도록 구성된 업데이트 유닛(1304); 및

상기 메모리에 저장된 상기 주파수 스펙트럼 변동들의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 것으로; 상기 주파수 스펙트럼 변동들의 유효 데이터의 통계가 스피치 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 스피치 프레임으로 분류하거나; 또는 상기 주파수 스펙트럼 변동들의 유효 데이터의 통계가 음악 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하도록 구성된 분류 유닛(1303)을 포함한다.

일 실시예에서, 상기 저장 결정 유닛(1301)은, 상기 현재 오디오 프레임이 활성 프레임인 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성된다.

다른 실시예에서, 상기 저장 결정 유닛(1301)은, 상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임이 에너지 충격에 속하지 않는 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성된다.

다른 실시예에서, 상기 저장 결정 유닛(1301)은, 상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임과 상기 현재 오디오 프레임의 과거의 프레임을 포함하는 복수의 연속 프레임 중 어느 것도 에너지 충격에 속하지 않는 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성된다.

일 실시예에서, 상기 업데이트 유닛은, 상기 현재 오디오 프레임이 타악기적 음악에 속한다면, 상기 주파수 스펙트럼 변동 메모리에 저장된 상기 주파수 스펙트럼 변동들의 값들을 수정하도록 구체적으로 구성된다.

다른 실시예에서, 상기 업데이트 유닛은, 상기 현재 오디오 프레임이 활성 프레임이고, 이전 오디오 프레임이 비활성 프레임이면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 제외하고 상기 메모리에 저장된 다른 주파수 스펙트럼 변동들의 데이터를 무효 데이터로 수정하거나; 또는 상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임 전의 3개의 연속 프레임들이 모두 활성 프레임은 아니면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 제1 값으로 수정하거나; 또는 상기 현재 오디오 프레임이 활성 프레임이고, 과거의 분류 결과가 음악 신호이고 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동이 제2 값보다 크면, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동을 상기 제2 값으로 수정하도록 구체적으로 구성되고, 상기 제2 값은 상기 제1 값보다 크다.

도 14를 참조하면, 일 실시예에서, 상기 분류 유닛(1303)은:

상기 메모리에 저장된 상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 일부 또는 전부의 평균값을 획득하도록 구성된 계산 유닛(1401); 및

상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값을 음악 분류 조건과 비교하고; 상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값이 상기 음악 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하도록 구성된 결정 유닛(1402)을 포함한다.

예를 들어, 상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 획득된 평균값이 음악 분류 임계치보다 작을 때, 상기 현재 오디오 프레임은 음악 프레임으로 분류되고; 그렇지 않다면 상기 현재 오디오 프레임은 스피치 프레임으로 분류된다.

전술한 실시예에서는, 주파수 스펙트럼 변동들의 장시간 통계에 따라 오디오 신호가 분류되기 때문에, 비교적 소수의 파라미터들이 존재하고, 인식률이 비교적 높고, 복잡성이 비교적 낮다. 게다가, 주파수 스펙트럼 변동들은 음성 활동 및 타악기적 음악과 같은 인자들을 고려하여 조정되고; 그러므로, 본 발명은 음악 신호에 대한 더 높은 인식률을 가지며, 혼합 오디오 신호 분류에 적합하다.

다른 실시예에서, 상기 오디오 신호 분류 장치는:

상기 현재 오디오 프레임의 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 획득하도록 구성된 파라미터 획득 유닛을 더 포함하고, 여기서 상기 주파수 스펙트럼 고주파 대역 첨도는 상기 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 나타내고; 상기 주파수 스펙트럼 상관 정도는 상기 현재 오디오 프레임의 신호 고조파 구조의, 인접한 프레임들 사이의, 안정성을 나타내고; 상기 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타내고; 여기서

상기 저장 결정 유닛은, 상기 현재 오디오 프레임의 상기 음성 활동에 따라, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 저장할지를 결정하도록 더 구성되고;

상기 분류 유닛은, 상기 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 상기 유효 데이터의 상기 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 것으로, 상기 주파수 스펙트럼 변동들의 유효 데이터의 통계가 스피치 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 스피치 프레임으로 분류하거나; 또는 상기 주파수 스펙트럼 변동들의 유효 데이터의 통계가 음악 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하도록 구체적으로 구성된다.

일 실시예에서, 상기 분류 유닛은:

상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값이 제1 임계치보다 작은 조건; 또는 상기 주파수 스펙트럼 고주파 대역 첨도의 상기 유효 데이터의 상기 평균값이 제2 임계치보다 큰 조건; 또는 상기 주파수 스펙트럼 상관 정도들의 상기 유효 데이터의 상기 평균값이 제3 임계치보다 큰 조건; 또는 상기 선형 예측 잔차 에너지 경사도들의 상기 유효 데이터의 상기 분산이 제4 임계치보다 작은 조건 중 하나가 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하도록 구성된 결정 유닛을 구체적으로 포함한다.

전술한 실시예에서는, 주파수 스펙트럼 변동들, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도들, 및 선형 예측 잔차 에너지 경사도들의 장시간 통계에 따라 오디오 신호가 분류되고; 그러므로, 비교적 소수의 파라미터들이 존재하고, 인식률이 비교적 높고, 복잡성이 비교적 낮다. 게다가, 주파수 스펙트럼 변동들은 음성 활동 및 타악기적 음악과 같은 인자들을 고려하여 조정되고, 주파수 스펙트럼 변동들은 현재 오디오 프레임이 위치하는 신호 환경에 따라 수정되며; 그러므로, 본 발명은 분류 인식률을 개선하고, 혼합 오디오 신호 분류에 적합하다.

도 15를 참조하면, 본 발명은 오디오 신호 분류 장치의 다른 실시예를 제공하는데, 이 장치는 입력 오디오 신호를 분류하도록 구성되고, 이 장치는:

입력 오디오 신호에 대해 프레임 분할 처리를 수행하도록 구성된 프레임 분할 유닛(1501);

현재 오디오 프레임의 선형 예측 잔차 에너지 경사도를 획득하도록 구성된 파라미터 획득 유닛(1502) - 상기 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타냄 -;

상기 선형 예측 잔차 에너지 경사도를 저장하도록 구성된 저장 유닛(1503); 및

메모리 내의 예측 잔차 에너지 경사도들의 데이터의 일부의 통계에 따라 상기 오디오 프레임을 분류하도록 구성된 분류 유닛(1504)을 포함한다.

도 16을 참조하면, 상기 오디오 신호 분류 장치는:

현재 오디오 프레임의 음성 활동에 따라, 상기 선형 예측 잔차 에너지 경사도를 상기 메모리에 저장할지를 결정하도록 구성된 저장 결정 유닛(1505)을 더 포함하고, 여기서

상기 저장 유닛(1503)은, 상기 저장 결정 유닛이 상기 선형 예측 잔차 에너지 경사도가 저장될 필요가 있는 것으로 결정할 때 상기 선형 예측 잔차 에너지 경사도를 상기 메모리에 저장하도록 구체적으로 구성된다.

일 실시예에서, 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 통계는 상기 예측 잔차 에너지 경사도들의 데이터의 일부의 분산이고;

다른 실시예에서, 상기 파라미터 획득 유닛은: 상기 현재 오디오 프레임의 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 및 주파수 스펙트럼 상관 정도를 획득하고, 상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 및 상기 주파수 스펙트럼 상관 정도를 대응하는 메모리들에 저장하도록 더 구성되고;

도 17을 참조하면, 구체적으로, 일 실시예에서, 상기 분류 유닛(1504)은:

상기 저장된 주파수 스펙트럼 변동들의 상기 유효 데이터의 평균값, 상기 저장된 주파수 스펙트럼 고주파 대역 첨도의 상기 유효 데이터의 평균값, 상기 저장된 주파수 스펙트럼 상관 정도들의 상기 유효 데이터의 평균값, 및 상기 저장된 선형 예측 잔차 에너지 경사도들의 상기 유효 데이터의 분산을 개별적으로 획득하도록 구성된 계산 유닛(1701); 및

상기 주파수 스펙트럼 변동들의 상기 유효 데이터의 상기 평균값이 제1 임계치보다 작은 조건; 또는 상기 주파수 스펙트럼 고주파 대역 첨도의 상기 유효 데이터의 상기 평균값이 제2 임계치보다 큰 조건; 또는 상기 주파수 스펙트럼 상관 정도들의 상기 유효 데이터의 상기 평균값이 제3 임계치보다 큰 조건; 또는 상기 선형 예측 잔차 에너지 경사도들의 상기 유효 데이터의 상기 분산이 제4 임계치보다 작은 조건 중 하나가 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하고; 그렇지 않다면 상기 현재 오디오 프레임을 스피치 프레임으로 분류하도록 구성된 결정 유닛(1702)을 포함한다.

다른 실시예에서, 상기 파라미터 획득 유닛은, 상기 현재 오디오 프레임의 주파수 스펙트럼 톤 수량 및 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율을 획득하고, 상기 주파수 스펙트럼 톤 수량 및 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 상기 비율을 메모리들에 저장하도록 더 구성되고;

구체적으로, 상기 분류 유닛은:

구체적으로, 상기 파라미터 획득 유닛은,

구체적으로, 상기 파라미터 획득 유닛은, 0 내지 8 kHz의 주파수 대역에 있고 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량을 카운트하여, 상기 수량을 상기 주파수 스펙트럼 톤 수량으로서 이용하도록 구성되고; 상기 파라미터 획득 유닛은, 0 내지 8 kHz의 주파수 대역에 있고 상기 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량에 대한 0 내지 4 kHz의 주파수 대역에 있고 상기 미리 결정된 값보다 큰 주파수 빈 피크 값들을 가진 상기 현재 오디오 프레임의 주파수 빈들의 수량의 비율을 계산하여, 상기 비율을 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 상기 비율로서 이용하도록 구성된다.

이 실시예에서는, 선형 예측 잔차 에너지 경사도들의 장시간 통계에 따라 오디오 신호가 분류된다. 게다가, 분류의 견고성과 분류 인식 속도 둘 다가 고려되고; 그러므로, 비교적 소수의 분류 파라미터들이 존재하지만, 결과가 비교적 정확하고, 복잡성이 낮고, 메모리 오버헤드가 낮다.

본 발명은 오디오 신호 분류 장치의 다른 실시예를 제공하는데, 이 장치는 입력 오디오 신호를 분류하도록 구성되고, 이 장치는:

현재 오디오 프레임의 주파수 스펙트럼 변동, 주파수 스펙트럼 고주파 대역 첨도, 주파수 스펙트럼 상관 정도, 및 선형 예측 잔차 에너지 경사도를 획득하도록 구성된 파라미터 획득 유닛 - 상기 주파수 스펙트럼 변동은 상기 오디오 신호의 주파수 스펙트럼의 에너지 변동을 나타내고; 상기 주파수 스펙트럼 고주파 대역 첨도는 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 나타내고; 상기 주파수 스펙트럼 상관 정도는 현재 오디오 프레임의 신호 고조파 구조의, 인접한 프레임들 사이의, 안정성을 나타내고; 상기 선형 예측 잔차 에너지 경사도는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타냄 -;

상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 저장하도록 구성된 저장 유닛; 및

상기 저장된 주파수 스펙트럼 변동들의 유효 데이터의 통계, 저장된 주파수 스펙트럼 고주파 대역 첨도의 유효 데이터의 통계, 저장된 주파수 스펙트럼 상관 정도들의 유효 데이터의 통계, 및 저장된 선형 예측 잔차 에너지 경사도들의 유효 데이터의 통계를 획득하고, 상기 유효 데이터의 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구성된 분류 유닛을 포함하고, 여기서 상기 유효 데이터의 통계는 메모리들에 저장된 상기 유효 데이터에 대해 계산 동작이 수행된 후에 획득되는 데이터 값을 지칭하고, 상기 계산 동작은 평균값을 획득하기 위한 동작, 분산을 획득하기 위한 동작, 또는 기타를 포함할 수 있다.

일 실시예에서, 상기 오디오 신호 분류 장치는:

상기 현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 저장할지를 결정하도록 구성된 저장 결정 유닛을 더 포함할 수 있고,

상기 저장 유닛은, 상기 저장 결정 유닛이 상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도가 저장될 필요가 있다는 결과를 출력할 때, 상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 저장하도록 구체적으로 구성된다.

구체적으로, 일 실시예에서, 상기 저장 결정 유닛은, 상기 현재 오디오 프레임의 음성 활동에 따라, 상기 주파수 스펙트럼 변동을 상기 주파수 스펙트럼 변동 메모리에 저장할지를 결정한다. 상기 현재 오디오 프레임이 활성 프레임이면, 상기 저장 결정 유닛은 파라미터가 저장될 필요가 있다는 결과를 출력하고; 그렇지 않다면 상기 저장 결정 유닛은 파라미터가 저장될 필요가 없다는 결과를 출력한다. 다른 실시예에서, 상기 저장 결정 유닛은, 오디오 프레임의 음성 활동과 상기 오디오 프레임이 에너지 충격인지에 따라, 주파수 스펙트럼 변동을 메모리에 저장할지를 결정한다. 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임이 에너지 충격에 속하지 않는다면, 현재 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장된다. 다른 실시예에서, 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임 및 현재 오디오 프레임의 과거의 프레임을 포함하는 복수의 연속 프레임 중 어느 것도 에너지 충격에 속하지 않는다면, 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장되고; 그렇지 않다면 주파수 스펙트럼 변동은 저장되지 않는다. 예를 들어, 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임의 이전 프레임 또는 현재 오디오 프레임의 두 번째 과거의 프레임 중 어느 것도 에너지 충격에 속하지 않는다면, 오디오 프레임의 주파수 스펙트럼 변동은 주파수 스펙트럼 변동 메모리에 저장되고; 그렇지 않다면 주파수 스펙트럼 변동은 저장되지 않는다.

일 실시예에서, 상기 분류 유닛은:

상기 현재 오디오 프레임의 상기 주파수 스펙트럼 변동, 상기 주파수 스펙트럼 고주파 대역 첨도, 상기 주파수 스펙트럼 상관 정도, 및 상기 선형 예측 잔차 에너지 경사도를 계산하는 구체적인 방식에 대해서는, 전술한 방법 실시예를 참조한다.

또한, 상기 오디오 신호 분류 장치는:

오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 상기 메모리에 저장된 주파수 스펙트럼 변동들을 업데이트하도록 구성된 업데이트 유닛을 더 포함할 수 있다. 일 실시예에서, 상기 업데이트 유닛은, 현재 오디오 프레임이 타악기적 음악에 속하면, 주파수 스펙트럼 변동 메모리에 저장된 주파수 스펙트럼 변동들의 값들을 수정하도록 구체적으로 구성된다. 다른 실시예에서, 상기 업데이트 유닛은, 현재 오디오 프레임이 활성 프레임이고, 이전 오디오 프레임이 비활성 프레임이면, 현재 오디오 프레임의 주파수 스펙트럼 변동을 제외하고 상기 메모리에 저장된 다른 주파수 스펙트럼 변동들의 데이터를 무효 데이터로 수정하거나; 또는 현재 오디오 프레임이 활성 프레임이고, 현재 오디오 프레임 전의 3개의 연속 프레임들이 모두 활성 프레임은 아니면, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 제1 값으로 수정하거나; 또는 상기 현재 오디오 프레임이 활성 프레임이고, 과거의 분류 결과가 음악 신호이고 상기 현재 오디오 프레임의 주파수 스펙트럼 변동이 제2 값보다 크면, 상기 현재 오디오 프레임의 주파수 스펙트럼 변동을 상기 제2 값으로 수정하도록 구체적으로 구성되고, 상기 제2 값은 상기 제1 값보다 크다.

이 실시예에서는, 주파수 스펙트럼 변동들, 주파수 스펙트럼 고주파 대역 첨도들, 주파수 스펙트럼 상관 정도들, 및 상기 선형 예측 잔차 에너지 경사도들의 장시간 통계에 따라 분류가 수행된다. 게다가, 분류의 견고성과 분류 인식 속도 둘 다가 고려되고; 그러므로, 비교적 소수의 분류 파라미터들이 존재하지만, 결과가 비교적 정확하고, 인식률이 비교적 높고, 복잡성이 비교적 낮다.

입력 오디오 프레임에 대해 프레임 분할 처리를 수행하도록 구성된 프레임 분할 유닛;

현재 오디오 프레임의 선형 예측 잔차 에너지 경사도 및 주파수 스펙트럼 톤 수량 및 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율을 획득하도록 구성된 파라미터 획득 유닛 - 여기서 상기 선형 예측 잔차 에너지 경사도(epsP_tilt)는 선형 예측 차수가 증가함에 따라 상기 입력 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타내고; 상기 주파수 스펙트럼 톤 수량(Ntonal)은 0 내지 8 kHz의 주파수 대역에 있고 미리 결정된 값보다 큰 주파수 빈 피크 값들을 갖는 상기 현재 오디오 프레임의 주파수 빈들의 수량을 나타내고; 상기 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율(ratio_Ntonal_lf)은 상기 주파수 스펙트럼 톤 수량에 대한 저주파 대역 톤 수량의 비율을 나타내고, 구체적인 계산에 대해서는, 전술한 실시예의 설명을 참조한다 -;

상기 선형 예측 잔차 에너지 경사도, 상기 주파수 스펙트럼 톤 수량, 및 상기 저주파 대역에서의 상기 주파수 스펙트럼 톤 수량의 비율을 저장하도록 구성된 저장 유닛; 및

저장된 선형 예측 잔차 에너지 경사도들의 통계 및 저장된 주파수 스펙트럼 톤 수량들의 통계를 개별적으로 획득하고; 상기 선형 예측 잔차 에너지 경사도들의 통계, 상기 주파수 스펙트럼 톤 수량들의 통계, 및 상기 저주파 대역에서의 상기 주파수 대역 톤 수량의 비율에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구성된 분류 유닛을 포함하고, 여기서 유효 데이터의 통계는 메모리들에 저장된 데이터에 대해 계산 동작이 수행된 후에 획득되는 데이터 값을 지칭한다.

구체적으로, 상기 분류 유닛은:

구체적으로, 상기 파라미터 획득 유닛은,

전술한 실시예에서는, 선형 예측 잔차 에너지 경사도들 및 주파수 스펙트럼 톤 수량들의 장시간 통계 및 저주파 대역에서의 주파수 스펙트럼 톤 수량의 비율에 따라 오디오 신호가 분류되고; 그러므로, 비교적 소수의 파라미터들이 존재하고, 인식률이 비교적 높고, 복잡성이 비교적 낮다.

전술한 오디오 신호 분류 장치는 상이한 인코더들에 연결되고, 이 상이한 인코더들을 이용하여 상이한 신호들을 인코딩할 수 있다. 예를 들어, 이 오디오 신호 분류 장치는 2개의 인코더에 연결되고, 스피치 생성 모델에 기초한 인코더(예를 들어 CELP)를 이용하여 스피치 신호를 인코딩하고 변환에 기초한 인코더(예를 들어 MDCT에 기초한 인코더)를 이용하여 음악 신호를 인코딩한다. 전술한 장치 실시예에서의 각각의 구체적인 파라미터의 정의와 획득 방법에 대해서는, 방법 실시예의 관련 설명을 참조한다.

전술한 방법 실시예와 관련하여, 본 발명은 오디오 신호 분류 장치를 더 제공하고, 이 장치는 단말기 디바이스 또는 네트워크 디바이스에 위치할 수 있다. 이 오디오 신호 분류 장치는 하드웨어로 구현되거나, 하드웨어와 협력하여 소프트웨어로 구현될 수 있다. 예를 들어, 도 18을 참조하면, 프로세서가 오디오 신호에 대한 분류를 구현하기 위해 오디오 신호 분류 장치를 호출한다. 오디오 신호 분류 장치는 전술한 방법 실시예에서의 다양한 방법들 및 프로세스들을 수행할 수 있다. 오디오 신호 분류 장치의 구체적인 모듈들 및 기능들에 대해서는, 전술한 장치 실시예의 관련 설명을 참조한다.

도 19의 디바이스(1900)의 일례는 인코더이다. 이 디바이스(1900)는 프로세서(1910)와 메모리(1920)를 포함한다.

메모리(1920)는 랜덤 메모리, 플래시 메모리, ROM(read-only memory), PROM(programmable read-only memory), 비휘발성 메모리, 레지스터, 또는 기타를 포함할 수 있다. 프로세서(1910)는 중앙 처리 유닛(Central Processing Unit, CPU)일 수 있다.

메모리(1920)는 실행 가능 명령어를 저장하도록 구성된다. 프로세서(1910)는 메모리(1920)에 저장된 실행 가능 명령어를 실행할 수 있고, 동작을 수행하도록 구성된다.

디바이스(1900)의 다른 기능들 및 동작들에 대해서는, 반복을 피하기 위해 여기에 다시 설명되지 않는, 도 3 내지 도 12의 방법 실시예들의 프로세스들을 참고한다.

이 분야의 통상의 기술자는 방법들의 프로세스들의 전부 또는 일부가 관련 하드웨어에 명령하는 컴퓨터 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 실시예들에서의 방법들의 프로세스들이 수행된다. 상기 저장 매체는 다음을 포함할 수 있다: 자기 디스크, 광학 디스크, 판독 전용 메모리(Read-Only Memory, ROM) 또는 랜덤 액세스 메모리(Random Access Memory, RAM).

본 출원에서 제공된 여러 실시예들에서, 개시된 시스템, 장치들, 및 방법은 다른 방식들로 구현될 수 있다는 것을 이해하여야 한다. 예를 들어, 설명된 장치 실시예는 예시적일 뿐이다. 예를 들어, 유닛 분할은 논리적 기능 분할일 뿐이며, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 다른 시스템 내에 결합 또는 통합될 수 있거나, 또는 일부 특징들이 무시되거나 수행되지 않을 수 있다. 또한, 디스플레이되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 소정의 인터페이스들을 이용하여 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합 또는 통신 연결은 전자적, 기계적 또는 다른 형태로 구현될 수 있다.

개별적인 부분들로서 기술된 유닛들은 물리적으로 분리되어 있을 수 있거나 그렇지 않을 수 있고, 유닛들로서 표시된 부분들은 물리적 유닛들일 수 있거나 그렇지 않을 수 있거나, 하나의 위치에 배치되어 있을 수 있거나, 복수의 네트워크 유닛들에 분산되어 있을 수 있다. 유닛들의 일부 또는 모두는 실시예들의 해결책의 목적을 달성하기 위해 실제의 필요성에 따라 선택될 수도 있다.

또한, 본 발명의 실시예들에서의 기능 유닛들이 하나의 처리 유닛 내에 통합될 수 있거나, 또는 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 2개 이상의 유닛들이 하나의 유닛 내에 통합된다.

상기한 바는 본 발명의 예시적인 실시예들일 뿐이다. 이 분야의 기술자는 본 발명의 사상 및 범위로부터 벗어나지 않고서 본 발명에 대해 다양한 수정들 및 변경들을 행할 수 있다.

Claims

오디오 신호 분류 방법으로서,
현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 현재 주파수 스펙트럼 변동 파라미터를 획득하고 상기 현재 주파수 스펙트럼 변동 파라미터를 저장할지를 결정하는 단계 - 주파수 스펙트럼 변동 파라미터는 오디오 신호의 주파수 스펙트럼의 에너지 변동을 나타냄 -;
상기 오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터를 업데이트하는 단계; 및
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계
를 포함하고,
현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 현재 주파수 스펙트럼 변동 파라미터를 획득하고 상기 현재 주파수 스펙트럼 변동 파라미터를 저장할지를 결정하는 단계는:
상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임과 상기 현재 오디오 프레임의 과거의 프레임을 포함하는 복수의 연속 프레임 중 어느 것도 에너지 충격에 속하지 않는다면, 상기 현재 오디오 프레임의 상기 현재 주파수 스펙트럼 변동 파라미터를 저장하는 단계
를 포함하는 오디오 신호 분류 방법.
제1항에 있어서,
현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 현재 주파수 스펙트럼 변동 파라미터를 획득하고 상기 현재 주파수 스펙트럼 변동 파라미터를 저장할지를 결정하는 단계는:
상기 현재 오디오 프레임이 활성 프레임이면, 상기 현재 오디오 프레임의 상기 현재 주파수 스펙트럼 변동 파라미터를 저장하는 단계를 포함하는 오디오 신호 분류 방법.
제1항에 있어서,
상기 현재 오디오 프레임이 타악기적 음악인지에 따라, 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터를 업데이트하는 단계는:
상기 현재 오디오 프레임이 타악기적 음악에 속한다면, 상기 저장된 하나 이상의 상기 주파수 스펙트럼 변동 파라미터의 하나 이상의 값을 수정하는 단계를 포함하는 오디오 신호 분류 방법.
제1항에 있어서,
과거의 오디오 프레임의 활동에 따라, 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터를 업데이트하는 단계는:
상기 현재 오디오 프레임이 활성 프레임이고, 이전 오디오 프레임이 비활성 프레임이면, 상기 주파수 스펙트럼 변동 파라미터를 제외하고 다른 저장된 주파수 스펙트럼 변동 파라미터들의 데이터를 무효 데이터로 수정하는 단계; 또는
상기 현재 오디오 프레임이 활성 프레임이고, 과거의 분류 결과가 음악 신호이고 상기 현재 주파수 스펙트럼 변동 파라미터가 제2 값보다 크면, 상기 현재 주파수 스펙트럼 변동 파라미터를 상기 제2 값으로 수정하는 단계를 포함하는 오디오 신호 분류 방법.
제1항에 있어서,
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계는:
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 상기 유효 데이터의 일부 또는 전부의 평균값을 획득하는 단계; 및
상기 획득된 평균값이 음악 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하는 단계를 포함하는 오디오 신호 분류 방법.
제1항에 있어서,
상기 현재 오디오 프레임의 주파수 스펙트럼 고주파 대역 첨도(peakiness) 파라미터, 주파수 스펙트럼 상관 정도 파라미터, 및 선형 예측 잔차(residual) 에너지 경사도 파라미터를 획득하는 단계 - 상기 주파수 스펙트럼 고주파 대역 첨도 파라미터는 상기 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 나타내고; 상기 주파수 스펙트럼 상관 정도 파라미터는 상기 현재 오디오 프레임의 신호 고조파 구조의, 인접한 프레임들 사이의, 안정성(stability)을 나타내고; 상기 선형 예측 잔차 에너지 경사도 파라미터는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타냄 -; 및
상기 현재 오디오 프레임의 상기 음성 활동에 따라, 상기 주파수 스펙트럼 고주파 대역 첨도 파라미터, 상기 주파수 스펙트럼 상관 정도 파라미터, 및 상기 선형 예측 잔차 에너지 경사도 파라미터를 저장할지를 결정하는 단계를 더 포함하고,
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하는 단계는:
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 유효 데이터의 일부 또는 전부의 평균값, 저장된 하나 이상의 주파수 스펙트럼 고주파 대역 첨도 파라미터의 유효 데이터의 일부 또는 전부의 평균값, 저장된 하나 이상의 주파수 스펙트럼 상관 정도 파라미터의 유효 데이터의 일부 또는 전부의 평균값, 및 저장된 하나 이상의 선형 예측 잔차 에너지 경사도 파라미터의 유효 데이터의 일부 또는 전부의 분산을 개별적으로 획득하는 단계; 및
다음의 조건들 중 하나를 포함하는 분류 조건이 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하는 단계를 포함하고,
상기 다음 조건들은:
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 상기 유효 데이터의 상기 평균값이 제1 임계치보다 작은 것;
상기 저장된 하나 이상의 주파수 스펙트럼 고주파 대역 첨도 파라미터의 상기 유효 데이터의 상기 평균값이 제2 임계치보다 큰 것;
상기 저장된 하나 이상의 주파수 스펙트럼 상관 정도 파라미터의 상기 유효 데이터의 상기 평균값이 제3 임계치보다 큰 것; 및
상기 저장된 하나 이상의 선형 예측 잔차 에너지 경사도 파라미터의 상기 유효 데이터의 상기 분산이 제4 임계치보다 작은 것을 포함하는 오디오 신호 분류 방법.
제6항에 있어서,
상기 분류 조건은:
voicing_cnt가 제5 임계치보다 작은 것을 더 포함하고, 상기 voicing_cnt는 상기 현재 오디오 프레임의 보이싱(voicing) 파라미터가 획득되고 저장될 필요가 있을 때 상기 현재 오디오 프레임의 보이싱 파라미터를 저장하는 데 이용되는 보이싱 이력 버퍼(historical buffer)에서 그 값이 제6 임계치보다 큰 보이싱 파라미터들의 수량을 나타내는 오디오 신호 분류 방법.
제1항에 있어서,
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터가 주파수 스펙트럼 변동 버퍼에 저장되고; 상기 현재 주파수 스펙트럼 변동 파라미터가 획득되고 저장되어야 하는 것으로 결정될 때, 상기 현재 주파수 스펙트럼 변동 파라미터가 상기 주파수 스펙트럼 변동 버퍼에 저장되는 오디오 신호 분류 방법.
오디오 신호 분류 장치로서, 상기 장치는 입력 오디오 신호를 분류하도록 구성되고, 상기 장치는:
현재 오디오 프레임의 음성 활동에 따라, 상기 현재 오디오 프레임의 현재 주파수 스펙트럼 변동 파라미터를 획득하고 저장할지를 결정하도록 구성된 저장 결정 유닛 - 상기 현재 주파수 스펙트럼 변동 파라미터는 오디오 신호의 주파수 스펙트럼의 에너지 변동을 나타냄 -;
상기 저장 결정 유닛이 상기 주파수 스펙트럼 변동 파라미터가 저장될 필요가 있다는 결과를 출력할 때 하나 이상의 주파수 스펙트럼 변동 파라미터를 저장하도록 구성된 메모리;
상기 오디오 프레임이 타악기적 음악인지에 따라 또는 과거의 오디오 프레임의 활동에 따라, 상기 메모리에 저장된 상기 하나 이상의 주파수 스펙트럼 변동 파라미터를 업데이트하도록 구성된 업데이트 유닛; 및
상기 메모리에 저장된 상기 하나 이상의 주파수 스펙트럼 변동 파라미터의 유효 데이터의 일부 또는 전부의 통계에 따라 상기 현재 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구성된 분류 유닛
을 포함하고,
상기 저장 결정 유닛은, 상기 현재 오디오 프레임이 활성 프레임이고, 상기 현재 오디오 프레임과 상기 현재 오디오 프레임의 과거의 프레임을 포함하는 복수의 연속 프레임 중 어느 것도 에너지 충격에 속하지 않는 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 현재 주파수 스펙트럼 변동 파라미터가 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성되는
오디오 신호 분류 장치.
제9항에 있어서,
상기 저장 결정 유닛은, 상기 현재 오디오 프레임이 활성 프레임인 것으로 결정될 때, 상기 현재 오디오 프레임의 상기 현재 주파수 스펙트럼 변동 파라미터가 저장될 필요가 있다는 결과를 출력하도록 구체적으로 구성되는 오디오 신호 분류 장치.
제9항에 있어서,
상기 업데이트 유닛은, 상기 현재 오디오 프레임이 타악기적 음악에 속한다면, 상기 메모리에 저장된 주파수 스펙트럼 변동 파라미터들의 하나 이상의 값을 수정하도록 구체적으로 구성되는 오디오 신호 분류 장치.
제9항에 있어서,
상기 업데이트 유닛은, 상기 현재 오디오 프레임이 활성 프레임이고, 이전 오디오 프레임이 비활성 프레임이면, 상기 현재 주파수 스펙트럼 변동 파라미터를 제외하고 상기 메모리에 저장된 다른 주파수 스펙트럼 변동 파라미터들의 데이터를 무효 데이터로 수정하거나; 또는
상기 현재 오디오 프레임이 활성 프레임이고, 과거의 분류 결과가 음악 신호이고 상기 현재 주파수 스펙트럼 변동 파라미터가 제2 값보다 크면, 상기 현재 오디오 프레임의 상기 현재 주파수 스펙트럼 변동 파라미터를 상기 제2 값으로 수정하도록 구체적으로 구성되는 오디오 신호 분류 장치.
제9항에 있어서,
상기 분류 유닛은:
상기 메모리에 저장된 상기 하나 이상의 주파수 스펙트럼 변동 파라미터의 상기 유효 데이터의 일부 또는 전부의 평균값을 획득하도록 구성된 계산 유닛; 및
상기 평균값을 음악 분류 조건과 비교하고; 상기 획득된 평균값이 상기 음악 분류 조건을 만족시킬 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하도록 구성된 결정 유닛을 포함하는 오디오 신호 분류 장치.
제9항에 있어서,
상기 현재 오디오 프레임의 주파수 스펙트럼 고주파 대역 첨도 파라미터, 주파수 스펙트럼 상관 정도 파라미터, 및 선형 예측 잔차 에너지 경사도 파라미터를 획득하도록 구성된 파라미터 획득 유닛을 더 포함하고, 상기 주파수 스펙트럼 고주파 대역 첨도 파라미터는 상기 현재 오디오 프레임의 주파수 스펙트럼의, 고주파 대역에서의, 첨도 또는 에너지 첨예도를 나타내고; 상기 주파수 스펙트럼 상관 정도 파라미터는 상기 현재 오디오 프레임의 신호 고조파 구조의, 인접한 프레임들 사이의, 안정성을 나타내고; 상기 선형 예측 잔차 에너지 경사도 파라미터는 선형 예측 차수가 증가함에 따라 상기 오디오 신호의 선형 예측 잔차 에너지가 변화하는 정도를 나타내고;
상기 저장 결정 유닛은, 상기 현재 오디오 프레임의 상기 음성 활동에 따라, 상기 주파수 스펙트럼 고주파 대역 첨도 파라미터, 상기 주파수 스펙트럼 상관 정도 파라미터, 및 상기 선형 예측 잔차 에너지 경사도 파라미터를 각 종류의 파라미터들에 대응하는 메모리들에 저장할지를 결정하도록 더 구성되고;
상기 메모리는, 상기 저장 결정 유닛이 상기 주파수 스펙트럼 고주파 대역 첨도 파라미터, 상기 주파수 스펙트럼 상관 정도 파라미터, 및 상기 선형 예측 잔차 에너지 경사도 파라미터가 저장될 필요가 있다는 결과를 출력할 때, 상기 주파수 스펙트럼 고주파 대역 첨도 파라미터, 상기 주파수 스펙트럼 상관 정도 파라미터, 및 상기 선형 예측 잔차 에너지 경사도 파라미터를 저장하도록 더 구성되고;
상기 분류 유닛은, 상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 유효 데이터의 일부 또는 전부의 통계, 저장된 하나 이상의 주파수 스펙트럼 고주파 대역 첨도 파라미터의 유효 데이터의 일부 또는 전부의 통계, 저장된 하나 이상의 주파수 스펙트럼 상관 정도 파라미터의 유효 데이터의 일부 또는 전부의 통계, 및 저장된 하나 이상의 선형 예측 잔차 에너지 경사도 파라미터의 유효 데이터의 일부 또는 전부의 통계를 획득하고, 상기 통계에 따라 상기 오디오 프레임을 스피치 프레임 또는 음악 프레임으로 분류하도록 구체적으로 구성되는 오디오 신호 분류 장치.
제14항에 있어서,
상기 분류 유닛은:
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 유효 데이터의 일부 또는 전부의 평균값, 상기 저장된 하나 이상의 주파수 스펙트럼 고주파 대역 첨도 파라미터의 유효 데이터의 일부 또는 전부의 평균값, 상기 저장된 하나 이상의 주파수 스펙트럼 상관 정도 파라미터의 유효 데이터의 일부 또는 전부의 평균값, 및 상기 저장된 하나 이상의 선형 예측 잔차 에너지 경사도 파라미터의 유효 데이터의 일부 또는 전부의 분산을 개별적으로 획득하도록 구성된 계산 유닛; 및
다음의 조건들 중 하나를 포함하는 분류 조건이 만족될 때, 상기 현재 오디오 프레임을 음악 프레임으로 분류하도록 구성된 결정 유닛을 포함하고,
상기 다음 조건들은:
상기 저장된 하나 이상의 주파수 스펙트럼 변동 파라미터의 상기 유효 데이터의 상기 평균값이 제1 임계치보다 작은 것;
상기 저장된 하나 이상의 주파수 스펙트럼 고주파 대역 첨도 파라미터의 상기 유효 데이터의 상기 평균값이 제2 임계치보다 큰 것;
상기 저장된 하나 이상의 주파수 스펙트럼 상관 정도 파라미터의 상기 유효 데이터의 상기 평균값이 제3 임계치보다 큰 것; 및
상기 저장된 하나 이상의 선형 예측 잔차 에너지 경사도 파라미터의 상기 유효 데이터의 상기 분산이 제4 임계치보다 작은 것을 포함하는 오디오 신호 분류 장치.
제15항에 있어서,
상기 분류 조건은:
voicing_cnt가 제5 임계치보다 작은 것을 더 포함하고, 상기 voicing_cnt는 상기 현재 오디오 프레임의 보이싱 파라미터가 획득되고 저장될 필요가 있을 때 상기 현재 오디오 프레임의 보이싱 파라미터를 저장하는 데 이용되는 보이싱 이력 버퍼에서 그 값이 제6 임계치보다 큰 보이싱 파라미터들의 수량을 나타내는 오디오 신호 분류 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제