KR101380297B1

KR101380297B1 - 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법

Info

Publication number: KR101380297B1
Application number: KR1020137004921A
Authority: KR
Inventors: 구일라우메 푸흐스; 스테판 바이어; 프레드리크 나겔; 위르겐 헤얼; 리콜라우스 레텔바흐; 스테판 와브닉; 요시카즈 요코타니; 젠스 허시펠드; 제레미 르콩트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-07-11
Filing date: 2009-06-16
Publication date: 2014-04-02
Also published as: PL2301011T3; AR072863A1; JP2011527445A; CO6341505A2; BRPI0910793A2; CA2730196C; CN102089803A; ES2684297T3; BRPI0910793B8; MY153562A; TW201009813A; TWI441166B; US8571858B2; KR101281661B1; JP5325292B2; KR20110039254A; AU2009267507A1; US20110202337A1; ZA201100088B; HK1158804A1

Abstract

예를 들면 오디오와 음성 세그먼트인 적어도 첫번째 타입과 두번째 타입의 세그먼트를 포함하여 이루어지는 다른 신호 세그먼트를 분류하기 위해 신호로부터 추출된 적어도 하나의 단기 특징을 기초로 신호는 단기 분류되고(150) 단기 분류 결과(152)는 전달된다. 신호로부터 추출된 적어도 하나의 단기 특징과 적어도 하나의 장기 특징을 기초로 신호는 또는 장기 분류되고(154) 장기 분류 결과(156)는 전달된다. 단기 분류 결과(152)와 장기 분류 결과(156)는 신호 세그먼트가 첫번째 타입인지 두번째 타입인지 지시하는 출력 신호(160)를 제공하기 위해 결합된다.

Description

상이한 신호 세그먼트를 분류하기 위한 판별기와 방법 {Method and Discriminator for Classifying Different Segments of a Signal}

본 발명은 적어도 하나의 제1타입 세그먼트와 제2타입 세그먼트를 포함하여 이루어지는 상이한 신호 세그먼트를 분류하기 위한 접근과 관련된다. 본 발명의 실시 예는 오디오 코딩 영역 특히 오디오 신호의 인코딩에 관한 음성/음악 판별에 관련된다.

당해 기술 분야에는 MP3나 AAC와 같은 주파수 도메인 코딩 체계가 알려져 있다. 이러한 주파수 영역 인코더는 타임 도메인/주파수 도메인 변환과 양자화 에러가 심리음향 모듈(psychoacoustic module)로부터의 정보를 이용하여 제어되는 후속 양자화 단계와, 양자화된 스펙트럼 계수와 대응 사이드 정보(corresponding side information )가 코드 테이블을 이용하여 엔트로피 인코딩되는 인코딩 단계를 기초로 한다.

반면에 3GPP TS 26.290에 기술되는 대로 AMR-WB+와 같은 음성 프로세싱에 매우 적합한 인코더가 있다. 이러한 음성 코딩 체계는 타임 도메인 신호의 선형 예측 필터링(Linear Predictive filtering)을 수행한다. 이러한 LP 필터링은 입력 타임 도메인 신호의 선형 예측 분석(Linear Prediction analysis)으로부터 유도된다. LP 필터 계수는 그때 코드화되고 사이드 정보(side information)로 전송된다. 이 프로세스는 선형 예측 코딩(Linear Prediction Coding, LPC)으로 알려진다. 필터의 출력에서 또한 여기 신호(excitation signal)로 알려진 예측 잔류 신호(prediction residual signal)나 예측 에러 신호(prediction error signal)는 ACELP 인코더의 합성에 의한 분석(analysis-by-synthesis) 단계를 이용하여 인코딩되거나, 대안으로 푸리에 변환(Fourier transform)을 중복으로 이용하는 변환 인코더(transform encoder)를 이용하여 인코딩된다. ACELP 코딩과 TCX 코딩이라고도 불리는 변환 부호화 여기 코딩(Transform Coded eXcitation coding) 사이의 결정은 폐루프나 개루프 알고리즘 (open loop algorithm)을 이용하여 이루어진다.

AAC 코딩 체계와 스펙트럼 대역폭 복제 기술(spectral bandwidth replication technique)을 결합하는 고효율 AAC 인코딩 체계와 같은 주파수 도메인 오디오 코딩 체계는 또한 MPEG 서라운드(surround) 용어 아래에서 알려진 조인트 스테레오(joint stereo)나 다중 채널 코딩 도구(multi-channel coding tool)에 결합 될 수 있다. 주파수 도메인 코딩 체계는 음악 신호에 대해서는 낮은 비트율(bit rates)에서 고품질을 보여준다는 점에서 유리하다. 그러나 문제를 일으키는 사실은 낮은 비트율에서 음성 신호의 품질이다.

반면에 AMR-WB+와 같은 음성 인코더는 또한 고주파수 향상 단계와 스테레오 기능성(stereo functionality)을 가진다. 음성 코딩 체계는 심지어 낮은 비트율에서도 음성신호에 대해서는 고품질을 보여주나, 낮은 비율에서 음악신호에 대해서는 낮은 품질을 보여준다.

상기에 언급된 유용한 코딩 체계의 관점에서, 일부는 음성 인코딩에 좀 더 적합하고 나머지는 음악 인코딩에 좀 더 적합하며, 인코딩되는 오디오 신호의 자동 분할과 분류(automatic segmentation and classification)는 많은 멀티미디어 어플리케이션(multimedia application)에서 중요한 도구이며, 하나의 오디오 신호에서 발생하는 각각의 다른 클래스(class)에 적합한 프로세스를 선택하기 위해 사용되기도 한다. 어플리케이션의 전체적인 성능은 오디오 신호 분류의 신뢰성(reliability)에 강하게 의존한다. 실제로, 잘못된 분류는 후속 프로세서의 적합하지 않은 선택과 튜닝을 가져온다.

도 6은 오디오 신호의 판별에 의존하는 음성과 음악을 각각 인코딩하기 위하여 사용되는 종래 코더 디자인을 보여준다. 코더 디자인은 예를 들면 "Extended Adaptive Multi-Rate - Wideband (AMR-WB+) 코덱"에서 기술된 3GPP TS 26.290 V6.3.0, 2005-06, 기술 스펙(Technical Specification)의 AMR-WB+ 음성 인코더와 같은 적절한 음성 인코더(102)를 포함하는 음성 인코딩 분기(100)를 포함하여 이루어진다. 더 나아가, 코더 디자인은 예를 들면 "Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding. International Standard 13818-7, ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group, 1997"에서 기술된 AAC 음악 인코더와 같은 음악 인코더(106)를 포함하여 이루어지는 음악 인코딩 분기(104)를 포함하여 이루어진다.

인코더(102와 106)의 출력들은 멀티플렉서(multiplexer)(108)의 입력에 연결된다. 인코더(102와 106)의 입력들은 선택적으로 입력 오디오 신호를 전달하는 입력 라인(110)에 연결되는 것이 가능하다. 입력 오디오 신호는 도 6에 도식적으로 보여지는 스위치(112)에 의해 음성 인코더(102)나 음악 인코더(106)에 선택적으로 적용되고, 스위칭 제어(switching control)(114)에 의해 제어된다. 부가적으로, 코더 디자인은 또한 입력 오디오 신호로부터 입력을 받아들이고 스위치 제어(114)로 제어 신호를 출력하는 음성/음악 판별기(116)를 포함하여 이루어진다. 스위치 제어(114)는 게다가 멀티플렉서(108)의 두번째 입력으로 입력되는 라인(118)에 모드 표시기 신호(mode indicator signal)를 출력하므로, 모드 표시기 신호는 인코딩된 신호와 함께 보내진다. 모드 표시기 신호는 모드 표시기 비트와 연관된 데이터블록(datablock)이 음성 인코딩되었는지 음악 인코딩되었는지 표시하는 단지 하나의 비트(bit)를 가질 수 있으므로, 예를 들면 디코더에서 판별이 이루어질 필요가 없게 된다. 오히려, 인코딩된 데이터와 함께 디코더측으로 제출된 모드 표시기 비트를 기초로 수신되고 인코딩된 데이터를 적절한 음성 디코더나 음악 디코더로 발송하기 위해 모드 표시기에 기반하여 적절한 스위칭 신호가 생성될 수 있다.

도 6은 디지털 방식으로 라인(110)에 적용된 음성과 음악 신호를 인코딩하기 위해 사용되는 전통적인 코더 디자인이다. 일반적으로, 음성 인코더는 음성에 더 잘 처리하며, 음악 인코더는 음악을 더 잘 처리한다. 보편적인 코딩 체계는 입력 신호의 성질에 따라 하나의 코더로부터 다른 코더로 전환되는 멀티코더(multi-coder) 시스템을 이용하여 설계될 수 있다. 여기서 하찮지 않은 문제점은 스위칭 요소를 구동하는 적절한 입력 신호 분류기를 설계하는 것이다. 분류기는 도 6에 보여지는 음성/음악 판별기(116)이다. 보통 신뢰할만한 오디오 신호의 분류는 높은 지연을 가져오는 반면에 이러한 지연은 리얼 타임 어플리케이션(real-time application)에서는 중요한 인자이다.

일반적으로 음성/음악 판별기에 의해 초래되는 전체적인 알고리즘 지연(algorithmic delay)은 리얼 타임 어플리케이션에서 스위치된 코더(switched coder)를 이용할 수 있도록 충분히 낮은 것이 바람직하다.

도 7은 도 6에 나타난 코더 디자인에서 경험되는 지연을 설명한다. 입력 라인(110)에 적용되는 신호는 16 kHz 샘플링율(sampling rate)에서 1024 샘플의 프레임 베이시스(frame basis)로 코드화되므로, 음성/음악 판별은 즉 매 64 밀리세컨드(millisecond)마다 결정 프레임(decision ever frame)을 전달해야만 한다. 두 인코더사이의 변환은 예를들면 WO　2008/071353　A2에 기술된 방식으로 이루어지게 되며, 음성/음악 판별기는 음성/음악 판별기를 위해 필요한 지연을 고려하지 않고 총 1600 샘플들에 있는 변환된 디코더의 알고리즘 지연을 현저히 증가시키지 않아야만 한다. 더 나아가 AAC 블록 스위칭이 결정될 때 같은 프레임을 위한 음성/음악 결정을 제공하는 것이 바람직하다. 도 7에는 AAC 긴 블록(120)이 2048 샘플들의 길이를 가짐을 나타내는 상황이 묘사되는데, 즉 긴 블록(120)은 1024 샘플들의 두 프레임과 1024 샘플들의 한 프레임의 ACC 짧은 블록(122)과 1024 샘플들의 한 프레임의 AMR-WB+ 수퍼프레임(superframe)(124)을 포함하여 이루어진다.

도 7에는, AAC 블록 스위칭 결정(block-switching decision)과 음성/음악 결정이 1024 샘플들의 프레임(126과 128)에서 각각 행하여지며, 이들은 동일한 시간(period of time)을 커버한다. 두 결정은 하나의 모드로부터 다른 모드로 적절히 가도록 코딩이 변환 윈도우(transition window)를 한번에 사용하도록 만들기 위해서 특별한 위치에서 이루어진다. 결과적으로, 512+64 샘플들의 최소 지연(minimum delay)은 두 결정에 의해서 초래된다. 이러한 지연은 1600 샘플들의 최소 지연(minimal delay)을 주는 최소한 50% 중복 형태(overlap form) AAC MDCT에 의해 생성되는 1024 샘플들의 지연에 더해져야만 한다. 종래 AAC에서 단지 블록 스위칭이 존재하며, 지연은 정확히 1600 샘플들이다. 이러한 지연은 프레임(126)에서 변환이 감지될 때 긴 블록으로부터 짧은 블록으로 한번에 스위칭하기 위해 필요하다. 변환 길이(transformation length)의 스위칭은 프리 에코 인공물(pre-echo artifact)을 피하기 위해 바람직하다. 도 7의 디코딩된 프레임(130)은 긴 또는 짧은 블럭의 어느 경우에도 디코더 측에서 회복될 수 있는 첫번째 전체 프레임을 나타낸다.

음악 인코더로 AAC를 이용하는 스위치된 코더(switched coder)에서, 결정단계로부터 나오는 스위칭 결정은 원래의 AAC 지연에 너무 많은 부가적인 지연을 더하는 것을 피해야만 한다. 부가적인 지연은 결정단계의 신호 분석을 위해 필요한 미리보기(lookahead) 프레임(132)으로부터 나온다. 예를 들면 16kHz의 샘플링율에서 종래 음성/음악 판별기가 약 500 밀리세컨드의 미리보기를 이용하는 반면 AAC 지연은 100 밀리세컨드이므로, 600 밀리세컨드의 지연을 가지는 전환된 코딩 구조가 생기게 된다. 그 결과 전체적인 지연은 원래의 AAC 지연의 6배가 된다.

위에 기술된 종래 접근법은 오디오 신호의 신뢰할만한 분류의 경우 높고 바람직하지 않은 지연이 초래되는 단점이 있으므로, 다른 타입의 세그먼트를 포함하는 신호를 판별하기 위한 새로운 접근법이 필요하게 되는 한편, 판별기에 의해 소개되는 부가적인 알고리즘 지연은 충분히 낮으므로, 스위치된 코더는 리얼 타임 어플리케이션에 또한 사용될 수도 있다.

[J. Wang, et. al. "Real-time speech/music classification with a hierarchical oblique decision tree" ICASSP 2008, IEEE International Conference on Acoustics, Speech and Signal Processing, 2008, March 31, 2008 to April 4, 2008]은 같은 수의 프레임으로부터 유도되는 단기 특징과 장기 특징을 이용하는 음성/음악 분류를 위한 접근을 기술한다. 이러한 단기 특징과 장기 특징은 신호를 분류하기 위해 사용되지만 단기 특징의 제한된 특성만이 이용되며, 예를 들면 대부분의 오디오 코딩 어플리케이션에서 중요한 역할을 함에도 불구하고 분류의 반응성은 이용되지 않는다.

판별기에 의해 초래되는 낮은 어떤 지연을 유지하는 반면 다른 타입의 신호 세그먼트를 판별하기 위한 향상된 접근법을 제공함이 본 발명의 목적이다.

이러한 목적은 청구항 1의 방법과 청구항 14의 판별기에 의해서 달성된다.

본 발명의 일 실시예는 음성과 음악 세그먼트를 포함하여 이루어지는 상이한 오디오 신호 세그먼트를 분류하기 위한 방법에 있어서, 오디로 신호로부터 추출된 적어도 하나의 단기 특징을 기초로 오디오 신호를 단기 분류하고, 단기 분류 결과를 전달하는 단계; 오디로 신호로부터 추출된 적어도 하나의 단기 특징 및 적어도 하나의 장기 특징을 기초로 오디오 신호를 장기 분류하고, 장기 분류 결과를 전달하는 단계; 및 신호 세그먼트가 첫번째 타입인지 두번째 타입인지 나타내는 출력 신호를 제공하기 위해 단기 분류 결과와 장기 분류 결과를 결합하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법을 제공한다.

본 발명의 다른 실시 예는 판별기에 있어서, 신호는 적어도 하나의 첫번째 타입과 두번째 타입의 세그먼트를 포함하여 이루어지고, 신호로부터 추출된 적어도 하나의 단기 특징을 기초로 신호의 단기 분류 결과를 제공하며, 신호를 수신하기 위해 구현된 단기 분류기; 신호로부터 추출된 적어도 하나의 장기 특징을 기초로 신호의 장기 분류 결과를 제공하며, 신호를 수신하기 위해 구현된 장기 분류기; 및 신호 세그먼트가 첫번째 타입인지 두번째 타입인지 나타내는 출력 신호를 제공하기 위해 단기 분류 결과와 장기 분류 결과를 결합하도록 구현된 결정 회로;를 포함하여 이루어지는 것을 특징으로 하는 판별기를 제공한다.

본 발명의 실시예는 장기 분석 결과에 단기 분석 결과를 비교하는 것을 기초로 출력 신호를 제공한다.

*본 발명의 실시 예는 다른 중복되지 않는 음성 또는 음성이 아니거나 더 나아가 다른 부류의 단기 오디오 신호 세그먼트를 분류하기 위한 접근과 관련한다. 이러한 접근은 두개의 다른 분석 윈도우 길이에 대한 특징 추출 및 통계적 분석을 기초로 한다. 첫번째 윈도우는 길고 주로 과거를 고려한다. 첫번째 윈도우는 신호 분류를 위한 신뢰할만한 그러나 지연 결정 단서(clue)를 얻기 위해 이용된다. 두번째 윈도우는 짧으며, 주로 현 시점에서 처리된 세그먼트나 현재 세그먼트(current segment)를 고려한다. 두번째 윈도우는 순간적인 결정 단서를 얻기 위해 이용된다. 두 결정 단서는 우선적으로 지연 단서로부터 메모리 정보와 순간 단서(instantaneous clue)로부터 순간적인 정보를 얻는 히스테리시스 결정(hysteresis decision)을 이용하는 것에 의해 최적으로 결합된다.

본 발명의 실시 예는 단기 특징을 단기 분류기와 장기 분류기로 이용하므로, 두개의 분류기는 같은 특징의 다른 통계를 활용한다. 단기 분류기는 단지 한 세트의 특징으로의 접근만을 가지므로 단지 순간적인 정보를 추출한다. 예를 들면 특징의 평균(mean)을 추출할 수 있다. 반면에 장기 분류기는 여러 프레임을 고려할 수 있으므로 여러 세트의 특징으로의 접근을 가진다. 결과적으로 장기 분류기는 단기 분류기에 비해 더 많은 프레임에 대한 통계를 수행하는 것에 의해 더 많은 신호의 특성을 활용할 수 있다. 예를 들면, 장기 분류기는 특징의 분산(variance)이나 시간에 대한 특징의 전개를 활용할 수 있다. 따라서 장기 분류기는 단기 분류기보다 더 많은 정보를 활용할 수 있으나, 지연과 지체(latency)를 초래한다. 그러나 장기 특징은 지연이나 지체를 초래함에도 불구하고 장기 분류 결과를 좀더 강건하고 신뢰할 수 있도록 만들 것이다. 몇몇 실시 예에서는 단기와 장기 분류기는 한번 계산되고 양쪽 분류기에 의해 이용되는 같은 단기 특징을 고려할 수 있다. 따라서 이러한 실시 예에서 장기 분류기는 단기 분류기로부터 단기 특징을 직접적으로 받을 수 있다.

이에 따라 새로운 접근은 낮은 지연을 초래하는 한편 강건한 분류를 얻는 것을 허용한다. 종래의 접근법보다 본 발명의 다른 실시 예는 신뢰할만한 결정을 유지하는 한편 음성/음악 결정에 의해 초래되는 지연을 제한한다. 본 발명의 일 실시 예에서 미리보기는 128 샘플들에 제한되는데, 전체적으로 단지 108 밀리세컨드의 지연을 가져온다.

본 발명의 실시 예는 아래의 도면을 참조하여 기술된다.
도 1은 본 발명의 일 실시 예에 따른 음성/음악 판별기의 블록 다이어그램이다.
도 2는 도 1의 판별기의 단기와 장기 분류기에 의해 이용되는 분석 윈도우를 나타낸다.
도 3은 도 1의 판별기에 이용되는 히스테리시스 결정을 나타낸다.
도 4는 본 발명의 일 실시 예에 따른 판별기를 포함하여 이루어지는 전형적인 인코딩 체계의 블록 다이어그램이다.
도 5는 도 4의 인코딩 체계에 대응하는 디코딩 체계의 블록 다이어그램이다.
도 6은 오디오 신호의 판별에 의존하여 음성과 음악을 개별적으로 인코딩하기위해 이용되는 종래 코더 디자인을 나타낸다.
도 7은 도 6에 보여지는 코더 디자인에서 만나게 되는 지연을 나타낸다.

도 1은 본 발명의 일 실시 예에 따른 음성/음악 판별기(116)의 블록 다이어그램이다. 음성/음악 판별기(116)는 예를 들면 음성과 음악 세그먼트를 포함하여 이루어지는 오디오 신호인 입력 신호로부터 입력을 수신하는 단기 분류기(150)를 포함하여 이루어진다. 단기 분류기(150)는 출력 라인(152)으로 단기 분류 결과인 순간 결정 단서(instantaneous decision clue)를 출력한다. 더 나아가 판별기(116)는 또한 입력 신호를 수신하고 출력 라인(156)으로 장기 분류 결과인 지연 결정 단서(delayed decision clue)를 출력하는 장기 분류기(154)를 포함하여 이루어진다. 게다가 아래에 좀 더 자세히 기술될 방식으로 음성/음악 결정 신호를 생성하기 위해 단기 분류기(150)로부터의 출력 신호와 장기 분류기(154)로부터의 출력 신호를 결합하는 히스테리시스 결정 회로(158)가 제공되는데, 음성/음악 결정 신호는 라인(160)상의 출력이며 더 나아가 도 6과 관련하여 상기에 기술된 바와 같은 방식으로 입력 신호의 세그먼트 프로세싱을 조절하는데 이용될 수 있으며, 즉 음성/음악 결정 신호(160)가 음성 인코더나 오디오 인코더에서 분류된 입력 신호 세그먼트의 경로를 정하는데 이용될 수 있다.

따라서 본 발명의 일 실시 예에 따르면 입력 라인(110)을 통하여 각각의 분류기에 적용되는 입력 신호상에 두 개의 분류기(150, 154)가 평행하게 이용된다. 두 개의 분류기는 장기 분류기(154)와 단기 분류기(150)로 불리우며, 두 분류기는 분석 윈도우에 대해 작동하는 특징의 통계(statistics of the feature)를 분석하는 것에 의해서 서로 다르다. 두 분류기는 출력 신호(152, 156) 즉 순간 결정 단서(instantaneous decision clue, IDC)와 지연 결정 단서(delayed decision clue, DDC)를 전달한다. 단기 분류기(150)는 입력 신호의 성질에 대하여 순간 정보를 획득하기 위한 목표를 가지는 단기 특징을 기초로 IDC를 생성한다. 그들은 빠르고 어느 때나 변할 수 있는 신호의 단기 속성에 관련된다. 결과적으로 단기 특징은 민감하고 전체적인 판별 프로세스에서 긴 지연을 초래하지 않는 것이 기대된다. 예를 들면, 음성은 5 ~ 20 밀리세컨드 동안 거의 안정적이므로, 단기 특징은 16 kHz로 샘플화된 신호상에서 매 16 밀리세컨드의 프레임마다 계산될 수 있다. 장기 분류기(154)는 장기 특징인 더 긴 신호 관찰로 인한 특징을 기초로 DDC를 생성하고 따라서 좀 더 신뢰할만한 분류를 얻는 것을 허용한다.

도 2는 도 1에서 보여지는 장기 분류기(154)와 단기 분류기(150)에 의해 사용되는 분석 윈도우를 나타낸다. 16 kHz의 샘플링율에서 1024 샘플들의 한 프레임을 가정하면, 장기 분류기 윈도우(162)의 길이는 4*1024+128 샘플들이고, 즉 장기 분류 윈도우(162)는 오디오 신호의 4개의 프레임에 걸쳐지며, 그것을 분석 하기 위한 장기 분류기(154)에 의해 부가적인 128 샘플들이 필요하다. 미리보기로 또한 언급되는 이 부가적인 지연이 도 2에 참조번호(164)로 나타난다. 도 2는 또한 1024+128 샘플들 즉 오디오 신호의 1개의 프레임에 걸쳐지며 현재의 세그먼트를 분석하기 위해 부가적인 지연이 필요한 단기 분류 윈도우(166)를 보여준다. 현재 세그먼트는 음성/음악 결정이 행해질 필요가 있는 세그먼트로128에 나타난다.

도 2에 나타난 장기 분류기 윈도우는 음성의 4-Hz 에너지 변조(energy modulation) 특성을 얻을 정도로 충분히 길다. 4-Hz 에너지 변조는 음성의 관련된 판별 특성이며, 예를 들면 [Scheirer E. and Slaney M., "Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator", ICASSP'97, Munich, 1997]에서와 같이 이용되는 강건한 음성/음악 판별기에 전형적으로 활용된다. 4-Hz 에너지 변조는 신호를 장기 세그먼트로 관찰하는 것에 의해 단지 추출될 수 있는 특징이다. 음성/음악 판별기에 의해서 초래되는 부가적인 지연은 [H. Hermansky, "Perceptive linerar prediction (plp) analysis of speech," Journal of the Acoustical Society of America, vol. 87, no. 4, pp. 1738-1752, 1990 and H. Hermansky, et al., "Perceptually based linear predictive analysis of speech," ICASSP 5.509-512, 1985]에서 기술된 것처럼 지각 선형 예측 분석(perceptual linear prediction analysis)같은 각각의 분석을 행하기 위한 각각의 분류기(150, 154)에 의해 필요한 128 샘플들의 미리보기(164)와 동일하다. 따라서 도 6에 보여지는 바와 같은 인코더 디자인에 상기 실시 예의 판별기를 이용할 경우 스위치된 코더(102, 106)의 전체적인 지연은 리얼 타임 어플리케이션에서 충분히 낮은 108 밀리세컨드와 같은 1600+128 샘플들일 것이다.

음성/음악 결정 신호(160)를 획득하기 위한 판별기(116)의 분류기(150, 154)의 출력 신호(152, 156)를 결합하는 것이 도 3을 참조하여 나타난다. 본 발명의 실시 예에 따른 지연 결정 단서(delayed decision clue, DDC)와 순간 결정 단서(instantaneous decision clue IDC)는 히스테리시스 결정(hysteresis decision)을 이용하여 결합된다. 히스테리시스 프로세스는 그들을 안정화시키기 위해 프로세스 결정을 위치시키는데 넓게 이용된다. 도 3은 음성/음악 결정 신호가 현재 처리된 입력 신호 세그먼트를 음성 세그먼트나 음악 세그먼트로 나타내어야만 하는지를 결정하기 위해 DDC와 IDC의 함수로 두가지 상태의 히스테리시스 결정을 나타낸다. 도 3에는 특성 히스테리시스 사이클(cycle)이 보여지며, IDC와 DDC는 분류기(150, 154)에 의해서 -1은 미리보기가 완전히 음악과 같음을 의미하며, 1은 미리보기가 완전히 음성과 같음을 의미하는 한편, 전체적으로 값들이 -1과 1 사이에 있는 방식으로 정규화된다.

결정은 함수 F(IDC,DDC)의 값에 기초하며, 한 예가 아래에 기술된다. 도 3에서 F1(DDC, IDC)는 F(IDC,DDC)가 음악 상태에서 음성 상태로 가기 위해서 건너야만 하는 임계치를 나타낸다. F2(DDC, IDC)는 F(IDC,DDC)가 음성 상태에서 음악 상태로 가기 위해서 건너야만 하는 임계치를 나타낸다. 이때 인덱스(n)를 가지는 현재 세그먼트나 프레임을 위한 마지막 결정(D(n))은 아래의 의사 코드(pseudo code)를 기초로 계산될 수 있다.

%Hysteresis Decision Pseudo Code

If(D(n-1)==music)

If(F(IDC,DDC)<F1(DDC,IDC))

D(n)==music

Else

* D(n)==speech

Else

If(F(IDC,DDC)>F2(DDC,IDC))

D(n)==speech

Else

D(n)==music

%End Hysteresis Decision Pseudo Code

본 발명의 일 실시 예에 따라 함수 F(IDC,DDC)와 상기 언급된 임계치는 다음과 같이 설정된다.

F(IDC,DDC)=IDC

F1(IDC,DDC)=0.4-0.4*DDC

F2(IDC,DDC)=-0.4-0.4*DDC

대안으로, 다음의 정의가 이용될 수 있다.

F(IDC,DDC)=(2*IDC+DDC)/3

F1(IDC,DDC)=-0.75*DDC

F2(IDC,DDC)=-0.75*DDC

마지막 정의를 이용하는 경우 히스테리시스 사이클은 사라지고 결정이 단지 특이한 적응 임계치(unique adaptive threshold)를 기초로 이루어진다.

본 발명은 상기에서 기술된 히스테리시스 결정에 제한되지 않는다. 더 나아가 출력 신호를 획득하기 위해 분석 결과를 결합하기 위한 실시 예가 다음에 기술된다.

DDC와 IDC 양쪽 특성을 활용하는 방식으로 임계치를 만드는 것에 의한 히스테리시스 결정 대신에 단순한 임계치가 이용될 수 있다. DDC는 신호의 더 긴 관찰로부터 나오므로 좀 더 신뢰할 만한 판별 단서(discriminate clue)로 고려될 수 있다. 그러나, DDC는 부분적으로 신호의 과거 관찰을 기초로 계산된다. 단지 DDC 값을 임계치 0과 비교하여 DDC>0 이면 음성으로 그렇지 않으면 음악과 같은 세그먼트로 분류하는 종래 분류기는 지연 결정을 가질 것이다. 본 발명의 실시 예에서는 IDC 를 활용하는 것에 의해 임계치를 적응시킬 수 있으며 결정이 좀 더 민감한 결정을 만들 수 있다. 이러한 목적으로 임계치는 아래의 유사 코드를 기초로 적응될 수 있다.

% Pseudo code of adaptive thresholding

If(DDC>-0.5*IDC)

D(n)==speech

Else

D(n)==music

%End of adaptive thresholding

다른 실시 예에서는 좀 더 신뢰할만한 IDC를 만들기 위해 DDC가 이용될 수 있다. IDC는 민감하다고 알려져 있으나 DDC만큼 신뢰할 수 없다. 게다가 과거와 현재 세그먼트 사이의 DDC의 전개를 고려하는 것은 어떻게 도 2의 프레임(166)이 세그먼트(162)에서 계산된 DDC에 영향을 미치는지 또 다른 지시를 줄 수 있다. 주석(notation) DDC(n)은 DDC의 현재 값을 위해 사용되며, DDC(n-1)은 과거 값을 위해 사용된다. DDC(n)과 DDC(n-1) 값 모두를 사용하여, 다음에 기술된 대로 결정 트리를 사용하는 것에 의해 IDC가 좀 더 신뢰할 수 있게 될 수 있다.

% Pseudo code of decision tree

If(IDC>0 && DDC(n)>0)

D(n)=speech

Else if (IDC<0 && DDC(n)<0)

D(n)=music

Else if (IDC>0 && DDC(n)-DDC(n-1)>0)

D(n)=speech

Else if (IDC<0 && DDC(n)-DDC(n-1)<0)

D(n)=music

Else if (DDC>0)

D(n)=speech

Else

D(n)=music

%End of decision tree

상기의 결정 트리(decision tree)에서 만약 양쪽 단서가 같은 우도를 보여준다면 결정이 즉시 이루어진다. 만약 두 단서가 서로 모순되는 지시를 준다면 우리는 DDC의 전개를 본다. 만약 차이(DDC(n)-DDC(n-1))가 양수이면 우리는 현재의 세그먼트가 음성과 같음을 가정할 수 있다. 그렇지 않으면 우리는 현재의 세그먼트가 음악과 같음을 가정할 수 있다. 만약 이 새로운 지시가 IDC와 같은 방향으로 간다면 마지막 결정이 이루어진다. 만약 양쪽 시도가 명확한 결정을 주는데 실패한다면 IDC 신뢰성이 인정될 수 없으므로 결정은 단지 지연 단서 DDC를 고려하여 이루어진다.

다음에서 본 발명의 실시 예에 따른 각각의 분류기(150, 154)가 좀 더 자세히 기술된다.

무엇보다도 동일한 것으로 주목되는 장기 분류기(154)에 의존하는 것은 한 세트의 특징인 256 샘플들의 매 서브프레임으로부터 추출하기 위함이다. 첫번째 특징은 [H. Hermansky, "Perceptive linear prediction (plp) analysis of speech," Journal of the Acoustical Society of America, vol. 87, no. 4, pp. 1738-1752, 1990 and H. Hermansky, et al., "Perceptually based linear predictive analysis of speech," ICASSP 5.509-512, 1985]에 기술된 대로 지각 선형 켑스트럼 계수(Perceptual Linear Prediction Cepstral Coefficient, PLPCC)이다. PLPCC는 인간 청각 인식 추정(human auditory perception estimation)을 이용하는 것에 의한 스피커 분류에 효율적이다. 이 특징은 음성과 음악을 판별하기 위해 이용되고, 실제로 시간에 대한 특징 분산을 고려함에 의해 음성의 특성 음소(characteristic formant)뿐만 아니라 음성의 음절 4-Hz 변조(syllabic 4-Hz modulation)를 구별하는 것을 허용한다.

그러나 좀 더 강건하기 위해 PLPCC는 피치 정보를 획득할 수 있는 또 다른 특징과 결합되는데, 이는 또 다른 중요한 음성의 특징이며 코딩에 있어서 중요할 수 있다. 실제로 음성 코딩은 입력 신호가 의사 모노 주기 신호(pseudo mono-periodic signal)라는 가정에 의존한다. 음성 코딩 체계는 이러한 신호에 효율적이다. 반면 음성의 피치 특성은 음악 코더의 많은 코딩 효율에 해를 준다. 음성의 자연적인 진동에 의해 주어지는 부드러운 피치 지연 변동(fluctuation)은 음악 코더의 주파수 표현(frequency representation)이 높은 코딩 효율을 얻기 위해 요구되는 에너지를 충분히 압축할 수 없도록 만든다.

다음의 피치 특징이 결정될 수 있다.

성문 펄스 에너지 비(Glottal Pulses Energy Ratio):

이 특징은 성문 펄스와 LPC 잔류 신호 사이의 에너지 비를 계산한다. 성문 펄스는 LPC 잔류 신호로부터 피크 선택 알고리즘(pick-peaking algorithm)을 이용하는 것에 의해 추출된다. 일반적으로, 소리 세그먼트(voiced segment)의 LPC 잔류는 성문 진동으로부터 나오는 큰 펄스 같은 구조를 보여준다. 이 특징은 소리 세그먼트동안 높다.

장기 게인 예측(long-term gain prediction):

이것은 장기 예측 동안 예를 들면 ["Extended Adaptive Multi-Rate Wideband (AMR-WB+) codec", 3GPP TS 26.290 V6.3.0, 2005-06, Technical Specification]에서 볼 수 있는 음성 코더에서 일반적으로 계산되는 게인이다. 이 특징은 신호의 주기성을 측정하며, 피치 지연 추정(pitch delay estimation)에 기초한다.

피치 지연 변동(pitch delay fluctuation):

이 특징은 마지막 서브프레임에 비교될 경우 현재 피치 지연 추정(present pitch delay estimation)의 차이를 결정한다. 소리 음성(voiced speech)을 위해 이 특징은 낮아야만 하나 0은 아니고 부드럽게 전개된다.

일단 장기 분류기가 요구되는 특징 세트를 추출하면 통계 분류기(statistical classifier)는 이러한 추출된 특징에 사용된다. 분류기는 먼저 음성 훈련 세트(speech training set)와 음악 훈련 세트(music training set)에 대한 특징을 추출하는 것에 의해 훈련된다. 추출된 특징은 양쪽 훈련 세트에 대하여 0의 평균값(mean value)과 1의 분산(variance)으로 정규화된다. 각각의 훈련 세트를 위해 추출되고 정규화된 특징은 장기 분류기 윈도우내에서 모여지고 다섯개의 가우시안을 이용하는 가우시안 혼합 모델(Gaussians Mixture Model, GMM)에 의해 모델링된다. 훈련 순서의 끝에 한 세트의 정규화 파라미터와 두 세트의 GMM 파라미터는 얻어지고 저장된다.

분류하기 위한 각각의 프레임을 위해 특징이 먼저 추출되고 정규화 파라미터로 정규화된다. 음성의 최대우도(lld_speech)와 음악의 최대우도(lld_music)는 음성 클래스의 GMM과 음악 클래스의 GMM을 각각 이용하는 추출되고 정규화된 특징을 위해 계산된다. 지연 결정 단서(DDC)는 이때 다음과 같이 계산된다.

DDC=(lld_speech-lld_music)/(abs(lld_music)+abs(lld_speech))

DDC는 -1과 1사이에 있으며, 음성을 위한 최대우도가 음악을 위한 우도보다 높은(lld_speech>lld_music) 경우 양수이다.

단기 분류기는 단기 특징으로 PLPCC를 이용한다. 장기 분류기 이외에서는 이러한 특징이 단지 윈도우(128)에서 분석된다. 이러한 특징의 통계는 5개의 가우시안을 이용하는 가우시안 혼합 모델(Gaussians Mixture Model, GMM)에 의해 단기로 활용된다. 두 모델이 훈련되는데 하나는 음악을 위한 것이고, 다른 하나는 음성을 위한 것이다. 두 모델은 장기 분류기를 위해 얻어지는 것과는 다름을 통지할 가치가 있다. 분류하기 위한 각각의 프레임을 위해 PLPCC가 먼저 추출되고 음성의 최대 우도(lld_speech)와 음악의 최대우도(lld_music)는 음성 클래스의 GMM과 음악 클래스의 GMM을 각각 이용하기 위해 계산된다. 순간 결정 단서(IDC)는 이때 다음과 같이 계산된다.

IDC=(lld_speech-lld_music)/(abs(lld_music)+abs(lld_speech))

IDC는 -1과 1 사이에 있다.

따라서 단기 분류기(150)는 특징인 지각 선형 예측 켑스트럼 계수(Perceptual Linear Prediction Cepstral Coefficient, PLPCC)를 기초로 신호의 단기 분류 결과를 생성하고 장기 분류기(154)는 같은 특징인 지각 선형 예측 켑스트럼 계수(Perceptual Linear Prediction Cepstral Coefficient, PLPCC)와 상기에서 언급한 부가적인 특징 예를 들면 피치 특성 특징(pitch characteristic feature)을 기초로 신호의 장기 분류 결과를 생성한다. 게다가 장기 분류기는 공유된 특징의 다른 특성 예를 들면 더 긴 관찰 윈도우로의 접근을 가지는 것처럼 PLPCC를 활용할 수 있다. 따라서 단기와 장기 결과를 결합하면 분류를 위한 단기 특징이 충분히 고려되며 즉 그 특성이 충분히 이용된다.

아래에 각각의 분류기(150, 154)에 대한 또 다른 실시 예가 더 상세히 설명될 것이다.

본 실시 예에 따른 단기 분류기에 의해서 분석되는 단기 특징은 주로 위에서 언급된 지각 선형 예측 켑스트럼 계수(Perceptual Linear Prediction Cepstral Coefficient, PLPCC)에 해당한다. PLPCC는 MFCC뿐만 아니라 음성과 스피커 인식에 광범위하게 이용된다(위 참조). PLPCC는 대부분의 현대 음성 코더에 사용되고 그래서 벌써 스위치된 오디오 코더에 설치된 선형 예측(Linear Prediction, LP)의 대부분의 기능성(functionality)을 공유하므로 유지된다. PLPCC는 LP와 마찬가지로 음성의 음소 구조를 추출할 수 있으나 지각적 고려사항을 감안하면 PLPCC는 좀 더 스피커에 의존적이지 않고 따라서 좀 더 언어 정보(linguistic information)와 관련된다. 16 kHz로 샘플링된 입력 신호에는 16 차수(order)가 이용된다. PLPCC와 별개로 소리 세기(voicing strength)는 단기 특징으로 계산된다. 소리 세기는 실제로 그 자체로 판별력이 있다고 고려되지 않으나 특징 차원(feature dimension)에서 PLPCC와 관련하여 유용하다. 소리 세기는 특징 차원에서 음성의 소리 발음과 소리가 나지 않는 발음과 각각 대응되는 적어도 두개의 클러스터를 추출하는 것을 허용한다. 이것은 다른 파라미터 즉 제로 교차 카운터(Zero crossing Counter, zc), 스펙트럼 경사(spectral tilt, tilt), 피치 안정성(pitch stability, ps), 피치 정규 상관(normalized correlation of the pitch, nc)를 이용하여 가점 계산을 기초로 한다. 모든 4개의 파라미터는 0과 1 사이에서 정규화되고 0은 전형적인 소리가 나지 않는 신호에 해당하고 1은 전형적인 소리 신호에 해당한다. 본 실시 예에서 소리 강도는 [Milan Jelinek and Redwan Salami, "Wideband speech coding advances in vmr-wb standard," IEEE Trans. on Audio, Speech and Language Processing, vol. 15, no. 4, pp. 1167-1179, May 2007]에 기재된 VMR-WB 음성 코더에 사용되는 음성 분류 기준으로부터 영감을 얻게 된다. 이는 자기 상관(auto-correlation)에 기초한 전개 피치 트랙커(evolved pitch tracker)에 기초한다. 프레임 인덱스 k에 대해 소리 강도 u(k)는 아래의 형태를 가진다.

단기 특징의 판별 능력은 분류기로 가우시안 혼합 모델(Gaussian Mixture Models, GMMS)에 의해 평가된다. 하나는 음성 클래스를 위한 것이고 다른 하나는 음악 클래스를 위한 것인 두 개의 GMMs가 적용된다. 혼합의 수는 성능에 대한 효과를 평가하기 위해 변하도록 이루어진다. 표 1은 다른 혼합의 수에 대한 정확성 비율(accuracy rate)을 보여준다. 결정은 4개의 연속 프레임의 매 세그먼트마다 계산된다. 그러면 전체적인 지연은 스위치된 오디오 코딩에 적합한 64 밀리세컨드와 같아진다. 혼합의 수에 따라 성능이 향상됨이 관찰될 수 있다. 1-GMMs과 5-GMMs 사이의 갭은 특별히 중요하고 음성의 음소 표현(formant representation)은 단지 하나의 가우시안으로 충분히 정의되기에는 너무 복잡하다는 점에 의해 설명될 수 있다.

	1-GMMs	5-GMMs	10-GMMs	20-GMMs
Speech	95.33	96.52	97.02	97.60
Music	92.17	91.97	91.61	91.77
Average	93.75	94.25	94.31	94.68

표 1 : 단기 특징 분류 정확성(%)

장기 분류기(154)를 고려하면, 예를 들면 [M. J. Carey, et. al. "A comparison of features for speech and music discrimination," Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, ICASSP, vol. 12, pp. 149 to 152, March 1999]에서와 같이 많은 작업들이 특징 그 자체보다 통계 특징의 분산이 좀 더 판별력이 있다고 고려함이 주목된다. 대략 일반적으로 음악이 좀 더 안정적이고 보통 더 낮은 분산을 나타내는 것으로 고려될 수 있다. 반면에 음성은 소리가 나는 세그먼트와 소리가 나지 않는 세그먼트 사이의 주기적인 신호 변화처럼 주목할만한 4-Hz 에너지 변조에 의해 쉽게 구분될 수 있다. 게다가 다른 음소의 연속(succession of different phonemes)은 음성 특징이 덜 일정하도록 만든다. 본 실시 예에서 두 개의 장기 특징이 고려되며, 하나는 분산 계산에 기초하고 다른 하나는 음성의 피치 윤곽의 선험적 지식(priori knowledge of the pitch contour of the speech)에 기초한다. 장기 특징은 낮은 지연 SMD(speech/music discrimination)에 적응된다.

*PLPCCs의 이동 분산(moving variance)은 마지막 프레임을 강조하기 위해 여러 프레임을 커버하는 중복 분석 윈도우(overlapping analysis window)에 대한 각각의 PLPCCs 세트에 대한 분산의 계산을 포함한다. 초래되는 지체를 제한하기 위해 분석 윈도우는 비대칭이며 단지 현재 프레임과 과거 히스토리를 고려한다. 첫번째 단계에서 PLPCCs의 이동 평균 mam(k)는 다음과 같이 기술되는 마지막 N 프레임에 대해 계산된다.

PLPm(k)는 k번째 프레임으로부터 나오는 총 M 계수에 대한 m번째 켑스트럼 계수이다. 이동 분산 mv_m(k)는 다음과 같이 정의된다.

w는 본 실시 예에서 아래와 같이 정의되는 램프 경사(ramp slope)인 길이 N의 윈도우이다.

w(i)=(N-i)/N.(N+1)/2

이동 분산은 결국 켑스트럼 차원(cepstral dimension)으로 평균된다.

음성의 피치는 주목할 만한 특성들을 가지고 그들 중 일부는 단지 긴 분석 윈도우에서 관찰될 수 있다. 실제로 음성의 피치는 소리 세그먼트 동안에는 부드럽게 변동하나 드물게는 일정하다. 반면에 음악은 매우 자주 전체 기록의 기간동안의 일정한 피치와 과도기동안의 갑작스러운 변화를 보여준다. 장기 특징은 장기 세그먼트의 피치 윤곽(pitch contour)을 관찰함으로써 이러한 특성을 포함한다. 피치 윤곽 파라미터 pc(k)는 다음과 같이 정의된다.

p(k)는 16Hz 에서 샘플링된 LP 잔류 신호의 프레임 인덱스 k에서 계산된 피치 지연이다. 피치 윤곽 파라미터로부터 음성 장점(speech merit, sm(k))이 음성이 음성인 세그먼트동안 부드럽게 변동하는 피치 지연을 나타내고 음성이 아닌 세그먼트(unvoiced segment)동안 고주파쪽으로 강한 스펙트럼 기울기(spectral tilt )를 나타내는 방식으로 계산된다.

nc(k), tilt(k), v(k)는 위와 같이 정의된다(단기 분류기 참조). 그러면 음성 장점은 상기에서 정의된 윈도우 w에 의해서 가중되고 마지막 N 프레임에 대하여 통합된다.

피치 윤곽은 신호가 음성이나 오디오 코딩을 위해 적합하다는 또한 중요한 지시이다. 실제로 음성 코더는 주로 타임 도메인에서 작동하고 신호는 약 5ms의 단기 세그먼트에서 조화롭거나(harmonic) 거의 안정적(quasi-stationary)임을 가정한다. 이런 방식으로 효율적으로 음성의 자연적인 피치 변동(natural pitch fluctuation)을 모델로 할 수 있다. 반면에 같은 변동은 긴 분석 윈도우에서 선형 변환(linear transformation)을 활용하는 일반적인 오디오 인코더의 효율에 해를 끼친다. 이때 신호의 주요한 에너지는 여러 변환된 계수에 대해 펼쳐진다.

단기 특징에 대해, 장기 특징은 또한 장기 분류 결과(long-term classification result, DDC)를 획득하는 통계 분류기(statistical classifier)를 이용하여 평가된다. 두가지 특징은 N = 25 frames을 이용하여 계산되는데, 예를 들면 신호의 과거 히스토리의 400 ms를 고려한다. 선형 판별 분석(Linear Discrimant Analysis, LDA)은 감소된 1차원 공간(reduced one-dimensional space)에서 3-GMMs를 이용하기 전에 먼저 적용된다. 표 2는 4개의 연속된 프레임의 세그먼트를 분류하는 경우 훈련(training )과 시험 세트(testing set)에서 측정된 성능을 보여준다.

	Training Set	Test Set
Speech	97.99	97.84
Music	95.93	95.44
Average	96.96	96.64

표 2 : 장기 특징 분류 정확성(%)

본 발명의 실시 예에 따른 결합된 분류기 시스템은 최종 결정에 그들 자신의 특별한 기여를 가져오는 방식으로 단기 특징과 장기 특징을 적절히 결합한다. 이러한 목적을 위해 상기에 기술된 대로 순간 입력이 IDC나 단기 판별 단서(short-term discriminating clue, STDC)로부터 나오는 동안 DDC나 장기 판별 단서(long-term discriminating clue, LTDC)에 의해 메모리 효과가 유도될 때 히스테리시스 최종 결정 단계가 이용될 수 있다. 두 단서는 도 1에 나타난 바와 같이 단기와 장기 분류기의 출력이다. 결정은 IDC에 기초하여 이루어지나 동적으로 상태의 변화를 유발하는 임계치를 조절하는 DDC에 의해 안정화된다.

장기 분류기(154)는 3-GMMs가 뒤 따르는 이전에 LDA로 정의된 양쪽 장기와 단기 특징을 이용한다. DDC는 마지막 4 X K 프레임에 대해 계산된 음성 클래스와 음악 클래스의 장기 분류기 우도의 대수 비율(logarithmic ratio)과 같다. 고려되는 프레임의 수는 최종 결정에서의 메모리 효과를 더 더하거나 덜 더하기 위해 파라미터 K에 따라 변한다. 반면에 단기 분류기는 단지 성능과 복잡성 사이에서 좋은 타협을 보여주는 5-GMMs을 가지는 단기 특징을 이용한다. IDC는 마지막 4 프레임에 대해 계산된 음성 클래스와 음악 클래스의 단기 분류기 우도의 대수 비율(logarithmic ratio)과 같다.

창의적인 접근을 평가하기 위해, 특별히 스위치된 오디오 코딩을 위해 세가지 다른 성능이 평가된다. 첫번째 성능 평가는 전통적인 음악에 대한 음성(speech against music, SvM) 성능이다. 이는 대형 세트의 음악과 음성 아이템에 대하여 평가된다. 두번째 성능 평가는 매 3초마다 음성과 음악 세그먼트가 교차되는 대형 고유 항목(large unique item)에서 이루어진다. 이때 판별 정확성은 음성 전/후 음악(speech after/before music, SabM) 성능으로 불리며 주로 시스템의 민감성을 반영한다. 최종적으로 결정의 안정성은 대형 세트의 음악 아이템에 대한 음성에 따른 분류를 수행하는 것에 의해 평가된다. 음성과 음악 사이의 혼합은 한 아이템에서 다른 아이템으로의 다른 레벨에서 이루어진다. 그러면 음악에 대한 음성(speech over music, SoM) 성능은 총 프레임 수에 대해 클래스 변환이 발생한 수의 비를 계산하는 것에 의해 얻어진다.

장기 분류기와 단기 분류기는 전통적인 하나의 분류기 접근을 평가하기 위한 기준으로 이용된다. 단기 분류기는 낮은 안정성과 전체적인 판별 능력을 갖는 반면 좋은 반응성을 보여준다. 반면에 장기 분류기는 특별히 프레임 4 X K의 수를 증가시키는 것에 의해 더 나은 안정성과 결정의 반응성을 절충시킴에 의해 판별 거동(discriminating behaviour)이 얻어진다. 단지 언급된 전통적인 접근에 비교될 경우 본 발명에 따른 결합된 분류기 시스템의 성능은 여러 장점을 가진다. 하나의 장점은 시스템의 반응성을 유지하는 동안 좋은 순수한 음악에 대한 음성 판별 성능을 유지한다는 것이다. 또 다른 장점은 반응성과 안정성 사이에 좋은 상충 관계(trade-off)이다.

아래에는 도 4와 도 5를 참조하여 본 발명의 실시 예에 따른 판별기와 결정 단계 작동을 포함하는 대표적인 인코딩과 디코딩 체계를 설명한다.

도 4에 보여지는 대표적인 인코딩 체계에 따라 모노 신호, 스테레오 신호나 멀티채널 신호가 공통 전처리 단계(common preprocessing stage)(200)로 입력된다.

공통 전처리 단계(common preprocessing stage)(200)는 조인트 스테레오 기능성(joint stereo functionality), 서라운드 기능성, 및/또는 대역폭 확장 기능성(bandwidth extension functionality)을 가질 수 있다. 단계(200)의 출력에서 하나 혹은 더 많은 스위치들(202)로 입력되는 모노 채널, 스테레오 채널이나 멀티채널이 있다. 단계(200)가 두개나 그 이상의 출력을 가지는 경우 즉 단계(200)가 스테레오 신호나 멀티채널 신호를 출력하는 경우 스위치(202)는 각각의 단계(200)의 출력에 제공된다. 대표적으로 스테레오 신호의 첫번째 채널은 음성 채널일 수 있으며 스테레오 신호의 두번째 채널은 음악 채널일 수 있다. 이 경우 결정 단계(204)에서의 결정은 같은 시간 순간에 두 채널 사이에서 다를 수 있다.

스위치(202)는 결정 단계(204)에 의해 조절된다. 결정 단계는 본 발명의 실시 예에 따른 판별기를 포함하여 이루어지며 입력으로 단계(200)로 들어가는 신호 입력을 수신하거나 단계(200)에 의해 나오는 신호 출력을 수신한다. 대안으로 결정 단계(204)는 또한 모노 신호, 스테레오 신호나 멀티채널 신호에 포함되고, 정보가 존재하는 곳에서 예를 들면 원래 모노 신호, 스테레오 신호나 멀티채널 신호를 생성할 때 발생되는 이러한 한 신호와 적어도 관련된 사이드 정보를 수신한다.

한 실시 예에서, 결정 단계는 전처리 단계(200)를 조절하지 않고, 단계(204)와 단계(200) 사이의 화살표가 존재하지 않는다. 또 다른 실시 예에서 단계(200)에서의 프로세싱은 결정에 기초하여 하나 또는 그 이상의 파라미터를 정하기 위해 어느 정도 결정 단계(204)에 의해 제어된다. 그러나 이는 단계(200)에서의 일반적인 알고리즘에 영향을 미치지 않으므로 단계(200)의 주요한 기능성은 단계(204)의 결정과 관계없이 활동적이다.

결정 단계(204)는 공통 전처리 단계의 출력을 도 4의 상부 가지(branch)에 나타나는 주파수 인코딩 부분(206)에 공급하거나 도 4의 하부 가지에 나타나는 LPC-도메인 인코딩 부분(208)에 공급하기 위해 스위치(202)를 구동한다.

*일 실시 예에서 스위치(202)는 두 코딩 가지(206, 208) 사이에서 변환된다. 또 다른 실시 예에서는 세번째 인코딩 가지나 심지어 네번재 인코딩 가지나 심지어 더 많은 인코딩 가지와 같은 부가적인 인코딩 가지가 있을 수 있다. 세개의 인코딩 가지를 가지는 실시 예에서 세번째 인코딩 가지는 두번째 인코딩 가지에 유사할 수 있으나 두번째 가지(208)의 여기 인코더(excitation encoder)(210)와 상이한 여기 인코더를 포함한다. 그러한 실시 예에서는 두번째 가지는 LPC 단계(212)와 ACELP에서와 같이 여기 인코더(210)에 기초한 코드북(codebook)을 포함하여 이루어지고, 세번째 가지는 LPC 단계와 LPC 단계 출력 신호의 스펙트럼 표현에 따라 작동하는 여기 인코더를 포함하여 이루어진다.

주파수 도메인 인코딩 가지는 공통 전처리 단계 출력 신호를 스펙트럼 도메인으로 전환시키기 위해 작동하는 스펙트럼 전환 블록(spectral conversion block)(214)을 포함하여 이루어진다. 스펙트럼 전환 블록은 MDCT 알고리즘, QMF, FFT 알고리즘, Wavelet 분석이나 몇개의 필터뱅크 채널을 가지며 임계적으로 샘플링되는 필터뱅크와 같은 필터뱅크(filterbank)를 포함할 수 있는데, 이 필터뱅크에서 서브밴드 신호는 실수 값 신호이거나 복소수 값 신호일 수 있다. 스펙트럼 전환 블록(214)의 출력은 AAC 코딩 체계로부터 알려진대로 프로세싱 블록을 포함할 수도 있는 스펙트럼 오디오 인코더(216)를 이용하여 인코딩된다.

하부 인코딩 가지(208)은 두 종류의 신호를 출력하는 LPC(212)와 같은 소스 모델 분석기(source model analyzer)를 포함하여 이루어진다. 한 신호는 LPC 합성 필터(synthesis filter)의 필터 특성을 조절하기 위해 이용되는 LPC 정보 신호이다. LPC 정보는 디코더로 전송된다. 다른 LPC 단계(212) 출력 신호는 여기 신호이거나 여기 인코더(210)으로 입력되는 LPC 도메인 신호이다. 여기 인코더(210)는 CELP 인코더, ACELP 인코더, LPC 도메인 신호를 처리하는 어느 다른 인코더와 같은 어느 소스 필터 모델 인코더(any source-filter model encoder)로부터 나올 수 있다.

또 다른 여기 인코더 구현은 여기 신호의 변환 코딩일 수 있다. 이러한 실시 예에서는 여기 신호는 ACELP 코드북 메커니즘(mechanism)을 이용하여 인코딩되지 않으나 여기 신호는 스펙트럼 표현으로 전환되고, 필터뱅크인 경우의 서브밴드 신호나 FFT같은 변환인 경우 주파수 계수와 같은 스펙트럼 표현 값은 데이터 압축(data compression)을 얻기 위해 인코딩된다. 이러한 종류의 여기 인코더의 구현은 AMR-WB+로부터 알려진 TCX 코딩 모드이다.

결정 단계(204)에서의 결정은 신호에 적응될 수 있으므로 결정 단계(204)는 음악/음성 판별을 수행하고 음악 신호가 상부 가지(206)로 입력되고 음성 신호가 하부 가지(208)로 입력되는 방식으로 스위치(202)를 조절한다. 한 실시 예에서 결정 단계(204)는 그 결정 정보를 출력 비트 스트림(output bit stream)으로 공급하므로 디코더는 올바른 디코딩 작동을 수행하기 위해 이 결정 정보를 이용할 수 있다.

도 5에는 그러한 디코더가 나타난다. 전송 후에 스펙트럼 오디오 인코더(216)에 의한 신호 출력은 스펙트럼 오디오 디코더(218)로 입력된다. 스펙트럼 오디오 디코더(218)의 출력은 타임 도메인 전환기(time-domain converter )(220)로 입력된다. 도 4의 여기 인코더(210)의 출력은 LPC 도메인 신호를 출력하는 여기 디코더(222)로 입력된다. LPC 도메인 신호는 LPC 합성 단계(synthesis stage)(224)로 입력되고, LPC 합성 단계는 또 다른 입력으로 대응되는 LPC 분석 단계(212)에 의해 발생하는 LPC 정보를 수신한다. 타임 도메인 컨버터(220)의 출력 및/또는 LPC 합성 단계(224)의 출력은 스위치(226)로 입력된다. 스위치(226)는 예를 들면 결정 단계(204)에 의해서 발생하거나 원래의 모노 신호, 스테레오 신호나 멀티채널 신호에 의한 것처럼 외적으로 공급되는 스위치 제어 신호(switch control signal)를 통하여 제어된다.

스위치(226)의 출력은 뒤따라 조인트 스테레오 프로세싱(joint stereo processing)이나 대역폭 확장 프로세싱(bandwidth extension processing) 등을 수행하는 공통 후처리 단계(common post-processing stage)(228)로 입력되는 완전한 모노 신호이다. 대안으로 스위치의 출력은 또한 스테레오 신호나 멀티채널 신호일 수 있다. 전처리(preprocessing)가 두 채널로의 채널 감소를 포함하는 경우 그것은 스테레오 신호이다. 세 채널로의 채널 감소나 채널 감소가 없이 단지 스펙트럼 밴드 복제(spectral band replication)가 수행되는 경우에는 그것은 심지어 멀티채널 신호일 수 있다.

공통 후처리 단계의 특별한 기능성에 의존하여 공통 후처리 단계(228)가 대역폭 확장 작동(bandwidth extension operation)을 수행하는 경우 모노 신호, 스테레오 신호나 멀티채널 신호는 블록(228)으로의 신호 입력보다 더 큰 대역폭을 가지는 출력이다.

일 실시 예에서 스위치(226)는 두개의 디코딩 가지(218,220과 222, 224) 사이에서 전환된다. 또 다른 실시 예에서는 세번째 디코딩 가지나 심지어 네번째 디코딩 가지나 심지어 더 많은 디코딩 가지처럼 부가적인 디코딩 가지가 있을 수 있다. 3개의 디코딩 가지를 가지는 실시 예에서 세번째 디코딩 가지는 두번째 디코딩 가지와 유사하나 두번째 가지(222, 224)의 여기 디코더(222)와 다른 여기 디코더를 포함한다. 이러한 실시 예에서 두번째 가지는 LPC 단계(224)와 ACELP 에서 처럼 여기 디코더에 기초한 코드북을 포함하여 이루어지고 세번째 가지는 LPC 단계와 LPC 단계(224) 출력 신호의 스펙트럼 표현에 따른 여기 디코더 작동을 포함하여 이루어진다.

다른 실시 예에서는 공통 전처리 단계는 출력으로 조인트 스테레오 파라미터와 모노 출력 신호를 생성하는 서라운드/조인트 스테레오 블록을 포함하여 이루어지며, 모노 출력 신호는 두개나 더 많은 채널을 가지는 신호인 입력 신호를 다운믹싱(downmixing) 하는 것에 의해 생성된다. 일반적으로 블록의 출력에서 신호는 또한 더 많은 채널을 가지는 신호일 수 있으나 다운믹싱 작용 때문에 블록의 출력에서 채널의 수는 블록으로의 입력 채널의 수보다 더 작을 것이다. 이 실시 예에서, 주파수 인코딩 가지는 스펙트럼 전환 단계와 뒤따라 연결되는 양자화 (quantizing) /코딩 단계를 포함하여 이루어진다. 양자화/코딩 단계는 AAC 인코더와 같은 현대 주파수 도메인 인코더로 알려진 어느 기능성을 포함할 수 있다. 게다가 양자화/코딩 단계의 양자화 작용은 이 정보가 단계로 입력될 경우 주파수에 대한 심리음향 마스킹 임계치(psychoacoustic masking threshold)와 같은 심리음향 정보를 생성하는 심리음향 모듈(psychoacoustic module)을 통하여 조절될 수 있다. 바람직하게는 스펙트럼 전환이 MDCT 작용을 이용하여 이루어지며, 심지어 좀 더 바람직하게는 MDCT 작용은 세기 또는 일반적으로 왜곡 세기(warping strength)가 0과 높은 왜곡 세기사이에서 조절되는 경우 시간이 왜곡된(time-warped) MDCT 작용이다. 0 왜곡 세기에서 MDCT 작용은 기술분야에서 알려진 똑바로 나아가는(straight-forward) MDCT 작용이다. LPC 도메인 인코더는 피치 게인과 피치 지연(lag)을 계산하는 ACELP 코어(core) 및/또는 코드 인덱스와 코드 게인(gain) 같은 코드북 정보를 포함할 수 있다.

도면 일부는 장치의 블록 다이어그램을 나타냄에도 불구하고 동시에 이러한 도면들은 방법을 나타내고 블록 기능성은 방법 단계에 대응한다.

본 발명의 실시 예는 다른 세그먼트나 프레임을 포함하여 이루어지는 오디오 입력 신호를 기초로 상기에 기술되었으며, 다른 세그먼트나 프레임은 음성 정보나 음악 정보와 연관된다. 본 발명의 이러한 실시 예에 한정되지 않고 오히려 적어도 첫번째 타입과 두번째 타입의 세그먼트를 포함하여 이루어지는 신호의 다른 세그먼트를 분류하기 위한 접근이 또한 세개나 더 많은 다른 세그먼트 타입을 포함하여 이루어지는 오디오 신호에 적용될 수 있으며, 각각의 타입은 다른 인코딩 체계에 의해 인코딩되는 것이 바람직하다. 그러한 세그먼트 타입의 예들이다.

정상/비정상(Stationary/non-stationary) 세그먼트는 다른 필터뱅크, 윈도우나 코딩 적응을 이용하기 위해 유용하다. 예를 들면 과도기(transient)는 순수 정현파(pure sinusoid)가 좋은 주파수 해상도 필터뱅크로 코딩되어야만 하는 동안 좋은 시간 해상도(fine time resolution) 필터뱅크로 코딩되어야만 한다.

소리/비소리(Voiced/unvoiced) : 소리 세그먼트는 CELP같은 음성 코더에 의해 잘 처리되나 비소리 세그먼트의 경우 너무 많은 비트(bit)가 버려진다. 파라미터 코딩이 좀 더 효율적일 것이다.

침묵/활성(Silence/active) : 침묵은 활성 세그먼트보다 더 적은 비트로 코딩된다.

조화/비조화(Harmonic/non-harmonic) : 주파수 도메인에서 선형 예측을 이용하는 조화 세그먼트 코딩(harmonic segments coding)을 이용하는 것이 유용할 것이다.

또한 본 발명은 오디오 기술 분야에 국한되지 않으며, 오히려 상기에 기술된 신호를 분류하기 위한 접근은 비디오 신호나 데이터 신호와 같은 다른 종류의 신호에 적용될 수 있으며, 이러한 각각의 신호는 예를 든 바와 같이 다른 프로세싱(processing)을 요구하는 다른 타입의 세그먼트를 포함한다.

본 발명은 타임 신호의 세그먼트화를 필요로 하는 모든 실시간 어플리케이션을 위해 적응될 수 있다. 예를 들면 감시 비디오 카메라로부터의 얼굴 검출은 프레임(여기서 프레임은 시간 n에서 얻어진 사진에 해당한다)의 각각의 픽셀(pixel)이 사람의 얼굴에 속하는지 속하지 않는지를 결정하는 분류기에 기초한다. 분류(즉 얼굴 세그먼트화)는 비디오 스트림의 각각의 하나의 프레임에 대하여 이루어져야만 한다. 그러나 본 발명을 이용하면 현재 프레임의 세그먼트화가 과거 연속 프레임이 더 나은 세그먼트화 정확성을 얻기 위해 연속 사진이 강하게 연관되는 장점을 가지는 것을 고려할 수 있다. 이때 두 분류기는 적용될 수 있다. 하나는 단지 현재 프레임을 고려하며, 다른 하나는 현재와 과거 프레임을 포함하는 한 세트의 프레임을 고려한다. 마지막 분류기는 한 세트의 프레임을 통합할 수 있고 얼굴 위치의 가능 영역(region of probability)을 결정할 수 있다. 단지 현재 프레임에서 이루어지는 분류기 결정은 이때 가능 영역에 비교될 것이다. 결정은 이때 정당화되거나 수정되게 된다.

본 발명의 실시 예는 가지들 사이의 스위칭을 위한 스위치를 이용하므로 단지 한 가지가 처리될 신호를 수신하고 다른 가지는 신호를 수신하지 않는다. 그러나 대안이 되는 실시 예에서는 스위치가 프로세싱 단계나 가지 후에 즉 오디오 인코더와 음성 인코더에 또한 배열될 수 있으므로 양쪽 가지는 같은 신호를 병렬로(in parallel) 처리한다. 이러한 가지 중 하나에 의한 신호 출력은 출력으로 선택되며 즉 출력 비트 스트림으로 기록된다.

본 발명의 실시 예가 디지털 신호를 기초로 기술되는 동안 이러한 세그먼트는 특정 샘플링율에서 얻어지는 미리 정해진 수의 샘플들에 의해 결정되며, 본 발명은 그러한 신호에 한정되지 않으며 오히려 이때 세그먼트가 특정 주파수 범위나 아나로그 신호의 시간 간격에 의해 결정되는 아나로그 신호에 또한 적용 가능하다. 부가적으로 발명의 실시 예는 판별기를 포함하는 인코더와 결합되어 기술되었다. 기본적으로 신호를 분류하기 위한 본 발명의 실시 예에 따른 접근은 인코딩된 신호를 수신하는 디코더에 또한 적용될 수 있으며, 다른 인코딩 체계가 분류됨에 따라 인코딩된 신호가 적절한 디코더에 제공된다.

창의적 방법의 어떤 구현 요구에 따라 창의적인 방법이 하드웨어나 소프트웨어에 구현될 수 있다. 구현은 디지털 저장 매체 특별히 전기적으로 읽을 수 있는 제어 신호가 저장되는 디스크, DVD나 CD를 이용하여 수행될 수 있으며, 이는 프로그램가능한 컴퓨터 시스템과 협력되므로 창의적인 방법이 수행된다. 일반적으로 본 발명은 그러므로 기계적으로 읽을 수 있는 캐리어에 저당되는 프로그램 코드를 가지는 컴퓨터 프로그램 제품이며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 수행될 때 창의적인 방법을 수행하기 위해 작동된다. 그러므로 다른 말로 창의적 방법은 컴퓨터 프로그램이 컴퓨터에서 수행될 때 적어도 하나의 창의적 방법을 수행하기 위한 프로그램 코드를 가지는 컴퓨터 프로그램이다.

상기에 기술된 실시 예는 단지 본 발명의 원리를 설명한다. 여기서 기술된 배열이나 세부 사항의 개조나 변동은 당해 기술분야의 통상의 지식을 가진 자에게 명백할 것이라고 이해된다. 따라서 단지 임박한 특허 청구항(impending patent claim)의 영역에 의해서 제한되며 여기 실시 예의 기재나 설명에 의해 제공되는 세부 사항에 의해 제한되지 않는다. 상기 실시 예에서 신호는 다수의 프레임을 포함하여 이루어지는 것으로 기술되며, 현재 프레임은 스위칭 결정을 위해 평가된다. 스위칭 결정을 위해 평가되는 신호의 현재 세그먼트는 한 프레임일 수 있으나 본 발명은 그러한 실시 예에 제한되지는 않는다. 오히려 신호의 세그먼트는 또한 복수 즉 두개나 더 이상의 프레임을 포함하여 이루어질 수 있다.

게다가 상기 기술된 실시 예에서 단기 분류기와 장기 분류기 둘다 같은 단기 특징을 이용한다. 이러한 접근은 단기 특징을 한번 계산하고 두 분류기에 의해 같은 것을 시스템의 복잡성을 줄일 다른 방법으로 활용하기 위한 필요처럼 다른 이유로 이용될 수 있는데, 즉 단기 특징은 하나의 단기나 장기 분류기에 의해 계산될 수 있으며 다른 분류기에 제공될 수 있다. 또한 단기와 장기 분류기 사이의 비교는 두 분류기가 동일한 특징을 공유하므로 그것을 단기 분류 결과와 비교함에 의해 좀더 쉽게 추론되는 장기 분류 결과에서 현재 프레임의 공헌으로 좀 더 관련된다.

그러나 발명은 그러한 접근에 제한되지 않고 장기 분류기는 동일한 단기 특징을 단기 분류기로 이용하는 것에 제한되지 않으며, 즉 단기 분류기와 장기 분류기는 서로 다른 그들 각각의 단기 특징을 계산한다.

상기에 기술된 실시 예가 PLPCCs의 사용을 단기 특징으로 언급하는 동안, 다른 특징이 고려되며, 예를 들어 PLPCC의 다양성(variability)이 주목된다.

100 : 음성 인코딩 분기
102 : 음성 인코더
104 : 음악 인코딩 분기
106 : 음악 인코더
108 : 멀티플렉서
110 : 입력 라인
112 : 스위치
114 : 스위치 제어
116 : 판별기
118 : 입력 라인
120 : 긴 블록
122 : 짧은 블록
124 : 수퍼프레임
126 : 프레임
128 : 프레임
130 : 디코딩 프레임
132 : 미리보기 프레임
150 : 단기 분류기
152 : 출력 라인
154 : 장기 분류기
156 : 출력 라인
158 : 히스테리시스 결정 회로
160 : 음성/음악 결정 신호
162 : 장기 분류기 윈도우
164 : 부가적인 지연
166 : 단기 분류기 윈도우
200 : 공통 전처리 단계
202 : 스위치
204 : 결정 단계
206 : 주파수 인코딩 부분
208 : LPC-도메인 인코딩 부분
210 : 여기 인코더
212 : LPC
214 : 스펙트럼 전환 블록
216 : 스펙트럼 오디오 인코더
218 : 스펙트럼 오디오 디코더
220 : 타임 도메인 전환기
222 : 여기 디코더
224 : LPC 합성 단계
226 : 스위치

Claims

음성과 음악 세그먼트를 포함하여 이루어지는 상이한 오디오 신호 세그먼트를 분류하기 위한 방법에 있어서,
현재 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지를 결정하기 위해 오디로 신호로부터 추출된 적어도 하나의 단기 특징을 기초로, 단기 분류기(150)에 의해, 오디오 신호를 단기 분류하고(150), 현재 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지 나타내는 단기 분류 결과(152)를, 상기 단기 분류기(150)의 출력에서, 전달하는 단계;
현재 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지를 결정하기 위해 오디로 신호로부터 추출된 적어도 하나의 단기 특징 및 적어도 하나의 장기 특징을 기초로, 장기 분류기(154)에 의해, 오디오 신호를 장기 분류하고(154), 현재 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지 나타내는 장기 분류 결과(156)를, 상기 장기 분류기(154)의 출력에서, 전달하는 단계; 및
상기 단기 분류기(150)의 출력 및 상기 장기 분류기(154)의 출력에 연결되는 결정 회로(158)에 상기 단기 분류 결과(152) 및 상기 장기 분류 결과(156)를 적용하고, 상기 결정 회로(158)가 현재 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지 나타내는 출력 신호(160)를 제공하기 위해 단기 분류 결과(152)와 장기 분류 결과(156)를 결합하는 단계(158);를 포함하여 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 1 항에 있어서,
상기 결합하는 단계는 장기 분류 결과(156)에 단기 분류 결과(152)를 비교하는 것을 기초로 출력 신호를 제공하는 것을 포함하여 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 1 항에 있어서,
적어도 하나의 단기 특징은 분류될 예정인 현재의 오디오 신호 세그먼트를 분석하므로 얻어지며,
적어도 하나의 장기 특징은 현재의 오디오 신호 세그먼트와 하나 이상의 선행 오디오 신호 세그먼트를 분석하므로 얻어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 1 항에 있어서,
적어도 하나의 단기 특징은 첫번째 길이와 첫번째 분석 방법의 분석 윈도우(168)를 분석하므로 얻어지며,
적어도 하나의 장기 특징은 두번째 길이와 두번째 분석 방법의 분석 윈도우(162)를 분석하므로 얻어지며,
상기 첫번째 길이는 두번째 길이보다 짧으며, 상기 첫번째 분석 방법과 두번째 분석 방법은 다른 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 4 항에 있어서,
상기 첫번째 길이는 현재 오디오 신호 세그먼트에 걸치며, 두번째 길이는 현재 오디오 신호 세그먼트와 하나 이상의 선행 오디오 신호 세그먼트에 걸치며, 상기 첫번째와 두번째 길이는 분석 기간을 커버하는 부가 기간(164)을 포함하여 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 1 항에 있어서,
상기 단기 분류 결과(152)와 장기 분류 결과(156)를 결합하는 단계(158)는 결합된 결과를 기초로 히스테리시스 결정하는 것을 포함하여 이루어지고, 결합된 결과는 미리 결정된 가중치에 의해 각각 가중된 단기 분류 결과(152)와 장기 분류 결과(156)를 포함하여 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 1 항에 있어서,
상기 오디오 신호는 디지털 신호이며, 상기 오디오 신호 세그먼트는 특정한 샘플링율로 얻어진 미리 결정된 수의 샘플들로 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 1 항에 있어서,
상기 적어도 하나의 단기 특징은 PLPCCs 파라메터를 포함하여 이루어지고,
상기 적어도 하나의 장기 특징은 피치 특성 정보를 포함하여 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
제 1 항에 있어서,
단기 분류를 위해 사용되는 상기 단기 특징과 장기 분류를 위해 사용되는 상기 단기 특징은 같거나 다르게 이루어지는 것을 특징으로 하는 신호 세그먼트 분류 방법.
음성과 음악 세그먼트를 포함하여 이루어지는 오디오 신호를 처리하기 위한 방법에 있어서,
제 1 항의 방법에 따라 현재의 오디오 신호 세그먼트를 분류하는 단계(116);
분류하는 단계(116)에 의해 얻어진 출력 신호(160)에 의존하여, 제1프로세스나 제2프로세스에 따라 현재 세그먼트를 처리하는 단계(102, 206, 106, 208); 및
처리된 세그먼트를 출력하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 신호 처리 방법.
제 10 항에 있어서,
출력 신호(160)가 세그먼트가 음성 세그먼트임을 나타낼 때, 음성 엔코더(102)에 의해 세그먼트가 처리되며,
출력 신호(160)가 세그먼트가 음악 세그먼트임을 나타낼 때, 음악 엔코더(106)에 의해 세그먼트가 처리되는 것을 특징으로 하는 신호 처리 방법.
제 11 항에 있어서,
세그먼트 타입을 나타내는 출력 신호(160)로부터 인코딩된 세그먼트와 정보를 결합하는 단계(108)를 더 포함하여 이루어지는 것을 특징으로 하는 신호 처리 방법.
컴퓨터에서 실행할 때, 제 1 항의 방법을 수행하기 위한 컴퓨터 프로그램이 그 위에 저장된 컴퓨터 판독가능한 기록 매체.
판별기에 있어서,
오디오 신호는 음성과 음악 세그먼트를 포함하여 이루어지고, 단기 분류 결과(152)는 현재의 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지를 나타내고, 오디오 신호로부터 추출된 적어도 하나의 단기 특징을 기초로 오디오 신호의 단기 분류 결과(152)를 제공하기 위한 출력을 포함하며, 현재의 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지를 결정하며, 오디오 신호를 수신하기 위해 구현된 단기 분류기(150);
장기 분류 결과(156)는 현재의 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지를 나타내고, 오디오 신호로부터 추출된 적어도 하나의 단기 특징 및 적어도 하나의 장기 특징을 기초로 오디오 신호의 장기 분류 결과(156)를 제공하기 위한 출력을 포함하며, 현재의 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지를 결정하며, 오디오 신호를 수신하기 위해 구현된 장기 분류기(154); 및
상기 단기 분류 결과(152) 및 상기 장기 분류 결과(156)를 수신하기 위한, 상기 단기 분류기(150)의 출력 및 상기 장기 분류기(154)의 출력에 연결되며, 현재 오디오 신호 세그먼트가 음성 세그먼트인지 음악 세그먼트인지 나타내는 출력 신호(160)를 제공하기 위해 단기 분류 결과(152)와 장기 분류 결과(156)를 결합하기 위해 구현된 결정 회로(158);를 포함하여 이루어지는 것을 특징으로 하는 판별기.
제 14 항에 있어서,
상기 결정 회로(158)는 장기 분류 결과(156)에 단기 분류 결과(152)를 비교하는 것을 기초로 출력 신호를 제공하기 위해 구현되는 것을 특징으로 하는 판별기.
제 14 항 또는 제 15 항에 있어서,
상기 신호는 음성과 음악 세그먼트를 포함하여 이루어지며, 상기 출력 신호(160)는 신호의 세그먼트가 음성 세그먼트인지 음악 세그먼트인지를 나타내는 것을 특징으로 하는 판별기.
오디오 신호 처리 장치에 있어서,
오디오 신호는 음성과 음악 세그먼트를 포함하여 이루어지고, 처리될 오디오 신호를 수신하기 위해 구현된 입력(110);
음성 세그먼트를 처리하기 위해 구현되는 제1프로세싱 유닛(102; 206);
음악 세그먼트를 처리하기 위해 구현되는 제2프로세싱 유닛(104; 208);
상기 입력에 연결되는 제 14 항의 판별기(116; 204); 및
입력과 제1 및 제2프로세싱 유닛 사이에 연결되며, 입력(110)으로부터의 오디오 신호를 판별기(116)로부터의 출력 신호(160)에 의존하는 제1 및 제2프로세싱 유닛 중 하나에 적용하기 위해 구현되는 스위칭 장치(112; 202);
를 포함하여 이루어지는 것을 특징으로 하는 신호 처리 장치.
오디오 인코더에 있어서,
제 17 항의 오디오 신호 처리 장치를 포함하여 이루어지며,
제1프로세싱 유닛은 음성 인코더(102)를 포함하여 이루어지며, 제2프로세싱 유닛은 음악 인코더(106)를 포함하여 이루어지는 것을 특징으로 하는 오디오 인코더.