KR20180041072A

KR20180041072A - 오디오 프레임 프로세싱을 위한 디바이스 및 방법

Info

Publication number: KR20180041072A
Application number: KR1020170132338A
Authority: KR
Inventors: 필리쁘 질베르똥; 스르단 키티츠
Original assignee: 톰슨 라이센싱
Priority date: 2016-10-13
Filing date: 2017-10-12
Publication date: 2018-04-23
Also published as: CN107945816A; JP2018109739A; US20180108345A1; EP3309777A1

Abstract

오디오 신호 인식을 위한 스캐터링 피처들을 계산하기 위한 디바이스 (200) 및 방법이 개시되어 있다. 인터페이스 (240) 는 프로세서 (210) 에 의해 프로세싱된 오디오 신호를 수신하여 오디오 프레임을 획득한다 (S610). 프로세서 (210) 는 적어도 하나의 오디오 프레임으로부터 1차 스캐터링 피처들을 계산한 다음 (S620), 1차 스캐터링 피처들에 대해, 1차 스캐터링 피처들이 정확한 오디오 신호 인식을 위해 충분한 정보를 포함하고 있는지의 여부의 추정을 계산한다 (S630). 프로세서 (240) 는 1차 스캐터링 피처들이 정확한 오디오 신호 인식을 위해 충분한 정보를 포함하고 있지 않는 경우에만 1차 스캐터링 피처들로부터 2차 스캐터링 피처들을 계산한다 (S650). 2차 스캐터링 피처들이 필요한 것으로 간주될 때에만 계산되기 때문에, 디바이스가 보다 적은 프로세스 전력을 이용할 수 있어, 디바이스에 의한 이용 전력을 보다 낮출 수 있다.

Description

오디오 프레임 프로세싱을 위한 디바이스 및 방법{DEVICE AND METHOD FOR AUDIO FRAME PROCESSING}

본 개시는 일반적으로 오디오 인식에 관한 것이고, 보다 구체적으로, 오디오 인식 피처들의 계산에 관한 것이다.

본 섹션은 아래 설명되고/되거나 청구된 본 개시의 여러 양태들에 관련될 수도 있는 당해 기술의 여러 양태들을 독자에게 도입하도록 의도된다. 본 설명은 본 개시의 여러 양태들의 보다 나은 이해를 용이하게 하기 위해 백그라운드 정보를 독자에게 제공하는데 있어 도움이 될 것으로 믿는다. 따라서, 이들 설명들은 이러한 견지에서 읽혀져야 하며 종래 기술의 인정으로서 간주되지 않음을 이해하여야 한다.

오디오 (음향, 소리) 인식은 비교적 침입음이 없고, 마이크로폰 이외의 다른 검출기들을 필요로 하지 않으며 상대적으로 정확하기 때문에 사람들의 활동을 모니터링하는데 특히 적합하다. 그러나, 성공하기 위해서는 종종 집중형 컴퓨팅 동작들을 필요로 하는 도전 과제가 있다.

도 1 은 미가공 오디오 신호를 캡처하는 오디오 센서 (110), 캡처된 오디오를 준비하는 사전-프로세싱 모듈 (120), 및 오디오 데이터베이스 (150) 내의 엔트리를 이용하여 이후에 출력될 오디오를 라벨링하는 분류기 모듈 (140) 에 추출된 피처들 (즉, 시그너처 계수들) 을 출력하는 피처 추출 모듈 (130) 을 포함하는 일반적인 통상의 오디오 분류 파이프라인 (100) 을 예시한다.

사용자가 음성 인식을 수용하기 위한 원칙적인 제약은 사생활 보호이다. 따라서, 오디오 프로세싱은 클라우드 서비스를 이용하는 대신에, 바람직하게 국부적으로 수행되어야 한다. 결과적으로, CPU 소모 및 일부 경우에 배터리 수명은 포터블 디바이스들에서의 이러한 서비스의 배치에 심각한 제한일 수도 있다.

상반되는 제약은 기술적인 것으로, 많은 별개의 오디오 이벤트들은 매우 유사한 특징들을 지니고 있기 때문에 이들을 서로 구분할 수 있는 피처들을 추출하는데 번거로운 프로세싱 능력을 요구한다. 그러나, 인식은 오디오 신호의 정밀한 시간-주파수 특징들을 활용하는 것에 의해 강화될 수 있으나, 계산 비용이 증가된다. 실제로, 오디오 인식을 구성하는 기능들 중에서 피처 추출은 가장 까다로운 부분이다. 이는 시간, 주파수 또는 양쪽에 걸쳐 오디오 신호를 특징화하는 오디오 프레임 (버퍼) 마다의 특정 시그너처 계수들의 계산에 상당한다.

특히, 높은 인식 정확도를 실현할 수 있는 오디오 인식을 위한 효율적인 피처들은 Anden 과 Mallat 에 의해 제공되었으며, 하기를 참조한다.

J Anden and S. Mallat: "Multiscale Scattering for Audio Classification." ISMIR - International Society for Music Information Retrieval conference. 2011.

J Anden and S. Mallat: "Deep Scattering Spectrum", IEEE Transactions on Signal Processing, 2014.

이들 방법들은 MFCC (Mel Frequency Cepstral Coefficients) 과 같은 음향 분류에 일반적으로 사용되는 베이스라인 방법보다 더 우수한 것으로서 이론적 및 경험적으로 입증되었다 (P. Atrey, M. Namunu, 및 K. Mohan 의 "Audio based event detection for multimedia surveillance" ICASSP - IEEE International Conference on Acoustics, Speech and Signal Processing, 2006. 및 Stowell, D. Giannoulis, E. Benetos, M. Lagrange 및 M. Plumbley 의 "Detection and classification of acoustic scenes and events" IEEE Transactions on Multimedia, 2015 를 참조한다).

이들 방법은 스캐터링 피처들의 계산을 포함한다. 먼저, x 로 표기된 캡처된 미가공 오디오 신호로부터, 프레임 (고정된 유지기간의 오디오 버퍼) 이 획득된다. 이 프레임은 전체 주파수 스펙트럼이 커버되도록 설계되어진, 대역통과 필터들 (

; λ 는 주어진 필터의 중앙 주파수 인덱스를 표기한다) 및 저대역 통과 필터 (

) 를 포함하는 복합 웨이브릿 필터 뱅크에 의해 컨볼루션된다. 그후, 모듈러스 연산자 (|·|) 가 적용되고, 이는 더 낮은 주파수들을 향하여 에너지를 밀어낸다 [S. Mallat : "Group invariant scattering." Communications on Pure and Applied Mathematics, 2012 를 참조한다]. 모듈러스 연산자의 적용 후에 얻어진 이 생성된 계수들의 세트의 저대역 통과 부분은 "0차" 스캐터링 피처들 (

) 로서 저장되고 라벨링된다. 더 높은 "스캐터링 차수" 계수들 (

) 을 연산하기 위해, 이들 동작들은 대역 통과 필터들에 의해 생성된 계수들의 모든 나머지 시퀀스들에 재귀적으로 적용된다. 이는 "Deep Scattering Spectrum" 의 도 4 에서 예시된 바와 같이, 트리형태 표현을 효과적으로 가져온다. 알 수 있는 바와 같이, 스캐터링 차수가 증가함에 따라 계산 비용이 빠르게 증가한다. 달리 말하면, 이 방법의 차별화된 능력은 일반적으로 스캐터링 차수에 따라 증가한다. 더 높은 스캐터링 차수는 일반적으로 더 양호한 분류를 일으키지만, 더 철저한 피처 계산 및 결과적으로 더 높은 계산 부하를 필요로 하며, 일부 경우에 더 높은 배터리 소모량을 증가시킨다.

종래의 솔루션들의 단점들 중 적어도 일부를 해결하는 솔루션에 대한 요구가 있음을 알 것이다. 본 원리들은 이러한 해결책을 제공한다.

제 1 양태에서, 본 원리들은 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스에 대해 교시된다. 디바이스는 오디오 신호를 수신하도록 구성되는 인터페이스, 및 오디오 신호를 프로세싱하여 오디오 프레임들을 획득하고, 적어도 하나의 오디오 프레임으로부터 1차 스캐터링 피처들을 계산하고, 최고 에너지를 갖는 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에만 (n 은 정수이다), 1차 스캐터링 피처들로부터 2차 스캐터링 피처들을 계산하도록 구성된다.

제 1 양태의 여러 실시형태들은 다음을 포함한다:

프로세서는 또한, 최고 에너지를 갖는 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값을 초과하는 경우에 1차 스캐터링 피처들만을 기초하여 오디오 분류를 수행하도록 구성된다. 프로세서는 또한, 최고 에너지를 갖는 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에 1 차 스캐터링 피처들 및 적어도 2차 스캐터링 피처들에 기초하여 오디오 분류를 수행할 수 있다.

최고 정규화된 에너지를 갖는 n 개의 1차 스캐터링 피처들에 대한 정규화된 에너지의 합이 제 2 임계값을 초과하는 경우에 에너지는 임계값을 초과한다. 제 2 임계값에 대한 최저 가능값은 0 이고 최고 가능값은 1 이고, 그리고 제 2 임계값은 0.7 과 0.9 사이에 있을 수 있다.

프로세서는 최고 에너지를 갖는 계산된 스캐터링 피처들의 세트의 에너지가 제 3 임계값을 초과할 때까지 바로옆 하위 차수의 스캐터링 계수들로부터 상위 차수 스캐터링 계수들을 반복적으로 계산하도록 구성된다.

제 2 양태에서, 본 원리들은 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법에 대해 교시된다. 프로세서는 수신된 오디오 신호를 프로세싱하여 적어도 하나의 오디오 프레임을 획득하고, 적어도 하나의 오디오 프레임으로부터 1차 스캐터링 피처들을 계산하고, 최고 에너지를 갖는 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에만 (n 은 정수이다), 1차 스캐터링 피처들로부터 2차 스캐터링 피처들을 계산한다.

제 2 양태의 여러 실시형태들은 다음을 포함한다:

프로세서는 또한, 최고 에너지를 갖는 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값을 초과하는 경우에 1차 스캐터링 피처들만을 기초하여 오디오 분류를 수행한다. 프로세서는 또한, 최고 에너지를 갖는 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에 1 차 스캐터링 피처들 및 적어도 2차 스캐터링 피처들에 기초하여 오디오 분류를 수행할 수 있다.

프로세서는 최고 에너지를 갖는 계산된 스캐터링 피처들의 세트의 에너지가 제 3 임계값을 초과할 때까지 바로옆 하위 차수의 스캐터링 계수들로부터 상위 차수 스캐터링 계수들을 반복적으로 계산한다.

제 3 양태에서, 본 원리들은 비일시적 컴퓨터 판독가능 매체 상에 저장되고 제 2 양태에 따른 방법을 구현하기 위하여 프로세서에 의해 실행가능한 프로그램 코드 명령들을 포함하는 컴퓨터 프로그램 제품에 대해 교시한다.

본 원리들의 선호되는 특징들은 첨부한 도면들을 참조하여 비제한적 예에 의해 이하 설명된다:
도 1 은 일반적인 종래의 오디오 분류 파이프라인을 예시한다.
도 2 는 본 원리들에 따른 오디오 인식을 위한 디바이스를 예시한다.
도 3 은 본 원리들의 음향 분류 파이프라인의 피처 추출 모듈을 예시한다.
도 4 는 예시적인 1차 계수들의 관련성 맵을 예시한다.
도 5 는 예시적인 성능에 대한 정밀도/회수 곡선을 예시한다.
도 6 은 본 원리들에 따라 오디오 인식의 방법을 위한 플로우차트를 예시한다.

본 원리들을 뒷받침하는 아이디어는 오디오 신호의 시간-변화 거동에 적응적인 피처 추출 모듈을 포함하는 것에 의해 오디오 이벤트 인식의 계산적 복잡도를 적응적으로 감소시키는 것이고, 오디오 신호의 거동은 오디오 트랙의 고정된 프레임 상에서 연산되고 스캐터링 피처들의 주어진 세트의 분류 성능에서의 분류기 독립 추정을 나타낸다. 메트릭의 이용을 통하여, 스캐터링 변환의 차수가 최적화될 수 있다.

본 원리들은 바람직하게 효과적인 피처 추출기로서 이하 설명된 "스캐터링 변환"을 이용한다. "오디오 분류에 대한 멀티스케일 스캐터링"의 도 2 에 도시된 바와 같이, 스캐터링 변환으로부터 연산된 1차 스캐터링 피처들은 통상의 MFCC 피처들에 매우 유사하다. 그러나, 2차 계수들에 의해 강화된 스캐터링된 피처들에 대해, 분류 에러가 상당히 감소할 수도 있다. 상위 차수의 스캐터링 변환을 이용한 이점은 MFCC 계산에 의해 평균화되는 음향 신호의 손실된 고속 시간 변동들을 복구하는 능력이다. 예를 들어, "오디오 분류를 위한 멀티스케일 스캐터링"에서 논의된 바와 같이, (강화된) 2차 스캐터링 피처들의 차별적 능력은 이들 피처들이 최대 2차 모멘트들까지만 관련된 1차 계수들과는 반대적으로, 상위 차수 통계 모멘트들 (최대 4차까지) 에 의존한다는 사실에 기원한다. 그러나, 일부 유형들의 신호들은 이들의 지배적으로 낮은 대역폭 컨텐츠의 결과인 것으로 가정되는, 하위 차수의 스캐터링 변환에 의해서도 잘 표현될 수도 있다. 따라서, 이 특성을 검출하는 것에 의해, 연산된 피처들 (즉, 하위 차수 피처들) 이 오디오 신호의 정확한 분류를 위해 충분하다는 결론을 묵시적으로 내릴 수 있다.

따라서, 스캐터링 차수가 오디오 신호의 관찰된 시간 변동 거동에 대해 프레임마다 적응적으로 선택되면, 본 원리들은 가능한 충분한 프로세싱 전력 절감을 실현할 수도 있음을 알 수 있다.

도 2 는 본 원리들에 따른 오디오 인식을 위한 디바이스 (200) 를 예시한다. 디바이스 (200) 는 이하 더욱 설명될 바와 같이, 제 1 소프트웨어 프로그램의 명령들을 실행하고, 그리고 인식을 위하여 오디오를 프로세싱하도록 구성되는 적어도 하나의 하드웨어 프로세싱 유닛 ("프로세서")(210) 을 포함한다. 디바이스 (200) 는 송출 패킷들 (outgoing packets) 을 프로세싱하는데 필요한 데이터 및 소프트웨어 프로그램을 저장하도록 구성되는 적어도 하나의 메모리 (220)(예를 들어, ROM, RAM 및 플래시 또는 이들의 조합) 를 더 포함할 수도 있다. 디바이스 (200) 는 또한 사용자와 인터페이싱하는 적어도 하나의 사용자 통신 인터페이스 ("사용자 I/O")(230) 를 포함한다.

디바이스 (200) 는 입력 인터페이스 (240) 및 출력 인터페이스 (250) 를 더 포함한다. 입력 인터페이스 (240) 는 프로세싱을 위하여 오디오를 획득하도록 구성되며, 입력 인터페이스 (240) 는 오디오를 캡처하도록 적응될 수 있지만 (예를 들어, 마이크로폰), 이는 또한 캡처된 오디오를 수신하도록 적응된 인터페이스일 수도 있다. 출력 인터페이스 (250) 는 추가의 디바이스로의 트랜스퍼에 의해, 또는 스크린 상의 표현을 위하여 분석된 오디오에 대한 정보를 출력하도록 구성된다.

디바이스 (200) 는 바람직하게 단일의 디바이스로서 구현되지만, 그 기능성은 복수의 디바이스들 상에 분산될 수 있다.

도 3 은 본 원리들의 음향 분류 파이프라인의 피처 추출 모듈 (330) 을 예시한다. 피처 추출 모듈 (330) 은 도 1 에 예시된 종래의 피처 추출 모듈 (130) 에서와 같이, 1차 스캐터링 피처들의 계산을 위한 제 1 서브-모듈 (332), 및 2차 스캐터링 피처들의 계산을 위한 제 2 서브-모듈 (334) 을 포함한다. 또한, 피처 추출 모듈 (330) 은 또한, 아래 더욱 설명될 바와 같이 스캐터링 변환의 최소 필요 차수를 결정하도록 에너지 보존 추정자를 포함한다.

"Group Invariant Scattering"(S. Mallat) 에서는, 스캐터링 차수가 증가함에 따라 스캐터링 표현의 에너지가 입력 신호의 에너지에 근접한다고 주장한다. 본 원리들은 스캐터링 표현의 정보 컨텐츠에 대한 프록시 표시자로서 이 특성 (이에 따른 차별적 성능) 을 이용한다.

상이한 차수들의 스캐터링 피처들에 기초하여 사전 트레이닝된 분류기들의 풀이 존재한다고 가정된다. 따라서, 주어진 오디오 프레임에 대한 필요한 스캐터링 차수가 추정되었고 대응하는 피처들이 연산되었다면, 적절한 모델을 이용하여 분류를 수행한다. 분류는 매우 낮은 계산 복잡도로 된 동작이다.

이후 설명에서, 표현 "신호"는 저대역 통과 부분을 배제한, 선행 스캐터링 차수의 부모 노드로부터 얻어진 임의의 계수들의 시퀀스

(m≥0) 로서 해석될 것이다. 따라서, m=0 시퀀스는 오디오 신호 자체이다. 상이한 신호들이 상이한 주파수 대역들에서의 에너지를 포함하고 있기 때문에, 중요한 대역들은 관련성 맵, 즉, 각각의 대역 통과 필터에 의해 필터링되는 신호의 정규화된 에너지 (

) 를 연산하는 것에 의해 먼저 마킹된다:

양의 수들에 대한 결과적인 시퀀스 {

} 는 최대 1 까지 추가한다.

의 보다 큰 값은 보다 중요한 주파수 대역들을 표시하고, 주어진 대역에서 신호 에너지를 관찰하는 가능성을 모델링하는 확률 질량 함수 (P) 의 피크들로서 이해될 수 있다. 이러한 확률 질량 함수의 일 예가 도 4 에 도시되며, 도 4 는 예시적인 1차 계수들의 관련성 맵을 도시한다. 알 수 있는 바와 같이, 수개의 주파수 대역들 중 좌측에 대한 대역들은 가장 큰 관련성이 있는 것으로 고려된다.

이전에 언급된 바와 같이, 저대역 통과 필터 (

) 는 각각의 신호 (

) 에 대해 적용되어 그 주파수 범위를 제한한다. 이는 또한 필터링된 신호의 정보 컨텐츠를 제한한다. 본 원리들에 따르면, 입력 신호에 대해 저대역 통과 필터링된

에 의해 보존되는 상대 에너지가 측정된다:

정규화된 필터 (

) 에 대해, 이 비율은 필수적으로 0 과 1 사이의 값에서 바운딩되고, 주어진 주파수 대역에 대해 에너지의 보전을 표시한다: 비율이 클수록, 주어진 피처들 내에서 에너지의 양도 더 크게 캡처된다.

본 원리들에 따르면, 에너지 보존은 단지 "중요한" 주파수 대역들에서만 모니터링되고, 이 주파수 대역은 관련성 맵을 이용하여 추정된다. 먼저, 정규화된 에너지들 ({

}) 이 내림차순으로 분류된다 (도 4 는 분류 후의 관련성 맵을 도시한다). 그 후,

의 누적 합이 임계값 (

) 에 도달 - 즉,

- 하는 제 1 의 n 개의 주파수 대역들이 "중요한 것으로" 간주된다. 즉, 사용자 정의된 임계값 (

) 은 중요한 주파수 대역들의 수를 묵시적으로 파라미터화한다; 임계값 (

) 의 값이 낮을 수록, 더 적은 주파수 대역들이 중요한 것으로 간주된다.

그 후, 최종 에너지 보존 추정자는

로서 연산되고, 여기에서, {

} 는 {

} 의 내림차순에 따라 정렬되고, 그리고 0 <β≤ 1 은 중요한 주파수 대역들에서의 에너지의 최소 관련양이다. β 에 대한 낮은 임계값 (τ) 을 설정하는 것에 의해, 주어진 스캐터링 피처가 정확한 분류에 대한 충분한 정보를 포함하는지의 여부 또는 상위 스캐터링 차수의 피처들이 연산될 필요가 있는지를 결정하는 것이 가능하다. 발명자들의 실험들에서, 최상의 성능은 0.5≤τ≤0.85 및

에서 획득된다. 예시적 성능이 도 5 에 예시된 정밀도/회수 곡선으로 제시되며, 여기에서, "계산 절감" 양은, 1차 스캐터링이 고려되는 오디오 프레임들의 총 개수에 대하여, 충분한 것으로서 추정될 때 (그리고 이에 따라 2차 계수들이 연산될 필요가 없을 때) 의 경우들의 백분율이다. 이는 (예를 들어, 오디오 신호의 유형 및 임계값 (

) 중 적어도 하나에 따라) 설정마다 다를 수 있는 예시적인 값임을 주지해야 한다.

도 6 은 본 원리들에 따라 오디오 인식의 방법을 위한 플로우차트를 예시한다. 예시된 방법은 1차 및 2차 스캐터링 피처들을 이용하고 있지만, 본 방법은 스캐터링 차수 m-1 의 피처들이 충분한지를 결정하거나 또는 m차 스캐터링 피처들을 계산할 필요가 있는지를 결정하기 위해 상위 차수들로 쉽게 확장한다.

단계 S605 에서, 인터페이스 (도 2 에서의 240) 는 오디오 신호를 수신한다. 단계 S610 에서, 프로세서 (단계 2 에서의 210) 는 오디오 신호로부터 계산되어 사전 프로세싱 (도 1 에서 120) 에 의해 출력되는 오디오 프레임을 획득한다. 사전 프로세싱은 프로세서에서 수행될 수 있음을 주지한다. 단계 S620 에서, 프로세서는 통상의 방식으로 1차 스캐터링 피처들을 계산한다. 단계 S630 에서, 프로세서는 이전에 설명된 바와 같이, 에너지 보존 추정자 (β) 를 계산한다. 단계 S640 에서, 프로세서는 에너지 보존 추정자 (β) 가 저 임계값 (τ) 이상인지를 결정한다 (당연히 절대적으로 더 큰 것도 또한 가능하다). 에너지 보존 추정자 (β) 가 저 임계값 (τ) 보다 더 낮으면, 프로세서는 단계 S650 에서 대응하는 2차 스캐터링 피처들을 계산하고; 저 임계값보다 낮지 않으면, 2차 스캐터링 피처들의 계산이 수행되지 않는다. 마지막으로, 프로세서는 이들이 계산되었다면 1차 스캐터링 피처들 및 2차 스캐터링 피처들 중 적어도 하나를 이용하여 단계 S660 에서 오디오 분류를 수행한다.

당해 기술 분야의 당업자는 에너지 보존 추정자가 분류기 독립형 메트릭임을 알고 있을 것이다. 그러나, 분류기가 미리 특정되고 특정의 신뢰도 메트릭 (예를 들어, 클래스 확률 추정값) 을 제공하면, 성능을 높이기 위한 시도시에 함께 추정값들을 고려하는 것이 가능하다.

본 원리들은 하기의 것을 가능하게 하는 오디오 인식을 위한 솔루션을 제공할 수 있음을 알 것이다:

낮은 계산 비용으로 당해 기술 스캐터링 피처들의 이용을 용이하게 하는 것에 의한 CPU 리소스 절감들, 특히, 제한된 리소스들을 갖는 플랫폼, 예를 들어, 포터블 디바이스들 또는 상주형 게이트웨이들에 대한 절감들.

모바일 디바이스들에서의 내장형 시스템들에 대한 배터리 수명의 연장 및 최적화된 배터리 수명 유지기간.

분류기 애그노스틱 방법.

성공 추정값의 제공: 스캐터링 피처 시퀀스가 주어지면, 분류가 정확할 가능성이 어느정도인가?

오디오 신호들 이외의 다른 유형들의 신호들로의 확장 (단도직입적으로 다른 유형들의 신호들, 예를 들어, 이미지들, 비디오 등으로 확장가능함).

도면들에 도시된 엘리먼트들이 하드웨어, 소프트웨어, 또는 이들의 조합의 여러 형태들로 구현될 수도 있음을 이해해야 한다. 바람직하게, 이들 엘리먼트들은 하드웨어와 소프트웨어의 조합으로, 프로세서, 메모리, 및 입력/출력 인터페이스를 포함할 수도 있는 적절하게 프로그래밍된 하나 이상의 범용 디바이스들 상에서 구현된다. 여기에서, 어구 "커플링된"은 하나 이상의 중간 컴포넌트들을 통하여 간접적으로 접속되거나 또는 직접 접속됨을 의미한다. 이러한 중간 컴포넌트들은 하드웨어 및 소프트웨어 기반 컴포넌트들 양쪽을 포함할 수도 있다.

본 설명은 본 개시의 원리들을 예시한다. 따라서, 당해 기술 분야의 당업자는 여기에 명시적으로 설명되거나 도시되지 않았지만 본 개시의 원리들을 구현하고 본 발명의 범위 내에 포함되는 여러 장치들을 디바이스화할 수 있음을 인식할 것이다.

여기에 이용된 모든 예들 및 조건적인 언어는 당해 기술을 발전시키도록 발명자에 의해 기여된 개념들 및 본 개시의 원리들을 독자들이 이해하는데 있어 도움을 주는 교육적 목적으로 의도되며, 이러한 인용된 예들 및 조건들로 제한되지 않는 것으로 간주되어야 한다.

또한, 본 개시의 원리들, 양태들, 및 실시형태들 뿐만 아니라 이들의 특정 예들을 인용하는 여기에서의 모든 설명들은 이들의 기능적 그리고 구조적 균등물 양쪽 모두를 포함하도록 의도된다. 추가로, 이러한 등가물들은 현재 알려진 균등물들 뿐만 아니라 미래 개발될 균등물들, 즉, 구조와 관련없이 동일한 기능을 수행하도록 개발된 임의의 엘리먼트들, 양쪽 모두를 포함하도록 의도된다.

따라서, 예를 들어, 여기에 제시된 블록도들이 본 개시의 원리들을 구현하는 예시적 회로부의 개념적 뷰들을 표현하고 있음을 당해 기술 분야의 당업자는 인식할 것이다. 이와 유사하게, 임의의 플로우차트, 흐름도들, 상전이도들, 의사 코드 등은 컴퓨터 판독가능 매체에서 순차적으로 표현될 수도 있고 이에 의해 컴퓨터 또는 프로세서가 명시적으로 도시되든 도시되지 않든 간에 이 컴퓨터 또는 프로세서에 의해 실행되는 여러 프로세스들을 표현함을 인식할 것이다.

도면들에 도시된 여러 엘리먼트들의 기능들은 전용 하드웨어 뿐만 아니라 적절한 소프트웨어와 연관되어 소프트웨어를 실행가능한 하드웨어의 이용을 통하여 제공될 수도 있다. 프로세서에 의해 제공될 때, 기능들은 단일의 전용 프로세서에 의해 단일의 공유 프로세서에 의해 또는 그 일부가 공유될 수도 있는 복수의 개별적인 프로세서들에 의해 제공될 수도 있다. 또한, 용어 "프로세서" 또는 "제어기"의 명시적 사용은 소프트웨어를 실행가능한 하드웨어를 배타적으로 지칭하는 것으로 간주되지 않아야 하며, 제한 없이, 디지털 신호 프로세서 ("DSP") 하드웨어, 소프트웨어를 저장하기 위한 판독전용 메모리 ("ROM"), 랜덤 액세스 메모리 ("RAM"), 및 비휘발성 저장부를 묵시적으로 포함할 수도 있다.

통상적 및/또는 관습적 다른 하드웨어도 또한 포함될 수도 있다. 이와 유사하게, 도면들에 도시된 임의의 스위치들은 컨셉 전용이다. 이들 기능은 프로그램 로직의 동작을 통하여, 전용 로직을 통하여, 프로그램 제어 및 전용 로직의 상호작용을 통하여 또는 심지어 수동으로 수행될 수도 있고, 특정 기술은 문맥으로부터 보다 구체적으로 이해되는 바와 같이 구현자에 의해 선택가능하다.

이 청구항들에서, 특정 기능을 수행하는 수단으로서 표현되는 임의의 엘리먼트는 예를 들어, a) 기능을 수행하는 회로 엘리먼트들의 조합 또는 b) 임의의 형태의 소프트웨어로서, 이에 따라, 기능을 수행하는 소프트웨어를 실행하기 위한 적절한 회로와 조합하는 펌웨어, 마이크로코드 등을 포함하는 임의의 형태의 소프트웨어를 포함하는, 기능을 수행하는 임의의 방식을 수반하도록 의도된다. 여러 언급된 수단에 의해 제공되는 기능들이 청구항이 청구하는 방식으로 함께 결합 및 유도되는 점에서 이러한 청구항들에 의해 정의되는 본 개시가 존재한다. 따라서, 이들 기능들을 제공할 수 있는 임의의 수단이 여기에 나타낸 것들과 균등한 것으로 간주된다.

Claims

오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스 (200) 로서,
오디오 신호를 수신하도록 구성되는 인터페이스 (240); 및
프로세서 (210) 를 포함하고,
상기 프로세서는:
오디오 프레임들을 획득하기 위해 상기 오디오 신호를 프로세싱하고;
적어도 하나의 오디오 프레임으로부터 1차 스캐터링 피처들을 계산하고; 그리고
최고 에너지를 갖는 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에만 (n 은 정수임), 상기 1차 스캐터링 피처들로부터 2차 스캐터링 피처들을 계산하도록 구성되는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스 (200).
제 1 항에 있어서,
상기 프로세서 (210) 는 또한, 최고 에너지를 갖는 상기 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값을 초과하는 경우에 상기 1차 스캐터링 피처들만을 기초하여 오디오 분류를 수행하도록 구성되는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스 (200).
제 2 항에 있어서,
상기 프로세서 (210) 는 또한, 최고 에너지를 갖는 상기 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에 상기 1차 스캐터링 피처들 및 적어도 상기 2차 스캐터링 피처들에 기초하여 오디오 분류를 수행하도록 구성되는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스 (200).
제 1 항에 있어서,
최고 정규화된 에너지를 갖는 상기 n 개의 1차 스캐터링 피처들에 대한 정규화된 에너지의 합이 제 2 임계값을 초과하는 경우에 상기 에너지는 상기 임계값을 초과하는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스 (200).
제 4 항에 있어서,
상기 제 2 임계값에 대한 최저 가능값은 0 이고 최고 가능값은 1 이고, 그리고 상기 제 2 임계값은 0.7 과 0.9 사이에 있는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스 (200).
제 1 항에 있어서,
상기 프로세서 (210) 는 최고 에너지를 갖는 계산된 스캐터링 피처들의 세트의 에너지가 제 3 임계값을 초과할 때까지 바로옆 하위 차수의 스캐터링 계수들로부터 상위 차수 스캐터링 계수들을 반복적으로 계산하도록 구성되는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 디바이스 (200).
오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법으로서,
프로세서 (210) 에 의해, 적어도 하나의 오디오 프레임을 획득하기 위해, 수신된 오디오 신호를 프로세싱하는 단계 (S610);
상기 프로세서 (210) 에 의해, 적어도 하나의 오디오 프레임으로부터 1차 스캐터링 피처들을 계산하는 단계 (S620); 및
최고 에너지를 갖는 n 개의 상기 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에만 (n 은 정수임), 상기 프로세서 (210) 에 의해, 상기 1차 스캐터링 피처들로부터 2차 스캐터링 피처들을 계산하는 단계 (S650) 를 포함하는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법.
제 7 항에 있어서,
최고 에너지를 갖는 상기 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값을 초과하는 경우에 상기 1차 스캐터링 피처들만을 기초하여 오디오 분류를 수행하는 단계 (S660) 를 더 포함하는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법.
제 8 항에 있어서,
최고 에너지를 갖는 상기 n 개의 1차 스캐터링 피처들에서의 에너지가 임계값 미만인 경우에 상기 1차 및 2차 스캐터링 피처들에 기초하여 오디오 분류를 수행하는 단계 (S660) 를 더 포함하는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법.
제 7 항에 있어서,
최고 정규화된 에너지를 갖는 상기 n 개의 1차 스캐터링 피처들에 대한 정규화된 에너지의 합이 제 2 임계값을 초과하는 경우에 상기 에너지는 임계값을 초과하는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법.
제 10 항에 있어서,
상기 제 2 임계값에 대한 최저 가능값은 0 이고 최고 가능값은 1 이고, 그리고 상기 제 2 임계값은 0.7 과 0.9 사이에 있는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법.
제 7 항에 있어서,
최고 에너지를 갖는 계산된 스캐터링 피처들의 세트의 에너지가 제 3 임계값을 초과할 때까지 바로옆 하위 차수의 스캐터링 계수들로부터 상위 차수 스캐터링 계수들을 반복적으로 계산하는 단계를 더 포함하는, 오디오 신호 인식을 위한 스캐터링 피처들을 계산하는 방법.
비일시적 컴퓨터 판독가능 매체 상에 저장되고 제 7 항 내지 제 12 항 중 어느 한 항에 기재된 방법을 구현하기 위하여 프로세서에 의해 실행가능한 프로그램 코드 명령들을 포함하는, 컴퓨터 프로그램 제품.