KR102497549B1

KR102497549B1 - 오디오 신호 처리 방법 및 장치, 저장 매체

Info

Publication number: KR102497549B1
Application number: KR1020200095606A
Authority: KR
Inventors: 하이닝 호우; 지옹리앙 리; 시아오밍 리
Original assignee: 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Priority date: 2020-03-13
Filing date: 2020-07-31
Publication date: 2023-02-08
Also published as: CN111402917B; US11490200B2; KR20210117120A; US20210289293A1; EP3879529A1; CN111402917A; JP2021149084A; JP7062727B2

Abstract

본 발명은 오디오 신호의 처리 방법 및 장치, 저장 매체에 관한 것이다. 상기 방법은, 적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계; 시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하는 단계; 상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하는 단계; 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계; 및 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함한다. 본 발명의 실시예에서 제공한 기술 방안을 통해, 시스템 지연을 감소시킬 수 있고, 분리 효율을 향상시킬 수 있다.

Description

오디오 신호 처리 방법 및 장치, 저장 매체{AUDIO SIGNAL PROCESSING METHOD AND DEVICE, AND STORAGE MEDIUM}

관련 출원의 상호 참조

본 출원은 출원 번호가 CN202010176172.X이고, 출원일이 2020년 3월 13일인 중국 특허 출원에 기반하여 제출한 것이며, 상기 중국 특허 출원의 우선권을 주장하는바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.

본 발명은 신호 처리 분야에 관한 것으로서, 특히 오디오 신호 처리 방법 및 장치, 저장 매체에 관한 것이다.

관련 기술에서, 지능형 제품 기기의 사운드 픽업은 마이크로폰 어레이를 대부분 사용하고, 실제 환경에서의 음성 인식률을 향상시키기 위해, 마이크로폰 빔 형성 기술을 응용하여 음성 신호 처리 품질을 향상시킨다. 그러나 복수 개의 마이크로폰의 빔 형성 기술은 마이크로폰 위치 오차에 민감하고, 성능에 대한 영향이 크며, 마이크로폰의 개수가 추가되면 제품 비용 또한 높아지게 된다.

따라서, 현재 점점 더 많은 지능형 제품 기기가 두 개의 마이크로폰만 구성되고 있고; 두 개의 마이크로폰은 복수 개의 마이크로폰 빔 형성 기술과 상이한 블라인드 소스 분리 기술을 흔히 사용하여 음성을 향상시키며, 블라인드 소스 분리의 처리 효율을 향상시키고, 지연을 감소시키는 방법은 현재 블라인드 소스 분리 기술에서 시급히 해결해야 하는 문제이다.

본 발명은 오디오 신호 처리 방법 및 장치, 저장 매체를 제공한다.

본 발명의 실시예의 제1 측면에 따르면, 오디오 신호 처리 방법을 제공하고, 상기 방법은,

적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계;

시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하는 단계;

상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하는 단계;

상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계; 및

상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함한다.

일부 실시예에 있어서, 상기 제1 비대칭 윈도우(

)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은

이며, 상기

은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이이다.

일부 실시예에 있어서, 상기 제1 비대칭 윈도우(

)는,

을 포함하고,

여기서, H_K(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트이다.

일부 실시예에 있어서, 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,

상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하는 단계;

제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계; 및

상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함한다.

일부 실시예에 있어서, 상기 제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계는,

제2 비대칭 윈도우(

)을 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하는 단계를 포함하고;

상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,

상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하는 단계 - n은 1보다 큰 정수임 - 를 포함한다.

일부 실시예에 있어서, 상기 제2 비대칭 윈도우(

이며, 상기

는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이며, 상기 M은 프레임 시프트이다.

일부 실시예에 있어서, 상기 제2 비대칭 윈도우(

)는,

을 포함하고,

여기서, H_K(x)는 윈도우 길이가 K인 해닝 윈도우이다.

일부 실시예에 있어서, 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계는,

상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하는 단계;

상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하는 단계; 및

상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하는 단계를 포함한다.

본 발명의 실시예의 제2 측면에 따르면, 오디오 신호 처리 장치를 제공하고, 상기 장치는,

적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제1 획득 모듈;

시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하기 위한 제1 윈도잉 모듈;

상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하기 위한 제1 변환 모듈;

상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하기 위한 제2 획득 모듈; 및

상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제3 획득 모듈을 포함한다.

일부 실시예에 있어서, 상기 제1 비대칭 윈도우(

이며, 상기

일부 실시예에 있어서, 상기 제1 비대칭 윈도우(

)는,

을 포함하고,

일부 실시예에 있어서, 상기 제3 획득 모듈은,

상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하기 위한 제2 변환 모듈;

제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하기 위한 제2 윈도잉 모듈; 및

상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제1 획득 서브 모듈을 포함한다.

일부 실시예에 있어서, 상기 제2 윈도잉 모듈은 구체적으로,

제2 비대칭 윈도우(

)를 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하기 위한 것이고;

상기 제1 획득 서브 모듈은 구체적으로,

상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하기 위한 것이며, 여기서, n은 1보다 큰 정수이다.

일부 실시예에 있어서, 상기 제2 비대칭 윈도우(

이며, 상기

일부 실시예에 있어서, 상기 제2 비대칭 윈도우(

)는,

을 포함하고,

여기서, H_K(x)는 윈도우 길이가 K인 해닝 윈도우이다.

일부 실시예에 있어서, 제2 획득 모듈은,

상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하기 위한 제2 획득 서브 모듈;

상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하기 위한 결정 서브 모듈; 및

상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하기 위한 제3 획득 서브 모듈을 포함한다.

본 발명의 실시예의 제3 측면에 따르면, 오디오 신호 처리 장치를 제공하고, 상기 장치는 적어도, 프로세서 및 상기 프로세서에서 작동하는 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고, 여기서,

프로세서가 상기 실행 가능한 명령어를 작동할 경우, 상기 실행 가능한 명령어는 상술한 방법에 따른 오디오 신호 처리 방법에서의 단계를 실행한다.

본 발명의 실시예의 제4 측면에 따르면, 비 일시적 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 실행 가능한 명령어가 저장되어 있고, 상기 컴퓨터 실행 가능한 명령어가 프로세서에 의해 실행될 경우 상술한 방법에 따른 오디오 신호 처리 방법에서의 단계를 구현한다.

본 발명의 실시예에서 제공한 기술방안은 아래와 같은 유익한 효과를 포함할 수 있다. 본 발명의 실시예에서 오디오 신호를 윈도잉 처리함으로써, 각 프레임의 오디오 신호가 점점 커지다가, 점점 작아지도록 한다. 각 인접한 두 프레임 사이에는 중첩되는 영역이 존재하고, 즉 프레임 시프트가 존재함으로써, 분리된 신호가 연속성을 유지할 수 있도록 한다. 이와 동시에, 본 발명의 실시예에서 비대칭 윈도우를 사용하여 오디오 신호에 대해 윈도잉 처리를 수행함으로써, 프레임 시프트의 길이가 실제 필요에 따라 설정될 수 있도록 하고, 비교적 작은 프레임 시프트가 설정되면, 비교적 적은 시스템 지연을 가져다 줌으로써, 처리 효율을 향상시키고, 분리된 오디오 신호의 시효성을 향상시킨다.

이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 한정적인 것이며 본 발명을 한정하지 않는다.

본문의 도면은 본 명세서에 포함되어 본 명세서의 일부를 구성하며, 본 발명에 부합되는 실시예를 도시하고, 명세서와 함께 본 발명의 원리의 해석에 사용된다.
도 1은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이다.
도 2는 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 응용 시나리오의 블록도이다.
도 3은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이다.
도 4는 일 예시적 실시예에 따라 도시한 비대칭 분석 윈도우의 함수 이미지이다.
도 5는 일 예시적 실시예에 따라 도시한 비대칭 합성 윈도우의 함수 이미지이다.
도 6은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치의 구조 블록도이다.
도 7은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치의 엔티티 구조 블록도이다.

아래에 예시적 실시예에 대해 상세히 설명하며, 그 예는 도면에 도시된다. 아래의 설명에서 도면을 참조할 때, 다른 표시가 없는 한, 상이한 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시형태는 본 발명과 일치하는 모든 실시형태를 나타내는 것은 아니다. 이와 반대로, 이들은 다만 청구 범위에 상세히 설명된 바와 같이 본 발명의 일부 측면과 일치하는 장치 및 방법의 예일 뿐이다.

도 1은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이고, 도 1에 도시된 바와 같이, 아래와 같은 단계를 포함한다.

단계 S101에 있어서, 적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득한다.

단계 S102에 있어서, 시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득한다.

단계 S103에 있어서, 상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득한다.

단계 S104에 있어서, 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득한다.

단계 S105에 있어서, 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득한다.

본 발명의 실시예에 따른 방법은 단말에 응용된다. 여기서, 상기 단말은 두 개 또는 두 개 이상의 마이크로폰을 통합한 전자 기기이다. 예를 들어, 상기 단말은 차량 탑재 단말, 컴퓨터 또는 서버 등일 수 있다.

일 실시예에 있어서, 상기 단말은 또한, 두 개 또는 두 개 이상의 마이크로폰을 통합한 소정 기기에 연결된 전자 기기일 수 있고; 상기 전자 기기는 상기 연결에 기반하여 상기 소정 기기에 의해 수집된 오디오 신호를 수신하며, 상기 연결에 기반하여 처리된 오디오 신호를 상기 소정 기기에 송신한다. 예를 들어, 상기 소정 기기는 스피커 등이다.

실제 응용에 있어서, 상기 단말은 적어도 두 개의 마이크로폰을 포함하고, 상기 적어도 두 개의 마이크로폰 각각의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰은 적어도 두 개의 음원이 각각 송신한 오디오 신호를 동시에 검출한다. 여기서, 이해할 수 있는 것은, 본 실시예에서 상기 적어도 두 개의 마이크로폰은 상기 두 개의 음원이 송신한 오디오 신호를 동기적으로 검출한다.

본 발명의 실시예의 상기 오디오 신호 처리 방법은, 소정 시간 내의 오디오 프레임의 오리지날 노이즈 신호를 획득한 후, 상기 소정 시간 내의 오디오 프레임의 오디오 신호를 분리하기 시작해야 한다.

본 발명의 실시예에 있어서, 상기 마이크로폰은 두 개 또는 두 개 이상이고, 상기 음원은 두 개 또는 두 개 이상이다.

본 발명의 실시예에 있어서, 상기 오리지날 노이즈 신호는, 적어도 두 개의 음원이 송신한 소리를 포함하는 혼합 신호이다. 예를 들어, 상기 마이크로폰이 두 개이고, 각각 마이크로폰 1 및 마이크로폰 2이며; 상기 음원이 두 개이며, 각각 음원 1 및 음원 2이면; 상기 마이크로폰 1의 오리지날 노이즈 신호는 음원 1 및 음원 2를 포함하는 오디오 신호이며; 상기 마이크로폰 2의 오리지날 노이즈 신호도 마찬가지로 음원 1 및 음원 2를 포함하는 오디오 신호이다.

예를 들어, 상기 마이크로폰은 3 개이고, 각각 마이크로폰 1, 마이크로폰 2 및 마이크로폰 3이며; 상기 음원은 3 개이며, 각각 음원 1, 음원 2 및 음원 3이면; 상기 마이크로폰 1의 오리지날 노이즈 신호는 음원 1, 음원 2 및 음원 3을 포함하는 오디오 신호이며; 상기 마이크로폰 2 및 마이크로폰 3의 오리지날 노이즈 신호도 마찬가지로 음원 1, 음원 2 및 음원 3을 포함하는 오디오 신호이다.

이해할 수 있는 것은, 음원이 송신한 소리가 대응되는 마이크로폰에서 생성된 신호가 오디오 신호이면, 다른 음원이 상기 마이크로폰에서 생성된 신호는 노이즈 신호이다. 본 발명의 실시예는 적어도 두 개의 마이크로폰으로부터 적어도 두 개의 음원이 송신한 음원을 복구해야 한다. 통상적으로 음원 개수는 마이크로폰 개수와 동일하고, 일부 실시예에 있어서, 음원 개수와 마이크로폰 개수는 상이할 수도 있다.

이해할 수 있는 것은, 마이크로폰이 음원이 송신한 소리의 오디오 신호를 수집할 경우, 적어도 하나의 프레임의 오디오 프레임의 오디오 신호를 수집할 수 있고, 이때 수집된 오디오 신호는 각 마이크로폰의 오리지날 노이즈 신호이다. 오리지날 노이즈 신호는 시간 도메인 신호일 수 있고 주파수 도메인 신호일 수도 있다. 오리지날 노이즈 신호가 시간 도메인 신호이면, 시간 주파수 변환의 연산에 따라 시간 도메인 신호를 주파수 도메인 신호로 변환할 수 있다.

여기서, 시간 주파수 변환은 시간 도메인 신호와 주파수 도메인 신호 간의 상호 변환을 가리키고, 고속 푸리에 변환(Fast Fourier Transform, FFT)에 기반하여, 시간 도메인 신호에 대해 주파수 도메인 변환을 수행할 수 있다. 또는, 단시간 푸리에 변환(short-time Fourier transform, STFT)에 기반하여, 시간 도메인 신호에 대해 주파수 도메인 변환을 수행할 수 있다. 또는, 또한 다른 푸리에 변환에 기반하여, 시간 도메인 신호에 대해 주파수 도메인 변환을 수행할 수 있다.

예시적으로,

번째 마이크로폰이

번째 프레임에서의 시간 도메인 신호가

이면,

번째 프레임의 시간 도메인 신호를 주 파수 도메인 신호로 변환하여,

번째 프레임의 오리지날 노이즈 신호가

인 것으로 결정하며; 여기서, 상기

은 n 번째 프레임의 시간 도메인 신호의 이산 시간 포인트 개수이며,

는 주파수 포인트이다. 이와 같이, 본 실시예는 상기 시간 도메인으로부터 주파수 도메인까지의 변화를 통해, 각 프레임의 오리지날 노이즈 신호를 획득할 수 있다. 물론, 각 프레임의 오리지날 노이즈 신호를 획득하는 것은 다른 고속 푸리에 변환 공식에 기반할 수도 있으며, 여기서 한정하지 않는다.

본 발명의 실시예에 있어서, 비대칭 분석 윈도우를 사용하여 시간 도메인의 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하고, 제1 비대칭 윈도우를 통해 각 프레임의 신호 세그먼트를 잘라내어, 각 프레임의 윈도잉된 노이즈 신호를 획득한다. 음성 데이터 및 비디오 데이터가 상이하므로, 프레임의 개념이 없지만, 전송과 저장, 및 프로그램의 일괄 처리를 위해, 지정된 시간 세그먼트 또는 이산 시간 포인트 개수에 따라 세그먼트화를 수행하여, 시간 도메인에서의 오디오 프레임을 형성한다. 그러나, 직접 세그먼트화하여 오디오 프레임을 형성하는 것은 오디오 신호의 연속성을 파괴할 수 있다. 오디오 신호의 연속성을 보장하기 위해, 프레임과 프레임 사이에 중첩된 부분 데이터를 보류하여야 하며, 즉 프레임 시프트가 존재해야 하며, 인접한 두 프레임의 중첩된 부분은 프레임 시프트이다.

여기서, 비대칭 윈도우는 윈도우 함수의 함수 빔에 의해 형성된 이미지가 비대칭 이미지인 것을 가리키고, 예를 들어, 피크값을 축으로 하는 양 측의 함수 빔은 비대칭이다.

본 발명의 실시예에 있어서, 윈도우 함수를 사용하여 오디오 신호의 각 프레임의 신호를 처리하여, 신호가 최소로부터 최대까지 변화하도록 한다음, 다시 최소로 변화하도록 한다. 이로써, 인접한 두 개의 프레임의 중첩 부분이 오버랩된 후에도 왜곡되지 않도록 한다.

대칭된 윈도우 함수를 사용하여 오디오 신호를 처리하면, 프레임 시프트가 프레임 길이의 절반이므로, 비교적 큰 시스템 지연을 초래함으로써, 분리 효율을 저하시키고, 실시간 인터랙션 경험에 영향을 미친다. 따라서, 본 발명의 실시예에 있어서, 비대칭 윈도우를 사용하여 오디오 신호에 대해 윈도잉 처리를 수행하여, 각 프레임의 오디오 신호가 윈도잉된 후 강도가 큰 신호가 전반부 또는 후반부에 위치하도록 하므로, 인접한 두 개의 프레임의 신호 사이의 중첩 부분이 비교적 짧은 구간에 집중될 수 있도록 함으로써, 지연을 감소시키고, 분리 효율을 향상시킬 수 있다.

일부 실시예에 있어서, 상기 제1 비대칭 윈도우(

이며, 상기

본 발명의 실시예에 있어서, 분석 윈도우로서 제1 비대칭 윈도우(

)를 사용하여 각 프레임의 오리지날 노이즈 신호에 대해 윈도잉 처리를 수행한다. 시스템의 프레임 길이가 N이면, 윈도우 길이도 N이며, 즉 각 프레임의 신호는 N 개의 이산 시간 포인트의 오디오 신호 샘플링을 구비한다.

여기서, 제1 비대칭 윈도우(

)에 따라 윈도잉 처리하는 것은, 실제로 하나의 프레임의 오디오 신호의 각 시간 포인트에서의 샘플링값에 함수(

)의 대응되는 시간 포인트의 함수값을 곱셈한 것이므로, 윈도잉된 후의 각 프레임의 오디오 신호가 0으로부터 점차 커진 다음, 점차 감소되도록 한다. 제1 비대칭 윈도우의 피크값의 시간 포인트(

)에서, 윈도잉된 오디오 신호는 오리지날 오디오 신호와 동일하다.

본 발명의 실시예에 있어서, 제1 비대칭 윈도우의 피크값이 위치하는 시간 포인트(

)는 N보다 작고 0.5N보다 크며, 다시 말해 중심 포인트 이후에 위치하므로, 인접한 두 개의 프레임 사이의 중첩 부분을 감소시킬 수 있고, 다시 말해 프레임 시프트를 감소시킬 수 있음으로써, 시스템 지연을 감소시키고, 신호 처리의 효율을 향상시킨다.

일부 실시예에 있어서, 상기 제1 비대칭 윈도우(

)는 아래와 같은 공식(1)을 포함한다.

...공식(1)

본 발명의 실시예에 있어서, 공식(1)에 도시된 바와 같은 제1 비대칭 윈도우를 제공하고, 시간 포인트(m)가 N-M보다 작을 경우, 제1 비대칭 윈도우의 함수는

으로 나타낸다. 여기서,

은 윈도우 길이가 2(N-M)인 해닝 윈도우이다. 해닝 윈도우는 코사인 윈도우에 속하고, 아래와 같은 공식(2)로 나타낼 수 있다.

...공식(2)

시간 포인트(m)가 N-M보다 클 경우, 제1 비대칭 윈도우의 함수는

으로 나타낸다. 여기서,

은 윈도우 길이가 2M인 해닝 윈도우이다.

이와 같이, 제1 비대칭 윈도우의 피크값은 m=N-M 위치에 위치한다. 지연을 저하시키기 위해, 프레임 시프트(M)를 M=N/4또는 M=N/8 등과 같이 작게 설정할 수 있다. 이로써, 시스템의 총 지연이 2M이고, N보다 작으므로, 지연을 저하시키려는 목적을 달성한다.

본 발명의 실시예에 있어서, 오리지날 노이즈 신호는 윈도잉 처리 및 비디오 변환을 통해, 주파수 도메인 노이즈 신호로 변환된다. 주파수 도메인 노이즈 신호에 따라, 분리 처리를 수행하면, 분리된 적어도 두 개의 음원의 주파수 도메인 신호를 획득할 수 있다. 적어도 두 개의 음원의 오디오 신호를 환원하기 위해, 먼저 획득된 주파수 도메인 신호에 대해 시간 주파수 변환을 진행하여 시간 도메인으로 변환시켜야 한다.

시간 주파수 변환은 고속 역 푸리에 변환(Inverse Fast Fourier Transform, IFFT)에 기반하여, 주파수 도메인 신호에 대해 시간 도메인 변환을 수행할 수 있다. 또는, 단시간 역 푸리에 변환(Inverse short-time Fourier transform, ISTFT)에 기반하여, 주파수 도메인 신호에 대해 시간 도메인 신호 변환을 수행할 수 있다. 또는, 다른 역 푸리에 변환에 기반하여, 주파수 도메인 신호에 대해 시간 도메인 변환을 수행할 수 있다.

시간 도메인으로 돌아간 분리 신호는 각 음원이 상이한 프레임으로 분리된 시간 도메인 분리 신호이고, 음원이 송신한 연속적인 오디오 신호를 획득하도록 하기 위해, 2차 윈도잉 처리를 통해, 불필요한 중복 부분을 제거할 수 있다. 다음 합성하여, 연속적인 오디오 신호를 획득함으로써, 음원이 각각 송신한 오디오 신호를 환원한다.

이로부터, 환원된 오디오 신호에서의 노이즈를 감소시킬 수 있고, 신호 품질을 향상시킬 수 있다.

제2 비대칭 윈도우(

본 발명의 실시예에 있어서, 합성 윈도우로서 제2 비대칭 윈도우를 사용하여 상기 시간 도메인 분리 신호에 대해 윈도잉 처리를 수행하여, 윈도잉된 분리 신호를 획득한다. 다음 각 프레임의 윈도잉된 분리 신호와 이전 프레임의 시간 도메인과 중첩되는 부분을 더하여, 현재 프레임의 시간 도메인 분리 신호를 획득한다. 이로부터, 환원된 오디오 신호가 연속성을 유지할 수 있도록 하여, 오리지날의 음원이 송신한 오디오 신호에 더욱 접근하도록 하고, 환원된 오디오 신호 품질을 향상시킬 수 있다.

일부 실시예에 있어서, 상기 제2 비대칭 윈도우(

이며, 상기

본 발명의 실시예에 있어서, 합성 윈도우로서 제2 비대칭 윈도우를 사용하여 분리된 각 프레임의 오디오 신호에 대해 윈도잉 처리를 수행한다. 제2 비대칭 윈도우는 프레임 시프트의 2배 길이 내에서 값을 취할 수 있고, 각 프레임의 후반 2M세그먼트의 오디오를 자른 다음, 이전 프레임과의 중첩 부분, 즉 프레임 시프트 부분을 더하여, 현재 프레임의 시간 도메인 분리 신호를 획득한다. 이로써, 처리된 각 프레임이 연결되면 오리지날 음원이 송신한 오디오 신호가 환원된다.

일부 실시예에 있어서, 상기 제2 비대칭 윈도우(

)는,

공식(3)을 포함하고,

여기서, H_K(x)는 윈도우 길이가 K인 해닝 윈도우이다.

본 발명의 실시예에 있어서, 공식(3)에 도시된 바와 같은 제2 비대칭 윈도우를 제공하고, 시간 포인트(m)가 N-M보다 작고 N-2M+1보다 클 경우, 제1 비대칭 윈도우의 함수는

으로 나타낸다. 여기서,

은 윈도우 길이가 2(N-M)인 해닝 윈도우이다.

은 윈도우 길이가 2M인 해닝 윈도우이다.

시간 포인트(m)가 N-M보다 클 경우, 제2 비대칭 윈도우의 함수는

으로 나타낸다. 여기서,

은 윈도우 길이가 2M인 해닝 윈도우이다. 이와 같이, 제2 비대칭 윈도우의 피크값도 m=N-M 위치에 위치한다.

초기화된 분리 매트릭스 또는 이전 프레임의 분리 매트릭스에 따라, 주파수 도메인 노이즈 신호에 대해 초기적인 분리를 수행하여, 선험적 추정 신호를 획득한 다음, 선험적 추정 신호에 따라, 분리 매트릭스를 업데이트할 수 있다. 마지막으로 분리 매트릭스에 따라 주파수 도메인 노이즈 신호를 분리하여, 분리된 주파수 도메인 추정 신호 즉 주파수 도메인 후험적 추정 신호를 획득한다.

예시적으로, 상기 분리 매트릭스는 공분산 매트릭스에 의해 풀이된 특징값에 기반하여 결정될 수 있다. 공분산 매트릭스(

)는 아래와 같은 관계를 만족한다.

. 여기서,

는 평활 계수이고,

은 이전 프레임의 공분산 매트릭스이며,

은 현재 프레임의 오리지날 노이즈 신호, 즉 주파수 도메인 노이즈 신호이다.

은 현재 프레임의 오리지날 노이즈 신호의 복합 공액 전치 매트릭스이다.

은 가중 계수이다. 여기서,

은 보조 변수이다.

는 비교 함수로 지칭된다. 여기서,

은

번째 음원의 전체 주파수 대역의 다차원 초 가우시안 선험적 확률 밀도 분포 모델에 기반한 것임을 대표하고, 즉 상기 분포 함수이다.

은

의 공액 매트릭스이고,

은 p 번째 음원의 n 번째 프레임에서의 주파수 도메인 추정 신호이며,

은 p 번째 음원의 n 번째 프레임의 k 번째 주파수 포인트에서의 주파수 도메인 추정 신호, 즉 주파수 도메인 선험적 추정 신호이다.

상기 방법을 통해 분리 매트릭스를 업데이트하면, 더욱 높은 분리 성능으로 더욱 정확한 주파수 도메인 추정 신호를 분리 획득할 수 있고, 시간 주파수 변환을 수행한 후, 음원이 송신한 오디오 신호를 환원할 수 있다.

본 발명의 실시예는 또한 아래와 같은 예를 제공한다.

도 3은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이고; 여기서, 상기 오디오 신호 처리 방법에서, 도 2에 도시된 바와 같이, 음원은 음원 1 및 음원 2를 포함하고, 마이크로폰(스피커 A)은 마이크로폰 1 및 마이크로폰 2를 포함한다. 상기 오디오 신호 처리 방법에 기반하여, 마이크로폰 1 및 마이크로폰 2의 오리지날 노이즈 신호로부터 음원 1 및 음원 2의 오디오 신호를 복구한다. 도 3에 도시된 바와 같이, 상기 방법은 아래와 같은 단계를 포함한다.

단계 S301에 있어서,

및

을 초기화한다.

여기서, 초기화는 아래와 같은 단계를 포함한다. 시스템 프레임 길이가 Nfft로 설정되면, 주파수 포인트는 K=Nfft/2+1이다.

1)각 주파수 포인트의 분리 매트릭스를 초기화한다.

이고; 여기서, 상기

은 유닛 매트릭스이고; 상기

는 주파수 포인트이며; 상기

이다.

2)각 음원이 각 주파수 포인트에서의 가중 공분산 매트릭스(

)를 초기화한다.

이고; 여기서,

은 0 매트릭스이고; 여기서, 상기

는 마이크로폰을 나타내기 위한 것이며;

이다.

단계 S302에 있어서,

번째 마이크로폰의

번째 프레임에서의 오리지날 노이즈 신호를 획득한다.

로

번째 마이크로폰의 하나의 프레임의 시간 도메인 신호를 대표한다.

이다.

는 시스템 프레임 길이 즉 FFT의 길이를 대표한다. 프레임 시프트는 M이다.

에 비대칭 분석 윈도우를 추가하고 FFT를 수행하여,

을 얻는다.

여기서, 상기

은 푸리에 변환에 의해 선택된 포인트 수이고; 여기서, 상기 FFT는 고속 푸리에 변환이며; 상기

은

번째 마이크로폰의

번째 프레임의 시간 도메인 신호이며; 여기서, 상기 시간 도메인 신호는 오리지날 노이즈 신호이다. 상기

은 비대칭 분석 윈도우이다.

이때,

의 관측 신호는

이고, 여기서,

은 전치 매트릭스이다.

STFT는 현재 프레임의 시간 도메인 신호에 분석 윈도우를 곱셈하고 FFT를 수행하여 시간 주파수 데이터를 얻는 것이다. 알고리즘이 추정된 분리 매트릭스를 통해 분리된 신호의 시간 주파수 데이터를 획득한 후 IFFT를 수행하여 시간 도메인으로 돌아간 다음, 합성 윈도우를 곱셈하고, 이전 프레임에 의해 출력된 시간 도메인과의 중첩 부분을 더하여 재구축된 분리된 시간 도메인 신호를 획득하는 것을, 중첩 가산 기술이라고 지칭한다.

기존의 윈도잉 알고리즘은 대칭된 해닝 윈도우 또는 해밍 윈도우 등에 기반한 윈도우 함수를 일반적으로 사용한다. 예시적으로, 루트 주기 해닝 윈도우(

)를 사용할 수 있다.

여기서, 프레임 시프트는

이고, 윈도우 길이는

이다. 시스템 지연은

포인트이다.

가 일반적으로 4096이거나 더 크므로,

인 시스템 샘플링율 하에서, 이때 지연은 256ms 또는 이보다 더 크다.

본 발명의 실시예에 있어서, 비대칭 분석 윈도우와 합성 윈도우를 사용하고, 윈도우 길이가 N=Nfft이고, 프레임 시프트가 M으로 설정한다. 지연를 저하시키기 위해, 이때의 M은 일반적으로 비교적 작다. 예시적으로,

또는 다른 값으로 설정될 수 있다.

예시적으로, 비대칭 분석 윈도우는 아래와 같은 함수를 사용할 수 있다.

비대칭 합성 윈도우는 아래와 같은 함수를 사용할 수 있다.

N=4096, M=512일 경우, 상기 비대칭 분석 윈도우의 함수 그래프는 도 4에 도시된 바와 같고; 상기 비대칭 합성 윈도우의 함수 그래프는 도 5에 도시된 바와 같다.

단계 S303에 있어서, 이전 프레임의

을 이용하여 두 개의 음원 신호의 선험적 주파수 도메인 추정을 획득한다.

두 개의 음원 신호의 선험적 주파수 도메인 추정이

되도록 하고, 여기서

은 각각 음원 1 및 음원 2가 시간 주파수 포인트(

) 위치에서의 추정값이다.

분리 매트릭스(

)를 통해 관측 매트릭스(

)를 분리하여,

을 얻는다. 여기서,

은 이전 프레임의(즉 현재 프레임의 이전 프레임) 분리 매트릭스이다.

번째 음원이

번째 프레임에서의 선험적 주파수 도메인 추정은

이다.

단계 S304에 있어서, 가중 공분산 매트릭스(

)를 업데이트한다.

업데이트된 가중 공분산 매트릭스를 계산한다.

; 여기서, 상기

는 평활 계수이다. 일 실시예에 있어서, 상기

는 0.98이고; 여기서, 상기

은 이전 프레임의 가중 공분산 매트릭스이며; 상기

은

의 공액 전치이며; 상기

은 가중 계수이며, 여기서, 상기

은 보조 변수이며; 상기

은 비교 함수이다.

여기서, 상기

은

번째 음원의 전체 주파수 대역에 기반한 다중 차원 초 가우시안 선험적 확률 밀도 함수이다. 일 실시예에 있어서,

이며; 이때, 상기

이면; 상기

이다.

단계S305에 있어서, 특징 벡터(

)를 얻기 위해, 특징 문제를 풀이한다.

여기서, 상기

은

번째 마이크로폰에 대응되는 특징 벡터이다.

여기서, 상기 특징 문제(

)를 구하면,

을 얻는다.

여기서,

이고, tr(A)는 트레이스 함수이고, tr(A)는 매트릭스(A)의 메인 대각선에서의 요소에 대한 합을 구하며; det(A)는 매트릭스A에 대해 행렬식을 구하며;

는 특징값이다.

단계S306에 있어서, 각 주파수 포인트의 업데이트된 분리 매트릭스(

)를 획득한다.

상기 특징 문제의 특징 벡터에 기반하여, 업데이트된 현재 프레임의 분리 매트릭스(

)를 얻는다.

단계S307에 있어서, 현재 프레임의

을 이용하여 두 개의 음원 신호의 후험적 주파수 도메인 추정을 획득한다.

현재 프레임의

를 이용하여 오리지날 노이즈 신호를 분리하여 두 개의 음원 신호의 후험적 주파수 도메인 추정(

)을 얻는다.

단계S308에 있어서, 후험적 주파수 도메인 추정에 따라 시간 주파수 변환을 수행하여 분리된 시간 도메인 신호를 얻는다.

IFFT를 수행하고, 합성 윈도우를 가산하며, 이전 프레임의 시간 도메인과의 중첩 부분을 가산하며, 현재 프레임의 시간 도메인 분리 신호(

)를 얻으며, p=1,2이며,

이다.

여기서,

은 현재 프레임의 시간 도메인 신호가 윈도잉 처리된 후의 신호이고;

은 현재 프레임 이전의 각 프레임의 시간 도메인 중첩 부분이며,

은 현재 프레임 시간 도메인 중첩 부분이다.

을 업데이트하고, 다음 프레임을 서로 가산하여

,

을 사용하여, 각각

에 대해 ISTFT 및 중첩 가산하여 분리된 시간 도메인 음원 신호(

), 즉

을 얻으며, 여기서 m=1,…,Nfft. p=1,2이다.

상기 분석 윈도우와 합성 윈도우의 처리를 통해, 최종적으로, 시스템 지연은 2M 포인트이며, 시간 지연은

ms(밀리초)이다. FFT 포인트 수를 변경할 경우,

의 크기를 제어하는 것을 통해 실제 필요를 만족하는 시스템 지연을 얻을 수 있으므로, 시스템 지연 및 알고리즘 성능 사이의 모순을 해결한다.

도 6은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치의 블록도이다. 도 6을 참조하면, 상기 장치(600)는 제1 획득 모듈(601), 제1 윈도잉 모듈(602), 제1 변환 모듈(603), 제2 획득 모듈(604) 및 제3 획득 모듈(605)을 포함한다.

제1 획득 모듈(601)은, 적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 것이고;

제1 윈도잉 모듈(602)은, 시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하기 위한 것이며;

제1 변환 모듈(603)은, 상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하기 위한 것이며;

제2 획득 모듈(604)은, 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하기 위한 것이며;

제3 획득 모듈(605)은, 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 것이다.

일부 실시예에 있어서, 상기 제1 비대칭 윈도우의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은

이며, 상기

일부 실시예에 있어서, 상기 제1 비대칭 윈도우(

)는,

을 포함하고,

일부 실시예에 있어서, 상기 제3 획득 모듈은,

일부 실시예에 있어서, 상기 제2 윈도잉 모듈은 구체적으로,

제2 비대칭 윈도우(

상기 제1 획득 서브 모듈은 구체적으로,

일부 실시예에 있어서, 상기 제2 비대칭 윈도우의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은

이며, 상기

일부 실시예에 있어서, 상기 제2 비대칭 윈도우(

)는,

을 포함한다.

여기서, H_K(x)는 윈도우 길이가 K인 해닝 윈도우이다.

일부 실시예에 있어서, 제2 획득 모듈은,

상기 실시예에서의 장치에 관련하여, 각 모듈이 동작을 실행하는 구체적인 형태는 상기 방법에 관련된 실시예에서 이미 자세하게 설명하였으므로, 여기서 더이상 반복하지 않는다.

도 7은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치(700)의 엔티티 구조블록도이다. 예를 들어, 장치(700)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등일 수 있다.

도 7를 참조하면, 장치(700)는 처리 컴포넌트(701), 메모리(702), 전원 컴포넌트(703), 멀티미디어 컴포넌트(704), 오디오 컴포넌트(705), 입력/출력(I/O) 인터페이스(706), 센서 컴포넌트(707) 및 통신 컴포넌트(708) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.

처리 컴포넌트(701)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 장치(700)의 전체적인 동작을 제어한다. 처리 컴포넌트(701)는, 상기 방법의 전부 또는 일부 단계를 완료하기 위한 명령어를 실행하는 하나 또는 복수 개의 프로세서(710)를 포함할 수 있다. 또한, 처리 컴포넌트(701)는 또한 처리 컴포넌트(701) 및 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(701)는 멀티미디어 컴포넌트(704) 및 처리 컴포넌트(701) 사이의 상호 작용을 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.

메모리(702)는 장치(700)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 장치(700)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(702)는 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(EPROM), 프로그래머블 읽기 전용 메모리(PROM), 읽기 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비 휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.

전원 컴포넌트(703)는 장치(700)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(703)는 전력 관리 시스템, 하나 또는 복수 개의 전력 및 장치(700)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.

멀티미디어 컴포넌트(704)는 상기 장치(700) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(704)는 전방 카메라 및 후방 카메라 중 적어도 하나를 포함한다. 장치(700)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라 중 적어도 하나는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.

오디오 컴포넌트(705)는 오디오 신호를 출력하는 것 및 입력하는 것 중 적어도 하나를 수행하도록 구성된다. 예를 들어, 오디오 컴포넌트(705)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 장치(700)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(702)에 추가로 저장되거나 통신 컴포넌트(708)에 의해 전송될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(705)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.

I/O 인터페이스(706)는 처리 컴포넌트(701)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.

센서 컴포넌트(707)는 장치(700)를 위한 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(707)는 장치(700)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 장치(700)의 모니터와 키패드이며, 센서 컴포넌트(707)는 장치(700) 또는 장치(700)에서 하나의 컴포넌트의 위치 변화, 사용자와 장치(700) 접촉의 존재 유무, 장치(700) 방향 또는 가속/감속 및 장치(700)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(707)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(707)는 이미징 애플리케이션에 사용하기 위한 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor, CMOS) 이미지 센서 또는 전하 결합 소자(Charged Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(707)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.

통신 컴포넌트(708)는 장치(700)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 장치(700)는 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 통신 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적 실시예에 있어서, 통신 컴포넌트(708)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적 실시예에 있어서, 상기 통신 컴포넌트(708)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역 (Ultra Wideband, UWB) 기술, 블루투스(BT) 기술 또는 다른 기술에 기반하여 구현될 수 있다.

예시적 실시예에 있어서, 장치(700)는 하나 또는 복수 개의 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processor Device, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로폰로 제어기, 마이크로폰로 프로세서 또는 다른 전자 부품에 의해 구현되며, 장치(800)는 상기 방법을 실행하기 위한 것이다.

예시적 실시예에 있어서, 명령어를 포함하는 메모리(702)와 같은 명령어를 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 명령어는 상기 방법을 완료하도록 장치(700)의 프로세서(710)에 의해 실행된다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능 저장 매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 기기 등일 수 있다.

비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 저장 매체에서의 명령어가 모바일 단말의 프로세서에 의해 실행될 경우, 이동 단말로 하여금 상기 실시예에서 제공하는 어느 한 오디오 신호의 처리 방법을 실행할 수 있도록 한다.

본 기술분야의 기술자는 명세서를 고려하고 본문에 개시된 발명을 실천한 후, 본 발명의 다른 실시방안을 용이하게 생각해낼 수 있을 것이다. 본 출원은 본 발명의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리에 따르며, 본 발명에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 발명의 진정한 범위 및 사상은 아래의 청구범위에 의해 지적된다.

이해해야 할 것은, 본 발명은 위에서 설명되고 도면에 도시된 정확한 구조에 한정되지 않으며, 이 범위를 벗어나지 않는 한 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims

오디오 신호 처리 방법으로서,
적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계;
시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하는 단계;
상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하는 단계;
상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계; 및
상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함하고;
상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하는 단계;
제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계; 및
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제1항에 있어서,
상기 제1 비대칭 윈도우(
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
이며, 상기
은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이인 것을 특징으로 하는 오디오 신호 처리 방법.
제2항에 있어서,
상기 제1 비대칭 윈도우(
)는,

을 포함하고,
H_k(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 방법.
삭제
제1항에 있어서,
상기 제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계는,
제2 비대칭 윈도우(
)를 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하는 단계를 포함하고;
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하는 단계 - n은 1보다 큰 정수임 - 를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제1항에 있어서,
제2 비대칭 윈도우(
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
이며, 상기
는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 방법.
제6항에 있어서,
상기 제2 비대칭 윈도우(
)는

을 포함하고,
H_K(x)는 윈도우 길이가 K인 해닝 윈도우인 것을 특징으로 하는 오디오 신호 처리 방법.
제1항에 있어서,
상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계는,
상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하는 단계;
상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하는 단계; 및
상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
오디오 신호 처리 장치로서,
적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제1 획득 모듈;
시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하기 위한 제1 윈도잉 모듈;
상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하기 위한 제1 변환 모듈;
상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하기 위한 제2 획득 모듈; 및
상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하고, 제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하며, 상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제3 획득 모듈을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
제9항에 있어서,
상기 제1 비대칭 윈도우(
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
이며, 상기
은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이인 것을 특징으로 하는 오디오 신호 처리 장치.
제10항에 있어서,
상기 제1 비대칭 윈도우(
)는,

을 포함하고,
H_k(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 장치.
삭제
제9항에 있어서,
상기 제2 윈도잉 모듈은 구체적으로,
제2 비대칭 윈도우(
)를 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하기 위한 것이고;
상기 제1 획득 서브 모듈은 구체적으로,
상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하기 위한 것 - n은 1보다 큰 정수임 - 임을 특징으로 하는 오디오 신호 처리 장치.
제13항에 있어서,
제2 비대칭 윈도우(
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
이며, 상기
는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 장치.
제14항에 있어서,
상기 제2 비대칭 윈도우(
)는

을 포함하고,
H_K(x)는 윈도우 길이가 K인 해닝 윈도우인 것을 특징으로 하는 오디오 신호 처리 장치.
제9항에 있어서,
제2 획득 모듈은,
상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하기 위한 제2 획득 서브 모듈;
상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하기 위한 결정 서브 모듈; 및
상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하기 위한 제3 획득 서브 모듈을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
오디오 신호 처리 장치로서,
상기 오디오 신호 처리 장치는 적어도, 프로세서 및 상기 프로세서에서 작동하는 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
프로세서가 상기 실행 가능한 명령어를 작동할 경우, 상기 실행 가능한 명령어는 제1항 내지 제3항, 제5항 내지 제8항 중 어느 한 항에 따른 오디오 신호 처리 방법에서의 단계를 실행하는 것을 특징으로 하는 오디오 신호 처리 장치.
비 일시적 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 실행 가능한 명령어가 저장되어 있고, 상기 컴퓨터 실행 가능한 명령어가 프로세서에 의해 실행될 경우 제1항 내지 제3항, 제5항 내지 제8항 중 어느 한 항에 따른 오디오 신호 처리 방법에서의 단계를 구현하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능한 저장 매체.