KR102497549B1 - 오디오 신호 처리 방법 및 장치, 저장 매체 - Google Patents

오디오 신호 처리 방법 및 장치, 저장 매체 Download PDF

Info

Publication number
KR102497549B1
KR102497549B1 KR1020200095606A KR20200095606A KR102497549B1 KR 102497549 B1 KR102497549 B1 KR 102497549B1 KR 1020200095606 A KR1020200095606 A KR 1020200095606A KR 20200095606 A KR20200095606 A KR 20200095606A KR 102497549 B1 KR102497549 B1 KR 102497549B1
Authority
KR
South Korea
Prior art keywords
signal
frequency domain
frame
sound sources
separation
Prior art date
Application number
KR1020200095606A
Other languages
English (en)
Other versions
KR20210117120A (ko
Inventor
하이닝 호우
지옹리앙 리
시아오밍 리
Original Assignee
베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 filed Critical 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Publication of KR20210117120A publication Critical patent/KR20210117120A/ko
Application granted granted Critical
Publication of KR102497549B1 publication Critical patent/KR102497549B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 오디오 신호의 처리 방법 및 장치, 저장 매체에 관한 것이다. 상기 방법은, 적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계; 시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하는 단계; 상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하는 단계; 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계; 및 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함한다. 본 발명의 실시예에서 제공한 기술 방안을 통해, 시스템 지연을 감소시킬 수 있고, 분리 효율을 향상시킬 수 있다.

Description

오디오 신호 처리 방법 및 장치, 저장 매체{AUDIO SIGNAL PROCESSING METHOD AND DEVICE, AND STORAGE MEDIUM}
관련 출원의 상호 참조
본 출원은 출원 번호가 CN202010176172.X이고, 출원일이 2020년 3월 13일인 중국 특허 출원에 기반하여 제출한 것이며, 상기 중국 특허 출원의 우선권을 주장하는바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.
본 발명은 신호 처리 분야에 관한 것으로서, 특히 오디오 신호 처리 방법 및 장치, 저장 매체에 관한 것이다.
관련 기술에서, 지능형 제품 기기의 사운드 픽업은 마이크로폰 어레이를 대부분 사용하고, 실제 환경에서의 음성 인식률을 향상시키기 위해, 마이크로폰 빔 형성 기술을 응용하여 음성 신호 처리 품질을 향상시킨다. 그러나 복수 개의 마이크로폰의 빔 형성 기술은 마이크로폰 위치 오차에 민감하고, 성능에 대한 영향이 크며, 마이크로폰의 개수가 추가되면 제품 비용 또한 높아지게 된다.
따라서, 현재 점점 더 많은 지능형 제품 기기가 두 개의 마이크로폰만 구성되고 있고; 두 개의 마이크로폰은 복수 개의 마이크로폰 빔 형성 기술과 상이한 블라인드 소스 분리 기술을 흔히 사용하여 음성을 향상시키며, 블라인드 소스 분리의 처리 효율을 향상시키고, 지연을 감소시키는 방법은 현재 블라인드 소스 분리 기술에서 시급히 해결해야 하는 문제이다.
본 발명은 오디오 신호 처리 방법 및 장치, 저장 매체를 제공한다.
본 발명의 실시예의 제1 측면에 따르면, 오디오 신호 처리 방법을 제공하고, 상기 방법은,
적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계;
시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하는 단계;
상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하는 단계;
상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계; 및
상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함한다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우(
Figure 112020080349662-pat00001
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00002
이며, 상기
Figure 112020080349662-pat00003
은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이이다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우(
Figure 112020080349662-pat00004
)는,
Figure 112020080349662-pat00005
을 포함하고,
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트이다.
일부 실시예에 있어서, 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하는 단계;
제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계; 및
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함한다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계는,
제2 비대칭 윈도우(
Figure 112020080349662-pat00006
)을 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하는 단계를 포함하고;
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하는 단계 - n은 1보다 큰 정수임 - 를 포함한다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우(
Figure 112020080349662-pat00007
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00008
이며, 상기
Figure 112020080349662-pat00009
는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이며, 상기 M은 프레임 시프트이다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우(
Figure 112020080349662-pat00010
)는,
Figure 112020080349662-pat00011
을 포함하고,
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이다.
일부 실시예에 있어서, 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계는,
상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하는 단계;
상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하는 단계; 및
상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하는 단계를 포함한다.
본 발명의 실시예의 제2 측면에 따르면, 오디오 신호 처리 장치를 제공하고, 상기 장치는,
적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제1 획득 모듈;
시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하기 위한 제1 윈도잉 모듈;
상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하기 위한 제1 변환 모듈;
상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하기 위한 제2 획득 모듈; 및
상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제3 획득 모듈을 포함한다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우(
Figure 112020080349662-pat00012
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00013
이며, 상기
Figure 112020080349662-pat00014
은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이이다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우(
Figure 112020080349662-pat00015
)는,
Figure 112020080349662-pat00016
을 포함하고,
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트이다.
일부 실시예에 있어서, 상기 제3 획득 모듈은,
상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하기 위한 제2 변환 모듈;
제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하기 위한 제2 윈도잉 모듈; 및
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제1 획득 서브 모듈을 포함한다.
일부 실시예에 있어서, 상기 제2 윈도잉 모듈은 구체적으로,
제2 비대칭 윈도우(
Figure 112020080349662-pat00017
)를 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하기 위한 것이고;
상기 제1 획득 서브 모듈은 구체적으로,
상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하기 위한 것이며, 여기서, n은 1보다 큰 정수이다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우(
Figure 112020080349662-pat00018
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00019
이며, 상기
Figure 112020080349662-pat00020
는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이며, 상기 M은 프레임 시프트이다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우(
Figure 112020080349662-pat00021
)는,
Figure 112020080349662-pat00022
을 포함하고,
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이다.
일부 실시예에 있어서, 제2 획득 모듈은,
상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하기 위한 제2 획득 서브 모듈;
상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하기 위한 결정 서브 모듈; 및
상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하기 위한 제3 획득 서브 모듈을 포함한다.
본 발명의 실시예의 제3 측면에 따르면, 오디오 신호 처리 장치를 제공하고, 상기 장치는 적어도, 프로세서 및 상기 프로세서에서 작동하는 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고, 여기서,
프로세서가 상기 실행 가능한 명령어를 작동할 경우, 상기 실행 가능한 명령어는 상술한 방법에 따른 오디오 신호 처리 방법에서의 단계를 실행한다.
본 발명의 실시예의 제4 측면에 따르면, 비 일시적 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 실행 가능한 명령어가 저장되어 있고, 상기 컴퓨터 실행 가능한 명령어가 프로세서에 의해 실행될 경우 상술한 방법에 따른 오디오 신호 처리 방법에서의 단계를 구현한다.
본 발명의 실시예에서 제공한 기술방안은 아래와 같은 유익한 효과를 포함할 수 있다. 본 발명의 실시예에서 오디오 신호를 윈도잉 처리함으로써, 각 프레임의 오디오 신호가 점점 커지다가, 점점 작아지도록 한다. 각 인접한 두 프레임 사이에는 중첩되는 영역이 존재하고, 즉 프레임 시프트가 존재함으로써, 분리된 신호가 연속성을 유지할 수 있도록 한다. 이와 동시에, 본 발명의 실시예에서 비대칭 윈도우를 사용하여 오디오 신호에 대해 윈도잉 처리를 수행함으로써, 프레임 시프트의 길이가 실제 필요에 따라 설정될 수 있도록 하고, 비교적 작은 프레임 시프트가 설정되면, 비교적 적은 시스템 지연을 가져다 줌으로써, 처리 효율을 향상시키고, 분리된 오디오 신호의 시효성을 향상시킨다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 한정적인 것이며 본 발명을 한정하지 않는다.
본문의 도면은 본 명세서에 포함되어 본 명세서의 일부를 구성하며, 본 발명에 부합되는 실시예를 도시하고, 명세서와 함께 본 발명의 원리의 해석에 사용된다.
도 1은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이다.
도 2는 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 응용 시나리오의 블록도이다.
도 3은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이다.
도 4는 일 예시적 실시예에 따라 도시한 비대칭 분석 윈도우의 함수 이미지이다.
도 5는 일 예시적 실시예에 따라 도시한 비대칭 합성 윈도우의 함수 이미지이다.
도 6은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치의 구조 블록도이다.
도 7은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치의 엔티티 구조 블록도이다.
아래에 예시적 실시예에 대해 상세히 설명하며, 그 예는 도면에 도시된다. 아래의 설명에서 도면을 참조할 때, 다른 표시가 없는 한, 상이한 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시형태는 본 발명과 일치하는 모든 실시형태를 나타내는 것은 아니다. 이와 반대로, 이들은 다만 청구 범위에 상세히 설명된 바와 같이 본 발명의 일부 측면과 일치하는 장치 및 방법의 예일 뿐이다.
도 1은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이고, 도 1에 도시된 바와 같이, 아래와 같은 단계를 포함한다.
단계 S101에 있어서, 적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득한다.
단계 S102에 있어서, 시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득한다.
단계 S103에 있어서, 상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득한다.
단계 S104에 있어서, 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득한다.
단계 S105에 있어서, 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득한다.
본 발명의 실시예에 따른 방법은 단말에 응용된다. 여기서, 상기 단말은 두 개 또는 두 개 이상의 마이크로폰을 통합한 전자 기기이다. 예를 들어, 상기 단말은 차량 탑재 단말, 컴퓨터 또는 서버 등일 수 있다.
일 실시예에 있어서, 상기 단말은 또한, 두 개 또는 두 개 이상의 마이크로폰을 통합한 소정 기기에 연결된 전자 기기일 수 있고; 상기 전자 기기는 상기 연결에 기반하여 상기 소정 기기에 의해 수집된 오디오 신호를 수신하며, 상기 연결에 기반하여 처리된 오디오 신호를 상기 소정 기기에 송신한다. 예를 들어, 상기 소정 기기는 스피커 등이다.
실제 응용에 있어서, 상기 단말은 적어도 두 개의 마이크로폰을 포함하고, 상기 적어도 두 개의 마이크로폰 각각의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰은 적어도 두 개의 음원이 각각 송신한 오디오 신호를 동시에 검출한다. 여기서, 이해할 수 있는 것은, 본 실시예에서 상기 적어도 두 개의 마이크로폰은 상기 두 개의 음원이 송신한 오디오 신호를 동기적으로 검출한다.
본 발명의 실시예의 상기 오디오 신호 처리 방법은, 소정 시간 내의 오디오 프레임의 오리지날 노이즈 신호를 획득한 후, 상기 소정 시간 내의 오디오 프레임의 오디오 신호를 분리하기 시작해야 한다.
본 발명의 실시예에 있어서, 상기 마이크로폰은 두 개 또는 두 개 이상이고, 상기 음원은 두 개 또는 두 개 이상이다.
본 발명의 실시예에 있어서, 상기 오리지날 노이즈 신호는, 적어도 두 개의 음원이 송신한 소리를 포함하는 혼합 신호이다. 예를 들어, 상기 마이크로폰이 두 개이고, 각각 마이크로폰 1 및 마이크로폰 2이며; 상기 음원이 두 개이며, 각각 음원 1 및 음원 2이면; 상기 마이크로폰 1의 오리지날 노이즈 신호는 음원 1 및 음원 2를 포함하는 오디오 신호이며; 상기 마이크로폰 2의 오리지날 노이즈 신호도 마찬가지로 음원 1 및 음원 2를 포함하는 오디오 신호이다.
예를 들어, 상기 마이크로폰은 3 개이고, 각각 마이크로폰 1, 마이크로폰 2 및 마이크로폰 3이며; 상기 음원은 3 개이며, 각각 음원 1, 음원 2 및 음원 3이면; 상기 마이크로폰 1의 오리지날 노이즈 신호는 음원 1, 음원 2 및 음원 3을 포함하는 오디오 신호이며; 상기 마이크로폰 2 및 마이크로폰 3의 오리지날 노이즈 신호도 마찬가지로 음원 1, 음원 2 및 음원 3을 포함하는 오디오 신호이다.
이해할 수 있는 것은, 음원이 송신한 소리가 대응되는 마이크로폰에서 생성된 신호가 오디오 신호이면, 다른 음원이 상기 마이크로폰에서 생성된 신호는 노이즈 신호이다. 본 발명의 실시예는 적어도 두 개의 마이크로폰으로부터 적어도 두 개의 음원이 송신한 음원을 복구해야 한다. 통상적으로 음원 개수는 마이크로폰 개수와 동일하고, 일부 실시예에 있어서, 음원 개수와 마이크로폰 개수는 상이할 수도 있다.
이해할 수 있는 것은, 마이크로폰이 음원이 송신한 소리의 오디오 신호를 수집할 경우, 적어도 하나의 프레임의 오디오 프레임의 오디오 신호를 수집할 수 있고, 이때 수집된 오디오 신호는 각 마이크로폰의 오리지날 노이즈 신호이다. 오리지날 노이즈 신호는 시간 도메인 신호일 수 있고 주파수 도메인 신호일 수도 있다. 오리지날 노이즈 신호가 시간 도메인 신호이면, 시간 주파수 변환의 연산에 따라 시간 도메인 신호를 주파수 도메인 신호로 변환할 수 있다.
여기서, 시간 주파수 변환은 시간 도메인 신호와 주파수 도메인 신호 간의 상호 변환을 가리키고, 고속 푸리에 변환(Fast Fourier Transform, FFT)에 기반하여, 시간 도메인 신호에 대해 주파수 도메인 변환을 수행할 수 있다. 또는, 단시간 푸리에 변환(short-time Fourier transform, STFT)에 기반하여, 시간 도메인 신호에 대해 주파수 도메인 변환을 수행할 수 있다. 또는, 또한 다른 푸리에 변환에 기반하여, 시간 도메인 신호에 대해 주파수 도메인 변환을 수행할 수 있다.
예시적으로,
Figure 112020080349662-pat00023
번째 마이크로폰이
Figure 112020080349662-pat00024
번째 프레임에서의 시간 도메인 신호가
Figure 112020080349662-pat00025
이면,
Figure 112020080349662-pat00026
번째 프레임의 시간 도메인 신호를 주 파수 도메인 신호로 변환하여,
Figure 112020080349662-pat00027
번째 프레임의 오리지날 노이즈 신호가
Figure 112020080349662-pat00028
인 것으로 결정하며; 여기서, 상기
Figure 112020080349662-pat00029
은 n 번째 프레임의 시간 도메인 신호의 이산 시간 포인트 개수이며,
Figure 112020080349662-pat00030
는 주파수 포인트이다. 이와 같이, 본 실시예는 상기 시간 도메인으로부터 주파수 도메인까지의 변화를 통해, 각 프레임의 오리지날 노이즈 신호를 획득할 수 있다. 물론, 각 프레임의 오리지날 노이즈 신호를 획득하는 것은 다른 고속 푸리에 변환 공식에 기반할 수도 있으며, 여기서 한정하지 않는다.
본 발명의 실시예에 있어서, 비대칭 분석 윈도우를 사용하여 시간 도메인의 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하고, 제1 비대칭 윈도우를 통해 각 프레임의 신호 세그먼트를 잘라내어, 각 프레임의 윈도잉된 노이즈 신호를 획득한다. 음성 데이터 및 비디오 데이터가 상이하므로, 프레임의 개념이 없지만, 전송과 저장, 및 프로그램의 일괄 처리를 위해, 지정된 시간 세그먼트 또는 이산 시간 포인트 개수에 따라 세그먼트화를 수행하여, 시간 도메인에서의 오디오 프레임을 형성한다. 그러나, 직접 세그먼트화하여 오디오 프레임을 형성하는 것은 오디오 신호의 연속성을 파괴할 수 있다. 오디오 신호의 연속성을 보장하기 위해, 프레임과 프레임 사이에 중첩된 부분 데이터를 보류하여야 하며, 즉 프레임 시프트가 존재해야 하며, 인접한 두 프레임의 중첩된 부분은 프레임 시프트이다.
여기서, 비대칭 윈도우는 윈도우 함수의 함수 빔에 의해 형성된 이미지가 비대칭 이미지인 것을 가리키고, 예를 들어, 피크값을 축으로 하는 양 측의 함수 빔은 비대칭이다.
본 발명의 실시예에 있어서, 윈도우 함수를 사용하여 오디오 신호의 각 프레임의 신호를 처리하여, 신호가 최소로부터 최대까지 변화하도록 한다음, 다시 최소로 변화하도록 한다. 이로써, 인접한 두 개의 프레임의 중첩 부분이 오버랩된 후에도 왜곡되지 않도록 한다.
대칭된 윈도우 함수를 사용하여 오디오 신호를 처리하면, 프레임 시프트가 프레임 길이의 절반이므로, 비교적 큰 시스템 지연을 초래함으로써, 분리 효율을 저하시키고, 실시간 인터랙션 경험에 영향을 미친다. 따라서, 본 발명의 실시예에 있어서, 비대칭 윈도우를 사용하여 오디오 신호에 대해 윈도잉 처리를 수행하여, 각 프레임의 오디오 신호가 윈도잉된 후 강도가 큰 신호가 전반부 또는 후반부에 위치하도록 하므로, 인접한 두 개의 프레임의 신호 사이의 중첩 부분이 비교적 짧은 구간에 집중될 수 있도록 함으로써, 지연을 감소시키고, 분리 효율을 향상시킬 수 있다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우(
Figure 112020080349662-pat00031
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00032
이며, 상기
Figure 112020080349662-pat00033
은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이이다.
본 발명의 실시예에 있어서, 분석 윈도우로서 제1 비대칭 윈도우(
Figure 112020080349662-pat00034
)를 사용하여 각 프레임의 오리지날 노이즈 신호에 대해 윈도잉 처리를 수행한다. 시스템의 프레임 길이가 N이면, 윈도우 길이도 N이며, 즉 각 프레임의 신호는 N 개의 이산 시간 포인트의 오디오 신호 샘플링을 구비한다.
여기서, 제1 비대칭 윈도우(
Figure 112020080349662-pat00035
)에 따라 윈도잉 처리하는 것은, 실제로 하나의 프레임의 오디오 신호의 각 시간 포인트에서의 샘플링값에 함수(
Figure 112020080349662-pat00036
)의 대응되는 시간 포인트의 함수값을 곱셈한 것이므로, 윈도잉된 후의 각 프레임의 오디오 신호가 0으로부터 점차 커진 다음, 점차 감소되도록 한다. 제1 비대칭 윈도우의 피크값의 시간 포인트(
Figure 112020080349662-pat00037
)에서, 윈도잉된 오디오 신호는 오리지날 오디오 신호와 동일하다.
본 발명의 실시예에 있어서, 제1 비대칭 윈도우의 피크값이 위치하는 시간 포인트(
Figure 112020080349662-pat00038
)는 N보다 작고 0.5N보다 크며, 다시 말해 중심 포인트 이후에 위치하므로, 인접한 두 개의 프레임 사이의 중첩 부분을 감소시킬 수 있고, 다시 말해 프레임 시프트를 감소시킬 수 있음으로써, 시스템 지연을 감소시키고, 신호 처리의 효율을 향상시킨다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우(
Figure 112020080349662-pat00039
)는 아래와 같은 공식(1)을 포함한다.
Figure 112020080349662-pat00040
...공식(1)
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트이다.
본 발명의 실시예에 있어서, 공식(1)에 도시된 바와 같은 제1 비대칭 윈도우를 제공하고, 시간 포인트(m)가 N-M보다 작을 경우, 제1 비대칭 윈도우의 함수는
Figure 112020080349662-pat00041
으로 나타낸다. 여기서,
Figure 112020080349662-pat00042
은 윈도우 길이가 2(N-M)인 해닝 윈도우이다. 해닝 윈도우는 코사인 윈도우에 속하고, 아래와 같은 공식(2)로 나타낼 수 있다.
Figure 112020080349662-pat00043
...공식(2)
시간 포인트(m)가 N-M보다 클 경우, 제1 비대칭 윈도우의 함수는
Figure 112020080349662-pat00044
으로 나타낸다. 여기서,
Figure 112020080349662-pat00045
은 윈도우 길이가 2M인 해닝 윈도우이다.
이와 같이, 제1 비대칭 윈도우의 피크값은 m=N-M 위치에 위치한다. 지연을 저하시키기 위해, 프레임 시프트(M)를 M=N/4또는 M=N/8 등과 같이 작게 설정할 수 있다. 이로써, 시스템의 총 지연이 2M이고, N보다 작으므로, 지연을 저하시키려는 목적을 달성한다.
일부 실시예에 있어서, 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하는 단계;
제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계; 및
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함한다.
본 발명의 실시예에 있어서, 오리지날 노이즈 신호는 윈도잉 처리 및 비디오 변환을 통해, 주파수 도메인 노이즈 신호로 변환된다. 주파수 도메인 노이즈 신호에 따라, 분리 처리를 수행하면, 분리된 적어도 두 개의 음원의 주파수 도메인 신호를 획득할 수 있다. 적어도 두 개의 음원의 오디오 신호를 환원하기 위해, 먼저 획득된 주파수 도메인 신호에 대해 시간 주파수 변환을 진행하여 시간 도메인으로 변환시켜야 한다.
시간 주파수 변환은 고속 역 푸리에 변환(Inverse Fast Fourier Transform, IFFT)에 기반하여, 주파수 도메인 신호에 대해 시간 도메인 변환을 수행할 수 있다. 또는, 단시간 역 푸리에 변환(Inverse short-time Fourier transform, ISTFT)에 기반하여, 주파수 도메인 신호에 대해 시간 도메인 신호 변환을 수행할 수 있다. 또는, 다른 역 푸리에 변환에 기반하여, 주파수 도메인 신호에 대해 시간 도메인 변환을 수행할 수 있다.
시간 도메인으로 돌아간 분리 신호는 각 음원이 상이한 프레임으로 분리된 시간 도메인 분리 신호이고, 음원이 송신한 연속적인 오디오 신호를 획득하도록 하기 위해, 2차 윈도잉 처리를 통해, 불필요한 중복 부분을 제거할 수 있다. 다음 합성하여, 연속적인 오디오 신호를 획득함으로써, 음원이 각각 송신한 오디오 신호를 환원한다.
이로부터, 환원된 오디오 신호에서의 노이즈를 감소시킬 수 있고, 신호 품질을 향상시킬 수 있다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계는,
제2 비대칭 윈도우(
Figure 112020080349662-pat00046
)을 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하는 단계를 포함하고;
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하는 단계 - n은 1보다 큰 정수임 - 를 포함한다.
본 발명의 실시예에 있어서, 합성 윈도우로서 제2 비대칭 윈도우를 사용하여 상기 시간 도메인 분리 신호에 대해 윈도잉 처리를 수행하여, 윈도잉된 분리 신호를 획득한다. 다음 각 프레임의 윈도잉된 분리 신호와 이전 프레임의 시간 도메인과 중첩되는 부분을 더하여, 현재 프레임의 시간 도메인 분리 신호를 획득한다. 이로부터, 환원된 오디오 신호가 연속성을 유지할 수 있도록 하여, 오리지날의 음원이 송신한 오디오 신호에 더욱 접근하도록 하고, 환원된 오디오 신호 품질을 향상시킬 수 있다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우(
Figure 112020080349662-pat00047
)의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00048
이며, 상기
Figure 112020080349662-pat00049
는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이며, 상기 M은 프레임 시프트이다.
본 발명의 실시예에 있어서, 합성 윈도우로서 제2 비대칭 윈도우를 사용하여 분리된 각 프레임의 오디오 신호에 대해 윈도잉 처리를 수행한다. 제2 비대칭 윈도우는 프레임 시프트의 2배 길이 내에서 값을 취할 수 있고, 각 프레임의 후반 2M세그먼트의 오디오를 자른 다음, 이전 프레임과의 중첩 부분, 즉 프레임 시프트 부분을 더하여, 현재 프레임의 시간 도메인 분리 신호를 획득한다. 이로써, 처리된 각 프레임이 연결되면 오리지날 음원이 송신한 오디오 신호가 환원된다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우(
Figure 112020080349662-pat00050
)는,
Figure 112020080349662-pat00051
공식(3)을 포함하고,
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이다.
본 발명의 실시예에 있어서, 공식(3)에 도시된 바와 같은 제2 비대칭 윈도우를 제공하고, 시간 포인트(m)가 N-M보다 작고 N-2M+1보다 클 경우, 제1 비대칭 윈도우의 함수는
Figure 112020080349662-pat00052
으로 나타낸다. 여기서,
Figure 112020080349662-pat00053
은 윈도우 길이가 2(N-M)인 해닝 윈도우이다.
Figure 112020080349662-pat00054
은 윈도우 길이가 2M인 해닝 윈도우이다.
시간 포인트(m)가 N-M보다 클 경우, 제2 비대칭 윈도우의 함수는
Figure 112020080349662-pat00055
으로 나타낸다. 여기서,
Figure 112020080349662-pat00056
은 윈도우 길이가 2M인 해닝 윈도우이다. 이와 같이, 제2 비대칭 윈도우의 피크값도 m=N-M 위치에 위치한다.
일부 실시예에 있어서, 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계는,
상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하는 단계;
상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하는 단계; 및
상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하는 단계를 포함한다.
초기화된 분리 매트릭스 또는 이전 프레임의 분리 매트릭스에 따라, 주파수 도메인 노이즈 신호에 대해 초기적인 분리를 수행하여, 선험적 추정 신호를 획득한 다음, 선험적 추정 신호에 따라, 분리 매트릭스를 업데이트할 수 있다. 마지막으로 분리 매트릭스에 따라 주파수 도메인 노이즈 신호를 분리하여, 분리된 주파수 도메인 추정 신호 즉 주파수 도메인 후험적 추정 신호를 획득한다.
예시적으로, 상기 분리 매트릭스는 공분산 매트릭스에 의해 풀이된 특징값에 기반하여 결정될 수 있다. 공분산 매트릭스(
Figure 112020080349662-pat00057
)는 아래와 같은 관계를 만족한다.
Figure 112020080349662-pat00058
. 여기서,
Figure 112020080349662-pat00059
는 평활 계수이고,
Figure 112020080349662-pat00060
은 이전 프레임의 공분산 매트릭스이며,
Figure 112020080349662-pat00061
은 현재 프레임의 오리지날 노이즈 신호, 즉 주파수 도메인 노이즈 신호이다.
Figure 112020080349662-pat00062
은 현재 프레임의 오리지날 노이즈 신호의 복합 공액 전치 매트릭스이다.
Figure 112020080349662-pat00063
은 가중 계수이다. 여기서,
Figure 112020080349662-pat00064
은 보조 변수이다.
Figure 112020080349662-pat00065
는 비교 함수로 지칭된다. 여기서,
Figure 112020080349662-pat00066
Figure 112020080349662-pat00067
번째 음원의 전체 주파수 대역의 다차원 초 가우시안 선험적 확률 밀도 분포 모델에 기반한 것임을 대표하고, 즉 상기 분포 함수이다.
Figure 112020080349662-pat00068
Figure 112020080349662-pat00069
의 공액 매트릭스이고,
Figure 112020080349662-pat00070
은 p 번째 음원의 n 번째 프레임에서의 주파수 도메인 추정 신호이며,
Figure 112020080349662-pat00071
은 p 번째 음원의 n 번째 프레임의 k 번째 주파수 포인트에서의 주파수 도메인 추정 신호, 즉 주파수 도메인 선험적 추정 신호이다.
상기 방법을 통해 분리 매트릭스를 업데이트하면, 더욱 높은 분리 성능으로 더욱 정확한 주파수 도메인 추정 신호를 분리 획득할 수 있고, 시간 주파수 변환을 수행한 후, 음원이 송신한 오디오 신호를 환원할 수 있다.
본 발명의 실시예는 또한 아래와 같은 예를 제공한다.
도 3은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 방법의 흐름도이고; 여기서, 상기 오디오 신호 처리 방법에서, 도 2에 도시된 바와 같이, 음원은 음원 1 및 음원 2를 포함하고, 마이크로폰(스피커 A)은 마이크로폰 1 및 마이크로폰 2를 포함한다. 상기 오디오 신호 처리 방법에 기반하여, 마이크로폰 1 및 마이크로폰 2의 오리지날 노이즈 신호로부터 음원 1 및 음원 2의 오디오 신호를 복구한다. 도 3에 도시된 바와 같이, 상기 방법은 아래와 같은 단계를 포함한다.
단계 S301에 있어서,
Figure 112020080349662-pat00072
Figure 112020080349662-pat00073
을 초기화한다.
여기서, 초기화는 아래와 같은 단계를 포함한다. 시스템 프레임 길이가 Nfft로 설정되면, 주파수 포인트는 K=Nfft/2+1이다.
1)각 주파수 포인트의 분리 매트릭스를 초기화한다.
Figure 112020080349662-pat00074
이고; 여기서, 상기
Figure 112020080349662-pat00075
은 유닛 매트릭스이고; 상기
Figure 112020080349662-pat00076
는 주파수 포인트이며; 상기
Figure 112020080349662-pat00077
이다.
2)각 음원이 각 주파수 포인트에서의 가중 공분산 매트릭스(
Figure 112020080349662-pat00078
)를 초기화한다.
Figure 112020080349662-pat00079
이고; 여기서,
Figure 112020080349662-pat00080
은 0 매트릭스이고; 여기서, 상기
Figure 112020080349662-pat00081
는 마이크로폰을 나타내기 위한 것이며;
Figure 112020080349662-pat00082
이다.
단계 S302에 있어서,
Figure 112020080349662-pat00083
번째 마이크로폰의
Figure 112020080349662-pat00084
번째 프레임에서의 오리지날 노이즈 신호를 획득한다.
Figure 112020080349662-pat00085
Figure 112020080349662-pat00086
번째 마이크로폰의 하나의 프레임의 시간 도메인 신호를 대표한다.
Figure 112020080349662-pat00087
이다.
Figure 112020080349662-pat00088
는 시스템 프레임 길이 즉 FFT의 길이를 대표한다. 프레임 시프트는 M이다.
Figure 112020080349662-pat00089
에 비대칭 분석 윈도우를 추가하고 FFT를 수행하여,
Figure 112020080349662-pat00090
을 얻는다.
여기서, 상기
Figure 112020080349662-pat00091
은 푸리에 변환에 의해 선택된 포인트 수이고; 여기서, 상기 FFT는 고속 푸리에 변환이며; 상기
Figure 112020080349662-pat00092
Figure 112020080349662-pat00093
번째 마이크로폰의
Figure 112020080349662-pat00094
번째 프레임의 시간 도메인 신호이며; 여기서, 상기 시간 도메인 신호는 오리지날 노이즈 신호이다. 상기
Figure 112020080349662-pat00095
은 비대칭 분석 윈도우이다.
이때,
Figure 112020080349662-pat00096
의 관측 신호는
Figure 112020080349662-pat00097
이고, 여기서,
Figure 112020080349662-pat00098
은 전치 매트릭스이다.
STFT는 현재 프레임의 시간 도메인 신호에 분석 윈도우를 곱셈하고 FFT를 수행하여 시간 주파수 데이터를 얻는 것이다. 알고리즘이 추정된 분리 매트릭스를 통해 분리된 신호의 시간 주파수 데이터를 획득한 후 IFFT를 수행하여 시간 도메인으로 돌아간 다음, 합성 윈도우를 곱셈하고, 이전 프레임에 의해 출력된 시간 도메인과의 중첩 부분을 더하여 재구축된 분리된 시간 도메인 신호를 획득하는 것을, 중첩 가산 기술이라고 지칭한다.
기존의 윈도잉 알고리즘은 대칭된 해닝 윈도우 또는 해밍 윈도우 등에 기반한 윈도우 함수를 일반적으로 사용한다. 예시적으로, 루트 주기 해닝 윈도우(
Figure 112020080349662-pat00099
)를 사용할 수 있다.
여기서, 프레임 시프트는
Figure 112020080349662-pat00100
이고, 윈도우 길이는
Figure 112020080349662-pat00101
이다. 시스템 지연은
Figure 112020080349662-pat00102
포인트이다.
Figure 112020080349662-pat00103
가 일반적으로 4096이거나 더 크므로,
Figure 112020080349662-pat00104
인 시스템 샘플링율 하에서, 이때 지연은 256ms 또는 이보다 더 크다.
본 발명의 실시예에 있어서, 비대칭 분석 윈도우와 합성 윈도우를 사용하고, 윈도우 길이가 N=Nfft이고, 프레임 시프트가 M으로 설정한다. 지연를 저하시키기 위해, 이때의 M은 일반적으로 비교적 작다. 예시적으로,
Figure 112020080349662-pat00105
또는 다른 값으로 설정될 수 있다.
예시적으로, 비대칭 분석 윈도우는 아래와 같은 함수를 사용할 수 있다.
Figure 112020080349662-pat00106
비대칭 합성 윈도우는 아래와 같은 함수를 사용할 수 있다.
Figure 112020080349662-pat00107
N=4096, M=512일 경우, 상기 비대칭 분석 윈도우의 함수 그래프는 도 4에 도시된 바와 같고; 상기 비대칭 합성 윈도우의 함수 그래프는 도 5에 도시된 바와 같다.
단계 S303에 있어서, 이전 프레임의
Figure 112020080349662-pat00108
을 이용하여 두 개의 음원 신호의 선험적 주파수 도메인 추정을 획득한다.
두 개의 음원 신호의 선험적 주파수 도메인 추정이
Figure 112020080349662-pat00109
되도록 하고, 여기서
Figure 112020080349662-pat00110
은 각각 음원 1 및 음원 2가 시간 주파수 포인트(
Figure 112020080349662-pat00111
) 위치에서의 추정값이다.
분리 매트릭스(
Figure 112020080349662-pat00112
)를 통해 관측 매트릭스(
Figure 112020080349662-pat00113
)를 분리하여,
Figure 112020080349662-pat00114
을 얻는다. 여기서,
Figure 112020080349662-pat00115
은 이전 프레임의(즉 현재 프레임의 이전 프레임) 분리 매트릭스이다.
Figure 112020080349662-pat00116
번째 음원이
Figure 112020080349662-pat00117
번째 프레임에서의 선험적 주파수 도메인 추정은
Figure 112020080349662-pat00118
이다.
단계 S304에 있어서, 가중 공분산 매트릭스(
Figure 112020080349662-pat00119
)를 업데이트한다.
업데이트된 가중 공분산 매트릭스를 계산한다.
Figure 112020080349662-pat00120
; 여기서, 상기
Figure 112020080349662-pat00121
는 평활 계수이다. 일 실시예에 있어서, 상기
Figure 112020080349662-pat00122
는 0.98이고; 여기서, 상기
Figure 112020080349662-pat00123
은 이전 프레임의 가중 공분산 매트릭스이며; 상기
Figure 112020080349662-pat00124
Figure 112020080349662-pat00125
의 공액 전치이며; 상기
Figure 112020080349662-pat00126
은 가중 계수이며, 여기서, 상기
Figure 112020080349662-pat00127
은 보조 변수이며; 상기
Figure 112020080349662-pat00128
은 비교 함수이다.
여기서, 상기
Figure 112020080349662-pat00129
Figure 112020080349662-pat00130
번째 음원의 전체 주파수 대역에 기반한 다중 차원 초 가우시안 선험적 확률 밀도 함수이다. 일 실시예에 있어서,
Figure 112020080349662-pat00131
이며; 이때, 상기
Figure 112020080349662-pat00132
이면; 상기
Figure 112020080349662-pat00133
이다.
단계S305에 있어서, 특징 벡터(
Figure 112020080349662-pat00134
)를 얻기 위해, 특징 문제를 풀이한다.
여기서, 상기
Figure 112020080349662-pat00135
Figure 112020080349662-pat00136
번째 마이크로폰에 대응되는 특징 벡터이다.
여기서, 상기 특징 문제(
Figure 112020080349662-pat00137
)를 구하면,
Figure 112020080349662-pat00138
Figure 112020080349662-pat00139
을 얻는다.
여기서,
Figure 112020080349662-pat00140
이고, tr(A)는 트레이스 함수이고, tr(A)는 매트릭스(A)의 메인 대각선에서의 요소에 대한 합을 구하며; det(A)는 매트릭스A에 대해 행렬식을 구하며;
Figure 112020080349662-pat00141
는 특징값이다.
단계S306에 있어서, 각 주파수 포인트의 업데이트된 분리 매트릭스(
Figure 112020080349662-pat00142
)를 획득한다.
상기 특징 문제의 특징 벡터에 기반하여, 업데이트된 현재 프레임의 분리 매트릭스(
Figure 112020080349662-pat00143
)를 얻는다.
단계S307에 있어서, 현재 프레임의
Figure 112020080349662-pat00144
을 이용하여 두 개의 음원 신호의 후험적 주파수 도메인 추정을 획득한다.
현재 프레임의
Figure 112020080349662-pat00145
를 이용하여 오리지날 노이즈 신호를 분리하여 두 개의 음원 신호의 후험적 주파수 도메인 추정(
Figure 112020080349662-pat00146
)을 얻는다.
단계S308에 있어서, 후험적 주파수 도메인 추정에 따라 시간 주파수 변환을 수행하여 분리된 시간 도메인 신호를 얻는다.
IFFT를 수행하고, 합성 윈도우를 가산하며, 이전 프레임의 시간 도메인과의 중첩 부분을 가산하며, 현재 프레임의 시간 도메인 분리 신호(
Figure 112020080349662-pat00147
)를 얻으며, p=1,2이며,
Figure 112020080349662-pat00148
이다.
여기서,
Figure 112020080349662-pat00149
은 현재 프레임의 시간 도메인 신호가 윈도잉 처리된 후의 신호이고;
Figure 112020080349662-pat00150
은 현재 프레임 이전의 각 프레임의 시간 도메인 중첩 부분이며,
Figure 112020080349662-pat00151
은 현재 프레임 시간 도메인 중첩 부분이다.
Figure 112020080349662-pat00152
을 업데이트하고, 다음 프레임을 서로 가산하여
Figure 112020080349662-pat00153
,
Figure 112020080349662-pat00154
을 사용하여, 각각
Figure 112020080349662-pat00155
에 대해 ISTFT 및 중첩 가산하여 분리된 시간 도메인 음원 신호(
Figure 112020080349662-pat00156
), 즉
Figure 112020080349662-pat00157
을 얻으며, 여기서 m=1,…,Nfft. p=1,2이다.
상기 분석 윈도우와 합성 윈도우의 처리를 통해, 최종적으로, 시스템 지연은 2M 포인트이며, 시간 지연은
Figure 112020080349662-pat00158
ms(밀리초)이다. FFT 포인트 수를 변경할 경우,
Figure 112020080349662-pat00159
의 크기를 제어하는 것을 통해 실제 필요를 만족하는 시스템 지연을 얻을 수 있으므로, 시스템 지연 및 알고리즘 성능 사이의 모순을 해결한다.
도 6은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치의 블록도이다. 도 6을 참조하면, 상기 장치(600)는 제1 획득 모듈(601), 제1 윈도잉 모듈(602), 제1 변환 모듈(603), 제2 획득 모듈(604) 및 제3 획득 모듈(605)을 포함한다.
제1 획득 모듈(601)은, 적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 것이고;
제1 윈도잉 모듈(602)은, 시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하기 위한 것이며;
제1 변환 모듈(603)은, 상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하기 위한 것이며;
제2 획득 모듈(604)은, 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하기 위한 것이며;
제3 획득 모듈(605)은, 상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 것이다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00160
이며, 상기
Figure 112020080349662-pat00161
은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이이다.
일부 실시예에 있어서, 상기 제1 비대칭 윈도우(
Figure 112020080349662-pat00162
)는,
Figure 112020080349662-pat00163
을 포함하고,
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트이다.
일부 실시예에 있어서, 상기 제3 획득 모듈은,
상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하기 위한 제2 변환 모듈;
제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하기 위한 제2 윈도잉 모듈; 및
상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제1 획득 서브 모듈을 포함한다.
일부 실시예에 있어서, 상기 제2 윈도잉 모듈은 구체적으로,
제2 비대칭 윈도우(
Figure 112020080349662-pat00164
)을 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하는 단계를 포함하고;
상기 제1 획득 서브 모듈은 구체적으로,
상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하는 단계 - n은 1보다 큰 정수임 - 를 포함한다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
Figure 112020080349662-pat00165
이며, 상기
Figure 112020080349662-pat00166
는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이며, 상기 M은 프레임 시프트이다.
일부 실시예에 있어서, 상기 제2 비대칭 윈도우(
Figure 112020080349662-pat00167
)는,
Figure 112020080349662-pat00168
을 포함한다.
여기서, HK(x)는 윈도우 길이가 K인 해닝 윈도우이다.
일부 실시예에 있어서, 제2 획득 모듈은,
상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하기 위한 제2 획득 서브 모듈;
상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하기 위한 결정 서브 모듈; 및
상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하기 위한 제3 획득 서브 모듈을 포함한다.
상기 실시예에서의 장치에 관련하여, 각 모듈이 동작을 실행하는 구체적인 형태는 상기 방법에 관련된 실시예에서 이미 자세하게 설명하였으므로, 여기서 더이상 반복하지 않는다.
도 7은 일 예시적 실시예에 따라 도시한 오디오 신호 처리 장치(700)의 엔티티 구조블록도이다. 예를 들어, 장치(700)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등일 수 있다.
도 7를 참조하면, 장치(700)는 처리 컴포넌트(701), 메모리(702), 전원 컴포넌트(703), 멀티미디어 컴포넌트(704), 오디오 컴포넌트(705), 입력/출력(I/O) 인터페이스(706), 센서 컴포넌트(707) 및 통신 컴포넌트(708) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(701)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 장치(700)의 전체적인 동작을 제어한다. 처리 컴포넌트(701)는, 상기 방법의 전부 또는 일부 단계를 완료하기 위한 명령어를 실행하는 하나 또는 복수 개의 프로세서(710)를 포함할 수 있다. 또한, 처리 컴포넌트(701)는 또한 처리 컴포넌트(701) 및 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(701)는 멀티미디어 컴포넌트(704) 및 처리 컴포넌트(701) 사이의 상호 작용을 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.
메모리(702)는 장치(700)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 장치(700)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(702)는 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(EPROM), 프로그래머블 읽기 전용 메모리(PROM), 읽기 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비 휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(703)는 장치(700)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(703)는 전력 관리 시스템, 하나 또는 복수 개의 전력 및 장치(700)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(704)는 상기 장치(700) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(704)는 전방 카메라 및 후방 카메라 중 적어도 하나를 포함한다. 장치(700)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라 중 적어도 하나는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(705)는 오디오 신호를 출력하는 것 및 입력하는 것 중 적어도 하나를 수행하도록 구성된다. 예를 들어, 오디오 컴포넌트(705)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 장치(700)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(702)에 추가로 저장되거나 통신 컴포넌트(708)에 의해 전송될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(705)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.
I/O 인터페이스(706)는 처리 컴포넌트(701)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.
센서 컴포넌트(707)는 장치(700)를 위한 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(707)는 장치(700)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 장치(700)의 모니터와 키패드이며, 센서 컴포넌트(707)는 장치(700) 또는 장치(700)에서 하나의 컴포넌트의 위치 변화, 사용자와 장치(700) 접촉의 존재 유무, 장치(700) 방향 또는 가속/감속 및 장치(700)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(707)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(707)는 이미징 애플리케이션에 사용하기 위한 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor, CMOS) 이미지 센서 또는 전하 결합 소자(Charged Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(707)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(708)는 장치(700)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 장치(700)는 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 통신 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적 실시예에 있어서, 통신 컴포넌트(708)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적 실시예에 있어서, 상기 통신 컴포넌트(708)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역 (Ultra Wideband, UWB) 기술, 블루투스(BT) 기술 또는 다른 기술에 기반하여 구현될 수 있다.
예시적 실시예에 있어서, 장치(700)는 하나 또는 복수 개의 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processor Device, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로폰로 제어기, 마이크로폰로 프로세서 또는 다른 전자 부품에 의해 구현되며, 장치(800)는 상기 방법을 실행하기 위한 것이다.
예시적 실시예에 있어서, 명령어를 포함하는 메모리(702)와 같은 명령어를 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 명령어는 상기 방법을 완료하도록 장치(700)의 프로세서(710)에 의해 실행된다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능 저장 매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 기기 등일 수 있다.
비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 저장 매체에서의 명령어가 모바일 단말의 프로세서에 의해 실행될 경우, 이동 단말로 하여금 상기 실시예에서 제공하는 어느 한 오디오 신호의 처리 방법을 실행할 수 있도록 한다.
본 기술분야의 기술자는 명세서를 고려하고 본문에 개시된 발명을 실천한 후, 본 발명의 다른 실시방안을 용이하게 생각해낼 수 있을 것이다. 본 출원은 본 발명의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리에 따르며, 본 발명에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 발명의 진정한 범위 및 사상은 아래의 청구범위에 의해 지적된다.
이해해야 할 것은, 본 발명은 위에서 설명되고 도면에 도시된 정확한 구조에 한정되지 않으며, 이 범위를 벗어나지 않는 한 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims (18)

  1. 오디오 신호 처리 방법으로서,
    적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계;
    시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하는 단계;
    상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하는 단계;
    상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계; 및
    상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함하고;
    상기 주파수 도메인 추정 신호에 따라, 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
    상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하는 단계;
    제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계; 및
    상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제1항에 있어서,
    상기 제1 비대칭 윈도우(
    Figure 112020080349662-pat00169
    )의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
    Figure 112020080349662-pat00170
    이며, 상기
    Figure 112020080349662-pat00171
    은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이인 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제2항에 있어서,
    상기 제1 비대칭 윈도우(
    Figure 112020080349662-pat00172
    )는,
    Figure 112020080349662-pat00173

    을 포함하고,
    Hk(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하는 단계는,
    제2 비대칭 윈도우(
    Figure 112022086302164-pat00174
    )를 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하는 단계를 포함하고;
    상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하는 단계는,
    상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하는 단계 - n은 1보다 큰 정수임 - 를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 제1항에 있어서,
    제2 비대칭 윈도우(
    Figure 112022086302164-pat00175
    )의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
    Figure 112022086302164-pat00176
    이며, 상기
    Figure 112022086302164-pat00177
    는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 방법.
  7. 제6항에 있어서,
    상기 제2 비대칭 윈도우(
    Figure 112020080349662-pat00178
    )는
    Figure 112020080349662-pat00179

    을 포함하고,
    HK(x)는 윈도우 길이가 K인 해닝 윈도우인 것을 특징으로 하는 오디오 신호 처리 방법.
  8. 제1항에 있어서,
    상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하는 단계는,
    상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하는 단계;
    상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하는 단계; 및
    상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  9. 오디오 신호 처리 장치로서,
    적어도 두 개의 마이크로폰의 각각 시간 도메인에서의 오리지날 노이즈 신호를 획득하기 위해, 상기 적어도 두 개의 마이크로폰으로 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제1 획득 모듈;
    시간 도메인에서의 각 프레임에 있어서, 제1 비대칭 윈도우를 사용하여 상기 적어도 두 개의 마이크로폰 각각의 상기 오리지날 노이즈 신호에 대해 윈도잉 연산을 수행하여, 윈도잉된 노이즈 신호를 획득하기 위한 제1 윈도잉 모듈;
    상기 윈도잉된 노이즈 신호에 대해 시간 주파수 변환을 수행하여, 상기 적어도 두 개의 음원 각각의 주파수 도메인 노이즈 신호를 획득하기 위한 제1 변환 모듈;
    상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 주파수 도메인 추정 신호를 획득하기 위한 제2 획득 모듈; 및
    상기 주파수 도메인 추정 신호에 대해 시간 주파수 변환을 수행하여, 적어도 두 개의 음원 각각의 시간 도메인 분리 신호를 획득하고, 제2 비대칭 윈도우를 사용하여 상기 적어도 두 개의 음원 각각의 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, 윈도잉 분리 신호를 획득하며, 상기 윈도잉된 분리 신호에 따라, 상기 적어도 두 개의 음원이 각각 송신한 오디오 신호를 획득하기 위한 제3 획득 모듈을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  10. 제9항에 있어서,
    상기 제1 비대칭 윈도우(
    Figure 112020080349662-pat00180
    )의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
    Figure 112020080349662-pat00181
    이며, 상기
    Figure 112020080349662-pat00182
    은 N보다 작고 0.5보다 크며, 상기 N은 상기 오디오 신호의 프레임 길이인 것을 특징으로 하는 오디오 신호 처리 장치.
  11. 제10항에 있어서,
    상기 제1 비대칭 윈도우(
    Figure 112020080349662-pat00183
    )는,
    Figure 112020080349662-pat00184

    을 포함하고,
    Hk(x)는 윈도우 길이가 K인 해닝 윈도우이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 장치.
  12. 삭제
  13. 제9항에 있어서,
    상기 제2 윈도잉 모듈은 구체적으로,
    제2 비대칭 윈도우(
    Figure 112022086302164-pat00185
    )를 사용하여 n 번째 프레임의 상기 시간 도메인 분리 신호에 대해 윈도잉 연산을 수행하여, n 번째 프레임의 윈도잉된 분리 신호를 획득하기 위한 것이고;
    상기 제1 획득 서브 모듈은 구체적으로,
    상기 n 번째 프레임의 윈도잉된 분리 신호에 따라 n-1 번째 프레임의 오디오 신호를 오버랩하여, n 번째 프레임의 오디오 신호를 획득하기 위한 것 - n은 1보다 큰 정수임 - 임을 특징으로 하는 오디오 신호 처리 장치.
  14. 제13항에 있어서,
    제2 비대칭 윈도우(
    Figure 112020080349662-pat00186
    )의 정의역은 0보다 크거나 같고 N보다 작거나 같으며, 피크값은
    Figure 112020080349662-pat00187
    이며, 상기
    Figure 112020080349662-pat00188
    는 N-M이며, 상기 N은 상기 오디오 신호의 프레임 길이이고, 상기 M은 프레임 시프트인 것을 특징으로 하는 오디오 신호 처리 장치.
  15. 제14항에 있어서,
    상기 제2 비대칭 윈도우(
    Figure 112020080349662-pat00189
    )는
    Figure 112020080349662-pat00190

    을 포함하고,
    HK(x)는 윈도우 길이가 K인 해닝 윈도우인 것을 특징으로 하는 오디오 신호 처리 장치.
  16. 제9항에 있어서,
    제2 획득 모듈은,
    상기 주파수 도메인 노이즈 신호에 따라, 주파수 도메인 선험적 추정 신호를 획득하기 위한 제2 획득 서브 모듈;
    상기 주파수 도메인 선험적 추정 신호에 따라, 각 주파수 포인트의 분리 매트릭스를 결정하기 위한 결정 서브 모듈; 및
    상기 분리 매트릭스 및 상기 주파수 도메인 노이즈 신호에 따라, 상기 적어도 두 개의 음원의 상기 주파수 도메인 추정 신호를 획득하기 위한 제3 획득 서브 모듈을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  17. 오디오 신호 처리 장치로서,
    상기 오디오 신호 처리 장치는 적어도, 프로세서 및 상기 프로세서에서 작동하는 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
    프로세서가 상기 실행 가능한 명령어를 작동할 경우, 상기 실행 가능한 명령어는 제1항 내지 제3항, 제5항 내지 제8항 중 어느 한 항에 따른 오디오 신호 처리 방법에서의 단계를 실행하는 것을 특징으로 하는 오디오 신호 처리 장치.
  18. 비 일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 실행 가능한 명령어가 저장되어 있고, 상기 컴퓨터 실행 가능한 명령어가 프로세서에 의해 실행될 경우 제1항 내지 제3항, 제5항 내지 제8항 중 어느 한 항에 따른 오디오 신호 처리 방법에서의 단계를 구현하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능한 저장 매체.

KR1020200095606A 2020-03-13 2020-07-31 오디오 신호 처리 방법 및 장치, 저장 매체 KR102497549B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010176172.XA CN111402917B (zh) 2020-03-13 2020-03-13 音频信号处理方法及装置、存储介质
CN202010176172.X 2020-03-13

Publications (2)

Publication Number Publication Date
KR20210117120A KR20210117120A (ko) 2021-09-28
KR102497549B1 true KR102497549B1 (ko) 2023-02-08

Family

ID=71430799

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200095606A KR102497549B1 (ko) 2020-03-13 2020-07-31 오디오 신호 처리 방법 및 장치, 저장 매체

Country Status (5)

Country Link
US (1) US11490200B2 (ko)
EP (1) EP3879529A1 (ko)
JP (1) JP7062727B2 (ko)
KR (1) KR102497549B1 (ko)
CN (1) CN111402917B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114007176B (zh) * 2020-10-09 2023-12-19 上海又为智能科技有限公司 用于降低信号延时的音频信号处理方法、装置及存储介质
CN112599144B (zh) * 2020-12-03 2023-06-06 Oppo(重庆)智能科技有限公司 音频数据处理方法、音频数据处理装置、介质与电子设备
CN113053406B (zh) * 2021-05-08 2024-06-18 北京小米移动软件有限公司 声音信号识别方法及装置
CN113362847A (zh) * 2021-05-26 2021-09-07 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN114501283B (zh) * 2022-04-15 2022-06-28 南京天悦电子科技有限公司 一种针对数字助听器的低复杂度双麦克风定向拾音方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
US7343283B2 (en) 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
CN101091209B (zh) * 2005-09-02 2010-06-09 日本电气株式会社 抑制噪声的方法及装置
US8073147B2 (en) 2005-11-15 2011-12-06 Nec Corporation Dereverberation method, apparatus, and program for dereverberation
US8385864B2 (en) * 2006-02-21 2013-02-26 Wolfson Dynamic Hearing Pty Ltd Method and device for low delay processing
ATE435480T1 (de) * 2006-10-25 2009-07-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zur erzeugung von audio-subband-werten und vorrichtung und verfahren zur erzeugung von zeit-domänen-audio-beispielen
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
KR101529647B1 (ko) * 2008-07-22 2015-06-30 삼성전자주식회사 빔포밍 기술을 이용한 음원 분리 방법 및 시스템
JP4660578B2 (ja) 2008-08-29 2011-03-30 株式会社東芝 信号補正装置
JP5687522B2 (ja) 2011-02-28 2015-03-18 国立大学法人 奈良先端科学技術大学院大学 音声強調装置、方法、及びプログラム
JP5443547B2 (ja) * 2012-06-27 2014-03-19 株式会社東芝 信号処理装置
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN109285557B (zh) * 2017-07-19 2022-11-01 杭州海康威视数字技术股份有限公司 一种定向拾音方法、装置及电子设备
JP7260101B2 (ja) * 2018-04-19 2023-04-18 国立大学法人電気通信大学 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法
CN110189763B (zh) * 2019-06-05 2021-07-02 普联技术有限公司 一种声波配置方法、装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sean U. N. Wood et al., ‘Unsupervised Low Latency Speech Enhancement With RT-GCC-NMF’, IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL.13, NO.2, pp.332~346, MAY 2019.*

Also Published As

Publication number Publication date
CN111402917B (zh) 2023-08-04
US11490200B2 (en) 2022-11-01
KR20210117120A (ko) 2021-09-28
US20210289293A1 (en) 2021-09-16
EP3879529A1 (en) 2021-09-15
CN111402917A (zh) 2020-07-10
JP2021149084A (ja) 2021-09-27
JP7062727B2 (ja) 2022-05-06

Similar Documents

Publication Publication Date Title
KR102497549B1 (ko) 오디오 신호 처리 방법 및 장치, 저장 매체
EP3839951B1 (en) Method and device for processing audio signal, terminal and storage medium
CN111128221B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111429933B (zh) 音频信号的处理方法及装置、存储介质
KR102387025B1 (ko) 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체
CN111179960B (zh) 音频信号处理方法及装置、存储介质
CN110970046B (zh) 一种音频数据处理的方法及装置、电子设备、存储介质
US11430460B2 (en) Method and device for processing audio signal, and storage medium
CN112447184B (zh) 语音信号处理方法及装置、电子设备、存储介质
CN113506582A (zh) 声音信号识别方法、装置及系统
CN112201267A (zh) 一种音频处理方法、装置、电子设备及存储介质
CN112863537B (zh) 一种音频信号处理方法、装置及存储介质
EP4084002A1 (en) Information processing method, electronic equipment, storage medium, and computer program product
CN111667842A (zh) 音频信号处理方法及装置
CN111429934B (zh) 音频信号处理方法及装置、存储介质
CN113362847A (zh) 音频信号处理方法及装置、存储介质
CN116631419A (zh) 语音信号的处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right