KR102387025B1 - 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체 - Google Patents

오디오 신호 처리 방법, 장치, 단말기 및 저장 매체 Download PDF

Info

Publication number
KR102387025B1
KR102387025B1 KR1020200059427A KR20200059427A KR102387025B1 KR 102387025 B1 KR102387025 B1 KR 102387025B1 KR 1020200059427 A KR1020200059427 A KR 1020200059427A KR 20200059427 A KR20200059427 A KR 20200059427A KR 102387025 B1 KR102387025 B1 KR 102387025B1
Authority
KR
South Korea
Prior art keywords
frequency domain
frequency
audio signal
signal
frame
Prior art date
Application number
KR1020200059427A
Other languages
English (en)
Other versions
KR20210078384A (ko
Inventor
하이닝 호우
Original Assignee
베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210078384A publication Critical patent/KR20210078384A/ko
Application granted granted Critical
Publication of KR102387025B1 publication Critical patent/KR102387025B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 개시는 오디오 신호 처리 방법에 관한 것으로, 적어도 2개의 마이크가 시간 영역에서 적어도 2개의 마이크 각각의 멀티 프레임 오리지널 노이즈 신호를 얻기 위해, 적어도 2개의 음원 각각에서 방출되는 오디오 신호를 획득하는 단계; 시간 영역에서의 각각의 프레임에 대해, 적어도 2개의 마이크 각각의 오리지널 노이즈 신호에 따라, 적어도 2개의 음원 각각의 주파수 영역 추정 신호를 획득하는 단계; 적어도 2개의 음원 중 각각의 음원에 대해, 주파수 영역 추정 신호를 주파수 영역에서 복수의 주파수 영역 추정 구성요소로 분할하는 단계; 각각의 주파수 영역 서브 대역 내에서, 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하는 단계; 및 업데이트된 분리 매트릭스 및 오리지널 노이즈 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득하는 단계를 포함한다.

Description

오디오 신호 처리 방법, 장치, 단말기 및 저장 매체{AUDIO SIGNAL PROCESSING METHOD, DEVICE, TERMINAL AND STORAGE MEDIUM}
관련 출원의 상호 참조
본원 발명은 출원 번호가 CN201911302532.X이고, 출원 일자가 2019년 12월 17일인 중국 특허 출원에 기반하여 제출하고 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본원 발명에 인용된다.
본 개시는 통신 기술 분야에 관한 것으로, 특히 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체에 관한 것이다.
관련 기술에서, 마이크 어레이는 대부분 스마트 제품 기기에서 사운드를 픽업하는데 사용되며, 마이크 빔 형성 기술은 실제 환경에서 음성 인식 속도를 향상시키기 위해 음성 신호 처리 품질을 향상시키는데 사용된다. 그러나 복수의 마이크 빔 형성 기술은 마이크 위치 오류에 민감하고 성능에 큰 영향을 미치며, 마이크 수가 증가하면서 제품 비용도 증가한다. 본 개시의 배경이 되는 기술은 Shoko Araki et al., 'The Fundamental Limitation of Frequency Domain Blind Source Separation for Convolutive Mixtures of Speech', IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 11, NO. 2, MARCH 2003에 개시되어 있다.
따라서, 현재 점점 더 많은 스마트 제품 기기에는 2개의 마이크만 장착되며; 2개의 마이크는 흔히 복수의 마이크 빔 형성 기술과 완전히 다른 블라인드 소스 분리 기술을 사용하여 음성을 향상시키고, 블라인드 소스 분리 기술에 기반하여 분리된 신호의 음성 품질을 보다 높이는 것은 현재 시급히 해결해야 할 문제이다.
본 개시는 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체를 제공한다.
본 개시의 실시예의 제1 양태에 따르면,
적어도 2개의 마이크가 시간 영역에서 상기 적어도 2개의 마이크 각각의 멀티 프레임 오리지널 노이즈 혼합 신호를 얻기 위해, 적어도 2개의 음원 각각에서 방출되는 오디오 신호를 획득하는 단계;
시간 영역에서의 각각의 프레임에 대해, 상기 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호에 따라, 상기 적어도 2개의 음원 각각의 주파수 영역 추정 신호를 획득하는 단계;
상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 주파수 영역에서 복수의 주파수 영역 추정 구성요소로 분할하는 단계 - 각각의 주파수 영역 추정 구성요소는 하나의 주파수 영역 서브 대역에 대응되고 복수의 주파수 포인트 데이터를 포함함 - ;
각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하는 단계; 및
업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득하는 단계를 포함하는 오디오 신호 처리 방법을 제공한다.
상기 해결수단에서, 상기 각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하는 단계는,
각각의 음원에 대해, n번째 상기 주파수 영역 추정 구성요소의 상기 가중 계수, 상기 주파수 영역 추정 신호 및 x-1 번째 대체 매트릭스를 구배 반복(gradient iteration)하여, x번째 대체 매트릭스를 얻는 단계 - 첫 번째 대체 매트릭스는 알려진 단위 매트릭스이고, 상기 x는 2보다 크거나 같은 양의 정수이며, 상기 n은 N보다 작은 양의 정수이고, 상기 N은 상기 주파수 영역 서브 대역의 개수임 - ; 및
상기 x번째 대체 매트릭스가 반복 정지 조건을 만족할 경우, 상기 x번째 대체 매트릭스에 기반하여, n번째 상기 주파수 영역 추정 구성요소 중 각각의 주파수 포인트가 업데이트된 분리 매트릭스를 획득하는 단계를 포함한다.
상기 해결수단에서, 상기 오디오 신호 처리 방법은,
n번째 상기 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 획득하는 단계를 더 포함한다.
상기 해결수단에서, 상기 업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득하는 단계는,
상기 업데이트된 첫 번째 분리 매트릭스 내지 상기 업데이트된 n번째 분리 매트릭스에 기반하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호를 분리하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 상이한 상기 음원의 오디오 신호를 획득하는 단계 - 상기 m은 M보다 작은 양의 정수이고, 상기 M은 상기 오리지널 노이즈 혼합 신호의 프레임 수임 - ; 및
각 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 신호 중 y번째 상기 음원의 오디오 신호를 조합하여, y번째 상기 음원의 상기 m 번째 프레임의 오디오 신호를 얻는 단계 - 상기 y는 Y보다 작거나 같은 양의 정수이고, 상기 Y는 음원의 개수임 - 를 포함한다.
상기 해결수단에서, 상기 오디오 신호 처리 방법은,
시간 선후 순서에 따라, y번째 상기 음원의 1번째 프레임의 오디오 신호 내지 m 번째 프레임의 오디오 신호를 조합하여, M 프레임의 상기 오리지널 노이즈 신호에 포함되는 y번째 상기 음원의 오디오 신호를 얻는 단계를 더 포함한다.
상기 해결수단에서, 상기 구배 반복을 수행할 경우, 상기 주파수 영역 추정 신호가 위치하는 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행한다.
상기 해결수단에서, 임의의 2개의 인접한 주파수 영역 서브 대역의 일부 주파수는 주파수 영역에서 중첩된다.
본 개시의 실시예의 제2 양태에 따르면,
적어도 2개의 마이크가 시간 영역에서 상기 적어도 2개의 마이크 각각의 멀티 프레임 오리지널 노이즈 혼합 신호를 얻기 위해, 적어도 2개의 음원 각각에서 방출되는 오디오 신호를 획득하기 위한 획득 모듈;
시간 영역에서의 각각의 프레임에 대해, 상기 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호에 따라, 상기 적어도 2개의 음원 각각의 주파수 영역 추정 신호를 획득하기 위한 변환 모듈;
상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 주파수 영역에서 복수의 주파수 영역 추정 구성요소로 분할하기 위한 분할 모듈 - 각각의 주파수 영역 추정 구성요소는 하나의 주파수 영역 서브 대역에 대응되고 복수의 주파수 포인트 데이터를 포함함 - ;
각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하기 위한 제1 프로세싱 모듈; 및
업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득하기 위한 제2 프로세싱 모듈을 포함하는 오디오 신호 처리 장치를 제공한다.
상기 해결수단에서, 상기 제1 프로세싱 모듈은, 각각의 음원에 대해, n번째 상기 주파수 영역 추정 구성요소의 상기 가중 계수, 상기 주파수 영역 추정 신호 및 x-1 번째 대체 매트릭스를 구배 반복하여, x번째 대체 매트릭스를 얻되, 첫 번째 대체 매트릭스는 알려진 단위 매트릭스이고, 상기 x는 2보다 크거나 같은 양의 정수이며, 상기 n은 N보다 작은 양의 정수이고, 상기 N은 상기 주파수 영역 서브 대역의 개수이며;
상기 x번째 대체 매트릭스가 반복 정지 조건을 만족할 경우, 상기 x번째 대체 매트릭스에 기반하여, n번째 상기 주파수 영역 추정 구성요소 중 각각의 주파수 포인트가 업데이트된 분리 매트릭스를 획득한다.
상기 해결수단에서, 상기 제1 프로세싱 모듈은 또한, n번째 상기 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 획득한다.
상기 해결수단에서, 상기 제2 프로세싱 모듈은, 상기 업데이트된 첫 번째 분리 매트릭스 내지 상기 업데이트된 n번째 분리 매트릭스에 기반하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호를 분리하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 상이한 상기 음원의 오디오 신호를 획득하되, 상기 m은 M보다 작은 양의 정수이고, 상기 M은 상기 오리지널 노이즈 혼합 신호의 프레임 수이며;
각 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 신호 중 y번째 상기 음원의 오디오 신호를 조합하여, y번째 상기 음원의 상기 m 번째 프레임의 오디오 신호를 얻되, 상기 y는 Y보다 작거나 같은 양의 정수이고, 상기 Y는 음원의 개수이다.
상기 해결수단에서, 상기 제2 프로세싱 모듈은 또한, 시간 선후 순서에 따라, y번째 상기 음원의 1번째 프레임의 오디오 신호 내지 m 번째 프레임의 오디오 신호를 조합하여, M 프레임의 상기 오리지널 노이즈 혼합 신호에 포함되는 y번째 상기 음원의 오디오 신호를 얻는다.
상기 해결수단에서, 상기 제1 프로세싱 모듈은 상기 구배 반복을 수행할 경우, 상기 주파수 영역 추정 신호가 위치하는 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행한다.
상기 해결수단에서, 임의의 2개의 인접한 주파수 영역 서브 대역의 일부 주파수는 주파수 영역에서 중첩된다.
본 개시의 실시예의 제3 양태에 따르면,
프로세서;
프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하되,
여기서, 상기 프로세서가 상기 실행 가능한 명령을 실행할 경우, 본 개시의 임의의 실시예에 따른 오디오 신호 처리 방법을 구현하도록 구성되는 단말기를 제공한다.
본 개시의 실시예의 제4 양태에 따르면, 실행 가능한 프로그램이 저장되며, 여기서 상기 실행 가능한 프로그램이 프로세서에 의해 실행될 경우 본 개시의 임의의 실시예에 따른 오디오 신호 처리 방법을 구현하는 컴퓨터 판독 가능한 저장 매체를 제공한다.
본 개시의 실시예에서 제공된 기술적 해결수단은 하기와 같은 유익한 효과를 포함할 수 있다.
본 개시의 실시예에서, 시간 영역에서 적어도 2개의 마이크의 멀티 프레임 오리지널 노이즈 혼합 신호를 획득하고, 또한 시간 영역에서의 각각의 프레임에서, 상기 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호를 적어도 2개의 음원 각각의 주파수 영역 추정 신호로 변환하며; 또한 상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 상이한 주파수 영역 서브 대역 내의 적어도 2개의 주파수 영역 추정 구성요소로 분할함으로써, 상기 주파수 영역 추정 구성요소의 가중 계수 및 주파수 영역 추정 신호에 기반하여, 업데이트된 분리 매트릭스를 획득한다. 이와 같이, 본 개시의 실시예에서 획득한 업데이트된 분리 매트릭스는 상이한 주파수 영역 서브 대역의 주파수 영역 추정 구성요소의 가중 계수에 기반하여 결정된 것이고, 선행 기술에서의 전체 주파수 대역의 모든 주파수 영역 추정 신호에 동일한 의존성이 존재하는 것에 기반하여 분리 매트릭스를 획득하는 경우에 비해, 보다 높은 분리 성능을 구비하며; 이로써 본 개시의 실시예에서 획득한 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 방출되는 오디오 신호를 획득함으로써, 분리 성능을 향상시킬 수 있고, 일부 쉽게 손상되는 상기 주파수 영역 추정 신호의 음성 신호를 복원시킬 수 있어, 음성 분리 품질을 향상시킨다.
이상의 일반 설명과 후술되는 상세한 설명은 단지 예시적이고 해석적일 뿐, 본 개시를 한정할 수 없음을 유의해야 한다.
여기서의 도면은 명세서에 병합되어 본 명세서의 일부분을 구성하고, 본 개시에 부합되는 실시예를 나타내며, 명세서와 함께 본 개시의 원리를 해석한다.
도 1은 일 예시적 실시예에 따라 도시된 오디오 신호 처리 방법의 흐름도이다.
도 2는 일 예시적 실시예에 따라 도시된 오디오 신호 처리 방법의 응용 상황을 나타내는 블록도이다.
도 3은 일 예시적 실시예에 따라 도시된 오디오 신호 처리 방법의 흐름도이다.
도 4는 일 예시적 실시예에 따라 도시된 오디오 신호 처리 장치의 모식도이다.
도 5는 일 예시적 실시예에 따라 도시된 단말기의 블록도이다.
여기서 예시적인 실시예를 상세하게 설명하고, 그 예시는 도면에 도시된다. 아래 도면에 관한 설명에서, 다르게 설명하지 않는 한, 상이한 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 표시한다. 아래 예시적인 실시예에서 설명되는 실시형태는 본 개시와 일치한 모든 실시형태를 대표하지 않는다. 반대로, 이들은 단지 첨부된 특허청구범위에 상세하게 설명된 본 개시의 일부 양태와 일치한 장치와 방법의 예이다.
도 1은 일 예시적 실시예에 따라 도시된 오디오 신호 처리 방법의 흐름도이며, 도 1에 도시된 바와 같이, 상기 방법은 하기와 같은 단계를 포함한다.
단계 S11에서, 적어도 2개의 마이크가 시간 영역에서 상기 적어도 2개의 마이크 각각의 멀티 프레임 오리지널 노이즈 혼합 신호를 얻기 위해, 적어도 2개의 음원 각각에서 방출되는 오디오 신호를 획득한다.
단계 S12에서, 시간 영역에서의 각각의 프레임에 대해, 상기 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호에 따라, 상기 적어도 2개의 음원 각각의 주파수 영역 추정 신호를 획득한다.
단계 S13에서, 상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 주파수 영역에서 복수의 주파수 영역 추정 구성요소로 분할하되, 여기서 각각의 주파수 영역 추정 구성요소는 하나의 주파수 영역 서브 대역에 대응되고 복수의 주파수 포인트 데이터를 포함한다.
단계 S14에서, 각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트한다.
단계 S15에서, 업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득한다.
본 개시의 실시예에 따른 방법은 단말기에 적용된다. 여기서, 상기 단말기는 둘 또는 둘 이상의 마이크를 통합한 전자 기기이다. 예를 들어, 상기 단말기는 차량 탑재형 단말기, 컴퓨터 또는 서버일 수 있다. 일 실시예에서, 상기 단말기는 또한, 둘 또는 둘 이상의 마이크를 통합한 소정 기기와 연결되는 전자 기기일 수 있고; 상기 전자 기기는 상기 연결에 기반하여 소정 기기에 의해 수집된 오디오 신호를 수신하고, 처리된 오디오 신호를 상기 연결에 기반하여 상기 소정 기기에 송신한다. 예를 들어, 상기 소정 기기는 사운드 박스이다.
실제 응용에서, 상기 단말기는 적어도 2개의 마이크를 포함하며, 상기 적어도 2개의 마이크는 동시에 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 검출하여, 상기 적어도 2개의 마이크 각각의 오리지널 노이즈 혼합 신호를 획득한다. 여기서, 이해할 수 있는 것은, 본 실시예에서 상기 적어도 2개의 마이크는 상기 2개의 음원에서 방출되는 오디오 신호에 대해 동기적으로 검출한다.
본 개시의 실시예의 상기 오디오 신호 처리 방법에서, 기설정된 시간 내에 오디오 프레임의 오리지널 노이즈 혼합 신호를 획득한 이후에, 상기 기설정된 시간 내에 오디오 프레임의 오디오 신호에 대한 분리를 시작해야 한다.
본 개시의 실시예에서, 상기 마이크는 둘 또는 둘 이상이며, 상기 음원은 둘 또는 둘 이상이다.
본 개시의 실시예에서, 상기 오리지널 노이즈 혼합 신호는, 적어도 2개의 음원에서 방출되는 사운드를 포함한 혼합 신호이다. 예를 들어, 상기 마이크가 2개이고, 각각 마이크1 및 마이크2이며; 상기 음원이 2개이고, 각각 음원1 및 음원2이면; 상기 마이크1의 오리지널 노이즈 혼합 신호는 음원1 및 음원2를 포함한 오디오 신호이고; 상기 마이크2의 오리지널 노이즈 혼합 신호도 마찬가지로 음원1 및 음원2를 포함한 오디오 신호이다.
예를 들어, 상기 마이크가 3개이고, 각각 마이크1, 마이크2 및 마이크3이며; 상기 음원이 3개이고, 각각 음원1, 음원2 및 음원3이면; 상기 마이크1의 오리지널 노이즈 혼합 신호는 음원1, 음원2 및 음원3을 포함한 오디오 신호이고; 상기 마이크2 및 상기 마이크3의 오리지널 노이즈 혼합 신호도 마찬가지로 음원1, 음원2 및 음원3을 포함한 오디오 신호이다.
이해할 수 있는 것은, 하나의 음원에서 방출된 사운드의 대응되는 마이크에서의 신호가 오디오 신호이면, 상기 마이크에서 다른 음원의 신호는 노이즈 신호이다. 본 개시의 실시예는 적어도 2개의 마이크로부터 적어도 2개의 음원에서 방출된 음원을 복원할 필요가 있다.
이해할 수 있는 것은, 일반 음원 개수는 마이크 개수와 동일하다. 일부 실시예에서, 마이크의 개수가 상기 음원의 개수보다 작으면, 상기 마이크 개수와 동일한 차원으로 상기 음원의 개수에 대해 차원을 감소시킬 수 있다.
본 개시의 실시예에서, 상기 주파수 영역 추정 신호를 적어도 2개의 주파수 영역 서브 대역 내에 위치한 적어도 2개의 주파수 영역 추정 구성요소로 분할할 수 있고; 여기서, 임의의 2개의 상기 주파수 영역 서브 대역의 주파수 영역 추정 구성요소에 포함되는 주파수 포인트 데이터의 수는 동일하거나 상이하다.
여기서, 상기 멀티 프레임 오리지널 노이즈 혼합 신호는 복수의 오디오 프레임의 오리지널 노이즈 혼합 신호를 가리킨다. 일 실시예에서, 하나의 오디오 프레임은 기설정된 시간 동안의 오디오 세그먼트일 수 있다.
예를 들어, 상기 주파수 영역 추정 신호가 총 100개이면, 상기 주파수 영역 추정 신호를 3개의 주파수 영역 서브 대역의 주파수 영역 추정 구성요소로 분할하고; 여기서, 첫 번째 주파수 영역 서브 대역, 두 번째 주파수 영역 서브 대역 및 세 번째 주파수 영역 서브 대역의 주파수 영역 추정 구성요소에 각각 포함되는 주파수 포인트 데이터는 25, 35 및 40개이다. 또 예를 들어, 상기 주파수 영역 추정 신호가 총 100개이면, 상기 주파수 영역 추정 신호를 4개의 주파수 영역 서브 대역의 주파수 영역 추정 구성요소로 분할하고; 여기서, 4개의 주파수 영역 서브 대역의 주파수 영역 추정 구성요소에 각각 포함되는 주파수 포인트 데이터는 평균 25개이다.
본 개시의 실시예에서, 시간 영역에서 적어도 2개의 마이크의 멀티 프레임 오리지널 노이즈 혼합 신호를 획득하고, 또한 시간 영역에서의 각각의 프레임에서, 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호를 적어도 2개의 음원 각각의 주파수 영역 추정 신호로 변환하며; 또한 상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 상이한 주파수 영역 서브 대역 내의 적어도 2개의 주파수 영역 추정 구성요소로 분할함으로써, 상기 주파수 영역 추정 구성요소의 가중 계수 및 주파수 영역 추정 신호에 기반하여, 업데이트된 분리 매트릭스를 획득한다. 이와 같이, 본 개시의 실시예에서 획득한 업데이트된 분리 매트릭스는, 상이한 주파수 영역 서브 대역의 주파수 영역 추정 구성요소의 가중 계수에 기반하여 결정된 것이고, 선행 기술에서, 전체 주파수 대역의 모든 주파수 영역 추정 신호에 동일한 의존성이 존재하는 것에 기반하여 분리 매트릭스를 획득하는 경우에 비해, 보다 높은 분리 성능을 구비하며; 이로써 본 개시의 실시예에서 획득한 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 방출되는 오디오 신호를 획득함으로써, 분리 성능을 향상시킬 수 있고, 일부 쉽게 손상되는 상기 주파수 영역 추정 신호의 음성 신호를 복원시킬 수 있어, 음성 분리 품질을 향상시킨다.
본 개시의 실시예에서 제공된 오디오 신호 처리 방법은, 선행 기술에서 복수의 마이크 빔 형성 기술로 음원 신호에 대한 분리를 구현하는 것에 비해, 상기 복수의 마이크의 위치를 고려할 필요가 없으므로, 보다 높은 정밀도의 음원에서 방출되는 사운드의 오디오 신호의 분리를 구현할 수 있다.
또한, 상기 오디오 신호 처리 방법이 2개의 마이크의 단말기기에 적용되면, 선행 기술에서 적어도 3개 이상의 복수의 마이크 빔 형성 기술로 음성 품질을 향상시키는데 비해, 마이크의 개수를 크게 감소시키고, 단말기의 하드웨어 원가를 감소시킨다.
일부 실시예에서, 상기 단계 S14는,
각각의 음원에 대해, n번째 상기 주파수 영역 추정 구성요소의 상기 가중 계수, 상기 주파수 영역 추정 신호 및 x-1 번째 대체 매트릭스를 구배 반복하여, x번째 대체 매트릭스를 얻는 단계 - 첫 번째 대체 매트릭스는 알려진 단위 매트릭스이고, 상기 x는 2보다 크거나 같은 양의 정수이며, 상기 n은 N보다 작은 양의 정수이고, 상기 N은 상기 주파수 영역 서브 대역의 개수임 - ; 및
상기 x번째 대체 매트릭스가 반복 정지 조건을 만족할 경우, 상기 x번째 대체 매트릭스에 기반하여, n번째 상기 주파수 영역 추정 구성요소 중 각각의 주파수 포인트가 업데이트된 분리 매트릭스를 획득하는 단계를 포함한다.
본 개시의 실시예에서, 자연 구배 알고리즘을 이용하여 상기 대체 매트릭스에 대해 구배 반복을 수행할 수 있으며, 여기서, 구배 반복 후 마다 대체 매트릭스는 수요되는 분리 매트릭스에 점점 더 가까워진다.
여기서, 반복 정지 만족 조건은, x번째 대체 매트릭스와 x-1 번째 대체 매트릭스가 수렴 조건을 만족하는 것이다. 일 실시예에서, 상기 x번째 대체 매트릭스와 x-1 번째 대체 매트릭스가 만족하는 수렴 조건은, 상기 x번째 대체 매트릭스와 x-1 번째 대체 매트릭스의 곱이 기설정된 수치 범위 내에 있는 것이다. 예를 들어, 상기 기설정된 수치 범위는 (0.9, 1.1)이다.
일 실시예에서, 상기 n번째 주파수 영역 추정 구성요소의 가중 계수, 상기 주파수 영역 추정 신호 및 x-1 번째 대체 매트릭스에 대해 구배 반복하여, x번째 대체 매트릭스를 얻는 구체적인 공식은,
Figure 112020050075519-pat00001
일 수 있고, 여기서,
Figure 112020050075519-pat00002
는 x번째 대체 매트릭스이며; 상기
Figure 112020050075519-pat00003
는 x-1 번째 대체 매트릭스이고; 상기
Figure 112020050075519-pat00004
는 업데이트 스텝 길이이며; 상기
Figure 112020050075519-pat00005
는 [0.005, 0.1] 사이의 실수이고; 상기 M은 마이크에 의해 수집된 오디오 프레임의 프레임 수이며; 상기
Figure 112020050075519-pat00006
은 n번째 주파수 영역 추정 구성요소의 가중 계수이고; 상기 k는 주파수 대역의 주파수 포인트이며, 상기
Figure 112020050075519-pat00007
는 k주파수 포인트의 주파수 영역 추정 신호에 있고; 상기
Figure 112020050075519-pat00008
은 상기
Figure 112020050075519-pat00009
의 공액 전치(conjugate transpose)이다.
일 실제 응용 상황에서, 상기 공식에서 수렴 정지 만족 조건은,
Figure 112020050075519-pat00010
일 수 있고; 여기서, 상기
Figure 112020050075519-pat00011
는 0보다 크거나 같으며, (1/105)보다 작은 수이다. 일 실시예에서, 상기
Figure 112020050075519-pat00012
는 0.0000001이다.
이와 같이, 본 개시의 실시예에서, 각각의 주파수 영역 서브 대역의 주파수 영역 추정 구성요소의 가중 계수, 및 각각의 프레임의 주파수 영역 추정 신호 등에 기반하여, 각 주파수 영역 추정 구성요소에 대응되는 주파수 포인트에 대해 끊임없이 업데이트하여, 주파수 영역 추정 구성요소 중 각 주파수 포인트의 업데이트된 분리 매트릭스가 보다 양호한 분리 성능을 구비할 수 있도록 함으로써, 분리된 오디오 신호의 정확도를 보다 더 향상시킬 수 있다.
일부 실시예에서, 상기 구배 반복을 수행할 경우, 상기 주파수 영역 추정 신호가 위치하는 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행한다.
이와 같이, 본 개시의 실시예에서, 주파수 영역 서브 대역에 대응되는 주파수에 기반하여, 상기 주파수 영역 추정 신호의 분리 매트릭스를 순차적으로 획득할 수 있고, 특정된 주파수 포인트가 누락된 대응되는 분리 매트릭스를 획득하는 경우를 크게 감소시킬 수 있으며, 각 주파수 포인트에서 각 음원의 오디오 신호의 손실을 감소시킬 수 있어, 획득한 음원의 오디오 신호의 품질을 향상시킨다.
또한, 구배 반복을 수행할 경우, 상기 주파수 포인트 데이터가 위치하는 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행하고, 산출을 보다 더 간소화할 수 있으며, 예를 들어, 제1 주파수 영역 서브 대역의 주파수는 제2 주파수 영역 서브 대역의 주파수에 비해 비교적 높고, 제1 주파수 영역 서브 대역과 제2 주파수 영역 서브 대역의 일부 주파수는 중첩되며, 제1 주파수 영역 서브 대역 중 상기 주파수 영역 추정 신호의 분리 매트릭스를 획득한 이후, 제2 주파수 영역 서브 대역 중 상기 제1 주파수 영역 서브 대역 주파수와 중첩된 부분에 대응되는 주파수 포인트의 분리 매트릭스는 산출량을 감소시키기 위해 더 산출할 필요가 없다.
이해할 수 있는 것은, 본 개시의 실시예에서, 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행하도록 고려하는 것은, 실제 산출에서 산출의 신뢰성을 간편화하기 위해서이다. 물론, 다른 실시예에서, 주파수 영역 서브 대역의 주파수의 오름차순에 따라 순차적으로 수행하는 것을 고려할 수 있으며, 여기서 한정되지 않는다.
일 실시예에서, 상기 시간 영역에서 적어도 2개의 마이크의 멀티 프레임 오리지널 노이즈 혼합 신호를 획득하는 단계는,
시간 영역에서 적어도 2개의 마이크의 각각의 프레임의 오리지널 노이즈 혼합 신호를 획득하는 단계를 포함한다.
일부 실시예에서, 상기 오리지널 노이즈 혼합 신호를 주파수 영역 추정 신호로 변환하는 단계는, 상기 시간 영역에서의 오리지널 노이즈 혼합 신호를 주파수 영역에서의 오리지널 노이즈 혼합 신호를 변환하는 단계; 상기 주파수 영역에서의 오리지널 노이즈 혼합 신호를 주파수 영역 추정 신호로 변환하는 단계를 포함한다.
여기서, 고속 푸리에 변환(Fast Fourier Transform, FFT)에 기반하여, 시간 영역 신호를 주파수 영역으로 변환시킬 수 있다. 또는, 단시간 푸리에 변환(short-time Fourier transform, STFT)에 기반하여, 시간 영역 신호를 주파수 영역으로 변환시킬 수 있다. 또는, 다른 푸리에 변환에 기반하여, 시간 영역 신호를 주파수 영역으로 변환시킬 수 있다.
예를 들어, y번째 마이크의 m 번째 프레임의 시간 영역 신호가
Figure 112021121074608-pat00013
이고, m번째 프레임의 시간 영역 신호를 주파수 영역 신호로 변환시키면, m번째 프레임의 오리지널 노이즈 혼합 신호가
Figure 112021121074608-pat00014
인 것으로 결정되고, 여기서, 상기 k는 주파수 포인트이며, 상기
Figure 112021121074608-pat00015
이고; 상기 m은 k번째 프레임의 시간 영역 신호의 이산 시점의 수이며; 상기
Figure 112021121074608-pat00016
이다. 이와 같이, 본 실시예는 상기 시간 영역으로부터 주파수 영역의 변화를 통해, 주파수 영역에서 각각의 프레임의 오리지널 노이즈 혼합 신호를 획득할 수 있다. 물론, 각각의 프레임의 오리지널 노이즈 혼합 신호는 다른 푸리에 변환 공식에 기반하여 획득할 수도 있으며, 여기서 한정되지 않는다.
일 실시예에서, 상기 주파수 영역에서의 오리지널 노이즈 혼합 신호를 주파수 영역 추정 신호로 변환하는 단계는, 알려진 단위 매트릭스에 기반하여, 상기 주파수 영역에서의 오리지널 노이즈 혼합 신호를 주파수 영역 추정 신호로 변환하는 단계를 포함한다.
다른 일 실시예에서, 상기 주파수 영역에서의 오리지널 노이즈 혼합 신호를 주파수 영역 추정 신호로 변환하는 단계는, 대체 매트릭스에 기반하여, 상기 주파수 영역에서의 오리지널 노이즈 혼합 신호를 주파수 영역 추정 신호로 변환하는 단계를 포함한다. 여기서, 상기 대체 매트릭스는 상기 실시예에서 첫 번째 대체 매트릭스 내지 x-1 번째 대체 매트릭스일 수 있다.
예를 들어, m 번째 프레임의 k 주파수 포인트를 획득하는 주파수 포인트 데이터는,
Figure 112021121074608-pat00017
이고; 여기서, 상기
Figure 112021121074608-pat00018
은 주파수 영역에서 m 번째 프레임의 오리지널 노이즈 혼합 신호이며; 상기 분리 매트릭스는
Figure 112021121074608-pat00019
이고 상기 실시예에서 첫 번째 대체 매트릭스 내지 x-1 번째 대체 매트릭스일 수 있으며; 예를 들어, 상기
Figure 112021121074608-pat00020
는 알려진 단위 매트릭스이거나 x-1 번째 반복하여 획득한 대체 매트릭스이다.
본 개시의 실시예에서, 시간 영역의 오리지널 노이즈 혼합 신호를 주파수 영역의 오리지널 노이즈 혼합 신호로 변환시킬 수 있고, 업데이트 이전의 분리 매트릭스 또는 단위 매트릭스에 기반하여, 미리 추정한 주파수 영역 추정 신호를 획득한다. 이와 같이, 후속의 상기 주파수 영역 추정 신호 및 분리 매트릭스에 기반하여 각 음원의 오디오 신호를 분리하는데 근거를 제공한다.
일부 실시예에서, 상기 오디오 신호 처리 방법은,
n번째 상기 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 획득하는 단계를 더 포함한다.
일 실시예에서, 상기 n번째 상기 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 획득하는 단계는,
상기 n번째 상기 주파수 영역 추정 구성요소에 포함되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여 제1 수치를 결정하는 단계;
상기 제1 수치의 제곱근에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 결정하는 단계를 포함한다.
일 실시예에서, 상기 제1 수치의 제곱근에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 결정하는 단계는,
상기 제1 수치의 제곱근의 역수에 기반하여, 상기 n번째 주파수 영역 추정 구성요소의 가중 계수를 결정하는 단계를 포함한다.
본 개시의 실시예에서, 각 주파수 영역 서브 대역의 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 주파수 영역 추정 신호에 기반하여, 상기 각 주파수 영역 서브 대역의 가중 계수를 결정할 수 있다. 이와 같이, 상기 가중 계수는 선행 기술에 비해, 전체 주파수 대역의 모든 주파수 포인트의 사전 확률 밀도를 고려할 필요 없이, 상기 주파수 영역 서브 대역에 대응되는 주파수 포인트의 사전 확률 밀도만 고려하면 되기에 한편으로 산출을 간소화할 수 있다. 다른 한편으로, 전체 주파수 대역 중 비교적 멀리 떨어진 주파수 포인트는 고려할 필요가 없으므로, 상기 가중 계수에 기반하여 결정된 분리 매트릭스는 상기 주파수 영역 서브 대역 내 비교적 멀리 떨어진 주파수 포인트의 사전 확률 밀도를 고려할 필요가 없으며; 다시 말해서, 주파수 대역 중 비교적 멀리 떨어진 주파수 포인트의 의존성에 대해 고려할 필요가 없기에, 결정된 분리 매트릭스의 분리 성능이 보다 양호하도록 하며; 후속의 상기 분리 매트릭스에 기반하여 보다 높은 품질의 오디오 신호를 얻는데 유리하다.
일부 실시예에서, 상기 임의의 2개의 인접한 주파수 영역 서브 대역의 일부 주파수는 주파수 영역에서 중첩된다.
예를 들어, 상기 주파수 영역 추정 신호가 총 100개이고, k1, k2, k3, ……, kl, k100의 주파수 포인트에 대응되는 주파수 포인트 데이터를 포함하면, 여기서, 상기 l은 2보다 크고 100보다 작거나 같은 양의 정수이다. 여기서, 주파수 대역을 4개의 주파수 영역 서브 대역으로 분할하고; 4개의 주파수 영역 서브 대역은 순차적으로, 첫 번째 주파수 영역 서브 대역, 두 번째 주파수 영역 서브 대역, 세 번째 주파수 영역 서브 대역, 및 네 번째 주파수 영역 서브 대역의 주파수 영역 추정 구성요소가 각각 제k1 내지 제k30에 대응되는 주파수 포인트 데이터, 제k25 내지 제k55에 대응되는 주파수 포인트 데이터, 제k50 내지 제k80에 대응되는 주파수 포인트 데이터, 및 제k75 내지 제k100에 대응되는 주파수 포인트 데이터를 포함한다.
이와 같이, 첫 번째 주파수 영역 서브 대역 및 두 번째 주파수 영역 서브 대역은 주파수 영역에서 제k25 내지 제k30의 6개의 중첩된 주파수 포인트를 구비하므로, 첫 번째 주파수 영역 서브 대역 및 두 번째 주파수 영역 서브 대역은 동일한 제k25 내지 제k30에 대응되는 주파수 포인트 데이터를 구비하며; 두 번째 주파수 영역 서브 대역 및 세 번째 주파수 영역 서브 대역은 주파수 영역에서 제k50 내지 제k55의 6개의 중첩된 주파수 포인트를 구비하므로, 두 번째 주파수 영역 서브 대역 및 세 번째 주파수 영역 서브 대역은 동일한 제k50 내지 제k55에 대응되는 주파수 포인트 데이터를 구비하고; 세 번째 주파수 영역 서브 대역 및 네 번째 주파수 영역 서브 대역은 주파수 영역에서 제k75 내지 제k80의 6개의 중첩된 주파수 포인트를 구비하므로, 세 번째 주파수 영역 서브 대역 및 네 번째 주파수 영역 서브 대역은 동일한 제k75 내지 제k80에 대응되는 주파수 포인트 데이터를 구비한다.
본 개시의 실시예에서, 주파수 영역에서 상기 임의의 2개의 인접한 주파수 영역 서브 대역이 부분적으로 중첩되기에, 주파수 대역에서 비교적 가까운 주파수 포인트가 서로 의존성이 더 강하다는 원리에 기반하여, 인접한 주파수 영역 서브 대역 중 각 주파수 포인트 데이터의 의존성을 강화시킬 수 있고; 또한, 각 주파수 영역 서브 대역의 주파수 영역 추정 구성요소의 가중 계수의 산출에 참여하는 특정된 주파수 포인트의 누락으로 인해 초래된 산출이 부정확해지는 경우를 크게 감소시킬 수 있어, 가중 계수의 정밀도를 보다 더 향상시킨다.
또한, 본 개시의 실시예에서, 하나의 주파수 영역 서브 대역의 각 주파수 포인트 데이터의 분리 매트릭스를 획득해야 하고, 상기 주파수 영역 서브 대역의 주파수 포인트와 상기 주파수 영역 서브 대역의 인접한 주파수 영역 서브 대역의 주파수 포인트가 중첩되는 경우가 존재할 경우, 상기 중첩된 주파수 포인트에 대응되는 주파수 포인트 데이터의 분리 매트릭스는, 상기 주파수 영역 서브 대역의 인접한 주파수 영역 서브 대역에 직접 기반하여 획득할 수 있으며, 다시 획득할 필요가 없다.
다른 일부 실시예에서, 상기 임의의 2개의 인접한 주파수 영역 서브 대역은 주파수 영역에서 중첩되는 주파수가 존재하지 않는다. 이와 같이, 본 개시의 실시예에서, 각 주파수 영역 서브 대역의 상기 주파수 포인트 데이터의 수의 합은 전체 주파수 대역의 주파수 포인트에 대응되는 주파수 포인트 데이터의 수의 합이며; 이와 같이, 각 주파수 영역 서브 대역의 주파수 포인트 데이터의 가중 계수의 산출에 참여하는 특정된 주파수 포인트의 누락으로 인해 초래된 산출이 부정확해지는 경우를 크게 감소시킬 수 있어, 가중 계수의 정밀도를 향상시킨다. 또한, 인접한 주파수 영역 서브 대역의 가중 계수 산출 과정에 참여하는 중첩되는 주파수 포인트 데이터가 존재하지 않기 때문에, 상기 가중 계수의 산출 과정을 보다 더 간소화할 수 있다.
일부 실시예에서, 상기 분리 매트릭스 및 상기 오리지널 노이즈 신호에 기반하여, 적어도 2개의 음원의 오디오 신호를 획득하는 단계는,
첫 번째 상기 분리 매트릭스 내지 n번째 상기 분리 매트릭스에 기반하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호를 분리하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 상이한 상기 음원의 오디오 신호를 획득하는 단계 - 상기 m은 M보다 작은 양의 정수이고, 상기 M은 상기 오리지널 노이즈 혼합 신호의 프레임 수임 - ; 및
각 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 y번째 상기 음원의 오디오 신호를 조합하여, y번째 상기 음원의 상기 m 번째 프레임의 오디오 신호를 얻는 단계 - 상기 y는 Y보다 작거나 같은 양의 정수이고, 상기 Y는 음원의 개수임 - 를 포함한다.
예를 들어, 상기 마이크가 2개이고, 각각 마이크1 및 마이크2이며; 상기 음원이 2개이고, 각각 음원1 및 음원2이면; 상기 마이크1 및 마이크2는 3프레임의 오리지널 노이즈 혼합 신호를 수집하며; 1번째 프레임에서, 첫 번째 주파수 포인트 데이터 내지 n번째 주파수 포인트 데이터는 각각 이에 대응되는 분리 매트릭스를 산출해내고; 예를 들어, 첫 번째 주파수 포인트 데이터의 분리 매트릭스가 첫 번째 분리 매트릭스이고, 두 번째 주파수 포인트 데이터의 분리 매트릭스가 두 번째 분리 매트릭스이며; 이와 같이 유추해보면, n번째 주파수 포인트 데이터의 분리 매트릭스는 n번째 분리 매트릭스이다. 다시 첫 번째 주파수 포인트 데이터에 대응되는 노이즈 신호와 첫 번째 분리 매트릭스에 기반하여, 첫 번째 주파수 포인트 데이터에 대응되는 오디오 신호를 획득하고; 두 번째 주파수 포인트 데이터에 대응되는 노이즈 신호와 두 번째 분리 매트릭스에 기반하여, 두 번째 주파수 포인트 데이터의 오디오 신호를 획득하며; 이와 같이 유추해보면, n번째 주파수 포인트 데이터에 대응되는 노이즈 신호와 n번째 분리 매트릭스에 기반하여, n번째 주파수 포인트 데이터의 오디오 신호를 획득한다. 다시 상기 첫 번째 주파수 포인트 데이터의 오디오 신호, 두 번째 주파수 포인트 데이터의 오디오 신호 및 세 번째 주파수 포인트 데이터의 오디오 신호를 조합하여, 1번째 프레임에서 마이크1 및 마이크2의 오디오 신호를 획득한다.
이해할 수 있는 것은, 다른 프레임의 오디오 신호의 획득에 대해, 상기 예시 중 유사한 방법에 기반할 수 있으며, 여기서 더이상 설명하지 않는다.
본 개시의 실시예에서, 각각의 프레임의 각 주파수 포인트 데이터에 대응되는 노이즈 신호 및 분리 매트릭스에 대해, 상기 프레임 중 각 상기 주파수 포인트 데이터의 오디오 신호를 획득하고, 다시 상기 프레임 중 각 상기 주파수 포인트 데이터의 오디오 신호를 조합하여, 상기 프레임의 오디오 신호를 획득할 수 있다. 이와 같이, 본 개시의 실시예에서, 상기 주파수 포인트 데이터의 오디오 신호를 획득한 이후, 상기 오디오 신호에 대해 시간 영역 변환을 수행하여, 시간 영역에서의 각 음원의 오디오 신호를 획득할 수도 있다.
예를 들어, 고속 푸리에 역변환(Inverse Fast Fourier Transform, IFFT)에 기반하여, 주파수 영역 신호를 시간 영역으로 변환시킬 수 있다. 또는, 단시간 푸리에 역변환(Inverse short-time Fourier transform, ISTFT)에 기반하여, 주파수 영역 신호를 시간 영역 신호로 변환시킬 수 있다. 또는, 다른 푸리에 역변환에 기반하여, 주파수 영역 신호를 시간 영역으로 변환시킬 수 있다.
일부 실시예에서, 상기 오디오 신호 처리 방법은, 시간 선후 순서에 따라, y번째 상기 음원의 1번째 프레임의 오디오 신호 내지 m 번째 프레임의 오디오 신호를 조합하여, M 프레임의 상기 오리지널 노이즈 혼합 신호에 포함되는 y번째 상기 음원의 오디오 신호를 얻는 단계를 더 포함한다.
예를 들어, 상기 마이크가 2개이고, 각각 마이크1 및 마이크2이며; 상기 음원이 2개이고, 각각 음원1 및 음원2이면; 상기 마이크1 및 마이크2는 3프레임의 오리지널 노이즈 혼합 신호를 수집하며; 여기서, 3프레임은 시간의 선후 순서에 따라 각각, 1번째 프레임, 제2 프레임 및 제3 프레임이다. 산출을 통해, 각각 음원1의 1번째 프레임, 제2 프레임 및 제3 프레임의 오디오 신호를 획득하였으며, 따라서, 상기 음원1의 오디오 신호는, 시간의 선후 순서에 따라 음원1의 1번째 프레임, 제2 프레임 및 제3 프레임의 음원 신호를 조합한다. 음원2의 1번째 프레임, 제2 프레임 및 제3 프레임의 오디오 신호를 획득하였으며, 따라서, 상기 음원2의 오디오 신호는, 시간의 선후 순서에 따라 음원1의 1번째 프레임, 제2 프레임 및 제3 프레임의 음원 신호를 조합한다.
본 개시의 실시예에서, 각 음원의 각 오디오 프레임의 오디오 신호를 조합함으로써 완전한 각 음원의 오디오 신호를 획득할 수 있다.
본 개시의 상기 실시예를 이해하는데 도움을 주기 위해, 아래 예시를 예로 설명한다. 도 2에 도시된 바와 같이, 오디오 신호 처리 방법의 응용 상황을 개시하며; 여기서, 상기 단말기는 사운드 박스A를 포함하고, 상기 사운드 박스A는 2개의 마이크를 포함하며, 각각 마이크1 및 마이크2이고; 상기 음원은 2개이며, 각각 음원1 및 음원2이다. 상기 음원1 및 상기 음원2에서 방출된 신호는 모두 마이크1 및 마이크2에 의해 수집된다. 각각의 마이크에서 2개의 음원 신호는 모두 혼합되어 있다.
도 3은 일 예시적 실시예에 따라 도시된 오디오 신호 처리 방법의 흐름도이며; 여기서, 상기 오디오 신호 처리 방법에서, 도 2에 도시된 바와 같이, 음원은 음원1 및 음원2를 포함하고, 마이크는 마이크1 및 마이크2를 포함하며; 상기 오디오 신호 처리 방법에 기반하여, 마이크1 및 마이크2의 신호로부터 음원1 및 음원2를 복원시킨다. 도 3에 도시된 바와 같이, 상기 오디오 신호 처리 방법은 하기와 같은 단계를 포함한다.
시스템 프레임 길이가 Nfft이면, 주파수 포인트 K=Nfft/2+1이다.
단계 S301로서,
Figure 112020050075519-pat00021
를 초기화한다.
구체적으로, 각각의 주파수 영역 추정 신호의 분리 매트릭스를 초기화하며;
Figure 112020050075519-pat00022
이고; 여기서, 상기
Figure 112020050075519-pat00023
은 단위 매트릭스이며; 상기 k는 주파수 영역 추정 신호이고; 상기
Figure 112020050075519-pat00024
이다.
단계 S302로서, y번째 마이크의 m번째 프레임의 오리지널 노이즈 신호를 획득한다.
구체적으로,
Figure 112021121074608-pat00025
에 대해 윈도윙(windowing)하고 Nfft 포인트를 수행하여 대응되는 주파수 영역 신호
Figure 112021121074608-pat00026
를 얻으며; 여기서, 상기 m'은 푸리에 변환에 의해 선택된 포인트 수이고; 여기서, 상기 STFT는 단시간 푸리에 변환이며; 상기
Figure 112021121074608-pat00027
은 y번째 마이크의 m번째 프레임의 시간 영역 신호이고; 상기 시간 영역 신호는 오리지널 노이즈 혼합 신호이다.
여기서, 상기y=1일 경우, 마이크1을 나타내고; 상기y=2일 경우, 마이크2를 나타낸다.
상기
Figure 112021121074608-pat00028
의 관측 신호는
Figure 112021121074608-pat00029
이고; 여기서, 상기
Figure 112021121074608-pat00030
Figure 112021121074608-pat00031
은 각각 주파수 영역에서 음원1 및 음원2의 오리지널 노이즈 혼합 신호이며; 여기서
Figure 112021121074608-pat00032
은 전치 매트릭스이다.
단계 S303로서, 주파수 영역 서브 대역을 분할하여 2개의 음원의 사전에 검증된 주파수 영역 추정값을 획득한다.
구체적으로, 2개의 음원 신호의 사전에 검증된 주파수 영역 추정값
Figure 112020050075519-pat00033
이 되도록 하고, 여기서,
Figure 112020050075519-pat00034
은 각각 주파수 영역 추정 신호
Figure 112020050075519-pat00035
에서 음원1 및 음원2의 추정값이다.
분리 매트릭스
Figure 112020050075519-pat00036
를 통해, 관측 매트릭스
Figure 112020050075519-pat00037
를 분리하여,
Figure 112020050075519-pat00038
을 얻으며; 여기서,
Figure 112020050075519-pat00039
는 그 전의 반복에서 획득한 분리 매트릭스(즉 대체 매트릭스)이다.
y번째 음원의 m번째 프레임에서의 사전 검증된 주파수 영역 추정값은
Figure 112020050075519-pat00040
이다.
구체적으로, 전체 주파수 대역을 N개의 주파수 영역 서브 대역으로 분할한다.
n번째 주파수 영역 서브 대역의 주파수 영역 추정 신호
Figure 112020050075519-pat00041
을 획득하고; 여기서, 상기
Figure 112020050075519-pat00042
이며; 상기
Figure 112020050075519-pat00043
,
Figure 112020050075519-pat00044
은 각각 n번째 주파수 영역 서브 대역의 첫 번째 주파수 포인트 및 마지막 하나의 주파수 포인트를 나타내고; 여기서,
Figure 112020050075519-pat00045
이며, 상기
Figure 112020050075519-pat00046
이다. 이렇게 인접한 주파수 영역 서브 대역의 일부 주파수가 중첩되는 것을 보장하며; 상기
Figure 112020050075519-pat00047
은 n번째 주파수 영역 서브 대역의 주파수 포인트 개수를 대표한다.
단계 S304로서, 각 주파수 영역 서브 대역의 가중 계수를 획득한다.
구체적으로, 상기 n번째 주파수 영역 서브 대역의 가중 계수
Figure 112020050075519-pat00048
를 산출하며, 여기서,
Figure 112020050075519-pat00049
이다.
마이크1 및 마이크2의 n번째 주파수 영역 서브 대역의 가중 계수
Figure 112020050075519-pat00050
를 획득한다.
단계 S305로서,
Figure 112020050075519-pat00051
를 업데이트한다.
각 주파수 영역 서브 대역의 가중 계수, 1번째 프레임 내지 m 번째 프레임의 k 포인트의 주파수 영역 추정 신호에 기반하여, k 포인트의 분리 매트릭스를 획득하고;
Figure 112020050075519-pat00052
이며; 여기서, 상기
Figure 112020050075519-pat00053
는 그 전에 반복할 때의 대체 매트릭스이고, 상기
Figure 112020050075519-pat00054
는 현재 반복하여 획득한 대체 매트릭스이며; 여기서, 상기
Figure 112020050075519-pat00055
는 업데이트 스텝 길이이다.
일 실시예에서, 상기
Figure 112020050075519-pat00056
는 [0.005,0.1]이다.
여기서,
Figure 112020050075519-pat00057
이면, 상기
Figure 112020050075519-pat00058
가 수렴 조건에 이미 만족하였음을 나타낸다. 상기
Figure 112020050075519-pat00059
가 수렴 조건을 만족하였다고 결정되면,
Figure 112020050075519-pat00060
를 업데이트하여, k 포인트의 분리 매트릭스가
Figure 112020050075519-pat00061
되도록 한다.
일 실시예에서, 상기
Figure 112020050075519-pat00062
는 (1/106)보다 작거나 같은 값이다.
여기서, 상기 주파수 영역 서브 대역의 가중 계수가 n 주파수 영역 서브 대역의 가중 계수이면, 상기 k는 상기 n 주파수 영역 서브 대역에 있다.
일 실시예에서, 상기 구배 반복을 수행할 경우, 주파수의 내림차순으로 순차적으로 수행한다. 이와 같이, 각각의 주파수 영역 서브 대역의 각 주파수의 분리 매트릭스에 대해 업데이트할 수 있도록 확보할 수 있다.
예시적으로, 아래에 각 주파수 영역 추정 신호분리 매트릭스를 순차적으로 획득한 의사 코드를 제공하며,
converged[m][k]가 n번째 주파수 영역 서브 대역의 k번째 주파수 포인트의 수렴 상태를 대표하도록 한다.
Figure 112020050075519-pat00063
이고,
Figure 112020050075519-pat00064
이다. converged[m][k]=1은 현재 주파수 포인트가 이미 수렴되었다는 것을 나타내고, 그렇지 않으면 수렴되지 않았다는 것을 나타낸다.
Figure 112020050075519-pat00065
상기 예시에서, 상기
Figure 112020050075519-pat00066
Figure 112020050075519-pat00067
수렴을 판단하는 하나의 임계값이고, 상기
Figure 112020050075519-pat00068
는 (1/106)이다.
단계 S306로서, 각 마이크에서 각 음원의 오디오 신호를 획득한다.
구체적으로, 업데이트된 분리 매트릭스
Figure 112020050075519-pat00069
에 기반하여,
Figure 112020050075519-pat00070
을 획득하며; 여기서, 상기
Figure 112020050075519-pat00071
이고; 상기
Figure 112020050075519-pat00072
이며; 상기
Figure 112020050075519-pat00073
이고; 상기
Figure 112020050075519-pat00074
이다.
단계 S307로서, 주파수 영역에서의 오디오 신호에 대해 시간 영역 변환을 수행한다.
주파수 영역에서의 오디오 신호에 대해 시간 영역 변환을 수행하여, 시간 영역에서의 오디오 신호를 획득한다.
각각
Figure 112020050075519-pat00075
에 대해 ISTFT 및 중첩 가산을 수행하여 추정된 시간 영역의 제3 오디오 신호
Figure 112020050075519-pat00076
을 얻는다.
본 개시의 실시예에서 획득한 분리 매트릭스는, 상이한 주파수 영역 서브 대역의 주파수 포인트에 대응되는 주파수 영역 추정 구성요소의 가중 계수에 기반하여 결정된 것이고, 선행 기술에서, 전체 주파수 대역의 모든 주파수 영역 추정 신호에 동일한 의존성이 존재하는 것에 기반하여 분리 매트릭스를 획득하는 경우에 비해, 보다 높은 분리 성능을 구비하며; 이로써 본 개시의 실시예에서 획득한 분리 매트릭스 및 오리지널 노이즈 혼합 신호에 기반하여, 음원에서 방출되는 오디오 신호를 획득함으로써, 분리 성능을 향상시킬 수 있고, 일부 쉽게 손상되는 상기 주파수 영역 추정 신호의 오디오 신호를 복원시킬 수 있어, 음성 분리 품질을 향상시킨다.
또한, 주파수 영역 서브 대역에 대응되는 주파수에 기반하여, 상기 주파수 영역 추정 신호의 분리 매트릭스를 순차적으로 획득할 수 있고, 특정된 주파수 포인트가 누락된 대응되는 주파수 영역 추정 신호의 분리 매트릭스를 획득하는 경우를 크게 감소시킬 수 있으며, 각 주파수 포인트에서 각 음원의 오디오 신호의 손실을 감소시킬 수 있어, 획득한 음원의 오디오 신호의 품질을 향상시킨다. 또한, 주파수 영역에서 2개의 인접한 주파수 영역 서브 대역이 부분적으로 중첩되기에, 주파수 대역에서 비교적 가까운 주파수 포인트가 서로 의존성이 더 강하다는 원리에 기반하여, 인접한 주파수 영역 서브 대역 중 각 주파수 포인트 데이터의 의존성을 강화시킬 수 있음으로써, 보다 정밀한 가중 계수를 획득한다.
본 개시의 실시예에서 제공된 오디오 신호 처리 방법은, 선행 기술에서 복수의 마이크 빔 형성 기술로 음원 신호에 대한 분리를 구현하는 것에 비해, 상기 복수의 마이크의 위치를 고려할 필요가 없으므로, 보다 높은 정밀도의 음원에서 방출되는 사운드의 오디오 신호의 분리를 구현할 수 있다. 상기 오디오 신호 처리 방법이 2개의 마이크의 단말기기에 적용되면, 선행 기술에서 적어도 3개 이상의 복수의 마이크 빔 형성 기술로 음성 품질을 향상시키는데 비해, 마이크의 개수를 크게 감소시키고, 단말기의 하드웨어 원가를 감소시킨다.
도 4는 일 예시적 실시예에 따라 도시된 오디오 신호 처리 장치의 블록도이다. 도 4를 참조하면, 상기 장치는 획득 모듈(41), 변환 모듈(42), 분할 모듈(43), 제1 프로세싱 모듈(44) 및 제2 프로세싱 모듈(45)을 포함하되, 여기서,
상기 획득 모듈(41)은, 적어도 2개의 마이크가 시간 영역에서 상기 적어도 2개의 마이크 각각의 멀티 프레임 오리지널 노이즈 혼합 신호를 얻기 위해, 적어도 2개의 음원 각각에서 방출되는 오디오 신호를 획득하고;
상기 변환 모듈(42)은, 시간 영역에서의 각각의 프레임에 대해, 상기 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호에 따라, 상기 적어도 2개의 음원 각각의 주파수 영역 추정 신호를 획득하며;
상기 분할 모듈(43)은, 상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 주파수 영역에서 복수의 주파수 영역 추정 구성요소로 분할하되, 각각의 주파수 영역 추정 구성요소는 하나의 주파수 영역 서브 대역에 대응되고 복수의 주파수 포인트 데이터를 포함하고;
상기 제1 프로세싱 모듈(44)은, 각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하며;
상기 제2 프로세싱 모듈(45)은, 업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득한다.
일부 실시예에서, 상기 제1 프로세싱 모듈(44)은 각각의 음원에 대해, n번째 상기 주파수 영역 추정 구성요소의 상기 가중 계수, 상기 주파수 영역 추정 신호 및 x-1 번째 대체 매트릭스를 구배 반복하여, x번째 대체 매트릭스를 얻되, 여기서, 첫 번째 대체 매트릭스는 알려진 단위 매트릭스이고, 상기 x는 2보다 크거나 같은 양의 정수이며, 상기 n은 N보다 작은 양의 정수이고, 상기 N은 상기 주파수 영역 서브 대역의 개수이며;
상기 x번째 대체 매트릭스가 반복 정지 조건을 만족할 경우, 상기 x번째 대체 매트릭스에 기반하여, n번째 상기 주파수 영역 추정 구성요소 중 각각의 주파수 포인트가 업데이트된 분리 매트릭스를 획득한다.
일부 실시예에서, 상기 제1 프로세싱 모듈(44)은 또한, n번째 상기 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 획득한다.
일부 실시예에서, 상기 제2 프로세싱 모듈(45)은, 상기 업데이트된 첫 번째 분리 매트릭스 내지 상기 업데이트된 n번째 분리 매트릭스에 기반하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호를 분리하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 상이한 상기 음원의 오디오 신호를 획득하되, 여기서, 상기 m은 M보다 작은 양의 정수이고, 상기 M은 상기 오리지널 노이즈 혼합 신호의 프레임 수이며;
각 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 신호 중 y번째 상기 음원의 오디오 신호를 조합하여, y번째 상기 음원의 상기 m 번째 프레임의 오디오 신호를 얻되, 여기서, 상기 y는 Y보다 작거나 같은 양의 정수이고, 상기 Y는 음원의 개수이다.
일부 실시예에서, 상기 제2 프로세싱 모듈(45)은 또한, 시간 선후 순서에 따라, y번째 상기 음원의 1번째 프레임의 오디오 신호 내지 m 번째 프레임의 오디오 신호를 조합하여, M 프레임의 상기 오리지널 노이즈 혼합 신호에 포함되는 y번째 상기 음원의 오디오 신호를 얻는다.
일부 실시예에서, 상기 제1 프로세싱 모듈(44)은 상기 구배 반복을 수행할 경우, 상기 주파수 영역 추정 신호가 위치하는 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행한다.
일부 실시예에서, 임의의 2개의 인접한 주파수 영역 서브 대역의 일부 주파수는 주파수 영역에서 중첩된다.
상기 실시예에서의 장치와 관련하여, 여기서 각각의 모듈이 동작을 수행하는 구체적인 방식은 상기 방법과 관련된 실시예에서 이미 상세하게 설명되었으며, 여기서 더이상 상세하게 설명하지 않는다.
본 개시의 실시예는,
프로세서;
프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하되,
여기서, 상기 프로세서는 상기 실행 가능한 명령을 실행할 경우, 본 개시의 임의의 실시예에 따른 오디오 신호 처리 방법을 구현하도록 구성되는 단말기를 제공한다.
상기 메모리는 다양한 유형의 저장 매체를 포함할 수 있으며, 상기 저장 매체는 비 일시적 컴퓨터 저장 매체이고, 통신 기기의 전원을 끈 후에도 저장된 정보를 계속하여 저장할 수 있다.
상기 프로세서는 버스를 통해 메모리와 연결될 수 있고, 메모리에 저장된 실행 가능한 프로그램을 판독하기 위한 것이며, 예를 들어, 도 1 또는 도 3에 도시된 방법 중 적어도 하나를 구현한다.
본 개시의 실시예는 실행 가능한 프로그램이 저장되며, 여기서 상기 실행 가능한 프로그램은 프로세서에 의해 실행될 경우 본 개시의 임의의 실시예에 따른 오디오 신호 처리 방법을 구현하는 컴퓨터 판독 가능한 저장 매체를 제공한다. 예를 들어, 도 1 또는 도 3에 도시된 방법 중 적어도 하나를 구현한다.
상기 실시예에서의 장치와 관련하여, 여기서 각각의 모듈이 동작을 수행하는 구체적인 방식은 상기 방법과 관련된 실시예에서 이미 상세하게 설명되었으며, 여기서 더이상 상세하게 설명하지 않는다.
도 5는 일 예시적 실시예에 따라 도시된 단말기(800)에 적용되는 블록도이다. 예를 들어, 단말기(800)는 휴대폰, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대 정보 단말기 등일 수 있다.
도 5를 참조하면, 단말기(800)는 프로세싱 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 또는 복수의 컴포넌트를 포함할 수 있다.
프로세싱 컴포넌트(802)는 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 단말기(800)의 전체 동작을 제어한다. 프로세싱 컴포넌트(802)는, 상기 방법의 전부 또는 일부 단계를 완료하도록 하나 또는 복수의 프로세서(820)를 포함하여 명령을 실행한다. 이외에, 프로세싱 컴포넌트(802)는, 프로세싱 컴포넌트(802)와 다른 컴포넌트 사이의 인터랙션을 수행하도록 하나 또는 복수의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 컴포넌트(802)는, 멀티미디어 모듈(808)과 프로세싱 컴포넌트(802) 사이의 인터랙션을 편리하게 수행하도록 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 다양한 유형의 데이터를 저장하여 단말기(800)에서의 동작을 지원한다. 이러한 데이터의 예시는 단말기(800)에서 동작하는 임의의 응용 프로그램 또는 방법의 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 이미지, 영상 등을 포함한다. 메모리(804)는, 정적 랜덤 액세스 메모리(SRAM), 전기적으로 소거 가능한 프로그램 가능 판독 전용 메모리(EEPROM), 소거 가능한 프로그램 가능 판독 전용 메모리(EPROM), 프로그램 가능 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 디스크 또는 광 디스크와 같은 임의의 유형의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(806)는 단말기(800)의 다양한 컴포넌트에 전력을 제공한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 또는 복수의 전원, 및 단말기(800)의 생성, 관리, 및 전원 할당과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(808)는 상기 단말기(800)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서, 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함할 수 있다. 만약, 스크린이 터치 패널을 포함하면, 사용자로부터 입력 신호를 수신하도록 스크린은 터치 스크린으로 구현될 수 있다. 터치 패널은, 패널에서의 터치, 슬라이드, 터치 패널의 제스처를 감지하기 위한 하나 또는 복수의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 슬라이드에 관련된 지속 시간 및 압력을 감지할 수 있다. 일부 실시예에서, 멀티미디어 컴포넌트(808)는 하나의 전방 카메라 및/또는 후방 카메라를 포함한다. 단말기(800)가 촬영 모드 또는 영상 모드와 같은 작동 모드일 경우, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각각의 전방 카메라와 후방 카메라는 하나의 고정된 광학 렌즈 시스템 또는 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력한다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크(MIC)를 포함하고 단말기(800)가 통화 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드일 경우, 마이크는 외부 오디오 신호를 수신한다. 수신된 오디오 신호는 메모리(804)에 저장되거나 통신 컴포넌트(816)를 통해 발송될 수 있다. 일부 실시예에서, 오디오 컴포넌트(810)는 오디오 신호를 출력하기 위한 스피커를 더 포함한다.
I/O 인터페이스(812)는 프로세싱 컴포넌트(802)와 주변 장치 인터페이스 모듈 사이의 인터페이스를 제공하며, 상기 주변 장치 인터페이스 모듈은 키보드, 클릭 휠(Click Wheel), 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지는 않는다.
센서 컴포넌트(814)는 다양한 양태의 상태 평가를 단말기(800)에 제공하기 위한 하나 또는 복수의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 단말기(800)의 온/오프 상태, 컴포넌트의 상대적 위치를 감지할 수 있고, 예를 들어, 상기 컴포넌트는 단말기(800)의 디스플레이 및 키패드이고, 센서 컴포넌트(814)는 단말기(800) 또는 단말기(800)의 하나의 컴포넌트의 위치 변화, 사용자와 단말기(800) 사이의 접촉 여부, 단말기(800) 방위 또는 가속/감속 및 단말기(800)의 온도 변화를 감지할 수 있다. 센서 컴포넌트(814)는 물리적 접촉없이 주변 물체의 존재를 감지하는 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 이미징 애플리케이션에 사용하기 위한 CMOS 또는 CCD 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(816)는 단말기(800)와 다른 기기 사이의 유선 또는 무선 방식의 통신이 용이하도록 구성된다. 단말기(800)는 WiFi, 2G 또는 3G, 또는 이들의 조합과 같은 통신 표준에 기반한 무선 네트워크에 액세스할 수 있다. 일 예시적인 실시예에서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적인 실시예에서, 상기 통신 컴포넌트(816)는 근거리 통신을 촉진하는 근거리 통신(NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별(RFID) 기술, 적외선 통신 규격(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술 기반으로 구현될 수 있다.
예시적인 실시예에서, 단말기(800)는 하나 또는 복수의 주문형 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 프로세서 기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 구현되어, 상기 방법을 수행할 수 있다.
예시적인 실시예에서, 상기 방법을 수행하기 위해 단말기(800)의 프로세서(820)에 의해 실행 가능한 명령을 포함하는 메모리(804)와 같은 명령을 포함하는 비 일시적 컴퓨터 판독 가능한 저장 매체를 더 제공한다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능한 저장 매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크 및 광 데이터 저장 기기 등일 수 있다.
본 기술분야의 통상의 기술자는 명세서 및 이에 개시된 발명을 고려한 후, 본 개시의 다른 실시 방안을 용이하게 생각할 수 있을 것이다. 본 개시는 본 개시의 임의의 변형, 용도 또는 적응성 변화를 포함하는 바, 이러한 변형, 용도 또는 적응성 변화는 모두 본 개시의 일반적인 원리를 따르며 본 개시에 개시되지 않은 본 기술분야의 주지된 상식 또는 통상적인 기술 수단을 포함한다. 명세서 및 실시예는 단지 예시적인 것으로서, 본 개시의 진정한 범위 및 정신은 청구범위에서 지적한 바와 같다.
이해해야 할 것은, 본 개시는 상기와 같이 설명되고 또한 도면에 도시된 정확한 구조에 한정되지 않으며, 본 개시의 범주를 벗어나지 않는 전제 하에서 여러가지 수정 및 변경을 수행할 수 있다. 본 개시의 범위는 단지 첨부된 청구 범위에 의해서만 한정된다.

Claims (16)

  1. 오디오 신호 처리 방법으로서,
    적어도 2개의 마이크가 시간 영역에서 상기 적어도 2개의 마이크 각각의 멀티 프레임 오리지널 노이즈 혼합 신호를 얻기 위해, 적어도 2개의 음원 각각에서 방출되는 오디오 신호를 획득하는 단계;
    시간 영역에서의 각각의 프레임에 대해, 상기 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호에 따라, 상기 적어도 2개의 음원 각각의 주파수 영역 추정 신호를 획득하는 단계 - 상기 시간 영역에서의 상기 오리지널 노이즈 혼합 신호를 주파수 영역에서의 오리지널 노이즈 혼합 신호로 변환하고, 알려진 단위 매트릭스에 기반하여 상기 주파수 영역에서의 상기 오리지널 노이즈 혼합 신호를 상기 주파수 영역 추정 신호로 변환하는 것을 포함함 - ;
    상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 주파수 영역에서 복수의 주파수 영역 추정 구성요소로 분할하는 단계 - 각각의 주파수 영역 추정 구성요소는 하나의 주파수 영역 서브 대역에 대응되고 복수의 주파수 포인트 데이터를 포함함 - ;
    각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하는 단계; 및
    업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득하는 단계를 포함하며,
    임의의 2개의 인접한 주파수 영역 서브 대역의 일부 주파수는 주파수 영역에서 중첩되는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제1항에 있어서,
    상기 각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하는 단계는,
    각각의 음원에 대해, n번째 상기 주파수 영역 추정 구성요소의 상기 가중 계수, 상기 주파수 영역 추정 신호 및 x-1 번째 대체 매트릭스를 구배 반복하여, x번째 대체 매트릭스를 얻는 단계 - 첫 번째 대체 매트릭스는 알려진 단위 매트릭스이고, 상기 x는 2보다 크거나 같은 양의 정수이며, 상기 n은 N보다 작은 양의 정수이고, 상기 N은 상기 주파수 영역 서브 대역의 개수임 - ; 및
    상기 x번째 대체 매트릭스가 반복 정지 조건을 만족할 경우, 상기 x번째 대체 매트릭스에 기반하여, n번째 상기 주파수 영역 추정 구성요소 중 각각의 주파수 포인트가 업데이트된 분리 매트릭스를 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제2항에 있어서,
    상기 오디오 신호 처리 방법은,
    n번째 상기 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 획득하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제2항에 있어서,
    상기 업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득하는 단계는,
    상기 업데이트된 첫 번째 분리 매트릭스 내지 상기 업데이트된 n번째 분리 매트릭스에 기반하여, 하나의 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호를 분리하여, 하나의 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 상이한 상기 음원의 오디오 신호를 획득하는 단계 - 상기 m은 M보다 작은 양의 정수이고, 상기 M은 상기 오리지널 노이즈 혼합 신호의 프레임 수임 - ; 및
    각 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 y번째 상기 음원의 오디오 신호를 조합하여, y번째 상기 음원의 상기 m 번째 프레임의 오디오 신호를 얻는 단계 - 상기 y는 Y보다 작거나 같은 양의 정수이고, 상기 Y는 음원의 개수임 - 를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 제4항에 있어서,
    상기 오디오 신호 처리 방법은,
    시간 선후 순서에 따라, y번째 상기 음원의 1번째 프레임의 오디오 신호 내지 m 번째 프레임의 오디오 신호를 조합하여, M 프레임의 상기 오리지널 노이즈 혼합 신호에 포함되는 y번째 상기 음원의 오디오 신호를 얻는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 제2항에 있어서,
    상기 구배 반복을 수행할 경우, 상기 주파수 영역 추정 신호가 위치하는 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행하는 것을 특징으로 하는 오디오 신호 처리 방법.
  7. 삭제
  8. 오디오 신호 처리 장치로서,
    적어도 2개의 마이크가 시간 영역에서 상기 적어도 2개의 마이크 각각의 멀티 프레임 오리지널 노이즈 혼합 신호를 얻기 위해, 적어도 2개의 음원 각각에서 방출되는 오디오 신호를 획득하기 위한 획득 모듈;
    시간 영역에서의 각각의 프레임에 대해, 상기 적어도 2개의 마이크 각각의 상기 오리지널 노이즈 혼합 신호에 따라, 상기 적어도 2개의 음원 각각의 주파수 영역 추정 신호를 획득하기 위한 변환 모듈 - 상기 시간 영역에서의 상기 오리지널 노이즈 혼합 신호를 주파수 영역에서의 오리지널 노이즈 혼합 신호로 변환하고, 알려진 단위 매트릭스에 기반하여 상기 주파수 영역에서의 상기 오리지널 노이즈 혼합 신호를 상기 주파수 영역 추정 신호로 변환하는 것을 포함함 - ;
    상기 적어도 2개의 음원 중 각각의 음원에 대해, 상기 주파수 영역 추정 신호를 주파수 영역에서 복수의 주파수 영역 추정 구성요소로 분할하기 위한 분할 모듈 - 각각의 주파수 영역 추정 구성요소는 하나의 주파수 영역 서브 대역에 대응되고 복수의 주파수 포인트 데이터를 포함함 - ;
    각각의 주파수 영역 서브 대역 내에서, 상기 주파수 영역 서브 대역에 포함되는 각각의 주파수 포인트의 가중 계수를 결정하고, 상기 가중 계수에 따라 각각의 주파수 포인트의 분리 매트릭스를 업데이트하기 위한 제1 프로세싱 모듈; 및
    업데이트된 상기 분리 매트릭스 및 상기 오리지널 노이즈 혼합 신호에 기반하여, 적어도 2개의 음원에서 각각 방출되는 오디오 신호를 획득하기 위한 제2 프로세싱 모듈을 포함하며,
    임의의 2개의 인접한 주파수 영역 서브 대역의 일부 주파수는 주파수 영역에서 중첩되는 것을 특징으로 하는 오디오 신호 처리 장치.
  9. 제8항에 있어서,
    상기 제1 프로세싱 모듈은, 각각의 음원에 대해, n번째 상기 주파수 영역 추정 구성요소의 상기 가중 계수, 상기 주파수 영역 추정 신호 및 x-1 번째 대체 매트릭스를 구배 반복하여, x번째 대체 매트릭스를 얻되, 첫 번째 대체 매트릭스는 알려진 단위 매트릭스이고, 상기 x는 2보다 크거나 같은 양의 정수이며, 상기 n은 N보다 작은 양의 정수이고, 상기 N은 상기 주파수 영역 서브 대역의 개수이며;
    상기 x번째 대체 매트릭스가 반복 정지 조건을 만족할 경우, 상기 x번째 대체 매트릭스에 기반하여, n번째 상기 주파수 영역 추정 구성요소 중 각각의 주파수 포인트가 업데이트된 분리 매트릭스를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치.
  10. 제9항에 있어서,
    상기 제1 프로세싱 모듈은 또한, n번째 상기 주파수 영역 추정 구성요소에 포함되는 각 주파수 포인트에 대응되는 상기 주파수 포인트 데이터의 제곱의 합에 기반하여, 상기 n번째 상기 주파수 영역 추정 구성요소의 가중 계수를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치.
  11. 제9항에 있어서,
    상기 제2 프로세싱 모듈은, 상기 업데이트된 첫 번째 분리 매트릭스 내지 상기 업데이트된 n번째 분리 매트릭스에 기반하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호를 분리하여, 하나의 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 상이한 상기 음원의 오디오 신호를 획득하되, 상기 m은 M보다 작은 양의 정수이고, 상기 M은 상기 오리지널 노이즈 혼합 신호의 프레임 수이며;
    각 상기 주파수 포인트 데이터에 대응되는 m 번째 프레임의 상기 오리지널 노이즈 혼합 신호 중 y번째 상기 음원의 오디오 신호를 조합하여, y번째 상기 음원의 상기 m 번째 프레임의 오디오 신호를 얻되, 상기 y는 Y보다 작거나 같은 양의 정수이고, 상기 Y는 음원의 개수인 것을 특징으로 하는 오디오 신호 처리 장치.
  12. 제11항에 있어서,
    상기 제2 프로세싱 모듈은 또한, 시간 선후 순서에 따라, y번째 상기 음원의 1번째 프레임의 오디오 신호 내지 m 번째 프레임의 오디오 신호를 조합하여, M 프레임의 상기 오리지널 노이즈 혼합 신호에 포함되는 y번째 상기 음원의 오디오 신호를 얻는 것을 특징으로 하는 오디오 신호 처리 장치.
  13. 제9항에 있어서,
    상기 제1 프로세싱 모듈은, 상기 구배 반복을 수행할 경우, 상기 주파수 영역 추정 신호가 위치하는 주파수 영역 서브 대역의 주파수의 내림차순에 따라 순차적으로 수행하는 것을 특징으로 하는 오디오 신호 처리 장치.
  14. 삭제
  15. 단말기로서,
    프로세서;
    프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하되,
    상기 프로세서가 상기 실행 가능한 명령을 실행할 경우, 제1항 내지 제6항 중 어느 한 항에 따른 오디오 신호 처리 방법을 구현하도록 구성되는 것을 특징으로 하는 단말기.
  16. 컴퓨터 판독 가능한 저장 매체로서,
    상기 판독 가능 저장 매체에는 실행 가능한 프로그램이 저장되며, 상기 실행 가능한 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제6항 중 어느 한 항에 따른 오디오 신호 처리 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
KR1020200059427A 2019-12-17 2020-05-19 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체 KR102387025B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911302532.XA CN111009257B (zh) 2019-12-17 2019-12-17 一种音频信号处理方法、装置、终端及存储介质
CN201911302532.X 2019-12-17

Publications (2)

Publication Number Publication Date
KR20210078384A KR20210078384A (ko) 2021-06-28
KR102387025B1 true KR102387025B1 (ko) 2022-04-15

Family

ID=70115829

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200059427A KR102387025B1 (ko) 2019-12-17 2020-05-19 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체

Country Status (5)

Country Link
US (1) US11206483B2 (ko)
EP (1) EP3839949A1 (ko)
JP (1) JP7014853B2 (ko)
KR (1) KR102387025B1 (ko)
CN (1) CN111009257B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724801A (zh) 2020-06-22 2020-09-29 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113362847A (zh) * 2021-05-26 2021-09-07 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN113470688B (zh) * 2021-07-23 2024-01-23 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN113613159B (zh) * 2021-08-20 2023-07-21 贝壳找房(北京)科技有限公司 麦克风吹气信号检测方法、装置和系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
US7783478B2 (en) * 2007-01-03 2010-08-24 Alexander Goldin Two stage frequency subband decomposition
KR20090123921A (ko) 2007-02-26 2009-12-02 퀄컴 인코포레이티드 신호 분리를 위한 시스템, 방법 및 장치
CN100495537C (zh) * 2007-07-05 2009-06-03 南京大学 强鲁棒性语音分离方法
US8577677B2 (en) 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
JP5240026B2 (ja) * 2009-04-09 2013-07-17 ヤマハ株式会社 マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム
JP2011215317A (ja) * 2010-03-31 2011-10-27 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
CN102903368B (zh) * 2011-07-29 2017-04-12 杜比实验室特许公司 用于卷积盲源分离的方法和设备
DK2563045T3 (da) * 2011-08-23 2014-10-27 Oticon As Fremgangsmåde og et binauralt lyttesystem for at maksimere en bedre øreeffekt
MY178342A (en) * 2013-05-24 2020-10-08 Dolby Int Ab Coding of audio scenes
US9654894B2 (en) * 2013-10-31 2017-05-16 Conexant Systems, Inc. Selective audio source enhancement
EP3350805B1 (en) * 2015-09-18 2019-10-02 Dolby Laboratories Licensing Corporation Filter coefficient updating in time domain filtering
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
GB2548325B (en) * 2016-02-10 2021-12-01 Audiotelligence Ltd Acoustic source seperation systems
US10410641B2 (en) * 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
WO2017176968A1 (en) 2016-04-08 2017-10-12 Dolby Laboratories Licensing Corporation Audio source separation
JP6454916B2 (ja) * 2017-03-28 2019-01-23 本田技研工業株式会社 音声処理装置、音声処理方法及びプログラム
DK3655949T3 (da) 2017-07-19 2022-09-12 Audiotelligence Ltd Systemer til akustisk kildeadskillelse
JP6976804B2 (ja) * 2017-10-16 2021-12-08 株式会社日立製作所 音源分離方法および音源分離装置
CN109597022B (zh) * 2018-11-30 2023-02-17 腾讯科技(深圳)有限公司 声源方位角运算、定位目标音频的方法、装置和设备
CN110010148B (zh) * 2019-03-19 2021-03-16 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hiroshi Saruwatari et al., ‘Blind Source Separation Combining Independent Component Analysis and Beamforming’, EURASIP Journal on Applied Signal Processing, pp.1135~1146, 2003.*
Ibrahim Missaoui et al., ‘Blind speech separation based on undecimated wavelet packetperceptual filterbanks and independent component analysis’, IJCSI, Vol. 8, No. 1, May 2011.*
Shoko Araki et al., ‘The fundamental limitation of frequency domain blind source separation for convilutive mixtures of speech’, IEEE Trans. on Speech and audio processing, Vol.11, No.2, March 2003.*

Also Published As

Publication number Publication date
JP7014853B2 (ja) 2022-02-01
CN111009257A (zh) 2020-04-14
JP2021096453A (ja) 2021-06-24
CN111009257B (zh) 2022-12-27
KR20210078384A (ko) 2021-06-28
US20210185437A1 (en) 2021-06-17
EP3839949A1 (en) 2021-06-23
US11206483B2 (en) 2021-12-21

Similar Documents

Publication Publication Date Title
KR102387025B1 (ko) 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체
CN111009256B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111128221B (zh) 一种音频信号处理方法、装置、终端及存储介质
KR102497549B1 (ko) 오디오 신호 처리 방법 및 장치, 저장 매체
CN111429933B (zh) 音频信号的处理方法及装置、存储介质
CN111179960B (zh) 音频信号处理方法及装置、存储介质
US11430460B2 (en) Method and device for processing audio signal, and storage medium
CN113506582A (zh) 声音信号识别方法、装置及系统
CN113223553B (zh) 分离语音信号的方法、装置及介质
CN113488066A (zh) 音频信号处理方法、音频信号处理装置及存储介质
CN112863537A (zh) 一种音频信号处理方法、装置及存储介质
CN111429934B (zh) 音频信号处理方法及装置、存储介质
CN113362848B (zh) 音频信号处理方法、装置及存储介质
CN113314135B (zh) 声音信号识别方法及装置
WO2023137912A1 (zh) 噪声过滤方法、装置、系统、车辆及存储介质
CN113362847A (zh) 音频信号处理方法及装置、存储介质
CN114724578A (zh) 一种音频信号处理方法、装置及存储介质
CN113314135A (zh) 声音信号识别方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant