KR20210021252A - 집음 방법, 장치 및 매체 - Google Patents

집음 방법, 장치 및 매체 Download PDF

Info

Publication number
KR20210021252A
KR20210021252A KR1020197033729A KR20197033729A KR20210021252A KR 20210021252 A KR20210021252 A KR 20210021252A KR 1020197033729 A KR1020197033729 A KR 1020197033729A KR 20197033729 A KR20197033729 A KR 20197033729A KR 20210021252 A KR20210021252 A KR 20210021252A
Authority
KR
South Korea
Prior art keywords
frequency
point
beamforming
frequency domain
predetermined grid
Prior art date
Application number
KR1020197033729A
Other languages
English (en)
Other versions
KR102306066B1 (ko
Inventor
타오첸 롱
하이닝 호우
Original Assignee
베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 filed Critical 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드
Publication of KR20210021252A publication Critical patent/KR20210021252A/ko
Application granted granted Critical
Publication of KR102306066B1 publication Critical patent/KR102306066B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Abstract

본 발명은 집음 방법에 관한 것으로, 상기 방법은 M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 단계; N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계; 상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하고 기준 집음 장치의 원 주파수 영역 신호의 위상을 위상으로 하는 합성 주파수 영역 신호를 합성하는 단계; 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 단계; 를 포함한다. 본 발명 실시예에 따른 집음 방법을 적용함으로써 집음 어레이에 의해 수집된 원 시간 영역 신호에 있는 간섭 방향의 노이즈가 충분히 억제되며, 이를 통해 강화된 시간 영역 신호가 얻어진다.

Description

집음 방법, 장치 및 매체
본 발명은 집음 분야에 관한 것으로, 특히 집음 방법, 장치 및 매체에 관한 것이다.
당해 출원은 출원번호가 201910754717.8이며, 출원일이 2019 년 8 월 15 일자인 중국특허출원을 기초로 우선권을 주장하고, 해당 중국특허출원의 전체 내용은 본원 발명에 원용된다.
현사물 인터넷, AI의 시대에서 인공 지능의 핵심 기술 중 하나인 지능형 음성은 인간과 컴퓨터의 상호 작용 모드를 효과적으로 개선하고 스마트 제품을 사용하는 편의성을 크게 향상시킬 수 있다. 관련 기술에서 스마트 제품 디바이스는 집음에 마이크 어레이를 많이 채용하고 마이크 어레이 빔 포밍 기술을 적용하여 음성 신호 처리 품질을 향상시키며, 이를 통해 실제 환경에서의 음성 인식률을 향상시킨다. 현재의 마이크 어레이 빔 포밍 기술에는 다음과 같은 두 가지 난점이 있다. 1. 노이즈를 추정하기 어렵다. 2. 강한 간섭 하에서의 음성 방향이 불분명하다. 음성 방향 탐지의 문제의 경우, 현재의 방향 탐지 알고리즘은 조용한 장면에서는 비교적 정확하지만 간섭이 강한 장면에서는 방향 탐지 알고리즘이 실효될 수 있으며, 이는 방향 탐지 알고리즘 자체의 제약에 의해 결정된다. 따라서, 당해 기술 분야에서는 지금까지도 간섭이 강한 장면에서의 음성 방향 탐지의 문제를 충분히 해결할 수 없다.
본 발명은 관련 기술에 존재하는 문제를 극복하기 위한 집음 방법, 장치 및 매체를 제공한다.
본 발명 실시예의 제 1 양태에 따르면, 집음 방법이 제공되고, 상기 방법은,
M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 단계;
N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계;
상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상인 단계;
상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 단계; 를 포함하고,
여기서, M, N, K는 2 이상의 정수이다.
상기 N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계는,
상기 M 개의 집음 장치의 희망 수집 범위 내에서 부동한 방향의 N 개의 소정 격자 점을 선택하는 단계;
각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 단계;
각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 단계; 를 포함한다.
상기 각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 단계는,
이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터를 획득하는 단계;
이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터 및 이 소정 격자 점에서 기준 집음 장치까지의 거리에 따라 이 소정 격자 점에서 M 개의 집음 장치까지의 기준 지연 벡터를 결정하는 단계;
상기 기준 지연 벡터에 따라 각 주파수 점에서의 이 소정 격자 점의 스티어링 벡터를 결정하는 단계; 를 포함한다.
상기 각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 단계는,
상기 각 주파수 점의 스티어링 벡터 및 각 주파수 점의 노이즈 공분산 행렬에 따라 각 주파수 점에 대응하는 빔 포밍 가중치 계수를 결정하는 단계;
빔 포밍 가중치 계수 및 상기 M 개의 원 주파수 영역 신호에 따라 각 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 결정하는 단계; 를 포함한다.
상기 N 개의 소정 격자 점은, 상기 M 개의 집음 장치에 의해 형성되는 어레이 좌표계의 수평면 내의 하나의 원 상에 균등하게 배열된다.
본 발명 실시예의 제 2 양태에 따르면, 집음 장치가 제공되며, 상기 장치는,
M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 신호 변환 모듈;
N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 신호 처리 모듈;
상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상인 신호 합성 모듈;
상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 신호 출력 모듈; 을 구비하고,
여기서, M, N, K는 2 이상의 정수이다.
상기 신호 처리 모듈에 의해 N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 것은,
상기 M 개의 집음 장치의 희망 수집 범위 내에서 부동한 방향의 N 개의 소정 격자 점을 선택하는 것과;
각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 것과;
각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 것; 을 포함한다.
상기 신호 처리 모듈에 의해 각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 것은,
이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터를 획득하는 것과;
이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터 및 이 소정 격자 점에서 기준 집음 장치까지의 거리에 따라 이 소정 격자 점에서 M 개의 집음 장치까지의 기준 지연 벡터를 결정하는 것과;
상기 기준 지연 벡터에 따라 각 주파수 점에서의 이 소정 격자 점의 스티어링 벡터를 결정하는 것; 을 포함한다.
상기 각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 것은,
상기 각 주파수 점의 스티어링 벡터 및 각 주파수 점의 노이즈 공분산 행렬에 따라 각 주파수 점에 대응하는 빔 포밍 가중치 계수를 결정하는 것과;
빔 포밍 가중치 계수 및 상기 M 개의 원 주파수 영역 신호에 따라 각 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 결정하는 것; 을 포함한다.
상기 N 개의 소정 격자 점은, 상기 M 개의 집음 장치에 의해 형성되는 어레이 좌표계의 수평면 내의 하나의 원 상에 균등하게 배열된다.
본 발명 실시예의 제 3 양태에 따르면, 집음 장치가 제공되며, 상기 장치는,
프로세서와,
프로세서에서 실행 가능한 명령어를 기억하기 위한 메모리를 구비하고,
상기 프로세서는,
M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하고,
N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지며,
상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상이며,
상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하도록 구성되고,
여기서, M, N, K는 2 이상의 정수이다.
본 발명 실시예의 제 4 양태에 따르면, 비 일시적 컴퓨터 판독 가능한 기록 매체가 제공되며, 상기 기록 매체의 명령어가 단말기의 프로세서에 의해 실행되면 단말기로 하여금 집음 방법을 실행하게 하며, 상기 방법은,
M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 단계;
N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계;
상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상인 단계;
상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 단계; 를 포함하고,
여기서, M, N, K는 2 이상의 정수이다.
본 발명이 제공한 기술 방안에 따르면 하기와 같은 기술효과를 가져올 수 있다.
무 지향성 빔 포밍 전략을 채용하여 무 지향성 빔을 합산하며, 이를 통해 빔 패턴이 간섭 방향에서는 널을 형성하고 다른 방향에서는 정상적으로 출력되는 효과를 달성하며 강한 간섭 하에서의 방향 탐지 알고리즘의 부정확함에 의해 집음 효과가 악화되거나 집음이 부정확한 난제를 교묘하게 피하였다.
상기 일반적인 서술 및 하기 세부적인 서술은 단지 예시적이고 해석적이며, 본 발명을 한정하려는 것이 아님이 이해되어야 한다.
하기의 도면은 명세서에 병합되어 본 명세서의 일부를 구성하고 본 발명에 부합하는 실시예를 표시하며 명세서와 함께 본 발명의 원리를 해석한다.
도 1은 일 예시적인 실시예에 따른 집음 방법을 나타내는 흐름도이다.
도 2는 일 예시적인 실시예에 따른 집음 방법으로 소정 격자 지점을 확립하는 모식도이다.
도 3은 본 발명 실시예에 따른 집음 방법이 적용되는 마이크 어레이의 시뮬레이션 빔 패턴을 나타낸다.
도 4는 일 예시적인 실시예에 따른 집음 장치를 나타내는 블록도이다.
도 5는 일 예시적인 실시예에 따른 장치를 나타내는 블록도이다.
여기서, 예시적인 실시예에 대하여 상세하게 설명하고, 그 사례를 도면에 표시한다. 하기의 서술이 도면에 관련될 때, 달리 명시하지 않는 경우, 서로 다른 도면에서의 동일한 부호는 동일한 구성 요소 또는 유사한 구성 요소를 나타낸다. 하기의 예시적인 실시예에서 서술한 실시방식은 본 발명에 부합되는 모든 실시 방식을 대표하는 것이 아니며, 실시방식들은 다만 첨부된 특허청구의 범위에 기재한 본 발명의 일부측면에 부합되는 장치 및 방법의 예이다.
본 발명 실시예에 따른 집음 방법은 집음 장치 어레이에 사용되며, 집음 장치 어레이는 공간 내의 부동한 위치에 있는 복수의 집음 장치가 일정한 형상 규칙에 따라 배치하여 형성되는 어레이로, 공간에서 전파하는 음 신호를 공간 샘플링하기 위한 장치이며, 수집되는 신호에는 그 공간 위치 정보가 포함된다. 집음 장치의 토폴로지에 따르면, 어레이는 1 차원 어레이, 2 차원 평면 어레이일 수도 있고, 구형 등의 3 차원 어레이일 수도 있다.
도 1은 일 예시적인 실시예에 따른 집음 방법을 나타내는 흐름도이고, 도 1에 나타낸 바와 같이, 본 발명 실시예에 따른 집음 방법은 단계 S11 ~ S14을 포함한다.
단계 S11에 있어서, M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하고, 여기서 M은 2 이상의 정수이다. 본 발명의 방법을 실시하기 위해서는 2 개 이상의 집음 장치를 사용하여 부동한 방향에서 음 신호를 수집할 필요가 있으며, 집음 장치의 수가 많을수록 간섭을 억제하는 효과가 더 좋다. M 개의 집음 장치의 배열은 선형 어레이, 평면 어레이 또는 당업자가 구상할수 있는 기타 임의의 배열 방식일 수 있다.
일 예에 있어서,
Figure pct00001
로 집음 장치 어레이 내의 m 번째 집음 장치의 1 프레임 윈도잉 신호를 표시한다(m = 1,2 ...... M). 시간 영역 신호
Figure pct00002
를 푸리에 변환한 후 대응하는 원 주파수 영역 신호
Figure pct00003
가 얻어진다. 예시적으로, 1 프레임의 길이는 10ms ~ 30ms의 범위, 예를 들어 20ms로 설정할 수 있다. 그리고 윈도잉 처리는 프레이밍 후의 신호를 연속시키기 위한 것으로, 예시적으로 오디오 신호 처리에 해밍 윈도우를 추가할 수 있다.
단계 S12에 있어서, N 개의 소정 격자 점의 각각에서 M 개의 원 주파수 영역 신호를 빔 포밍하여 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지고, 여기서 N은 2 이상의 정수이다.
소정 격자 점은 희망 수집 공간 내에서 추정 음원 위치 또는 방향을 복수의 격자 점으로 분할하며, 즉 집음 장치 어레이(복수의 집음 장치를 포함함)를 중심으로 하는 희망 수집 공간을 그리드 처리하는 것을 가리킨다. 구체적으로, 이 처리 과정은 다음과 같다. 집음 장치 어레이의 기하 중심을 격자 중심으로 하고 격자 중심으로부터의 어느 한 길이를 반경으로 2 차원 공간 내의 원형 그리드 또는 3 차원 공간 내의 구형 그리드를 진행하고, 또한 예를 들어, 집음 장치 어레이의 기하 중심을 격자 중심으로 하고 격자 중심을 정방형 중심으로 하며 어느 한 길이를 변의 길이로 2 차원 공간 내의 정방형 그리드를 진행하며, 또는 격자 중심을 입방체 중심으로 하고 어느 한 길이를 변의 길이로 3 차원 공간 내의 입방체 그리드를 진행한다.
여기서, 소정 격자 점은 본 실시예에서 빔 포밍을 위해 사용되는 가상 점에 불과하며 실제의 음원 점 또는 음원 수집 점이 아니다. 소정 격자 점의 수 N의 값이 클수록 선택되는 방향이 더 많으며, 더 많은 방향에서 빔 포밍할 수 있고, 최종 실현 효과도 좋다. 이와 동시에, 복수의 방향에서 샘플링하기 위해, N 개의 소정 격자 점은 가능한한 부동한 방향으로 분산되어야 한다.
일 예에 있어서, N 개의 소정 격자 점을 동일한 평면에 설정하고 이 평면 내의 각 방향으로 분산시킨다. 또한 설명을 쉽게하기 위해, N 개의 소정 격자 점은 360도 내에서 균등하게 분산되며, 계산을 쉽게하는 동시에 더 좋은 효과를 얻을 수 있다. 또한, 본 발명의 N 개의 소정 격자 점의 배열 방식은 이에 한정되지 않는다.
단계 S13에 있어서, N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상이다. 여기서, 기준 집음 장치는 상기 단계 S12에서의 빔 포밍 프로세스, 구체적으로 빔 포밍 프로세스에서의 기준 지연을 결정하기 위한 하나의 집음 장치에 관련한다. 이하, 빔 포밍 프로세스를 더 자세히 설명한다. 또한, 상기 K 개의 주파수 점은 단계 S11에서의 원 주파수 영역 신호에 관련하며, 예를 들어, 푸리에 변환을 통해 음 신호를 시간 영역에서 주파수 영역으로 변환한 후 주파수 영역 신호에 따라 이에 포함되는 복수의 주파수 점을 결정할 수 있다.
단계 S14에 있어서, 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환한다. 이 합성 시간 영역 신호는 간섭 제거 후의 강화 음성 신호이며, 집음 장치의 후속 처리를 위해 사용되며, 따라서 노이즈를 억제하는 목적을 달성할 수 있다.
이하, 집음 방법의 단계 S12에 대해 상세히 설명한다. 일 실시예에서, 단계 S12는 단계 S121 ~ S123을 포함할 수 있다.
단계 S121에 있어서, M 개의 집음 장치의 희망 수집 범위 내에서 부동한 방향의 N 개의 소정 격자 점을 선택한다.
복수의 방향에서 샘플링하기 위해, N 개의 소정 격자 점은 가능한한 부동한 방향으로 분산되어야 한다. 실시를 쉽게하기 위해, N 개의 소정 격자 점을 동일한 평면 내에서 선택하고 이 평면 내의 각 방향으로 분산시킬 수 있다. 물론, 본 발명의 방법을 보다 쉽게 실시하기 위해, N 개의 소정 격자 점은 360도 내에서 균등하게 분산될 수도 있다.
단계 S122에 있어서, 각 소정 격자 점에서 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정한다.
예를 들어, 일 예에 있어서, 단계 S122는 M 개의 집음 장치 어레이의 좌표계 원점을 중심으로 상기 M 개의 집음 장치의 좌표 및 상기 N 개의 소정 격자 점의 좌표를 결정하고, M 개의 집음 장치의 좌표에 따라 각 소정 격자 점에 대해 각 주파수 점에서 스티어링 벡터를 확립하며, 각 주파수 점에서의 N 개의 소정 격자 점의 스티어링 벡터를 얻을 수 있도록 실현될 수 있다.
일 실시예에서, 단계 S122는 하기 단계를 포함할 수 있다.
단계 S1221에 있어서, 각 소정 격자 점에서 M 개의 집음 장치까지의 거리 벡터를 획득한다.
단계 S1222에 있어서, 이 소정 격자 점에서 M 개의 집음 장치까지의 거리 벡터 및 이 소정 격자 점에서 기준 집음 장치까지의 거리에 따라 이 소정 격자 점에서 M 개의 집음 장치까지의 기준 지연 벡터를 결정한다.
단계 S1223에 있어서, 기준 지연 벡터에 따라 각 주파수 점에서의 이 소정 격자 점의 스티어링 벡터를 결정한다.
일 예에 있어서, 소정 격자 점을 예로 들어, 이 소정 격자 점이 n 번째 소정 격자 점인 것으로 가정하면(n = 1,2 ... N), 표현을 쉽게하기 위해
Figure pct00004
로 이 점의 좌표를 표시하고 좌표 값은
Figure pct00005
이다. 또한 M 개의 집음 장치가 있기 때문에 M 개의 집음 장치의 좌표가 있으며, 각각
Figure pct00006
이다. 이에 대응하는 좌표 값은 각각
Figure pct00007
이고, 그리고 P로 모든 집음 장치의 좌표 행렬을 나타내며,
Figure pct00008
이다.
우선, 이 소정 격자 점에서 기준 집음 장치까지의 거리를 구한다. 예를 들어, 여기서 M 개의 집음 장치 중의 제 1 집음 장치가 기준 집음 장치로서 기능하는 것으로 가정한다. 여기서, 실제로는 집음 방법 전체의 실행 중에 이 기준 집음 장치가 그대로 유지되는 한, M 개의 집음 장치 중 어느 하나의 집음 장치라도 기준 집음 장치로 지정될 수 있다. 따라서, 이 예에서 이 소정 격자 점에서 기준 집음 장치까지의 거리는
Figure pct00009
이다. 그리고, 이 소정 격자 점에서 M 개의 집음 장치까지의 거리 벡터를 구할 수 있으며,
Figure pct00010
이고, 여기서 P는 상기에 표시된 모든 집음 장치의 좌표 행렬이다. 여기서, 실제로는 소정 격자 점에서 기준 집음 장치까지의 거리
Figure pct00011
은 소정 격자 점에서 M 개의 집음 장치까지의 거리 벡터 dist 중의 하나의 값이며, 따라서,
Figure pct00012
및 dist의 계산 순서는 제한되지 않는다.
이 소정 격자 점
Figure pct00013
에서 M 개의 집음 장치까지의 거리 벡터에 따라 이 소정 격자 점
Figure pct00014
에서 M 개의 집음 장치까지의 지연 벡터를 계산하고, tau로 표시하면
Figure pct00015
이며, 즉, dist 벡터의 제곱을 각 행에 따라 합산한 후 근호를 푼다.
이 소정 격자 점에서 M 개의 집음 장치까지의 지연 벡터에서 이 소정 격자 점에서 기준 집음 장치까지의 지연을 뺀 후 음속으로 나누어 기준 지연 taut가 얻어지며,
Figure pct00016
이다. 여기서 tau는 소정 격자 점에서 M 개의 집음 장치까지의 지연 벡터이고,
Figure pct00017
은 이 소정 격자 점에서 지정된 기준 집음 장치까지의 지연이며,
Figure pct00018
이고, c는 음속이다.
기준 지연 벡터 taut를 스티어링 벡터 공식에 대입하면,
Figure pct00019
이며, K 개의 주파수 점에서의 이 소정 격자 점의 스티어링 벡터를 구할 수 있고, 여기서 e는 자연 기저, j는 허수 단위, K 푸리에 변환에 의해 얻어지는 주파수 점수(값의 범위는 0에서 Nfft-1이다)이며,
Figure pct00020
이고, 여기서
Figure pct00021
는 채용 비율, Nfft는 푸리에 변환 점수, c는 음속이다. 마찬가지로, 각 주파수 점에서의 다른 소정 격자 점의 스티어링 벡터를 구할 수 있으며, 여기서는 열거하지 않는다.
다음으로, 단계 S123에 있어서, 각 소정 격자 점에서 각 주파수 점에서의 스티어링 벡터에 따라 M 개의 원 주파수 영역 신호를 빔 포밍하고 각 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득한다.
일 예에 있어서, 단계 S123은 단계 S1231 ~ S1232를 포함할 수 있다.
단계 S1231에 있어서, 각 주파수 점의 스티어링 벡터 및 각 주파수 점의 노이즈 공분산 행렬에 따라 각 주파수 점에 대응하는 빔 포밍 가중치 계수를 결정하고,
Figure pct00022
이다. 여기서,
Figure pct00023
는 각 주파수 점에서의 이 소정 격자 점의 스티어링 벡터이고,
Figure pct00024
는 각 주파수 점에서의 노이즈 공분산 행렬이며, 어느 하나의 알고리즘으로 추정되는 노이즈 공분산 행렬일 수 있고,
Figure pct00025
Figure pct00026
의 역이고,
Figure pct00027
는 스티어링 벡터의 공액 전치이다.
단계 S1232에 있어서, 각 주파수 점의 빔 포밍 가중치 계수 및 M 개의 원 주파수 영역 신호에 따라 각 소정 격자 점의 각 주파수 점에 각각 대응하는 빔 포밍 주파수 영역 신호를 결정한다. 구체적으로, 하나의 소정 격자 점에 대해 각 주파수 점의 빔 포밍 가중치 계수 및 M 개의 원 주파수 영역 신호 중 이 주파수 점에 대응하는 M 개의 주파수 성분에 따라 이 주파수 점 에 대응하는 빔 포밍 주파수 성분을 결정할 수 있으며, 그리고 K 개의 빔 포밍 주파수로 이 소정 격자 점의 빔 포밍 주파수 영역 신호를 합성한다.
Figure pct00028
이다. 여기서,
Figure pct00029
이고,
Figure pct00030
Figure pct00031
의 공액 전치이다.
각 소정 격자 점에 대응하여 하나의 빔 포밍 주파수 영역 신호가 획득되고, N 개의 소정 격자 점을 선택하면 N 개의 빔 포밍 주파수 영역 신호를 얻을 수 있으며, 각각
Figure pct00032
로 표시된다.
일 실시예에서, 단계 S13에 있어서, 상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상이다.
일 예에 있어서, 획득된 N 개의 빔 포밍 주파수 영역 신호
Figure pct00033
에 대해, 어느 한 주파수 점에서의 주파수 성분의 진폭은
Figure pct00034
로 표시되고, k 번째 주파수 점에서의 전체 N 개의 빔 포밍 주파수 영역 신호의 평균 진폭이 얻어지며,
Figure pct00035
이다. 기준 집음 장치에 의해 수집된 주파수 영역 신호의 위상을 획득하며, 기준 집음 장치에 의해 수집된 주파수 영역 신호는
Figure pct00036
로 표시되며, 그 위상은
Figure pct00037
이다. K 개의 주파수 점을 포함하고 또한 각 주파수 점에 대응하는 주파수 점의 평균 진폭을 진폭으로 하고 기준 집음 장치의 원 주파수 영역 신호 중 대응하는 주파수 점의 위상을 위상으로 하는 합성 주파수 영역 신호를 합성하며,
Figure pct00038
이다.
집음 방법의 단계 S14로 돌아가서, 이 단계에서는 합성 주파수 영역 신호를 역 푸리에 변환하여 합성 시간 영역 신호가 획득되며,
Figure pct00039
이다. 여기서, 이 합성 시간 영역 신호는 즉 간섭 제거 후의 강화 음 신호이다. 본 발명 실시예에 따른 집음 방법을 적용함으로써, 마이크 어레이에 의해 수집된 원 시간 영역 신호에 있는 간섭 방향의 노이즈가 충분히 억제되며, 이를 통해 강화된 시간 영역 신호가 얻어진다.
일 실시예에서, 단계 S121에 있어서, N 개의 소정 격자 점은 M 개의 집음 장치에 의해 형성되는 어레이 좌표계의 수평면 내의 하나의 원 상에 균등하게 배열된다. 예시적으로, 이 원의 반경은 약 1m에서 5m 사이일 수 있다. 계산을 쉽게하는 동시에 효과도 좋다.
본 발명의 기술 수단을 더 잘 이해하기 위해, 하기에 예를 들어 설명한다.
도 2에 나타낸 바와 같이, 스마트 스피커를 예로 들어, 스피커는 6 개의 마이크를 포함하며, 6 개의 마이크 어레이의 좌표계 원점을 중심으로 6 개의 마이크로 구성된 어레이 수평면 상에서 반경이 r인 하나의 원을 선택하고, 반경은 r은 1 ~ 1.5m일 수 있으며, 정상적인 상황에서 사람과 스마트 스피커 사이의 상호 작용 거리이다. 원 상의 0° ~ 360°의 범위 내에서 일정한 간격으로 6 개의 점을 선택하며, 예를 들어, 1°, 61°, 121°, 181°, 241°, 301°에 대응하는 점을 소정 격자 점으로 선택한다. 또한 90° 방향 위치의 집음 장치를 기준 집음 장치로 지정하며, 후속 계산에서는 항상 이 집음 장치를 기준 집음 장치로 하고, 물론 다른 집음 장치를 기준 집음 장치로 지정할 수도 있다.
다음으로, 어레이 좌표계의 원점을 중심으로 6 개의 마이크의 좌표를 획득하며, 각각
Figure pct00040
이다. 이에 대응하는 좌표 값은 각각
Figure pct00041
이며, 그리고 P로 모든 집음 장치의 좌표 행렬을 표시하고,
Figure pct00042
이며, 6 개의 소정 격자 점의 좌표는
Figure pct00043
이다.
61° 위치의 소정 격자 점을 예로 들어, 이 점은 두 번째 소정 격자 점이며, 이 점의 좌표는
Figure pct00044
이고 좌표 값은
Figure pct00045
이다.
우선, 이 소정 격자 점과 기준 집음 장치(예시적으로, 여기서는 제 1 집음 장치를 예로 든다) 사이의 거리를 구하며,
Figure pct00046
이다. 그리고 이 소정 격자 점
Figure pct00047
에서 M 개의 집음 장치까지의 거리 벡터를 구할 수 있으며,
Figure pct00048
이다.
이 소정 격자 점
Figure pct00049
에서 M 개의 집음 장치까지의 거리 벡터에 따라 이 소정 격자 점
Figure pct00050
에서 M 개의 집음 장치까지의 지연 벡터를 계산하며, tau으로 표시하면
Figure pct00051
이고, 즉, dist 2의 제곱을 각 행에 따라 합산한 후 근호를 푼다.
이 소정 격자 점
Figure pct00052
에서 M 개의 마이크로 구선된 어레이까지의 지연 벡터에서 이 소정 격자 점
Figure pct00053
에서 기준 집음 장치까지의 지연을 뺀 후 음속으로 나누어 기준 지연 taut가 얻어지며,
Figure pct00054
이다. 여기서 tau는 이 소정 격자 점
Figure pct00055
에서 M 개의 집음 장치까지의 지연 벡터이고,
Figure pct00056
는 이 소정 격자 점
Figure pct00057
에서 지정된 기준 집음 장치까지의 지연이며, c는 음속이다.
기준 지연 벡터 taut를 스티어링 벡터 공식에 대입하면,
Figure pct00058
이고, K 개의 주파수 점에서의 이 소정 격자 점
Figure pct00059
의 스티어링 벡터를 구할 수 있으며,
Figure pct00060
로 표시된다. 여기서 e는 자연 기저, j는 허수 단위, K는 푸리에 변환에 의해 얻어지는 주파수 점수(값의 범위는 0에서 Nfft-1이다)이며,
Figure pct00061
이고, 여기서
Figure pct00062
는 채용 비율, Nfft는 푸리에 변환 점수, c는 음속이다.
상기 방법을 통해 각 주파수 점에서의 다른 소정 격자 점의 스티어링 벡터를 획득할 수 있다.
6 개의 집음 장치에 의해 수집된 6 개의 시간 영역 신호를 6 개의 원 주파수 영역 신호로 변환하며,
Figure pct00063
Figure pct00064
이다.
6 개의 소정 격자 점의 각각에서 6 개의 원 주파수 영역 신호를 빔 포밍하며,
여전히 두 번째 소정 격자 점
Figure pct00065
을 예로 들어, 이 점의 빔 포밍 가중치 계수를 계산하고,
Figure pct00066
이며, 여기서
Figure pct00067
는 각 주파수 점에서의 제 2 소정 격자 점의 스티어링 벡터이고,
Figure pct00068
는 노이즈 공분산 행렬이며, 어느 하나의 알고리즘으로 추정되는 노이즈 공분산 행렬일 수 있고,
Figure pct00069
Figure pct00070
의 역이고,
Figure pct00071
는 스티어링 벡터의 공액 전치이다.
제 2 소정 격자 점
Figure pct00072
에서 6 개의 집음 장치의 원 주파수 영역 신호를 빔 포밍하여 제 2 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호가 얻어지며,
Figure pct00073
이다. 여기서,
Figure pct00074
이다.
다른 소정 격자 점에 대해 동일한 방법을 채용하여 총 6 개의 빔 포밍 주파수 영역 신호가 얻어지며,
Figure pct00075
Figure pct00076
이다.
상기 6 개의 빔 포밍 주파수 영역 신호에 대응하여, 어느 한 주파수 점에 이 주파수 점에서의 주파수에 대응하는 6 개의 주파수 성분이 있으며, k 번째 주파수 점을 예로 들어, 이 주파수 점에 대응하는 주파수에서 6 개의 주파수 성분은 각각
Figure pct00077
Figure pct00078
이다. k 번째 주파수 점에서의 6 개의 빔 포밍 주파수 영역 신호의 평균 진폭이 얻어지며,
Figure pct00079
이다.
기준 집음 장치에 의해 수집된 주파수 영역 신호의 위상을 획득하며, 기준 집음 장치에 의해 수집된 주파수 영역 신호는
Figure pct00080
로 표시되고 그 위상은
Figure pct00081
이다.
각 주파수 점에서 평균 진폭을 진폭으로 하고 기준 집음 장치의 원 주파수 영역 신호의 위상을 위상으로 하는 합성 주파수 영역 신호를 합성하며,
Figure pct00082
이다.
합성 주파수 영역 신호를 역 푸리에 변환하여 합성 시간 영역 신호를 획득하고,
Figure pct00083
이다. 합성 시간 영역 신호를 출력 신호로 한다.
도 3은 본 발명 실시예에 따른 집음 방법이 적용되는 마이크 어레이의 시뮬레이션 빔 패턴을 나타낸다.
빔 패턴의 가로축은 상기 소정 격자 점이 위치하고 있는 방위이다. 시뮬레이션 프로세스에서는 어느 하나의 방향에 간섭 원을 설정할 수 있다. 시뮬레이션 프로세스 및 빔 패턴을 작성하는 구체적인 과정은 당업자에게 알려져 있으며, 여기서는 자세한 설명을 생략한다.
본 발명 실시예에 따른 집음 방법을 적용함으로써, 간섭 방향의 신호 이득이 최소화되며, 즉 간섭 신호가 억제되고 다른 방향의 음 신호는 크게 영향을 받지 않았음을 확인할 수 있다. 도 3에 도시된 바과 같이, 간섭 방향에 매우 깊은 널이 형성되며, 간섭이 억제되는 동시에 다른 방향의 음 신호가 보호된다. 이 실시예에서 알 수 있듯이, 본 발명의 방법에 따르면, 임의 방향의 간섭을 억제하고 노이즈 간섭을 억제하는 목적을 달성할 수 있다.
도 4는 일 예시적인 실시예에 따른 집음 장치를 나타내는 블록도이다. 도 4를 참조하면, 이 장치는 신호 변환 모듈(401), 신호 처리 모듈(402), 신호 합성 모듈(403) 및 신호 출력 모듈(404)을 구비한다.
이 신호 변환 모듈(401)은 M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하도록 구성된다.
이 신호 처리 모듈(402)은 N 개의 소정 격자 점의 각각에서 M 개의 원 주파수 영역 신호를 빔 포밍하여 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지도록 구성된다.
이 신호 합성 모듈(403)은 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상이도록 구성된다.
이 신호 출력 모듈(404)은 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 신호 출력 모듈로 구성된다.
여기서, M, N, K는 2 이상의 정수이다.
신호 처리 모듈에 의해 N 개의 소정 격자 점의 각각에서 M 개의 원 주파수 영역 신호를 빔 포밍하여 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 것은,
M 개의 집음 장치의 희망 수집 범위 내에서 부동한 방향의 N 개의 소정 격자 점을 선택하는 것과;
각 소정 격자 점에서 M 개의 집음 장치와 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 것과;
각 소정 격자 점에서 각 주파수 점에서의 스티어링 벡터에 따라 M 개의 원 주파수 영역 신호를 빔 포밍하고, 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 것; 을 포함한다.
신호 처리 모듈에 의해 각 소정 격자 점에서 M 개의 집음 장치와 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 것은,
이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터를 획득하는 것과;
이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터 및 이 소정 격자 점에서 기준 집음 장치까지의 거리에 따라 이 소정 격자 점에서 M 개의 집음 장치까지의 기준 지연 벡터를 결정하는 것과;
기준 지연 벡터에 따라 각 주파수 점에서의 이 소정 격자 점의 스티어링 벡터를 결정하는 것; 을 포함한다.
각 소정 격자 점에서 각 주파수 점에서의 스티어링 벡터에 따라 M 개의 원 주파수 영역 신호를 빔 포밍하고, 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 것은,
각 주파수 점의 스티어링 벡터 및 각 주파수 점의 노이즈 공분산 행렬에 따라 각 주파수 점에 대응하는 빔 포밍 가중치 계수를 결정하는 것과;
빔 포밍 가중치 계수 및 상기 M 개의 원 주파수 영역 신호에 따라 각 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 결정하는 것; 을 포함한다.
N 개의 소정 격자 점은, 상기 M 개의 집음 장치에 의해 형성되는 어레이 좌표계의 수평면 내의 하나의 원 상에 균등하게 배열된다.
상기 실시예의 장치에 있어서, 각 모듈이 작업을 수행하는 구체적인 방법은 이미 관련 방법의 실시예에서 상세히 설명하고 있으며, 여기서 자세한 설명을 생략한다.
도 5는 일 예시적인 실시예에 따른 집음 장치(500)를 나타내는 블록도이다. 예를 들어, 장치(500)는 휴대폰, 컴퓨터, 디지털 브로드캐스팅 단말기, 메시지 송수신 장치, 게임 콘솔, 태블릿 장치, 의료 설비, 헬스 기기, PDA 등일 수 있다.
도 5를 참조하면, 장치(500)는 프로세싱 유닛(502), 메모리(504), 전원 유닛(506), 멀티미디어 유닛(508), 오디오 유닛(510), 입출력(I/O) 인터페이스(512), 센서 유닛(514) 및 통신 유닛(516) 중의 임의의 적어도 하나 이상을 포함할 수 있다.
프로세싱 유닛(502)은 일반적으로 장치(500)의 전체 조작,예를 들어, 디스플레이,전화 호출,데이터 통신,카메라 조작 및 기록 조작에 관련된 조작을 제어할 수 있다. 프로세싱 유닛(502)은 임의의 적어도 하나 이상의 프로세서(520)를 구비하여 명령어를 실행함으로써 상기 방법의 전부 또는 일부 단계를 완성할 수 있다. 또한, 프로세싱 유닛(502)은 기타 유닛과의 인터랙션을 편리하게 하도록 임의의 적어도 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 유닛(502)은 멀티미디어 유닛(508)과의 인터랙션을 편리하게 할 수 있도록 멀티미디어 모듈을 포함할 수 있다.
메모리(504)는 장치(500)의 조작을 서포트 하기 위하여 각종 유형의 데이터를 저장하도록 설치된다. 이러한 데이터는 예를 들어 장치(500)에서 임의의 애플리케이션이나 방법을 조작하기 위한 명령어, 연락처 데이터, 전화 번호부 데이터, 메시지, 사진, 동영상 등을 포함할 수 있다. 메모리(504)는 임의의 유형의 휘발성 또는 비휘발성 메모리 예를 들어 SRAM(Static Random Access Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), EPROM(Erasable Programmable Read Only Memory), PROM(Programmable ROM), ROM(Read Only Memory), 자기 메모리, 플래시 메모리, 자기 디스크 또는 콤팩트 디스크에 의해 또는 이들의 조합에 의해 실현될 수 있다.
전원 유닛(506)은 장치(500)의 각 유닛에 전력을 공급하기 위한 것이며, 전원 관리 시스템, 임의의 적어도 하나 이상의 전원 및 장치(500)를 위하여 전력을 생성, 관리 및 분배하는데 관련된 기타 유닛을 포함할 수 있다.
멀티미디어 유닛(508)은 장치(500)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함할 수 있다. 일 실시예에 있어서, 스크린은 액정 디스플레이(LCD) 또는 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자의 입력 신호를 수신하도록 터치 스크린으로 실현될 수 있다. 또한 터치 패널은 터치, 슬라이딩 및 터치 패널위에서의 제스처(gesture)를 감지하도록 임의의 적어도 하나 이상의 터치 센서를 포함할 수 있다. 상기 터치 센서는 터치 또는 슬라이딩 동작의 경계위치를 감지할 수 있을뿐만 아니라, 터치 또는 슬라이딩 조작에 관련되는 지속시간 및 압력을 검출할 수 있다. 일 실시예에 있어서, 멀티미디어 유닛(508)은 전면 카메라 및/또는 후면 카메라를 포함할 수 있다. 장치(500)가 예를 들어 촬영 모드 또는 동영상 모드 등 조작 모드 상태에 있을 때, 전면 카메라 및/또는 후면 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 전면 카메라 및 후면 카메라 각각은 고정된 광학 렌즈 시스템 또는 가변 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 유닛(510)은 오디오 신호를 출력 및/또는 입력하도록 설치될 수 있다. 예를 들어, 오디오 유닛(510)은 마이크(MIC)를 포함할 수 있다. 장치(500)가 예를 들어 호출 모드, 기록 모드 또는 음성 인식 모드 등 조작 모드 상태에 있을 때, 마이크는 외부의 오디오 신호를 수신하도록 설치될 수 있다. 수신된 오디오 신호는 메모리(504)에 저장되거나 또는 통신 유닛(516)을 통해 송신될 수 있다. 일 실시예에 있어서, 오디오 유닛(510)은 오디오 신호를 출력하는 스피커를 더 포함할 수 있다.
I/O 인터페이스(512)는 프로세싱 유닛(502)과 주변 인터페이스 모듈 사이에 인터페이스를 제공하기 위한 것이다. 상기 주변 인터페이스 모듈은 키보드,클릭 휠,버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 작동 버튼 및 잠금 버튼 등을 포함하되 이에 한정되지 않는다.
센서 유닛(514)은 장치(500)를 위해 각 방면의 상태를 평가하는 임의의 적어도 하나 이상의 센서를 포함할 수 있다. 예를 들어, 센서 유닛(514)은 장치(500)의 온/오프 상태, 유닛의 상대적인 포지셔닝을 검출할 수 있다. 예를 들어, 상기 유닛은 장치(500)의 디스플레이 및 작은 키패드일 수 있다. 센서 유닛(514)은 장치(500) 또는 장치(500)의 유닛의 위치 변경, 사용자와 장치(500)사이의 접촉여부, 장치(500)의 방위 또는 가속/감속 및 장치(500)의 온도 변화를 검출할 수 있다. 센서 유닛(514)은 어떠한 물리적 접촉도 없는 상황에서 근처의 물체를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 유닛(514)은 이미지 형성 응용에 이용하기 위한 광 센서 예를 들어 CMOS 또는 CCD 이미지 센서를 포함할 수 있다. 일 실시예에 있어서, 상기 센서 유닛(514)은 가속도 센서, 자이로 스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 유닛(516)은 장치(500)와 기타 기기 사이의 무선 또는 유선 통신을 편리하게 진행하게 하도록 설치될 수 있다. 장치(500)는 통신 표준을 기반으로 하는 무선 네트워크 예를 들어 WiFi, 2G, 3G 또는 이들의 조합에 액세스할 수 있다. 일 예시적인 실시예에 있어서, 통신 유닛(516)은 브로드캐스팅 채널을 통해 외부의 브로드캐스팅 관리 시스템에서의 브로드캐스팅 신호 또는 브로드캐스팅 관련 정보를 수신할 수 있다. 일 예시적인 실시예에 있어서, 상기 통신 유닛(516)은 근거리 통신을 촉진하기 위한 근거리 무선 통신(NFC) 모듈을 더 포함할 수 있다. 예를 들어, NFC 모듈은 RFID기술, IrDA기술, UWB기술, 블루투스(BT) 기술 및 기타 기술에 의해 실현될 수 있다.
일 예시적인 실시예에 있어서, 장치(500)는 상술한 방법을 실행하기 위하여 임의의 적어도 하나 이상의 ASIC (Application Specific Integrated Circuit), DSP (Digital Signal Processor), DSPD (Digital Signal Processing Device), PLD (Programmable Logic Device), FPGA (Field-Programmable Gate Array), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서, 또는 기타 전자 소자에 의해 실현될 수 있다.
일 예시적인 실시예에서 명령어를 포함한 비 일시적 컴퓨터 판독 가능한 기록 매체 예를 들어 명령어를 포함한 메모리(504)를 더 제공한다. 상기 명령어는 장치(500)의 프로세서(520)에 의해 실행되어 상술한 방법을 완성할 수 있다. 예를 들어, 상기 비일시적인 컴퓨터 판독 가능한 기록 매체는, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크 및 광 데이터 메모리 등일 수 있다.
비 일시적 컴퓨터 판독 가능한 기록 매체는, 상기 기록 매체의 명령어가 모바일 단말의 프로세서에 의해 실행되면 모바일 기기로 하여금 집음 방법을 실행하게 하며, 상기 방법은,
M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 단계;
N 개의 소정 격자 점의 각각에서 M 개의 원 주파수 영역 신호를 빔 포밍하여 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계;
N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상인 단계;
합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 단계; 를 포함하고,
여기서, M, N, K는 2 이상의 정수이다.
통상의 지식을 가진 자는 명세서에 대한 이해 및 명세서에 기재된 발명에 대한 실시를 통해 본 발명의 다른 실시방안를 용이하게 얻을 수 있다. 당해 출원의 취지는 본 발명에 대한 임의의 변형, 용도 또는 적응적인 변화를 포함하고, 이러한 변형, 용도 또는 적응적 변화는 본 발명의 일반적인 원리에 따르고, 당해 출원이 공개하지 않은 본 기술 분야의 공지기술 또는 통상의 기술수단을 포함한다. 명세서 및 실시예는 단지 예시적인 것으로서, 본 발명의 진정한 범위와 취지는 다음의 특허청구 범위에 의해 결정된다.
본 발명은 상기에 서술되고 도면에 도시된 특정 구성에 한정되지 않고 그 범위를 이탈하지 않는 상황에서 다양한 수정 및 변경을 실시할 수 있음에 이해되어야 한다. 본 발명의 범위는 단지 첨부된 특허청구 범위에 의해서만 한정된다.

Claims (12)

  1. M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 단계;
    N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계;
    상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상인 단계;
    상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 단계; 를 포함하고,
    여기서, M, N, K는 2 이상의 정수인 것
    을 특징으로 하는 집음 방법.
  2. 제1항에 있어서,
    상기 N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계는,
    상기 M 개의 집음 장치의 희망 수집 범위 내에서 부동한 방향의 N 개의 소정 격자 점을 선택하는 단계;
    각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 단계;
    각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 단계; 를 포함하는 것
    을 특징으로 하는 집음 방법.
  3. 제2항에 있어서,
    상기 각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 단계는,
    이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터를 획득하는 단계;
    이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터 및 이 소정 격자 점에서 기준 집음 장치까지의 거리에 따라 이 소정 격자 점에서 M 개의 집음 장치까지의 기준 지연 벡터를 결정하는 단계;
    상기 기준 지연 벡터에 따라 각 주파수 점에서의 이 소정 격자 점의 스티어링 벡터를 결정하는 단계; 를 포함하는 것
    을 특징으로 하는 집음 방법.
  4. 제2항에 있어서,
    상기 각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 단계는,
    상기 각 주파수 점의 스티어링 벡터 및 각 주파수 점의 노이즈 공분산 행렬에 따라 각 주파수 점에 대응하는 빔 포밍 가중치 계수를 결정하는 단계;
    상기 빔 포밍 가중치 계수 및 상기 M 개의 원 주파수 영역 신호에 따라 각 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 결정하는 단계; 를 포함하는 것
    을 특징으로 하는 집음 방법.
  5. 제1항에 있어서,
    상기 N 개의 소정 격자 점은, 상기 M 개의 집음 장치에 의해 형성되는 어레이 좌표계의 수평면 내의 하나의 원 상에 균등하게 배열되는 것
    을 특징으로 하는 집음 방법.
  6. M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 신호 변환 모듈;
    N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 신호 처리 모듈;
    상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상인 신호 합성 모듈;
    상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 신호 출력 모듈; 을 구비하고,
    여기서, M, N, K는 2 이상의 정수인 것
    을 특징으로 하는 집음 장치.
  7. 제6항에 있어서,
    상기 신호 처리 모듈에 의해 N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 것은,
    상기 M 개의 집음 장치의 희망 수집 범위 내에서 부동한 방향의 N 개의 소정 격자 점을 선택하는 것과;
    각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 것과;
    각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 것; 을 포함하는 것
    을 특징으로 하는 집음 장치.
  8. 제7항에 있어서,
    상기 신호 처리 모듈에 의해 각 소정 격자 점에서, 상기 M 개의 집음 장치와 이 소정 격자 점의 위치 관계에 따라 각 주파수 점에 관련한 스티어링 벡터를 결정하는 것은,
    이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터를 획득하는 것과;
    이 소정 격자 점에서 상기 M 개의 집음 장치까지의 거리 벡터 및 이 소정 격자 점에서 기준 집음 장치까지의 거리에 따라 이 소정 격자 점에서 M 개의 집음 장치까지의 기준 지연 벡터를 결정하는 것과;
    상기 기준 지연 벡터에 따라 각 주파수 점에서의 이 소정 격자 점의 스티어링 벡터를 결정하는 것; 을 포함하는 것
    을 특징으로 하는 집음 장치.
  9. 제7항에 있어서,
    상기 각 소정 격자 점에서, 상기 각 주파수 점에서의 스티어링 벡터에 따라 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 이 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 획득하는 것은,
    상기 각 주파수 점의 스티어링 벡터 및 각 주파수 점의 노이즈 공분산 행렬에 따라 각 주파수 점에 대응하는 빔 포밍 가중치 계수를 결정하는 것과;
    상기 빔 포밍 가중치 계수 및 상기 M 개의 원 주파수 영역 신호에 따라 각 소정 격자 점에 대응하는 빔 포밍 주파수 영역 신호를 결정하는 것; 을 포함하는 것
    을 특징으로 하는 집음 장치.
  10. 제6항에 있어서,
    상기 N 개의 소정 격자 점은, 상기 M 개의 집음 장치에 의해 형성되는 어레이 좌표계의 수평면 내의 하나의 원 상에 균등하게 배열되는 것
    을 특징으로 하는 집음 장치.
  11. 프로세서와,
    프로세서에서 실행 가능한 명령어를 기억하기 위한 메모리를 구비하고,
    상기 프로세서는,
    M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하고,
    N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호 얻어지며,
    상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상이며,
    상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하도록 구성되고,
    여기서, M, N, K는 2 이상의 정수인 것
    을 특징으로 하는 집음 장치.
  12. 비 일시적 컴퓨터 판독 가능한 기록 매체에 있어서, 상기 기록 매체의 명령어가 단말기의 프로세서에 의해 실행되면 단말기로 하여금 집음 방법을 실행하게 하며, 상기 방법은,
    M 개의 집음 장치에 의해 수집된 M 개의 시간 영역 신호를 M 개의 원 주파수 영역 신호로 변환하는 단계;
    N 개의 소정 격자 점의 각각에서 상기 M 개의 원 주파수 영역 신호를 빔 포밍하여 상기 N 개의 소정 격자 점에 1 대 1로 대응하는 N 개의 빔 포밍 주파수 영역 신호가 얻어지는 단계;
    상기 N 개의 빔 포밍 주파수 영역 신호에 따라 K 개의 주파수 점의 각각에 대응하는 N 개의 주파수 성분의 평균 진폭을 결정하고, 상기 K 개의 주파수 점을 포함하고 또한 각 주파수 점에서 상기 평균 진폭을 진폭으로 하는 합성 주파수 영역 신호를 합성하며, 각 주파수 점에서의 상기 합성 주파수 영역 신호의 위상은 상기 M 개의 집음 장치에서 지정된 기준 집음 장치의 원 주파수 영역 신호의 대응 위상인 단계;
    상기 합성 주파수 영역 신호를 합성 시간 영역 신호로 변환하는 단계; 를 포함하고,
    여기서, M, N, K는 2 이상의 정수인
    비 일시적 컴퓨터 판독 가능한 기록 매체.
KR1020197033729A 2019-08-15 2019-10-15 집음 방법, 장치 및 매체 KR102306066B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910754717.8A CN110517703B (zh) 2019-08-15 2019-08-15 一种声音采集方法、装置及介质
CN201910754717.8 2019-08-15
PCT/CN2019/111322 WO2021027049A1 (zh) 2019-08-15 2019-10-15 一种声音采集方法、装置及介质

Publications (2)

Publication Number Publication Date
KR20210021252A true KR20210021252A (ko) 2021-02-25
KR102306066B1 KR102306066B1 (ko) 2021-09-29

Family

ID=68626227

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197033729A KR102306066B1 (ko) 2019-08-15 2019-10-15 집음 방법, 장치 및 매체

Country Status (7)

Country Link
US (1) US10945071B1 (ko)
EP (1) EP3779984A1 (ko)
JP (1) JP6993433B2 (ko)
KR (1) KR102306066B1 (ko)
CN (1) CN110517703B (ko)
RU (1) RU2732854C1 (ko)
WO (1) WO2021027049A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501283B (zh) * 2022-04-15 2022-06-28 南京天悦电子科技有限公司 一种针对数字助听器的低复杂度双麦克风定向拾音方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040094300A (ko) * 2003-05-02 2004-11-09 삼성전자주식회사 마이크로폰 어레이 방법 및 시스템 및 이를 이용한 음성인식 방법 및 장치
KR20190016683A (ko) * 2017-08-09 2019-02-19 (주)에스엠인스트루먼트 마이크로폰 어레이를 이용한 회의록 자동작성장치

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US8213623B2 (en) * 2007-01-12 2012-07-03 Illusonic Gmbh Method to generate an output audio signal from two or more input audio signals
KR101456866B1 (ko) * 2007-10-12 2014-11-03 삼성전자주식회사 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
CN101685638B (zh) * 2008-09-25 2011-12-21 华为技术有限公司 一种语音信号增强方法及装置
GB2473267A (en) * 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
CN103513250B (zh) * 2012-06-20 2015-11-11 中国科学院声学研究所 一种基于鲁棒自适应波束形成原理的模基定位方法及系统
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US9338551B2 (en) * 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
US10276178B2 (en) * 2013-08-30 2019-04-30 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
CN105590631B (zh) * 2014-11-14 2020-04-07 中兴通讯股份有限公司 信号处理的方法及装置
CN104766093B (zh) * 2015-04-01 2018-02-16 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
GB2549922A (en) * 2016-01-27 2017-11-08 Nokia Technologies Oy Apparatus, methods and computer computer programs for encoding and decoding audio signals
KR102151682B1 (ko) * 2016-03-23 2020-09-04 구글 엘엘씨 다중채널 음성 인식을 위한 적응성 오디오 강화
JP6477648B2 (ja) * 2016-09-29 2019-03-06 トヨタ自動車株式会社 キーワード生成装置およびキーワード生成方法
JP6260666B1 (ja) * 2016-09-30 2018-01-17 沖電気工業株式会社 収音装置、プログラム及び方法
CN106710601B (zh) * 2016-11-23 2020-10-13 合肥美的智能科技有限公司 一种语音信号降噪拾音处理方法和装置及冰箱
BR112019013555A2 (pt) * 2017-01-03 2020-01-07 Koninklijke Philips N.V. Aparelho para captura de áudio, método de captura de áudio e produto de programa de computador
US10097920B2 (en) * 2017-01-13 2018-10-09 Bose Corporation Capturing wide-band audio using microphone arrays and passive directional acoustic elements
CN107123421A (zh) * 2017-04-11 2017-09-01 广东美的制冷设备有限公司 语音控制方法、装置及家电设备
US20180358032A1 (en) * 2017-06-12 2018-12-13 Ryo Tanaka System for collecting and processing audio signals
CN108694957B (zh) * 2018-04-08 2021-08-31 湖北工业大学 基于圆形麦克风阵列波束形成的回声抵消设计方法
CN108831495B (zh) * 2018-06-04 2022-11-29 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
US10694285B2 (en) * 2018-06-25 2020-06-23 Biamp Systems, LLC Microphone array with automated adaptive beam tracking
US10210882B1 (en) * 2018-06-25 2019-02-19 Biamp Systems, LLC Microphone array with automated adaptive beam tracking
CN109631756B (zh) * 2018-12-06 2020-07-31 重庆大学 一种基于混合时频域的旋转声源识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040094300A (ko) * 2003-05-02 2004-11-09 삼성전자주식회사 마이크로폰 어레이 방법 및 시스템 및 이를 이용한 음성인식 방법 및 장치
KR20190016683A (ko) * 2017-08-09 2019-02-19 (주)에스엠인스트루먼트 마이크로폰 어레이를 이용한 회의록 자동작성장치

Also Published As

Publication number Publication date
EP3779984A1 (en) 2021-02-17
US10945071B1 (en) 2021-03-09
JP6993433B2 (ja) 2022-01-13
CN110517703B (zh) 2021-12-07
WO2021027049A1 (zh) 2021-02-18
JP2022500681A (ja) 2022-01-04
RU2732854C1 (ru) 2020-09-23
KR102306066B1 (ko) 2021-09-29
US20210051402A1 (en) 2021-02-18
CN110517703A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
US9641929B2 (en) Audio signal processing method and apparatus and differential beamforming method and apparatus
JP6400566B2 (ja) ユーザインターフェースを表示するためのシステムおよび方法
KR20210091034A (ko) 평면 마이크로폰 어레이들에 대한 다중-소스 추적 및 음성 활동 검출들
KR20140144410A (ko) 음향신호를 위한 빔포밍 방법 및 장치
US20100157738A1 (en) Sonic Wave Output Device, Voice Communication Device, Sonic Wave Output Method and Program
CN110364161A (zh) 响应语音信号的方法、电子设备、介质及系统
CN103026734A (zh) 生成带有可操控零位的波束成形的音频信号的电子装置
CN110133594B (zh) 一种声源定位方法、装置和用于声源定位的装置
KR20210117120A (ko) 오디오 신호 처리 방법 및 장치, 저장 매체
KR102306066B1 (ko) 집음 방법, 장치 및 매체
CN113506582A (zh) 声音信号识别方法、装置及系统
CN113053406A (zh) 声音信号识别方法及装置
CN110133595A (zh) 一种声源测向方法、装置和用于声源测向的装置
Bai et al. Localization and separation of acoustic sources by using a 2.5-dimensional circular microphone array
CN114255781A (zh) 一种多通道音频信号获取方法、装置及系统
CN109545217B (zh) 语音信号接收方法、装置、智能终端及可读存储介质
CN113287032A (zh) 通过声音信号跟踪手的运动来控制设备
CN117153180A (zh) 声音信号处理方法、装置、存储介质及电子设备
Horiuchi et al. A pointing system based on acoustic position estimation and gravity sensing
CN113223548B (zh) 声源定位方法及装置
US20240073571A1 (en) Generating microphone arrays from user devices
CN117528350A (zh) 指定位置声音效果重建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant