KR20130084298A - 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체 - Google Patents
원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체 Download PDFInfo
- Publication number
- KR20130084298A KR20130084298A KR1020137012859A KR20137012859A KR20130084298A KR 20130084298 A KR20130084298 A KR 20130084298A KR 1020137012859 A KR1020137012859 A KR 1020137012859A KR 20137012859 A KR20137012859 A KR 20137012859A KR 20130084298 A KR20130084298 A KR 20130084298A
- Authority
- KR
- South Korea
- Prior art keywords
- values
- coefficients
- signal
- frequency
- response
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 101
- 238000000926 separation method Methods 0.000 title claims description 44
- 230000004044 response Effects 0.000 claims abstract description 134
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 27
- 230000009467 reduction Effects 0.000 claims description 16
- 230000006978 adaptation Effects 0.000 description 55
- 239000011159 matrix material Substances 0.000 description 53
- 238000010586 diagram Methods 0.000 description 49
- 238000004891 communication Methods 0.000 description 25
- 239000000243 solution Substances 0.000 description 25
- 238000003491 array Methods 0.000 description 19
- 101100401568 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MIC10 gene Proteins 0.000 description 16
- 230000002452 interceptive effect Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012880 independent component analysis Methods 0.000 description 6
- 230000004807 localization Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 101001043818 Mus musculus Interleukin-31 receptor subunit alpha Proteins 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 101000608720 Helianthus annuus 10 kDa late embryogenesis abundant protein Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000003855 balanced salt solution Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100229939 Mus musculus Gpsm1 gene Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
다중 채널 신호 처리 장치는 추정된 음원 방향에서의 빔으로 분리 필터 뱅크를 초기화하는 것, 지정된 제약 조건 하에서 분리 필터 뱅크를 적응시키는 것, 및 방향에 대한 최대 응답에 기초하여 적응된 해를 정규화하는 것에 의해 상이한 음원으로부터의 신호 성분들을 분리시킨다. 이러한 장치는 마이크 어레이로부터 원거리에서 서로 가까이 있는 음원으로부터의 신호 성분들을 분리시키는 데 사용될 수 있다.
Description
미국 특허법 제119조 하에서의 우선권 주장
본 출원은 2010년 10월 22일자로 출원되고 본 출원의 양수인에게 양도된, 발명의 명칭이 “원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체(SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR FAR-FIELD MULTI-SOURCE TRACKING AND SEPARATION)”인 미국 가특허 출원 제61/405,922호를 기초로 우선권을 주장한다.
본 개시 내용은 오디오 신호 처리에 관한 것이다.
일반 구성에 따라 다중 채널 신호를 처리하는 장치는 (A) 제1 출력 신호를 생성하기 위해 다중 채널 신호에 기초하는 제1 신호에 복수의 제1 계수를 적용하도록 구성되어 있는 제1 필터 및 (B) 제2 출력 신호를 생성하기 위해 다중 채널 신호에 기초하는 제2 신호에 복수의 제2 계수를 적용하도록 구성되어 있는 제2 필터를 가지는 필터 뱅크를 포함한다. 이 장치는 또한 제1 음원 방향에 기초하여 복수의 제1 계수에 대한 초기 값 세트를 생성하고 제1 음원 방향과 상이한 제2 음원 방향에 기초하여 복수의 제2 계수에 대한 초기 값 세트를 생성하도록 구성되어 있는 필터 배향 모듈을 포함한다. 이 장치는 또한 복수의 응답에 기초하여, 지정된 특성을 가지는 응답을 결정하고 지정된 특성을 가지는 상기 응답에 기초하여 복수의 제1 계수에 대한 초기 값 세트를 갱신하도록 구성되어 있는 필터 갱신 모듈을 포함한다. 이 장치에서, 상기 복수의 응답의 각각의 응답은 복수의 방향 중 대응하는 방향에서의 응답이다.
도 1a는 일반 구성에 따른 장치(A100)의 블록도.
도 1b는 마이크 어레이(R100) 및 장치(A100)의 인스턴스를 포함하는 디바이스(D10)의 블록도.
도 1c는 점 음원 j로부터 수신되는 신호 성분의, 어레이(R100)의 마이크(MC10 및 MC20)의 축에 대한 도착 방향(direction of arrival) 을 나타낸 도면.
도 2는 장치(A100)의 구현예(A110)의 블록도.
도 3a는 MVDR 빔 패턴의 예를 나타낸 도면.
도 3b 및 도 3c는 2개의 상이한 초기 조건 세트 하에서의 도 3a의 빔 패턴의 변형례를 나타낸 도면.
도 4는 2개의 지향성 음원(directional source)이 어레이로부터 2.5 미터에서 어레이에 대해 서로로부터 약 40 내지 60도 떨어져 위치해 있는 경우에 대한 4개의 BSS 필터의 세트의 예를 나타낸 도면.
도 5는 2개의 지향성 음원이 어레이로부터 2.5 미터에서 어레이에 대해 서로로부터 약 15도 떨어져 위치해 있는 경우에 대한 4개의 BSS 필터의 세트의 예를 나타낸 도면.
도 6은 다른 관점으로부터의 BSS-적응된 빔 패턴의 예를 나타낸 도면.
도 7a는 필터 갱신 모듈(UM10)의 구현예(UM20)의 블록도.
도 7b는 필터 갱신 모듈(UM20)의 구현예(UM22)의 블록도.
도 8은 제약된 BSS(constrained BSS)에 의한 적응 이전(상부 플롯) 및 이후(하부 플롯)의 2개의 음원 필터(source filter)의 예를 나타낸 도면.
도 9는 제약된 BSS에 의한 적응 이전(상부 플롯) 및 이후(하부 플롯)의 2개의 음원 필터의 다른 예를 나타낸 도면.
도 10은 부분 적응 이전(상부 플롯) 및 이후(하부 플롯)의 빔 패턴의 예를 나타낸 도면.
도 11a는 필터 뱅크(BK10)의 피드포워드 구현예(BK20)의 블록도.
도 11b는 피드포워드 필터(FF10A)의 구현예(FF12A)의 블록도.
도 11c는 피드포워드 필터(FF10B)의 구현예(FF12B)의 블록도.
도 12는 FIR 필터(FIR10)의 블록도.
도 13은 피드포워드 필터(FF12A)의 구현예(FF14A)의 블록도.
도 14는 장치(A100)의 구현예(A200)의 블록도.
도 15a는 카메라(CM10)를 갖는 어레이(R100)의 4 마이크 구현예(R104)의 배열의 한 예의 상면도.
도 15b는 도착 방향의 추정을 위한 원거리 모델을 나타낸 도면.
도 16은 장치(A100)의 구현예(A120)의 블록도.
도 17은 장치(A120 및 A200)의 구현예(A220)의 블록도.
도 18은 DOA 추정을 위해 SRP-PHAT를 사용한 결과 얻어진 히스토그램의 예를 나타낸 도면.
도 19는 IVA 적응 규칙(40 내지 60도의 음원 분리)을 사용하여 적응되어 있는 분리 행렬(unmixing matrix)의 상이한 출력 채널에 대한 4개의 히스토그램의 세트의 예를 나타낸 도면.
도 20은 IVA 적응 규칙(15도의 음원 분리)을 사용하여 적응되어 있는 분리 행렬의 상이한 출력 채널에 대한 4개의 히스토그램의 세트의 예를 나타낸 도면.
도 21은 상이한 어레이 세로 방향(endfire direction)으로 고정되어 있는 4 채널 시스템의 필터의 빔 패턴의 예를 나타낸 도면.
도 22는 장치(A110)의 구현예(A140)의 블록도.
도 23은 일반 구성에 따라 다중 채널 신호를 처리하는 방법(M100)의 플로우차트.
도 24는 방법(M100)의 구현예(M120)의 플로우차트.
도 25a는 다른 일반 구성에 따라 다중 채널 신호를 처리하는 장치(MF100)의 블록도.
도 25b는 장치(MF100)의 구현예(MF120)의 블록도.
도 26a 내지 도 26c는 얻어진 어레이로부터의 마이크 간격 및 빔 패턴의 예를 나타낸 도면.
도 27a는 전형적인 단일 지향성 마이크 응답(unidirectional microphone response)의 다이어그램을 나타낸 도면.
도 27b는 단일 지향성 마이크의 불균일 선형 어레이(non-uniform linear array)의 다이어그램을 나타낸 도면.
도 28a는 어레이(R100)의 구현예(R200)의 블록도.
도 28b는 어레이(R200)의 구현예(R210)의 블록도.
도 29a는 디바이스(D10)의 구현예인 통신 디바이스(D20)의 블록도.
도 29b는 디바이스(D10)의 구현예인 통신 디바이스(D30)의 블록도.
도 30a 내지 도 30d는 디바이스(D10)의 회의 구현예의 몇가지 예의 상면도.
도 31a는 디바이스(D10)의 구현예(DS10)의 블록도.
도 31b는 디바이스(D10)의 구현예(DS20)의 블록도.
도 32a 및 도 32b는 오디오 감지 디바이스(D10)의 구현예에 대한 원거리 사용 사례의 예를 나타낸 도면.
도 33은 핸드셋(H100)의 정면도, 배면도 및 측면도.
유의할 점은, 도 3a 내지 도 3c, 도 4, 도 5, 도 8 내지 도 10 및 도 21과 도 26a 내지 도 26c에서의 플롯이 원래의 그림에 표시되는 정보의 일부만을 제시하는 의사 컬러 그림의 그레이스케일 매핑이라는 것이다. 이들 그림에서, 원래의 중간 스케일 값은 백색에 매핑되고, 원래의 최소값 및 최대값은 둘 다 흑색에 매핑된다.
도 1b는 마이크 어레이(R100) 및 장치(A100)의 인스턴스를 포함하는 디바이스(D10)의 블록도.
도 1c는 점 음원 j로부터 수신되는 신호 성분의, 어레이(R100)의 마이크(MC10 및 MC20)의 축에 대한 도착 방향(direction of arrival) 을 나타낸 도면.
도 2는 장치(A100)의 구현예(A110)의 블록도.
도 3a는 MVDR 빔 패턴의 예를 나타낸 도면.
도 3b 및 도 3c는 2개의 상이한 초기 조건 세트 하에서의 도 3a의 빔 패턴의 변형례를 나타낸 도면.
도 4는 2개의 지향성 음원(directional source)이 어레이로부터 2.5 미터에서 어레이에 대해 서로로부터 약 40 내지 60도 떨어져 위치해 있는 경우에 대한 4개의 BSS 필터의 세트의 예를 나타낸 도면.
도 5는 2개의 지향성 음원이 어레이로부터 2.5 미터에서 어레이에 대해 서로로부터 약 15도 떨어져 위치해 있는 경우에 대한 4개의 BSS 필터의 세트의 예를 나타낸 도면.
도 6은 다른 관점으로부터의 BSS-적응된 빔 패턴의 예를 나타낸 도면.
도 7a는 필터 갱신 모듈(UM10)의 구현예(UM20)의 블록도.
도 7b는 필터 갱신 모듈(UM20)의 구현예(UM22)의 블록도.
도 8은 제약된 BSS(constrained BSS)에 의한 적응 이전(상부 플롯) 및 이후(하부 플롯)의 2개의 음원 필터(source filter)의 예를 나타낸 도면.
도 9는 제약된 BSS에 의한 적응 이전(상부 플롯) 및 이후(하부 플롯)의 2개의 음원 필터의 다른 예를 나타낸 도면.
도 10은 부분 적응 이전(상부 플롯) 및 이후(하부 플롯)의 빔 패턴의 예를 나타낸 도면.
도 11a는 필터 뱅크(BK10)의 피드포워드 구현예(BK20)의 블록도.
도 11b는 피드포워드 필터(FF10A)의 구현예(FF12A)의 블록도.
도 11c는 피드포워드 필터(FF10B)의 구현예(FF12B)의 블록도.
도 12는 FIR 필터(FIR10)의 블록도.
도 13은 피드포워드 필터(FF12A)의 구현예(FF14A)의 블록도.
도 14는 장치(A100)의 구현예(A200)의 블록도.
도 15a는 카메라(CM10)를 갖는 어레이(R100)의 4 마이크 구현예(R104)의 배열의 한 예의 상면도.
도 15b는 도착 방향의 추정을 위한 원거리 모델을 나타낸 도면.
도 16은 장치(A100)의 구현예(A120)의 블록도.
도 17은 장치(A120 및 A200)의 구현예(A220)의 블록도.
도 18은 DOA 추정을 위해 SRP-PHAT를 사용한 결과 얻어진 히스토그램의 예를 나타낸 도면.
도 19는 IVA 적응 규칙(40 내지 60도의 음원 분리)을 사용하여 적응되어 있는 분리 행렬(unmixing matrix)의 상이한 출력 채널에 대한 4개의 히스토그램의 세트의 예를 나타낸 도면.
도 20은 IVA 적응 규칙(15도의 음원 분리)을 사용하여 적응되어 있는 분리 행렬의 상이한 출력 채널에 대한 4개의 히스토그램의 세트의 예를 나타낸 도면.
도 21은 상이한 어레이 세로 방향(endfire direction)으로 고정되어 있는 4 채널 시스템의 필터의 빔 패턴의 예를 나타낸 도면.
도 22는 장치(A110)의 구현예(A140)의 블록도.
도 23은 일반 구성에 따라 다중 채널 신호를 처리하는 방법(M100)의 플로우차트.
도 24는 방법(M100)의 구현예(M120)의 플로우차트.
도 25a는 다른 일반 구성에 따라 다중 채널 신호를 처리하는 장치(MF100)의 블록도.
도 25b는 장치(MF100)의 구현예(MF120)의 블록도.
도 26a 내지 도 26c는 얻어진 어레이로부터의 마이크 간격 및 빔 패턴의 예를 나타낸 도면.
도 27a는 전형적인 단일 지향성 마이크 응답(unidirectional microphone response)의 다이어그램을 나타낸 도면.
도 27b는 단일 지향성 마이크의 불균일 선형 어레이(non-uniform linear array)의 다이어그램을 나타낸 도면.
도 28a는 어레이(R100)의 구현예(R200)의 블록도.
도 28b는 어레이(R200)의 구현예(R210)의 블록도.
도 29a는 디바이스(D10)의 구현예인 통신 디바이스(D20)의 블록도.
도 29b는 디바이스(D10)의 구현예인 통신 디바이스(D30)의 블록도.
도 30a 내지 도 30d는 디바이스(D10)의 회의 구현예의 몇가지 예의 상면도.
도 31a는 디바이스(D10)의 구현예(DS10)의 블록도.
도 31b는 디바이스(D10)의 구현예(DS20)의 블록도.
도 32a 및 도 32b는 오디오 감지 디바이스(D10)의 구현예에 대한 원거리 사용 사례의 예를 나타낸 도면.
도 33은 핸드셋(H100)의 정면도, 배면도 및 측면도.
유의할 점은, 도 3a 내지 도 3c, 도 4, 도 5, 도 8 내지 도 10 및 도 21과 도 26a 내지 도 26c에서의 플롯이 원래의 그림에 표시되는 정보의 일부만을 제시하는 의사 컬러 그림의 그레이스케일 매핑이라는 것이다. 이들 그림에서, 원래의 중간 스케일 값은 백색에 매핑되고, 원래의 최소값 및 최대값은 둘 다 흑색에 매핑된다.
데이터-독립적인 빔형성 방법은 일반적으로 다중 채널 신호 처리에서 상이한 음원으로부터(예컨대, 원하는 음원으로부터 그리고 간섭 음원으로부터) 도착하는 사운드 성분을 각자의 음원의 방향의 추정치에 기초하여 분리하는 데 유용하다. 기존의 음원 방향 추정 및 빔형성 방법은 통상적으로 멀리 있는 음원으로부터 도착하는 사운드 성분의 신뢰성있는 분리에 부적절하지만, 원하는 신호와 간섭 신호가 유사한 방향으로부터 도착하는 경우에 특히 그렇다. 개루프 빔형성 해결 방안(open-loop beamforming solution) 단독보다는 공간 필터링 동작의 실제 분리된 출력으로부터의 정보에 기초하는 적응적 해결 방안을 사용하는 것이 바람직할 수 있다. 안타깝게도, 충분한 분별 레벨(sufficient level of discrimination)을 제공하는 적응적 해결 방안은 긴 수렴 기간(convergence period)을 가질 수 있다. 긴 수렴 기간을 가지는 해결 방안이, 움직이고 있을 수 있고 및/또는 서로 아주 근접해 있을 수 있는 멀리 있는 음원을 수반하는 실시간 응용에는, 실용적이지 않을 수 있다.
멀리 있는 음원으로부터의 신호는 또한 잔향(reverberation)을 겪을 가능성이 많고, 적응 알고리즘은 부가의 잔향을 분리된 신호에 유입시킬 수 있다. 기존의 음성 잔향 제거 방법은 음원 신호(예컨대, 음성)의 스펙트럼을 백색화(whitening)하는 일 없이 실내 임펄스 응답(room impulse response)을 반전시키려고 시도하는 역필터링(inverse filtering)을 포함한다. 그렇지만, 실내 전달 함수(room transfer function)는 음원 위치에 크게 의존하고 있다. 그 결과, 이러한 방법은 통상적으로 상당한 음성 왜곡을 야기할 수 있는 실내 임펄스 전달 함수의 블라인드 반전(blind inversion)을 필요로 한다.
예를 들어, 실내에서 및/또는 간섭 음원의 존재 시에 사용되는 디바이스에 대한 음성 품질을 향상시키기 위해 사용될 수 있는 잔향 제거 및/또는 간섭 제거 시스템을 제공하는 것이 바람직할 수 있다. 이러한 시스템에 대한 응용의 예는 전화 등의 음성 통신 응용을 지원하도록 구성되어 있는 셋톱 박스 또는 기타 디바이스를 포함한다. 본 명세서에 기술된 해결 방안의 경쟁 해결 방안에 대한 성능 이점은 원하는 음원의 방향과 간섭 음원의 방향 사이의 차이가 더 작아짐에 따라 증가할 것으로 예상될 수 있다.
그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "신호"라는 용어는 와이어, 버스 또는 기타 전송 매체 상에 표현되는 바와 같은 메모리 위치(또는 메모리 위치들의 세트)의 상태를 포함하는 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "발생(generating)"이라는 용어는 컴퓨팅 또는 다른 방식으로 생성하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "계산"이라는 용어는 컴퓨팅, 평가, 평활화(smoothing) 및/또는 복수의 값 중에서 선택하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "획득(obtaining)"이라는 용어는 계산, 도출(deriving), (예컨대, 외부 디바이스로부터의) 수신, 및/또는 (예컨대, 저장 요소들의 어레이로부터의) 검색(retrieving)하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "선택"이라는 용어는 2개 이상으로 된 세트 중 적어도 하나 및 전부보다 적은 것의 식별, 표시, 적용 및/또는 사용하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. "포함하는(comprising)"이라는 용어가 본 설명 및 특허청구범위에서 사용되는 경우, 이는 다른 요소들 또는 동작들을 배제하지 않는다. ("A가 B에 기초한다"와 같이) "~에 기초한다"라는 용어는 사례들 (i) "~로부터 도출된다"(예컨대, "B는 A의 전구체이다"), (ii) "적어도 ~에 기초한다"(예컨대, "A는 적어도 B에 기초한다") 및 특정 문맥에서 적절한 경우에 (iii) "~와 동일하다"(예컨대, "A는 B와 동일하다")를 비롯한 그의 통상의 의미들 중 어느 하나를 나타내는 데 사용된다. 이와 유사하게, "~에 응답하여"라는 용어는 "적어도 ~에 응답하여"를 비롯한 그의 통상의 의미들 중 어느 하나를 나타내는 데 사용된다.
다중 마이크 오디오 감지 디바이스의 마이크의 "위치"에 대한 참조는, 문맥이 달리 나타내지 않는 한, 마이크의 음향학적으로 민감한 면의 중앙의 위치를 나타낸다. "채널"이라는 용어는, 특정 문맥에 따라, 어떤 때는 신호 경로를 나타내는 데 사용되고, 다른 때는 그러한 경로에 의해 전달되는 신호를 나타내는 데 사용된다. 달리 나타내지 않는 한, "시리즈"라는 용어는 둘 이상의 항목의 시퀀스를 나타내는 데 사용된다. "로그"라는 용어는 밑수 10의 로그를 나타내는 데 사용되지만, 그러한 연산의 다른 밑수로의 확장도 본 발명의 범위 내에 있다. "주파수 성분"이라는 용어는 (예컨대, 고속 푸리에 변환에 의해 생성되는 바와 같은) 신호의 주파수 영역 표현의 샘플 또는 신호의 서브대역(예컨대, 바크(Bark) 스케일 또는 멜(mel) 스케일 서브대역)과 같은 신호의 주파수들 또는 주파수 대역들의 세트 중 하나를 나타내는 데 사용된다.
달리 나타내지 않는 한, 특정의 특징을 가지는 장치의 동작에 대한 임의의 개시는 또한 유사한 특징을 가지는 방법을 개시하는 것도 명확히 의도하며(그 반대도 마찬가지임), 특정의 구성에 따른 장치의 동작에 대한 임의의 개시는 또한 유사한 구성에 따른 방법을 개시하는 것도 명확히 의도하고 있다(그 반대도 마찬가지임). "구성"이라는 용어는, 그의 특정의 문맥이 나타내는 바와 같이, 방법, 장치 및/또는 시스템과 관련하여 사용될 수 있다. "방법", "프로세스", "절차" 및 "기술"이라는 용어들은, 특정의 문맥이 달리 나타내지 않는 한, 총칭적으로 그리고 서로 바꾸어 사용될 수 있다. "장치" 및 "디바이스"라는 용어들이 또한, 특정의 문맥이 달리 나타내지 않는 한, 총칭적으로 그리고 서로 바꾸어 사용될 수 있다. "요소" 및 "모듈"이라는 용어들은 통상적으로 더 큰 구성의 일부분을 나타내는 데 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "시스템"이라는 용어는 "공통의 목적을 이루기 위해 상호작용하는 요소들의 그룹"을 비롯한 그의 통상의 의미들 중 어느 하나를 나타내는 데 사용된다. 문헌의 일부분의 참조 문헌으로서의 임의의 포함은 또한 그 부분 내에서 참조되는 용어들 또는 변수들의 정의들을 포함하는 것으로도 이해되어야 하며, 그러한 정의들은 포함된 부분에서 참조되는 임의의 도면들은 물론, 문헌의 다른 곳에도 나온다. 정관사가 먼저 나오지 않는 한, 청구항 요소를 수식하기 위해 사용되는 서수 용어(예컨대, "제1", "제2", "제3" 등)은 그 자체가 청구항 요소의 다른 청구항 요소에 대한 어떤 우선순위 또는 순서를 나타내지 않고, 오히려 청구항 요소를 (서수 용어의 사용이 없다면) 동일한 이름을 가지는 다른 청구항 요소와 구별해줄 뿐이다. 그의 문맥에 의해 명확히 제한되지 않는 한, "복수"라는 용어는 1보다 큰 정수량을 나타내는 데 사용된다.
음원 또는 음원들이 녹음 디바이스로부터 먼 거리에(예컨대, 2 미터 이상의 거리에) 위치해 있을 때 원거리 오디오 처리(예컨대, 음성 개선)에 대한 응용이 있을 수 있다. 예를 들어, 텔레비전 디스플레이를 수반하는 많은 응용에서, 소파에 앉아서 텔레비전을 시청하는 것, 비디오 게임을 플레이하는 것, 음악 비디오 게임과 상호작용하는 것 등과 같은 활동을 수행하는 사람 화자(human speaker)는 통상적으로 디스플레이로부터 적어도 2 미터 떨어져 위치해 있다.
원거리 사용 사례의 제1 예에서, 개개의 음원들 중 하나 이상의 음원으로부터 각자의 사운드 성분을 획득하기 위해 몇개의 상이한 음원을 포함하는 음향적 장면(acoustic scene)의 녹음이 분해된다. 예를 들어, 상이한 음원(예컨대, 상이한 음성 및/또는 악기)으로부터의 사운드가 분리되도록 라이브 음악 공연을 녹음하는 것이 바람직할 수 있다. 다른 이러한 예에서, "록 밴드" 유형의 비디오 게임 등의 비디오 게임의 2명 이상의 상이한 플레이어로부터의 음성 입력들(예컨대, 명령 및/또는 노래)을 구별하는 것이 바람직할 수 있다.
원거리 사용 사례의 제2 예에서, 음향적 시야(acoustic field of view)를 좁히는 것("줌인 마이크"라고도 함)에 의해 원거리 음성 개선을 수행하기 위해 다중 마이크 디바이스가 사용된다. 카메라를 통해 장면을 보고 있는 사용자는 시각적 시야(visual field of view)를, 예를 들어, 개개의 스피커 또는 기타 음원으로 선택적으로 줌잉하기 위해 카메라의 렌즈 줌 기능을 사용할 수 있다. 상보적인 음향적 "줌인" 효과를 생성하기 위해 녹음되고 있는 음향적 영역도 역시 시각적 줌 동작과 동기하여 선택된 음원으로 좁혀지도록 카메라를 구현하는 것이 바람직할 수 있다.
원거리 사용 사례의 제3 예에서, 텔레비전 세트(예컨대, 화면의 상부 가장자리를 따라) 또는 셋톱 박스 상에 또는 그 안에 탑재되어 있는 마이크 어레이를 가지는 녹음 시스템은 (예컨대, 도 32a 및 도 32b에 도시된 바와 같이) 약 2 또는 3 미터 떨어져 소파에 나란히 앉아 있는 사용자들을 구별하도록 구성되어 있다. 예를 들어, 어깨를 나란히 하고 앉아 있는 화자들의 음성을 분리하는 것이 바람직할 수 있다. 이러한 동작은 (실내에서 산란되는 사운드와 달리) 화자가 청자(listener) 앞에 서 있는 청각적 인상(audible impression)을 생성하도록 설계될 수 있다. 이러한 사용 사례에 대한 응용은 전화 및 음성-작동 리모콘(예컨대, 텔레비전 채널, 비디오 소스 및/또는 볼륨 제어 설정 중의 음성-제어 선택을 위해)을 포함한다.
원거리 음성 개선 응용은 고유의 난제를 제기한다. 이들 원거리 사용 사례에서, 음원과 트랜스듀서 사이의 거리의 증가는 녹음된 신호에 강한 잔향을 생기게 하는 경향이 있으며, 사무실, 집 또는 차량 내부, 또는 다른 밀폐된 공간에서 특히 그렇다. 음원 위치 불확실성도 역시 원거리 응용에 대한 특정의 강력한 해결 방안의 필요성의 원인이 된다. 원하는 스피커와 마이크 사이의 거리가 크기 때문에, 직접 경로 대 잔향비(direct-path-to-reverberation ratio)가 작고 음원 위치를 결정하기가 어렵다. 또한, 실내 저역 통과 필터링 효과 및 저주파에서의 높은 잔향 전력 등의 효과를 상쇄시키기 위해, 원거리 사용 사례에서 부가의 음성 스펙트럼 정형(speech spectrum shaping)[저주파 포만트 합성(formant synthesis) 및/또는 고주파 증폭(boost) 등]을 수행하는 것이 바람직할 수 있다.
특정의 멀리 있는 음원으로부터 도착하는 사운드 성분을 구별하는 것은 단순히 특정의 방향으로 빔 패턴을 좁히는 문제가 아니다. 필터의 크기를 증가시킴으로써(예컨대, 빔 패턴을 정의하는 데 보다 긴 초기 계수 값 세트를 사용함으로써) 빔 패턴의 공간 폭이 좁혀질 수 있지만, 음원에 대해 단일 도착 방향에만 의존하는 것에 의해 실제로 필터가 음원 에너지의 대부분을 놓쳐 버리게 될 수 있다. 예를 들어, 잔향 등의 효과로 인해, 음원 신호는 통상적으로 상이한 주파수에서 얼마간 상이한 방향으로부터 도착하고, 따라서 멀리 있는 음원에 대한 도착 방향이 통상적으로 명확하지 않다. 그 결과, 신호의 에너지가 특정의 방향으로 집중되기보다는 일정 범위의 각도에 걸쳐 확산될 수 있고, 특정의 음원에 대한 도착 각도를 단일 방향에서의 피크로서보다는 일정 범위의 주파수에 걸쳐 무게 중심(center of gravity)으로서 나타내는 것이 보다 유용할 수 있다.
필터의 빔 패턴이 단 하나의 방향(예컨대, 임의의 하나의 주파수에서의 최대 에너지로 표시되는 방향)보다는 상이한 주파수에서의 방향들의 집결의 폭(width of a concentration)에 걸쳐 있는 것이 바람직할 수 있다. 예를 들어, 빔이 상이한 대응하는 주파수에서 이러한 집결의 폭 내에서 약간 다른 방향으로 향해 있을 수 있게 해주는 것이 바람직할 수 있다.
하나의 주파수에서는 특정의 방향에서 최대 응답을 가지고 또 하나의 주파수에서는 상이한 방향에서 최대 응답을 가지는 필터를 획득하기 위해 적응적 빔형성 알고리즘이 사용될 수 있다. 적응적 빔형성기는 통상적으로 정확한 음성 활동(voice activity) 검출에 의존하지만, 이는 원거리 스피커에 대해서는 달성하기가 어렵다. 이러한 알고리즘은 또한 원하는 음원으로부터의 신호와 간섭 음원으로부터의 신호가 유사한 스펙트럼을 가질 때(예컨대, 2개의 음원 둘 다가 사람이 말하는 것일 때) 제대로 기능하지 않을 수 있다. 적응적 빔형성기에 대한 대안으로서, 하나의 주파수에서는 특정의 방향에서 최대 응답을 가지고 또 하나의 주파수에서는 상이한 방향에서 최대 응답을 가지는 필터를 획득하기 위해 블라인드 음원 분리(blind source separation, BSS) 해결 방안이 또한 사용될 수 있다. 그렇지만, 이러한 알고리즘은 느린 수렴, 국소 최소값으로의 수렴 및/또는 스케일링 불확정성(scaling ambiguity)을 나타낼 수 있다.
양호한 초기 조건을 제공하는 데이터-독립적인 개루프 방식(예컨대, MVDR 빔형성기)을 음성 활동 검출기(예컨대, BSS)의 사용 없이 출력들 사이의 상관을 최소화하고 따라서 정제된 강력한 분리 해결 방안(refined and robust separation solution)을 제공하는 폐루프 방법과 결합시키는 것이 바람직할 수 있다. BSS 방법이 시간이 지남에 따라 적응을 수행하기 때문에, 반향이 있는 환경에서도 강력한 해결 방안을 생성할 것으로 예상될 수 있다.
필터를 초기화하는 데 널 빔(null beam)을 사용하는 기존의 BSS 초기화 방식과 달리, 본 명세서에 기술된 해결 방안은 지정된 음원 방향으로 집속(focus)하도록 필터를 초기화하는 데 음원 빔(source beam)을 사용한다. 이러한 초기화가 없는 경우, BSS 방법이 유용한 해결 방안에 실시간으로 적응할 것으로 예상하는 것은 타당하지 않을 수 있다.
도 1a는 필터 뱅크(BK10), 필터 배향 모듈(OM10), 및 필터 갱신 모듈(UM10)을 포함하고 다중 채널 신호[이 예에서, 입력 채널(MCS10-1 및 MCS10-2)]를 수신하도록 배열되어 있는, 일반 구성에 따른 장치(A100)의 블록도를 나타낸 것이다. 필터 뱅크(BK10)는 제1 출력 신호(OS10-1)를 생성하기 위해 다중 채널 신호에 기초하는 제1 신호에 복수의 제1 계수를 적용하도록 구성되어 있다. 필터 뱅크(BK10)는 또한 제2 출력 신호(OS10-2)를 생성하기 위해 다중 채널 신호에 기초하는 제2 신호에 복수의 제2 계수를 적용하도록 구성되어 있다. 필터 배향 모듈(OM10)은 제1 음원 방향(DA10)에 기초하는 복수의 제1 계수에 대한 초기 값(CV10) 세트를 생성하고 제1 음원 방향(DA10)과 상이한 제2 음원 방향(DA20)에 기초하는 복수의 제2 계수에 대한 초기 값(CV20) 세트를 생성하도록 구성되어 있다. 필터 갱신 모듈(UM10)은, 제1 및 제2 출력 신호로부터의 정보에 기초하여, 복수의 제1 계수 및 복수의 제2 계수에 대한 초기 값 세트를 갱신하여 대응하는 갱신된 값(UV10 및 UV20) 세트를 생성하도록 구성되어 있다.
각각의 음원 방향(DA10 및 DA20)이 입력 채널(MCS10-1 및 MCS10-2)을 생성하는 마이크 어레이에 대한(예컨대, 어레이의 마이크의 축에 대한) 대응하는 음원의 추정된 방향을 나타내는 것이 바람직할 수 있다. 도 1b는 마이크 어레이(R100) 및 어레이로부터 다중 채널 신호(MCS10)[예컨대, 입력 채널(MCS10-1 및 MCS10-2)을 포함함]를 수신하도록 배열되어 있는 장치(A100)의 인스턴스를 포함하는 디바이스(D10)의 블록도를 나타낸 것이다. 도 1c는 점 음원 j로부터 수신되는 신호 성분의, 어레이(R100)의 마이크(MC10 및 MC20)의 축에 대한 도착 방향 을 나타낸 것이다. 어레이의 축은 마이크의 음향적으로 민감한 면의 중심을 통과하는 선으로서 정의된다. 이 예에서, 라벨 d는 마이크(MC10)와 마이크(MC20) 사이의 거리를 나타낸다.
필터 배향 모듈(OM10)은 각자의 음원 방향(DA10, DA20)에서의 빔을 나타내는 초기 계수 값(CV10, CV20) 세트를 발생하기 위해 빔형성 알고리즘을 실행하도록 구현될 수 있다. 빔형성 알고리즘의 예로는 DSB(delay-and-sum beamformer, 지연-합 빔형성기), LCMV(linear constraint minimum variance, 선형 제한 최소 분산), 및 MVDR(minimum variance distortionless response, 최소 분산 무왜곡 응답)가 있다. 한 예에서, 필터 배향 모듈(OM10)은 각각의 필터가
등의 데이터-독립적인 수식에 따라 다른쪽 음원 방향에서 영 응답(zero response)(또는 널 빔)을 가지도록 빔형성기의 NxM 계수 행렬 W를 계산하도록 구현되어 있고, 여기서 r(ω)는 비가역성(noninvertibility)을 보상하기 위한 정규화 항(regularization term)이다. 다른 일례에서, 필터 배향 모듈(OM10)은
등의 수식에 따라 MVDR 빔형성기의 NxM 계수 행렬 W를 계산하도록 구현되어 있다.
이들 예에서, N은 출력 채널의 수를 나타내고, M은 입력 채널의 수(예컨대, 마이크의 수)를 나타내며, Φ는 잡음의 정규화된 교차-전력 스펙트럼 밀도 행렬(normalized cross-power spectral density matrix)을 나타내고, D(ω)는 MxN 어레이 매니폴드(array manifold) 행렬[지향성 행렬(directivity matrix)이라고도 함]을 나타내며, 위첨자 H는 공액 전치 함수(conjugate transpose function)를 나타낸다. M이 N보다 크거나 같은 것이 통상적이다.
계수 행렬 W의 각각의 행은 필터 뱅크(BK10)의 대응하는 필터의 계수에 대한 초기값을 정의한다. 한 예에서, 계수 행렬 W의 첫번째 행은 초기값(CV10)을 정의하고, 계수 행렬 W의 두번째 행은 초기값(CV20)을 정의한다. 다른 일례에서, 계수 행렬 W의 첫번째 행은 초기값(CV20)을 정의하고, 계수 행렬 W의 두번째 행은 초기값(CV10)을 정의한다.
행렬 D의 각각의 열 j는
으로 표현될 수 있는 주파수 ω에 대한 원거리 음원 j에 대한 지향성 벡터(directivity vector)[또는 "조종 벡터(steering vector)"]이다.
이 수식에서, i는 허수를 나타내고, c는 매질에서의 소리의 전파 속도를 나타내며(예컨대, 공기 중에서 340 m/s), θj는 마이크 어레이의 축에 대한 음원 j의 방향[예컨대, j=1에 대한 방향(DA10) 및 j=2에 대한 방향(DA20)]을, 도 1c에 도시된 바와 같이, 도착 입사각(incident angle of arrival)으로서 나타내고, pos(m)은 M개의 마이크의 어레이에서의 m번째 마이크의 공간 좌표를 나타낸다. 균일한 마이크간 간격 d를 갖는 선형 마이크 어레이의 경우, 인자 pos(m)는 로서 표현될 수 있다.
확산 잡음 음장(diffuse noise field)의 경우, 행렬 Φ는
등의 코히런스 함수(coherence function) Γ를 사용하여 대체될 수 있고, 여기서 는 마이크 i와 마이크 j 사이의 거리를 나타낸다. 추가의 예에서, 행렬 Φ는 로 대체되고, 여기서 는 (예컨대, 안정성에 대한) 대각 로딩 인자(diagonal loading factor)이다.
통상적으로, 필터 뱅크(BK10)의 출력 채널의 수 N은 입력 채널의 수 M보다 작거나 같다. 도 1a가 N의 값이 2인[즉, 2개의 출력 채널(OS10-1 및 OS10-2)을 갖는] 장치(A100)의 구현예를 나타낸 것이지만, N 및 M이 2보다 큰 값(예컨대, 3, 4 또는 그 이상)을 가질 수 있다는 것을 잘 알 것이다. 이러한 일반적인 경우에, 필터 뱅크(BK10)는 N개의 필터를 포함하도록 구현되어 있고, 필터 배향 모듈(OM10)은 이들 필터에 대한 N개의 대응하는 초기 계수 값 세트를 생성하도록 구현되어 있으며, 이들 원리의 이러한 확장이 명백히 고려되며 본 명세서에 개시되어 있다.
예를 들어, 도 2는 N 및 M 둘 다의 값이 4인 장치(A100)의 구현예(A110)의 블록도를 나타낸 것이다. 장치(A110)는 각각이 입력 채널들(MCS10-1, MCS10-2, MCS10-3, 및 MCS10-4) 중의 각자의 입력 채널을 필터링하여 출력 신호들(또는 채널들)(OS10-1, OS10-2, OS10-3, 및 OS10-4) 중의 대응하는 출력 신호를 생성하도록 배열되어 있는 4개의 필터를 포함하는 필터 뱅크(BK10)의 구현예(BK12)를 포함하고 있다. 장치(A100)는 또한 필터 뱅크(BK12)의 필터들에 대한 초기 계수 값(CV10, CV20, CV30, 및 CV40) 세트를 생성하도록 구성되어 있는 필터 배향 모듈(OM10)의 구현예(OM12), 및 초기 계수 값 세트를 적응시켜 대응하는 갱신된 값(UV10, UV20, UV30, 및 UV40) 세트를 생성하도록 구성되어 있는 필터 적응 모듈(AM10)의 구현예(AM12)를 포함하고 있다.
도 3a는, 필터의 계수 값이 MVDR 빔형성 알고리즘(예컨대, 상기 수학식 1)에 따라 필터 배향 모듈(OM10)에 의해 발생되는 경우에 대해, 필터 뱅크(BK10)의 필터의 초기 응답의 플롯을 주파수 빈(frequency bin) 대 입사각("빔 패턴"이라고도 함)으로 나타낸 것이다. 이 응답이 입사각 0(예컨대, 마이크 어레이의 축의 방향)을 중심으로 대칭이라는 것을 알 수 있다. 도 3b 및 도 3c는 2개의 상이한 초기 조건 세트(예컨대, 원하는 음원으로부터의 사운드와 간섭 음원으로부터의 사운드의 상이한 추정된 도착 방향 세트) 하에서의 이 빔 패턴의 변형예를 나타낸 것이다. 이들 도면에서, 높은 이득 및 낮은 이득의 응답 진폭(예컨대, 빔 및 널 빔)은 흑색으로 표시되어 있고, 중간 범위 이득의 응답 진폭은 백색으로 표시되어 있으며, 빔 및 널 빔의 대략적인 방향은, 각각, 굵은 선 및 파선으로 표시되어 있다.
특정의 응용에 적절한 것으로 생각되는 지향성(directivity)과 측엽(sidelobe) 발생 사이의 절충에 따라 선택되는 빔형성기 설계에 따라 계수 값(CV10 및 CV20)을 생성하도록 필터 배향 모듈(OM10)을 구현하는 것이 바람직할 수 있다. 상기 예들이 주파수 영역 빔형성기 설계를 기술하고 있지만, 시간 영역 빔형성기 설계에 따라 계수 값 세트를 생성하도록 구성되어 있는 필터 배향 모듈(OM10)의 대안의 구현예가 또한 명백히 고려되고 본 명세서에 개시되어 있다.
필터 배향 모듈(OM10)은 (예컨대, 앞서 기술된 바와 같은 빔형성 알고리즘을 실행함으로써) 계수 값(CV10 및 CV20)을 발생하도록 또는 저장 장치로부터 계수 값(CV10 및 CV20)을 검색하도록 구현될 수 있다. 예를 들어, 필터 배향 모듈(OM10)은 음원 방향(예컨대, DA10 및 DA20)에 따라 사전 계산된 값(예컨대, 빔) 세트 중에서 선택함으로써 초기 계수 값 세트를 생성하도록 구현될 수 있다. 이러한 사전 계산된 계수 값 세트는 대응하는 원하는 분해능에서(예컨대, 0, 20 또는 30도 내지 150, 160, 또는 180도의 범위에서 5, 10 또는 20도의 각각의 구간에 대해 상이한 계수 값 세트) 원하는 범위의 방향 및/또는 주파수를 포함하도록 오프라인으로 계산될 수 있다.
필터 배향 모듈(OM10)에 의해 생성된 초기 계수 값(예컨대, CV10 및 CV20)은 음원 신호들 사이의 원하는 레벨의 분리를 제공하도록 필터 뱅크(BK10)를 구성하는 데 충분하지 않을 수 있다. 이들 초기값이 기초하고 있는 추정된 음원 방향[예컨대, 방향(DA10 및 DA20)]이 완벽하게 정확할지라도, 필터를 특정의 방향으로 단순히 조종하는 것은 어레이로부터 멀리 떨어져 있는 음원들 간의 최상의 분리 또는 특정의 멀리 있는 음원에 대한 최상의 집속을 제공하지 않을 수 있다.
필터 갱신 모듈(UM10)은 제1 및 제2 출력 신호(OS10-1 및 OS10-2)로부터의 정보에 기초하여 제1 및 제2 계수(CV10 및 CV20)에 대한 초기값을 갱신하여 대응하는 갱신된 값(UV10 및 UV20) 세트를 생성하도록 구성되어 있다. 예를 들어, 필터 갱신 모듈(UM10)은 이들 초기 계수 값으로 표현되는 빔 패턴을 적응시키기 위해 적응적 BSS 알고리즘을 수행하도록 구현될 수 있다.
BSS 방법은 등의 수식에 따라 상이한 음원으로부터의 통계적으로 독립적인 신호 성분을 분리시키고, 여기서 Xj는 주파수 영역에서 입력(혼합된) 신호의 j번째 채널을 나타내고, Yj는 주파수 영역에서 출력(분리된) 신호의 j번째 채널을 나타내며, ω는 주파수 빈 인덱스(frequency-bin index)를 나타내고, ℓ는 시간 프레임 인덱스(time-frame index)를 나타내며, W는 필터 계수 행렬을 나타낸다. 일반적으로, BSS 방법은
등의 수식에 따라 분리 행렬(unmixing matrix) W의 시간에 따른 적응이라고 말해질 수 있고, 여기서 r은 적응 구간(adaptation interval)[또는 갱신율(update rate)] 파라미터를 나타내고, μ는 적응 속도(adaptation speed)[또는 학습률(learning rate)] 인자를 나타내며, I는 항등 행렬(identity matrix)을 나타내고, 위첨자 H는 공액 전치 함수를 나타내며, Φ는 활성화 함수(activation function)를 나타내고, 브라켓 은 (예컨대, 프레임 내지 에 걸친 - 여기서 L은 통상적으로 r보다 작거나 같음) 시간 평균 동작(time-averaging operation)을 나타낸다. 한 예에서, μ의 값은 0.1이다. 수학식 2는 또한 BSS 학습 규칙 또는 BSS 적응 규칙이라고도 한다. 활성화 함수 Φ는 통상적으로 원하는 신호의 누적 밀도 함수(cumulative density function)를 근사화시키기 위해 선택될 수 있는 비선형 유계 함수(nonlinear bounded function)이다. 이러한 방법에서 사용될 수 있는 활성화 함수 Φ의 예로는 쌍곡선 탄젠트 함수(hyperbolic tangent function), 시그모이드 함수(sigmoid function), 및 부호 함수(sign function)가 있다.
필터 갱신 모듈(UM10)은 본 명세서에 기술된 BSS 방법에 따라 필터 배향 모듈(OM10)에 의해 생성된 계수 값(예컨대, CV10 및 CV20)을 적응시키도록 구현될 수 있다. 이러한 경우에, 출력 신호(OS10-1 및 OS10-2)는 주파수 영역 신호 Y의 채널(예컨대, 각각 제1 및 제2 채널)이고; 계수 값(CV10 및 CV20)은 분리 행렬 W의 대응하는 행(예컨대, 각각 제1 및 제2 행)의 초기값이며; 적응된 값은 적응 후의 분리 행렬 W의 대응하는 행(예컨대, 각각 제1 및 제2 행)에 의해 정의된다.
주파수 영역에서의 적응을 위한 필터 갱신 모듈(UM10)의 통상적인 구현에서, 분리 행렬 W는 FIR(finite-impulse-response, 유한 임펄스 응답) 다항식 행렬이다. 이러한 행렬은 원소로서 FIR 필터의 주파수 변환(예컨대, 이산 푸리에 변환)을 가진다. 시간 영역에서의 적응을 위한 필터 갱신 모듈(UM10)의 통상적인 구현에서, 분리 행렬 W는 FIR 행렬이다. 이러한 행렬은 원소로서 FIR 필터를 가진다. 이러한 경우에, 각각의 초기 계수 값(예컨대, CV10 및 CV20) 세트가 통상적으로 다수의 필터를 나타낸다는 것을 잘 알 것이다. 예를 들어, 각각의 초기 계수 값 세트는 분리 행렬 W의 대응하는 행의 각각의 원소에 대한 필터를 나타낼 수 있다. 주파수 영역 구현의 경우, 각각의 초기 계수 값 세트는, 다중 채널 신호의 각각의 주파수 빈에 대해, 분리 행렬 W의 대응하는 행의 각각의 원소에 대한 필터의 변환을 나타낼 수 있다.
BSS 학습 규칙은 통상적으로 출력 신호들 사이의 상관을 감소시키도록 설계되어 있다. 예를 들어, BSS 학습 규칙은 출력 신호들 간의 상호 정보량(mutual information)을 최소화하도록, 출력 신호의 통계적 독립성(statistical independence)을 증가시키도록, 또는 출력 신호의 엔트로피(entropy)를 최대화하도록 선택될 수 있다. 한 예에서, 필터 갱신 모듈(UM10)은 ICA(independent component analysis, 독립 성분 분석)라고 하는 BSS 방법을 수행하도록 구현되어 있다. 이러한 경우에, 필터 갱신 모듈(UM10)은 전술한 바와 같은 활성화 함수 또는, 예를 들어, 활성화 함수 를 사용하도록 구성되어 있을 수 있다. 공지된 ICA 구현의 예로는 Infomax, FastICA(www-dot-cis-dot-hut-dot-fi/projects/ica/fastica에서 온라인으로 이용가능함), 및 JADE(Joint Approximate Diagonalization of Eigenmatrices)가 있다.
스케일링(scaling) 및 주파수 치환(frequency permutation)은 BSS에서 흔히 만나게 되는 2가지 불확정성이다. 필터 배향 모듈(OM10)에 의해 생성되는 초기 빔이 치환되지 않더라도, 이러한 불확정성은 ICA의 경우에 적응 동안 발생할 수 있다. 비치환형 해결 방안(nonpermuted solution)으로 계속하기 위해, 그 대신에 필터 갱신 모듈(UM10)을, 주파수 빈들 사이의 예상되는 의존 관계를 모델링하는 사전 음원(source prior)을 사용하는 복소(complex) ICA의 변형인 IVA(independent vector analysis, 독립 벡터 분석)를 사용하도록 구성하는 것이 바람직할 수 있다. 이 방법에서, 활성화 함수 Φ는 등의 다변량 활성화 함수(multivariate activation function)이고, 여기서 p는 1보다 크거나 같은 정수값(예컨대, 1, 2, 또는 3)이다. 이 함수에서, 분모에 있는 항은 모든 주파수 빈에 걸친 분리된 음원 스펙트럼에 관계되어 있다. 이 경우에, 치환 불확정성(permutation ambiguity)이 해결된다.
얻어진 적응된 계수 값에 의해 정의되는 빔 패턴은 직선이라기보다는 나선형(convoluted)으로 보일 수 있다. 이러한 패턴은, 통상적으로 멀리 있는 음원의 분리에는 불충분한 초기 계수 값(CV10 및 CV20)에 의해 정의되는 빔 패턴보다, 더 나은 분리를 제공할 것으로 예상될 수 있다. 예를 들어, 10-12 dB 내지 18-20 dB의 간섭 제거의 증가가 관찰되었다. 적응된 계수에 의해 표현되는 해결 방안은 또한 개루프 빔형성 해결 방안보다 마이크 응답(예컨대, 이득 및/또는 위상 응답)의 부정합에 대해 더 강력할 것으로 예상될 수 있다.
도 4는 필터 뱅크(BK12)의 한 예에서의 4개의 필터 각각에 대한 [예컨대, 각각, 계수 값(CV10, CV20, CV30, 및 CV40) 세트를 적응시킴으로써 필터 갱신 모듈(UM10)에 의해 획득된 값에 의해 정의되는] 빔 패턴을 나타낸 것이다. 이 경우에, 2개의 지향성 음원이 어레이로부터 2.5 미터에서 어레이에 대해 서로로부터 약 40 내지 60도 떨어져 위치해 있다. 도 5는 2개의 지향성 음원이 어레이로부터 2.5 미터에서 어레이에 대해 서로로부터 약 15도 떨어져 위치해 있는 다른 경우에 대한 이들 필터의 빔 패턴을 나타낸 것이다. 이들 도면에서, 높은 이득 및 낮은 이득의 응답 진폭(예컨대, 빔 및 널 빔)은 흑색으로 표시되어 있고, 중간 범위 이득의 응답 진폭은 백색으로 표시되어 있으며, 빔 및 널 빔의 대략적인 방향은, 각각, 굵은 선 및 파선으로 표시되어 있다. 도 6은 필터 뱅크(BK10)의 2채널 구현예에서 적응된 필터들 중 하나의 필터에 대한 다른 관점으로부터의 빔 패턴의 예를 나타낸 것이다.
상기 예가 주파수 영역에서의 필터 적응을 기술하고 있지만, 시간 영역에서 계수 값 세트를 갱신하도록 구성되어 있는 필터 갱신 모듈(UM10)의 대안의 구현예도 역시 명백히 고려되고 본 명세서에 개시되어 있다. 시간 영역 BSS 방법은 치환 불확정성을 겪지는 않지만, 이들이 통상적으로 주파수 영역 BSS 방법보다 더 긴 필터의 사용을 수반하고 실제로는 다루기 불편할지도 모른다.
BSS 방법을 사용하여 적응된 필터가 일반적으로 양호한 분리를 달성하지만, 이러한 알고리즘은 또한 분리된 신호에 부가의 잔향을 유입시키는 경향이 있으며, 멀리 있는 음원에 대해 특히 그렇다. 특정의 도착 방향에서 단위 이득을 시행하기 위해 기하학적 제약 조건(geometric constraint)을 부가함으로써 적응된 BSS 해결 방안의 공간 응답을 제어하는 것이 바람직할 수 있다. 그렇지만, 앞서 살펴본 바와 같이, 단일 도착 방향에 대해 필터 응답을 조정하는 것이 잔향있는 환경에서는 부적절할 수 있다. 더욱이, BSS 적응에서 (널 빔 방향과 반대로) 빔 방향을 시행하려고 시도하는 것은 문제를 야기할 수 있다.
필터 갱신 모듈(UM10)은, 방향에 대해 적응된 값 세트의 결정된 응답에 기초하여, 복수의 제1 계수에 대해 적응된 값 세트 및 복수의 제2 계수에 대한 적응된 값 세트 중 적어도 하나를 조절하도록 구성되어 있다. 이 결정된 응답은 지정된 특성을 갖는 응답에 기초하고 있으며, 상이한 주파수에서 상이한 값을 가질 수 있다. 한 예에서, 결정된 응답은 최대 응답이다(예컨대, 지정된 특성이 최대 값이다). 예를 들어, 조절될 각각의 계수 세트 j에 대해 그리고 조절될 범위 내의 각각의 주파수 ω에서, 이 최대 응답 은
등의 수식에 따라 주파수에서 적응된 세트의 복수의 응답 중의 최대 값으로서 표현될 수 있고, 여기서 W는 적응된 값의 행렬(예컨대, FIR 다항식 행렬)이고, 는 행 j 및 열 m에 있는 행렬 W의 원소를 나타내며, 열 벡터 의 각각의 원소 m은
으로서 표현될 수 있는 방향 θ에서의 원거리 음원으로부터 수신된 신호에 대한 주파수 ω에서의 위상 지연을 나타낸다. 다른 일례에서, 결정된 응답은 최소 응답(예컨대, 각각의 주파수에서 적응된 세트의 복수의 응답 중의 최소 값)이다.
한 예에서, 수학식 3이 범위 [-π, +π]에서의 64개의 균일한 간격으로 있는 θ의 값에 대해 평가된다. 다른 일례에서, 수학식 3이 다른 수의 θ의 값(예컨대, 16개 또는 32개의 균일한 간격으로 있는 값, 5도 또는 10도씩 증분되는 값, 기타)에 대해, 불균일한 간격으로(예컨대, 일정 범위의 세로 방향(endfire direction)에 걸쳐서보다 일정 범위의 가로 방향(broadside direction)에 걸쳐서 더 큰 분해능을 가지는 또는 그 반대로), 및/또는 상이한 관심 범위에 걸쳐(예컨대, [-π 0], [-π/2, +π/2], [-π, +π/2]) 평가될 수 있다. 균일한 마이크간 간격 d를 갖는 선형 마이크 어레이에 대해, 인자 pos(m)는 로서 표현될 수 있고, 따라서 벡터 의 각각의 원소 m이
으로서 표현될 수 있다. 수학식 3이 최대 값을 가지는 방향 θ의 값은 상이한 주파수 ω의 값에 대해 상이할 것으로 예상될 수 있다. 유의할 점은, 음원 방향(예컨대, DA10 및/또는 DA20)이 수학식 3이 평가되는 θ의 값 내에 포함될 수 있거나, 다른 대안으로서, (예컨대, 음원 방향이 수학식 3이 평가되는 θ의 값들 중 인접한 값들 사이에 있는 각도를 나타내는 경우에) 그 값과 별개인 것일 수 있다는 것이다.
도 7a는 필터 갱신 모듈(UM10)의 구현예(UM20)의 블록도를 나타낸 것이다. 필터 갱신 모듈(UM10)은 출력 신호(OS10-1 및 OS10-2)로부터의 정보에 기초하여 계수 값(CV10 및 CV20)을 적응시켜 대응하는 적응된 값(AV10 및 AV20) 세트를 생성하도록 구성되어 있는 적응 모듈(APM10)을 포함하고 있다. 예를 들어, 적응 모듈(APM10)은 본 명세서에 기술된 BSS 방법들(예컨대, ICA, IVA) 중 임의의 것을 수행하도록 구현될 수 있다.
필터 갱신 모듈(UM20)은 또한 (예컨대, 상기 수학식 3에 따라) 방향에 대해 적응된 값(AV10) 세트의 최대 응답에 기초해 적응된 값(AV10)을 조절하여 갱신된 값(UV10) 세트를 생성하도록 구성되어 있는 조절 모듈(AJM10)을 포함하고 있다. 이 경우에, 필터 갱신 모듈(UM20)은 이러한 조절 없이 적응된 값(AV20)을 갱신된 값(UV20)으로서 생성하도록 구성되어 있다. [유의할 점은, 본 명세서에 개시된 구성들의 범위가 또한 계수 값(CV20)이 적응되지도 조절되지도 않는다는 점에서 장치(A100)와 상이한 장치를 포함한다는 것이다. 이러한 배열은, 예를 들어, 신호가 잔향이 거의 또는 전혀 없는 직접 경로를 통해 대응하는 음원으로부터 도착하는 상황에서 사용될 수 있다.]
조절 모듈(AJM10)은 방향에 대해 각각의 주파수에서 적응된 값 세트를 원하는 이득 응답(예컨대, 최대값에서 단위 이득 응답)을 갖도록 정규화함으로써 그 세트를 조절하도록 구현될 수 있다. 이러한 경우에, 조절 모듈(AJM10)은, 대응하는 갱신된 계수 값 세트[예컨대, 갱신된 값(UV10)]를 획득하기 위해, 적응된 계수 값 세트 j[예컨대, 적응된 값(AV10)]의 각각의 값을 그 세트의 최대 응답 으로 나누도록 구현될 수 있다.
원하는 이득 응답이 단위 이득 응답이 아닌 경우에, 조절 모듈(AJM10)은 조절 동작이 이득 인자를 적응된 값에 및/또는 정규화된 값에 적용하는 것을 포함하도록 구현될 수 있고, 여기서 이득 인자의 값은 원하는 이득 응답을 나타내기 위해(예컨대, 음원의 피치 주파수의 고조파를 증강시키기 위해 및/또는 간섭원에 의해 좌우될 수 있는 하나 이상의 주파수를 감쇠시키기 위해) 주파수에 따라 변한다. 결정된 응답이 최소 응답인 경우에, 조절 모듈(AJM10)은 (예컨대, 각각의 주파수에서) 최소 응답을 감산함으로써 또는 방향에 대해 각각의 주파수에서 그 세트를 원하는 이득 응답(예컨대, 최소값에서 0의 이득 응답)을 갖도록 재매핑함으로써 적응된 세트를 조절하도록 구현될 수 있다.
계수 값 세트들 중 2개 이상, 그리고 어쩌면 그 전부에 대해(예컨대, 적어도 국소화된 음원과 연관되어 있는 필터에 대해) 이러한 정규화를 수행하도록 조절 모듈(AJM10)을 구현하는 것이 바람직할 수 있다. 도 7b는 방향에 대해 적응된 값(AV20) 세트의 최대 응답에 기초하여 적응된 값(AV20)을 조절하여 갱신된 값(UV20) 세트를 생성하도록 구성되어 있는 조절 모듈(AJM10)의 구현예(AJM12)를 포함하는 필터 갱신 모듈(UM20)의 구현예(UM22)의 블록도를 나타낸 것이다.
이러한 각자의 조절이 동일한 방식으로 부가의 적응된 필터로(예컨대, 적응된 행렬 W의 다른 행으로) 확장될 수 있다는 것을 잘 알 것이다. 예를 들어, 도 2에 도시된 것과 같은 필터 갱신 모듈(UM12)은, 필터 갱신 모듈(UM22)의 구현예로서, 4개의 계수 값(CV10, CV20, CV30, 및 CV40) 세트를 적응시켜 4개의 대응하는 적응된 값 세트를 생성하도록 구성되어 있는 적응 모듈(APM10)의 구현예, 및 대응하는 적응된 값 세트의 최대 응답에 기초하여 갱신된 값(UV30 및 UV40) 세트 중 하나 또는 둘 다 각각을 생성하도록 구성되어 있는 조절 모듈(AJM12)의 구현예를 포함하도록 구성되어 있을 수 있다.
종래의 오디오 처리 해결 방안은 잡음 기준(noise reference)의 계산 및 계산된 잡음 기준을 적용하는 후처리 단계를 포함할 수 있다. 본 명세서에 기술된 적응적 해결 방안은 간섭 점 음원(interfering point-source)을 제거함으로써 간섭 제거 및 잔향 제거를 향상시키기 위해 후처리에 덜 의존하고 필터 적응에 더 의존하도록 구현될 수 있다. 잔향이 주파수에 따라 변하여 어떤 주파수 성분은 감쇠시키고 다른 주파수 성분은 증폭시키는 이득 응답을 가지는 전달 함수(예컨대, 실내 응답 전달 함수)로서 고려될 수 있다. 예를 들어, 실내의 기하 형태가 상이한 주파수에서의 신호의 상대적 강도에 영향을 줄 수 있으며, 그로 인해 어떤 주파수가 우세하게 될 수 있다. 주파수마다 변하는 방향에서(즉, 각각의 주파수에서의 주 빔의 방향에서) 원하는 이득 응답을 갖도록 필터를 제약함으로써, 본 명세서에 기술된 정규화 동작은 신호의 에너지가 상이한 주파수에서 공간에서 확산되는 각도의 차이를 보상함으로써 신호의 잔향을 제거하는 데 도움을 줄 수 있다.
최상의 분리 및 잔향 제거 결과를 달성하기 위해, 필터 뱅크(BK10)의 필터를 어떤 도착 각도 범위 내에서 음원으로부터 도착하는 에너지를 통과시키고 다른 각도에서 간섭 음원으로부터 도착하는 에너지를 차단하는 공간 응답을 갖도록 구성하는 것인 바람직할 수 있다. 본 명세서에 기술된 바와 같이, 필터가 초기 해(initial solution) 근방에서 더 나은 해를 찾을 수 있게 해주기 위해 BSS 적응을 사용하도록 필터 갱신 모듈(UM10)을 구성하는 것이 바람직할 수 있다. 그렇지만, 원하는 음원으로 향해 있는 주 빔을 보존해야 하는 제약 조건이 없는 경우, 필터 적응으로 인해 유사한 방향으로부터의 간섭 음원이 (예를 들어, 간섭 음원으로부터의 에너지를 제거하기 위해 넓은 널 빔을 생성함으로서) 주 빔을 약화시킬 수 있게 될지도 모른다.
필터 갱신 모듈(UM10)은 음원 국소화 해결 방안(source localization solution)으로부터의 큰 편차를 방지하면서 작은 국소화 오차의 보정을 가능하게 해주기 위해 제약된 BSS를 통해 적응적 널 빔형성(adaptive null beamforming)을 사용하도록 구성될 수 있다. 그렇지만, 필터가 방향을 상이한 음원으로 변경하는 것을 방지하는 필터 갱신 규칙에 관한 공간 제약 조건을 시행하는 것도 또한 바람직할 수 있다. 예를 들어, 필터를 적응시키는 프로세스가 간섭 음원의 도착 방향에서 널 제약 조건을 포함하는 것이 바람직할 수 있다. 이러한 제약 조건은 빔 패턴이 낮은 주파수에서 그의 배향을 그 간섭 방향으로 변경하는 것을 방지하는 데 바람직할 수 있다.
하나 이상의 기하학적 제약 조건을 적응 프로세스에 포함시킴으로써 제약된 BSS 방법을 사용하도록 필터 갱신 모듈(UM10)을 구현하는 것[예컨대, 적응 모듈(APM10)을 구현하는 것]이 바람직할 수 있다. 이러한 제약 조건(공간 또는 방향 제약 조건이라고도 함)은 적응 프로세스가 빔 패턴에서 지정된 빔 또는 널 빔의 방향을 변경하지 못하게 한다. 예를 들어, 방향(DA10) 및/또는 방향(DA20)에 기초하는 공간 제약 조건을 부과하도록 필터 갱신 모듈(UM10)을 구현하는 것[예컨대, 적응 모듈(APM10)을 구현하는 것]이 바람직할 수 있다.
제약된 BSS 적응의 한 예에서, 필터 적응 모듈(AM10)은 지향성 행렬 D(ω)에 기초하는 정규화 항(regularization term) J(ω)을 부가함으로써 음원 방향 빔 및/또는 널 빔에 대해 기하학적 제약 조건을 시행하도록 구성되어 있다. 이러한 항은 등의 최소 제곱 기준(least-squares criterion)으로서 표현될 수 있고, 여기서 은 프로베니우스 놈(Frobenius norm)을 나타내고 C(ω)는 원하는 빔 패턴의 선택 항목을 설정하는 M x M 대각 행렬이다.
공간 제약 조건이 널 빔만을 시행하는 것이 바람직할 수 있는데, 그 이유는 음원 빔을 시행하려고 시도하는 것이 필터 적응 프로세스에 대한 문제를 야기할지도 모르기 때문이다. 하나의 이러한 경우에, 각각의 음원 필터에 대해 간섭 방향으로 널이 시행되도록 제약 조건 행렬(constraint matrix) C(ω)가 와 같다. 이러한 제약 조건은 다른 필터의 음원 방향으로 널 빔을 시행함으로써(예컨대, 주 빔 방향에서의 응답에 대해 다른 음원 방향에서의 필터의 응답을 감쇠시킴으로써) 필터의 주 빔을 보존하고, 이는 필터 적응 프로세스가 원하는 음원의 에너지를 임의의 다른 필터에 집어 넣는 것을 방지한다. 공간 제약 조건도 역시 각각의 필터가 다른 음원으로 전환하지 못하게 한다.
또한, 정규화 항 가 제약 조건의 시행을 학습 규칙에 따른 적응과 균형을 맞추기 위해 각각의 주파수 ω에 대해 조정될 수 있는 조정 인자(tuning factor) S(ω)를 포함하는 것이 바람직할 수 있다. 이러한 경우에, 정규화 항은 로서 표현될 수 있고, 다음과 같은 것 등의 제약 조건을 사용하여 구현될 수 있다:
이 제약 조건은, 하기의 수식에서와 같이, 대응하는 항을 그 규칙에 부가함으로써 (예컨대, 수학식 2에 나타낸 바와 같은) 필터 적응 규칙에 적용될 수 있다:
초기 배향을 보존함으로써, 이러한 공간 제약 조건은 원하는 음원 빔에 대한 널 빔의 보다 적극적인 조정을 가능하게 해줄 수 있다. 예를 들어, 이러한 조정은 원하는 음원의 방향에 아주 가까운 방향을 가지는 간섭 음원의 억제를 가능하게 해주기 위해 주 빔을 첨예화하는 것을 포함할 수 있다. 적극적인 조정이 측엽을 생성할 수 있을지라도, 적응적 해결 방안이 측엽에 간섭 에너지가 없다는 것을 이용할 수 있는 것으로 인해 전체적인 분리 성능이 향상될 수 있다. 통상적으로 분산된 잡음 성분(distributed noise component)이 모든 방향으로부터 도착하고 있다는 가정 하에서 동작하는 고정된 빔형성에서는 이러한 응답성이 이용가능하지 않다.
앞서 살펴본 바와 같이, 도 5는 2개의 지향성 음원이 마이크 어레이로부터 2.5 미터에서 어레이에 대해 서로로부터 약 15도 떨어져 위치해 있는 경우에 대한 필터 뱅크(BK12)의 예의 각각의 적응된 필터의 빔 패턴을 나타낸 것이다. 정규화되어 있지 않고 어느 방향에서도 단위 이득을 갖지 않는 이 특정의 해결 방안은 넓은 널 빔을 나타내는 제약되지 않은 BSS 해결 방안의 예이다. 상부 도면들 각각에 나타낸 빔 패턴에서, 2개의 음원 중 하나가 제거되어 있다. 하부 도면들 각각에 나타낸 빔 패턴에서, 빔이 특히 넓은데, 그 이유는 2개의 음원 둘 다가 차단되어 있기 때문이다.
도 8 및 도 9 각각은 2개의 계수 값 세트(각각, 좌측 열 및 우측 열)의 빔 패턴의 예를 나타낸 것이며, 여기서 상부 플롯은 필터 배향 모듈(OM10)에 의해 생성된 필터의 빔 패턴을 나타낸 것이고, 하부 플롯은 본 명세서에 기술된 기하학적으로 제약된 BSS 방법을 사용하여(예컨대, 상기 수학식 4에 따라) 필터 갱신 모듈(UM10)에 의한 적응 후의 빔 패턴을 나타낸 것이다. 도 8은 어레이로부터 2.5 미터에서 40 내지 60도 떨어져 위치해 있는 2개의 음원(사람 화자)의 경우를 나타낸 것이고, 도 9는 어레이로부터 2.5 미터에서 15도 떨어져 위치해 있는 2개의 음원(사람 화자)의 경우를 나타낸 것이다. 이들 도면에서, 높은 이득 및 낮은 이득의 응답 진폭(예컨대, 빔 및 널 빔)은 흑색으로 표시되어 있고, 중간 범위 이득의 응답 진폭은 백색으로 표시되어 있으며, 빔 및 널 빔의 대략적인 방향은, 각각, 굵은 선 및 파선으로 표시되어 있다.
BSS 분리 행렬의 일부만을 적응시키도록 필터 갱신 모듈(UM10)을 구현하는 것[예컨대, 적응 모듈(APM10)을 구현하는 것]이 바람직할 수 있다. 예를 들어, 필터 뱅크(BK10)의 필터들 중 하나 이상을 고정시키는 것이 바람직할 수 있다. (예컨대, 상기 수학식 2에 나타낸 것과 같은) 필터 적응 프로세스가 계수 행렬 W의 대응하는 행을 변경하는 것을 방지함으로써 이러한 제약 조건이 구현될 수 있다.
한 예에서, 고정될 각각의 필터에 대응하는 [예컨대, 필터 배향 모듈(OM10)에 의해 생성되는] 초기 계수 값 세트를 보존하기 위해 이러한 제약 조건이 적응 프로세스의 시작으로부터 적용된다. 이러한 구현예는, 예를 들어, 빔 패턴이 정지되어 있는 간섭원 쪽으로 향해 있는 필터에 적절할 수 있다. 다른 일례에서, 이러한 제약 조건은 나중에 (예컨대, 필터가 수렴되었음을 검출할 시에) 적응된 계수 값 세트의 추가의 적응을 방지하기 위해 적용된다. 이러한 구현예는, 예를 들어, 빔 패턴이 안정된 잔향있는 환경(stable reverberant environment)에서 정지되어 있는 간섭원 쪽으로 향해 있는 필터에 적절할 수 있다. 유의할 점은, 정규화된 필터 계수 값 세트가 고정되어 있는 경우, 그 세트가 고정된 채로 있는 동안 조절 모듈(AJM10)이 그 값의 조절을 수행하는 것이 필요하지 않지만, 조절 모듈(AJM10)이 [예컨대, 적응 모듈(APM10)에 의한 그의 적응에 응답하여] 다른 계수 값 세트를 계속 조절할 수 있다는 것이다.
다른 대안으로서 또는 그에 부가하여, 그의 주파수 범위의 일부에만 걸쳐 필터들 중 하나 이상을 적응시키도록 필터 갱신 모듈(UM10)을 구현하는 것[예컨대, 적응 모듈(APM10)을 구현하는 것]이 바람직할 수 있다. 그 범위 밖에 있는 주파수에(예컨대, 상기 수학식 2에서의 ω의 값에) 대응하는 필터 계수 값을 적응시키지 않음으로써 필터의 이러한 고정이 달성될 수 있다.
유용한 정보를 포함하는 주파수 범위에서만 필터들 중 하나 이상(어쩌면 전부) 각각을 적응시키는 것 그리고 다른 주파수 범위에서 필터를 고정시키는 것이 바람직할 수 있다. 적용될 주파수의 범위는 스피커와 마이크 어레이 사이의 예상된 거리, 마이크들 사이의 거리(예컨대, 공간 필터링이, 예를 들어, 공간 엘리어싱으로 인해, 어쨌든 실패하게 될 주파수에서 필터를 적응시키는 것을 피하기 위해), 실내의 기하 형태, 및/또는 실내에서의 디바이스의 배열 등의 인자들에 기초될 수 있다. 예를 들어, 입력 신호는 특정의 주파수 범위(예컨대, 고주파 범위)에 걸쳐, 그 범위에 걸쳐 올바른 BSS 학습을 지원하는 데 충분한 정보를 포함하지 않을 수 있다. 이러한 경우에, 적응 없이 이 범위에 대한 초기(또는 가장 최근의) 필터 계수 값을 계속하여 사용하는 것이 바람직할 수 있다.
음원이 어레이로부터 3 내지 4 미터 또는 그 이상 떨어져 있을 때, 음원에 의해 방출된 고주파 에너지가 마이크에 거의 도달하지 않는 것이 통상적이다. 이러한 경우에 필터 적응을 적절히 지원하기 위해 고주파 범위에서 이용가능한 정보가 거의 없을 수 있기 때문에, 높은 주파수에서 필터를 고정시키고 낮은 주파수에서만 이들을 적응시키는 것이 바람직할 수 있다.
도 10은 지정된 저주파 범위에서 필터 계수 값으로 제한되어 있는 이러한 부분 BSS 적응 이전(상부 플롯) 및 이후(하부 플롯)의 2개의 필터의 빔 패턴의 예를 나타낸 것이다. 이 특정의 경우에, 적응이 140개 주파수 빈 중의 하위 64개(예컨대, 0 내지 4 kHz의 범위에서 약 0 내지 1800 Hz의 대역 또는 0 내지 8 kHz의 범위에서 약 0 내지 3650 Hz의 대역)로 제한된다.
그에 부가하여 또는 다른 대안으로서, 어느 주파수를 적응시킬지의 결정은 주파수 대역에서 현재 이용가능한 에너지의 양 및/또는 현재 스피커와 마이크 어레이 간의 추정된 거리 등의 인자들에 따라 런타임 동안 변할 수 있고, 상이한 필터에 대해 상이할 수 있다. 예를 들어, 한 때에는 2 kHz(또는 3 또는 5 kHz)까지의 주파수에서 필터를 적응시키고, 다른 때에는 4 kHz(또는 5, 8 또는 10 kHz)까지의 주파수에서 필터를 적응시키는 것이 바람직할 수 있다. 유의할 점은, 조절 모듈(AJM10)이 특정의 주파수에 대해 고정되어 있고 이미 조정된(예컨대, 정규화된) 필터 계수 값을 조정하는 것이 필요하지 않지만, 조절 모듈(AJM10)이 [예컨대, 적응 모듈(APM10)에 의한 그의 적응에 응답하여] 다른 주파수에서 계수 값을 계속 조절할 수 있다는 것이다.
필터 뱅크(BK10)는 갱신된 계수 값(예컨대, UV10 및 UV20)을 다중 채널 신호의 대응하는 채널에 적용한다. 갱신된 계수 값은, 이러한 값이 본 명세서에 기술된 바와 같이 고정되어 있는 경우를 제외하고는, [예컨대, 조절 모듈(AJM10)에 의한] 본 명세서에 기술된 조절 후에 [예컨대, 적응 모듈(APM10)에 의해 적응된] 분리 행렬 W의 대응하는 행의 값이다. 각각의 갱신된 계수 값 세트는 통상적으로 다수의 필터를 나타낼 것이다. 예를 들어, 각각의 갱신된 계수 값 세트는 분리 행렬 W의 대응하는 행의 각각의 원소에 대한 필터를 나타낼 수 있다.
도 11a는 필터 뱅크(BK10)의 피드포워드 구현예(BK20)의 블록도를 나타낸 것이다. 필터 뱅크(BK20)는 입력 채널(MCS10-1 및 MCS10-2)을 필터링하여 제1 출력 신호(OS10-1)를 생성하도록 구성되어 있는 제1 피드포워드 필터(FF10A), 및 입력 채널(MCS10-1 및 MCS10-2)을 필터링하여 제2 출력 신호(OS10-2)를 생성하도록 구성되어 있는 제2 피드포워드 필터(FF10B)를 포함한다.
도 11b는 제1 입력 채널(MCS10-1)을 필터링하도록 배열되어 있는 직접 필터(FD10A), 제2 입력 채널(MCS10-2)을 필터링하도록 배열되어 있는 교차 필터(FC10A), 및 2개의 필터링된 신호를 가산하여 제1 출력 신호(OS10-1)를 생성하도록 배열되어 있는 가산기(A10)를 포함하는 피드포워드 필터(FF10A)의 구현예(FF12A)의 블록도를 나타낸 것이다. 도 11c는 제2 입력 채널(MCS10-2)을 필터링하도록 배열되어 있는 직접 필터(FD10B), 제1 입력 채널(MCS10-1)을 필터링하도록 배열되어 있는 교차 필터(FC10B), 및 2개의 필터링된 신호를 가산하여 제2 출력 신호(OS10-2)를 생성하도록 배열되어 있는 가산기(A20)를 포함하는 피드포워드 필터(FF10B)의 대응하는 구현예(FF12B)의 블록도를 나타낸 것이다.
필터(FF10A 및 FF10B)가 적응된 분리 행렬 W의 각자의 행에 대응하는 갱신된 계수 값 세트를 적용하도록 필터 뱅크(BK20)가 구현될 수 있다. 하나의 이러한 예에서, 필터(FF12A)의 필터(FD10A 및 FC10A)는 [어쩌면 조절 모듈(AJM10)에 의한 조절 후에] 계수 값이 적응된 분리 행렬 W의 원소 및 인 FIR 필터로서 구현되어 있고, 필터(FF12B)의 필터(FC10B 및 FD10B)는 [어쩌면 조절 모듈(AJM10)에 의한 조절 후에] 계수 값이 적응된 분리 행렬 W의 원소 및 인 FIR 필터로서 구현되어 있다.
일반적으로, 피드포워드 필터(FF10A 및 FF10B) 각각[예컨대, 각각이 교차 필터(FC10A 및 FC10B) 중에 있고 각각이 직접 필터(FD10A 및 FD10B) 중에 있음]은 FIR(finite-impulse-response) 필터로서 구현될 수 있다. 도 12는 복수(q개)의 계수(C10-1, C10-2, …, C10-q)를 입력 신호에 적용하여 출력 신호를 생성하도록 구성되어 있는 FIR 필터(FIR10)의 블록도를 나타낸 것이며, 여기서 필터 갱신 모듈(UM10)은, 본 명세서에 기술된 바와 같이, 계수에 대한 초기 및 갱신된 값을 생성하도록 구성되어 있다. 필터(FIR10)는 또한 (q-1)개의 지연 요소(예컨대, DL1, DL2) 및 (q-1)개의 가산기(예컨대, AD1, AD2)를 포함하고 있다.
본 명세서에 기술된 바와 같이, 필터 뱅크(BK10)는 또한 3개, 4개 또는 그 이상의 채널을 갖도록 구현될 수 있다. 도 13은 N개의 입력 채널(MCS10-1, MCS10-2, MCS10-3, …, MCS10-N)을 필터링하도록 구성되어 있는 피드포워드 필터(FF12A)의 구현예(FF14A)의 블록도를 나타낸 것이며, 여기서 N은 2보다 큰 정수(예컨대, 3 또는 4)이다. 필터(FF14A)는 제1 입력 채널(MCS10-1)을 필터링하도록 배열되어 있는 직접 필터(FD10A)의 인스턴스; 각각이 입력 채널(MCS10-2 내지 MCS10-N) 중의 대응하는 입력 채널을 필터링하도록 배열되어 있는 (N-1)개의 교차 필터[FC10A(1), FC10A(2), …, FC10A(N-1)]; 및 N개의 필터링된 신호를 가산하여 출력 신호(OS10-1)를 생성하도록 배열되어 있는 (N-1)개의 가산기(AD10, AD10-1, AD10-2, …)[또는, 예를 들어, (N-1)-입력 가산기)를 포함하고 있다.
하나의 이러한 예에서, 필터(FF14A)의 필터[FD10A, FC10A(1), FC10A(2), …, FC10A(N-1)]는 계수 값이, 각각, 적응된 분리 행렬 W의 원소 [예컨대, 어쩌면 조절 모듈(AJM10)에 의한 조절 후에 적응된 행렬 W의 첫번째 행]인 FIR 필터로서 구현되어 있다. 필터 뱅크(BK10)의 대응하는 구현예는 필터(FF14A)와 유사한 몇개의 필터를 포함할 수 있고, 각각이 (어쩌면 조절 모듈(AJM10)에 의한 조절 후에) 적응된 행렬 W의 대응하는 행의 계수 값을 각자의 입력 채널(MCS10-1 내지 MCS10-N)에 이러한 방식으로 적용하여 대응하는 출력 신호를 생성하도록 구성되어 있다.
필터 뱅크(BK10)는 시간 영역에서 또는 변환 영역 등의 주파수 영역에서 신호를 필터링하도록 구현될 수 있다. 이러한 필터링이 수행될 수 있는 변환 영역의 예로는 MDCT(modified discrete cosine transform, 수정된 이산 코사인 변환) 영역 및 DFT(discrete Fourier transform, 이산 푸리에 변환), DT-STFT(discrete-time short-time Fourier transform, 이산 단시간 푸리에 변환), 또는 FFT(fast Fourier transform, 고속 푸리에 변환) 등의 푸리에 변환이 있다.
본 명세서에 기술된 특정의 예에 부가하여, 필터 뱅크(BK10)는 (예컨대, FIR 필터를 사용하여) 적응된 분리 행렬 W를 다중 채널 입력 신호에 적용하는 임의의 공지된 방법에 따라 구현될 수 있다. 필터 뱅크(BK10)는 값이 초기화 및 갱신되는 동일한 영역에서(예컨대 시간 영역에서 또는 주파수 영역에서) 또는 상이한 영역에서 계수 값을 다중 채널 신호에 적용하도록 구현될 수 있다. 본 명세서에 기술된 바와 같이, 적응된 행렬의 적어도 하나의 행으로부터의 값이, 방향에 대한 최대 응답에 기초하여, 이러한 적용 이전에 조절된다.
도 14는 주파수 영역(예컨대, DFT 또는 MDCT 영역)에서 초기 계수 값(CV10, CV20)의 갱신을 수행하도록 구성되어 있는 장치(A100)의 구현예(A200)의 블록도를 나타낸 것이다. 이 예에서, 필터 뱅크(BK10)는 시간 영역에서 갱신된 계수 값(UV10, UV20)을 다중 채널 신호(MCS10)에 적용하도록 구성되어 있다. 장치(A200)는 갱신된 계수 값(UV10, UV20)을 주파수 영역으로부터 시간 영역으로 변환하도록 배열되어 있는 역변환 모듈(IM10) 및 출력 신호(OS10-1, OS10-2)를 시간 영역으로부터 주파수 영역으로 변환하도록 구성되어 있는 변환 모듈(XM10)을 포함하고 있다. 명백히 유의할 점은, 장치(A200)가 또한 3개 이상의 입력 및/또는 출력 채널을 지원하도록 구현될 수 있다는 것이다. 예를 들어, 장치(A200)는 도 2에 도시된 바와 같은 장치(A110)의 구현예로서 구현될 수 있고, 따라서 역변환 모듈(IM10)은 갱신된 값(UV10, UV20, UV30, 및 UV40)을 변환하도록 구성되어 있고, 변환 모듈(XM10)은 신호(OS10-1, OS10-2, OS10-3, 및 OS10-4)를 변환하도록 구성되어 있다.
본 명세서에 기술된 바와 같이, 필터 배향 모듈(OM10)은, 추정된 음원 방향에 기초하여, 필터 뱅크(BK10)에 대한 초기 조건을 생성하고, 필터 갱신 모듈(UM10)은 개선된 해로 수렴하도록 필터 계수를 갱신한다. 초기 조건의 품질은 추정된 음원 방향(예컨대, DA10 및 DA20)의 정확도에 의존할 수 있다.
일반적으로, 각각의 추정된 음원 방향(예컨대, DA10 및/또는 DA20)이 측정, 계산, 예측, 투영 및/또는 선택될 수 있고, 원하는 음원, 간섭 음원 또는 반사로부터의 사운드의 도착 방향을 나타낼 수 있다. 필터 배향 모듈(OM10)은 다른 모듈 또는 디바이스로부터(예컨대, 음원 국소화 모듈로부터) 추정된 음원 방향을 수신하도록 배열되어 있을 수 있다. 이러한 모듈 또는 디바이스는 (예컨대, 얼굴 및/또는 움직임 검출을 수행하는 것에 의해) 카메라로부터의 영상 정보 및/또는 초음파 반사로부터의 거리 측정 정보(ranging information)에 기초하여 추정된 음원 방향을 생성하도록 구성되어 있을 수 있다. 이러한 모듈 또는 디바이스는 또한 음원의 수를 추정하고 및/또는 움직이고 있는 하나 이상의 음원을 추적하도록 구성되어 있을 수 있다. 도 15a는 이러한 영상 정보를 캡처하는 데 사용될 수 있는 카메라(CM10)를 갖는 어레이(R100)의 4 마이크 구현예(R104)의 배열의 한 예의 상면도를 나타낸 것이다.
다른 대안으로서, 장치(A100)는 다중 채널 신호(MCS10) 내의 정보 및/또는 필터 뱅크(BK10)에 의해 생성되는 출력 신호 내의 정보에 기초하여 추정된 음원 방향(예컨대, DA10 및 DA20)을 계산하도록 구성되어 있는 방향 추정 모듈(DM10)을 포함하도록 구현될 수 있다. 이러한 경우에, 방향 추정 모듈(DM10)은 또한 앞서 기술된 바와 같이 영상 및/또는 거리 측정 정보에 기초하여 추정된 음원 방향을 계산하도록 구현될 수 있다. 예를 들어, 방향 추정 모듈(DM10)은 다중 채널 신호(MCS10)에 적용되는 GCC(generalized cross-correlation, 일반화된 교차 상관) 알고리즘 또는 빔형성기 알고리즘을 사용하여 음원 DOA를 추정하도록 구현될 수 있다.
도 16은 다중 채널 신호(MCS10) 내의 정보에 기초하여 추정된 음원 방향(DA10 및 DA20)을 계산하도록 구성되어 있는 방향 추정 모듈(DM10)의 인스턴스를 포함하는 장치(A100)의 구현예(A120)의 블록도를 나타낸 것이다. 이 경우에, 방향 추정 모듈(DM10) 및 필터 뱅크(BK10)는 동일한 영역에서 동작하도록(예컨대, 주파수 영역 신호인 다중 채널 신호(MCS10)를 수신하고 처리하도록) 구현되어 있다. 도 17은 방향 추정 모듈(DM10)이 변환 모듈(XM20)로부터의 주파수 영역에서의 다중 채널 신호(MCS10)로부터의 정보를 수신하도록 배열되어 있는 장치(A120 및 A200)의 구현예(A220)의 블록도를 나타낸 것이다.
한 예에서, 방향 추정 모듈(DM10)은 위상 변환을 사용한 조종된 응답 전력(steered response power using the phase transform, SRP-PHAT) 알고리즘을 사용하여 다중 채널 신호(MCS10) 내의 정보에 기초하여 추정된 음원 방향을 계산하도록 구현되어 있다. 최대 우도 음원 국소화(maximum likelihood source localization)로부터 얻어지는 SRP-PHAT 알고리즘은 출력 신호의 상관이 최대인 시간 지연을 결정한다. 교차 상관이 각각의 빈에서의 전력에 의해 정규화되고, 이는 더 나은 강건성을 제공한다. 잔향있는 환경에서, SRP-PHAT는 경쟁하는 음원 국소화 방법보다 더 나은 결과를 제공할 것으로 예상될 수 있다.
SRP-PHAT 알고리즘은 다음과 같이 주파수 영역에서 수신 신호 벡터 X[즉, 다중 채널 신호(MCS10)]로 표현될 수 있고:
여기서 S는 음원 신호 벡터를 나타내고, 이득 행렬 G, 실내 전달 함수 벡터 H, 및 잡음 벡터 N은 다음과 같이 표현될 수 있다:
이들 수식에서, P는 센서의 수(즉, 입력 채널의 수)를 나타내고, α는 이득 인자를 나타내며, τ는 음원으로부터의 전파 시간을 나타낸다.
이 예에서, 결합된 잡음 벡터 는 다음과 같은 영 평균, 주파수 독립적, 결합 가우시안 분포(zero-mean, frequency-independent, joint Gaussian distribution)를 갖는 것으로 가정될 수 있고:
[수학식 4]
도 18은 일정 범위의 주파수 ω에 걸쳐 상이한 2-음원 시나리오에 대한 DOA 추정을 위해 SRP-PHAT의 이러한 구현예를 사용하는 것으로부터 얻어지는 플롯의 예를 나타낸 것이다. 이들 플롯에서, y 축은 의 값을 나타내고 x 축은 어레이 축에 대한 추정된 음원 도착 방향 를 나타낸다. 각각의 플롯에서, 각각의 선은 그 범위 내에서 상이한 주파수에 대응하고, 각각의 플롯은 마이크 어레이의 세로 방향(endfire direction)(즉, θ = 0)을 중심으로 대칭이다. 좌측 상부 플롯은 어레이로부터 4 미터의 거리에 있는 2개의 음원에 대한 히스토그램(histogram)을 나타낸 것이다. 우측 상부 플롯은 어레이로부터 4 미터의 거리에 있는 2개의 가까운 음원에 대한 히스토그램을 나타낸 것이다. 좌측 하부 플롯은 어레이로부터 2.5 미터의 거리에 있는 2개의 음원에 대한 히스토그램을 나타낸 것이다. 우측 하부 플롯은 어레이로부터 2.5 미터의 거리에 있는 2개의 가까운 음원에 대한 히스토그램을 나타낸 것이다. 이들 플롯 각각이 추정된 음원 방향을 모든 주파수에 걸쳐 단일 피크로서보다는 무게 중심(center of gravity)으로 특징지워질 수 있는 각도의 범위로서 나타낸다는 것을 알 수 있다.
다른 일례에서, 방향 추정 모듈(DM10)은 BSS(blind source separation) 알고리즘을 사용하여 다중 채널 신호(MCS10) 내의 정보에 기초하여 추정된 음원 방향을 계산하도록 구현되어 있다. BSS 방법은 간섭 음원으로부터의 에너지를 제거하기 위해 신뢰할 수 있는 널 빔을 발생하는 경향이 있고, 이들 널 빔의 방향은 대응하는 음원의 도착 방향을 나타내는 데 사용될 수 있다. 방향 추정 모듈(DM10)의 이러한 구현예는
과 같은 수식에 따라 마이크(j 및 j')의 어레이의 축에 대한 주파수 f에서 음원 i의 도착 방향(direction of arrival, DOA)를 계산하도록 구현될 수 있고, 여기서 W는 분리 행렬을 나타내고, pj 및 pj'는, 각각, 마이크 j 및 j'의 공간 좌표를 나타낸다. 이 경우에, 본 명세서에 기술된 바와 같이, 방향 추정 모듈(DM10)의 BSS 필터(예컨대, 분리 행렬 W)를 필터 갱신 모듈(UM10)에 의해 갱신되는 필터와 분리하여 구현하는 것이 바람직할 수 있다.
도 19는 4개의 히스토그램의 세트의 예를 나타낸 것이고, 각각은 수학식 5가 4행 분리 행렬 W의 대응하는 인스턴스에 대한 (어레이 축에 대한) 각각의 입사각에 매핑하는 주파수 빈의 수를 나타내며, 여기서 W는 다중 채널 신호(MCS10) 내의 정보에 기초해 있고, 본 명세서에 기술된 IVA 적응 규칙에 따라 방향 추정 모듈(DM10)의 구현예에 의해 계산된다. 이 예에서, 입력 다중 채널 신호는 약 40 내지 60도의 각도만큼 분리되어 있는 2개의 활성 음원으로부터의 에너지를 포함하고 있다. 좌측 상부 플롯은 IVA 출력 1에 대한 히스토그램(음원 1의 방향을 나타냄)을 나타낸 것이고, 우측 상부 플롯은 IVA 출력 2에 대한 히스토그램(음원 2의 방향을 나타냄)을 나타낸 것이다. 이들 플롯 각각이 추정된 음원 방향을 모든 주파수에 걸쳐 단일 피크로서보다는 무게 중심으로 특징지워질 수 있는 각도의 범위로서 나타낸다는 것을 알 수 있다. 하부 플롯은 양 음원으로부터의 에너지를 차단하고 잔향으로부터의 에너지를 포함하는 IVA 출력 3 및 4에 대한 히스토그램을 나타낸 것이다.
도 20은 2개의 활성 음원이 약 15도의 각도만큼 분리되어 있는 예에 대한 유사한 IVA 분리 행렬의 대응하는 채널에 대한 다른 히스토그램 세트를 나타낸 것이다. 도 19에서와 같이, 좌측 상부 플롯은 IVA 출력 1에 대한 히스토그램(음원 1의 방향을 나타냄)을 나타낸 것이고, 우측 상부 플롯은 IVA 출력 2에 대한 히스토그램(음원 2의 방향을 나타냄)을 나타낸 것이며, 하부 플롯은 IVA 출력 3 및 4에 대한 히스토그램(잔향 에너지를 나타냄)을 나타낸 것이다.
다른 일례에서, 방향 추정 모듈(DM10)은 복수의 상이한 주파수 성분 각각에 대해 다중 채널 신호(MCS10)의 채널들 사이의 위상차에 기초하여 추정된 음원 방향을 계산하도록 구현되어 있다. 단일 음원이 원거리에 있고[예컨대, 따라서 도 15b에 도시된 바와 같은 평면 파면(plane wavefront)의 가정이 유효함] 잔향이 없는 이상적인 경우에, 위상차 대 주파수의 비가 주파수에 대해 일정하다. 도 15b에 예시된 모델을 참조하면, 방향 추정 모듈(DM10)의 이러한 구현예는 음원 방향 θi를 양 의 역코사인[아크코사인(arccosine)이라고도 함]으로서 계산하도록 구성되어 있을 수 있고, 여기서 c는 음속(대략 340 m/sec)을 나타내고, d는 마이크들 사이의 거리를 나타내며,는 2개의 마이크 채널에 대한 대응하는 위상 추정치 사이의 차이(단위: 라디안)를 나타내고, fi는 위상 추정치가 대응하는 주파수 성분(예컨대, 대응하는 FFT 샘플의 주파수 또는 대응하는 서브대역의 중심 또는 경계 주파수)이다.
필터 적응 모듈(AM10)이 화자의 머리의 이동 등의 음향 환경에서의 작은 변화를 처리하도록 구성되어 있도록 장치(A100)가 구현될 수 있다. 화자가 실내의 다른 부분으로부터 말하기 위해 움직이는 것과 같은 큰 변화에 대해서는, 방향 추정 모듈(DM10)이 변하는 음원에 대한 도착 방향을 갱신하고 필터 배향 모듈(OM10)이 그 방향에서의 빔을 획득(예컨대, 발생 또는 검색)하여 새로운 대응하는 초기 계수 값 세트를 생성(즉, 새로운 음원 방향에 따라 대응하는 계수 값을 재설정)하도록 장치(A100)를 구현하는 것이 바람직할 수 있다. 이러한 경우에, 필터 배향 모듈(OM10)이 한꺼번에 2개 이상의 새로운 초기 계수 값 세트를 생성하는 것이 바람직할 수 있다. 예를 들어, 필터 배향 모듈(OM10)이 적어도 추정된 음원 방향과 현재 연관되어 있는 필터에 대해 새로운 초기 계수 값 세트를 생성하는 것이 바람직할 수 있다. 새로운 초기 계수 값은 이어서 본 명세서에 기술된 바와 같이 필터 갱신 모듈(UM10)에 의해 갱신된다.
실시간 음원 추적을 지원하기 위해, 방향 추정 모듈(DM10)(또는 추정된 음원 방향을 제공하는 다른 음원 국소화 모듈 또는 디바이스)을 음원으로부터의 신호 성분의 DOA를 빠르게 식별하도록 구현하는 것이 바람직할 수 있다. 이러한 모듈 또는 디바이스가 녹음되고 있는 음향적 장면에 존재하는 음원의 수를 추정하고 및/또는 음원 추적 및/또는 거리 측정을 수행하는 것이 바람직할 수 있다. 음원 추적은 추정된 음원 방향을 구별되는 특성(주파수 분포 또는 피치 주파수 등)과 연관시키는 것을 포함할 수 있고, 따라서 모듈 또는 디바이스는 특정의 음원을 시간의 경과에 따라, 그의 방향이 다른 음원의 방향과 교차한 후에도, 계속하여 추적할 수 있다.
단지 2개의 음원이 추적될지라도, 장치(A100)를 적어도 4개의 입력 채널을 갖도록 구현하는 것이 바람직할 수 있다. 예를 들어, 2개의 마이크의 어레이가 제공할 수 있는 것보다 더 좁은 빔을 획득하기 위해 4개의 마이크의 어레이가 사용될 수 있다.
필터의 수가 [예컨대, 방향 추정 모듈(DM10)이 나타내는] 음원의 수보다 많은 경우에, 잡음 추정을 위해 추가의 필터를 사용하는 것이 바람직할 수 있다. 예를 들어, 필터 배향 모듈(OM10)이 필터를 각각의 추정된 음원 방향[예컨대, 방향(DA10 및 DA20)]과 연관시켰으면, 각각의 나머지 필터를 음원이 존재하지 않는 고정된 방향으로 배향시키는 것이 바람직할 수 있다. 마이크 어레이의 축이 관심 영역에 대해 가로 방향으로 있는 응용의 경우, 이 고정된 방향은 어레이 축의 방향(세로 방향이라고도 함)일 수 있는데, 그 이유는 통상적으로 목표 음원 신호가 이 경우에 어레이 세로 방향으로부터 발신하지 않을 것이기 때문이다.
하나의 이러한 예에서, 필터 배향 모듈(OM10)은 하나 이상의 비음원 필터[즉, 각각의 추정된 음원 방향이 대응하는 필터와 연관된 후에 남아 있는 필터 뱅크(BK10)의 필터 또는 필터들] 각각의 빔을 어레이 세로 방향 쪽으로 또는 신호원으로부터 다른 방식으로 멀어지게 향하게 함으로써 하나 이상의 잡음 기준의 발생을 지원하도록 구현되어 있다. 추가의 잔향 제거(예컨대, 부가의 6 dB)를 제공하기 위해 이들 필터의 출력이 잡음 감소 동작에서 잔향 기준으로서 사용될 수 있다. 얻어지는 지각 효과는 화자가 실내에서 얼마간 떨어져 있는 것보다는 마이크에 직접 말하고 있는 것처럼 들리도록 하는 것일 수 있다.
도 21은 제3 필터(플롯 A)가 어레이의 하나의 세로 방향(+/- π 방향)에 고정되어 있고 제4 필터(플롯 B)가 어레이의 다른 세로 방향(영 방향)에 고정되어 있는 필터 뱅크(BK10)의 4채널 구현예[예컨대, 필터 뱅크(BK12)]의 제3 및 제4 필터의 빔 패턴의 예를 나타낸 것이다. 필터 뱅크의 제1 및 제2 필터 각각이 추정된 음원 방향(DA10 및 DA20) 중의 대응하는 방향 쪽으로 배향되어 있는 경우에 대해 이러한 고정된 배향이 사용될 수 있다.
도 22는 (예컨대, 도 21에 도시된 바와 같이) 마이크 어레이의 하나의 세로 방향으로 배향되어 있는 응답을 갖도록 계수 값(CV30)을 생성하고 마이크 어레이의 다른 세로 방향으로 배향되어 있는 응답을 갖도록 계수 값(CV40)을 생성하도록 구성되어 있는 필터 배향 모듈(OM12)의 구현예(OM22)를 포함하는 장치(A110)의 구현예(A140)의 블록도를 나타낸 것이다. 장치(A140)는 또한 계수 값(CV30 및 CV40) 세트를 갱신 없이(예컨대, 적응 없이) 필터 뱅크(BK12)로 통과시키도록 구성되어 있는 필터 갱신 모듈(UM12)의 구현예(UM22)를 포함하고 있다. 음원 필터에서 세로 방향으로 널 빔을 시행하는 (예컨대, 본 명세서에 기술된 바와 같은) 제약 조건을 포함하도록 필터 갱신 모듈(UM22)의 적응 규칙을 구성하는 것이 바람직할 수 있다.
장치(A140)는 또한, 고정된 필터(예컨대, OS10-3 및 OS10-4)의 출력 신호들 중 적어도 하나로부터의 정보에 기초하여, 음원 필터의 출력 신호들(예컨대, OS10-1 및 OS10-2) 중 적어도 하나에 대해 잡음 감소 동작을 수행하여 대응하는 잔향 제거된 신호를 생성하도록 구성되어 있는 잡음 감소 모듈(NR10)을 포함하고 있다. 이 특정의 예에서, 잡음 감소 모듈(NR10)은 각각의 음원 출력 신호에 대해 이러한 동작을 수행하여 대응하는 잔향 제거된 신호(DS10-1 및 DS10-2)를 생성하도록 구현되어 있다.
잡음 감소 모듈(NR10)은 주파수 영역 동작(예컨대, 스펙트럼 차감 또는 Wiener 필터링)으로서 잡음 감소를 수행하도록 구현될 수 있다. 예를 들어, 잡음 감소 모듈(NR10)은 고정된 출력 신호의 평균(잔향 기준이라고도 함)을 차감하는 것, 대응하는 음원 방향에 가장 가까운 세로 방향과 연관된 잔향 기준을 차감하는 것, 또는 대응하는 음원 방향으로부터 가장 먼 세로 방향과 연관된 잔향 기준을 차감하는 것에 의해 음원 출력 신호로부터 잔향 제거된 신호를 생성하도록 구현될 수 있다. 장치(A140)는 또한 잔향 제거된 신호를 주파수 영역으로부터 시간 영역으로 변환하도록 배열되어 있는 역변환 모듈을 포함하도록 구현될 수 있다.
장치(A140)는 또한 후처리 적극성(post-processing aggressiveness)을 제어하기 위해 VAD(voice activity detection, 음성 활동 검출) 표시를 사용하도록 구현될 수 있다. 예를 들어, 잡음 감소 모듈(NR10)은 음성 비활동(voice inactivity)의 구간 동안 (고정된 필터의 출력 신호보다는 또는 이에 부가하여) 하나 이상의 다른 음원 필터 각각의 출력 신호를 잔향 기준으로서 사용하도록 구현될 수 있다. 장치(A140)는 다른 모듈 또는 디바이스로부터 VAD 표시를 수신하도록 구현될 수 있다. 다른 대안으로서, 장치(A140)는 필터 뱅크(BK12)의 출력 신호들 중 하나 이상으로부터의 정보에 기초하여 각각의 출력 채널에 대한 VAD 표시를 발생하도록 구성되어 있는 VAD 모듈을 포함하도록 구현될 수 있다. 하나의 이러한 예에서, VAD 모듈은 각각의 다른 음원 출력 신호[즉, 추정된 음원 방향과 연관되어 있는 필터 뱅크(BK12)의 각각의 개별 필터의 출력] 및 각각의 비음원 출력 신호[즉, 비음원 방향에 고정되어 있는 필터 뱅크(BK12)의 각각의 필터의 출력]의 총 전력을 특정의 음원 출력 신호로부터 차감함으로써 VAD 표시를 발생하도록 구현되어 있다. 임의의 VAD 표시와 관계없이 계수 값(CV10 및 CV20)의 적응을 수행하도록 필터 갱신 모듈(UM22)을 구성하는 것이 바람직할 수 있다.
[예컨대, 방향 추정 모듈(DM10)에 의해 검출되는] 음원의 수에 기초하여 필터 뱅크(BK10) 내의 필터의 수를 런타임 시에 변경하도록 장치(A100)를 구현하는 것이 가능하다. 이러한 경우에, 장치(A100)가, 본 명세서에서 논의되는 바와 같이, 세로 방향으로 고정되어 있는 부가의 필터 또는 각각의 세로 방향으로 고정되어 있는 2개의 부가의 필터를 포함하도록 필터 뱅크(BK10)를 구성하는 것이 바람직할 수 있다.
요약하면, 필터 갱신 모듈(UM10)에 의해 적용되는 제약 조건은 방향에 대해 각각의 주파수에서 단위 이득 응답을 갖도록 하나 이상의 음원 필터를 정규화하는 것; 각자의 음원 방향에서 널 빔을 시행하기 위해 필터 적응을 제약하는 것; 및/또는 어떤 주파수 범위에서는 필터 계수 값를 고정시키는 반면 다른 주파수 범위에서는 필터 계수 값을 적응시키는 것을 포함할 수 있다. 그에 부가하여 또는 다른 대안으로서, 장치(A100)는 입력 채널의 수(예컨대, 센서의 수)가 추정된 음원의 수를 초과할 때 여분의 필터를 세로 방향으로 고정시키도록 구현될 수 있다.
한 예에서, 필터 갱신 모듈(UM10)은 일련의 필터 갱신 명령어를 실행하도록 구성되어 있는 DSP(digital signal processor, 디지털 신호 처리기)로서 구현되어 있고, 얻어진 적응되고 정규화된 필터 해가 다중 채널 신호에 적용하기 위해 FPGA(field-programmable gate array)에서의 필터 뱅크(BK10)의 구현예에 로드된다. 다른 일례에서, DSP는 필터 갱신 및 필터를 다중 채널 신호에 적용하는 것 둘 다를 수행한다.
도 23은 작업(T100, T200, T300, T400, 및 T500)을 포함하는 일반 구성에 따라 다중 채널 신호를 처리하는 방법(M100)의 플로우차트를 나타낸 것이다. 작업(T100)은 제1 출력 신호를 생성하기 위해 다중 채널 신호로부터의 정보에 기초하는 제1 신호에 복수의 제1 계수를 적용하고, 작업(T200)은 제2 출력 신호를 생성하기 위해 다중 채널 신호로부터의 정보에 기초하는 제2 신호에 복수의 제2 계수를 적용한다[예컨대, 필터 뱅크(BK10)의 구현예를 참조하여 본 명세서에 기술되어 있음]. 작업(T300)은 제1 음원 방향에 기초하여 복수의 제1 계수에 대한 초기 값 세트를 생성하고, 작업(T400)은 제1 음원 방향과 상이한 제2 음원 방향에 기초하여 복수의 제2 계수에 대한 초기 값 세트를 생성한다[예컨대, 필터 배향 모듈(OM10)의 구현예를 참조하여 본 명세서에 기술되어 있음]. 작업(T500)은 제1 및 제2 출력 신호로부터의 정보에 기초하여 복수의 제1 및 제2 계수에 대한 초기값을 갱신하고, 여기서 복수의 제1 계수에 대한 초기 값 세트의 상기 갱신은 방향과 관련하여 복수의 제1 계수에 대한 초기 값 세트의 지정된 특성(예컨대, 최대 응답)을 가지는 응답에 기초하고 있다[예컨대, 필터 갱신 모듈(UM10)의 구현예를 참조하여 본 명세서에 기술되어 있음]. 도 24는 다중 채널 신호 내의 정보에 기초하여 제1 및 제2 음원 방향을 추정하는 작업(T600)을 포함하는 방법(M100)의 구현예(M120)에 대한 플로우차트를 나타낸 것이다[예컨대, 방향 추정 모듈(DM10)의 구현예를 참조하여 본 명세서에 기술되어 있음].
도 25a는 다른 일반 구성에 따라 다중 채널 신호를 처리하는 장치(MF100)의 블록도를 나타낸 것이다. 장치(MF100)는 제1 출력 신호를 생성하기 위해 다중 채널 신호로부터의 정보에 기초하는 제1 신호에 복수의 제1 계수를 적용하고 제2 출력 신호를 생성하기 위해 다중 채널 신호로부터의 정보에 기초하는 제2 신호에 복수의 제2 계수를 적용하는 수단(F100)을 포함하고 있다[예컨대, 필터 뱅크(BK10)의 구현예를 참조하여 본 명세서에 기술되어 있음]. 장치(MF100)는 또한 제1 음원 방향에 기초하여 복수의 제1 계수에 대한 초기 값 세트를 생성하고 제1 음원 방향과 상이한 제2 음원 방향에 기초하여 복수의 제2 계수에 대한 초기 값 세트를 생성하는 수단(F300)을 포함한다[예컨대, 필터 배향 모듈(OM10)의 구현예를 참조하여 본 명세서에 기술되어 있음]. 장치(MF100)는 또한 제1 및 제2 출력 신호로부터의 정보에 기초하여 복수의 제1 및 제2 계수에 대한 초기값을 갱신하는 수단(F500)을 포함하고, 여기서 복수의 제1 계수에 대한 초기 값 세트의 상기 갱신은 방향과 관련하여 복수의 제1 계수에 대한 초기 값 세트의 지정된 특성(예컨대, 최대 응답)을 가지는 응답에 기초하고 있다[예컨대, 필터 갱신 모듈(UM10)의 구현예를 참조하여 본 명세서에 기술되어 있음]. 도 25b는 다중 채널 신호 내의 정보에 기초하여 제1 및 제2 음원 방향을 추정하는 수단(F600)을 포함하는 장치(MF100)의 구현예(MF120)에 대한 블록도를 나타낸 것이다[예컨대, 방향 추정 모듈(DM10)의 구현예를 참조하여 본 명세서에 기술되어 있음].
특정의 음원 방향에서 공간 초점(spatial focus)을 제공하기 위해 마이크 어레이(R100)가 사용될 수 있다. 어레이 개구(array aperture)(선형 어레이의 경우, 어레이의 2단자 마이크 사이의 거리), 마이크의 수, 및 마이크의 상대적 배열 모두가 공간 분리 성능에 영향을 줄 수 있다. 도 26a는 8 cm의 균일한 간격을 갖는 어레이(R100)의 4 마이크 구현예를 사용하여 획득된 빔 패턴의 예를 나타낸 것이다. 도 26b는 4 cm의 균일한 간격을 갖는 어레이(R100)의 4 마이크 구현예를 사용하여 획득된 빔 패턴의 예를 나타낸 것이다. 이들 도면에서, 주파수 범위는 0 내지 4 kHz이고, z 축은 이득 응답을 나타낸다. 상기와 같이, 도착 방향(각도)은 어레이 축에 대해 나타내어져 있다.
불균일한 마이크 간격은 작은 간격 및 큰 간격 둘 다를 포함할 수 있고, 이는 넓은 주파수 범위에 걸쳐 분리 성능을 균등하게 하는 데 도움을 줄 수 있다. 예를 들어, 이러한 불균일한 간격은 상이한 주파수에서 유사한 폭을 가지는 빔을 가능하게 해주는 데 사용될 수 있다.
약 500 내지 4000 Hz의 범위에서 신호 분리를 위한 첨예한 공간 빔(sharp spatial beam)을 제공하기 위해, 인접한 마이크 사이의 불균일한 간격 및 녹음되고 있는 음향적 장면 쪽으로 가로 방향으로 배향되어 있는 적어도 20 cm의 개구를 갖도록 어레이(R100)를 구현하는 것이 바람직할 수 있다. 한 예에서, 어레이(R100)의 4 마이크 구현예는 20 cm의 개구 및 각자의 인접한 마이크 쌍 사이의 4, 6 및 10 cm의 불균일한 간격을 가진다. 도 26c는 이러한 간격 및 이러한 어레이를 사용하여 획득되는 대응하는 빔 패턴의 예를 나타낸 것이며, 여기서 주파수 범위는 0 내지 4 kHz이고, z 축은 이득 응답을 나타내며, 도착 방향(각도)은 어레이 축에 대해 나타내어져 있다. 불균일한 어레이가 낮은 주파수에서 4 cm 어레이보다 더 나은 분리를 제공한다는 것과, 이 빔 패턴이 8 cm 어레이에 대한 빔 패턴에서 보이는 고주파 아티팩트(high-frequency artifact)를 갖지 않는다는 것을 알 수 있다.
이러한 불균일한 간격으로 있는 20 cm 개구 선형 어레이를 갖는 본 명세서에 기술된 바와 같은 장치(A100)의 구현예를 사용하면, 스피커들이 2 내지 3 미터의 거리에 나란히 있는 경우에도 500 내지 4000 Hz 대역에서 아티팩트가 거의 없이 최대 18 내지 20 dB의 간섭 제거 및 잔향 제거가 달성될 수 있으며, 그 결과 강건한 음향적 줌인 효과(robust acoustic zoom-in effect)가 얻어질 수 있다. 3 미터를 넘으면, 직접 경로 대 잔향비가 감소되고 저주파 전력이 증가되어 더 많은 후처리 왜곡이 발생하지만, 음향적 줌인 효과는 여전히 가능하다(예컨대, 최대 15 dB). 그 결과, "마주보고 하는 대화" 음향 효과를 제공하기 위해, 특히 500 Hz 미만 2 kHz 초과에서, 이러한 방법들을 재구성적 음성 스펙트럼 기법(reconstructive speech spectrum technique)과 결합시키는 것이 바람직할 수 있다. 500 Hz 미만에서 간섭을 제거하기 위해, 보다 큰 마이크 간격이 통상적으로 사용된다.
도 26a 내지 도 26c가 무지향성(omnidirectional) 마이크의 어레이를 사용하여 획득된 빔 패턴을 나타내고 있지만, 본 명세서에 기술된 원리들이 또한 지향성(directional) 마이크의 어레이로 확장될 수 있다. 도 27a는 전형적인 단일 지향성(unidirectional) 마이크 응답의 다이어그램을 나타낸 것이다. 이 특정의 예는 약 283도의 방향에서 도착하는 신호 성분에 대해 약 0.65의 감도를 가지는 마이크 응답을 나타낸 것이다. 도 27b는 어레이 축에 대해 가로 방향으로 있는 관심 영역이 표시되어 있는, 불균일한 간격으로 있는 이러한 마이크의 선형 어레이의 다이어그램을 나타낸 것이다. 어레이(R100)의 이러한 구현예는 2 내지 4 미터의 거리에 대해 강건한 음향적 줌인 효과를 지원하기 위해 사용될 수 있다. 3 미터를 넘어서면, 이러한 어레이로 18 dB의 줌인 효과를 획득하는 것이 가능할 수 있다.
마이크 지향성을 고려하기 위해 지향성 벡터(또는 "조종 벡터")를 조절하는 것이 바람직할 수 있다. 하나의 이러한 예에서, 상기 수학식 1의 행렬 D의 각각의 열 j가 로서 표현되도록 필터 배향 모듈(OM10)이 구현되어 있고, 여기서 는 주파수 ω 및 입시각 θj에서 마이크 m의 상대적 응답을 나타내는 지향성 인자이다. 이러한 경우에, 마이크 지향성을 고려하기 위해 코히런스 함수 Γ를 (예컨대, 유사한 인자에 의해) 조절하는 것도 바람직할 수 있다. 다른 일례에서, 수학식 3으로 나타낸 바와 같은 최대 응답 이 그 대신에
다중 마이크 오디오 감지 디바이스(D10)의 동작 동안에, 마이크 어레이(R100)는 다중 채널 신호를 생성하고, 여기서 각각의 채널은 마이크들 중 대응하는 마이크의 음향 환경에 대한 응답에 기초하고 있다. 하나의 마이크가 다른 마이크보다 더 직접적으로 특정의 사운드를 수신할 수 있고, 따라서 대응하는 채널이 서로 상이하여 단일 마이크를 사용해 포착될 수 있는 것보다 음향 환경의 전체적으로 더 완전한 표현을 제공한다.
어레이(R100)가 마이크에 의해 생성된 신호에 대해 하나 이상의 처리 동작을 수행하여 장치(A100)에 의해 처리되는 다중 채널 신호(MCS10)를 생성하는 것이 바람직할 수 있다. 도 28a는 임피던스 정합, 아날로그-디지털 변환, 이득 제어, 및/또는 아날로그 및/또는 디지털 영역에서의 필터링(이들로 제한되지 않음)을 포함할 수 있는 하나 이상의 이러한 동작을 수행하도록 구성되어 있는 오디오 전처리 스테이지(AP10)를 포함하는 포함하는 어레이(R100)의 구현예(R200)의 블록도를 나타낸 것이다.
도 28b는 어레이(R200)의 구현예(R210)의 블록도를 나타낸 것이다. 어레이(R210)는 아날로그 전처리 스테이지(P10a 및 P10b)를 포함하는 오디오 전처리 스테이지(AP10)의 구현예(AP20)를 포함하고 있다. 한 예에서, 스테이지(P10a 및 P10b) 각각은 대응하는 마이크 신호에 대해 고역 통과 필터링 동작(예컨대, 50, 100 또는 200 Hz의 차단 주파수를 가짐)을 수행하도록 구성되어 있다.
어레이(R100)가 다중 채널 신호를 디지털 신호로서, 즉 샘플 시퀀스로서 생성하는 것이 바람직할 수 있다. 어레이(R210)는, 예를 들어, 아날로그-디지털 변환기(ADC)(C10a 및 C10b) - 각각이 대응하는 아날로그 채널을 샘플링하도록 배열되어 있음 - 를 포함하고 있다. 음향 응용에 대한 통상적인 샘플링 레이트는 8 kHz, 12 kHz, 16 kHz 및 약 8 내지 약 16 kHz의 범위에 있는 기타 주파수를 포함하고 있지만, 약 44.1, 48, 및 192 kHz와 같이 높은 샘플링 레이트도 사용될 수 있다. 이 특정의 예에서, 어레이(R210)는 또한 각각이 대응하는 디지털화된 채널에 대해 하나 이상의 전처리 동작[예컨대, 반향 제거(echo cancellation), 잡음 감소, 및/또는 스펙트럼 정형(spectral shaping)]을 수행하여 다중 채널 신호(MCS10)의 대응하는 채널(MCS10-1, MCS10-2)을 생성하도록 구성되어 있는 디지털 전처리 스테이지(P20a 및 P20b)를 포함하고 있다. 그에 부가하여 또는 다른 대안으로서, 디지털 전처리 스테이지(P20a 및 P20b)는 대응하는 디지털화된 채널에 대해 주파수 변환(예컨대, FFT 또는 MDCT 동작)을 수행하여 대응하는 주파수 영역에서의 다중 채널 신호(MCS10)의 대응하는 채널(MCS10-1, MCS10-2)을 생성하도록 구현될 수 있다. 도 28a 및 도 28b가 2 채널 구현예를 나타내고 있지만, 동일한 원리가 임의의 수의 마이크 및 다중 채널 신호(MCS10)의 대응하는 채널(예컨대, 본 명세서에 기술된 것과 같은 어레이(R100)의 3 채널, 4 채널 또는 5 채널 구현예)로 확장될 수 있다는 것을 잘 알 것이다.
어레이(R100)의 각각의 마이크는 무지향성(omnidirectional), 양지향성(bidirectional), 또는 단일 지향성(unidirectional)[예컨대, 카디오이드(cardioid)]인 응답을 가질 수 있다. 어레이(R100)에서 사용될 수 있는 다양한 유형의 마이크는 압전 마이크(piezoelectric microphone), 다이나믹 마이크(dynamic microphone), 및 일렉트렛 마이크(electret microphone)(이들로 제한되지 않음)를 포함한다. 원거리 응용의 경우, 어레이(R100)의 인접한 마이크 사이의 중심간 간격은 통상적으로 약 4 내지 10 cm의 범위에 있지만, 인접한 마이크 쌍들 중 적어도 일부 사이의 더 큰 간격(예컨대, 최대 20, 30, 또는 40 cm 또는 그 이상)이 또한 평판 텔레비전 디스플레이 등의 디바이스에서 가능하다. 어레이(R100)의 마이크는 선을 따라 (균일한 또는 불균일한 마이크 간격으로), 또는 다른 대안으로서, 그의 중심이 2차원(예컨대, 삼각형) 또는 3차원 형상의 정점에 있도록 배열될 수 있다.
명백히 유의할 점은, 마이크가 보다 일반적으로 사운드 이외의 방사선(radiation) 또는 방출물(emission)에 민감한 트랜스듀서로서 구현될 수 있다는 것이다. 하나의 이러한 예에서, 마이크 쌍은 한 쌍의 초음파 트랜스듀서(예컨대, 15, 20, 25, 30, 40 또는 50 kHz 또는 그 이상보다 큰 음향 주파수에 민감한 트랜스듀서)로서 구현되어 있다.
다중 채널 신호(MCS)를 생성하도록 구성되어 있는 어레이(R100)의 인스턴스 및 다중 채널 신호(MCS)를 처리하도록 구성되어 있는 장치(A100)의 인스턴스를 포함하는 도 1b에 도시된 것과 같은 오디오 감지 디바이스(D10)를 생성하는 것이 바람직할 수 있다. 일반적으로, 디바이스(D10)는 본 명세서에 개시된 마이크 어레이(R100)의 구현예들 중 임의의 것의 인스턴스 및 본 명세서에 개시된 장치(A100)(또는 MF100)의 구현예들 중 임의의 것의 인스턴스를 포함하고 있고, 본 명세서에 개시된 오디오 감지 디바이스들 중 임의의 것이 디바이스(D10)의 인스턴스로서 구현될 수 있다. 이러한 어레이를 포함하도록 구현될 수 있고 오디오 녹음 및/또는 음성 통신 응용에 사용될 수 있는 오디오 감지 디바이스의 예로는 텔레비전 디스플레이, 셋톱 박스, 및 음성-회의 및/또는 화상 회의 디바이스가 있다.
도 29a는 디바이스(D10)의 구현예인 통신 디바이스(D20)의 블록도를 나타낸 것이다. 디바이스(D20)는 본 명세서에 기술된 것과 같은 장치(A100)(또는 MF100)의 구현예를 포함하는 칩 또는 칩셋(CS10)[예컨대, MSM(mobile station modem, 이동국 모뎀) 칩셋]을 포함하고 있다. 칩/칩셋(CS10)은 장치(A100 또는 MF100)의 동작의 전부 또는 일부를 (예컨대, 명령어로서) 실행하도록 구성되어 있을 수 있는 하나 이상의 프로세서를 포함할 수 있다. 칩/칩셋(CS10)은 또한 어레이(R100)의 처리 요소[예컨대, 본 명세서에 기술된 것과 같은 오디오 전처리 스테이지(AP10)의 요소]를 포함할 수 있다.
칩/칩셋(CS10)은 무선 주파수(RF) 통신 신호를 [예컨대, 안테나(C40)를 통해] 수신하고 RF 신호 내에 인코딩된 오디오 신호를 디코딩하여 [예컨대, 스피커(SP10)를 통해] 재생하도록 구성되어 있는 수신기를 포함하고 있다. 칩/칩셋(CS10)은 또한 장치(A100)에 의해 생성된 출력 신호에 기초하는 오디오 신호를 인코딩하고 인코딩된 오디오 신호를 나타내는 RF 통신 신호를 [예컨대, 안테나(C40)를 통해] 전송하도록 구성되어 있는 송신기를 포함하고 있다. 예를 들어, 칩/칩셋(CS10)의 하나 이상의 프로세서는, 인코딩된 오디오 신호가 잡음 감소된 신호에 기초하도록, 다중 채널 신호의 하나 이상의 채널에 대해 앞서 기술된 바와 같은 잡음 감소 동작을 수행하도록 구성되어 있을 수 있다. 이 예에서, 디바이스(D20)는 또한 사용자 제어 및 상호작용을 지원하기 위해 키패드(C10) 및 디스플레이(C20)를 포함하고 있다.
도 33은 디바이스(D20)의 인스턴스로서 구현될 수 있는 핸드셋(H100)(예컨대, 스마트폰)의 정면도, 배면도 및 측면도를 나타낸 것이다. 핸드셋(H100)은 전면 상에 배열되어 있는 2개의 음성 마이크(MV10-1 및 MV10-3); 전면 상의 상부 코너에 위치해 있는 오차 마이크(ME10); 및 배면 상에 배열되어 있는 음성 마이크(MV10-2), 잡음 기준 마이크(MR10), 및 카메라 렌즈를 포함하고 있다. 스피커(LS10)는 전면의 상부 중앙에서 오차 마이크(ME10) 근방에 배열되어 있고, 2개의 다른 스피커(LS20L, LS20R)가 또한 (예컨대, 스피커폰 응용을 위해) 제공되어 있다. 이러한 핸드셋의 마이크들 사이의 최대 거리는 통상적으로 약 10 또는 12 cm이다.
도 29b는 디바이스(D10)의 구현예인 다른 통신 디바이스(D30)의 블록도를 나타낸 것이다. 디바이스(D30)는 본 명세서에 기술된 것과 같은 장치(A100)(또는 MF100)의 구현예를 포함하는 칩 또는 칩셋(CS20)을 포함하고 있다. 칩/칩셋(CS20)은 장치(A100 또는 MF100)의 동작의 전부 또는 일부를 (예컨대, 명령어로서) 실행하도록 구성되어 있을 수 있는 하나 이상의 프로세서를 포함할 수 있다. 칩/칩셋(CS20)은 또한 어레이(R100)의 처리 요소[예컨대, 본 명세서에 기술된 것과 같은 오디오 전처리 스테이지(AP10)의 요소]를 포함할 수 있다.
디바이스(D30)는 네트워크와의[예컨대, 근거리 통신망(local-area network, LAN) 및/또는 원거리 통신망(wide-area network, WAN)과의] 데이터 통신을 지원하도록 구성되어 있는 네트워크 인터페이스(NI10)를 포함하고 있다. 이러한 통신을 위해 인터페이스(NI10)에 의해 사용되는 프로토콜은 이더넷(예컨대, IEEE 802.2 표준들 중 임의의 것에 의해 기술되어 있음), 무선 LAN(local area networking)(예컨대, IEEE 802.11 또는 802.16 표준들 중 임의의 것에 의해 기술되어 있음), 블루투스(예컨대, Bluetooth Core Specification 버전 4.0[기존 블루투스(Classic Bluetooth), 블루투스 고속(Bluetooth high speed), 및 블루투스 저에너지(Bluetooth low energy) 프로토콜을 포함함, 미국 워싱턴주 커크랜드 소재의 Bluetooth SIG, Inc.]에 기술되어 있는 헤드셋 또는 기타 프로필), Peanut(미국 캘리포니아주 샌디에고 소재의 QUALCOMM Incorporated), 및/또는 ZigBee(예컨대, ZigBee 2007 규격 및/또는 ZigBee RF4CE 규격에 기술되어 있음, 미국 캘리포니아주 샌 라몬 소재의 ZigBee Alliance)를 포함할 수 있다. 한 예에서, 네트워크 인터페이스(NI10)는 [예컨대, "VoIP"(Voice over Internet Protocol) 프로토콜을 사용하여] 마이크(MC10 및 MC20) 및 스피커(SP10)를 통해 음성 통신 응용을 지원하도록 구성되어 있다. 디바이스(D30)는 또한 (예컨대, 핸드헬드 리모콘으로부터 수신되는 적외선 신호를 통해 및/또는 음성 명령의 인식을 통해) 디바이스(D30)의 사용자 제어를 지원하기 위해 사용자 인터페이스(UI10)를 포함하고 있다. 디바이스(D30)는 또한 비디오 콘텐츠를 하나 이상의 사용자에게 디스플레이하도록 구성된 디스플레이 패널(P10)을 포함하고 있다.
원하는 음원과 어레이(R100) 사이의 거리가 증가함에 따라, 다중 채널 신호 녹음된 신호 내의 잔향 에너지가 증가하는 경향이 있다. 장치(A100)를 적용하는 것이 바람직할 수 있는 다른 응용은 음성 회의 및/또는 화상 회의이다. 도 30a 내지 도 30d는 디바이스(D10)의 회의 구현예의 몇가지 예의 상면도를 나타낸 것이다. 도 30a는 어레이(R100)의 3 마이크 구현예[마이크(MC10, MC20, 및 MC30)]를 포함한다. 도 30b는 어레이(R100)의 4 마이크 구현예[마이크(MC10, MC20, MC30, 및 MC40)]를 포함한다. 도 30c는 어레이(R100)의 5 마이크 구현예[마이크(MC10, MC20, MC30, MC40, 및 MC50)]를 포함한다. 도 30d는 어레이(R100)의 6 마이크 구현예[마이크(MC10, MC20, MC30, MC40, MC50, 및 MC60)]를 포함한다. 어레이(R100)의 각각의 마이크를 정다각형의 대응하는 정점에 배치하는 것이 바람직할 수 있다. 원단 오디오 신호(far-end audio signal)의 재생을 위한 스피커(SP10)가 (예컨대, 도 30a에 도시된 것과 같은) 디바이스 내에 포함될 수 있고, 및/또는 이러한 스피커가 (예컨대, 음향 피드백을 감소시키기 위해) 디바이스와 분리되어 위치해 있을 수 있다.
디바이스(D10)의 회의 구현예가 2개 이상의 공간 섹터(예컨대, 90, 120, 150, 또는 180도의 중첩 또는 비중첩 섹터) 각각에 대해 장치(A100)의 개별적인 인스턴스를 수행하는 것이 바람직할 수 있다. 이러한 경우에, 또한, 장치가 다양한 잔향 제거된 음성 신호를 원단으로 전송하기 전에 결합(예컨대, 혼합)하는 것이 바람직할 수 있다.
디바이스(D10)의[예컨대, 디바이스(D30)의] 회의 응용의 다른 예에서, 어레이(R100)의 수평 선형 구현예가 텔레비전 또는 셋톱 박스의 전면 패널 내에 포함되어 있다. 이러한 디바이스는 어레이의 전방에 있는 영역 내에서 말하는 사람으로부터의 및 어레이로부터 약 1 내지 3 또는 4 미터 떨어진 위치(예컨대, 텔레비전을 보고 있는 시청자)로부터의 근단 음원 신호를 찾아내어 잔향 제거함으로써 전화 통신을 지원하도록 구성될 수 있다.
도 31a는 디스플레이 패널(P10)을 포함하는 디바이스(D10)의 구현예(DS10)(예컨대, 텔레비전 또는 컴퓨터 모니터) 및 균일한 간격으로 선형으로 배열되어 있는 4개의 마이크(MC10, MC20, MC30, 및 MC40)를 포함하는 어레이(R100)의 구현예의 도면을 나타낸 것이다. 도 31b는 디스플레이 패널(P10)을 포함하는 디바이스(D10)의 구현예(DS20)(예컨대, 텔레비전 또는 컴퓨터 모니터) 및 불균일한 간격으로 선형으로 배열되어 있는 4개의 마이크(MC10, MC20, MC30, 및 MC40)를 포함하는 어레이(R100)의 구현예의 도면을 나타낸 것이다. 디바이스들(DS10 및 DS20) 중 어느 하나가 또한 본 명세서에 기술된 디바이스(D30)의 구현예로서 실현될 수 있다. 본 명세서에 개시된 시스템, 방법 및 장치의 적용성이 본 명세서에서 살펴본 특정의 예로 제한되지 않는다는 것이 명백히 개시되어 있다.
본 명세서에서 개시되는 방법 및 장치는 일반적으로 임의의 오디오 감지 응용, 특히 원거리 음원으로부터의 신호 성분의 감지에 적용될 수 있다. 본 명세서에서 개시되는 구성의 범위는 코드 분할 다중 접속(CDMA) 공중파 인터페이스를 이용하도록 구성된 무선 전화 통신 시스템 내에 존재하는 통신 디바이스를 포함한다. 그러나, 이 기술 분야의 당업자라면 본 명세서에서 설명되는 바와 같은 특징들을 갖는 방법 및 장치가 유선 및/또는 무선(예를 들어, CDMA, TDMA, FDMA 및/또는 TD-SCDMA) 전송 채널을 통해 VoIP(Voice over IP)를 이용하는 시스템과 같이 이 기술 분야의 당업자에게 알려진 광범위한 기술을 이용하는 임의의 다양한 통신 시스템 내에 존재할 수 있다는 것을 잘 알 것이다.
본 명세서에서 개시되는 통신 디바이스는 패킷 교환 네트워크(예를 들어, VoIP와 같은 프로토콜에 따라 오디오 전송을 전달하도록 배열된 유선 및/또는 무선 네트워크) 및/또는 회선 교환 네트워크에서 사용되도록 구성될 수 있다는 점이 명백히 고려되고 본 명세서에 개시되어 있다. 또한, 본 명세서에 개시되어 있는 통신 디바이스는 협대역 코딩 시스템(예를 들어, 약 4 또는 5 kHz의 오디오 주파수 범위를 인코딩하는 시스템)에서 사용되도록 및/또는 전체 대역 광대역 코딩 시스템 및 분할 대역 광대역 코딩 시스템을 포함하는 광대역 코딩 시스템(예를 들어, 5 kHz보다 높은 오디오 주파수를 인코딩하는 시스템)에서 사용되도록 구성될 수 있다는 점이 명백히 고려되고 본 명세서에 개시되어 있다.
기술된 구성에 대한 이상의 제시는 이 기술 분야의 당업자가 본 명세서에 개시되는 방법 및 기타 구조를 실시하거나 이용할 수 있게 하기 위해 제공된다. 본 명세서에 도시되고 설명되는 흐름도, 블록도 및 기타 구조는 예시를 위한 것에 불과하고, 이러한 구조의 다른 변형들도 본 발명의 범위 내에 있다. 이러한 구성에 대한 다양한 변경들이 가능하며, 본 명세서에서 설명되는 일반 원리가 다른 구성들에도 적용될 수 있다. 따라서, 본 발명은 전술한 구성들로 한정되는 것을 의도하는 것이 아니라, 최초 명세서의 일부를 형성하는 출원시의 첨부된 청구항들에서 개시되는 것을 포함하여, 본 명세서에서 임의의 방식으로 개시되는 원리 및 새로운 특징과 일치하는 가장 넓은 범위를 부여받아야 한다.
이 기술 분야의 당업자들은 정보 또는 신호가 임의의 다양한 상이한 기술 및 기법을 이용하여 표현될 수 있다는 것을 잘 알 것이다. 예를 들어, 본 설명 전반에서 참조될 수 있는 데이터, 명령어, 명령, 정보, 신호, 비트 및 심볼은 전압, 전류, 전자기파, 자기장 또는 입자, 광학 장 또는 입자 또는 이들의 임의의 조합에 의해 표현될 수 있다.
본 명세서에서 개시되는 바와 같은 구성의 구현을 위한 중요한 설계 요건은 특히, 압축된 오디오 또는 시청각 정보(예를 들어, 본 명세서에서 식별되는 예들 중 하나와 같은 압축 포맷에 따라 인코딩된 파일 또는 스트림)의 재생과 같은 계산 집약적인 응용 또는 광대역 통신(예를 들어, 12, 16, 44.1, 48 또는 192 kHz와 같은 8 kHz보다 높은 샘플링 레이트에서의 음성 통신)을 위한 응용을 위해 처리 지연 및/또는 계산 복잡성(통상적으로 초당 수백 만개의 명령어, 즉 MIPS 단위로 측정됨)을 최소화하는 것을 포함할 수 있다.
다중 마이크 처리 시스템의 목표는 10 내지 12 dB의 전체 잡음 감소를 달성하는 것, 원하는 스피커의 움직임 동안 음성 레벨 및 컬러를 유지하는 것, 적극적인 잡음 제거 대신에 잡음이 배경 내로 이동하였다는 지각을 획득하는 것, 음성의 잔향 제거(dereverberation) 및/또는 더 적극적인 잡음 감소를 위해 후처리(예를 들어, 마스킹 및/또는 잡음 감소)의 옵션을 가능하게 하는 것을 포함할 수 있다.
본 명세서에서 개시되는 바와 같은 장치[예를 들어, 장치(A100 및 MF100)]의 일 구현의 다양한 요소들은 의도된 응용에 적합한 것으로 간주되는 하드웨어와 소프트웨어 및/또는 펌웨어와의 임의 조합에서 구현될 수 있다. 예를 들어, 그러한 장치의 요소들은 예를 들어 동일 칩 상에 또는 칩셋 내의 둘 이상의 칩 사이에 존재하는 전자 및/또는 광학 디바이스로서 제조될 수 있다. 그러한 디바이스의 일례는 트랜지스터 또는 논리 게이트와 같은 논리 요소의 고정 또는 프로그래밍 가능 어레이이며, 그 장치의 요소들 중 임의의 요소는 하나 이상의 그러한 어레이로서 구현될 수 있다. 그 장치의 요소들 중 임의의 둘 이상 또는 심지어 전부가 동일 어레이 또는 어레이들 내에 구현될 수 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩 내에(예를 들어, 둘 이상의 칩을 포함하는 칩셋 내에) 구현될 수 있다.
본 명세서에서 개시되는 장치의 다양한 구현들의 하나 이상의 요소는 또한 마이크로프로세서, 내장 프로세서, IP 코어, 디지털 신호 프로세서, 필드 프로그래머블 게이트 어레이(FPGA), 주문형 표준 제품(ASSP) 및 주문형 집적 회로(ASIC)와 같은 논리 요소들의 하나 이상의 고정 또는 프로그래밍 가능 어레이 상에서 실행되도록 배열된 하나 이상의 명령어 세트로서 전체적으로 또는 부분적으로 구현될 수 있다. 본 명세서에서 개시되는 바와 같은 장치의 일 구현의 임의의 다양한 요소는 또한 하나 이상의 컴퓨터(예를 들어, 하나 이상의 명령어 세트 또는 시퀀스를 실행하도록 프로그래밍되는 하나 이상의 어레이를 포함하는 기계, "프로세서"라고도 함)로서 구현될 수 있으며, 이들 요소 중 임의의 둘 이상 또는 심지어 전부가 동일한 그러한 컴퓨터 또는 컴퓨터들 내에 구현될 수 있다.
본 명세서에서 개시되는 바와 같은 처리를 위한 프로세서 또는 다른 수단은 예를 들어 동일 칩 상에 또는 칩셋 내의 둘 이상의 칩 사이에 존재하는 하나 이상의 전자 및/또는 광학 디바이스로서 제조될 수 있다. 그러한 디바이스의 일례는 트랜지스터 또는 논리 게이트와 같은 논리 요소들의 고정 또는 프로그래밍 가능 어레이이며, 이들 요소 중 임의의 요소는 하나 이상의 그러한 어레이로서 구현될 수 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩 내에(예를 들어, 둘 이상의 칩을 포함하는 칩셋 내에) 구현될 수 있다. 그러한 어레이들의 예들은 마이크로프로세서, 내장 프로세서, IP 코어, DSP, FPGA, ASSP 및 ASIC과 같은 논리 요소의 고정 또는 프로그래밍 가능 어레이를 포함한다. 본 명세서에서 개시되는 바와 같은 처리를 위한 프로세서 또는 다른 수단은 또한 하나 이상의 컴퓨터(예를 들어, 하나 이상의 명령어 세트 또는 시퀀스를 실행하도록 프로그래밍되는 하나 이상의 어레이를 포함하는 기계들) 또는 다른 프로세서들로서 구현될 수 있다. 프로세서가 내장된 디바이스 또는 시스템(예를 들어, 오디오 감지 디바이스)의 다른 동작과 관련된 작업 등 본 명세서에 기술된 다중 채널 지향성 오디오 처리 절차와 직접 관련되지 않은 다른 명령어 세트들을 실행하거나 작업들을 수행하는 데 본 명세서에 기술된 것과 같은 프로세서가 사용되는 것이 가능하다. 본 명세서에서 설명되는 바와 같은 방법의 일부는 오디오 감지 디바이스의 프로세서에 의해 수행되고, 방법의 다른 부분은 하나 이상의 다른 프로세서의 제어 하에 수행되는 것도 가능하다.
이 기술 분야의 당업자들은 본 명세서에서 개시되는 구성들과 관련하여 설명되는 다양한 예시적인 모듈, 논리 블록, 회로 및 테스트 및 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어 또는 이 둘의 조합으로서 구현될 수 있다는 것을 알 것이다. 그러한 모듈, 논리 블록, 회로 및 동작은 범용 프로세서, 디지털 신호 프로세서(DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그래밍 가능 논리 디바이스, 개별 게이트 또는 트랜지스터 논리, 개별 하드웨어 컴포넌트들, 또는 본 명세서에 개시되는 바와 같은 구성을 생성하도록 설계된 이들의 임의 조합을 이용하여 구현 또는 수행될 수 있다. 예를 들어, 그러한 구성은 하드-와이어드 회로로서, 주문형 집적 회로 내에 제조된 회로 구성으로서, 또는 비휘발성 저장 장치 내에 로딩된 펌웨어 프로그램 또는 데이터 저장 매체로부터 또는 그 안에 기계 판독 가능 코드로서 로딩된 소프트웨어 프로그램으로서 적어도 부분적으로 구현될 수 있으며, 그러한 코드는 범용 프로세서 또는 다른 디지털 신호 처리 유닛과 같은 논리 요소들의 어레이에 의해 실행될 수 있는 명령어이다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안으로서 프로세서는 임의의 전통적인 프로세서, 제어기, 마이크로컨트롤러 또는 상태 기계일 수 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어 DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 연계된 하나 이상의 마이크로프로세서 또는 임의의 다른 그러한 구성으로서 구현될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 플래시 RAM과 같은 비휘발성 RAM(NVRAM), 소거 및 프로그래밍 가능한 ROM(EPROM), 전기적으로 소거 및 프로그래밍 가능한 ROM(EEPROM), 레지스터, 하드 디스크, 이동식 디스크 또는 CD-ROM과 같은 비일시적 저장 매체 내에 또는 이 분야에 공지된 임의의 다른 형태의 저장 매체 내에 존재할 수 있다. 예시적인 저장 매체가 프로세서에 결합되며, 따라서 프로세서는 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수 있다. 대안으로서, 저장 매체는 프로세서와 일체일 수 있다. 프로세서와 저장 매체는 ASIC 내에 위치할 수 있다. ASIC은 사용자 단말기 내에 위치할 수 있다. 대안으로서, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 구성요소로서 존재할 수 있다.
본 명세서에서 개시되는 다양한 방법(예를 들어, 방법(M100), 및 본 명세서에 설명된 다양한 장치의 동작의 설명을 통해 개시된 다른 방법들)은 프로세서와 같은 논리 요소들의 어레이에 의해 수행될 수 있으며, 본 명세서에서 설명되는 바와 같은 장치의 다양한 요소들은 그러한 어레이 상에서 실행되도록 설계되는 모듈로서 구현될 수 있다는 점에 유의한다. 본 명세서에서 사용될 때, "모듈" 또는 "서브모듈"이라는 용어는 소프트웨어, 하드웨어 또는 펌웨어 형태의 컴퓨터 명령어(예를 들어, 논리 표현)를 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터 판독 가능 데이터 저장 매체를 지칭할 수 있다. 동일 기능을 수행하기 위해 다수의 모듈 또는 시스템이 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템이 다수의 모듈 또는 시스템으로 분할될 수 있다는 것을 이해해야 한다. 소프트웨어 또는 다른 컴퓨터 실행 가능 명령어에서 구현될 때, 본질적으로 프로세스의 요소들은 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등과 더불어 관련 작업들을 수행하기 위한 코드 세그먼트이다. "소프트웨어"라는 용어는 소스 코드, 어셈블리 언어 코드, 기계 코드, 이진 코드, 펌웨어, 매크로코드, 마이크로코드, 논리 요소들의 어레이에 의해 실행 가능한 임의의 하나 이상의 명령어 세트 또는 시퀀스 및 이러한 예들의 임의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트는 프로세서 판독 가능 저장 매체에 저장되거나, 전송 매체 또는 통신 링크를 통해 반송파 내에 구현된 컴퓨터 데이터 신호에 의해 전송될 수 있다.
본 명세서에서 개시되는 방법, 방식 및 기술의 구현은 논리 요소들의 어레이(예를 들어, 프로세서, 마이크로프로세서, 마이크로컨트롤러, 또는 다른 유한 상태 기계)를 포함하는 기계에 의해 판독 가능한 및/또는 실행 가능한 하나 이상의 명령어 세트로서 유형적으로 (예를 들어, 본 명세서에 열거된 바와 같은 하나 이상의 컴퓨터 판독 가능 매체에) 구현될 수 있다. "컴퓨터 판독 가능 매체"라는 용어는 정보를 저장하거나 전송할 수 있는, 휘발성, 비휘발성, 이동식 및 비이동식 매체를 포함하는 임의의 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거 가능 ROM(EROM), 플로피 디스켓 또는 다른 자기 저장 장치, CD-ROM/DVD 또는 다른 광학 저장 장치, 하드 디스크, 광섬유 매체, 라디오 주파수(RF) 링크, 또는 원하는 정보를 저장하는 데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광섬유, 공기, 전자기파, RF 링크 등과 같은 전송 매체를 통해 전송될 수 있는 임의의 신호를 포함할 수 있다. 코드 세그먼트는 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크를 통해 다운로드될 수 있다. 어느 경우에나, 본 발명의 범위는 그러한 실시예들에 의해 한정되는 것으로 해석되지 않아야 한다.
본 명세서에서 설명되는 방법들의 작업들 각각은 하드웨어에서 직접, 프로세서에 의해 실행되는 소프트웨어 모듈에서 또는 이 둘의 조합에서 구현될 수 있다. 본 명세서에서 개시되는 바와 같은 방법의 일 구현의 통상적인 응용에서는, 논리 요소들(예를 들어, 논리 게이트들)의 어레이가 방법의 다양한 작업들 중 하나, 둘 이상 또는 심지어 전부를 수행하도록 구성된다. 작업들 중 하나 이상(아마도 전부)은 또한 논리 요소들의 어레이(예를 들어, 프로세서, 마이크로프로세서, 마이크로컨트롤러 또는 다른 유한 상태 기계)를 포함하는 기계(예를 들어, 컴퓨터)에 의해 판독 및/또는 실행될 수 있는 컴퓨터 프로그램 제품(예를 들어, 디스크, 플래시 또는 다른 비휘발성 메모리 카드, 반도체 메모리 칩 등과 같은 하나 이상의 데이터 저장 매체) 내에 구현되는 코드(예를 들어, 하나 이상의 명령어 세트)로서 구현될 수 있다. 본 명세서에서 개시되는 바와 같은 방법의 일 구현의 작업들은 또한 둘 이상의 그러한 어레이 또는 기계에 의해 수행될 수 있다. 이들 또는 다른 구현들에서, 작업들은 무선 통신 능력을 갖는 셀룰러 전화 또는 다른 디바이스와 같은 무선 통신을 위한 디바이스 내에서 수행될 수 있다. 그러한 디바이스는 (예를 들어, VoIP와 같은 하나 이상의 프로토콜을 이용하여) 회선 교환 및/또는 패킷 교환 네트워크들과 통신하도록 구성될 수 있다. 예를 들어, 그러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수 있다.
본 명세서에서 개시되는 다양한 방법들은 통신 디바이스에 의해 수행될 수 있으며, 본 명세서에서 설명되는 다양한 장치들은 그러한 디바이스 내에 포함될 수 있다는 것이 명백히 개시된다. 통상적인 실시간(예를 들어, 온라인) 응용은 그러한 이동 디바이스를 이용하여 수행되는 전화 통화이다.
하나 이상의 예시적인 실시예에서, 본 명세서에서 설명되는 동작들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의 조합에서 구현될 수 있다. 소프트웨어에서 구현되는 경우, 그러한 동작들은 컴퓨터 판독 가능 매체 상에 하나 이상의 명령어 또는 코드로서 저장되거나 그를 통해 전송될 수 있다. "컴퓨터 판독 가능 매체"라는 용어는 컴퓨터 판독 가능 저장 매체 및 통신(예를 들어, 전송) 매체 모두를 포함한다. 제한이 아니라 예로서, 컴퓨터 판독 가능 저장 매체는 (동적 또는 정적 RAM, ROM, EEPROM 및/또는 플래시 RAM을 포함할 수 있지만 이에 한정되지 않는) 반도체 메모리, 또는 강유전성, 자기 저항, 오보닉, 폴리머 또는 상변화 메모리; CD-ROM 또는 다른 광 디스크 저장 장치; 및/또는 자기 디스크 저장 장치 또는 다른 자기 저장 디바이스들과 같은 저장 요소들의 어레이를 포함할 수 있다. 그러한 저장 매체는 컴퓨터에 의해 액세스될 수 있는 명령어 또는 데이터 구조의 형태로 정보를 저장할 수 있다. 통신 매체는 원하는 프로그램 코드를 명령어 또는 데이터 구조의 형태로 전달하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 매체를 포함할 수 있으며, 이러한 매체는 하나의 장소로부터 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함할 수 있다. 또한, 임의의 접속도 적절히 컴퓨터 판독 가능 매체로서 지칭된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스트 쌍, 디지털 가입자 회선(DSL), 또는 적외선, 라디오 및/또는 마이크로파와 같은 무선 기술을 이용하여 웹사이트, 서버 또는 다른 원격 소스로부터 전송되는 경우, 동축 케이블, 광섬유 케이블, 트위스트 쌍, DSL, 또는 적외선, 라디오 및/또는 마이크로파와 같은 무선 기술은 매체의 정의 내에 포함된다. 본 명세서에서 사용되는 바와 같은 디스크(disk, disc)는 컴팩트 디스크(compact disc; CD), 레이저 디스크(disc), 광 디스크(disc), 디지털 다기능 디스크(digital versatile disc; DVD), 플로피 디스크(floppy disk) 및 블루레이 디스크(Blu-ray Disc)(상표)(Blu-Ray Disc Association, Universal City, CA)를 포함하며, 여기서 디스크(disk)는 일반적으로 데이터를 자기적으로 재생하고, 디스크(disc)는 데이터를 레이저를 이용하여 광학적으로 재생한다. 위의 것들의 조합들도 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.
본 명세서에서 설명되는 바와 같은 음향 신호 처리 장치[예컨대, 장치(A100 또는 MF100)]는 소정의 동작들을 제어하기 위하여 음성 입력을 수신하는 전자 디바이스 내에 통합될 수 있거나, 통신 디바이스들과 같은 배경 잡음들로부터의 원하는 잡음들의 분리로부터 이익을 얻을 수 있다. 많은 응용은 다수의 방향으로부터 발생하는 배경 사운드들로부터 선명한 원하는 사운드를 분리하거나 향상시키는 것으로부터 이익을 얻을 수 있다. 그러한 응용들은 음성 인식 및 검출, 음성 향상 및 분리, 음성 활성화 제어 등과 같은 능력들을 포함하는 전자 또는 컴퓨팅 디바이스들 내의 사람-기계 인터페이스들을 포함할 수 있다. 제한된 처리 능력들만을 제공하는 디바이스들에 적합하도록 그러한 음향 신호 처리 장치를 구현하는 것이 바람직할 수 있다.
본 명세서에서 설명되는 모듈들, 요소들 및 디바이스들의 다양한 구현들의 요소들은 예를 들어 동일 칩 상에 또는 칩셋 내의 둘 이상의 칩 사이에 존재하는 전자 및/또는 광학 디바이스들로서 제조될 수 있다. 그러한 디바이스의 일례는 트랜지스터 또는 게이트와 같은 논리 요소들의 고정 또는 프로그래밍 가능 어레이이다. 본 명세서에서 설명되는 장치의 다양한 구현들의 하나 이상의 요소는 또한 마이크로프로세서, 내장 프로세서, IP 코어, 디지털 신호 프로세서, FPGA, ASSP 및 ASIC과 같은 논리 요소들의 하나 이상의 고정 또는 프로그래밍 가능 어레이 상에서 실행되도록 배열되는 하나 이상의 명령어 세트로서 완전히 또는 부분적으로 구현될 수 있다.
본 명세서에서 설명되는 바와 같은 장치의 일 구현의 하나 이상의 요소는 장치가 내장된 디바이스 또는 시스템의 다른 동작과 관련된 작업과 같이 장치의 동작과 직접 관련되지 않은 다른 명령어 세트들을 실행하거나 작업들을 수행하는 데 사용될 수 있다. 그러한 장치의 일 구현의 하나 이상의 요소는 공통 구조를 갖는 것도 가능하다(예를 들어, 상이한 시간들에 상이한 요소들에 대응하는 코드의 부분들을 실행하는 데 사용되는 프로세서, 상이한 시간들에 상이한 요소들에 대응하는 작업들을 수행하도록 실행되는 명령어들의 세트, 또는 상이한 시간들에 상이한 요소들에 대한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열).
Claims (50)
- 다중 채널 신호를 처리하는 장치로서,
(A) 제1 출력 신호를 생성하기 위해 상기 다중 채널 신호에 기초하는 제1 신호에 복수의 제1 계수를 적용하도록 구성되어 있는 제1 필터 및 (B) 제2 출력 신호를 생성하기 위해 상기 다중 채널 신호에 기초하는 제2 신호에 복수의 제2 계수를 적용하도록 구성되어 있는 제2 필터를 가지는 필터 뱅크(filter bank);
제1 음원 방향(source direction)에 기초하여, 상기 복수의 제1 계수에 대한 초기 값 세트를 생성하고 상기 제1 음원 방향과 상이한 제2 음원 방향에 기초하여, 상기 복수의 제2 계수에 대한 초기 값 세트를 생성하도록 구성되어 있는 필터 배향 모듈(filter orientation module); 및
(A) 대응하는 방향들에서의 복수의 응답에 기초하여, 지정된 특성을 가지는 응답을 결정하고 (B) 상기 지정된 특성을 가지는 상기 응답에 기초하여, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하도록 구성되어 있는 필터 갱신 모듈(filter updating module)
을 포함하는 장치. - 제1항에 있어서, 상기 복수의 응답의 각각의 응답은, 상기 대응하는 방향에서, 상기 복수의 제1 계수에 대한 초기 값 세트에 기초하는 값 세트의 응답인 장치.
- 제1항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 것은, 상기 제1 및 제2 출력 신호로부터의 정보에 기초하여, 상기 복수의 제1 계수에 대한 초기값 세트를 적응시키는 것을 포함하는 장치.
- 제1항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 것은, 상기 제1 및 제2 출력 신호로부터의 정보에 기초하여, 상기 복수의 제1 계수에 대한 초기 값 세트를 적응시켜 상기 복수의 제1 계수에 대한 적응된 값 세트를 생성하는 것을 포함하는 장치.
- 제1항에 있어서, 상기 지정된 특성은 상기 복수의 응답 중의 최대 값인 장치.
- 제1항에 있어서, 상기 필터 갱신 모듈은, 복수의 주파수의 각각의 주파수에서 값을 가지는 결정된 응답을 계산하도록 구성되어 있고,
상기 결정된 응답을 계산하는 것은 상기 복수의 주파수의 각각의 주파수에서 상기 결정을 수행하는 것을 포함하며,
상기 복수의 주파수의 각각의 주파수에서, 상기 결정된 응답의 상기 값은 그 주파수에서 상기 복수의 응답들 중 지정된 특성을 가지는 상기 응답인 장치. - 제6항에 있어서, 상기 복수의 주파수의 각각의 주파수에서, 상기 결정된 응답의 상기 값은 그 주파수에서 상기 복수의 응답들 중 최대 값인 장치.
- 제6항에 있어서, 상기 복수의 주파수 중의 제1 주파수에서 상기 결정된 응답의 상기 값은 제1 방향에서의 응답이고,
상기 복수의 주파수 중의 제2 주파수에서 상기 결정된 응답의 상기 값은 상기 제1 방향과 상이한 제2 방향에서의 응답인 장치. - 제6항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 것은, 상기 결정된 응답에 기초하여, 상기 복수의 제1 계수에 대한 상기 적응된 값 세트를 조절하여 상기 복수의 제1 계수에 대한 갱신된 값 세트를 생성하는 것을 포함하는 장치.
- 제9항에 있어서, 상기 조절하는 것은, 상기 결정된 응답에 기초하여, 상기 복수의 제1 계수에 대한 상기 적응된 값 세트를 정규화(normalizing)하여 상기 복수의 제1 계수에 대한 갱신된 값 세트를 생성하는 것을 포함하는 장치.
- 제9항에 있어서, 상기 복수의 제1 계수에 대한 상기 적응된 값 세트는, (A) 상기 복수의 주파수 중의 제1 주파수에 대응하는 제1 복수의 적응된 값 및 (B) 상기 복수의 주파수 중의 상기 제1 주파수와 상이한 상기 복수의 주파수 중의 제2 주파수에 대응하는 제2 복수의 적응된 값을 포함하고,
상기 조절하는 것은, (A) 상기 복수의 주파수 중의 상기 제1 주파수에 대응하는 상기 결정된 응답의 상기 값에 기초하여, 상기 제1 복수의 적응된 값의 각각의 값을 정규화하는 것, 및 (B) 상기 복수의 주파수 중의 상기 제2 주파수에 대응하는 상기 결정된 응답의 상기 값에 기초하여, 상기 제2 복수의 적응된 값의 각각의 값을 정규화하는 것을 포함하는 장치. - 제9항에 있어서, 상기 복수의 제1 계수에 대한 상기 갱신된 값 세트의 각각의 값은, 상기 복수의 제1 계수에 대한 초기 값 세트의 상이한 값에 그리고 상기 다중 채널 신호의 주파수 성분에 대응하고,
제1 주파수 범위 내의 주파수 성분에 대응하는 상기 복수의 제1 계수에 대한 상기 갱신된 값 세트의 각각의 값은 상기 복수의 제1 계수에 대한 초기 값 세트의 상기 대응하는 값과 동일한 값을 가지는 것인 장치. - 제1항에 있어서, 상기 제1 및 제2 계수 각각은 상기 다중 채널 신호의 복수의 주파수 성분 중의 하나의 주파수 성분에 대응하는 것인 장치.
- 제1항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트는 상기 제1 음원 방향으로 배향된 빔을 나타내는(describe) 것인 장치.
- 제1항에 있어서, 상기 필터 갱신 모듈은, 상기 제1 및 제2 출력 신호의 주파수 성분에 비선형 유계 함수(nonlinear bounded function)를 적용한 결과에 따라 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하도록 구성되어 있는 것인 장치.
- 제1항에 있어서, 상기 필터 갱신 모듈은, 블라인드 음원 분리 학습 규칙(blind source separation learning rule)에 따라 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하도록 구성되어 있는 것인 장치.
- 제1항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 것은 공간 제약 조건(spatial constraint)에 기초하고 있으며,
상기 공간 제약 조건은 상기 제2 음원 방향에 기초하고 있는 것인 장치. - 제1항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 것은, 상기 제1 음원 방향에서의 상기 복수의 제1 계수의 응답에 대해 상기 제2 음원 방향에서의 상기 복수의 제1 계수의 응답을 감쇠시키는 것을 포함하는 장치.
- 제1항에 있어서, 상기 장치는, 상기 다중 채널 신호 내의 정보에 기초하여 상기 제1 음원 방향을 계산하도록 구성되어 있는 방향 추정 모듈을 포함하는 것인 장치.
- 제1항에 있어서, 상기 장치는, 복수의 마이크를 포함하는 마이크 어레이를 포함하고,
상기 다중 채널 신호의 각각의 채널은 상기 복수의 마이크 중의 상이한 대응하는 마이크에 의해 생성되는 신호에 기초하며,
상기 마이크 어레이는 적어도 20 cm의 개구를 가지는 것인 장치. - 제1항에 있어서, 상기 장치는 복수의 마이크를 포함하는 마이크 어레이를 포함하고,
상기 다중 채널 신호의 각각의 채널은 상기 복수의 마이크 중의 상이한 대응하는 마이크에 의해 생성되는 신호에 기초하며,
상기 마이크 어레이의 제1 인접 마이크 쌍 사이의 거리는 상기 마이크 어레이의 제2 인접 마이크 쌍 사이의 거리와 상이한 것인 장치. - 제1항에 있어서, 상기 필터 뱅크는 상기 다중 채널 신호에 복수의 제3 계수를 적용하여 제3 출력 신호를 생성하도록 구성되어 있는 제3 필터를 포함하고,
상기 장치는 상기 제3 출력 신호로부터의 정보에 기초하여, 상기 제1 출력 신호에 대해 잡음 감소 동작을 수행하여 잔향 제거된 신호(dereverberated signal)를 생성하도록 구성되어 있는 잡음 감소 모듈을 포함하는 것인 장치. - 제22항에 있어서, 상기 다중 채널 신호의 각각의 채널은 어레이의 복수의 마이크 중의 대응하는 마이크에 의해 생성되는 신호에 기초하며,
상기 필터 배향 모듈은, 상기 어레이의 축의 방향에 기초하여, 상기 복수의 제3 계수에 대한 값 세트를 생성하도록 구성되어 있는 것인 장치. - 제1항에 있어서, 상기 필터 갱신 모듈은 주파수 영역에서 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하도록 구성되어 있고,
상기 필터 뱅크는 시간 영역에서 상기 제1 신호에 상기 복수의 제1 계수를 적용하도록 구성되어 있는 것인 장치. - 다중 채널 신호를 처리하는 방법으로서,
제1 출력 신호를 생성하기 위해 상기 다중 채널 신호에 기초하는 제1 신호에 복수의 제1 계수를 적용하는 단계;
제2 출력 신호를 생성하기 위해 상기 다중 채널 신호에 기초하는 제2 신호에 복수의 제2 계수를 적용하는 단계;
제1 음원 방향에 기초하여, 상기 복수의 제1 계수에 대한 초기 값 세트를 생성하는 단계;
상기 제1 음원 방향과 상이한 제2 음원 방향에 기초하여, 상기 복수의 제2 계수에 대한 초기 값 세트를 생성하는 단계;
대응하는 방향들에서의 복수의 응답에 기초하여, 지정된 특성을 가지는 응답을 결정하는 단계; 및
상기 지정된 특성을 가지는 상기 응답에 기초하여, 상기 복수의 제1 계수에 대한 초기값 세트를 갱신하는 단계
를 포함하는 방법. - 제25항에 있어서, 상기 복수의 응답의 각각의 응답은, 상기 대응하는 방향에서, 상기 복수의 제1 계수에 대한 초기 값 세트에 기초하는 값 세트의 응답인 방법.
- 제25항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계는 상기 제1 및 제2 출력 신호로부터의 정보에 기초하여, 상기 복수의 제1 계수에 대한 초기값 세트를 적응시키는 단계를 포함하는 방법.
- 제25항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계는 상기 제1 및 제2 출력 신호로부터의 정보에 기초하여, 상기 복수의 제1 계수에 대한 초기 값 세트를 적응시켜 상기 복수의 제1 계수에 대한 적응된 값 세트를 생성하는 단계를 포함하는 방법.
- 제25항에 있어서, 상기 지정된 특성은 상기 복수의 응답 중의 최대 값인 방법.
- 제25항에 있어서, 상기 방법은 복수의 주파수의 각각의 주파수에서 값을 가지는 결정된 응답을 계산하는 단계를 포함하고,
상기 결정된 응답을 계산하는 단계는 상기 복수의 주파수의 각각의 주파수에서 상기 결정하는 단계를 수행하는 단계를 포함하며,
상기 복수의 주파수의 각각의 주파수에서, 상기 결정된 응답의 상기 값은 그 주파수에서 상기 복수의 응답들 중 지정된 특성을 가지는 상기 응답인 방법. - 제30항에 있어서, 상기 복수의 주파수의 각각의 주파수에서, 상기 결정된 응답의 상기 값은 그 주파수에서 상기 복수의 응답들 중 최대 값인 방법.
- 제30항에 있어서, 상기 복수의 주파수 중의 제1 주파수에서 상기 결정된 응답의 상기 값은 제1 방향에서의 응답이고,
상기 복수의 주파수 중의 제2 주파수에서 상기 결정된 응답의 상기 값은 상기 제1 방향과 상이한 제2 방향에서의 응답인 방법. - 제30항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계는 상기 결정된 응답에 기초하여, 상기 복수의 제1 계수에 대한 상기 적응된 값 세트를 조절하여 상기 복수의 제1 계수에 대한 갱신된 값 세트를 생성하는 단계를 포함하는 방법.
- 제33항에 있어서, 상기 조절하는 단계는 상기 결정된 응답에 기초하여, 상기 복수의 제1 계수에 대한 상기 적응된 값 세트를 정규화하여 상기 복수의 제1 계수에 대한 갱신된 값 세트를 생성하는 단계를 포함하는 방법.
- 제33항에 있어서, 상기 복수의 제1 계수에 대한 상기 적응된 값 세트는 (A) 상기 복수의 주파수 중의 제1 주파수에 대응하는 제1 복수의 적응된 값 및 (B) 상기 복수의 주파수 중의 상기 제1 주파수와 상이한 상기 복수의 주파수 중의 제2 주파수에 대응하는 제2 복수의 적응된 값을 포함하고,
상기 조절하는 단계는 (A) 상기 복수의 주파수 중의 상기 제1 주파수에 대응하는 상기 결정된 응답의 상기 값에 기초하여, 상기 제1 복수의 적응된 값의 각각의 값을 정규화하는 단계, 및 (B) 상기 복수의 주파수 중의 상기 제2 주파수에 대응하는 상기 결정된 응답의 상기 값에 기초하여, 상기 제2 복수의 적응된 값의 각각의 값을 정규화하는 단계를 포함하는 방법. - 제33항에 있어서, 상기 복수의 제1 계수에 대한 상기 갱신된 값 세트의 각각의 값은 상기 복수의 제1 계수에 대한 초기 값 세트의 상이한 값에 그리고 상기 다중 채널 신호의 주파수 성분에 대응하고,
제1 주파수 범위 내의 주파수 성분에 대응하는 상기 복수의 제1 계수에 대한 상기 갱신된 값 세트의 각각의 값은 상기 복수의 제1 계수에 대한 초기 값 세트의 상기 대응하는 값과 동일한 값을 가지는 방법. - 제25항에 있어서, 상기 제1 및 제2 계수 각각은 상기 다중 채널 신호의 복수의 주파수 성분 중의 하나의 주파수 성분에 대응하는 것인 방법.
- 제25항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트는 상기 제1 음원 방향으로 배향된 빔을 나타내는 것인 방법.
- 제25항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계는 상기 제1 및 제2 출력 신호의 주파수 성분에 비선형 유계 함수를 적용한 결과에 따라 수행되는 방법.
- 제25항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계는 블라인드 음원 분리 학습 규칙에 따라 수행되는 방법.
- 제25항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계는 공간 제약 조건에 기초하고 있으며,
상기 공간 제약 조건은 상기 제2 음원 방향에 기초하고 있는 것인 방법. - 제25항에 있어서, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계는 상기 제1 음원 방향에서의 상기 복수의 제1 계수의 응답에 대해 상기 제2 음원 방향에서의 상기 복수의 제1 계수의 응답을 감쇠시키는 단계를 포함하는 방법.
- 제25항에 있어서, 상기 방법은 상기 다중 채널 신호 내의 정보에 기초하여 상기 제1 음원 방향을 계산하는 단계를 포함하는 방법.
- 제25항에 있어서, 상기 다중 채널 신호의 각각의 채널은 마이크 어레이의 상기 복수의 마이크 중의 상이한 대응하는 마이크에 의해 생성되는 신호에 기초하며,
상기 마이크 어레이는 적어도 20 cm의 개구를 가지는 것인 방법. - 제25항에 있어서, 상기 다중 채널 신호의 각각의 채널은 마이크 어레이의 상기 복수의 마이크 중의 상이한 대응하는 마이크에 의해 생성되는 신호에 기초하며,
상기 마이크 어레이의 제1 인접 마이크 쌍 사이의 거리는 상기 마이크 어레이의 제2 인접 마이크 쌍 사이의 거리와 상이한 것인 방법. - 제25항에 있어서, 상기 방법은,
복수의 제3 계수를 상기 다중 채널 신호에 적용하여 제3 출력 신호를 생성하는 단계; 및
상기 제3 출력 신호로부터의 정보에 기초하여, 상기 제1 출력 신호에 대해 잡음 감소 동작을 수행하여 잔향 제거된 신호를 생성하는 단계
를 포함하는 방법. - 제46항에 있어서, 상기 다중 채널 신호의 각각의 채널은 어레이의 복수의 마이크 중의 대응하는 마이크에 의해 생성되는 신호에 기초하며,
상기 방법은, 상기 어레이의 축의 방향에 기초하여, 상기 복수의 제3 계수에 대한 값 세트를 생성하는 단계를 포함하는 방법. - 제25항에 있어서, 상기 갱신하는 단계는 주파수 영역에서 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하는 단계를 포함하고,
상기 제1 신호에 상기 복수의 제1 계수를 적용하는 단계는 시간 영역에서 수행되는 방법. - 다중 채널 신호를 처리하는 장치로서,
제1 출력 신호를 생성하기 위해 상기 다중 채널 신호에 기초하는 제1 신호에 복수의 제1 계수를 적용하고 제2 출력 신호를 생성하기 위해 상기 다중 채널 신호에 기초하는 제2 신호에 복수의 제2 계수를 적용하는 수단;
제1 음원 방향에 기초하여 상기 복수의 제1 계수에 대한 초기 값 세트를 생성하고 상기 제1 음원 방향과 상이한 제2 음원 방향에 기초하여 상기 복수의 제2 계수에 대한 초기 값 세트를 생성하는 수단;
대응하는 방향들에서의 복수의 응답에 기초하여, 지정된 특성을 가지는 응답을 결정하는 수단; 및
상기 지정된 특성을 가지는 상기 응답에 기초하여, 상기 복수의 제1 계수에 대한 초기값 세트를 갱신하는 수단
을 포함하는 장치. - 프로세서에 의해 판독될 때 상기 프로세서로 하여금,
제1 출력 신호를 생성하기 위해 다중 채널 신호에 기초하는 제1 신호에 복수의 제1 계수를 적용하게 하고;
제2 출력 신호를 생성하기 위해 상기 다중 채널 신호에 기초하는 제2 신호에 복수의 제2 계수를 적용하게 하며;
제1 음원 방향에 기초하여, 상기 복수의 제1 계수에 대한 초기 값 세트를 생성하게 하고;
상기 제1 음원 방향과 상이한 제2 음원 방향에 기초하여, 상기 복수의 제2 계수에 대한 초기 값 세트를 생성하게 하며;
대응하는 방향들에서의 복수의 응답에 기초하여, 지정된 특성을 가지는 응답을 결정하게 하며;
상기 지정된 특성을 가지는 상기 응답에 기초하여, 상기 복수의 제1 계수에 대한 초기 값 세트를 갱신하게 하는
유형적 특징(tangible features)을 포함하는 비일시적 컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US40592210P | 2010-10-22 | 2010-10-22 | |
US61/405,922 | 2010-10-22 | ||
US13/243,492 US9100734B2 (en) | 2010-10-22 | 2011-09-23 | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
US13/243,492 | 2011-09-23 | ||
PCT/US2011/055441 WO2012054248A1 (en) | 2010-10-22 | 2011-10-07 | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20130084298A true KR20130084298A (ko) | 2013-07-24 |
Family
ID=45973046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137012859A KR20130084298A (ko) | 2010-10-22 | 2011-10-07 | 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9100734B2 (ko) |
EP (1) | EP2630807A1 (ko) |
JP (1) | JP2013543987A (ko) |
KR (1) | KR20130084298A (ko) |
CN (1) | CN103181190A (ko) |
WO (1) | WO2012054248A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114636971A (zh) * | 2022-04-26 | 2022-06-17 | 海南浙江大学研究院 | 一种水听器阵列数据远场信号分离方法及装置 |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8759661B2 (en) | 2010-08-31 | 2014-06-24 | Sonivox, L.P. | System and method for audio synthesizer utilizing frequency aperture arrays |
JP2012238964A (ja) * | 2011-05-10 | 2012-12-06 | Funai Electric Co Ltd | 音分離装置、及び、それを備えたカメラユニット |
US8653354B1 (en) * | 2011-08-02 | 2014-02-18 | Sonivoz, L.P. | Audio synthesizing systems and methods |
US8971546B2 (en) * | 2011-10-14 | 2015-03-03 | Sonos, Inc. | Systems, methods, apparatus, and articles of manufacture to control audio playback devices |
US9857451B2 (en) * | 2012-04-13 | 2018-01-02 | Qualcomm Incorporated | Systems and methods for mapping a source location |
US8880395B2 (en) * | 2012-05-04 | 2014-11-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjunction with source direction information |
JP2013235050A (ja) * | 2012-05-07 | 2013-11-21 | Sony Corp | 情報処理装置及び方法、並びにプログラム |
US9258644B2 (en) * | 2012-07-27 | 2016-02-09 | Nokia Technologies Oy | Method and apparatus for microphone beamforming |
FR2996043B1 (fr) * | 2012-09-27 | 2014-10-24 | Univ Bordeaux 1 | Procede et dispositif pour separer des signaux par filtrage spatial a variance minimum sous contrainte lineaire |
EP2738762A1 (en) * | 2012-11-30 | 2014-06-04 | Aalto-Korkeakoulusäätiö | Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence |
US9833189B2 (en) * | 2012-12-17 | 2017-12-05 | Koninklijke Philips N.V. | Sleep apnea diagnosis system and method of generating information using non-obtrusive audio analysis |
GB201309781D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo cancellation |
CN104681034A (zh) * | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
EP2884491A1 (en) * | 2013-12-11 | 2015-06-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraction of reverberant sound using microphone arrays |
US9817634B2 (en) * | 2014-07-21 | 2017-11-14 | Intel Corporation | Distinguishing speech from multiple users in a computer interaction |
GB201414352D0 (en) * | 2014-08-13 | 2014-09-24 | Microsoft Corp | Reversed echo canceller |
KR102262853B1 (ko) * | 2014-09-01 | 2021-06-10 | 삼성전자주식회사 | 복수의 마이크를 포함하는 전자 장치 및 이의 운용 방법 |
EP3295681B1 (en) * | 2015-05-15 | 2021-06-30 | Harman International Industries, Inc. | Acoustic echo cancelling system and method |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US10393571B2 (en) | 2015-07-06 | 2019-08-27 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
US10244317B2 (en) | 2015-09-22 | 2019-03-26 | Samsung Electronics Co., Ltd. | Beamforming array utilizing ring radiator loudspeakers and digital signal processing (DSP) optimization of a beamforming array |
US10969316B2 (en) | 2015-09-24 | 2021-04-06 | Frito-Lay North America, Inc. | Quantitative in-situ texture measurement apparatus and method |
US10107785B2 (en) | 2015-09-24 | 2018-10-23 | Frito-Lay North America, Inc. | Quantitative liquid texture measurement apparatus and method |
US10070661B2 (en) | 2015-09-24 | 2018-09-11 | Frito-Lay North America, Inc. | Feedback control of food texture system and method |
US9541537B1 (en) | 2015-09-24 | 2017-01-10 | Frito-Lay North America, Inc. | Quantitative texture measurement apparatus and method |
US10598648B2 (en) | 2015-09-24 | 2020-03-24 | Frito-Lay North America, Inc. | Quantitative texture measurement apparatus and method |
US11243190B2 (en) | 2015-09-24 | 2022-02-08 | Frito-Lay North America, Inc. | Quantitative liquid texture measurement method |
US9996316B2 (en) * | 2015-09-28 | 2018-06-12 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
CN105427860B (zh) * | 2015-11-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
CN105702261B (zh) * | 2016-02-04 | 2019-08-27 | 厦门大学 | 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置 |
WO2017147325A1 (en) | 2016-02-25 | 2017-08-31 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
CN106019232B (zh) * | 2016-05-11 | 2018-07-10 | 北京地平线信息技术有限公司 | 声源定位系统和方法 |
CN109310525B (zh) | 2016-06-14 | 2021-12-28 | 杜比实验室特许公司 | 媒体补偿通过和模式切换 |
US20170365255A1 (en) * | 2016-06-15 | 2017-12-21 | Adam Kupryjanow | Far field automatic speech recognition pre-processing |
CN105976822B (zh) * | 2016-07-12 | 2019-12-03 | 西北工业大学 | 基于参数化超增益波束形成器的音频信号提取方法及装置 |
CN109478400B (zh) | 2016-07-22 | 2023-07-07 | 杜比实验室特许公司 | 现场音乐表演的多媒体内容的基于网络的处理及分布 |
US10431211B2 (en) | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
DK3285500T3 (da) * | 2016-08-05 | 2021-04-26 | Oticon As | Binauralt høresystem, der er konfigureret til at lokalisere en lydkilde |
CN109413543B (zh) * | 2017-08-15 | 2021-01-19 | 音科有限公司 | 一种源信号提取方法、系统和存储介质 |
CN107396158A (zh) * | 2017-08-21 | 2017-11-24 | 深圳创维-Rgb电子有限公司 | 一种声控交互装置、声控交互方法和电视机 |
CN107785029B (zh) | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US10388268B2 (en) * | 2017-12-08 | 2019-08-20 | Nokia Technologies Oy | Apparatus and method for processing volumetric audio |
CN110136733B (zh) * | 2018-02-02 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 一种音频信号的解混响方法和装置 |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
US11456003B2 (en) * | 2018-04-12 | 2022-09-27 | Nippon Telegraph And Telephone Corporation | Estimation device, learning device, estimation method, learning method, and recording medium |
EP3579020B1 (de) * | 2018-06-05 | 2021-03-31 | Elmos Semiconductor SE | Verfahren zur erkennung eines hindernisses mit hilfe von reflektierten ultraschallwellen |
CN110888112B (zh) * | 2018-09-11 | 2021-10-22 | 中国科学院声学研究所 | 一种基于阵列信号的多目标定位识别方法 |
US20200184994A1 (en) * | 2018-12-07 | 2020-06-11 | Nuance Communications, Inc. | System and method for acoustic localization of multiple sources using spatial pre-filtering |
US11049509B2 (en) | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
CN110133572B (zh) * | 2019-05-21 | 2022-08-26 | 南京工程学院 | 一种基于Gammatone滤波器和直方图的多声源定位方法 |
CN110211601B (zh) * | 2019-05-21 | 2020-05-08 | 出门问问信息科技有限公司 | 一种空域滤波器参数矩阵的获取方法、装置及系统 |
TWI699090B (zh) * | 2019-06-21 | 2020-07-11 | 宏碁股份有限公司 | 訊號處理裝置、訊號處理方法及非暫態電腦可讀取記錄媒體 |
CN110415718B (zh) * | 2019-09-05 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
US10735887B1 (en) * | 2019-09-19 | 2020-08-04 | Wave Sciences, LLC | Spatial audio array processing system and method |
JP7486145B2 (ja) * | 2019-11-21 | 2024-05-17 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
JP7217716B2 (ja) * | 2020-02-18 | 2023-02-03 | Kddi株式会社 | 複数のマイクロフォンの収音信号をミキシングする装置、プログラム及び方法 |
CN112037813B (zh) * | 2020-08-28 | 2023-10-13 | 南京大学 | 一种针对大功率目标信号的语音提取方法 |
US11380302B2 (en) | 2020-10-22 | 2022-07-05 | Google Llc | Multi channel voice activity detection |
EP4416924A1 (en) * | 2021-10-12 | 2024-08-21 | Qsc, Llc | Multi-source audio processing systems and methods |
CN114550734A (zh) * | 2022-03-02 | 2022-05-27 | 上海又为智能科技有限公司 | 音频增强方法和装置、计算机存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6835296A (en) * | 1995-09-22 | 1997-04-09 | Philips Electronics N.V. | Transmission system using time dependent filter banks |
JP4163294B2 (ja) | 1998-07-31 | 2008-10-08 | 株式会社東芝 | 雑音抑圧処理装置および雑音抑圧処理方法 |
EP1081985A3 (en) | 1999-09-01 | 2006-03-22 | Northrop Grumman Corporation | Microphone array processing system for noisy multipath environments |
US7613310B2 (en) | 2003-08-27 | 2009-11-03 | Sony Computer Entertainment Inc. | Audio input system |
JP3910898B2 (ja) | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
US7174022B1 (en) | 2002-11-15 | 2007-02-06 | Fortemedia, Inc. | Small array microphone for beam-forming and noise suppression |
JP2004258422A (ja) | 2003-02-27 | 2004-09-16 | Japan Science & Technology Agency | 音源情報を用いた音源分離・抽出方法および装置 |
ATE448638T1 (de) | 2006-04-13 | 2009-11-15 | Fraunhofer Ges Forschung | Audiosignaldekorrelator |
WO2007118583A1 (en) | 2006-04-13 | 2007-10-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decorrelator |
JP2008145610A (ja) | 2006-12-07 | 2008-06-26 | Univ Of Tokyo | 音源分離定位方法 |
US8233353B2 (en) | 2007-01-26 | 2012-07-31 | Microsoft Corporation | Multi-sensor sound source localization |
JP4897519B2 (ja) | 2007-03-05 | 2012-03-14 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
US8131542B2 (en) | 2007-06-08 | 2012-03-06 | Honda Motor Co., Ltd. | Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
WO2010005050A1 (ja) | 2008-07-11 | 2010-01-14 | 日本電気株式会社 | 信号分析装置、信号制御装置及びその方法と、プログラム |
US8391507B2 (en) | 2008-08-22 | 2013-03-05 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of uncorrelated component |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
JP2010187363A (ja) | 2009-01-16 | 2010-08-26 | Sanyo Electric Co Ltd | 音響信号処理装置及び再生装置 |
DK2211563T3 (da) | 2009-01-21 | 2011-12-19 | Siemens Medical Instr Pte Ltd | Fremgangsmåde og apparat til blind kildeadskillelse til forbedring af interferensestimering ved binaural Weiner-filtrering |
US8583428B2 (en) * | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
-
2011
- 2011-09-23 US US13/243,492 patent/US9100734B2/en not_active Expired - Fee Related
- 2011-10-07 EP EP11770982.4A patent/EP2630807A1/en not_active Withdrawn
- 2011-10-07 KR KR1020137012859A patent/KR20130084298A/ko not_active Application Discontinuation
- 2011-10-07 WO PCT/US2011/055441 patent/WO2012054248A1/en active Application Filing
- 2011-10-07 CN CN2011800510507A patent/CN103181190A/zh active Pending
- 2011-10-07 JP JP2013534943A patent/JP2013543987A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114636971A (zh) * | 2022-04-26 | 2022-06-17 | 海南浙江大学研究院 | 一种水听器阵列数据远场信号分离方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2013543987A (ja) | 2013-12-09 |
EP2630807A1 (en) | 2013-08-28 |
US9100734B2 (en) | 2015-08-04 |
US20120099732A1 (en) | 2012-04-26 |
CN103181190A (zh) | 2013-06-26 |
WO2012054248A1 (en) | 2012-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20130084298A (ko) | 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체 | |
US10979805B2 (en) | Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors | |
KR101532153B1 (ko) | 음성 활동 검출 시스템, 방법, 및 장치 | |
CN108370470B (zh) | 会议系统以及会议系统中的语音获取方法 | |
CN109102822B (zh) | 一种基于固定波束形成的滤波方法及装置 | |
KR101555416B1 (ko) | 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 | |
KR101456866B1 (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
US11190900B2 (en) | Spatial audio array processing system and method | |
KR101340215B1 (ko) | 멀티채널 신호의 반향 제거를 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체 | |
CN102164328B (zh) | 一种用于家庭环境的基于传声器阵列的音频输入系统 | |
US8712069B1 (en) | Selection of system parameters based on non-acoustic sensor information | |
CN110140359B (zh) | 使用波束形成的音频捕获 | |
CN110140360B (zh) | 使用波束形成的音频捕获的方法和装置 | |
EP1571875A2 (en) | A system and method for beamforming using a microphone array | |
Wang et al. | Noise power spectral density estimation using MaxNSR blocking matrix | |
CN111078185A (zh) | 录制声音的方法及设备 | |
US11483646B1 (en) | Beamforming using filter coefficients corresponding to virtual microphones | |
Tashev et al. | Microphone array post-processor using instantaneous direction of arrival | |
US11997474B2 (en) | Spatial audio array processing system and method | |
Thea | Speech Source Separation Based on Dual–Microphone System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |