KR20100025140A - 2개의 마이크를 사용한 음원 분리 방법 - Google Patents

2개의 마이크를 사용한 음원 분리 방법 Download PDF

Info

Publication number
KR20100025140A
KR20100025140A KR1020080083786A KR20080083786A KR20100025140A KR 20100025140 A KR20100025140 A KR 20100025140A KR 1020080083786 A KR1020080083786 A KR 1020080083786A KR 20080083786 A KR20080083786 A KR 20080083786A KR 20100025140 A KR20100025140 A KR 20100025140A
Authority
KR
South Korea
Prior art keywords
sound source
signal
microphone
sound
microphones
Prior art date
Application number
KR1020080083786A
Other languages
English (en)
Inventor
이행우
Original Assignee
남서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 남서울대학교 산학협력단 filed Critical 남서울대학교 산학협력단
Priority to KR1020080083786A priority Critical patent/KR20100025140A/ko
Publication of KR20100025140A publication Critical patent/KR20100025140A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 2개의 마이크를 사용한 음원 분리 방법에 관한 것으로서, 복수의 음원으로부터 발생된 혼합음이 존재하는 환경에서 2개의 마이크를 사용하여 각 음원을 분리해내는 방법을 제공하는 것이다.
또한, 본 발명은 여러 소리가 시간 영역이나 주파수 영역, 또는 발생 방향에서 중첩되더라도 이들을 분리해낼 수 있는 기술을 제안하는 것으로, 각 마이크에 유입되는 신호의 크기가 다르고 도달시간이 다르다는 특성을 활용하여 반복적인 계산을 통해 음원을 구하는 방법을 제공하는 것이다.
음원 분리 방법, 마이크, 음성신호, 잡음

Description

2개의 마이크를 사용한 음원 분리 방법 {Method of voice source separation}
본 발명은 2개의 마이크를 사용한 음원 분리 방법에 관한 것으로서, 마이크 간의 신호의 크기와 도달시간의 차이를 이용한 음원 분리 방법에 관한 것이다.
음성처리기술이 점차 다양한 응용분야에서 활용되고 있으나 음성처리 결과의 음질을 저하시키는 잡음이 주요 문제가 되고 있다. 이를 해결하기 위해 현재 상용화된 기술인 잡음제거 필터나 잡음제거용 마이크로는 만족할만한 수준까지 성능을 향상시키는데 한계가 있었다. 이는 음성신호 고유의 특성이라 할 수 있는 높은 상관도 때문이다.
일반적으로, 음성처리기술에 있어서 음성인식은 음성신호 입력시 함께 들어오는 배경잡음과 채널잡음, 잔향 등 다양한 노이즈에 의해 그 인식 성능이 현저히 떨어져 실험공간이 아닌 실제 상황에서 사용하기에 어려운 점이 많았으며, 이와 같은 문제점들을 극복하려는 노력들이 이어져 왔다.
이러한 배경잡음을 제거하기 위해 특정 주파수 대역을 제거하는 주파수 차감법, 포만트 트랙킹 등을 사용하여 성능을 향상시키려는 시도가 있었으나, 이러한 방법들은 노이즈 성분의 변화가 심하고 다양한 노이즈가 존재하는 실제 상황에서는 인식 성능에 크게 도움이 되지 못하는 단점이 있었다.
이와 같이, 종래의 음성처리기술이 갖는 각각의 문제점들을 해결하기 위해서는 잡음제거기술과는 구분되도록, 시간영역에서 혼합음으로부터 각 음원신호를 분리해내는 음원분리기술이 요구되었으며, 그러한 기술을 구현함에 있어서 시간영역이나 주파수영역, 또는 발생방향 등에서 중첩이 되더라도 이들을 분리해낼 수 있는 음원분리기술이 요구되었다.
따라서, 본 발명은 상술한 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 복수의 음원으로부터 발생된 혼합음이 존재하는 환경에서 2개의 마이크를 사용하여 각 음원을 분리해내는 방법을 제공하는 것이다.
또한, 본 발명은 여러 소리가 시간 영역이나 주파수 영역, 또는 발생 방향에서 중첩되더라도 이들을 분리해낼 수 있는 기술을 제안하는 것으로, 각 마이크에 유입되는 신호의 크기가 다르고 도달시간이 다르다는 특성을 활용하여 반복적인 계산을 통해 음원을 구하는 방법을 제공하는 것이다.
상술한 목적을 달성하기 위한 기술적 수단으로, 본 발명은 마이크 1(M 1), 마이크 2(M 2)에 각각 유입되는 음원신호 VA, VB에 대해, 파라미터 α, β를 구하는 방법은,
Figure 112008061037953-PAT00001
와 같은 수식으로부터 연산되는 것을 특징으로 한다.
바람직하게, 상기의 음원신호 VA, VB를 구하는 방법은,
Figure 112008061037953-PAT00002
와 같은 수식으로부터 연산되는 것을 특징으로 한다.
본 발명에 따른 2개의 마이크를 사용한 음원 분리 방법에 의하면, 본 발명은 2개의 마이크를 사용함으로써 여러 혼합음이 존재하는 환경에서 음성신호와 잡음을 분리해낼 수 있는 것으로, 음향반향제거기 대신 본 기술을 사용하면 반향신호와 음성신호를 분리할 수 있는 것이다.
본 발명이 제안하는 음원분리기술은 마이크 간에 신호의 크기와 도달시간의 차이를 이용한다. 다시 말해서, 이 알고리즘은 여러 비선형 수학적 계산식을 구현하는 것이다.
복수의 음향신호는 3가지 차원에서 중첩됨으로 인하여 서로 혼합되고 간섭된 다. 세 차원은 시간, 주파수, 그리고 도착 방향을 말한다.
지금까지 시간영역에서 중첩하는 신호는 주파수 스펙트럼이나 도착 방향을 이용하여 구별하였다. 그러나 본 기술은 시간, 스펙트럼, 도착 방향이 동시에 중첩된 신호들도 구분할 수 있는 것이다.
복수의 음원으로부터 발생한 신호들이 스펙트럼이나 도착 방향에 상관없이 시간 영역에서 오버랩하지 않으면 신호분리의 문제는 존재하지 않는다. 왜냐하면, 신호들이 마이크에 동시에 도착하지 않아 결코 혼합되는 경우가 없기 때문이다. 복수의 음원으로부터 발생한 신호들이 주파수 영역에서 오버랩하지 않는다면 대역 필터를 사용하여 신호들을 분리할 수 있다. 또한, 복수의 음원으로부터 발생한 신호들이 도착 방향의 측면에서 오버랩하지 않는다면 지향성 마이크를 사용하여 대부분 문제를 해결할 수 있다. 그러나 세 부문에서 모두 오버랩할 경우 현재 개발된 기술 가운데 어느 기술도 만족할만한 성능을 기대할 수 없다.
본 발명에서 다루는 기술은 소리들이 시간 영역이나 주파수 영역, 또는 발생 방향에서 중첩되더라도 이들을 분리해내는 것이다. 즉, 복수의 음원으로부터 발생된 혼합음이 존재하는 환경에서 2개의 마이크를 사용하여 각 음원을 분리해낼 수 있는 것이다. 이는 각 마이크에 유입되는 신호의 크기가 다르고 도달시간이 다르기 때문에 이러한 특성을 활용하여 반복적인 계산을 통해 음원을 구하게 된다. 따라서 기존의 음성처리기술은 잡음이나 반향 성분을 직접 제거하는 방식이지만, 본 기술을 사용하면 잡음이나 반향신호를 음성신호와 분리하여 해결할 수 있다.
이하, 첨부된 도면을 참조하면서 본 발명에 대해 상세하게 설명한다.
도 1은 본 발명에 따른 음원분리방법의 시스템 개념도이다.
상기와 같이, 본 발명의 실시예에 따르면 사용자의 음성이 입력되는 각각의 마이크(1,2)에 해당하는 Mic(1) 및 Mic(2)와, 상기 Mic(1) 및 Mic(2)로부터 입력된 음원을 분리하는 음원분리장치(100)를 포함하여 구성되는 것이다.
상기의 음원분리장치(100)로부터 음원을 분리하는 방법은 이하 서술되는 방법을 통해 이루어지는 것이다.
본 발명은 혼합신호로부터 서로를 구별하기 위하여 독립된 음원의 신호 크기와 통계적 특성에 대한 마이크 유입신호 간 차이를 이용하는 것이다. 먼저 각 음향신호가 어떻게 마이크로 유입되는지 살펴보기로 한다.
하나의 음원으로부터 발생한 음파는 마이크에서 음원과 마이크간 거리에 반비례하는 신호를 생성한다. 따라서, 음원과 각 마이크간 거리가 다르다면 고정된 음원은 두 마이크에 다른 각도로 유입된다. 마이크가 음원에 가까울수록 유입하는 신호의 세기는 커진다. 도 1에서 마이크 1(Mic 1)은 마이크 2(Mic 2)보다 더 큰 음성신호 Voice_A를 유입시킨다. 반대로 마이크 2(Mic 2)는 마이크 1(Mic 1)보다 더 큰 음성신호 Voice_B를 유입시킨다.
여러 음원으로부터 동시에 하나의 마이크에 어떻게 유입되는지 살펴보기로 한다.
임의의 순간에 복수의 음원으로부터 발생하는 음파에 의해 마이크로 유입되 는 신호는 각 음원으로부터 발생하는 음파에 의해 마이크로 유입되는 신호들의 합과 같다. 다시 말해서, 마이크 1로 음성 A와 B가 동시에 유입될 때 전체 신호는 음성 A가 발생하는 신호에 음성 B가 발생하는 신호를 더하면 된다. 따라서 각 마이크에 유입되는 신호는 다음과 같이 표현된다.
Figure 112008061037953-PAT00003
여기서
Figure 112008061037953-PAT00004
는 각 음원으로부터 마이크까지의 거리에 반비례하는 파라미터이다. M 1 M 2는 우리가 알고 있는 측정값이다. 그러나
Figure 112008061037953-PAT00005
는 미지수이다. 미지수의 개수를 줄이기 위하여 각 마이크에 유입되는 두 음성신호중 큰 값을 기준신호로 삼으면
Figure 112008061037953-PAT00006
이 되어 수식이 간략화된다.
Figure 112008061037953-PAT00007
음성을 구하는 형태로 수식을 다시 표현하면 ,
Figure 112008061037953-PAT00008
이 식은 마이크 1과 2의 혼합신호로부터 음원신호 V A, V B를 구할 수 있도록 한다. 아직도 미지수는 4개인데 방정식은 2개이기 때문에 간단한 대수식으로는 해를 구할 수 없다. 그러나, 각 독립된 신호의 통계적 특성을 이용하는 방법이 있다. 가령 8 kHz로 샘플링되는 혼합 음향신호들의 통계적 관계를 계산하는 것이다. 이러한 관계를 기반으로 계수 α,β를 적응적으로 산출하고 이 값을 이용하여 음향신호 VA, VB를 산출할 수 있다. 계산과정은 새로운 샘플이 생성될 때마다 반복해서 적응적으로 이루어지게 된다.
신호 분리 과정에서 미지의 파라미터 α, β는 초기값을 영(zero)으로 설정한다. 즉, 처음에 α=β=0으로 가정한다. 따라서 식 (3)은 최초 다음과 같은 관계에서 출발한다.
Figure 112008061037953-PAT00009
그 다음 α, β를 새로운 값으로 갱신한다.
Figure 112008061037953-PAT00010
이 계수들의 변화값은 음향신호 V A, V B 사이에 통계적 독립성이 보장되어야 한다는 전제를 기반으로 하여 결정된다. 에러신호
Figure 112008061037953-PAT00011
Figure 112008061037953-PAT00012
의 자승값이 제로가 되었을 때를 수렴의 목표라고 하면 steepest-descent 알고리즘을 사용하여 파라미터의 새로운 값을 구할 수 있다.
Figure 112008061037953-PAT00013
여기서
Figure 112008061037953-PAT00014
는 반복해서 적응적으로 α, β에 접근해감에 있어 수렴속도를 결정하는 스텝 크기를 나타내고,
Figure 112008061037953-PAT00015
는 다음과 같이 구해진다.
Figure 112008061037953-PAT00016
따라서, 식 (7)을 (6)에 대입하면 각 계수에 대한 업데이트 관계식을 얻을 수 있다.
Figure 112008061037953-PAT00017
식 (3)과 (8)을 연립하여 순차적으로 해를 구하여 나가면 최종적으로 정확한 음향신호 V A, V B에 수렴하게 된다. 수렴과정은 계수의 변화값 Δα, Δβ가 거의 변화하지 않는 상태가 될 때까지 반복적으로 수행된다. 그러나, 실제로 주변환경이나 조건이 계속 변하기 때문에 적응과정은 무한히 반복된다.
본 기술은 두 음향신호가 혼합되어 유입될 때 둘 중 어느 하나의 신호를 분리해낸다. 먼저 음성신호와 잡음신호가 혼합되어 유입될 때 각 신호의 분리 실험을 수행하였다.
도 2 내지 도 7은 음성신호 음원을 나타낸 파형도로서, 사용된 실제음성 「실제 윈도우즈 프로그램 내에서」라는 여성의 발음을 다양한 실시예로 표현한 음원 파형도이다.
상기에서 음성신호 및 잡음의 음원은 각각 도 2, 도 4와 같고, 각 마이크 유입신호는 도 4, 도 5와 같다. 그리고, 도 6, 도 7은 음성신호를 분리한 경우와 잡음신호를 분리한 경우의 각 출력신호 파형을 나타낸 것이다.
상기한 바와 같이, 본 발명의 기술적 사상을 바람직한 실시 예를 참조하여 설명하였지만 해당 기술분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있는 것이다.
도 1은 본 발명에 따른 음원분리방법의 시스템 개념도이며,
도 2는 음성신호 음원을 나타내는 파형도이며,
도 3은 잡음신호 음원을 나타내는 파형도이며,
도 4는 Mic 1의 입력신호를 나타내는 파형도이며,
도 5는 Mic 2의 입력신호를 나타내는 파형도이며,
도 6은 분리된 음성신호를 나타내는 파형도이며,
도 7은 분리된 잡음신호를 나타내는 파형도이다.

Claims (2)

  1. 마이크 1(M 1), 마이크 2(M 2)에 각각 유입되는 음성신호 VA, VB 에 대해, 파라미터 α, β를 구하는 방법은,
    Figure 112008061037953-PAT00018
    와 같은 수식으로부터 연산되는 것을 특징으로 하는 2개의 마이크를 사용한 음원 분리 방법.
  2. 제 1항에 있어서,
    음성신호 VA, VB 를 구하는 방법은,
    Figure 112008061037953-PAT00019
    와 같은 수식으로부터 연산되는 것을 특징으로 하는 2개의 마이크를 사용한 음원 분리 방법.
KR1020080083786A 2008-08-27 2008-08-27 2개의 마이크를 사용한 음원 분리 방법 KR20100025140A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080083786A KR20100025140A (ko) 2008-08-27 2008-08-27 2개의 마이크를 사용한 음원 분리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080083786A KR20100025140A (ko) 2008-08-27 2008-08-27 2개의 마이크를 사용한 음원 분리 방법

Publications (1)

Publication Number Publication Date
KR20100025140A true KR20100025140A (ko) 2010-03-09

Family

ID=42176733

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080083786A KR20100025140A (ko) 2008-08-27 2008-08-27 2개의 마이크를 사용한 음원 분리 방법

Country Status (1)

Country Link
KR (1) KR20100025140A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087661A (zh) * 2018-10-23 2018-12-25 南昌努比亚技术有限公司 语音处理方法、装置、系统及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087661A (zh) * 2018-10-23 2018-12-25 南昌努比亚技术有限公司 语音处理方法、装置、系统及可读存储介质

Similar Documents

Publication Publication Date Title
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
CN109065067B (zh) 一种基于神经网络模型的会议终端语音降噪方法
Araki et al. Exploring multi-channel features for denoising-autoencoder-based speech enhancement
Li et al. On the importance of power compression and phase estimation in monaural speech dereverberation
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN108604452B (zh) 声音信号增强装置
CN108293170B (zh) 波束成形应用中的自适应无相位失真幅度响应均衡的方法及装置
Venkataramani et al. Adaptive front-ends for end-to-end source separation
KR20040085391A (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
CN108109617A (zh) 一种远距离拾音方法
Roman et al. Pitch-based monaural segregation of reverberant speech
BRPI0621733A2 (pt) método adaptável para extrair pelo menos um sinal, e, aparelho para extrair adaptavelmente pelo menos um sinal
Stern et al. Multiple approaches to robust speech recognition
CN116030823B (zh) 一种语音信号处理方法、装置、计算机设备及存储介质
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
Spriet et al. Stochastic gradient-based implementation of spatially preprocessed speech distortion weighted multichannel Wiener filtering for noise reduction in hearing aids
CN110111802A (zh) 基于卡尔曼滤波的自适应去混响方法
Shahid et al. Voicefind: Noise-resilient speech recovery in commodity headphones
KR100936093B1 (ko) 전자 신호로부터의 잡음 제거 방법 및 장치
Seltzer Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
KR101587844B1 (ko) 마이크로폰의 신호 보상 장치 및 그 방법
KR20100025140A (ko) 2개의 마이크를 사용한 음원 분리 방법
CN110246516B (zh) 一种语音通信中小空间回声信号的处理方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application