KR101529647B1 - 빔포밍 기술을 이용한 음원 분리 방법 및 시스템 - Google Patents

빔포밍 기술을 이용한 음원 분리 방법 및 시스템 Download PDF

Info

Publication number
KR101529647B1
KR101529647B1 KR1020080071287A KR20080071287A KR101529647B1 KR 101529647 B1 KR101529647 B1 KR 101529647B1 KR 1020080071287 A KR1020080071287 A KR 1020080071287A KR 20080071287 A KR20080071287 A KR 20080071287A KR 101529647 B1 KR101529647 B1 KR 101529647B1
Authority
KR
South Korea
Prior art keywords
signal
individual
transfer function
estimating
voice signals
Prior art date
Application number
KR1020080071287A
Other languages
English (en)
Other versions
KR20100010356A (ko
Inventor
김현수
고한석
배정훈
이택진
Original Assignee
삼성전자주식회사
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 고려대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020080071287A priority Critical patent/KR101529647B1/ko
Priority to US12/460,473 priority patent/US8577677B2/en
Publication of KR20100010356A publication Critical patent/KR20100010356A/ko
Application granted granted Critical
Publication of KR101529647B1 publication Critical patent/KR101529647B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법 및 시스템은 마이크 어레이를 통해 적어도 하나 이상의 음성이 포함된 통합 음성신호가 입력되면 그 통합 음성신호에 대하여 기 설정된 방향으로 hanning 윈도우를 씌어 프레임으로 구분하는 windowing 처리부; 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환하는 DFT 변환부; 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정하는 적어도 하나 이상의 TF 추정부; 통합 음성신호에서 개별 음성신호의 트랜스퍼 펑션들을 제거하여 잡음 신호를 추정하는 잡음 추정부; 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 통합 음성신호에서 제거하는 적어도 하나 이상의 음성신호 추출부; 및 검출하고자 하는 개별 음성신호의 트랜스퍼 펑션에서 잡음 추정부를 통해 제공되는 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출하는 적어도 하나 이상의 음성신호 검출부를 포함하는 것으로, 적어도 하나 이상의 음원이 동시에 입력되더라도 그 음원들을 각각 분리하여 별도로 저장 관리하거나 최초 음원을 저장 관리할 수 있는 이점이 있다.

Description

빔포밍 기술을 이용한 음원 분리 방법 및 시스템{Sound source separation method and system for using beamforming}
본 발명은 음성통신/인식에 필요한 음원분리에 관한 것이다.
여기서 음원 분리란 입력장치(마이크 어레이)에 적어도 두 개 이상의 음원이 동시에 입력되는 경우 이를 각각 분리하는 것을 말한다.
종래 마이크 어레이 어레이를 이용한 잡음 제거 시스템은 적어도 하나 이상의 마이크 어레이, 마이크 어레이에 각각 연결된 단구간 분석부, 에코 제거부, 방향성 잡음 제거와, 정면소리 유/무를 기반으로 필터 weight update on/off하는 적응 빔포밍(adaptive beamforming) 처리부, 마이크간의 신호의 상관관계를 이용하여 정면소리를 정면소리 검출부, 잔여잡음 제거와 정면소리 유/무를 기반으로 잔여 잡음을 제어하는 포스트 필터링부(Post-filtering) 및 오버랩 및 추가(Overlap and add) 처리부를 포함한다.
빔포밍(Beamforming)은 마이크 어레이를 사용하는 경우 각 마이크에 들어오 는 신호의 차이 때문에 각도에 따른 입력신호의 이득이 달라진다. 이것은 각도에 따라서 방향성 패턴(directivity pattern)을 형성한다.
도 1은 마이크 어레이 정면이 90도인 경우의 방향성 패턴(directivity pattern)이다.
이는 하기 [수학식 1]과 같다.
[수학식 1]
Figure 112008052668470-pat00001
여기서, f =주파수, N= 마이크의 개수, d=마이크 사이의 간격,
Figure 112008052668470-pat00002
는 amplitude weight이고 는 phase weight이다.
따라서 빔포밍(Beamforming) 기술은 마이크 어레이를 사용함에 따라 생기는 방향성 패턴(directivity pattern)을
Figure 112008052668470-pat00003
Figure 112008052668470-pat00004
을 조절함으로써 원하는 각도의 방향으로 바꿔주는 것이다.
이러한 방법을 통해서 원하는 방향의 신호만을 받을 수 있다.
이후, FDBSS(frequency domain blind source separation, 이하 "FDBSS"라 함) 기술을 수행한다.
FDBSS 기술은 두 개의 음원이 섞여서 들어오는 경우에 이를 분리하기 위한 기술로서 주파수축에서 수행된다. 주파수 축에서 하는 경우 알고리즘 구현이 보다 간단해지고 계산시간이 줄어드는 장점이 있다.
입력된 두 개의 음원이 섞인 신호는 short-time Fourier transform(STFT)으로 주파수축으로 바뀐다. 그 후 independent component analysis(ICA)의 3개의 단계를 통해서 음원이 분리된 신호로 바뀐다.
우선, 1단계는 linear transformation이다.
마이크의 수가 음원의 수보다 많은 경우 transformation(V)을 통해서 입력신호의 차원을 음원의 차원으로 줄여주는 단계이다. 일반적으로 음원의 수보다 마이크의 수가 많기 때문에 범위 분류(dimension reduction) 부분이 ICA에 포함된다.
2단계는 1단계에서 처리된 신호에 단일 행렬(unitary matrix)(B)를 곱해줌으로써 분리된 신호의 주파수 영역의 값을 구한다.
3단계는 1단계와 2단계를 통하여 구한 분리 행렬(separation matrix)(V*B)를 연구를 통해 나타난 법칙(learning rule)을 이용하여 점진적으로 향상시킨다.
위의 과정을 통해서 분리된 신호를 얻은 후 위치측정(localization)을 취해준다.
위치측정은 ICA에 의해 분리된 음원이 어떤 방향에서 들어온 소리인지를 구분한다.
다음 단계는 교환(permutation)이다.
이 단계에서는 앞에서 분리한 음원의 방향이 바뀌지 않고 유지되도록 해주 는 역할을 한다.
그 다음은 마지막 단계로서 scaling&smoothing이다.
음원 분리된 신호의 크기가 왜곡되지 않도록 조정해주는 단계가 크기이다. 음원분리를 위해 사용한 분리 행렬(separation matrix)의 pseudo inverse를 계산함으로써 해결 할 수 있다.
FDBSS에서 fs/L(fs : sampling frequency)의 간격을 갖는 L 포인트(point)들로 샘플링(sampling)된 주파수 응답(frequency response)들은 시간 축에서 주기 L/fs를 갖는 주기신호들로 표현된다.
이것은 periodic infinite-length filter로서 현실적이지 않다.
그래서 일반적으로 시간 축에서 신호가 하나의 주기를 갖는 필터를 사용한다.
이 필터를 사용하는 경우 신호(signal)에 손실이 생기고 분리(separation)의 성능이 낮아진다.
이것은 해결하기위해서 smoothing 단계가 필요하다.
이 단계에서 양 끝이 0으로 점점 부드럽게 가까워지는 Hanning window를 곱해줌으로써 주파스 응답이 부드럽게 하여 신호의 손실이 줄고 분리의 성능이 향상된다.
이런 방법을 통해서 음원 분리를 하는 것이 FDBSS이다.
그러나 종래 빔포밍(Beamforming) 기술은 마이크 어레이의 방향성 패턴(directivity pattern)을 조정함으로써 원하는 방향의 신호만을 받을 수 있는 방 법이지만 그 방향 주변에 다른 음원이 있는 경우 성능이 하락되는 문제가 있었다. 종래 빔포밍(Beamforming) 기술은 어느 정도 원하는 방향으로의 방향성 패턴(directivity pattern) 조절은 가능하지만 정확히 우리가 원하는 방향을 향해 뽀족하게 나오도록 하는 것은 어렵기 때문이다.
그리고 FDBSS 기술은 음원의 개수, reverberation, 사용자 위치이동 같은 제약조건에 성능 차이가 나는 문제가 있다. 또한 음성인식 관점에서 missing feature compensation의 보상이 필요한 문제점이 있었다.
두 사람이 동시에 말하는 경우에 신호가 섞이게 되면서 음성인식의 성능이 현저하게 떨어지게 되는 문제점이 있었다.
따라서 본 발명은 상기와 같은 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 두 개의 음성이 동시에 들어오는 상황에서 음성통신/인식기의 성능 향상을 위해 각각의 음성을 분리하는 빔포밍 기술을 이용한 음원 분리 방법 및 시스템을 제공하는 데 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템의 일 측면에 따르면, 빔포밍된 적어도 하나 이상의 마이크 어레이를 통해 입력된 통합 음성신호에 윈도우를 씌우는 windowing 처리부; 상기 windown 처리부를 통해 윈도우가 씌워진 신호를 주파수축으로 변환하는 DFT 변환부; 윈도우가 씌워진 신호로부터 상기 서로 다른 둘 이상의 개별 음성 신호의 특징 값을 갖는 트랜스퍼 펑션을 추정하는 TF 추정부; 상기 TF 추정부를 통해 추정된 서로 다른 둘 이상의 개별 음성신호의 특징값을 갖는 트랜스퍼 펑션으로부터 개별 음성 신호들의 잡음을 제거하는 잡음 추정부; 및 잡음 제거된 음성 신호로부터 상기 서로 다른 개별 음성신호를 추출하는 음성신호 검출부를 포함한다.
상기 TF 추정부는, DFT 변환부를 통해 변환된 값을 통해 얻어진 임펄스 응답을 이용해서 트랜스퍼 펑션을 추정한다.
상기 TF 추정부는, 서로 다른 음원 수와 같다.
삭제
상기 시스템은, 상기 TF 추정부를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환부를 통해 제공되는 통합 음성신호에서 제거하는 적어도 하나 이상의 음성신호 추출부를 더 포함한다.
상기 windowing 처리부는, hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms이다.
그리고 상기 TF 추정부는, 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다.
또한 상기 음성신호 검출부는, 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 변환부를 더 포함한다.
개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 검출한 후 해당 방향으로 신호를 보낸 후 신호의 값의 크기를 비교하여 신호이득이 1이 나오면 정확하게 원하는 방향의 신호를 받아들인 것으로 판단하고 1이 아닌 다른 값이 나오면 개별 음성신호의 트랜스퍼 펑션(Transfer Function)이 부정확하다고 판단하는 TF 정확성 확인부를 더 포함할 수 있다.
본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법의 일 측면에 따르면, 빔포밍된 적어도 하나 이상의 마이크 어레이를 통해 입력된 통합 음성신호에 윈도 우를 씌우는 windowing 처리 단계; 상기 windown 처리 단계를 통해 윈도우가 씌워진 신호를 주파수축으로 변환하는 DFT 변환 단계; 윈도우가 씌워진 신호로부터 상기 서로 다른 둘 이상의 개별 음성 신호의 특징 값을 갖는 트랜스퍼 펑션을 추정하는 TF 추정 단계; 상기 TF 추정 단계를 통해 추정된 서로 다른 둘 이상의 개별 음성신호의 특징값을 갖는 트랜스퍼 펑션으로부터 개별 음성 신호들의 잡음을 제거하는 잡음 추정 단계; 및 잡음 제거된 음성 신호로부터 상기 서로 다른 개별 음성신호를 추출하는 음성신호 검출 단계를 포함한다.
상기 트랜스퍼 펑션 추정 단계는, DFT 변환부를 통해 변환된 값을 통해 얻어진 임펄스 응답을 이용해서 트랜스퍼 펑션을 추정한다.
한편, 상기 TF 추정 단계는, 서로 다른 음원 수 만큼 수행한다.
삭제
또한 상기 방법은, 상기 TF 추정 단계를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환 단계를 통해 제공되는 통합 음성신호에서 제거하는 음성신호 추출 단계를 더 포함한다.
한펴, 상기 windowing 처리 단계는, hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms이다.
그리고 상기 TF 추정 단계는, 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다.
또한 상기 음성신호 검출 단계는, 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 처리 단계를 더 포함한다.
개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 검출한 후 해당 방향으로 신호를 보낸 후 신호의 값의 크기를 비교하여 신호이득이 1이 나오면 정확하게 원하는 방향의 신호를 받아들인 것으로 판단하고 1이 아닌 다른 값이 나오면 개별 음성신호의 트랜스퍼 펑션(Transfer Function)이 부정확하다고 판단하는 TF 정확성 확인 단계를 더 포함할 수 있다.
상술한 바와 같이 본 발명에 의한 빔포밍 기술을 이용한 음원 분리 방법 및 시스템에 의하면, 적어도 하나 이상의 음원이 동시에 입력되더라도 그 음원들을 각각 분리하여 별도로 저장 관리하거나 최초 음원을 저장 관리할 수 있는 뛰어난 효과가 있다.
이하, 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법 및 시스템에 대한 바람직한 실시 예에 대하여 첨부한 도면을 참조하여 상세하게 살펴보기로 한다. 이 때, 아래에서 설명하는 시스템 구성은 본 발명의 설명을 위해서 인용한 시스템으로써 아래 시스템으로 본 발명을 한정하지 않음을 이 분야의 통상의 지식을 가진 자라면 이해해야할 것이다.
도 2는 종래 마이크 어레이 어레이를 이용한 방향성 잡음 제거 시스템을 나타낸 도면으로써, 적어도 하나 이상의 마이크 어레이(10), 마이크 어레이(10)에 각각 연결된 단구간 분석부(20), 에코 제거부(30), 방향성 잡음 제거와, 정면소리 유/무를 기반으로 필터 weight update on/off하는 adaptive 빔포밍(Beamforming) 처리부(40), 마이크간의 신호의 상관관계를 이용하여 정면소리를 정면소리 검출부(50), 잔여잡음 제거와 정면소리 유/무를 기반으로 잔여 잡음을 제어하는 Post-filtering부(60) 및 Overlap and add 처리부(70)를 포함한다.
각 마이크 어레이(10)을 통해 입력된 음성들은 각각의 단구간 분석부(20)를 통해 주파수 영역을 분석한다.
예를 들어 설명하면, 하나의 프레임은 2.56ms에 해당하며 이동구간은 128ms이다. 따라서 16Khz 샘플링에서 256ms는 4,096개로 샘플링되며, Hanning window를 사용할 수 있다.
이후, DFT를 하기 위해 real-FFT를 이용하며, 소스코드는 ETSI 표준 특징 추출 프로그램을 이용한다.
적응 빔포밍(adaptive Beamforming) 처리부(40)를 통해 방향성 잡음이 제거한다.
적응 빔포밍 처리부(40)는 generalized sidelobe canceller(이하 "GSC"라 함)를 이용한다.
이후, Far-end 신호가 스피커에 어레이로 도착하는 경로를 추정하여 에코를 제거하는 것과 마찬가지이다.
도 3은 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템의 구성을 나타낸 도면으로서, 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템은 적어도 하나 이상의 마이크 어레이(10), 마이크 어레이(10)에 각각 연결된 단구간 분석부(20), 에코 제거부(30), 정면소리 검출부(50), Post-filtering부(60) 및 Overlap and add 처리부(70)가 포함되며, 범위설정(windowing)부(100), DFT 변환부(200), 적어도 하나 이상의 TF 추정부(300), 잡음 추정부(400), 적어도 하나 이상의 음성신호 추출부(500) 및 적어도 하나 이상의 음성신호 검출부(600)를 포함하며, 음성신호 검출부(600)는 IDFT 변환부(610)를 포함한다.
범위설정(windowing)부(100)는 마이크 어레이(10)를 통해 적어도 하나 이상의 음성이 포함된 통합 음성신호가 입력되면 그 통합 음성신호에 대하여 기 설정된 방향으로 hanning 윈도우를 씌어 프레임으로 구분한다. 이때, 범위설정부(100)는 단구간 분석부(20)와 에코 제거부(30)를 통해 마이크 어레이(10)를 통해 통합 음성신호를 제공받을 수도 있다.
이때, 범위설정(windowing)부(100)는 hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms이다.
그리고 DFT 변환부(200)는 범위설정(windowing)부(100)를 통해 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환한다.
또한, 적어도 하나 이상의 TF 추정부(300)는 DFT 변환부(200)를 통해 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑 션(Transfer Function)을 추정한다. 이때, TF 추정부(300)는 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다.
그리고 잡음 추정부(400)는 DFT 변환부(200)를 통해 주파수 축으로 변환된 통합 음성신호에서 각 TF 추정부(300)를 통해 추정된 트랜스퍼 펑션(Transfer Function)을 통해 검출한 개별 음성신호들을 제거하여 잡음 신호를 추정한다.
또한 적어도 하나 이상의 음성신호 추출부(500)는 TF 추정부(300)를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환부(200)를 통해 제공되는 통합 음성신호에서 제거한다.
그리고 적어도 하나 이상의 음성신호 검출부(600)는 트랜스퍼 펑션(Transfer Function)을 통해 검출하고자 하는 개별 음성신호에서 잡음 추정부(400)를 통해 제공되는 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출한다. 이때, 음성신호 검출부(600)는 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 변환부(610)를 더 포함한다.
상기한 각 구성들에 대한 일반적인 기능 및 각각의 상세한 동작에 대하여는 그 설명을 생략하고, 본 발명에 상응하는 동작 위주로 그 동작들을 설명하기로 한다.
먼저, 마이크 어레이(10)는 두개의 음성신호가 섞인 통합 음성신호를 입력받아 범위설정(windowing)부(100)로 제공한다. 이때, 마이크 어레이(10)를 통해 입 결되는 신호는 마이크 어레이(10) 사이의 간격 때문에 약간씩 차이가 있는 음성신호이다.
그러면, 범위설정(windowing)부(100)는 제공된 통합 음성신호에 대하여 기 설정된 방향으로 hanning 윈도우를 씌어 32ms 구간의 프레임으로 구분한다. 이 과정에서 구분된 프레임은 16ms 구간만큼 이동시키면서 자르게된다.
한편, 범위설정(windowing)부(100)는 hanning 윈도우를 씌우기 위한 방향은 기 설정되어 있으며, hanning 윈도우의 개수는 사람의 수에 따라 달라질 수 있는 것으로 이를 한정하지는 않는다.
이어서, DFT 변환부(200)는 범위설정(windowing)부(100)를 통해 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환한다.
이후, TF 추정부(300)는 DFT 변환부(200)를 통해 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정한다. 이때, TF 추정부(300)는 두 개의 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정하거나, 두 개의 TF 추정부(300)를 통해 각각의 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정할 수 있다. 이때, TF 추정부(300)는 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다.
이렇게 TF 추정부(300) 또는 각각의 TF 추정부(300)를 통해 개별 음성신호의 트랜스퍼 펑션(Transfer Function)이 추정되면, 잡음 추정부(400)는 DFT 변환 부(200)를 통해 주파수 축으로 변환된 통합 음성신호에서 TF 추정부(300)를 통해 추정된 트랜스퍼 펑션(Transfer Function)을 통해 검출한 개별 음성신호들을 제거하여 잡음 신호를 추정한다.
이후, 음성신호 추출부(500)는 TF 추정부(300)를 통해 제공되는 개별 음성신호의 트랜스퍼 펑션(Transfer Function)들 중 추출하고자 하는 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 제외한 나머지 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 DFT 변환부(200)를 통해 제공되는 통합 음성신호에서 제거한다. 그러면, 추출하고자 하는 개별 음성신호를 추출할 수 있다.
이후, 적어도 하나 이상의 음성신호 검출부(600)는 트랜스퍼 펑션(Transfer Function)을 통해 검출하고자 하는 개별 음성신호에서 상기 잡음 추정부(400)를 통해 제공되는 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출한다. 이때, 음성신호 검출부(600)는 IDFT 변환부(610)를 통해 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환한다.
그러면, 상기와 같은 구성을 가지는 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법에 대해 도 4를 참조하여 설명하기로 한다.
먼저, 마이크 어레이(10)를 통해 적어도 하나 이상의 음성이 포함된 통합 음성신호가 입력되면 기 설정된 방향으로 hanning 윈도우를 씌어 프레임으로 구분한다(S1). 여기서 windowing 처리 단계(S1)는 hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms인 이다.
이어서, 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환한다(S2).
그런 후, 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정한다(S3). 한편, TF 추정 단계는 기 설정된 방향의 음성신호에 대하여 임의의 시간동안(5초) 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다.
이어서, 주파수 축으로 변환된 통합 음성신호에서 트랜스퍼 펑션(Transfer Function)을 통해 검출한 개별 음성신호들을 제거하여 잡음 신호를 추정한다(S4).
이후, 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 통합 음성신호에서 제거한다(S5).
그러면, 트랜스퍼 펑션(Transfer Function)을 통해 검출하고자 하는 개별 음성신호에서 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출한다(S6). 한편 음성신호 검출 단계(S6)는 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환한다.
이상에서 본 발명은 기재된 구체적인 실시 예에 대해서만 상세히 설명하였지만 본 발명의 기술 사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.
도 1은 종래 적응 빔포밍을 위한 사용자 방향의 소리 검출 시스템에서 마이크 어레이 정면이 90도인 경우의 방향성 패턴(directivity pattern)을 나타낸 도면.
도 2는 종래 적응 빔포밍을 위한 사용자 방향의 소리 검출 시스템을 나타낸 기능블록도.
도 3은 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템의 구성을 나타낸 기능블록도.
도 4는 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법을 나타낸 순서도이다.
<도면의 주요 부분에 대한 부호의 설명>
10 : 적어도 하나 이상의 마이크 어레이 20 : 단구간 분석부
30 : 에코 제거부 40 : adaptive beamforming 처리부
50 : 정면소리 검출부 60 : Post-filtering부
70 : Overlap and add 처리부
100 : 범위설정부 200 : DFT 변환부
300 : 적어도 하나 이상의 TF 추정부 400 : 잡음 추정부
500 : 적어도 하나 이상의 음성신호 추출부
600 : 적어도 하나 이상의 음성신호 검출부
610 : IDFT 변환부

Claims (18)

  1. 서로 다른 하나이상의 음원을 분리하는 시스템에 있어서,
    빔포밍된 적어도 하나 이상의 마이크 어레이를 통해 입력된 통합 음성신호에 윈도우를 씌우는 windowing 처리부;
    상기 windowing 처리부를 통해 윈도우가 씌워진 신호를 주파수축으로 변환하는 DFT 변환부;
    윈도우가 씌워진 신호로부터 상기 서로 다른 둘 이상의 개별 음성 신호의 특징 값을 갖는 트랜스퍼 펑션을 추정하는 TF 추정부;
    상기 TF 추정부를 통해 추정된 서로 다른 둘 이상의 개별 음성신호의 특징값을 갖는 트랜스퍼 펑션으로부터 개별 음성 신호들의 잡음을 제거하는 잡음 추정부; 및
    잡음 제거된 음성 신호로부터 상기 서로 다른 개별 음성신호를 추출하는 음성신호 검출부를 포함하고,
    상기 TF 추정부는,
    기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정하는 빔포밍 기술을 이용한 음원 분리 시스템.
  2. 제 1항에 있어서,
    상기 TF 추정부는,
    DFT 변환부를 통해 변환된 값을 통해 얻어진 임펄스 응답을 이용해서 트랜스퍼 펑션을 추정하는 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 시스템.
  3. 삭제
  4. 제 1항에 있어서,
    상기 DFT 변환부를 통해 변환된 값으로부터 음성신호의 트랜스퍼 펑션을 추정하기 위한 TF 추정부는,
    서로 다른 음원 수와 같은 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 시스템.
  5. 제 1항에 있어서,
    상기 시스템은,
    상기 TF 추정부를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환부를 통해 제공되는 통합 음성신호에서 제거하는 적어도 하나 이상의 음성신호 추출부를 더 포함하는 빔포밍 기술을 이용한 음원 분리 시스템.
  6. 제 1항에 있어서,
    상기 windowing 처리부는,
    hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms인 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 시스템.
  7. 제 6항에 있어서,
    상기 TF 추정부는,
    기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정하는 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 시스템.
  8. 제 1항에 있어서,
    상기 음성신호 검출부는,
    주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 변환부를 더 포함하는 빔포밍 기술을 이용한 음원 분리 시스템.
  9. 제 8항에 있어서,
    개별 음성신호의 트랜스퍼 기능(Transfer Function)을 검출한 후 해당 방향으로 신호를 보낸 후 신호의 값의 크기를 비교하여 신호이득이 1이 나오면 정확하게 원하는 방향의 신호를 받아들인 것으로 판단하고 1이 아닌 다른 값이 나오면 개별 음성신호의 트랜스퍼 기능(Transfer Function)이 부정확하다고 판단하는 TF 정확성 확인부를 더 포함하는 빔포밍 기술을 이용한 음원 분리 시스템.
  10. 빔포밍 기술을 이용하여 서로 다른 하나이상의 음원을 음원 분리 방법에 있어서,
    빔포밍된 적어도 하나 이상의 마이크 어레이를 통해 입력된 통합 음성신호에 윈도우를 씌우는 windowing 처리 단계;
    상기 windowing 처리 단계를 통해 윈도우가 씌워진 신호를 주파수축으로 변환하는 DFT 변환 단계;
    윈도우가 씌워진 신호로부터 상기 서로 다른 둘 이상의 개별 음성 신호의 특징 값을 갖는 트랜스퍼 펑션을 추정하는 TF 추정 단계;
    상기 TF 추정 단계를 통해 추정된 서로 다른 둘 이상의 개별 음성신호의 특징값을 갖는 트랜스퍼 펑션으로부터 개별 음성 신호들의 잡음을 제거하는 잡음 추정 단계; 및
    잡음 제거된 음성 신호로부터 상기 서로 다른 개별 음성신호를 추출하는 음성신호 검출 단계를 포함하RH,
    상기 TF 추정 단계는,
    기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정하는 빔포밍 기술을 이용한 음원 분리 방법.
  11. 제 10항에 있어서,
    상기 트랜스퍼 펑션 추정 단계는,
    DFT 변환부를 통해 변환된 값을 통해 얻어진 임펄스 응답을 이용해서 트랜스퍼 펑션을 추정하는 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 방법.
  12. 삭제
  13. 제 10항에 있어서,
    상기 TF 추정 단계는,
    서로 다른 음원 수 만큼 수행하는 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 방법.
  14. 제 10항에 있어서,
    상기 방법은,
    상기 TF 추정 단계를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환 단계를 통해 제공되는 통합 음성신호에서 제거하는 음성신호 추출 단계를 더 포함하는 빔포밍 기술을 이용한 음원 분리 방법.
  15. 제 10항에 있어서,
    상기 windowing 처리 단계는,
    hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms인 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 방법.
  16. 제 15항에 있어서,
    상기 TF 추정 단계는,
    기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정하는 것을 특징으로 하는 빔포밍 기술을 이용한 음원 분리 방법.
  17. 제 10항에 있어서,
    상기 음성신호 검출 단계는,
    주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 처리 단계를 더 포함하는 빔포밍 기술을 이용한 음원 분리 방법.
  18. 제 17항에 있어서,
    개별 음성신호의 트랜스퍼 기능(Transfer Function)을 검출한 후 해당 방향으로 신호를 보낸 후 신호의 값의 크기를 비교하여 신호이득이 1이 나오면 정확하게 원하는 방향의 신호를 받아들인 것으로 판단하고 1이 아닌 다른 값이 나오면 개별 음성신호의 트랜스퍼 기능(Transfer Function)이 부정확하다고 판단하는 TF 정확성 확인 단계를 더 포함하는 빔포밍 기술을 이용한 음원 분리 방법.
KR1020080071287A 2008-07-21 2008-07-22 빔포밍 기술을 이용한 음원 분리 방법 및 시스템 KR101529647B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080071287A KR101529647B1 (ko) 2008-07-22 2008-07-22 빔포밍 기술을 이용한 음원 분리 방법 및 시스템
US12/460,473 US8577677B2 (en) 2008-07-21 2009-07-20 Sound source separation method and system using beamforming technique

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080071287A KR101529647B1 (ko) 2008-07-22 2008-07-22 빔포밍 기술을 이용한 음원 분리 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20100010356A KR20100010356A (ko) 2010-02-01
KR101529647B1 true KR101529647B1 (ko) 2015-06-30

Family

ID=42085052

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080071287A KR101529647B1 (ko) 2008-07-21 2008-07-22 빔포밍 기술을 이용한 음원 분리 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101529647B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101702561B1 (ko) 2010-08-30 2017-02-03 삼성전자 주식회사 음원출력장치 및 이를 제어하는 방법
KR101233272B1 (ko) * 2011-03-08 2013-02-14 고려대학교 산학협력단 잡음 환경에서의 음성 처리 장치 및 방법
KR102607863B1 (ko) 2018-12-03 2023-12-01 삼성전자주식회사 음원 분리 장치 및 음원 분리 방법
CN111402917B (zh) 2020-03-13 2023-08-04 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
KR102438701B1 (ko) * 2021-04-12 2022-09-01 한국표준과학연구원 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099822B2 (en) * 2002-12-10 2006-08-29 Liberato Technologies, Inc. System and method for noise reduction having first and second adaptive filters responsive to a stored vector

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099822B2 (en) * 2002-12-10 2006-08-29 Liberato Technologies, Inc. System and method for noise reduction having first and second adaptive filters responsive to a stored vector

Also Published As

Publication number Publication date
KR20100010356A (ko) 2010-02-01

Similar Documents

Publication Publication Date Title
KR101470528B1 (ko) 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
JP5572445B2 (ja) 残響抑圧装置、及び残響抑圧方法
US8577677B2 (en) Sound source separation method and system using beamforming technique
EP2058804B1 (en) Method for dereverberation of an acoustic signal and system thereof
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
EP2237271A1 (en) Method for determining a signal component for reducing noise in an input signal
JP2008512888A (ja) 改善した雑音抑圧を有する電話装置
US8666737B2 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
Schwartz et al. Joint estimation of late reverberant and speech power spectral densities in noisy environments using Frobenius norm
KR101529647B1 (ko) 빔포밍 기술을 이용한 음원 분리 방법 및 시스템
Maas et al. A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments
JP5255467B2 (ja) 雑音抑制装置、雑音抑制方法、及び、プログラム
Hayashida et al. Close/distant talker discrimination based on kurtosis of linear prediction residual signals
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
KR20120098211A (ko) 음성 인식 방법 및 그에 따른 음성 인식 장치
KR20110038447A (ko) 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법
Astudillo et al. Integration of beamforming and automatic speech recognition through propagation of the Wiener posterior
KR101068666B1 (ko) 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치
KR101966175B1 (ko) 잡음 제거 장치 및 방법
Even et al. Blind signal extraction based joint suppression of diffuse background noise and late reverberation
KR100198019B1 (ko) 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법
JP2007178590A (ja) 目的信号抽出装置、目的信号抽出方法、及び、プログラム
Martın-Donas et al. A postfiltering approach for dual-microphone smartphones

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 5