KR101580868B1 - Apparatus for estimation of location of sound source in noise environment - Google Patents

Apparatus for estimation of location of sound source in noise environment Download PDF

Info

Publication number
KR101580868B1
KR101580868B1 KR1020140039227A KR20140039227A KR101580868B1 KR 101580868 B1 KR101580868 B1 KR 101580868B1 KR 1020140039227 A KR1020140039227 A KR 1020140039227A KR 20140039227 A KR20140039227 A KR 20140039227A KR 101580868 B1 KR101580868 B1 KR 101580868B1
Authority
KR
South Korea
Prior art keywords
sound
sound source
noise
filtering
sound signal
Prior art date
Application number
KR1020140039227A
Other languages
Korean (ko)
Other versions
KR20150114714A (en
Inventor
최종석
조현기
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020140039227A priority Critical patent/KR101580868B1/en
Publication of KR20150114714A publication Critical patent/KR20150114714A/en
Application granted granted Critical
Publication of KR101580868B1 publication Critical patent/KR101580868B1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/86Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 명세서에서는 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하여, 전기적인 소리 신호로 변환하는 복수의 마이크로폰, 상기 잡음을 제거하도록 상기 소리 신호를 필터링 하는 잡음 제거부, 필터링된 소리 신호에서 상기 음성을 검출하는 음성 검출부 및 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 음원 위치 추정부를 포함하는 잡음 환경에서 음원 위치를 추정하는 장치 및 추정방법이 개시된다.
In the present specification, a plurality of microphones for receiving sounds including noise and sound and converting the sounds into electrical sound signals, a noise removing unit for filtering the sound signals to remove the noise, An apparatus and method for estimating a sound source position in a noisy environment including a sound detecting unit for detecting sound and a sound source position estimating unit for analyzing the detected sound and estimating the position of the sound source.

Description

잡음 환경에서 음원 위치를 추정하는 장치 및 방법{APPARATUS FOR ESTIMATION OF LOCATION OF SOUND SOURCE IN NOISE ENVIRONMENT}[0001] APPARATUS FOR ESTIMATION OF LOCATION OF SOUND SOURCE IN NOISE ENVIRONMENT [0002]

본 발명은 음원의 위치를 추정하는 장치 및 방법에 관련된 것으로, 더욱 구체적으로는, 잡음 환경에서 음원의 위치를 추정하는 장치 및 방법에 관련된 것이다.
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus and method for estimating the position of a sound source, and more particularly, to an apparatus and method for estimating a position of a sound source in a noisy environment.

일반적으로 음원 방향검지 기술은 잡음이 없는 환경에서는 성공률이 높지만, 실제로 잡음이 존재하는 경우에는 음원에서 발생된 소리와 잡음이 섞이게 되어, 음원의 위치를 찾은 성공률이 낮은 문제점이 있다.
Generally, the sound source direction detection technique has a high success rate in a noise-free environment. However, when noise is actually present, the sound and noise generated from the sound source are mixed with each other, so that the success rate of locating the sound source is low.

등록특허 10-1269189Patent No. 10-1269189

상술한 문제점을 해결하기 위해, 잡음 성분을 제거하고 음원에서 발생된 소리만을 이용하여 음원의 위치를 추정하는 장치 및 방법이 필요하다.
In order to solve the above-described problem, there is a need for an apparatus and method for removing a noise component and estimating the position of a sound source using only sound generated from the sound source.

본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치는, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하여, 전기적인 소리 신호로 변환하는 복수의 마이크로폰, 상기 잡음을 제거하도록 상기 소리 신호를 필터링 하는 잡음 제거부, 필터링된 소리 신호에서 상기 음성을 검출하는 음성 검출부 및 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 음원 위치 추정부를 포함한다.An apparatus for estimating a sound source position in a noisy environment according to an embodiment of the present invention includes a plurality of microphones for receiving noise and a sound including a sound generated from a sound source and converting the sound into an electrical sound signal, And a sound source position estimator for estimating a position of the sound source by analyzing the detected sound. The sound source position estimating unit estimates the position of the sound source by analyzing the sound.

또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치는, 상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 할 수 있다.In an apparatus for estimating a sound source position in the noisy environment according to an embodiment of the present invention, the noise may include noise due to operation of the cleaner.

또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치에서, 상기 잡음 제거부는, KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 것을 특징으로 할 수 있다.In an apparatus for estimating a sound source position in the noisy environment according to an embodiment, the noise canceller may filter the sound signal using a Karhunen-Loeve Transform (KLT) based filter.

또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치에서,상기 잡음 제거부는, SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 추가적으로 필터링하는 것을 특징으로 할 수 있다.In an apparatus for estimating a sound source position in the noisy environment according to an exemplary embodiment, the noise canceller may further include filtering the filtered sound signal using an SDW-MWF (Speech Distortion Weighted Multi-channel Wiener Filter) .

또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치에서, 상기 음성 검출부는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고, 상기 음원 위치 추정부는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 할 수 있다.Also, in an apparatus for estimating a sound source position in the noisy environment according to an embodiment, the sound detection unit detects a sound interval in the sound signal through a VAD (Voice Activity Detection), and the sound source position estimation unit The direction of the sound source is estimated using the time difference of the received sound.

또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치는, 추정된 음원의 방향으로 상기 음원 위치 추정 장치를 이동시키는 구동부를 더 포함하는 것을 특징으로 할 수 있다.The apparatus for estimating a sound source position in the noisy environment according to an embodiment may further include a driving unit for moving the sound source position estimating apparatus in the direction of the estimated sound source.

본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법은, 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계, 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계, 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계, 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함한다. A method of estimating a sound source position in a noisy environment according to an embodiment of the present invention includes receiving sound including noise and sound generated from a sound source through a microphone, Signal, filtering the sound signal by the processor to remove noise from the sound signal, detecting the sound in the filtered sound signal by the processor, and detecting, by the processor, the detected sound And estimating a position of the sound source.

또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서, 상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 할 수 있다.Also, in a method of estimating a sound source position in a noisy environment according to an embodiment, the noise may include noise due to operation of the cleaner.

또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서,상기 소리 신호를 필터링 하는 단계는, KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 단계를 포함하는 것을 특징으로 할 수 있다.In the method of estimating a sound source position in a noisy environment according to an exemplary embodiment, filtering the sound signal includes filtering the sound signal using a Karhunen-Loeve Transform (KLT) -based filter .

또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서, 상기 소리 신호를 필터링 하는 단계는, SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 필터링하는 단계를 더 포함하는 것을 특징으로 할 수 있다.In the method of estimating a sound source position in a noisy environment according to an exemplary embodiment, filtering the sound signal may include filtering the filtered sound signal using an SDW-MWF (Speech Distortion Weighted Multi-channel Wiener Filter) The method comprising the steps of:

또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서, 상기 음성을 검출하는 단계는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고, 상기 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 할 수 있다.Also, in the method of estimating a sound source position in a noisy environment according to an exemplary embodiment, the step of detecting the sound may include detecting a speech interval in the sound signal through a VAD (Voice Activity Detection), analyzing the detected sound The step of estimating the position of the sound source estimates the direction of the sound source using the time difference of the sound received by each microphone.

본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체는, 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계; 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계; 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계; 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계; 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함하는, 잡음 환경에서 음원 위치를 추정하는 방법을 실행하기 위한 컴퓨터 프로그램을 기록하고 있을 수 있다.
A computer-readable recording medium recording a computer program for performing a method for estimating a sound source position in a noisy environment according to an embodiment of the present invention includes: Receiving a sound including the sound; Converting the received sound into an electrical sound signal through a microphone; Filtering the sound signal by the processor to remove noise from the sound signal; Detecting, by the processor, the speech in the filtered sound signal; And analyzing the detected speech to estimate the location of the sound source by the processor. ≪ RTI ID = 0.0 > [0002] < / RTI >

본 발명의 일 실시예에 따르면, 기존의 음원방향검지 시스템의 절차를 그대로 유지한 상태에서, 기존의 음원구간검출(VAD: Voice Activity Detection)부의 수정과 음원방향검지의 전처리기로 잡음제거 알고리즘을 추가함으로써 방향검지의 성능을 향상시킬 수 있다. 그 결과 잡음환경에서의 방향검지의 기능을 가전기기에 쉽게 적용할 수 있게 된다.
According to an embodiment of the present invention, a noise canceling algorithm is added by a modification of a conventional voice source detection (VAD) unit and a preprocessor of a sound source direction detection while maintaining the procedure of a conventional sound source direction detection system The performance of the direction detection can be improved. As a result, the function of direction detection in a noisy environment can be easily applied to a home appliance.

도1은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 동작을 설명하기 위한 구성도이다.
도2는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치(1000)의 세부적인 구성도이다.
도3은 본 발명의 일 실시예에 따른 PDOA 방식을 설명하기 위한 도이다.
도4는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법의 순서도이다.
도5 내지 도7은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 실험결과를 나타내는 도이다.
1 is a block diagram illustrating an apparatus for estimating a sound source position in a noisy environment according to an embodiment of the present invention.
2 is a detailed configuration diagram of an apparatus 1000 for estimating a sound source position in a noisy environment according to an embodiment of the present invention.
3 is a diagram illustrating a PDOA scheme according to an embodiment of the present invention.
4 is a flowchart of a method of estimating a sound source position in a noisy environment according to an embodiment of the present invention.
5 to 7 are diagrams illustrating experimental results of an apparatus for estimating a sound source position in a noisy environment according to an embodiment of the present invention.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시 된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, the terms "comprises ", or" having ", or the like, specify that there is a stated feature, number, step, operation, , Steps, operations, components, parts, or combinations thereof, as a matter of principle.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 다만, 실시형태를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 또한, 도면에서의 각 구성요소들의 크기는 설명을 위하여 과장될 수 있으며, 실제로 적용되는 크기를 의미하는 것은 아니다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be construed as meaning consistent with meaning in the context of the relevant art and are not to be construed as ideal or overly formal in meaning unless expressly defined herein . Like reference numerals in the drawings denote like elements. In the following description, well-known functions or constructions are not described in detail to avoid unnecessarily obscuring the subject matter of the present invention. In addition, the size of each component in the drawings may be exaggerated for the sake of explanation and does not mean a size actually applied.

본 명세서에 기술된 실시예는 전적으로 하드웨어이거나, 부분적으로 하드웨어이고 부분적으로 소프트웨어이거나, 또는 전적으로 소프트웨어인 측면을 가질 수 있다. 본 명세서에서 "부(unit)", "모듈(module)", "장치" 또는 "시스템" 등은 하드웨어, 하드웨어와 소프트웨어의 조합, 또는 소프트웨어 등 컴퓨터 관련 엔티티(entity)를 지칭한다. 예를 들어, 본 명세서에서 부, 모듈, 장치 또는 시스템 등은 실행중인 프로세스, 프로세서, 객체(object), 실행 파일(executable), 실행 스레드(thread of execution), 프로그램(program), 및/또는 컴퓨터(computer)일 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 컴퓨터에서 실행중인 애플리케이션(application) 및 컴퓨터의 양쪽이 모두 본 명세서의 부, 모듈, 장치 또는 시스템 등에 해당할 수 있다. Embodiments described herein may be wholly hardware, partially hardware, partially software, or entirely software. A "unit," "module," "device," or "system" or the like in this specification refers to a computer-related entity such as a hardware, a combination of hardware and software, or software. A processor, an object, an executable, a thread of execution, a program, and / or a computer, for example, a computer, but is not limited to, a computer. For example, both an application running on a computer and a computer may correspond to a part, module, apparatus, or system of the present specification.

실시예들이 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다. 나아가, 본 발명의 일 실시예에 따른 방법은 일련의 과정들을 수행하기 위한 컴퓨터 프로그램의 형태로 구현될 수도 있으며, 상기 컴퓨터 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수도 있다.Embodiments have been described with reference to the flowcharts shown in the drawings. While the above method has been shown and described as a series of blocks for purposes of simplicity, it is to be understood that the invention is not limited to the order of the blocks, and that some blocks may be present in different orders and in different orders from that shown and described herein And various other branches, flow paths, and sequences of blocks that achieve the same or similar results may be implemented. Also, not all illustrated blocks may be required for implementation of the methods described herein. Furthermore, the method according to an embodiment of the present invention may be implemented in the form of a computer program for performing a series of processes, and the computer program may be recorded on a computer-readable recording medium.

이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

도1은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 동작을 설명하기 위한 구성도이다. 도1을 참조하면, 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 사용자(1)의 음성 및 기타 주변의 잡음등을 마이크로폰을 통해 수신하고, 이를 처리하여, 음성이 발생된 음원의 위치를 추정하고 음원을 향하여 이동할 수 있다.1 is a block diagram illustrating an apparatus for estimating a sound source position in a noisy environment according to an embodiment of the present invention. Referring to FIG. 1, an apparatus 1000 for estimating a sound source position in a noisy environment receives a sound of a user 1 and other surrounding noise through a microphone, processes the sound, It can be estimated and moved toward the sound source.

일 예에서, 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 로봇 청소기 일 수 있으나 이에 제한되는 것은 아니고, 상기 잡음은 로봇 청소기의 동작에서 발생하는 소음을 포함할 수 있다. In one example, the apparatus 1000 for estimating a source location in a noisy environment may be but is not limited to a robot cleaner, and the noise may include noise generated in the operation of the robot cleaner.

도2는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치(1000)의 세부적인 구성도이다. 도2를 참조하면 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 복수의 마이크로폰(100), 잡음 제거부(200), 음성 검출부(300) 및 음원 위치 추정부(400)를 포함한다. 다른 일 실시예에서 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 잡음 환경에서 음원 위치를 추정하는 장치(1000)를 이동시키는 구동부(500)를 더 포함할 수 있다.2 is a detailed configuration diagram of an apparatus 1000 for estimating a sound source position in a noisy environment according to an embodiment of the present invention. Referring to FIG. 2, an apparatus 1000 for estimating a sound source position in a noisy environment includes a plurality of microphones 100, a noise removing unit 200, a sound detecting unit 300, and a sound source position estimating unit 400. The apparatus 1000 for estimating a sound source position in a noisy environment may further include a driving unit 500 for moving the apparatus 1000 for estimating a sound source position in a noisy environment.

상술한 구성은 본 발명의 특징을 설명하기 위한 예시적인 구성들이고, 상술한 구성 이외에 데이터 저장부, 통신 장비, 디스플레이 등 다른 구성요소들이 잡음 환경에서 음원 위치를 추정하는 장치에 더 포함될 수 있다.The above-described configuration is an exemplary configuration for explaining the features of the present invention. In addition to the above-described configuration, other components such as a data storage unit, a communication equipment, and a display may be further included in an apparatus for estimating a sound source position in a noisy environment.

복수의 마이크로폰(100)는 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하고, 수신된 소리를 전기적인 소리 신호로 변환할 수 있다. 그리고 복수의 마이크로폰(100)은 변환된 소리 신호를 잡음 제거부(200)에 제공할 수 있다.The plurality of microphones 100 can receive sounds including noises and sounds generated from the sound sources, and convert the received sounds into electrical sound signals. The plurality of microphones 100 may provide the converted sound signal to the noise removing unit 200.

일 실시예에서 잡음 제거부(200)는 수신한 소리에서 잡음을 제거하도록 소리 신호를 필터링 할 수 있다. 잡음이 심한 환경에서 수신된 소리 신호에는 음원으로부터 발생한 소리 및 잡음이 포함되어 음원의 위치를 추정하는 것이 어려우므로, 잡음 부분을 제거하는 것이 필요하다. In one embodiment, the noise remover 200 may filter the sound signal to remove noise from the received sound. It is difficult to estimate the position of a sound source because a sound signal received in a noisy environment includes sound and noise generated from the sound source, so it is necessary to remove the noise portion.

이를 위해 잡음 제거부(200)는 KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링할수 있다. For this, the noise removing unit 200 may filter the sound signal using a KLT (Karhunen-Loeve Transform) based filter.

KLT(karhunen-Loeve Transform) 기반 필터를 이용하는 방법은 공분산 행렬(covariance matrix)의 부분공간(subspace)을 이용하여 잡음을 제거하는 방법이다.A method using a KLT (Karhunen-Loeve Transform) based filter is a method of removing noise using a subspace of a covariance matrix.

[수학식 1][Equation 1]

y = x + dy = x + d

상기 수학식1에서 x는 음성(speech signal)이고, d는 잡음을 의미하고, y는 마이크로폰을 통하여 입력받은 소리 신호이다. 이 알고리즘을 통하여 H라는 필터 게인을 구하여 y에 곱해줌으로써

Figure 112014031648191-pat00001
를 추정한다.In Equation (1), x is a speech signal, d is a noise, and y is a sound signal input through a microphone. Through this algorithm, we obtain the filter gain H and multiply it by y
Figure 112014031648191-pat00001
.

[수학식 2] &Quot; (2) "

Figure 112014031648191-pat00002
Figure 112014031648191-pat00002

수학식 2에 나타난 방식으로 실제 오차를 표현할 수 있다. 또한 상기 오차를 최소화 할수록 실제 목적한 값에 가까워지기 때문에 rx와 rd를 최소화 하는 것이 목적이다. 이를 위하여, 수학식 2에서 rx를 최소화 하고 rd를 일정한 값으로 고정하게 된다면, 쿤-터커 조건(Kuhn-Tuker condition)과 라그랑지안 멀티플라이어(Lagrangian multiplier)를 이용하여 최적의 H값을 구할 수 있다. 그리고 수학식2를 간단한 계산을 위하여 아래의 수학식 3과 같이 변형할 수 있다.The actual error can be expressed by the equation (2). Also, as the error is minimized, the objective is to minimize r x and r d since it approaches the actual desired value. For this, if r x is minimized and r d is fixed to a constant value in Equation (2), an optimal H value can be obtained by using a Kuhn-Tuker condition and a Lagrangian multiplier have. Equation (2) can be modified as shown in Equation (3) below for simple calculation.

[수학식 3]&Quot; (3) "

Figure 112014031648191-pat00003
Figure 112014031648191-pat00003

위의 식에서 Rx는 음성 신호의 공분산 행렬이고, Rd는 잡음 신호의 공분산 행렬이다. 그리고 V는 ∑=Rd -1Rx의 고유벡터(eigenvector) 값이다. 그리고 G값은 대각행렬로서, 아래 수학식4와 같이 표현할 수 있다.In the above equation, R x is the covariance matrix of the speech signal, and R d is the covariance matrix of the noise signal. And V is the eigenvector of Σ = R d -1 R x . The G value is a diagonal matrix and can be expressed by Equation (4) below.

[수학식 4]&Quot; (4) "

Figure 112014031648191-pat00004
Figure 112014031648191-pat00004

수학식 4에서, K는 전체 신호의 프레임 크기(frame size)를 의미하고, M은 ∑의 양의 고유값(positive eigenvalue)의 개수를 의미한다. 그래서 최종적으로 KLT 기반 필터의 게인 을 구하여 잡음을 제거하게 된다.In Equation (4), K denotes the frame size of the entire signal, and M denotes the number of positive eigenvalues of 裡. Finally, the gain of the KLT-based filter is obtained to eliminate the noise.

일 실시예에서, 잡음 제거부(200)는 SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 추가적으로 필터링할 수 있다.In one embodiment, the noise remover 200 may further filter the filtered sound signal using a Speech Distortion Weighted Multi-channel Wiener Filter (SDW-MWF).

즉, 잡음 제거부(200)는 상기 단일채널 (각각의 마이크)에서 KLT 기반 필터를 통하여 잡음이 제거된 신호를 멀티 채널(Multi-channel) 특성을 이용한 SDW-MWF를 통하여 잡음을 제거할 수 있다. Wiener filter의 주 이론은 Minimize mean square error (MMSE)를 만족하는 필터 게인H 를 구하는 것이다.That is, the noise removing unit 200 can remove the noise-canceled signal through the KLT-based filter in the single channel (each microphone) through the SDW-MWF using the multi-channel characteristic . The main theory of the Wiener filter is to obtain the filter gain H satisfying the minimum mean square error (MMSE).

위의 KLT 기반 필터에서 얻은 결과를 STFT를 통하여 주파수도메인으로 변환하여 아래 수학식 5와 같이 표현할 수 있다. The result obtained from the above KLT-based filter can be transformed into the frequency domain through the STFT and expressed as Equation (5) below.

[수학식 5]&Quot; (5) "

Figure 112014031648191-pat00005
Figure 112014031648191-pat00005

수학식 5는 i번째 마이크의 k번째 주파수 빈(frequency bin)에서의 입력신호, 음성 신호, 잡음 신호를 의미한다. 그리고 수학식 5와 같은 방식의 각각의 마이크 신호들을 모두 묶어서 하나의 벡터로 표현할 수 있다. 그리고 이렇게 표현된 식을 이용하여 선택적으로 잡음을 제거할 수 있다.Equation (5) denotes an input signal, a voice signal, and a noise signal at a k-th frequency bin of the i-th microphone. Then, each of the microphone signals in the same manner as in Equation (5) can be grouped together and expressed as a single vector. Then, the noise can be selectively removed by using the expression expressed in this way.

[수학식 6]&Quot; (6) "

Figure 112014031648191-pat00006
Figure 112014031648191-pat00006

우선 잡음 제거부(200)는 수학식 6과 같은 방식으로 MMSE를 최소화 시키는 필터 게인을 구한다. 필터 게인H는 H에 대하여 편미분을 수행함으로써 구할 수 있다. First, the noise eliminator 200 obtains a filter gain that minimizes MMSE in the same manner as in Equation (6). The filter gain H can be obtained by performing a partial differentiation for H.

구해진 필터 게인은 아래 수학식 7로 표현된다. The obtained filter gain is expressed by Equation (7) below.

[수학식 7]&Quot; (7) "

Figure 112014031648191-pat00007
Figure 112014031648191-pat00007

수학식7에서 e는 필터링 할 마이크를 고르는 벡터이고, Ryy, Rdd는 입력신호(음성)와 잡음신호의 자기상관 행렬(autocorrelation matrix)을 의미한다. 위 수학식7은 최종적인 MWF의 필터 게인을 의미한다. 그러나 일반적으로 잡음제거 알고리즘은 필터링 후에 필터링의 성능과 최종 신호의 왜곡 사이에 트레이드 오프 관계를 갖는다. 이러한 관계를 직접 조절할 수 있게 하는 방식이 SDW-MWF로 수학식 7을 풀어서 수식의 잡음 부분에 가중치를 주는 방식으로 조절이 가능하다. 이러한 필터 게인은 아래 수학식8과 같이 표현될 수 있다.In Equation (7), e denotes a vector for selecting a microphone to be filtered, and Ryy and Rdd denote an autocorrelation matrix of an input signal (speech) and a noise signal. Equation (7) represents the final filter gain of the MWF. However, in general, the noise cancellation algorithm has a trade-off relationship between the performance of the filter after filtering and the distortion of the final signal. A way to directly control this relationship is to adjust the noise weight of the equation by solving Equation 7 with SDW-MWF. This filter gain can be expressed as Equation (8) below.

[수학식 8]&Quot; (8) "

Figure 112014031648191-pat00008
Figure 112014031648191-pat00008

위 수학식8이 최종적인 필터 게인에 대한 수식이다. 수학식 8을 KLT 기반 필터를 통하여 잡음이 제거된 결과에 곱함으로써 최종적인 음성 신호를 추정할 수 있다.Equation (8) is a formula for the final filter gain. The final speech signal can be estimated by multiplying Equation (8) by the result of removing the noise through the KLT-based filter.

일 실시예에서 음성 검출부(300)는 필터링된 소리 신호에서 상기 음성을 검출할 수 있다. 구체적으로, 상기 음성 검출부(300)는 VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출할 수 있다. VAD는 주어진 구간에서 사람의 목소리를 검출하는 방법이다. VAD는 다양한 방법이 있지만 본 발명의 일 실시예에 따른 음성 검출부(300)는 하모닉(harmonic) 특성을 이용한 VAD방법과 밴드패스필터(Band-pass filter)를 이용한 VAD 방법을 조합한 방법을 사용할 수 있으나 이에 제한되는 것은 아니다.In one embodiment, the speech detector 300 may detect the speech in the filtered speech signal. Specifically, the voice detector 300 can detect a voice interval in the voice signal through voice activity detection (VAD). VAD is a method of detecting a person's voice in a given section. Although the VAD has various methods, the voice detector 300 according to an embodiment of the present invention can use a combination of a VAD method using a harmonic characteristic and a VAD method using a band-pass filter But are not limited thereto.

음성의 하모닉은 성대의 공명으로 인해 발생되는 특성으로, 음성의 기본주파수의 정수배의 주파수에서 에너지를 가지는 특성을 의미한다. 즉, 하모닉 특성을 사용하기 위하여 기본 주파수를 구해야 하는데, 기본 주파수는 잡음이 제거된 신호를 주파수 도메인에서 표현할 경우에 첫번째 주파수 빈의 피크(peak)점을 의미한다.A harmonic of a voice is a characteristic that is caused by the resonance of the vocal cords and means a characteristic having energy at an integer multiple of the fundamental frequency of the voice. That is, the fundamental frequency should be obtained in order to use the harmonic characteristic, and the fundamental frequency means a peak point of the first frequency bin when the noise canceled signal is represented in the frequency domain.

[수학식 9]&Quot; (9) "

Figure 112014031648191-pat00009
Figure 112014031648191-pat00009

수학식 9에서 N은 하모닉 주파수(harmonic frequency)의 개수를 의미한다. 그리고 F(n.l) 은 l번째 프레임의 n번째 하모닉 주파수에서의 크기(magnitude)값을 의미한다. 따라서 수학식 9는 주어진 ㅣ번째 프레임에서의 하모닉 성분의 평균값을 의미한다. N is the number of harmonic frequencies. And F (n.l) denotes a magnitude value at the n-th harmonic frequency of the l-th frame. Hence, Equation (9) means an average value of harmonic components in a given lth frame.

음성 검출부(300)는 실제로 목소리를 검출하기 위하여, 각 프레임에서 수학식 9를 통하여 얻어진 값들을 소리 신호의 초기 부분에 목소리가 없는 구간에서 얻어진 결과값을 이용하여 노멀라이즈(normalize)하여 값을 구한다. 그리고 각각의 프레임 구간에서 이렇게 구한 임계값(threshold) 이상의 값에 대해 음성으로 인식할 수 있다.In order to actually detect a voice, the voice detection unit 300 normalizes the values obtained through Equation (9) in each frame using a result obtained in an interval where there is no voice in the initial part of the voice signal to obtain a value . In addition, a value equal to or greater than the threshold obtained in each frame period can be recognized as speech.

또한 음성 검출부(300)는 밴드패스필터를 이용할 수 있다. 밴드패스필터는 일정한 지정된 범위의 주파수의 데이터만 가져오는 필터링 방법으로, 여기서는 VAD를 위하여 밴드패스필터를 통하여 목소리 대역의 주파수 구간만 필터링하여 에너지를 구한다. 그리고 이렇게 구한 에너지 값이 미리 정한 임계값을 넘어가면 음성으로 인식하게 된다. The voice detection unit 300 may use a band-pass filter. The bandpass filter is a filtering method that fetches only data of a certain specified range of frequencies. Here, for the VAD, only the frequency band of the voice band is filtered through the bandpass filter to obtain the energy. Then, when the energy value thus obtained exceeds a predetermined threshold value, it is recognized as a voice.

음성 검출부(300)는 위에서 언급한 두 가지 방법으로부터 얻은 값을 더하여 하나의 값으로 정한다. 그리고 이 값이 소정의 임계값을 넘어가면 목소리로 인식하는 방식으로 VAD를 수행할 수 있다.The voice detection unit 300 adds the values obtained from the above-mentioned two methods and sets them as one value. Then, when this value exceeds a predetermined threshold value, the VAD can be performed in a manner of recognizing it as a voice.

일 실시예에서, 음원 위치 추정부(400)는 검출된 음성을 분석하여 상기 음원의 위치를 추정할 수 있다. 일 예에서 음원 위치 추정부(400)는 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정할 수 있다.In one embodiment, the sound source location estimating unit 400 may estimate the location of the sound source by analyzing the detected sound. In one example, the sound source position estimation unit 400 may estimate the direction of the sound source using the time difference of the sound received by each microphone.

음원 위치 추정부(400)는 일 예에서 PDOA(Phase Difference of Arrival) 방식을 이용하여 음원의 위치를 추정할 수 있다. The sound source position estimating unit 400 may estimate the position of a sound source using a Phase Difference of Arrival (PDOA) method.

TDOA (Time delay of arrival)는 시간 도메인에서 다수의 마이크에 들어오는 음원의 시간 차이의 상관관계를 이용하여 방향을 검지하는 방법이다. 즉, TDOA 방법은 미리 만들어진 각각의 마이크 사이의 가상의 TDOA 맵과 실제 환경에서 각각의 마이크가 입력 받은 신호의 TDOA를 비교하여 실제 각도를 검출하는 방법이다. 그러나 이런 TDOA방법은 높은 주파수에서 공간 알리아이싱(spatial aliasing)이 일어나기 때문에 주파수 도메인에서 수행하는 PDOA방법으로 방향을 검지함으로써 이 문제를 해결할 수 있다.Time delay of arrival (TDOA) is a method of detecting a direction using a correlation of time differences of sound sources entering a plurality of microphones in the time domain. That is, the TDOA method is a method of detecting the actual angle by comparing the TDOA of the input signal of each microphone with the virtual TDOA map between each microphone created beforehand and the actual environment. However, this TDOA method can solve this problem by detecting the direction by the PDOA method performed in the frequency domain because spatial aliasing occurs at a high frequency.

도3은 본 발명의 일 실시예에 따른 PDOA 방식을 설명하기 위한 도이다.3 is a diagram illustrating a PDOA scheme according to an embodiment of the present invention.

도3을 참조하면, PDOA알고리즘을 수행하기 위하여, 실제 위상차이와 비교할 가상의 map을 만들어야 한다.Referring to FIG. 3, in order to perform the PDOA algorithm, a virtual map to be compared with an actual phase difference should be made.

[수학식 10]&Quot; (10) "

Figure 112014031648191-pat00010
Figure 112014031648191-pat00010

위의 식에서 SMi은 소리 신호에서 i번째 마이크까지의 거리를 의미하고, Vs는 음속 (340m/s)을 의미한다. 따라서 수학식 10은 θ각도에 위치한 소리 신호가 i번째 마이크와 j번째 마이크에 도달하는데 걸리는 시간의 차이를 나타내는 식이다. 그리고 위의 식을 주파수 도메인에서 나타낸다면 아래 수학식 11과 같이 표현할 수 있다.In the above equation, SM i denotes the distance from the sound signal to the i-th microphone, and Vs denotes the sound velocity (340 m / s). Therefore, Equation (10) is an expression indicating a difference in time required for the sound signal located at the angle? To reach the i-th microphone and the j-th microphone. If the above equation is expressed in the frequency domain, it can be expressed as Equation (11) below.

[수학식 11]&Quot; (11) "

Figure 112014031648191-pat00011
Figure 112014031648191-pat00011

여기서 f는 주파수 빈을 나타낸다. 그리고 위 수학식 11을 이용하여 4개의 마이크로부터 2개의 짝을 이루는 세트를 만들면 아래와 수학식 12와같이 표현이 가능하다.Where f represents a frequency bin. Using the above equation (11), a set of two mates from four micros can be expressed as shown in the following equation (12).

[수학식 12]&Quot; (12) "

Figure 112014031648191-pat00012
Figure 112014031648191-pat00012

위의 수학식 12는 총 6개로 구성된 가상의 PDOA map을 의미한다. 그리고 이렇게 만들어진 가상의 map과 비교하기 위한 실제 위상차이를 구하게 된다.The above equation (12) represents a virtual PDOA map composed of a total of six. Then, the actual phase difference for comparison with the virtual map is obtained.

[수학식 13]&Quot; (13) "

Figure 112014031648191-pat00013
Figure 112014031648191-pat00013

여기서 k는 주파수 도메인으로 변환과정에서의 프레임 숫자를 의미한다. 그래서 위의 식은 일정한 어떤 각도에서 입력 받은 i번째 마이크와 j번째 마이크를 통해 들어온 신호의 위상 차이를 나타낸다.Where k is the number of frames in the conversion process into the frequency domain. Therefore, the above expression shows the phase difference between the i-th microphone input from a certain angle and the signal input through the j-th microphone.

[수학식 14]&Quot; (14) "

Figure 112014031648191-pat00014
Figure 112014031648191-pat00014

수학식 14는 모든 주파수 빈과 마이크 짝에서 가상의 PDOA map과 실제 PDOA값 사이의 차이를 비교하는 코스트 함수(cost function)이다. 이 코스트 함수는 코사인을 이용한 값으로 큰 값이 나올수록 오차가 적은 것을 의미한다.Equation 14 is a cost function that compares the difference between the virtual PDOA map and the actual PDOA value at every frequency bin and microphone pair. This cost function is a value using cosine, meaning that a larger value means less error.

[수학식 15]&Quot; (15) "

Figure 112014031648191-pat00015
Figure 112014031648191-pat00015

따라서 음원 위치 추정부(400)는 모든 각도에서 위의 값을 만족하는 가장 만족하는 각도를 추정하여 최종적으로 추정한 각도로 표현하는 위와 같은 PDOA방식을 이용할 수 있다.Therefore, the sound source position estimating unit 400 can use the PDOA method of estimating the most satisfactory angle satisfying the above values at all angles and finally expressing the angle by the estimated angle.

일 실시예에서 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 추정된 음원의 방향으로 상기 음원 위치 추정 장치를 이동시키는 구동부(500)를 더 포함할 수 있다. 이에 따라서 음원의 방향으로 장치(1000)가 이동할 수 있다. 이를 위해 구동부(500)는 바퀴 및 모터부를 포함할 수도 있다.The apparatus 1000 for estimating a sound source position in a noisy environment in one embodiment may further include a driving unit 500 for moving the sound source position estimating apparatus in the direction of the estimated sound source. Accordingly, the apparatus 1000 can move in the direction of the sound source. To this end, the driving unit 500 may include a wheel and a motor unit.

도4는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법의 순서도이다. 도4를 참조하면 잡음 환경에서 음원 위치를 추정하는 방법은 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계(S10), 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계(S20), 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계(S30), 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계(S40) 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계(S50)를 포함한다.4 is a flowchart of a method of estimating a sound source position in a noisy environment according to an embodiment of the present invention. Referring to FIG. 4, a method for estimating a sound source position in a noisy environment includes receiving a sound including noise and a sound generated from a sound source through a microphone (S10), and receiving the sound through an microphone (S30) of filtering the sound signal to remove noise from the sound signal by the processor (S30), detecting (S40) the sound in the filtered sound signal by the processor, and And analyzing the detected voice by the processor to estimate the position of the sound source (S50).

일 예에서, 상술한 잡음은 청소기의 동작에 의해 발생된 소음을 포함할 수 있다.In one example, the noise described above may include noise generated by the operation of the vacuum cleaner.

또한, 소리 신호를 필터링하는 단계(S30)는, KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 단계를 포함할 수 있고, 다른 실시예에서 SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 필터링하는 단계를 더 포함할 수도 있다.The step S30 of filtering the sound signal may include filtering the sound signal using a Karhunen-Loeve Transform (KLT) -based filter. In another embodiment, the step S30 may include filtering a speech distortion weighted multi- The method may further include filtering the filtered sound signal using a channel-Wiener filter.

또한, 상기 음성을 검출하는 단계(S40)는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출할 수 있다. 그리고 상기 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계(S50)는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정할 수도 있다.In addition, the step of detecting the voice (S40) may detect a voice interval in the voice signal through VAD (Voice Activity Detection). The step of estimating the position of the sound source by analyzing the detected sound may estimate the direction of the sound source using the time difference of the sound received by each microphone.

도5 내지 도7은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 실험결과를 나타내는 도이다.5 to 7 are diagrams illustrating experimental results of an apparatus for estimating a sound source position in a noisy environment according to an embodiment of the present invention.

도5는 잡음 환경에서의 음원방향검지 기술의 성능을 확인하기 위하여, 실제로 로봇청소기가 구동하는 상황에서 음원 신호를 녹음하여 실험을 실시한 결과이다.FIG. 5 is a result of experimentally recording a sound source signal in a situation where the robot cleaner is actually driven, in order to confirm the performance of the sound source direction detection technique in a noisy environment.

실험 방법은 일정한 각도에서 5번 발화하는 형식으로, 0도에서 330도까지 30도 간격으로 총 12번을 수행하는 방식으로 수행되었다. 또한 실제 가정에서 적용될 것을 고려하여 4dB, 1dB, -3dB, -5dB, -7dB와 같은 다양한 SNR에서 실험을 수행하였다.The experiment was carried out with a total of 12 times from 0 degree to 330 degree at intervals of 30 degrees in the form of five fires in a certain angle. Also, considering that it is applied in actual household, experiments were performed at various SNRs such as 4dB, 1dB, -3dB, -5dB, and -7dB.

도5에서 (a), (b)는 시간도메인과 spectrogram에서 아무 처리하지 않은 입력신호이다. (c), (d)는 시간도메인과 spectrogram에서 KLT based filter를 통하여 잡음을 제거한 결과이다. (e), (f)는 시간도메인과 spectrogram에서 SDW-MWF를 수행한 결과이다. (g), (h)는 시간도메인과 spectrogram에서 KLT 기반 필터와 SDW-MWF를 통하여 잡음을 제거한 결과를 나타낸다.In FIG. 5, (a) and (b) are input signals which are not processed in the time domain and the spectrogram. (c) and (d) are the results of removing noise through KLT based filter in time domain and spectrogram. (e) and (f) show the results of SDW-MWF in time domain and spectrogram. (g) and (h) show the result of removing noise through KLT-based filter and SDW-MWF in time domain and spectrogram.

(a)와 (b)는 필터링을 수행하기 전의 잡음 환경으로 SNR은 -4.83dB이다. 그리고 이 값을 KLT 기반 필터를 통하여 필터링한 결과는 (c)와 (d)로서, SNR은 -0.37dB로 증가하였다. 또한, (e)와 (f)는 SDW-MWF를 수행한 결과로 SNR은 1.47dB이다. 마지막으로 (g)와 (h)는 본 발명에 따라 수행된 방법으로서, KLT 기반 필터와 SDW-MWF를 조합한 필터링의 결과로 SNR은 5.8dB로 가장 noise가 많이 제거되었다.(a) and (b) are noise environments before filtering, and the SNR is -4.83 dB. As a result of (c) and (d), the SNR was increased to -0.37 dB. In addition, (e) and (f) show that the SNR is 1.47 dB as a result of SDW-MWF. Finally, (g) and (h) are performed in accordance with the present invention. As a result of filtering using the KLT-based filter and the SDW-MWF, the SNR is 5.8 dB and the noise is removed most.

도6은 방향검지의 성능을 확인하기 위하여 필터링 방법에 따라 제안한 알고리즘과 이전에 사용된 알고리즘을 사용한 경우에 False Positive, False Negative, 성공률을 이용하여 비교하는 그래프이다.FIG. 6 is a graph comparing the proposed algorithm with the False Positive, False Negative, and the success rate in the case of using the algorithm previously used according to the filtering method to confirm the performance of the direction detection.

우선 여기서 False Positive는 발화하지 않은 구간에서 각도를 추정한 오류 상황을 의미한다. 그리고 False Negative는 발화가 존재하는 구간에서 각도를 추정하지 못하거나 실제 각도가 아닌 결과를 추정한 상황이다. 성공률은 정해진 각도에서 5번 발화를 수행했을 때 실제 각도와 +10도에서 -10도 사이의 결과를 추정한 횟수를 말한다. 즉, 성공률이 5인 경우는 5번의 발화를 모두 검지한 것을 의미하기 때문에 100%의 성공률을 의미한다. 여기서 성공률은 높을수록 좋고, False Positive와 False Negative는 낮을수록 좋다.First, False Positive means an error situation in which angles are estimated in a non-ignited section. False Negative is the situation where the angle is not estimated or the actual angle is not estimated in the section where the speech exists. The success rate is the number of times the actual angle and the estimated number of results between +10 degrees and -10 degrees when five utterances are performed at a given angle. That is, when the success rate is 5, it means that all the utterances are detected five times, which means that the success rate is 100%. The higher the success rate, the better. The lower the False Positive and the False Negative, the better.

도6 및 7은 SNR이 4dB, 1dB, -3dB, -5dB, -7dB에서 잡음을 제거하고 각각의 각도에서 방향검지를 수행한 결과들의 평균값을 나타낸다. 여기서, 도6은 방향검지 결과를 필터링 방법에 따라 크게 분류하여 나타낸 결과이고, 도7은 같은 data를 VAD방법에 따라 크게 분류하여 나타낸 결과이다.  FIGS. 6 and 7 show the average value of the results of removing noise at SNRs of 4dB, 1dB, -3dB, -5dB, and -7dB and performing direction detection at each angle. FIG. 6 shows results of sorting the direction detection results according to the filtering method, and FIG. 7 shows results obtained by classifying the same data according to the VAD method.

도6을 참조하면, 필터링을 수행하지 않은 베이스 라인(baseline)의 데이터 보다 단일 필터인 KLT 기반 필터와 SDW-MWF를 함께 사용한 본 발명에 따른 필터를 이용한 경우 성공률과 에러 발생률에서 더 좋은 결과를 보여주는 것을 확인 할 수 있다. Referring to FIG. 6, when a filter according to the present invention using a KLT-based filter and a SDW-MWF together, which is a single filter, is used rather than a baseline data that does not perform filtering, Can be confirmed.

그리고 2개의 잡음제거 필터 가운데 KLT 기반 필터가 성공률이나 에러발생률이 적은 것을 확인할 수 있다(실제로 SNR은 MWF가 좋지만 방향검지 성능은 KLT based filter가 더 좋은 것 확인가능하다). And we can confirm that the KLT based filter among the two noise canceling filters has a low success rate or error occurrence rate (actually SNR is good but MWF is good but direction detecting performance is better than KLT based filter).

실제로 잡음 제거 성능이 높아지면 signal의 왜곡이 심해져서 방향검지의 성능이 떨어질 가능성이 있지만, 여기서 사용된 2개의 필터는 그것을 고려하여 선택하였기 때문에 방향검지 성능이 떨어지지 않는다. In fact, if the noise cancellation performance increases, the distortion of the signal may become worse and the performance of the direction detection may be deteriorated. However, since the two filters used here are selected based on this, the direction detection performance is not deteriorated.

도7은 방향검지 결과를 VAD방법에 따라 크게 분류하여 나타낸 결과이다. 여기서 일반적인 VAD는 기본적인 에너지를 이용한 VAD 방법을 의미하고, 본 발명에서 제안하는 VAD는 상술한 바와 같이 하모닉 특성을 이용한 VAD방법과 밴드패스필터를 이용한 VAD방법을 조합한 방법을 의미한다. Fig. 7 shows the results of classifying the direction detection results largely according to the VAD method. Here, a general VAD means a VAD method using basic energy, and the VAD proposed in the present invention means a combination of a VAD method using a harmonic characteristic and a VAD method using a bandpass filter as described above.

도6 및 7을 통해 일반적인 VAD 방법보다 하모닉 특성을 이용한 VAD와 밴드패스필터를 이용한 VAD 방법이 성능이 좋은 것을 확인이 가능하다. 또한 하모닉 특성을 이용한 VAD방법이 밴드패스필터를 이용한 VAD방법보다 에러 발생률이나 성공률 부분에서 성능이 좋은 것을 확인하였다. 그리고 마지막으로 제안된 VAD방법은 하모닉 특성과 밴드패스필터를 모두 사용함으로써 두 가지 방법의 장점을 모두 사용하였기 때문에 더 목소리 검출 성공률이 높아질 수 있었고, 결과적으로 방향검지의 성능도 향상된 것을 확인이 가능하다6 and 7, it can be confirmed that the VAD method using the harmonic characteristic and the VAD method using the bandpass filter have better performance than the general VAD method. In addition, we confirmed that the VAD method using the harmonic characteristic has better performance than the VAD method using the bandpass filter in terms of the error rate and the success rate. Finally, since the proposed VAD method uses both of the advantages of both methods by using both the harmonic characteristic and the bandpass filter, the success rate of voice detection can be increased, and as a result, it is possible to confirm that the performance of direction detection improves

이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
While the invention has been shown and described with reference to certain embodiments thereof, it will be understood by those skilled in the art that various changes and modifications may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. However, it should be understood that such modifications are within the technical scope of the present invention. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.

100 : 마이크로폰
200 : 잡음 제거부
300 : 음성 검출부
400 : 음원 위치 추정부
500 : 구동부
1000 : 음원 위치를 추정하는 장치
100: microphone
200: Noise canceler
300:
400: sound source position estimating unit
500:
1000: a device for estimating a sound source position

Claims (12)

잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하여, 전기적인 소리 신호로 변환하는 복수의 마이크로폰;
상기 잡음을 제거하도록 상기 소리 신호를 필터링 하는 잡음 제거부;
필터링된 소리 신호에서 상기 음성을 검출하는 음성 검출부; 및
검출된 음성을 분석하여 상기 음원의 위치를 추정하는 음원 위치 추정부를 포함하되,
상기 잡음 제거부는,
쿤-터커 조건(Kuhn-Tuker condition)과 라그랑지안 멀티플라이어(Lagrangian multiplier)를 이용한 KLT(karhunen-Loeve Transform) 기반 필터 및 SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 순차적으로 적용하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
A plurality of microphones for receiving sounds including noises and sounds generated from the sound sources and converting the sounds into electric sound signals;
A noise eliminator for filtering the sound signal to remove the noise;
A voice detector for detecting the voice in a filtered sound signal; And
And a sound source position estimator for analyzing the detected sound to estimate a position of the sound source,
The noise-
A KLT (Karhunen-Loeve Transform) -based filter and a SDW-MWF (Speech Distortion Weighted Multi-channel Wiener Filter) are sequentially applied using a Kuhn-Tuker condition and a Lagrangian multiplier And estimating the position of the sound source in a noisy environment.
제1항에 있어서,
상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
The method according to claim 1,
Wherein the noise includes noise due to operation of the cleaner.
삭제delete 삭제delete 제1항에 있어서,
상기 음성 검출부는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고,
상기 음원 위치 추정부는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
The method according to claim 1,
The voice detection unit detects a voice interval in the voice signal through VAD (Voice Activity Detection)
Wherein the sound source position estimating unit estimates a direction of a sound source by using a time difference between sounds received by the respective microphones.
제1항에 있어서,
추정된 음원의 방향으로 상기 음원 위치 추정 장치를 이동시키는 구동부를 더 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
The method according to claim 1,
And a driving unit for moving the sound source position estimating apparatus in the direction of the estimated sound source.
마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계;
마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계;
프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계;
프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계; 및
프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함하되,
상기 소리 신호를 필터링 하는 단계는,
쿤-터커 조건(Kuhn-Tuker condition)과 라그랑지안 멀티플라이어(Lagrangian multiplier)를 이용한 KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 단계 및 SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 필터링하는 단계를 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 방법.
Receiving a sound including a noise and a sound generated from the sound source through a microphone;
Converting the received sound into an electrical sound signal through a microphone;
Filtering the sound signal by the processor to remove noise from the sound signal;
Detecting, by the processor, the speech in the filtered sound signal; And
Analyzing the detected speech by the processor to estimate the position of the sound source,
Wherein the step of filtering the sound signal comprises:
Filtering the sound signal using a Kuhn-Tuker condition and a Karhunen-Loeve Transform (KLT) -based filter using a Lagrangian multiplier, and filtering the sound signal using a Speech Distortion Weighted Multi-Channel (MWF) And filtering the filtered sound signal using a Wiener filter to estimate a sound source position in a noisy environment.
제7항에 있어서,
상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 방법.
8. The method of claim 7,
Wherein the noise comprises noise due to operation of the cleaner.
삭제delete 삭제delete 제7항에 있어서,
상기 음성을 검출하는 단계는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고,
상기 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 방법.
8. The method of claim 7,
The detecting of the voice may include detecting a voice interval in the voice signal through a voice activity detection (VAD)
Wherein the step of estimating the position of the sound source by analyzing the detected sound estimates the direction of the sound source using the time difference of the sound received by each microphone.
마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계; 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계; 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계; 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계; 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함하되, 상기 소리 신호를 필터링 하는 단계는,
쿤-터커 조건(Kuhn-Tuker condition)과 라그랑지안 멀티플라이어(Lagrangian multiplier)를 이용한 KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 단계 및 SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 필터링하는 단계를 포함하는 것을 특징으로 하는, 잡음 환경에서 음원 위치를 추정하는 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
Receiving a sound including a noise and a sound generated from the sound source through a microphone; Converting the received sound into an electrical sound signal through a microphone; Filtering the sound signal by the processor to remove noise from the sound signal; Detecting, by the processor, the speech in the filtered sound signal; And analyzing the detected speech by the processor to estimate the position of the sound source, wherein filtering the sound signal comprises:
Filtering the sound signal using a Kuhn-Tuker condition and a Karhunen-Loeve Transform (KLT) -based filter using a Lagrangian multiplier, and filtering the sound signal using a Speech Distortion Weighted Multi-Channel (MWF) A method for estimating a sound source location in a noisy environment, comprising the steps of: filtering the filtered sound signal using a Wiener Filter, the computer program product comprising: Recording medium.
KR1020140039227A 2014-04-02 2014-04-02 Apparatus for estimation of location of sound source in noise environment KR101580868B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140039227A KR101580868B1 (en) 2014-04-02 2014-04-02 Apparatus for estimation of location of sound source in noise environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140039227A KR101580868B1 (en) 2014-04-02 2014-04-02 Apparatus for estimation of location of sound source in noise environment

Publications (2)

Publication Number Publication Date
KR20150114714A KR20150114714A (en) 2015-10-13
KR101580868B1 true KR101580868B1 (en) 2015-12-30

Family

ID=54348139

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140039227A KR101580868B1 (en) 2014-04-02 2014-04-02 Apparatus for estimation of location of sound source in noise environment

Country Status (1)

Country Link
KR (1) KR101580868B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525865A (en) 2003-07-11 2007-09-06 コクレア リミテッド Method and apparatus for noise reduction

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060043952A (en) * 2004-11-11 2006-05-16 주식회사 대우일렉트로닉스 Car audio device integrated with automatic temperature control, hands-free and gps function
KR101253610B1 (en) * 2009-09-28 2013-04-11 한국전자통신연구원 Apparatus for localization using user speech and method thereof
KR101269189B1 (en) 2011-10-31 2013-05-30 한국과학기술연구원 Apparatus and method for estimating sound source
KR101934999B1 (en) * 2012-05-22 2019-01-03 삼성전자주식회사 Apparatus for removing noise and method for performing thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525865A (en) 2003-07-11 2007-09-06 コクレア リミテッド Method and apparatus for noise reduction

Also Published As

Publication number Publication date
KR20150114714A (en) 2015-10-13

Similar Documents

Publication Publication Date Title
US7295972B2 (en) Method and apparatus for blind source separation using two sensors
CN110085248B (en) Noise estimation at noise reduction and echo cancellation in personal communications
US11631421B2 (en) Apparatuses and methods for enhanced speech recognition in variable environments
CN106340292B (en) A kind of sound enhancement method based on continuing noise estimation
CN106875938B (en) Improved nonlinear self-adaptive voice endpoint detection method
US20120163622A1 (en) Noise detection and reduction in audio devices
KR101305373B1 (en) Interested audio source cancellation method and voice recognition method thereof
US10726857B2 (en) Signal processing for speech dereverberation
CN107316648A (en) A kind of sound enhancement method based on coloured noise
KR101737824B1 (en) Method and Apparatus for removing a noise signal from input signal in a noisy environment
US8891786B1 (en) Selective notch filtering for howling suppression
KR20120066134A (en) Apparatus for separating multi-channel sound source and method the same
Niwa et al. Post-filter design for speech enhancement in various noisy environments
WO2015129760A1 (en) Signal-processing device, method, and program
US8199928B2 (en) System for processing an acoustic input signal to provide an output signal with reduced noise
EP2774147B1 (en) Audio signal noise attenuation
US11217264B1 (en) Detection and removal of wind noise
KR20160116440A (en) SNR Extimation Apparatus and Method of Voice Recognition System
KR101580868B1 (en) Apparatus for estimation of location of sound source in noise environment
Koldovský et al. CHiME data separation based on target signal cancellation and noise masking
JP2017151216A (en) Sound source direction estimation device, sound source direction estimation method, and program
Wang et al. Discrete Fourier transform and discrete wavelet packet transform in speech denoising
Miyazaki et al. Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction
KR101124712B1 (en) A voice activity detection method based on non-negative matrix factorization
Salvati et al. Improvement of acoustic localization using a short time spectral attenuation with a novel suppression rule

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191203

Year of fee payment: 5