KR20200128497A - Method and apparatus for recognizing sound source, and computer readable storage medium - Google Patents

Method and apparatus for recognizing sound source, and computer readable storage medium Download PDF

Info

Publication number
KR20200128497A
KR20200128497A KR1020200144181A KR20200144181A KR20200128497A KR 20200128497 A KR20200128497 A KR 20200128497A KR 1020200144181 A KR1020200144181 A KR 1020200144181A KR 20200144181 A KR20200144181 A KR 20200144181A KR 20200128497 A KR20200128497 A KR 20200128497A
Authority
KR
South Korea
Prior art keywords
sound
sound source
acoustic
acoustic sensors
signals
Prior art date
Application number
KR1020200144181A
Other languages
Korean (ko)
Other versions
KR102226405B1 (en
Inventor
김영언
김민수
Original Assignee
김영언
김민수
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김영언, 김민수 filed Critical 김영언
Priority to KR1020200144181A priority Critical patent/KR102226405B1/en
Publication of KR20200128497A publication Critical patent/KR20200128497A/en
Application granted granted Critical
Publication of KR102226405B1 publication Critical patent/KR102226405B1/en

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0965Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages responding to signals from another vehicle, e.g. emergency vehicle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Otolaryngology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Emergency Management (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

The present invention relates to a sound source recognition method and to a device thereof. According to the sound source recognition method of the present invention, an acoustic signal is detected from four acoustic sensors arranged in a rectangular shape when viewed in a horizontal direction, an acoustic arrival time is measured, a plurality of interaural time differences (ITDs) are generated based on a difference in the acoustic arrival time between each of the acoustic sensors, and a position of the sound source is estimated based on the plurality of ITDs. In addition, the type of sound source is recognized by extracting and classifying features of the sound source using a summation signal from the four acoustic sensors.

Description

음원 인식 방법 및 장치, 그리고 컴퓨터 판독가능 저장매체 {METHOD AND APPARATUS FOR RECOGNIZING SOUND SOURCE, AND COMPUTER READABLE STORAGE MEDIUM}Sound source recognition method and device, and computer-readable storage medium {METHOD AND APPARATUS FOR RECOGNIZING SOUND SOURCE, AND COMPUTER READABLE STORAGE MEDIUM}

본 발명은 음원 인식 방법 및 장치에 관한 것으로, 더욱 상세하게는 자율주행차량, 로봇 등과 같은 무인 시스템에서 주변에서 발생하는 음향 신호의 음원을 인식하는 방법 및 장치에 관한 것이다. 특히 본 발명은 외부에서 발생하는 음향신호에 대한 음원의 음량 크기, 방향, 이동 방향, 거리를 포함한 위치 및 종류를 인식하여 주변 음향 상황 인식과 관련하여 무인 시스템에 필요한 청각 기능을 구현하기 위한 기술에 관한 것이다. The present invention relates to a method and apparatus for recognizing a sound source, and more particularly, to a method and apparatus for recognizing a sound source of an acoustic signal generated around an unmanned system such as an autonomous vehicle or a robot. In particular, the present invention is a technology for realizing an auditory function necessary for an unmanned system in connection with the recognition of the surrounding acoustic situation by recognizing the location and type including the volume level, direction, movement direction, and distance of a sound source for an external sound signal About.

종래에 운행 중인 차량 주변에서 경적 소리나 싸이렌 소리가 발생하는 경우 청각 능력이 좋지 않은 운전자를 보조하기 위해 음원을 인식하는 기술이 공지되어 있다. Conventionally, when a horn sound or a siren sound occurs around a vehicle in operation, a technology for recognizing a sound source to assist a driver with poor hearing ability is known.

이와 관련하여, 일본 공개특허공보 제2015-22453호(2015.2.2. 공개)는 차량 주변의 소리를 지향성을 가지고 분담해 집음하는 4개의 마이크로폰과 차량 주변의 영상을 촬영하는 전방위 카메라를 각각 차량 상부에 설치하고, 마이크로폰의 출력을 음향 신호 처리하여 사이렌으로 인식해 그 음원의 위치를 검출하는 사이렌 검출 수단 및 전방위 카메라의 출력을 이미지 신호 처리하여 소리를 반사 가능한 반사 물체를 인식해 그 위치를 검출하는 화상 처리 수단을 포함하여, 사이렌 검출 수단과 화상 처리 수단의 검출 결과를 토대로 긴급 차량의 위치를 결정하는 기술을 개시한다.In this regard, Japanese Laid-Open Patent Publication No. 2015-22453 (published on February 2, 2015) has four microphones for collecting and collecting sound around the vehicle with directivity, and an omnidirectional camera for photographing images around the vehicle, respectively, on the upper part of the vehicle. And a siren detection means that detects the position of the sound source by processing the output of the microphone as a siren by processing an acoustic signal, and a reflective object capable of reflecting sound by processing an image signal from the omnidirectional camera to detect its position. Disclosed is a technique for determining the position of an emergency vehicle based on detection results of the siren detection means and the image processing means, including image processing means.

또한 한국 공개특허공보 제10-2018-0045610호(2018.5.4. 공개)는 차량의 외부의 소리를 수집할 수 있는 3개의 다채널 마이크로 구현되는 음향 추적 장치를 개시한다. 3개의 마이크 중 2개는 차량의 중심을 기준으로 좌우로 일정 간격 이격되어 배치되고, 나머지 마이크는 상기 2개의 마이크 중 좌측 마이크의 상측으로 일정 간격 이격되어 배치된다. 이러한 배치 구조에 따라, 차량의 우측 상단에서 소리가 발생하면, 상단에 위치한 마이크가 감지한 소리의 크기는 하단의 좌측과 우측에 위치한 마이크가 감지한 소리의 평균 크기보다 크게 되고, 또한 하단의 우측에 위치한 마이크가 감지한 소리의 크기가 하단의 좌측에 위치한 마이크가 감지한 소리의 크기보다 크게 된다. 이러한 특성을 이용해 각 마이크로부터 수집된 소리의 크기를 이용해 차량의 중심을 기준으로 한 대략적인 방향을 추적할 수 있다.In addition, Korean Patent Laid-Open Publication No. 10-2018-0045610 (published on May 4, 2018) discloses an acoustic tracking device implemented with three multi-channel microphones capable of collecting external sounds of a vehicle. Two of the three microphones are arranged to be spaced apart from the left and right at a predetermined interval based on the center of the vehicle, and the other microphones are arranged to be spaced apart from the upper side of the left microphone of the two microphones. According to this arrangement, when sound is generated from the upper right of the vehicle, the volume of sound detected by the microphone located at the top becomes larger than the average volume of sound detected by the microphone located at the left and right of the bottom, and also The volume of sound detected by the microphone located at is larger than the volume detected by the microphone located at the bottom left. Using this characteristic, it is possible to track the approximate direction relative to the center of the vehicle using the loudness of the sound collected from each microphone.

또한, 각 마이크에 도달하는 소리의 도달 시간의 차이 값(신호 딜레이)을 이용하여, 소리의 발생 위치에 대한 각도를 계산할 수 있다. 이때, 음향 추적부(140)는 소리의 발생 위치에 대한 각도와 각 마이크에 대응하는 신호 딜레이가 맵핑되어 있는 테이블을 미리 저장하여 소리의 발생 위치에 대한 각도를 산출할 수 있다.In addition, using the difference value (signal delay) of the arrival time of the sound reaching each microphone, the angle with respect to the location of the sound may be calculated. In this case, the sound tracking unit 140 may calculate the angle with respect to the position of the sound by pre-stored a table in which the angle of the sound generation position and the signal delay corresponding to each microphone are mapped.

그러나 공지된 기술들은 상당한 위치 오차가 발생하고 사각영역(blind spot)이 존재하며, 상공에 존재하는 음원의 위치를 인식하기 어려워서 자율주행차량과 같은 무인 시스템에 적용하기에 여전히 부족함이 있다.However, known technologies are still insufficient to be applied to unmanned systems such as autonomous vehicles, because significant position errors occur, blind spots exist, and it is difficult to recognize the location of sound sources existing in the sky.

본 발명은 무인 시스템에 주변 음향상황 인식에 필요한 청각 기능을 구현하고자 한다. An object of the present invention is to implement an auditory function necessary for recognizing ambient acoustic conditions in an unmanned system.

본 발명은 상공을 포함한 전방향에서 발생하는 음향신호와 관련하여 사각영역 없이 음원의 음량 크기, 방향, 이동 방향, 거리를 포함한 위치 및 종류를 실시간으로 인식할 수 있는 기술을 제공할 것을 그 목적으로 한다. The present invention aims to provide a technology capable of real-time recognition of the location and type including the volume level, direction, movement direction, and distance of a sound source without a blind area in relation to an acoustic signal generated in all directions including the sky. do.

또한 본 발명은 장거리에 위치한 음원이라 할지라도 통상적으로 허용되는 오차범위 이내로 음원의 위치를 인식할 수 있는 기술을 제공할 것을 그 목적으로 한다.In addition, an object of the present invention is to provide a technology capable of recognizing the location of a sound source within a generally allowed error range, even for a sound source located at a long distance.

또한 본 발명은 각 음향센서와 관련된 채널 간의 출력 편차를 최소화하는 자동 트리밍으로 채널 간 오차를 최소화하는 초기화 방법을 포함하여 음원의 인식률을 향상시킬 것을 그 목적으로 한다. Another object of the present invention is to improve the recognition rate of a sound source by including an initialization method that minimizes an error between channels by automatic trimming that minimizes an output deviation between channels associated with each acoustic sensor.

또한 본 발명은 순수하게 차량 외부의 신호만을 검출하여 음원의 인식률을 향상시키고, 각 채널에 동등하게 존재하는 랜덤 노이즈와 같은 잡음 신호를 상쇄시켜 처리할 데이터량을 최소화시킬 것을 그 목적으로 한다. In addition, an object of the present invention is to improve the recognition rate of sound sources by purely detecting only signals outside the vehicle, and to minimize the amount of data to be processed by canceling noise signals such as random noise that are equally present in each channel.

본 발명에서 해결하고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에게 명확하게 이해될 수 있을 것이다.The technical problems to be solved in the present invention are not limited to the technical problems mentioned above, and other technical problems that are not mentioned are clearly understood by those of ordinary skill in the technical field to which the present invention belongs from the following description. Can be.

상기와 같은 기술적 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 음원 인식 방법은, 적어도 4개의 음향센서로부터 음향신호를 검출하는 단계 ― 음향센서들 중 4개의 음향센서는 수평 방향으로 보았을 때 상기 4개의 음향센서가 각각 특정 직사각형의 꼭지점을 이루도록 배치되고, 상기 4개의 음향센서에서 검출한 음향신호는 각각 A(s), B(s), C(s) 및 D(s)라고 지칭함 -; 각각의 음향신호 A(s), B(s), C(s) 및 D(s)로부터 음향 도착시간 차이를 연산하는 단계; 각각의 음향신호 A(s), B(s), C(s) 및 D(s) 간의 음향 도착시간 차이에 기초하여 복수 개의 ITD(interaural time difference)를 생성하는 단계; 및 상기 복수 개의 ITD 중 적어도 2개 이상의 ITD에 기초하여 음원의 위치를 추정하는 단계를 포함하고, 상기 음원의 위치를 추정하는 단계는: 상기 4개의 음향센서 중 제 1 쌍의 음향센서 간의 ITD에 기초하여 상기 제 1 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ1을 연산하는 단계; 상기 4개의 음향센서 중 제 2 쌍의 음향센서 간의 ITD에 기초하여 상기 제 2 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ2를 연산하는 단계 ― 상기 제 1 쌍은 상기 제 2 쌍과 하나의 음향센서만을 공유함 -; 상기 연산된 방위각 θ1 및 θ2와 상기 제 1 쌍의 음향센서 간의 간격 및 상기 제 2 쌍의 음향센서 간의 간격을 이용하여 상기 음원까지의 거리를 연산하는 단계를 포함할 수 있다. In order to solve the above technical problem, the method for recognizing a sound source according to an embodiment of the present invention includes the steps of detecting sound signals from at least four sound sensors ― Four of the sound sensors are viewed in a horizontal direction. Each of the four acoustic sensors is arranged to form a specific rectangular vertex, and the acoustic signals detected by the four acoustic sensors are referred to as A(s), B(s), C(s) and D(s), respectively -; Calculating a difference in sound arrival time from each of the sound signals A(s), B(s), C(s) and D(s); Generating a plurality of interaural time differences (ITDs) based on a difference in acoustic arrival time between each of the acoustic signals A(s), B(s), C(s) and D(s); And estimating the location of the sound source based on at least two or more ITDs among the plurality of ITDs, wherein the estimating the location of the sound source comprises: an ITD between the first pair of acoustic sensors among the four acoustic sensors. Calculating an azimuth angle θ 1 between a line connecting two acoustic sensors belonging to the first pair and the sound source based on the first pair; Calculating an azimuth angle θ 2 formed by the sound source and a line connecting the two acoustic sensors belonging to the second pair based on the ITD between the second pair of acoustic sensors among the four acoustic sensors-the first pair is the second Sharing only one acoustic sensor with a pair -; And calculating a distance to the sound source by using the calculated azimuth angles θ 1 and θ 2 and a distance between the first pair of acoustic sensors and the second pair of acoustic sensors.

또한 본 발명의 다른 실시예에 따른 음원 인식 방법은, 상기 4개의 음향센서에서 검출한 음향신호 A(s), B(s), C(s) 및 D(s)를 조합하여 다음과 같이 y(s), f(s), b(s), l(s). r(s), cl(s), cr(s), p(s) 또는 q(s) 신호 중 적어도 하나를 연산하는 단계 ― 여기서, y(s) = A(s) + B(s) + C(s) + D(s); f(s) = A(s) + B(s); b(s) = C(s) + D(s); l(s) = A(s) + D(s); r(s) = B(s) + C(s); cl(s) = A(s) + C(s); cr(s) = B(s) + D(s); p(s) = f(s) - b(s); q(s) = l(s) - r(s); 및 상기 연산된 y(s), f(s), b(s), l(s). r(s), cl(s), cr(s), p(s) 또는 q(s) 신호 중 적어도 하나에 기초하여 음원의 음량 크기, 방향 및 이동 방향 중 적어도 하나를 추정하는 단계를 더 포함할 수 있다.In addition, the sound source recognition method according to another embodiment of the present invention combines the sound signals A(s), B(s), C(s), and D(s) detected by the four acoustic sensors as follows. (s), f(s), b(s), l(s). Computing at least one of r(s), cl(s), cr(s), p(s), or q(s) signals-where y(s) = A(s) + B(s) + C(s) + D(s); f(s) = A(s) + B(s); b(s) = C(s) + D(s); l(s) = A(s) + D(s); r(s) = B(s) + C(s); cl(s) = A(s) + C(s); cr(s) = B(s) + D(s); p(s) = f(s)-b(s); q(s) = l(s)-r(s); And the calculated y(s), f(s), b(s), l(s). Estimating at least one of the volume level, direction, and movement direction of the sound source based on at least one of r(s), cl(s), cr(s), p(s), or q(s) signals can do.

또한 본 발명의 또 다른 실시예에 따른 음원 인식 방법은, 4개 음향신호의 합산 신호인 y(s) 신호를 사용하여 음원의 특징을 추출하고 추출된 특징을 분류하여 음원의 종류를 판별하는 단계를 더 포함할 수 있다.In addition, a sound source recognition method according to another embodiment of the present invention includes the steps of extracting features of a sound source using y(s) signal, which is a sum signal of four sound signals, and classifying the extracted features to determine the type of sound source. It may further include.

본 발명의 또 다른 실시예에 따른 음원 인식 방법은, 상기 음원까지의 거리를 연산하는 단계는 상기 음원까지의 거리 연산에서 발생하는 오차를 보정하기 위하여 오차보정 함수를 도입하여 오차를 보정하는 단계를 더 포함할 수 있다.In the sound source recognition method according to another embodiment of the present invention, the calculating of the distance to the sound source includes the step of correcting the error by introducing an error correction function in order to correct an error occurring in the calculation of the distance to the sound source. It may contain more.

본 발명의 또 다른 실시예에 따른 음원 인식 방법은, 상기 음원 인식 방법은, 초기화를 위하여, 상기 음향신호를 검출하는 단계 이전에, 입력신호가 없는 상태에서 상기 4개의 음향센서로부터 동일한 출력신호가 나오도록 트리밍하는 단계를 더 포함할 수 있다.In the sound source recognition method according to another embodiment of the present invention, the sound source recognition method includes, for initialization, before the step of detecting the sound signal, the same output signal from the four sound sensors in a state in which there is no input signal. It may further include the step of trimming to come out.

본 발명의 또 다른 실시예에 따르면, 상기 음향신호를 검출하는 단계는: 상기 4개의 음향센서에 입력된 신호로부터 음성 신호를 소거하는 단계를 포함할 수 있다.According to another embodiment of the present invention, detecting the sound signal may include: erasing the sound signal from the signals input to the four sound sensors.

본 발명의 또 다른 실시예에 따르면, 상기 음향신호를 검출하는 단계는: 상기 음성 신호가 소거된 4개의 음향센서의 신호로부터 상기 4개의 음향센서 공통의 잡음신호를 제거하여 상기 음향신호를 출력하는 단계를 포함할 수 있다.According to another embodiment of the present invention, the detecting of the sound signal comprises: outputting the sound signal by removing noise signals common to the four sound sensors from signals of the four sound sensors from which the sound signal has been erased. It may include steps.

본 발명의 또 다른 실시예에 따르면, 상기 4개의 음향센서 중 적어도 하나는 나머지 음향센서들과 다른 고도에 배치될 수 있다.According to another embodiment of the present invention, at least one of the four acoustic sensors may be disposed at a different altitude from the other acoustic sensors.

본 발명의 일 실시예에 따른 음원 인식 장치는: 음향신호를 검출하는 적어도 4개의 음향센서 ― 음향센서들 중 4개의 음향센서는 수평 방향으로 보았을 때 상기 4개의 음향센서가 각각 특정 직사각형의 꼭지점을 이루도록 배치되고, 상기 4개의 음향센서에서 검출한 음향신호는 각각 A(s), B(s), C(s) 및 D(s)라고 지칭함 -; 각각의 음향신호 A(s), B(s), C(s) 및 D(s)로부터 음향 도착시간 차이를 측정하는 음향 도착시간 측정부; 각각의 음향신호 A(s), B(s), C(s) 및 D(s) 간의 음향 도착시간 차이에 기초하여 복수 개의 ITD(interaural time difference)를 생성하는 ITD 생성부; 및 상기 복수 개의 ITD 중 적어도 2개 이상의 ITD에 기초하여 음원의 위치를 추정하는 음원 위치 추정부를 포함하고, 상기 음원 위치 추정부는: 상기 4개의 음향센서 중 제 1 쌍의 음향센서 간의 ITD에 기초하여 상기 제 1 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ1을 연산하고; 상기 4개의 음향센서 중 제 2 쌍의 음향센서 간의 ITD에 기초하여 상기 제 2 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ2를 연산하며 ― 상기 제 1 쌍은 상기 제 2 쌍과 하나의 음향센서만을 공유함 -; 상기 연산된 방위각 θ1 및 θ2와 상기 제 1 쌍의 음향센서 간의 간격 및 상기 제 2 쌍의 음향센서 간의 간격을 이용하여 상기 음원까지의 거리를 연산할 수 있다.A sound source recognition apparatus according to an embodiment of the present invention includes: at least four acoustic sensors for detecting an acoustic signal.- Four of the acoustic sensors include the four acoustic sensors each having a specific rectangular vertex when viewed in a horizontal direction. And the acoustic signals detected by the four acoustic sensors are referred to as A(s), B(s), C(s) and D(s), respectively -; A sound arrival time measurement unit for measuring a difference in sound arrival time from each of the acoustic signals A(s), B(s), C(s) and D(s); An ITD generator for generating a plurality of interaural time differences (ITDs) based on a difference in sound arrival time between the respective sound signals A(s), B(s), C(s) and D(s); And a sound source position estimating unit for estimating a position of a sound source based on at least two or more ITDs among the plurality of ITDs, wherein the sound source position estimating unit: based on the ITD between the first pair of acoustic sensors among the four Calculating an azimuth angle θ 1 between a line connecting two acoustic sensors belonging to the first pair and the sound source; The azimuth angle θ 2 formed by the sound source and the line connecting the two acoustic sensors belonging to the second pair is calculated based on the ITD between the second pair of acoustic sensors among the four acoustic sensors, and the first pair is the second pair And share only one acoustic sensor -; The distance to the sound source may be calculated using the calculated azimuth angles θ 1 and θ 2 and the distance between the first pair of acoustic sensors and the second pair of acoustic sensors.

본 발명의 일 실시예에 따른 컴퓨터 판독가능 저장매체는 상술한 음원 인식 방법을 수행하는 프로그램을 저장할 수 있다. A computer-readable storage medium according to an embodiment of the present invention may store a program for performing the above-described sound source recognition method.

상기와 같이 구성되는 본 발명은 특정 직사각형 꼭지점에 배치된 4개의 음향센서들을 이용하여 이들 간의 복수 개의 ITD를 생성하고 이 중 최소 2개의 ITD를 선택하여 사각영역 없이 음원을 인식할 수 있다. The present invention configured as described above generates a plurality of ITDs between them using four acoustic sensors arranged at a specific rectangular vertex and selects at least two ITDs among them to recognize a sound source without a rectangular area.

4개의 음향센서 중 적어도 하나를 나머지 음향센서들과 다른 고도에 배치함으로써 음원이 상공에 존재하더라도 음원의 위치를 인식할 수 있다. By arranging at least one of the four acoustic sensors at a different altitude from the other acoustic sensors, the location of the sound source can be recognized even if the sound source exists in the sky.

또한 본 발명은 차량 전방 헤드에 의한 가림 현상(shadow effect)을 고려하여 모델링된 ITD 식과 시뮬레이션 등에 의한 오차 정정 함수를 이용하여 장거리에 위치한 음원이라 할지라도 최소한의 거리오차로 음원의 위치를 인식할 수 있다.In addition, the present invention uses the ITD equation modeled in consideration of the shadow effect caused by the front head of the vehicle and the error correction function by simulation, so that even a sound source located at a long distance can recognize the location of the sound source with a minimum distance error. have.

또한 본 발명은 순수하게 차량 외부의 신호만을 검출하여 음원의 인식률을 향상시키고, 랜덤 노이즈를 상쇄시켜 처리할 데이터량을 최소화시킬 수 있다.In addition, the present invention can improve the recognition rate of a sound source by purely detecting only signals outside the vehicle, and minimize the amount of data to be processed by canceling random noise.

도 1은 본 발명의 일 실시예에 따라 차량에 설치된 음향센서의 배치를 평면도로 도시한다.
도 2는 본 발명의 일 실시예에 따른 음원 인식 방법을 나타낸 흐름도이다.
도 3a 및 도 3b는 본 발명의 일 실시예에 따른 음원의 방위각을 예시하는 도면이다.
도 4는 본 발명의 일 실시예에 따라 음원과 음향센서 간의 거리를 구하는 방식을 예시하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 음원 인식 장치의 개략도이다.
1 is a plan view showing an arrangement of an acoustic sensor installed in a vehicle according to an embodiment of the present invention.
2 is a flowchart illustrating a method of recognizing a sound source according to an embodiment of the present invention.
3A and 3B are diagrams illustrating an azimuth angle of a sound source according to an embodiment of the present invention.
4 is a diagram illustrating a method of obtaining a distance between a sound source and an acoustic sensor according to an embodiment of the present invention.
5 is a schematic diagram of a sound source recognition apparatus according to an embodiment of the present invention.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람이 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 본 발명의 요지와 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 부가한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art may easily implement the present invention. The present invention may be implemented in various different forms, and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the gist of the present invention are omitted in order to clearly describe the present invention, and the same reference numerals are added to the same or similar components throughout the specification.

이하에서 본 발명은 자율주행차량에서의 음원 인식 방법에 기초하여 설명되나, 이에 제한되는 것은 아니고 본 발명에 따른 음원 인식 방법은 로봇, AI 스피커 등 음원 인식이 필요한 임의의 장치 또는 시스템에 적용될 수 있다. Hereinafter, the present invention will be described based on a method for recognizing a sound source in an autonomous vehicle, but is not limited thereto, and the method for recognizing a sound source according to the present invention may be applied to any device or system requiring sound source recognition, such as a robot or an AI speaker. .

도 1은 본 발명의 일 실시예에 따라 차량에 설치된 음향센서의 배치를 평면도로 보여준다. 차량은 적어도 4개의 음향센서를 포함하는데, 음향센서들 중 4개의 음향센서는 수평 방향으로 보았을 때 상기 4개의 음향센서가 각각 특정 직사각형의 꼭지점을 이루도록 배치된다. 예를 들어, 4개의 음향센서, 예컨대, 마이크로폰은 차량의 전방좌측(A), 전방우측(B), 후방우측(C) 및 후방좌측(D)에 배치될 수 있다. 따라서 수평 방향으로 보았을 때, 즉, 차량의 상부에서 평면도로 보았을 때 상기 4개의 음향센서는 각각 특정 직사각형의 꼭지점을 이루도록 서로 대각선으로 배치된다. 상기 특정 직사각형은 차량의 전체적인 윤곽과 일치할 수도 있지만, 일치하지 않을 수도 있다. 즉, 4개의 마이크로폰은 수평 방향으로 보았을 때 특정 직사각형의 전방좌측(A), 전방우측(B), 후방우측(C) 및 후방좌측(D)의 꼭지점을 이루는 한, 차량의 윤곽 안쪽에 배치될 수도 있고, 차량의 앞쪽 영역, 중간 영역 또는 뒷쪽 영역에서 직사각형 또는 정사각형 형태를 띠도록 배치될 수도 있다. 1 is a plan view showing an arrangement of an acoustic sensor installed in a vehicle according to an embodiment of the present invention. The vehicle includes at least four acoustic sensors, of which four acoustic sensors are arranged so that the four acoustic sensors form a vertex of a specific rectangle when viewed in a horizontal direction. For example, four acoustic sensors, such as a microphone, may be disposed on the front left (A), front right (B), rear right (C) and rear left (D) of the vehicle. Therefore, when viewed in a horizontal direction, that is, when viewed in a plan view from the top of the vehicle, the four acoustic sensors are disposed diagonally to each other to form a vertex of a specific rectangle. The specific rectangle may or may not coincide with the overall contour of the vehicle. That is, as long as the four microphones form the vertices of the front left (A), front right (B), rear right (C) and rear left (D) of a specific rectangle when viewed in the horizontal direction, they will be placed inside the contour of the vehicle. Alternatively, it may be arranged to have a rectangular or square shape in the front area, the middle area, or the rear area of the vehicle.

4개의 음향센서는 동일 고도에 배치될 수도 있으나, 사각영역을 방지하기 위하여 4개의 음향센서 중 적어도 하나는 나머지 음향센서들과 다른 고도에 배치될 수 있다. 4개의 음향센서 중 적어도 하나를 다른 고도에 배치함으로써 어느 방향에서도 2개 이상의 ITD를 생성하는 것이 가능하다. 예컨대, 4개의 음향센서 중 하나만이 나머지 음향센서들과 다른 고도에 배치될 수도 있고, 2개의 음향센서가 나머지 음향센서들과 다른 고도에 배치될 수도 있고, 4개의 음향센서 모두가 서로 다른 고도에 배치될 수도 있다. 또한 차량 내부와 외부의 불필요한 신호를 억제하기 위하여 각 음향센서의 주변에 차폐 블록(shield block)을 설치할 수도 있다. 예컨대, 이러한 차폐 블록에 의해 주변에 바람소리와 같은 불필요한 잡음이 차폐될 수 있다.The four acoustic sensors may be disposed at the same altitude, but in order to prevent a blind area, at least one of the four acoustic sensors may be disposed at a different altitude from the other acoustic sensors. By placing at least one of the four acoustic sensors at different elevations, it is possible to create two or more ITDs from any direction. For example, only one of the four acoustic sensors may be placed at a different altitude from the other acoustic sensors, two acoustic sensors may be placed at a different altitude from the other acoustic sensors, and all four acoustic sensors may be placed at different altitudes. It can also be placed. In addition, a shield block may be installed around each acoustic sensor to suppress unnecessary signals inside and outside the vehicle. For example, unnecessary noise such as wind noise may be shielded around the shielding block.

상기 4개의 음향센서에서 검출한 음향신호는 이하에서 각각 A(s), B(s), C(s) 및 D(s)라고 지칭한다.The acoustic signals detected by the four acoustic sensors are hereinafter referred to as A(s), B(s), C(s), and D(s), respectively.

도 2는 본 발명의 일 실시예에 따른 음원 인식 방법을 나타낸 흐름도이다.2 is a flowchart illustrating a method of recognizing a sound source according to an embodiment of the present invention.

도 1에 도시된 바와 같이 설치된 음향센서는 음향신호를 검출하여 실시간으로 출력한다. 통상적으로 음향센서는 압전 변환기의 성능, 내부 증폭기의 특성, 수동소자의 편차 등에 의해 출력에 차이가 생기므로 초기화를 위한 자동 트리밍이 필요할 수 있다. 자동 트리밍 단계(S100)에서는 입력신호가 거의 없는 최소입력 상태에서 가장 출력이 작은 음향센서의 출력에 맞게 나머지 음향센서의 출력 레벨을 트리밍(trimming)하여 4개의 음향센서로부터 동일한 출력이 나오도록 한다. 이에 의해 각 채널별 편차를 최소화시키는 것이 가능하다. 이러한 자동 트리밍 단계는 초기화에 적용되며, 건너뛸 수도 있다(by-pass). An acoustic sensor installed as shown in FIG. 1 detects an acoustic signal and outputs it in real time. In general, the acoustic sensor has a difference in output due to the piezoelectric transducer performance, the characteristics of the internal amplifier, and the deviation of the passive element, so automatic trimming for initialization may be required. In the automatic trimming step (S100), the output level of the remaining acoustic sensors is trimmed to match the output of the acoustic sensor having the smallest output in the minimum input state where there is almost no input signal, so that the same output is output from the four acoustic sensors. Accordingly, it is possible to minimize the deviation for each channel. This automatic trimming step applies to initialization and can be bypassed.

자동 트리밍에 의한 초기화를 거친 후, 음원 인식 방법은 4개의 음향센서에 의해 음향신호 A(s), B(s), C(s) 및 D(s)를 검출하는 단계(S200)로 시작한다. After initializing by automatic trimming, the sound source recognition method starts with a step (S200) of detecting sound signals A(s), B(s), C(s) and D(s) by four sound sensors. .

자율주행차량에서 보통 관심이 있는 음원은 구급차, 소방차, 교통통제용 경찰차의 싸이렌 소리, 상공을 비행하는 드론 택시나 경찰용 드론과 같은 드론 소리, 자율주행차량의 주위를 주행하는 오토바이 소리와 같이 차량의 외부에서 발생하는 음향이다. 따라서 음원 인식률를 향상시키기 위한 목적으로 음향신호 검출 단계(S200)는 음향센서에 입력된 신호로부터 사람의 목소리나 차량 내부의 음악과 같은 음성 신호를 소거하는 단계(S210)를 포함할 수 있다. Sound sources of interest in autonomous vehicles are vehicles such as ambulances, fire engines, sirens from traffic control police cars, drones flying over the sky, drones like drone taxis or police drones, and motorcycles driving around autonomous vehicles. This is the sound that occurs outside of Therefore, for the purpose of improving the sound source recognition rate, the sound signal detection step S200 may include a step S210 of erasing a voice signal such as a human voice or music inside a vehicle from a signal input to the sound sensor.

또한 음향신호 검출 단계(S200)는 상기 음성 신호가 소거된 4개의 음향센서의 신호에서 각 채널에 공통으로 포함된 랜덤 노이즈와 같은 잡음 신호를 상호 상쇄에 의하여 제거하는 단계(S220)를 더 포함할 수 있다. 상호상쇄에 의한 제거 단계(S220)에서 잡음 신호를 억제하기 위한 일 방법으로서, 검출하고자 하는 신호만을 통과할 수 있는 대역필터에 상기 검출하고자 하는 신호에 대응하는 기준 신호를 부가하여 필터를 구성할 수도 있다. 예컨대, 차량 주행 시 발생하는 타이어 마찰 소리와 같은 랜덤 노이즈는 유의미한 신호가 아니므로 사전에 필터링하고 감쇄시켜 출력하는 것이 바람직하다. 이 때 이동 평균에 의한 파형의 평활화 방법 등을 이용하여 잡음을 억제할 수 있다. 이와 같이 잡음 신호를 상호상쇄시키면 음원 인식 방법을 수행하는 장치나 시스템에서 처리할 데이터량이 감소하게 된다. 또한 잡음 신호 제거 단계(S220)에 의해 가중치가 높은 신호만을 검출하여 음원 인식률이 향상될 수 있다.In addition, the sound signal detection step (S200) may further include a step (S220) of removing noise signals such as random noise commonly included in each channel from the signals of the four acoustic sensors from which the voice signals are cancelled. I can. As a method for suppressing a noise signal in the removing step by mutual cancellation (S220), a filter may be configured by adding a reference signal corresponding to the signal to be detected to a band filter capable of passing only the signal to be detected. have. For example, since random noise such as tire friction noise generated when driving a vehicle is not a significant signal, it is preferable to filter and attenuate in advance to output. In this case, noise can be suppressed by using a method of smoothing a waveform by moving average. When the noise signals are mutually canceled in this way, the amount of data to be processed in an apparatus or system that performs a sound source recognition method decreases. In addition, the sound source recognition rate may be improved by detecting only a signal having a high weight by the noise signal removing step S220.

그 다음 각각의 음향신호 A(s), B(s), C(s) 및 D(s)로부터 음향 도착시간 차이, 도착강도 및 주파수 중 적어도 하나를 측정하는 단계(S300)가 수행된다. 이러한 음향 도착시간 차이 및 도착강도는 이후 ITD(interaural time difference) 또는 ILD(interaural level difference) 생성에 의한 음원 위치 인식 단계(S500)에 이용된다. 주파수는 ITD 또는 ILD의 가중치를 계산하는데 이용될 수 있다. Then, a step (S300) of measuring at least one of a difference in time of arrival, intensity of arrival, and frequency from each of the acoustic signals A(s), B(s), C(s), and D(s) is performed. The sound arrival time difference and the arrival intensity are then used in the sound source location recognition step S500 by generating an interaural time difference (ITD) or an interaural level difference (ILD). The frequency can be used to calculate the weight of the ITD or ILD.

그 다음 음원의 음량 크기, 방향 및 이동 방향 인식 단계(S400), 음원 위치 인식 단계(S500) 및 음원 종류 인식 단계(S600)가 동시에 병렬적으로 수행되거나, 순차적으로 수행될 수 있다. 음원의 음량 크기, 방향 및 이동 방향 인식 단계(S400), 음원 위치 인식 단계(S500) 및 음원 종류 인식 단계(S600)가 동시에 병렬적으로 수행되는 경우에는, 인식 시간을 단축하는 효과가 있다. Then, the step of recognizing the volume level, direction, and movement direction of the sound source (S400), the step of recognizing the position of the sound source (S500), and the step of recognizing the sound source type (S600) may be performed simultaneously or sequentially. When the volume level, direction, and movement direction recognition step (S400), sound source location recognition step (S500), and sound source type recognition step (S600) of a sound source are simultaneously performed in parallel, there is an effect of shortening the recognition time.

먼저 음원의 음량 크기, 방향 및 이동 방향 인식 단계(S400)를 살펴보면, 상기 4개의 음향센서에서 검출한 음향신호 A(s), B(s), C(s) 및 D(s)를 조합하여 y(s), f(s), b(s), l(s). r(s), cl(s), cr(s), p(s) 및 q(s) 신호를 연산하는 단계(S410)가 수행된다.First, looking at the step (S400) of recognizing the volume level, direction and movement direction of a sound source, the sound signals A(s), B(s), C(s), and D(s) detected by the four sound sensors are combined. y(s), f(s), b(s), l(s). A step (S410) of calculating the r(s), cl(s), cr(s), p(s) and q(s) signals is performed.

y(s)는 4개 음향신호의 합산 신호로서 다음과 같이 계산된다.y(s) is a sum signal of four acoustic signals and is calculated as follows.

y(s) = A(s) + B(s) + C(s) + D(s) …[식 1]y(s) = A(s) + B(s) + C(s) + D(s) … [Equation 1]

f(s)는 전방 신호(front signal)을 나타내고, b(s)는 후방 신호(back signal)을 나타내며 각각 다음과 같이 계산된다.f(s) represents the front signal, and b(s) represents the back signal, and is calculated as follows.

f(s) = A(s) + B(s) …[식 2]f(s) = A(s) + B(s) … [Equation 2]

b(s) = C(s) + D(s) …[식 3]b(s) = C(s) + D(s) … [Equation 3]

l(s)는 좌측 신호(left signal)을 나타내고, r(s)는 우측 신호(right signal)을 나타내며 각각 다음과 같이 계산된다.l(s) represents the left signal, and r(s) represents the right signal, and is calculated as follows.

l(s) = A(s) + D(s) …[식 4]l(s) = A(s) + D(s) … [Equation 4]

r(s) = B(s) + C(s) …[식 5]r(s) = B(s) + C(s) … [Equation 5]

cl(s)는 좌측 교차 신호(left cross signal)를 나타내고, cr(s)는 우측 교차 신호(right cross signal)을 나타내며 각각 다음과 같이 계산된다.cl(s) denotes a left cross signal, and cr(s) denotes a right cross signal, respectively, and are calculated as follows.

cl(s) = A(s) + C(s) …[식 6]cl(s) = A(s) + C(s) … [Equation 6]

cr(s) = B(s) + D(s) …[식 7]cr(s) = B(s) + D(s) … [Equation 7]

p(s)는 전방과 후방 간의 신호 차를 나타내고, q(s)는 좌측과 우측 간의 신호 차를 나타내며 각각 다음과 같이 계산된다.p(s) represents the signal difference between the front and the rear, and q(s) represents the signal difference between the left and the right, and is calculated as follows.

p(s) = f(s) - b(s) …[식 8]p(s) = f(s)-b(s) … [Equation 8]

q(s) = l(s) - r(s) …[식 9]q(s) = l(s)-r(s) … [Equation 9]

그 다음, y(s), f(s), b(s), l(s). r(s), cl(s), cr(s), p(s), q(s) 신호에 기초하여 음원의 음량 크기, 방향 및 이동 방향을 추정하는 단계(S420)가 수행된다. 즉, 각 신호를 비교분석하여 음원이 발생한 방향이 전후좌우 중 어느 방향인지를 인식할 수 있다. 예컨대, f(s)가 b(s)보다 크면 전방에, l(s)가 r(s)보다 크면 좌측에 음원이 있다고 인식할 수 있다. 또한, 각 신호를 비교분석하여 각 채널 별 음원의 음량 크기 및 합산된 음원의 음량 크기를 인식할 수 있다. 여기서, y(s) 신호의 값이 음량의 크기로 간주된다.Then, y(s), f(s), b(s), l(s). A step (S420) of estimating the volume level, direction, and direction of movement of the sound source based on the r(s), cl(s), cr(s), p(s), and q(s) signals is performed. That is, by comparing and analyzing each signal, it is possible to recognize which direction the sound source is generated is in the front, rear, left and right directions. For example, if f(s) is greater than b(s), it can be recognized that the sound source is in the front, and if l(s) is greater than r(s), the sound source is on the left. In addition, by comparing and analyzing each signal, the volume level of the sound source for each channel and the volume level of the summed sound source may be recognized. Here, the value of the y(s) signal is regarded as the loudness.

또한 특정 시점에서의 y(s) 신호 값과 후속 시점에서의 y(s) 신호 값을 비교하여 값이 커졌으면 음원의 이동 방향은 자율주행차량에 가까워지는 것이고, 값이 작아졌으면 음원의 이동 방향은 자율주행차량과 멀어짐을 알 수 있다. 또한, [식 2] 내지 [식 9]에 의한 f(s), b(s), l(s). r(s), cl(s), cr(s), p(s) 및 q(s) 신호를 비교 연산함으로써 음원이 어느 방향에서 발행하였는지 여부뿐만, 아니라 어느 방향으로 이동하는지도 알 수 있다. 예컨대, f(s) 신호가 b(s)보다 작다가 점점 같아지고, 나아가 더 커지면 음원이 후방에서 전방으로 이동함을 알 수 있다. In addition, when the value of the y(s) signal at a specific point in time is compared with the value of the y(s) signal at a subsequent point in time, if the value increases, the direction of movement of the sound source is closer to the autonomous vehicle, and if the value decreases, the direction of movement of the source It can be seen that it is farther away from autonomous vehicles. In addition, f(s), b(s), and l(s) by [Equation 2] to [Equation 9]. By comparing and calculating the r(s), cl(s), cr(s), p(s) and q(s) signals, it is possible to know not only in which direction the sound source was issued, but also in which direction it moves. For example, when the f(s) signal is smaller than b(s) and then gradually becomes the same, and further becomes larger, it can be seen that the sound source moves from the rear to the front.

본 발명의 일 실시예에 따르면, 4개 음향신호의 합산 신호인 y(s) 신호에 의해 방향에 관계없이 음원의 음량 크기를 인식하는 것이 가능하다. According to an embodiment of the present invention, it is possible to recognize the volume level of the sound source regardless of the direction by the y(s) signal, which is a sum signal of four sound signals.

이러한 음원의 음량 크기, 방향 및 이동 방향은 음원인식 장치의 시스템 호스트인 호스트로 출력된다(S430). The volume level, direction, and movement direction of the sound source are output to the host that is the system host of the sound source recognition device (S430).

이제 음원의 위치를 인식하는 단계(S500)를 설명한다. 여기서, 음원의 위치란, 음원의 방위각과 거리에 기초한 음원의 위치를 의미한다. Now, the step of recognizing the location of the sound source (S500) will be described. Here, the position of the sound source means the position of the sound source based on the azimuth and distance of the sound source.

음원의 위치를 인식하기 위하여 먼저, 전방좌측(A) 음향센서와 전방우측(B) 음향센서 간, 전방우측(B) 음향센서와 후방우측(C) 음향센서 간, 후방우측(C) 음향센서와 후방좌측(D) 음향센서 간, 후방좌측(D) 음향센서와 전방좌측(A) 음향센서 간, 전방좌측(A) 음향센서와 후방우측(C) 음향센서 간, 그리고 전방우측(B) 음향센서와 후방좌측(D) 음향센서 간의 음향 도착시간 차이 또는 음향 도착강도 차이에 기초하여 복수 개의(예컨대, 6개의) ITD 또는 ILD를 생성하는 단계(S510)가 수행된다. To recognize the location of the sound source, first, between the front left (A) acoustic sensor and the front right (B) acoustic sensor, between the front right (B) acoustic sensor and the rear right (C) acoustic sensor, and the rear right (C) acoustic sensor. Between and rear left (D) acoustic sensors, rear left (D) between acoustic sensors and front left (A) acoustic sensors, front left (A) between acoustic sensors and rear right (C) acoustic sensors, and front right (B) A step (S510) of generating a plurality of (eg, 6) ITDs or ILDs is performed based on a difference in an acoustic arrival time or a difference in an acoustic arrival intensity between the acoustic sensor and the rear left (D) acoustic sensor.

그 다음 상기 생성된 복수 개의 ITD 또는 ILD 중 적어도 2개의 ITD 또는 ILD에 기초하여 음원의 위치를 추정하는 단계(S520)가 수행된다. 이하에서는 본 발명의 일 실시예에 따라 ITD에 기초하여 음원의 위치를 추정하는 방법을 설명한다. Then, a step (S520) of estimating the location of the sound source based on at least two of the generated ITDs or ILDs is performed. Hereinafter, a method of estimating a location of a sound source based on ITD according to an embodiment of the present invention will be described.

음향신호로부터 음향 도착시간 차이에 의해 ITD가 생성되면 4개 중 2개의 음향센서 간의 간격 R과 공기 중을 진행하는 소리의 속도 c(약 340 m/s)로부터 상기 음원과 상기 2개의 음향센서의 중심을 연결한 선이 상기 2개의 음향센서를 잇는 수평선과 이루는 방위각 θ 값을 다음과 같이 구할 수 있다. When the ITD is generated by the difference in the acoustic arrival time from the acoustic signal, the distance R between the two acoustic sensors out of the four and the speed of the sound traveling in the air c (about 340 m/s) between the sound source and the two acoustic sensors. A value of the azimuth angle θ formed by the line connecting the center with the horizontal line connecting the two acoustic sensors can be obtained as follows.

Figure pat00001
…[식 10]
Figure pat00001
… [Equation 10]

나머지 방위각들 또한 동일한 방식으로 계산될 수 있다.The remaining azimuth angles can also be calculated in the same way.

도 3a 및 도 3b는 본 발명의 일 실시예에 따른 음원의 방위각을 예시하는 도면이다. 3A and 3B are diagrams illustrating an azimuth angle of a sound source according to an embodiment of the present invention.

한편, 음원은 무한 거리에 떨어져 있다고 가정하기 때문에, 즉, 음원에서 음향이 양 음향센서로 평행하게 도달하는 것으로 가정하기 때문에, 음원과 상기 2개의 음향센서의 중심을 연결한 선이 상기 2개의 음향센서를 잇는 수평선과 이루는 각과 상기 음원으로부터 상기 2개의 음향센서 중 각 음향센서를 연결한 선이 상기 2개의 음향센서를 잇는 수평선과 이루는 각은 서로 동일한 것으로 간주된다. 따라서 도 3a와 도 3b에서는 이하의 [식 11], [식 12], [식 13]을 유도하기 위하여 음원과 2개의 음향센서 중 음원으로부터 더 먼 거리에 배치된 음향센서를 연결한 선이 2개의 음향센서를 잇는 수평선과 이루는 각이 방위각으로 표시되었다. On the other hand, since it is assumed that the sound source is at an infinite distance, that is, it is assumed that the sound from the sound source reaches both acoustic sensors in parallel, the line connecting the center of the sound source and the two acoustic sensors is The angle formed by the horizontal line connecting the sensors and the line connecting each of the two acoustic sensors from the sound source and the horizontal line connecting the two acoustic sensors are considered to be the same. Therefore, in FIGS. 3A and 3B, the line connecting the sound source and the sound sensor disposed at a farther distance from the sound source among the two sound sensors in order to induce the following [Equation 11], [Equation 12], and [Equation 13] is 2 The angle formed by the horizontal line connecting the two acoustic sensors is indicated as azimuth.

도 3a를 참조하면, 전방좌측(A) 음향센서 및 전방우측(B) 음향센서와 음원 간의 방위각이 θR1으로 표시되고, 전방우측(B) 음향센서 및 후방우측(C) 음향센서와 음원 간의 방위각이 θR2로 표시되며, 후방우측(C) 음향센서 및 후방좌측(D) 음향센서와 음원 간의 방위각이 θR3으로 표시되고, 후방좌측(D) 음향센서 및 전방좌측(A) 음향센서와 음원 간의 방위각이 θR4로 표시되어 있다.3A, the azimuth angle between the front left (A) acoustic sensor and the front right (B) acoustic sensor and the sound source is indicated by θ R1 , and between the front right (B) acoustic sensor and the rear right (C) acoustic sensor and the sound source. The azimuth angle is displayed as θ R2 , and the azimuth angle between the rear right (C) acoustic sensor and the rear left (D) acoustic sensor and the sound source is displayed as θ R3 , and the rear left (D) acoustic sensor and the front left (A) acoustic sensor The azimuth angle between sound sources is indicated by θ R4 .

도 3b를 참조하면, 전방좌측(A) 음향센서 및 후방우측(C) 음향센서와 음원 간의 방위각이 θR5로 표시되고, 전방우측(B) 음향센서 및 후방좌측(D) 음향센서와 음원 간의 방위각이 θR6로 표시되어 있다. 3B, the azimuth angle between the front left (A) acoustic sensor and the rear right (C) acoustic sensor and the sound source is expressed as θ R5 , and between the front right (B) acoustic sensor and the rear left (D) acoustic sensor and the sound source. The azimuth angle is denoted by θ R6 .

또한 동일 차원에서 2개의 방위각 θ 값을 구해 지면 연산에 의해 음원의 위치를 추정하는 것이 가능하다. 즉, 4개의 음향 센서 중 3개의 음향 센서에서 검출한 신호의 도착시간 차이로부터 생성된 2개의 ITD와 주어진 자율주행차량의 구조체 크기로부터 음원과 음향 센서 간의 2개의 방위각 θ를 구할 수 있으며, 이 θ 값을 이용하여 음원까지의 거리를 산출할 수 있다. 2개의 ITD를 생성하는 3개의 음향센서 중 하나의 센서가 동일한 평면에 있지 않고 다른 고도에 배치된 경우는 삼각법을 응용한 시뮬레이션으로 동일한 평면으로 치환하여 θ를 구할 수 있다. In addition, it is possible to estimate the position of the sound source by calculating the values of two azimuth angles θ in the same dimension. That is, from the two ITDs generated from the difference in arrival time of the signals detected by three of the four acoustic sensors and the structure size of a given autonomous vehicle, two azimuth angles θ between the sound source and the acoustic sensor can be obtained, and this θ The distance to the sound source can be calculated using the value. If one of the three acoustic sensors generating two ITDs is not on the same plane and is placed at a different altitude, θ can be obtained by substituting the same plane with a trigonometric simulation.

구체적으로, 각 음향센서가 차량의 각각의 모서리에 배치되어 있다 가정할 경우, 상술한 ITD를 적용하여 폭 VW와 길이 VL로 구성되는 차량에서 음원과의 거리를 계산할 수 있다. 이하에서는 도 4를 참조하여 예컨대, 음원과 후방좌측(D) 음향센서 간의 거리 D1을 구하는 방법을 살펴본다.Specifically, assuming that each acoustic sensor is disposed at each corner of the vehicle, the distance from the sound source in the vehicle composed of the width VW and the length VL may be calculated by applying the above-described ITD. Hereinafter, a method of obtaining a distance D 1 between a sound source and an acoustic sensor on the rear left (D) will be described with reference to FIG. 4.

D1은 음원과 후방좌측(D) 음향센서 간의 추정거리이고, D2(=d11)은 음원과 전방좌측(A) 음향센서 간의 추정거리이다. d12는 음향신호가 전방좌측(A) 음향센서에 도달한 위치로부터 후방좌측(D) 음향센서까지 도달하기 위해 추가로 이동하는 거리이다. 따라서, D1은 d11과 d12의 합으로 구할 수 있다.D 1 is the estimated distance between the sound source and the rear left (D) acoustic sensor, and D 2 (=d 11 ) is the estimated distance between the sound source and the front left (A) acoustic sensor. d 12 is the distance that the acoustic signal travels further to reach the rear left (D) acoustic sensor from the position where the acoustic signal reached the front left (A) acoustic sensor. Therefore, D 1 can be obtained as the sum of d 11 and d 12 .

d11을 구하기 위해 필요한 θ1과 θ2를 구하는 방법은 이하의 [식 13] 및 [식 14]와 같이 전방좌측(A), 전방우측(B) 및 후방좌측(D) 음향센서에 음향신호가 도달한 시간과 상기 음향센서들 간의 간격에 의해 구해진다. 여기서, 각 음향센서가 차량의 각각의 모서리에 배치되어 있다 가정하였기 때문에, 전방좌측(A) 음향센서와 전방우측(B) 음향센서 간의 간격은 차량의 폭 VW에 대응하며, 전방좌측(A) 음향센서와 후방좌측(D) 음향센서 간의 간격은 차량의 길이 VL에 대응한다. 만약 모든 음향센서가 차량의 모서리에 배치된 것이 아니라면 음향센서들 간의 간격을 이용한다. t1은 음원에서 발생한 음향신호가 전방좌측(A) 음향센서에 도달한 시간이며, t2와 t3는 각각 전방우측(B) 음향센서 및 후방좌측(D) 음향센서에 도달한 시간이다. 아래 식들은 예시일 뿐이며 수학적 모델링 방법이 달라지면 다른 수식으로 표현하는 것이 가능하다. The method of obtaining θ 1 and θ 2 required to obtain d 11 is to provide acoustic signals to the front left (A), front right (B) and rear left (D) acoustic sensors as shown in [Equation 13] and [Equation 14] below. It is obtained by the time at which is reached and the distance between the acoustic sensors. Here, since it is assumed that each acoustic sensor is arranged at each corner of the vehicle, the distance between the front left (A) acoustic sensor and the front right (B) acoustic sensor corresponds to the vehicle width VW, and the front left (A) The distance between the acoustic sensor and the rear left (D) acoustic sensor corresponds to the length of the vehicle VL. If not all acoustic sensors are placed on the edge of the vehicle, the spacing between the acoustic sensors is used. t 1 is the time when the sound signal generated from the sound source reaches the front left (A) sound sensor, and t 2 and t 3 are the times when it reaches the front right (B) sound sensor and the rear left (D) sound sensor, respectively. The equations below are only examples, and if the mathematical modeling method is different, it can be expressed in other equations.

Figure pat00002
...[식 11]
Figure pat00002
...[Equation 11]

d12 = (t3-t1)*c …[식 12]d 12 = (t 3 -t 1 )*c… [Equation 12]

Figure pat00003
…[식 13]
Figure pat00003
… [Equation 13]

Figure pat00004
…[식 14]
Figure pat00004
… [Equation 14]

위와 같은 방법으로 음원과 후방좌측(D) 음향센서 간의 거리를 구할 수 있고, 전방우측(B) 센서를 기준으로 한 음원과 전방좌측(A) 간의 거리 및 후방우측(C) 간의 거리 또한 동일한 방법으로 계산할 수 있다. The distance between the sound source and the rear left (D) sound sensor can be obtained in the same way as above, and the distance between the sound source and the front left (A) and the rear right (C) based on the front right (B) sensor is also the same method. Can be calculated as

상술한 바와 같이 음원과 음향센서 간의 거리를 구할 수 있으나, 실제로는 음원이 무한대에 위치한 것이 아니기 때문에 상술한 방식에 의해 구해진 거리는 오차를 내포하게 된다. 즉, 기본 모델은 음원을 무한대에 위치한 것으로 가정하여 도 4의 D1를 나타내는 선과 Dadd를 나타내는 선이 서로 직각을 이루는 것으로 간주하였으나, 실제로는 직각이 아니기 때문에 거리 오차 ES가 발생한다. 따라서 이러한 오차를 보정해주는 것이 바람직하며, 오차 보정을 위해 θ1과 θ2 를 다음과 같이 보정한다.As described above, the distance between the sound source and the sound sensor can be obtained. However, since the sound source is not located at infinity, the distance obtained by the above-described method contains an error. That is, the basic model assumes that the sound source is located at infinity, and considers that the line representing D 1 and the line representing D add in FIG. 4 form a right angle to each other, but since they are not actually right angles, a distance error E S occurs. Therefore, it is desirable to correct these errors, and θ 1 and θ 2 are corrected as follows for error correction.

Figure pat00005
…[식 15]
Figure pat00005
… [Equation 15]

Figure pat00006
…[식 16]
Figure pat00006
… [Equation 16]

Figure pat00007
...[식 17]
Figure pat00007
...[Equation 17]

또는 아래의 [식 18]과 같이 오차를 보정할 수도 있다.Alternatively, the error may be corrected as shown in [Equation 18] below.

Figure pat00008
...[식 18]
Figure pat00008
...[Equation 18]

여기서, CEA, CED, CES는 비선형 오차 보정함수이고, 실거리 및 연산 거리 비교 시뮬레이션이나 다른 연산에 의해 정하는 것이 가능하다. Where C EA , C ED , C ES is a non-linear error correction function, and can be determined by simulation or other calculation comparing real distance and calculation distance.

4개의 음향센서는 모두 다른 위치에 있으므로 각각의 음향센서에 들어오는 소리의 도착 시간도 각각 다르다. 즉, 비대칭적인 거리에 있는 음원으로부터 각 음향센서에 소리가 도달할 때 생기는 시간차를 이용하여 ITD를 구하고 방위각 θ를 구한 후, 주어진 음향센서 간의 거리를 응용하여 음원까지를 거리를 계산함으로써 어느 위치에서 소리가 발생하였는지 인식할 수 있다. 아울러, 본 발명에 따르면 서로 대각선 방향에 위치한 전방좌측(A) 음향센서와 후방우측(C) 음향센서 간의 ITDR5, 그리고 전방우측(B) 음향센서와 후방좌측(D) 음향센서 간의 ITDR6를 생성할 수 있기 때문에 ITDR1 ~ ITDR4 값이 0이 되는 곳에 음원이 위치한 경우라도 2개 이상의 ITD를 생성하여 사각영역 없이 음원의 위치를 인식할 수 있다. 아울러, 음향센서들이 다른 고도에 배치된 경우는 삼각법을 응용한 시뮬레이션으로 동일한 평면으로 치환하여 방위각 θ를 구할 수 있고, 그에 기초하여 음원까지의 거리를 계산함으로써 음원의 위치를 인식할 수 있다. Since all four acoustic sensors are located in different locations, the arrival time of the sound entering each acoustic sensor is also different. That is, the ITD is calculated using the time difference that occurs when the sound reaches each sound sensor from the sound source at an asymmetric distance, the azimuth angle θ is calculated, and then the distance to the sound source is calculated by applying the distance between the given sound sensors. You can recognize if a sound has occurred. In addition, according to the present invention the front-left (A) the acoustic sensor and the ITD R6 between the rear right side (C) acoustic ITD R5 between, and front right (B) the acoustic sensor and the rear left (D) acoustic sensors located in each diagonal direction Because it can be generated, even if the sound source is located where the value of ITD R1 ~ ITD R4 becomes 0, two or more ITDs can be created to recognize the location of the sound source without a blind area. In addition, when the acoustic sensors are arranged at different altitudes, the azimuth angle θ can be obtained by substituting the same plane through a trigonometric simulation, and the position of the sound source can be recognized by calculating the distance to the sound source based on the same.

상기와 같이 추정된 음원의 위치는 호스트로 출력된다(S530).The position of the sound source estimated as described above is output to the host (S530).

이제 음원의 종류를 인식하는 단계(S600)에 대하여 설명한다. 음원의 종류를 인식하는 단계(S600)는 4개 음향신호의 합산 신호인 y(s) 신호를 사용하여 음원의 특징을 추출하는 단계(S610)로 시작된다. 사운드 스펙트로그램 기법을 사용하여 특징을 추출할 수도 있고, 다른 방식의 음향신호 특징 추출 방식, 예컨대, MFCC(Mel Frequency Cepstrum Coefficient)를 이용하여 특징을 추출할 수도 있다. 그 다음 추출된 특징을 분류하여 음원의 종류를 판별하는 단계(S620)가 수행된다. 이러한 판별 단계에서는 DNN(Deep Neural Networks)과 같은 인공지능을 사용하여 특징을 분류하고 텐서플로우 백엔드(Tensor Flow Backend)나 다른 스코어링 방식(예컨대, 설정된 최저값 과 최대값 사이의 값으로 가중치를 부가하여 연산하는 웨이팅이나 혹은 라벨링 방식 등)을 사용하여 중첩된 소리 속에서 목표한 소리를 인식하는 방법에 의해 음원의 종류를 판별할 수도 있다. 상기 음원의 분류에는 학습방식이 사용될 수도 있고 비학습방식이 사용될 수도 있다. 이러한 음원 종류 판별 단계(S620)에 의해 음원이 예컨대, 싸이렌 소리인지, 드론 소리인지, 오토바이 소리인지 판별하는 것이 가능해진다.Now, the step of recognizing the type of sound source (S600) will be described. Recognizing the type of sound source (S600) begins with a step (S610) of extracting features of the sound source using a y(s) signal, which is a sum signal of four sound signals. Features may be extracted using a sound spectrogram technique, or features may be extracted using another method of sound signal feature extraction, for example, Mel Frequency Cepstrum Coefficient (MFCC). Then, a step (S620) of determining the type of sound source by classifying the extracted features is performed. In this discrimination step, features are classified using artificial intelligence such as DNN (Deep Neural Networks), and calculated by adding a weight with a Tensor Flow Backend or other scoring method (e.g. between the set minimum and maximum values). It is also possible to determine the type of sound source by a method of recognizing the target sound from the overlapping sound using a weighting method or labeling method. For the classification of the sound source, a learning method or a non-learning method may be used. The sound source type determination step (S620) makes it possible to determine whether the sound source is, for example, a siren sound, a drone sound, or a motorcycle sound.

이와 같이 판별된 음원 종류는 호스트로 출력된다(S630).The sound source type determined as described above is output to the host (S630).

본 실시예에서는 음원의 음량 크기, 방향 및 이동 방향 인식 단계(S400), 음원 위치 인식 단계(S500) 및 음원 종류 인식 단계(S600)가 병렬로 수행되는 것으로 기술되었으나, 순차적으로 수행될 수도 있다. 도 2에 예시된 단계들의 순서는 일 예에 불과할 뿐 그에 한정되는 것은 아니다. In the present embodiment, it has been described that the volume level, direction, and movement direction recognition step (S400), the sound source location recognition step (S500), and the sound source type recognition step (S600) are performed in parallel, but may be performed sequentially. The order of the steps illustrated in FIG. 2 is only an example and is not limited thereto.

도 5는 본 발명의 일 실시예에 따른 음원 인식 장치의 개략도이다. 본 발명의 일 실시예에 따른 음원 인식 장치(1000)는 음향 감지부(1100) 및 처리 모듈(1200)을 포함한다. 음향 감지부(1100)는 음향신호를 검출하는 4개의 음향센서를 포함하고, 상기 4개의 음향센서는 수평 방향으로 보았을 때 상기 4개의 음향센서가 각각 특정 직사각형의 전방좌측(A), 전방우측(B), 후방우측(C) 및 후방좌측(D)의 꼭지점을 이루도록 배치되고, 여기서, 상기 4개의 음향센서에서 검출한 음향신호는 각각 A(s), B(s), C(s) 및 D(s)라고 지칭한다. 5 is a schematic diagram of a sound source recognition apparatus according to an embodiment of the present invention. The sound source recognition apparatus 1000 according to an embodiment of the present invention includes a sound detection unit 1100 and a processing module 1200. The acoustic detection unit 1100 includes four acoustic sensors for detecting an acoustic signal, and the four acoustic sensors have a specific rectangular front left (A) and a front right ( B), rear right (C) and rear left (D) are arranged to form the vertices, where the acoustic signals detected by the four acoustic sensors are respectively A(s), B(s), C(s) and It is referred to as D(s).

처리 모듈(1200)은 도 2와 관련하여 상술한 단계들을 수행할 수 있는 구성요소들을 포함한다. 예컨대, 처리 모듈(1200)은 자동 트리밍부(1210), 음향 신호 검출부(1220), 각각의 음향신호 A(s), B(s), C(s) 및 D(s)로부터 음향 도착시간 차이, 도착강도 및 주파수를 측정하는 음향 도착시간, 도착강도 및 주파수 측정부(1230), 4개의 음향신호의 조합 신호인 y(s), f(s), b(s), l(s). r(s), cl(s), cr(s), p(s) 및 q(s) 신호에 기초하여 음원의 음량 크기, 방향 및 이동 방향을 인식하는 음원의 음량 크기, 방향 및 이동 방향 인식부(1240), 음원 위치 인식부(1250) 및 음원 종류 인식부(1260)를 포함한다. 음향 신호 검출부(1220)는 음성신호 소거부(1221) 및 잡음신호 제거부(1222)를 포함할 수 있다. 음원의 음량 크기, 방향 및 이동 방향 인식부(1240)는 조합 신호 연산부(1241)와, 음원의 음량 크기, 방향 및 이동 방향 추정부(1242)를 포함할 수 있다. 또한 음원 위치 인식부(1250)는 전방좌측(A) 음향센서와 전방우측(B) 음향센서 간, 전방우측(B) 음향센서와 후방우측(C) 음향센서 간, 후방우측(C) 음향센서와 후방좌측(D) 음향센서 간, 후방좌측(D) 음향센서와 전방좌측(A) 음향센서 간, 전방좌측(A) 음향센서와 후방우측(C) 음향센서 간, 그리고 전방우측(B) 음향센서와 후방좌측(D) 음향센서 간의 음향 도착시간 차이에 기초하여 복수 개의 ITD(interaural time difference)를 생성하는 ITD 생성부(1251)와, 상기 복수 개의 ITD 중 적어도 2개 이상의 ITD에 기초하여 음원의 위치를 추정하는 음원 위치 추정부(1252)를 포함할 수 있다. 음원 위치 추정부(1252)는 상기 4개의 음향센서 중 제 1 쌍의 음향센서 간의 ITD에 기초하여 상기 제 1 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ1을 연산하고, 상기 4개의 음향센서 중 제 2 쌍의 음향센서 간의 ITD에 기초하여 상기 제 2 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ2를 연산하여, 상기 연산된 방위각 θ1 및 θ2와 상기 제 1 쌍의 음향센서 간의 간격 및 상기 제 2 쌍의 음향센서 간의 간격을 이용하여 상기 음원까지의 거리를 연산할 수 있고, 상기 음원까지의 거리 연산에서 발생하는 오차를 보정하기 위하여 오차보정 함수를 도입하여 오차를 보정할 수도 있다. 또한 음원 종류 인식부(1260)는 특징 추출부(1261) 및 음원 종류 판별부(1262)를 포함할 수 있다.The processing module 1200 includes components capable of performing the steps described above with respect to FIG. 2. For example, the processing module 1200 includes the automatic trimming unit 1210, the sound signal detection unit 1220, and the sound arrival time difference from each of the sound signals A(s), B(s), C(s) and D(s). , Acoustic arrival time, arrival intensity and frequency measurement unit 1230 for measuring arrival strength and frequency, y(s), f(s), b(s), l(s), which are a combination signal of four sound signals. Recognizes the volume level, direction and direction of movement of a sound source based on the r(s), cl(s), cr(s), p(s) and q(s) signals A unit 1240, a sound source location recognition unit 1250, and a sound source type recognition unit 1260. The acoustic signal detector 1220 may include a voice signal canceling unit 1221 and a noise signal removing unit 1222. The volume level, direction, and movement direction recognition unit 1240 of the sound source may include a combination signal calculation unit 1241 and a volume level, direction, and movement direction estimation unit 1242 of the sound source. In addition, the sound source location recognition unit 1250 is located between the front left (A) acoustic sensor and the front right (B) acoustic sensor, between the front right (B) acoustic sensor and the rear right (C) acoustic sensor, and the rear right (C) acoustic sensor. Between and rear left (D) acoustic sensors, rear left (D) between acoustic sensors and front left (A) acoustic sensors, front left (A) between acoustic sensors and rear right (C) acoustic sensors, and front right (B) Based on the ITD generation unit 1251 generating a plurality of interaural time differences (ITDs) based on the difference in acoustic arrival time between the acoustic sensor and the rear left (D) acoustic sensor, and at least two or more of the plurality of ITDs It may include a sound source position estimating unit 1252 that estimates the position of the sound source. The sound source position estimation unit 1252 calculates an azimuth angle θ 1 formed by the sound source and a line connecting two sound sensors belonging to the first pair based on the ITD between the first pair of sound sensors among the four sound sensors, and the Based on the ITD between the second pair of acoustic sensors among the four acoustic sensors, a line connecting the two acoustic sensors belonging to the second pair and the azimuth angle θ 2 formed by the sound source are calculated, and the calculated azimuth angles θ 1 and θ 2 and The distance to the sound source can be calculated using the distance between the first pair of acoustic sensors and the distance between the second pair of acoustic sensors, and an error correction function in order to correct an error occurring in calculating the distance to the sound source The error can also be corrected by introducing. In addition, the sound source type recognition unit 1260 may include a feature extraction unit 1261 and a sound source type determination unit 1262.

처리 모듈(1200)의 각 구성요소는 별개의 구성요소로 기재되었지만, 모두 하나의 구성요소로 합쳐져 기능할 수도 있고, 일부 구성요소만이 합쳐져 기능할 수도 있다. 그러나 상술한 기능을 수행하는 한 모두 본 발명의 범위에 속한다. Each component of the processing module 1200 is described as a separate component, but all of them may be combined into one component to function, or only some components may be combined to function. However, as long as the above functions are performed, all belong to the scope of the present invention.

위 실시예는 본 발명의 가장 기본적인 예에 불과할 뿐이기 때문에, 본 발명이 위의 실시예에만 국한되는 것으로 이해되어져서는 아니 되며, 본 발명의 권리범위는 후술하는 청구범위 및 그 균등범위로 이해되어져야 할 것이다.Since the above embodiments are only the most basic examples of the present invention, it should not be understood that the present invention is limited only to the above embodiments, and the scope of the present invention is understood as the claims and their equivalents to be described later. You will have to lose.

Claims (11)

음원 인식 방법으로서,
적어도 4개의 음향센서로부터 음향신호를 검출하는 단계 ― 음향센서들 중 4개의 음향센서는 수평 방향으로 보았을 때 상기 4개의 음향센서가 각각 특정 직사각형의 꼭지점을 이루도록 배치되고, 상기 4개의 음향센서에서 검출한 음향신호는 각각 A(s), B(s), C(s) 및 D(s)라고 지칭함 -;
각각의 음향신호 A(s), B(s), C(s) 및 D(s)로부터 음향 도착시간 차이를 연산하는 단계;
각각의 음향신호 A(s), B(s), C(s) 및 D(s) 간의 음향 도착시간 차이에 기초하여 복수 개의 ITD(interaural time difference)를 생성하는 단계; 및
상기 복수 개의 ITD 중 적어도 2개 이상의 ITD에 기초하여 음원의 위치를 추정하는 단계
를 포함하고,
상기 음원의 위치를 추정하는 단계는:
상기 4개의 음향센서 중 제 1 쌍의 음향센서 간의 ITD에 기초하여 상기 제 1 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ1을 연산하는 단계;
상기 4개의 음향센서 중 제 2 쌍의 음향센서 간의 ITD에 기초하여 상기 제 2 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ2를 연산하는 단계 ― 상기 제 1 쌍은 상기 제 2 쌍과 하나의 음향센서만을 공유함 -;
상기 연산된 방위각 θ1 및 θ2와 상기 제 1 쌍의 음향센서 간의 간격 및 상기 제 2 쌍의 음향센서 간의 간격을 이용하여 상기 음원까지의 거리를 연산하는 단계
를 포함하는
음원 인식 방법.
As a sound source recognition method,
Detecting acoustic signals from at least four acoustic sensors ― Of the acoustic sensors, four acoustic sensors are arranged such that the four acoustic sensors form a vertex of a specific rectangle when viewed in a horizontal direction, and detected by the four acoustic sensors. One acoustic signal is referred to as A(s), B(s), C(s) and D(s), respectively -;
Calculating a difference in sound arrival time from each of the sound signals A(s), B(s), C(s) and D(s);
Generating a plurality of interaural time differences (ITDs) based on a difference in acoustic arrival time between each of the acoustic signals A(s), B(s), C(s) and D(s); And
Estimating the location of a sound source based on at least two or more ITDs among the plurality of ITDs
Including,
The step of estimating the location of the sound source is:
Calculating an azimuth angle θ 1 between a line connecting two acoustic sensors belonging to the first pair and the sound source based on the ITD between the first pair of acoustic sensors among the four acoustic sensors;
Calculating an azimuth angle θ 2 formed by the sound source and a line connecting the two acoustic sensors belonging to the second pair based on the ITD between the second pair of acoustic sensors among the four acoustic sensors-the first pair is the second Sharing only one acoustic sensor with a pair -;
Calculating the distance to the sound source using the calculated azimuth angles θ 1 and θ 2 and the distance between the first pair of acoustic sensors and the second pair of acoustic sensors
Including
How to recognize sound sources.
제1항에 있어서,
상기 4개의 음향센서에서 검출한 음향신호 A(s), B(s), C(s) 및 D(s)를 조합하여 다음과 같이 y(s), f(s), b(s), l(s). r(s), cl(s), cr(s), p(s) 또는 q(s) 신호 중 적어도 하나를 연산하는 단계
여기서,
y(s) = A(s) + B(s) + C(s) + D(s);
f(s) = A(s) + B(s);
b(s) = C(s) + D(s);
l(s) = A(s) + D(s);
r(s) = B(s) + C(s);
cl(s) = A(s) + C(s);
cr(s) = B(s) + D(s);
p(s) = f(s) - b(s);
q(s) = l(s) - r(s); 및
상기 연산된 y(s), f(s), b(s), l(s). r(s), cl(s), cr(s), p(s) 또는 q(s) 신호 중 적어도 하나에 기초하여 음원의 음량 크기, 방향 및 이동 방향 중 적어도 하나를 추정하는 단계
를 더 포함하는
음원 인식 방법.
The method of claim 1,
By combining the acoustic signals A(s), B(s), C(s), and D(s) detected by the four acoustic sensors, y(s), f(s), b(s), l(s). Computing at least one of r(s), cl(s), cr(s), p(s), or q(s) signals
here,
y(s) = A(s) + B(s) + C(s) + D(s);
f(s) = A(s) + B(s);
b(s) = C(s) + D(s);
l(s) = A(s) + D(s);
r(s) = B(s) + C(s);
cl(s) = A(s) + C(s);
cr(s) = B(s) + D(s);
p(s) = f(s)-b(s);
q(s) = l(s)-r(s); And
The calculated y(s), f(s), b(s), l(s). Estimating at least one of the volume level, direction, and movement direction of the sound source based on at least one of r(s), cl(s), cr(s), p(s), or q(s) signals
Further comprising
How to recognize sound sources.
제1항에 있어서,
4개 음향신호의 합산 신호인 y(s) 신호를 사용하여 음원의 특징을 추출하고 추출된 특징을 분류하여 음원의 종류를 판별하는 단계를 더 포함하는
음원 인식 방법.
The method of claim 1,
Further comprising the step of determining the type of the sound source by extracting the features of the sound source using the y(s) signal, which is a sum signal of the four sound signals, and classifying the extracted features.
How to recognize sound sources.
제1항에 있어서,
상기 음원까지의 거리를 연산하는 단계는 상기 음원까지의 거리 연산에서 발생하는 오차를 보정하기 위하여 오차보정 함수를 도입하여 오차를 보정하는 단계를 더 포함하는
음원 인식 방법.
The method of claim 1,
The calculating of the distance to the sound source further comprises the step of correcting the error by introducing an error correction function in order to correct an error occurring in the calculation of the distance to the sound source.
How to recognize sound sources.
제1항에 있어서,
상기 음원 인식 방법은, 초기화를 위하여, 상기 음향신호를 검출하는 단계 이전에, 입력신호가 없는 상태에서 상기 4개의 음향센서로부터 동일한 출력신호가 나오도록 트리밍하는 단계를 더 포함하는
음원 인식 방법.
The method of claim 1,
The sound source recognition method further comprises, for initialization, before the step of detecting the sound signal, trimming so that the same output signal is output from the four sound sensors in a state in which there is no input signal.
How to recognize sound sources.
제1항에 있어서,
상기 음향신호를 검출하는 단계는:
상기 4개의 음향센서에 입력된 신호로부터 음성 신호를 소거하는 단계
를 포함하는
음원 인식 방법.
The method of claim 1,
The step of detecting the sound signal comprises:
Eliminating voice signals from signals input to the four acoustic sensors
Including
How to recognize sound sources.
제6항에 있어서,
상기 음향신호를 검출하는 단계는:
상기 음성 신호가 소거된 4개의 음향센서의 신호로부터 상기 4개의 음향센서 공통의 잡음신호를 제거하여 상기 음향신호를 출력하는 단계
를 포함하는
음원 인식 방법.
The method of claim 6,
The step of detecting the sound signal comprises:
Outputting the sound signal by removing noise signals common to the four sound sensors from the signals of the four sound sensors from which the sound signals have been erased
Including
How to recognize sound sources.
제1항에 있어서,
상기 4개의 음향센서 중 적어도 하나는 나머지 음향센서들과 다른 고도에 배치되는
음원 인식 방법.
The method of claim 1,
At least one of the four acoustic sensors is disposed at a different altitude from the other acoustic sensors.
How to recognize sound sources.
제1항에 있어서,
상기 음향센서는 차량 내부와 외부의 불필요한 신호를 억제하기 위하여 음향센서의 주변에 차폐 블록(shield block)이 설치된 잡음차폐형 음향센서를 포함하는,
음원 인식 방법.
The method of claim 1,
The acoustic sensor includes a noise shielding type acoustic sensor in which a shield block is installed around the acoustic sensor to suppress unnecessary signals inside and outside the vehicle,
How to recognize sound sources.
음원 인식 장치로서,
음향신호를 검출하는 적어도 4개의 음향센서 ― 음향센서들 중 4개의 음향센서는 수평 방향으로 보았을 때 상기 4개의 음향센서가 각각 특정 직사각형의 꼭지점을 이루도록 배치되고, 상기 4개의 음향센서에서 검출한 음향신호는 각각 A(s), B(s), C(s) 및 D(s)라고 지칭함 -;
각각의 음향신호 A(s), B(s), C(s) 및 D(s)로부터 음향 도착시간 차이를 측정하는 음향 도착시간 측정부;
각각의 음향신호 A(s), B(s), C(s) 및 D(s) 간의 음향 도착시간 차이에 기초하여 복수 개의 ITD(interaural time difference)를 생성하는 ITD 생성부; 및
상기 복수 개의 ITD 중 적어도 2개 이상의 ITD에 기초하여 음원의 위치를 추정하는 음원 위치 추정부
를 포함하고,
상기 음원 위치 추정부는:
상기 4개의 음향센서 중 제 1 쌍의 음향센서 간의 ITD에 기초하여 상기 제 1 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ1을 연산하고;
상기 4개의 음향센서 중 제 2 쌍의 음향센서 간의 ITD에 기초하여 상기 제 2 쌍에 속하는 2개의 음향센서를 잇는 선과 상기 음원이 이루는 방위각 θ2를 연산하며 ― 상기 제 1 쌍은 상기 제 2 쌍과 하나의 음향센서만을 공유함 -;
상기 연산된 방위각 θ1 및 θ2와 상기 제 1 쌍의 음향센서 간의 간격 및 상기 제 2 쌍의 음향센서 간의 간격을 이용하여 상기 음원까지의 거리를 연산하는
음원 인식 장치.
As a sound source recognition device,
At least four acoustic sensors for detecting acoustic signals ― Four of the acoustic sensors are arranged so that the four acoustic sensors form a vertex of a specific rectangle when viewed in a horizontal direction, and the sound detected by the four acoustic sensors The signals are referred to as A(s), B(s), C(s) and D(s), respectively -;
A sound arrival time measurement unit for measuring a difference in sound arrival time from each of the acoustic signals A(s), B(s), C(s) and D(s);
An ITD generator for generating a plurality of interaural time differences (ITDs) based on a difference in sound arrival time between each of the acoustic signals A(s), B(s), C(s) and D(s); And
A sound source location estimation unit that estimates the location of a sound source based on at least two or more ITDs among the plurality of ITDs
Including,
The sound source position estimation unit:
Calculating an azimuth angle θ 1 between a line connecting two acoustic sensors belonging to the first pair and the sound source based on the ITD between the first pair of acoustic sensors among the four acoustic sensors;
The azimuth angle θ 2 formed by the sound source and the line connecting the two acoustic sensors belonging to the second pair is calculated based on the ITD between the second pair of acoustic sensors among the four acoustic sensors, and the first pair is the second pair And share only one acoustic sensor -;
The calculated azimuth angles θ 1 and θ 2 and the distance between the first pair of acoustic sensors and the second pair of acoustic sensors are used to calculate the distance to the sound source.
Sound source recognition device.
제1항 내지 제9항 중 어느 한 항에 따른 음원 인식 방법을 수행하는 프로그램을 저장하는 컴퓨터 판독가능 저장매체.A computer-readable storage medium storing a program for performing the sound source recognition method according to any one of claims 1 to 9.
KR1020200144181A 2020-11-02 2020-11-02 Method and apparatus for recognizing sound source, and computer readable storage medium KR102226405B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200144181A KR102226405B1 (en) 2020-11-02 2020-11-02 Method and apparatus for recognizing sound source, and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200144181A KR102226405B1 (en) 2020-11-02 2020-11-02 Method and apparatus for recognizing sound source, and computer readable storage medium

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190010266A Division KR102176098B1 (en) 2019-01-28 2019-01-28 Method and apparatus for recognizing sound source

Publications (2)

Publication Number Publication Date
KR20200128497A true KR20200128497A (en) 2020-11-13
KR102226405B1 KR102226405B1 (en) 2021-03-11

Family

ID=73398970

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200144181A KR102226405B1 (en) 2020-11-02 2020-11-02 Method and apparatus for recognizing sound source, and computer readable storage medium

Country Status (1)

Country Link
KR (1) KR102226405B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393859A (en) * 2021-06-09 2021-09-14 湛江港(集团)股份有限公司 Storage yard gridding sound source positioning analysis method and system
CN114355289A (en) * 2022-03-19 2022-04-15 深圳市烽火宏声科技有限公司 Sound source positioning method, sound source positioning device, storage medium and computer equipment
CN117370731A (en) * 2023-10-10 2024-01-09 广州远动信息技术有限公司 Sound arrival time estimation method based on convolutional neural network

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07218614A (en) * 1994-01-31 1995-08-18 Suzuki Motor Corp Method and apparatus for calculating position of sound source
JPH1183975A (en) * 1997-09-03 1999-03-26 Tech Res & Dev Inst Of Japan Def Agency Method and device for measuring water surface sound source position
KR20110041258A (en) * 2009-10-15 2011-04-21 재단법인 포항지능로봇연구소 Apparatus for ssound filtering
JP2013068424A (en) * 2011-09-20 2013-04-18 Toyota Motor Corp Sound source detection device
KR101452853B1 (en) * 2013-11-28 2014-10-22 한국해양과학기술원 calibration device of underwater hydrophone array location using transducer
KR101529516B1 (en) * 2014-10-27 2015-06-18 국방과학연구소 Sound sourcelocalization device and sound sourcelocalization method
KR20170054752A (en) * 2015-11-10 2017-05-18 주식회사 시스피아 Apparatus for tracking sound source using sound receiving device and method thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07218614A (en) * 1994-01-31 1995-08-18 Suzuki Motor Corp Method and apparatus for calculating position of sound source
JPH1183975A (en) * 1997-09-03 1999-03-26 Tech Res & Dev Inst Of Japan Def Agency Method and device for measuring water surface sound source position
KR20110041258A (en) * 2009-10-15 2011-04-21 재단법인 포항지능로봇연구소 Apparatus for ssound filtering
JP2013068424A (en) * 2011-09-20 2013-04-18 Toyota Motor Corp Sound source detection device
KR101452853B1 (en) * 2013-11-28 2014-10-22 한국해양과학기술원 calibration device of underwater hydrophone array location using transducer
KR101529516B1 (en) * 2014-10-27 2015-06-18 국방과학연구소 Sound sourcelocalization device and sound sourcelocalization method
KR20170054752A (en) * 2015-11-10 2017-05-18 주식회사 시스피아 Apparatus for tracking sound source using sound receiving device and method thereof

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393859A (en) * 2021-06-09 2021-09-14 湛江港(集团)股份有限公司 Storage yard gridding sound source positioning analysis method and system
CN114355289A (en) * 2022-03-19 2022-04-15 深圳市烽火宏声科技有限公司 Sound source positioning method, sound source positioning device, storage medium and computer equipment
CN114355289B (en) * 2022-03-19 2022-06-10 深圳市烽火宏声科技有限公司 Sound source positioning method, sound source positioning device, storage medium and computer equipment
CN117370731A (en) * 2023-10-10 2024-01-09 广州远动信息技术有限公司 Sound arrival time estimation method based on convolutional neural network
CN117370731B (en) * 2023-10-10 2024-06-04 广州远动信息技术有限公司 Sound arrival time estimation method based on convolutional neural network

Also Published As

Publication number Publication date
KR102226405B1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
KR102176098B1 (en) Method and apparatus for recognizing sound source
KR102226405B1 (en) Method and apparatus for recognizing sound source, and computer readable storage medium
CN107527092B (en) Training algorithms for collision avoidance using auditory data
RU2694154C2 (en) Generation of simulated sensor data for training and validating detection models
CN107031628B (en) Collision avoidance using auditory data
US11386910B2 (en) Systems and methods for active noise cancellation for interior of autonomous vehicle
JP6221158B2 (en) Autonomous behavior robot and control method of autonomous behavior robot
US9996080B2 (en) Collision avoidance using auditory data
CN106560365A (en) Collision Avoidance Using Auditory Data Augmented With Map Data
KR101669866B1 (en) Acoustic signal modification
US11477567B2 (en) Method and system for locating an acoustic source relative to a vehicle
CN112084810A (en) Obstacle detection method and device, electronic equipment and storage medium
CN110663060A (en) Method, device and system for representing environment elements and vehicle/robot
CN107176123A (en) Sound detection information providing method, vehicle periphery sound detection device and vehicle
EP2362238B1 (en) Estimating the distance from a sensor to a sound source
CN110366852A (en) Information processing equipment, information processing method and recording medium
CN207502722U (en) Vehicle and vehicle sensory perceptual system
Andra et al. Feasibility evaluation for keyword spotting system using mini microphone array on UAV
KR20200066891A (en) Apparatus and method for three-dimensional sound source position detection using a two-dimensional microphone array
Simon et al. Extracting sensor models from a scene based simulation
Madan Acoustic Simultaneous Localization And Mapping (SLAM)
EP2639771B1 (en) Augmented vision in image sequence generated from a moving vehicle
KR20240082718A (en) Method for judging situation of vehicle based on hearing information
KR100520786B1 (en) System for localizing other ships position
JP2024084692A (en) A method for verifying the accuracy of virtual sensor models for simulating real-world information databases

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right