WO2024101730A1 - 인공지능 신경망 학습방법 및 학습 시스템 - Google Patents
인공지능 신경망 학습방법 및 학습 시스템 Download PDFInfo
- Publication number
- WO2024101730A1 WO2024101730A1 PCT/KR2023/016764 KR2023016764W WO2024101730A1 WO 2024101730 A1 WO2024101730 A1 WO 2024101730A1 KR 2023016764 W KR2023016764 W KR 2023016764W WO 2024101730 A1 WO2024101730 A1 WO 2024101730A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- map
- neural network
- background noise
- artificial intelligence
- input
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 54
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
Definitions
- the present invention relates to an artificial intelligence neural network learning method and system, and more specifically, to an input map generated using background noise and virtual target sounds obtained from actual industrial sites, and a target map generated using virtual target sounds.
- This relates to an artificial intelligence neural network learning method and system that uses to learn an artificial intelligence neural network.
- a sound source map refers to an image that displays the location and intensity of arbitrary sound sources that exist in a specific area.
- a representative example of a sound source map is a beamforming map formed through the beamforming method. At this time, the location and intensity of sound sources can be calculated from sound pressure values acquired using a microphone array.
- a method of obtaining a sound source map using a beamforming method e.g., delay-and-sum beamforming, etc.
- a point spread function PSF
- Patent Document 1 KR 10-2414021 B1
- the present invention provides an input map assuming that a virtual target sound exists in a specific place where background noise exists and a target map when only a virtual target sound exists in the specific place.
- the purpose is to provide an artificial intelligence neural network learning method and system that can reduce the influence of background noise on sound source maps by learning an artificial intelligence neural network using the method.
- an artificial intelligence neural network learning method is provided.
- the artificial intelligence neural network learning method includes a background noise acquisition step in which background noise existing in a specific place is acquired by a background noise acquisition unit, and the background noise and background noise in the specific place by an input map generation unit.
- An input map generation step in which an input map is generated for the case where a virtual target sound exists, and a target map generation step in which a target map is generated for the case where only the virtual target sound exists in the specific place by the target map generator.
- it may include a neural network learning step in which an artificial intelligence neural network is trained to output the target map when the input map is input by the neural network learning unit.
- the background noise acquisition step may be characterized by receiving the background noise using a microphone array and converting it into an electrical sound signal.
- the input map and target map are images representing the location and intensity of the sound source included in the sound signal received through the microphone array, and the pixel value of the image is , it may be characterized as decreasing depending on the distance from the sound source.
- an artificial intelligence neural network learning system is provided.
- the artificial intelligence neural network learning system includes a background noise acquisition unit that acquires background noise existing in a specific location, and an input map for the case where the background noise and virtual target sound exist in the specific location.
- An input map generator that generates an input map generator that generates a target map for the case where only the virtual target sound exists in the specific location, and an artificial intelligence neural network that outputs the target map when the input map is input. It may include a neural network learning unit that trains.
- the background noise acquisition unit may receive the background noise using a microphone array and convert it into an electrical sound signal.
- the input map and target map are images representing the location and intensity of the sound source included in the sound signal received through the microphone array, and the pixel value of the image is , it may be characterized as decreasing depending on the distance from the sound source.
- a computer-readable recording medium on which a program for implementing the above-described method is recorded is provided.
- the scope of use of the sound source map can be expanded by reducing the influence of background noise on the sound source map.
- FIG. 1 is a flowchart of an artificial intelligence neural network learning method according to an embodiment of the present invention.
- Figure 2 is an example of a beamforming map.
- Figure 3 is an example diagram of a specific location where a virtual target sound is assumed to exist.
- Figure 4 is an example of an input map and a target map according to an embodiment of the present invention.
- Figure 5 is a diagram schematically illustrating a method for generating an input map and a target map according to an embodiment of the present invention.
- Figure 6 shows the structure of an artificial intelligence neural network according to an embodiment of the present invention.
- Figure 7 is a block diagram of an artificial intelligence neural network learning system according to an embodiment of the present invention.
- Figure 1 is a flowchart of an artificial intelligence neural network learning method according to an embodiment of the present invention
- Figure 2 is an example of a beamforming map.
- the artificial intelligence neural network learning method includes a background noise acquisition step (S100), an input map generation step (S200), a goal map generation step (S300), and a neural network learning step (S400). may include.
- background noise existing in a specific place can be acquired by the background noise acquisition unit 100.
- background noise refers to various types of background noise generated in places such as bus stops, amusement parks, Children's Grand Park, etc., and noise suggestive of emergency situations such as screams of victims that may occur in emergency situations, sounds of disasters, etc. It can be.
- the background noise is specified by the user and may be a sound source to be removed from the sound source map.
- the background noise acquisition unit 100 may receive the background noise using a microphone array and convert it into an electrical sound signal.
- the background noise is generated by arranging a plurality of microphones on the measurement plane of the measurement device to form a microphone array, and the microphone array is generated from the measurement signals received in the x, y, and z directions on the sound source plane. It may be a beamforming map as shown in FIG. 2, which is generated by predicting the location and intensity of each sound source.
- the beamforming map is a sound source map formed through a beamforming method, and may mean having various sound field information about the sound source.
- Figure 3 is an example diagram of a specific place where a virtual target sound is assumed to exist
- Figure 4(a) is an example of an input map according to an embodiment of the present invention
- Figure 4(b) is an example of a target map. .
- the input map generator 200 may generate an input map for a specific place where background noise and a virtual target sound exist.
- the input map generator 200 in the input map generation step (S200), the input map generator 200 generates a virtual target sound (X) at a specific location where the background noise (A, B) obtained in the background noise acquisition step exists. Assuming that the virtual target sound (X) exists, an input map can be created for a specific place where the virtual target sound ( This may mean that background noise may exist in a specific place where the virtual target sound is assumed to exist.
- a target map for a case where only a virtual target sound exists in a specific place may be generated by the target map generator 300.
- the input map is a sound source map for a specific place when both background noise and virtual target sound are present
- the target map is a sound source map for a specific place when only virtual target sound is present.
- Figure 5 is a diagram schematically illustrating a method for generating an input map and a target map according to an embodiment of the present invention.
- the input map and target map may be images showing the location and intensity of the sound source included in the sound signal received through the microphone array.
- the pixel value of the image may be reduced according to the distance from the sound source.
- the input map and target map according to the present invention can be generated using a function that takes as input the distance between each coordinate in a randomly generated grid for a specific area where a sound source exists and the sound source.
- the function can be expressed as [Equation 1] below.
- the input map and target map are a process of generating a grid with a certain range of intervals (K) for a specific area where an arbitrary sound source exists, each coordinate of the grid ((1,1), (1, 2), (1,3), etc.) and the process of calculating the distance (R) between the corresponding sound sources (A, B, C) and the distance (R) between each coordinate of the grid and the corresponding sound source in the [ It can be generated through the process of calculating the result value (f) by substituting it into [Equation 1] and designating the result value as each pixel value constituting the target map.
- the process of generating the input map and target map and the functions used therein are not limited to the above-described process and [Equation 1], and the result value is maximum at the location of the sound source, and the result value is determined by the distance from the sound source. Anything that has a decreasing tendency can be applied.
- the neural network learning step (S400) may include a neural network learning step (S400) in which an artificial intelligence neural network is trained to output the target map when the input map is input by the neural network learning unit 400. there is.
- Figure 6 shows the structure of an artificial intelligence neural network according to an embodiment of the present invention.
- the artificial intelligence neural network learned includes an encoder network ( Figure 6(a)) and a decoder network ( Figure 6(b)). And, it may have a structure in which the features extracted from the encoder network are transmitted to the decoder network.
- the above-described method can be written as a program that can be executed on a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable recording medium. Additionally, the data structure used in the above-described method can be recorded on a computer-readable recording medium through various means.
- the computer-readable recording media includes storage media such as magnetic storage media (e.g., ROM, RAM, USB, floppy disk, hard disk, etc.) and optical read media (e.g., CD-ROM, DVD, etc.). Includes.
- Figure 7 is a block diagram of an artificial intelligence neural network learning system according to an embodiment of the present invention.
- the artificial intelligence neural network learning system includes a background noise acquisition unit 100, an input map generation unit 200, a target map generation unit 300, and a neural network learning unit 400. may include.
- the background noise acquisition unit 100 can acquire background noise existing in a specific location.
- the background noise acquisition unit 100 may receive the background noise using a microphone array and convert it into an electrical sound signal.
- the input map generator 200 may generate an input map for cases where background noise and virtual target sounds exist in a specific location.
- the target map generator 300 may generate a target map for a case where only the virtual target sound exists in a specific location.
- the input map and the target map are images representing the location and intensity of a sound source included in an acoustic signal received through a microphone array, and the pixel value of the image decreases depending on the distance from the sound source. It can be characterized as:
- the neural network learning unit 400 can train an artificial intelligence neural network to output the target map when an input map is input.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
본 발명은 인공지능 신경망 학습방법 및 시스템에 관한 것으로, 더욱 상세하게는 서로 다른 경우에서 생성되는 입력지도와 목표지도를 이용하여 인공지능 신경망을 학습시킴으로써 음원지도에서 배경소음의 영향을 저감시킬 수 있는 인공지능 신경망 학습방법 및 시스템에 관한 것이다. 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법은, 배경소음 획득부에 의해 특정 장소에 존재하는 배경소음이 획득되는 배경소음 획득단계, 입력지도 생성부에 의해 상기 특정 장소에 가상의 목표음이 존재하는 것으로 가정되고, 상기 가상의 목표음이 존재하는 것으로 가정한 특정 장소에 대한 입력지도가 생성되는 입력지도 생성단계, 목표지도 생성부에 의해 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성되는 목표지도 생성단계 및 신경망 학습부에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계를 포함할 수 있다. 본 발명에 따르면, 배경소음이 음원지도에 미치는 영향을 줄여 음원지도의 활용범위를 넓힐 수 있다.
Description
본 발명은 인공지능 신경망 학습방법 및 시스템에 관한 것으로, 더욱 상세하게는 실제 산업현장에서 획득된 배경소음과 가상의 목표음을 이용하여 생성되는 입력지도와 가상의 목표음을 이용하여 생성된 목표지도를 이용하여 인공지능 신경망을 학습시키는 인공지능 신경망 학습방법 및 시스템에 관한 것이다.
음원지도란 특정 영역에 존재하는 임의의 음원들의 위치 및 세기를 표시한 이미지를 의미한다. 음원지도의 대표적인 예시로는 빔포밍(Beamforming) 방 법을 통해 형성되는 빔포밍 지도(Beamforming map)가 있다. 이때, 음원들의 위치 및 세기는 마이크로폰 어레이를 이용하여 취득한 음압값으로부터 산출될 수 있다.
음원지도를 획득하는 종래기술로서, 빔형성 방법(예; 시간지연-합 빔형성(delay-and-sum beamforming) 등)을 사용하여 음원 지도를 얻는 방법 및 point spread function(PSF)를 이용한 반복적인 계산을 통해 공간 분해능을 향상시 킨 디컨볼루션 방법 등이 있다.
특히, 최근에는 음원지도 획득방법에 있어서 딥러닝을 이용한 기술 들이 제안되고 있으며, 이러한 딥러닝 기반 음원지도 획득 기술은, Grid-based, Grid-free 및 목표 지도 기반 방법 등 3가지 부류로 분류된다.
그러나, 실제로 많은 산업 현장은 배경 소음이 심하여, 기존의 방법으로는 원하는 음원의 위치를 찾지 못하는 경우가 많다. 이는 배경소음에 의한 영향이 음원지도에 나타나고, 찾고자 하는 목표음의 위치가 배경소음에 의한 영향에 의해 가려져 잘 보이지 않기 때문이다. 이로 인해 음원지도는 제한적인 상황에서 사용된다.
이에, 배경소음이 음원지도에 미지는 영향을 줄이기 위한 기술 개발이 필요한 실정이다.
(특허문헌 1) KR 10-2414021 B1
상기 전술한 문제점을 해결하기 위하여 본 발명은 배경소음이 존재하는 특정 장소에서 가상의 목표음이 존재하는 것으로 가정한 경우의 입력지도와 위 특정 장소에서 가상의 목표음만 존재하는 경우의 목표지도를 이용하여 인공지능 신경망을 학습시킴으로써 음원지도에서 배경소음의 영향을 저감시킬 수 있는 인공지능 신경망 학습방법 및 시스템을 제공하는 것을 목적으로 한다.
본 발명의 일 실시 예로써, 인공지능 신경망 학습방법이 제공된다.
본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법은, 배경소음 획득부에 의해 특정 장소에 존재하는 배경소음이 획득되는 배경소음 획득단계, 입력지도 생성부에 의해 상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도가 생성되는 입력지도 생성단계, 목표지도 생성부에 의해 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성되는 목표지도 생성단계 및 신경망 학습부에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계를 포함할 수 있다.
본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법에서, 상기 배경소음 획득단계는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.
본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법에서, 상기 입력지도 및 목표지도는, 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.
본 발명의 일 실시 예로써, 인공지능 신경망 학습시스템이 제공된다.
본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템은, 특정 장소에 존재하는 배경소음을 획득하는 배경소음 획득부, 상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도를 생성하는 입력지도 생성부, 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도를 생성하는 목표지도 생성부 및 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망을 학습시키는 신경망 학습부를 포함할 수 있다.
본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템에서, 상기 배경소음 획득부는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.
본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템에서, 상기 입력지도 및 목표지도는, 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.
본 발명의 일 실시 예로써, 전술한 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체가 제공된다.
본 발명에 따르면, 배경소음이 음원지도에 미치는 영향을 줄여 음원지도의 활용범위를 넓힐 수 있다.
또한, 본 발명에 따르면 배경소음뿐만 아니라, 음원지도에서 제거하고 싶은 음원을 손쉽게 제거할 수 있다는 이점이 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급된 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법의 순서도이다.
도 2는 빔포밍 지도의 예이다.
도 3는 가상의 목표음이 존재하는 것으로 가정되는 특정 장소의 예시도이다.
도 4는 본 발명의 일 실시 예에 따른 입력지도와 목표지도의 예이다.
도 5 는 본 발명의 일 실시예에 따른 입력지도 및 목표지도를 생성하는 방법을 모식화한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 인공지능 신경망의 구조이다.
도 7은 본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템의 블록도이다.
도 1은 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법의 순서도이고, 도 2는 빔포밍 지도의 예이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법은 배경소음 획득단계(S100), 입력지도 생성단계(S200), 목표지도 생성단계(S300) 및 신경망 학습단계(S400)를 포함할 수 있다.
상기 배경소음 획득단계(S100)에서는 배경소음 획득부(100)에 의해 특정 장소에 존재하는 배경소음이 획득될 수 있다.
여기서, 배경소음은 버스 승강장, 놀이공원, 어린이대공원 등과 같은 장소에서 발생하는 다양한 종류의 배경소음, 비상 상태에서 일어날 수 있는 피해자의 비명 소리, 재난 및 재해 소리 등과 같이 비상상황을 나타내는 비상상황 암시소음일 수 있다.
실시예에 따라, 상기 배경소음은 사용자에 의해 특정되는 것으로, 음원지도에서 제거하고 싶은 음원일 수 있다.
실시예에 따라, 상기 배경소음 획득단계(S100)에서 상기 배경소음 획득부(100)는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.
예를 들어, 상기 배경소음은 측정장치의 측정면 (Measurement plane)에 다수의 마이크로폰(microphone)을 배열하여 마이크로폰 어레이를 형성하고, 마이크로폰 어레이가 x, y, z 방향에서 수신한 측정신호로부터 음원면상의 각 음원들의 위치 및 세기를 예측함으로써 생성되는 것으로 도 2에 도시된 바와 같은 빔포밍 지도일 수 있다.
이때, 빔포밍 지도란, 빔형성(beamforming) 방법을 통해 형성된 음 원지도로서, 음원에 대한 다양한 음장정보를 갖는 것을 의미할 수 있다.
도 3는 가상의 목표음이 존재하는 것으로 가정되는 특정 장소의 예시도이고, 도 4(a)는 본 발명의 일 실시 예에 따른 입력지도의 예, 도 4(b)는 목표지도의 예이다.
실시예에 따라, 입력지도 생성단계(S200)에서는 입력지도 생성부(200)에 의해 배경소음과 가상의 목표음이 존재하는 특정 장소에 대한 입력지도가 생성될 수 있다.
도 3을 참조하면, 입력지도 생성단계(S200)에서 입력지도 생성부(200)는 배경소음 획득단계에서 획득한 배경소음(A,B)이 존재하는 특정 장소에 가상의 목표음(X)이 존재하는 것으로 가정하고, 상기 가상의 목표음(X)이 존재하는 것으로 가정된 특정 장소에 대한 입력지도를 생성할 수 있다.이때, 목표음이란 배경소음이 존재하는 특정 장소에서 추출하고 싶은 음원을 의미할 수 있으며, 가상의 목표음이 존재하는 것으로 가정되는 특정 장소에는 배경소음이 존재하고 있을 수 있다.
실시 예에 따라, 본 발명의 일 실시예에 따른 목표지도 생성단계(S300)에서는 목표지도 생성부(300)에 의해 특정 장소에 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성될 수 있다.
즉, 입력지도는 배경소음과 가상의 목표음이 모두 존재하는 경우의 특정 장소에 대한 음원지도이고, 목표지도는 가상의 목표음 만이 존재하는 경우의 특정 장소에 대한 음원지도이다.
도 5 는 본 발명의 일 실시예에 따른 입력지도 및 목표지도를 생성하는 방법을 모식화한 도면이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 입력지도 및 목표지도는 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지일 수 있다. 이때, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.
즉, 본 발명에 따른 입력지도 및 목표지도는 음원이 존재하는 특정 영역에 대하여 임의로 생성된 격자 내의 각 좌표와 음원 사이의 거리를 입력값으로 하는 함수를 이용하여 생성될 수 있다. 이때, 상기 함수는 하기의 [수학식 1]과 같이 표현될 수 있다.
예를 들어, 입력지도와 목표지도는 임의의 음원이 존재하는 특정 영역에 대하여 소정 범위의 간격(K)을 갖는 격자를 생성하는 과정, 상기 격자의 각 좌표((1,1), (1,2), (1,3)등)들과 해당 음원(A, B, C) 사이의 거리(R)를 산출하는 과정 및 상기 격자의 각 좌표들과 해당 음원 사이의 거리(R)를 상기 [수학식 1]에 대입하여 결과 값(f)을 산출하고, 상기 결과값을 목표지도를 구성하는 각 픽셀 값으로 지정하는 과정을 통해 생성될 수 있다.
그러나, 입력지도와 목표지도를 생성하는 과정 및 이에 사용되는 함수는 전술한 과정과 [수학식 1]에 한정되는 것은 아니며, 음원의 위치에서 결과값이 최대이고 음원과의 거리에 따라 결과값이 감소하는 경향을 갖는 것이라면 어느 것이든 적용이 가능할 것이다.
실시 예에 따라, 신경망 학습단계(S400)에서는 신경망 학습부(400)에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계(S400)를 포함할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 인공지능 신경망의 구조이다.
도 6을 참조하면, 본 발명의 일 실시 예에 따라 학습된 인공지능 신 경망은 인코더 네트워크(Encoder Network)(도 6(a))와 디코더 네트워크 (Decoder network)(도 6(b))를 포함하고, 상기 인코더 네트워크에서 추출한 특징을 상기 디코더 네트워크로 전송 하는 구조를 가질 수 있다.
그러나, 인코더 네트워크에 입력된 데이터로부터 특징을 추출하여 학습에 사용된 데이터와 입력 데이터를 비교하여 결과 값을 출력하는 구조라면 도 6에 도시된 구조의 모델 외에 다양한 구조의 인공지능 신경망 모델이 적용될 수 있을 것이다.
한편, 상술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터 의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 램, USB, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브 이디 등)와 같은 저장매체를 포함한다.
본 발명의 일 실시 예에 따른 시스템과 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 시스템과 관련하여 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략한다.
도 7은 본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템의 블록도이다.
도 7을 참조하면, 본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템은 배경소음 획득부(100), 입력지도 생성부(200), 목표지도 생성부(300) 및 신경망 학습부(400)를 포함할 수 있다.
배경소음 획득부(100)는 특정 장소에 존재하는 배경소음을 획득할 수 있다.
실시예에 따라, 상기 배경소음 획득부(100)는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.
입력지도 생성부(200)는 특정 장소에 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도를 생성할 수 있다.
목표지도 생성부(300)는 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도를 생성할 수 있다.
실시예에 따라, 상기 입력지도 및 목표지도는, 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.
신경망 학습부(400)는 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망을 학습시킬 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며, 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
Claims (7)
- 배경소음 획득부에 의해 특정 장소에 존재하는 배경소음이 획득되는 배경소음 획득단계;입력지도 생성부에 의해 상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도가 생성되는 입력지도 생성단계;목표지도 생성부에 의해 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성되는 목표지도 생성단계; 및신경망 학습부에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계를 포함하는, 인공지능 신경망 학습방법.
- 제 1 항에 있어서,상기 배경소음 획득단계는,상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 하는, 인공지능 신경망 학습방법.
- 제 1 항에 있어서,상기 입력지도 및 목표지도는,마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며,상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 하는, 인공지능 신경망 학습방법.
- 특정 장소에 존재하는 배경소음을 획득하는 배경소음 획득부;상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도를 생성하는 입력지도 생성부;상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도를 생성하는 목표지도 생성부; 및상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망을 학습시키는 신경망 학습부를 포함하는, 인공지능 신경망 학습시스템.
- 제 4 항에 있어서,상기 배경소음 획득부는,상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 하는, 인공지능 신경망 학습시스템.
- 제 4 항에 있어서,상기 입력지도 및 목표지도는,마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며,상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 하는, 인공지능 신경망 학습시스템.
- 제 1 항 내지 제 3 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2022-0147717 | 2022-11-08 | ||
KR1020220147717A KR20240066662A (ko) | 2022-11-08 | 2022-11-08 | 인공지능 신경망 학습방법 및 학습 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024101730A1 true WO2024101730A1 (ko) | 2024-05-16 |
Family
ID=91032764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2023/016764 WO2024101730A1 (ko) | 2022-11-08 | 2023-10-26 | 인공지능 신경망 학습방법 및 학습 시스템 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20240066662A (ko) |
WO (1) | WO2024101730A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120133330A (ko) * | 2011-05-31 | 2012-12-10 | 삼성에스디에스 주식회사 | 소리 기반 공간지도를 이용한 상황인식 장치 및 방법 |
KR20190106922A (ko) * | 2019-08-30 | 2019-09-18 | 엘지전자 주식회사 | 지능형 음원 분리 방법 및 장치 |
KR20200123503A (ko) * | 2019-04-15 | 2020-10-30 | 현대자동차주식회사 | 인공지능을 이용한 운전자 성향 기반의 차량 엔진음 제어장치 및 제어방법 |
KR20210070586A (ko) * | 2019-12-05 | 2021-06-15 | 주식회사 포스코건설 | Cnn을 이용한 음향 처리방법 |
KR20220098659A (ko) * | 2021-05-16 | 2022-07-12 | (주)에스엠인스트루먼트 | 이상 음원 결정 방법 및 ai 음향 영상 카메라 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102414021B1 (ko) | 2020-09-07 | 2022-06-29 | 한국표준과학연구원 | 인공지능 신경망을 이용한 고해상도 음원지도 취득 및 분석방법 및 시스템 |
-
2022
- 2022-11-08 KR KR1020220147717A patent/KR20240066662A/ko unknown
-
2023
- 2023-10-26 WO PCT/KR2023/016764 patent/WO2024101730A1/ko unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120133330A (ko) * | 2011-05-31 | 2012-12-10 | 삼성에스디에스 주식회사 | 소리 기반 공간지도를 이용한 상황인식 장치 및 방법 |
KR20200123503A (ko) * | 2019-04-15 | 2020-10-30 | 현대자동차주식회사 | 인공지능을 이용한 운전자 성향 기반의 차량 엔진음 제어장치 및 제어방법 |
KR20190106922A (ko) * | 2019-08-30 | 2019-09-18 | 엘지전자 주식회사 | 지능형 음원 분리 방법 및 장치 |
KR20210070586A (ko) * | 2019-12-05 | 2021-06-15 | 주식회사 포스코건설 | Cnn을 이용한 음향 처리방법 |
KR20220098659A (ko) * | 2021-05-16 | 2022-07-12 | (주)에스엠인스트루먼트 | 이상 음원 결정 방법 및 ai 음향 영상 카메라 |
Also Published As
Publication number | Publication date |
---|---|
KR20240066662A (ko) | 2024-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021085784A1 (ko) | 객체 검출 모델의 학습 방법 및 객체 검출 모델이 실행되는 객체 검출 장치 | |
WO2018004154A1 (ko) | 혼합현실 디스플레이 장치 | |
ATE59924T1 (de) | Verfahren und einrichtung zur zusammensetzung einer vielzahl von videobildern in drei dimensionen. | |
WO2020071849A1 (ko) | 실측 깊이정보를 이용한 정밀한 360 이미지 제작기법 | |
WO2023080266A1 (ko) | 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치 | |
WO2020117028A1 (ko) | 질의 응답 장치 및 방법 | |
WO2012086984A2 (en) | Method, device, and system for providing sensory information and sense | |
WO2024101730A1 (ko) | 인공지능 신경망 학습방법 및 학습 시스템 | |
WO2023113252A1 (ko) | 디지털 트윈 모델을 도출하는 장치, 방법 및 컴퓨터 프로그램 | |
CN112331001A (zh) | 一种基于虚拟现实技术的教学系统 | |
Punsara et al. | IoT based sign language recognition system | |
WO2022203123A1 (ko) | 캐릭터를 활용한 인공지능 자연어 처리 기반의 화상교육 콘텐츠 제공 방법 및 장치 | |
WO2021261687A1 (ko) | 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법 | |
WO2020045767A1 (ko) | Lidar를 이용한 이미지 생성 방법 및 이를 위한 장치 | |
WO2023158068A1 (ko) | 객체검출률 향상을 위한 학습시스템 및 그 방법 | |
WO2023277448A1 (ko) | 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템 | |
WO2024038948A1 (ko) | 인공지능 신경망을 이용한 목표지도 추론시스템 및 방법 | |
CN114360329B (zh) | 一种用于艺术教育的交互式多功能演播室 | |
WO2022131390A1 (ko) | 다중 시점 이미지를 사용한 자가지도 학습 기반 3차원 사람 자세 추정 방법 | |
CN110070869A (zh) | 语音互动生成方法、装置、设备和介质 | |
WO2021182670A1 (ko) | 요소 간 관계 추출 기반 이종 얼굴 인식 장치 및 방법 | |
CN115273582A (zh) | 一种基于人工智能的课堂教学应用系统 | |
KR20230108869A (ko) | 딥 러닝을 이용한 가상 인물 생성 모델의 학습방법 | |
CN111860294A (zh) | 一种便于跟踪的人脸捕捉设备 | |
WO2022107951A1 (ko) | 초경량 딥러닝 네트워크 학습 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23888992 Country of ref document: EP Kind code of ref document: A1 |