KR102577110B1 - 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치 - Google Patents

높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치 Download PDF

Info

Publication number
KR102577110B1
KR102577110B1 KR1020210090662A KR20210090662A KR102577110B1 KR 102577110 B1 KR102577110 B1 KR 102577110B1 KR 1020210090662 A KR1020210090662 A KR 1020210090662A KR 20210090662 A KR20210090662 A KR 20210090662A KR 102577110 B1 KR102577110 B1 KR 102577110B1
Authority
KR
South Korea
Prior art keywords
acoustic
scene
image
signal
unit
Prior art date
Application number
KR1020210090662A
Other languages
English (en)
Other versions
KR20220098661A (ko
Inventor
김영기
김인권
정욱진
김정섭
Original Assignee
(주)에스엠인스트루먼트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에스엠인스트루먼트 filed Critical (주)에스엠인스트루먼트
Priority to PCT/KR2022/010091 priority Critical patent/WO2023287149A1/ko
Publication of KR20220098661A publication Critical patent/KR20220098661A/ko
Application granted granted Critical
Publication of KR102577110B1 publication Critical patent/KR102577110B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R29/00Arrangements for measuring or indicating electric quantities not covered by groups G01R19/00 - G01R27/00
    • G01R29/26Measuring noise figure; Measuring signal-to-noise ratio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 높은 신호대 잡음비를 갖는 고성능 인공지능 장면 인식 음향 상태 감시 방법에 관한 것으로, 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 광학 영상 취득 단계(S10)와; AI 부분 영상 인식부(30)가, 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하는, 부분 객체 인식 단계(S20)와; 음향 센서 어레이(acoustic sensor array, 15)를 가지고 상기 장면(scene)에 대해 취득된 음향 신호들(acoustic signals)로부터 빔 포밍 기법을 이용하여 부분 객체(part objective)가 위치하고 있는 영역(area)의 음향 신호를 재생성하는, 음향 신호 재생성 단계(S30)와; 광학 영상 취득 단계(S10)와 부분 객체 인식 단계(S20)와 음향 신호 재생성 단계(S30)를 서로 다른 시간에 반복하는 단계(S40)와; 상태 감시부(60)가, 동일성이 인정되는 특정(하나의, 같은) 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 해당 부분 객체의 음향 상태을 감시하는, 음향 상태 감시 단계(S50);를 포함하여 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 고성능 인공지능 장면 인식 음향 상태 감시 방법에 관한 것이다.

Description

높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치 { AI Scene Recognition Acoustic Monitoring Method and Device }
본 발명은 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치에 관한 것이다.
등록특허 제10-1213539호는 복수개의 MEMS 마이크로폰)을 인쇄회로기판(Print Circuit Board)에 탑재하여 구성되고 감지된 음향에 관한 신호를 데이터수집부로 송신하는 음향감지장치와; 상기 음향감지장치와 연결되고, 상기 음향감지장치로부터 송신된 음향에 관한 아날로그 신호를 샘플링 하여 음향에 관한 디지털신호로 변환하고 이를 중앙처리부로 송신하는 데이터수집부와; 상기 데이터수집부와 연결되고, 상기 데이터 수집부로부터 송신된 음향에 관한 디지털신호를 기초로 소음레벨을 계산하는 중앙처리부와; 상기 중앙처리부와 연결되고, 상기 중앙처리부(50)에서 계산된 소음레벨을 색상으로 디스플레이하는 디스플레이부를 포함하여 구성되되, 상기 MEMS 마이크로폰은 반경방향으로 확장되는 2 ~ 10개의 날개부를 가지는 것을 특징으로 하는 멤스 마이크로폰 어레이를 이용한 음향카메라를 개시한다.
본 발명은 공장이나 산업 설비가 위치하는 장면에 대한 영상 이미지를 인공니지능으로 분석하여 주요 부품(부분 객체)를 인식하고 주요 부품이 위치하고 있는 영역에 대한 음향 신호를 빔 포밍으로 재생성하여 주기적으로 분석 고찰 함으로써 상태 감시를 수행하는 인공지능 장면 인식 음향 상태 감시 방법 및 장치를 제공하기 위한 것이다.
또한, 부분 객체(특정 부품)가 위치하는 지점에 대한 음향 신호를 빔 포밍으로 재생성하여 배경 잡음 및 인접 부품의 소음이 제거된 상태의 음향 신호를 취급함으로써 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치를 제공하기 위한 것이다.
본 발명의 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법은, 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 광학 영상 취득 단계(S10)와; AI 부분 영상 인식부(30)가, 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하는, 부분 객체 인식 단계(S20)와;
음향 센서 어레이(acoustic sensor array, 15)를 가지고 상기 장면(scene)에 대해 취득된 음향 신호들(acoustic signals)로부터 빔 포밍 기법을 이용하여 부분 객체(part objective)가 위치하고 있는 영역(area)의 음향 신호를 재생성하는, 음향 신호 재생성 단계(S30)와; 광학 영상 취득 단계(S10)와 부분 객체 인식 단계(S20)와 음향 신호 재생성 단계(S30)를 서로 다른 시간에 반복하는 단계(S40)와;
상태 감시부(60)가, 동일성이 인정되는 특정(하나의, 같은) 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 해당 부분 객체의 음향 상태을 감시하는, 음향 상태 감시 단계(S50);를 포함하여 구성되는 것을 특징이다.
본 발명의 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법은, 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 음향 신호 취득부(20)가 음향 센서 어레이(acoustic sensor array)를 이용하여 상기 장면(scene)에 대한 음향 신호들(acoustic signals)을 취득하는, 광학 영상 및 음향 신호 취득 단계(S110)와;
AI 부분 영상 인식부(30)가, 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하고 부분 객체 위치 영역을 정의하는, 부분 객체 인식 단계(S120)와; 부분 객체를 위한 음향 신호 재생성부(40)가, 상기 음향 신호들(acoustic signals)들을 가지고 빔 포밍 기법을 이용하여 상기 부분 객체(part objective) 위치 영역(area)에 포함되는 "일부 지점(position)에 대한 음향 신호"를 재생성하는 음향 신호 재생성 단계(S130)와;
데이터 저장부(50)가, 상기 음향 신호 재생성 단계(S130)에서 생성된 "부분 객체에 대한 재생성 음향 신호(high S/N)"를 저장하는, 재생성 음향 신호 저장 단계(S140)와; 상태 감시부(60)가, 동일성이 인정되는 특정(하나의, 같은) 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 부분 객체의 음향 특성의 변화를 감시하는, 음향 상태 감시 단계(S150);를 포함하여 구성되는 것을 특징으로 한다.
음향 상태 감시 단계(S150) 전에, 상기 광학 영상 및 음향 신호 취득 단계(S110)와 부분 객체 인식 단계(S120)와 음향 신호 재생성 단계(S130)와 재생성 음향 신호 저장 단계(S140)을 반복하는 단계를 더 포함할 수 있다.
영상 생성부(10)의 광학 카메라와 음향 신호 취득부(20)는 하나의 몸체에 구성되고, 상기 영상 생성부(10)의 광학 카메라와 음향 신호 취득부(20)를 함께 탑재한 몸체는 다른 장면의 영상 및 음향 데이터를 수집할 수 있도록 이동식 또는 방향 전환식으로 구성될 수 있다.
본 발명의 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치는, 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하는 영상 생성부(10)와; 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하는, AI 부품 영상 인식부(30)와; 음향 센서 어레이(acoustic sensor array)를 가지고 상기 장면(scene)에 대해 취득된 음향 신호들(acoustic signals)로부터 빔 포밍 기법을 이용하여 부분 객체(part objective)가 위치하고 있는 영역(area)의 음향 신호를 재생성하는, 음향 신호 재생성부(40)와; 동일성이 인정되는 특정(하나의, 같은) 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 해당 부분 객체의 음향 상태을 감시하는, 상태 감시부(60);를 포함하여 구성되는 것을 특징이다.
본 발명의 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치는, 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 음향 신호 취득부(20)가 음향 센서 어레이(acoustic sensor array)를 이용하여 상기 장면(scene)에 대한 음향 신호들(acoustic signals)을 취득하는, 광학 영상 및 음향 신호부(100)와; 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하고 부분 객체 위치 영역을 정의하는, AI 부분 영상 인식부(30)와;
상기 음향 신호들(acoustic signals)들을 가지고 빔 포밍 기법을 이용하여 상기 부분 객체(part objective) 위치 영역(area)에 포함되는 "일부 지점(position)에 대한 음향 신호"를 재생성하는, 부분 객체를 위한 음향 신호 재생성부(40)와; 상기 음향 신호 재생성부(40)에서 생성된 "부분 객체에 대한 재생성 음향 신호(high S/N)"를 저장하는, 데이터 저장부(50)와; 동일성이 인정되는 특정(하나의, 같은) 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 부분 객체의 음향 특성의 변화를 감시하는, 상태 감시부(60);를 포함하여 구성되는 것을 특징이다.
본 발명에 따르는 경우 공장이나 산업 설비가 위치하는 장면에 대한 영상 이미지를 인공니지능으로 분석하여 주요 부품(부분 객체)를 인식하고 주요 부품이 위치하고 있는 영역에 대한 음향 신호를 빔 포밍으로 재생성하여 주기적으로 분석 고찰 함으로써 상태 감시를 수행하는 인공지능 장면 인식 음향 상태 감시 방법 및 장치가 제공된다.
또한, 본 발명에 따르는 경우, 부분 객체(특정 부품)가 위치하는 지점에 대한 음향 신호를 빔 포밍으로 재생성하여 배경 잡음 및 인접 부품의 소음이 제거된 상태의 음향 신호를 취급함으로써 높은 신호대 잡음비(High Signal to Noise)를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치가 제공된다.
도 1(a, b)은 본 발명의 일실시예에 따른 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 흐름도.
도 2는 본 발명의 일실시예에 따른 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치 전체 구성도.
도 3(a, b, c)은 본 발명의 일실시예에 따른 감시 대상이 되는 장면과 부분(부품) 인식 개념도.
도 4는 본 발명의 일실시예에 따른 후보 지점 시간축 음향 신호 재생성 및 음향 특징 이미지 생성 과정 설명도.
도 5는 본 발명의 일실시예에 따른 부분 객체에 대한 시간축 음향 신호 재생성 과정 설명도.
도 6a은 주기적 단발성 반복 패턴 소음에 대한 통상의 1 채널 시간축 음향 신호, 도 6b는 본 발명의 일실시예에 따라 시간 영역 빔 포밍에 의해 재생성된 시간축 음향 신호 예시도.
도 7a는 장면 전체(재생성 신호 처리 이전)의 시간축 음향 신호에 대한 음향 특징 이미지 생성 예시도.
도 7b는 재생성된 특정한 부분 객체의 시간축 음향 신호에 대한 음향 특징 이미지 생성 예시도.
도 8은 본 발명의 부분 객체 영역 음향 분포 설명도.
이하에서 본 발명의 일실시예에 따른 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치에 대하여 첨부된 도면을 참조하여 상세하게 설명한다. 도 1(a, b)은 본 발명의 일실시예에 따른 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 흐름도, 도 2는 본 발명의 일실시예에 따른 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치 전체 구성도, 도 3은 본 발명의 일실시예에 따른 감시 대상이 되는 장면 예시도, 도 4는 본 발명의 일실시예에 따른 후보 지점 시간축 음향 신호 재생성 및 음향 특징 이미지 생성 과정 설명도, 도 5는 본 발명의 일실시예에 따른 부분 객체에 대한 시간축 음향 신호 재생성 과정 설명도, 도 6a은 주기적 단발성 반복 패턴 소음에 대한 통상의 1 채널 시간축 음향 신호, 도 6b는 본 발명의 일실시예에 따라 시간 영역 빔 포밍에 의해 재생성된 시간축 음향 신호 예시도, 도 7은 재생성된 부분 객체 시간축 음향 신호에 대한 음향 특징 이미지 생성 예시도이고, 도 8은 본 발명의 부분 객체 영역 음향 분포 설명도이다.
본 발명에서 음원은 20Hz ~ 20KHz 범위에 속하는 음파 대역의 음원 뿐 아니라 20KHz~100KHz 범위에 속하는 초음파 음원을 포함한다.
장면의 부분 객체 인식
(1) 일실시예에서 광학 영상 취득 단계(S10)에서 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성한다. 부분 객체 인식 단계(S20)에서 AI 부분 영상 인식부(30)가, 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식한다.
(2) 다른 실시예에서, 광학 영상 및 음향 신호 취득 단계(S110)에서, 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 음향 신호 취득부(20)가 음향 센서 어레이(acoustic sensor array)를 이용하여 상기 장면(scene)에 대한 음향 신호들(acoustic signals)을 취득한다. 부분 객체 인식 단계(S120)에서, AI 부분 영상 인식부(30)가, 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하고 부분 객체 위치 영역을 정의한다.
예를들어, AI 부분 영상 인식부(30)는 설비 환경 인간 등의 이미지를 미리 학습한 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 포함하고, 장면의 영상 이미지(vidio image)를 입력받아서 객체의 종류(종류 : 설비, 인간, 파이프, 모터, 기계장치, 변압기, 전력선)를 판별하는 인공지능 수단일 수 있다.
예를들어, 도 3a의 장면에서 AI 부분 영상 인식부(30)는 장면 이미지로부터 노트부그 병 가방 등을 인식하고 그 위치 정보를 음향 신호 재생성부(40)에 전송한다. 예를들어, 도 3b와 같은 공장 내부 장면에서 AI 부분 영상 인식부(30)는 의자 이동 설비 인간 기계류 선반 등을 인식하여 그 위치 정보를 음향 신호 재생성부(40)에 전송한다. 도 3c의 장면에서 AI 부분 영상 인식부(30)는 가스 설비, 인간, 모터 설비 , 파이프, 파이프 조인트 지점 등을 인식하여 위치 정보를 음향 신호 재생성부(40)에 전송한다.
부분 객체에 대한 시간 영역 음향 신호 재생성
음향 신호 재생성 단계(S30)에서, 음향 신호 재생성부(40)가 음향 센서 어레이(acoustic sensor array, 15)를 가지고 상기 장면(scene)에 대해 취득된 음향 신호들(acoustic signals)로부터 빔 포밍 기법을 이용하여 부분 객체(part objective)가 위치하고 있는 영역(area)의 음향 신호를 재생성한다. 즉, 부분 객체를 위한 음향 신호 재생성부(40)가, 상기 음향 신호들(acoustic signals)들을 가지고 빔 포밍 기법을 이용하여 상기 부분 객체(part objective) 위치 영역(area)에 포함되는 "일부 지점(position)에 대한 음향 신호"를 재생성한다.
시간 영역 음향 신호와 시간축 음향 신호는 같은 의미로 시간(time)의 흐름에 따라 표현된 음향 신호를 말한다. 종축이 시간축이고 횡축이 음향 신호의 진폭을 이룬다.
본 발명에서 "지점의 재생성 시간 영역 음향 신호"는, 다수의 음향 센서를 이용하여 특정 지점(또는 특정 방향)의 음원을 재구성하는 음향학적 방법 또는 빔 포밍 방법에 의해 생성된 시간축 기준 음향 신호를 말한다.
도 4에 도시된 바와 같이, 부분 객체에 대한 시간축 음향 신호의 재생성은 지연 빔 합산 방법으로 행될 수 있다. 센서 어레이를 이루는 각 센서들과 지역 대표 지점사이의 지연 거리를 연산하고 각 센서의 취득 신호에 지연 거리 만큼 시간 지연(delay)을 적용하여 보정하고, 보정된 신호들을 합(sum)하여 대표 지점에 대한 시간측 신호를 생성한다.
부분 객체에 대한 시간축 음향 신호의 재생성 단계에서, 음원 로컬라이징 단계(localizing acoustic source)에서 시간 영역 빔 포밍에 의해 재생성된 각 지점의 음향 신호 들 중에서 부분 객체 영역에 포함되는 대표 지점(하나의 지점)에 위치하는 음향 신호를 선택하여 가져올 수 있다.
도 5는 본 발명의 일실시예에 따른 시간 영역 빔 포밍 즉, 시간 영역 신호 재생성 과정의 일실시예를 보여준다.
마이크로폰에 도달하는 음압 신호는
이다.
위치, 시간별 스캔 벡터(지연시간)는
이다.
지연-합 빔포밍 출력 신호, 즉, 재생성 시간 영역 음향 신호는
이다.
여기서, M은 마이크로폰 채널 번호이고, θ는 음원의 입사 각도이다.
도 6a은 주기적 단발성 반복 패턴 소음에 대한 통상의 1 채널 시간축 음향 신호, 도 6b는 본 발명의 일실시예에 따라 시간 영역 빔 포밍에 의해 재생성된 시간축 음향 신호 예시도이다.
도 6a가 포함하고 있는 배경 잡음 및 인접 부품의 소음이 부분 객체(특정 부품)에 대한 음향 신호 빔 포밍을 통하여 제거된다. 그래서 도 6b와 같이 높은 신호대 잡음비(High Signal to Noise)를 갖으며 부분 객체의 음향 특성을 대표하는 음향 신호가 재생성된다.
주기적 모니터링 및 상태 감시
(1) 일실시예에서,광학 영상 취득 단계(S10)와 부분 객체 인식 단계(S20)와 음향 신호 재생성 단계(S30)를 서로 다른 시간에 반복된다. 다음으로 음향 상태 감시 단계(S50)에서 상태 감시부(60)가, 동일성이 인정되는 특정(하나의, 같은) 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 해당 부분 객체의 음향 상태을 감시한다.
(2) 다른 실시예에서, 재생성 음향 신호 저장 단계(S140)에서, 데이터 저장부(50)가, 상기 음향 신호 재생성 단계(S130)에서 생성된 "부분 객체에 대한 재생성 음향 신호(high S/N)"를 저장한다.
다음으로 음향 상태 감시 단계(S150) 전에 상기 광학 영상 및 음향 신호 취득 단계(S110)와 부분 객체 인식 단계(S120)와 음향 신호 재생성 단계(S130)와 재생성 음향 신호 저장 단계(S140)을 반복하는 단계가 시행된다.
다음으로 음향 상태 감시 단계(S150)에서, 상태 감시부(60)가, 동일성이 인정되는 특정(하나의, 같은) 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 부분 객체의 음향 특성의 변화를 감시한다.
(음향 특징 이미지 생성)
예를들어, 상태 감시부(50)의 음향 특징 이미지 생성부(65)는, 부분 객체에 대한 시간축 기준 재생성 음향 신호(high S/N)에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 컬러 이미지(예들들어, 스펙토그램)로 생성한다. AI 음향 분석부(67)는 특징 이미지를 인식하여 미리 학습된 인공 지능 수단으로 분석한다.
도 4, 도 7b에 도시된 바와 같이, 음향 특징 이미지 생성과 관련하여, 부분 객체에 대한 재생성 음향 신호로부터 음향 특징을 추출하여 칼라 특징 이미지를 생성한다. 음향 특징 이미지 생성부(65)가 부분 객체에 대한 재생성 음향 신호에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 컬러 이미지(예들들어, 스펙토그램)로 생성할 수 있다.
도 7a는 신호 재생성 이전의 장면 전체에 대한 시간축 음향 신호와 그에 대한 음향 특징 이미지(스펙토그램, 종축 : 시간, 횡축 : 주파수, 색상 : 주파수 대역별 음향 레벨)를 보여준다.
도 7b는 실시예 중 하나의 부분 객체 지점(예를들어, 모터, 노트북)의 시간축 음향 신호(시간 영역 음향 신호)와 스펙토그램을 보여준다. 음향 특징 이미지 생성부(65)는 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT), 단시간 푸리에 변환(Multi-resolution Short-Time Fourier Transform), 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy), 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜 스펙트로그램, 중에서 선택된 적어도 하나의 특징 파라미터를 이미화하여 입력 및 학습 데이터로 생성할 수 있다.
도 7a에서 보이지 않았던 부분 객체의 결함신호가 도 7b에서 발견할 수 있음을 알수 있다.
이동식 또는 방향 전환식
일실시예에서 영상 생성부(10)의 광학 카메라와 음향 신호 취득부(20)는 하나의 몸체에 구성되고 CCTV 와 같은 고정식 일수 있다.
다른 실시예에서 영상 생성부(10)의 광학 카메라와 음향 신호 취득부(20)를 함께 탑재한 몸체는 다른 장면의 영상 및 음향 데이터를 수집할 수 있도록 이동식 또는 방향 전환식으로 구성될 수 있다.
이동식 또는 방향 전환식의 경우 영상 생성부(10)의 광학 영상(visual image)을 생성과 음향 신호 취득부(20)의 음향 신호(acoustic signals)의 취득이 동시간대(시간적 싱크로나이지드)에 이루어진다. 이동식 또는 방향 전환식의 경우, 일정 장면에서 영상 신호 취득 후, 음향 신호의 시간적 축적(음향 분석을 위해 유효한 time average를 위한 충분한 시간축 신호의 확보)을 위하여 일정 시간 이상 잠시 멈춘 장면(이동중 멈춤)에서 음향 신호의 취득이 이루어질수 있다.
도 8은 종래 기술에 의한 가스설비 장면의 빔 포밍에 의한 음장 가시화 결과에 따른 음향 레벨 분포를 보여준다, 상기 장면을 본 발명의 실시예에 적용하는 경우, 본 발명의 AI 부분 영상 인식부(30)가 배관의 레귤레이터(제1 지역)를 인식하고 위치 정보를 음향 신호 재생성부(40)에 전달하면, 음향 신호 재생성부(40)가 배관의 레귤레이터 지점의 위치를 수신하여 빔 포밍에 의하여 그 지점(영역)의 시간축 음향 신호를 재생성 한다.
음향특징 이미지 생성부(65)가 부분 객체(배관의 레귤레이터 영역)에 대한 재생성 음향 신호에 대한 스펙토그램 이미지로 생성하고, AI 음향 분석부(67)는 배관의 레귤레이터 영역에 대한 스펙토그램 이미지를 인식, 비교하여 변화 여부를 감시할 것이다.
본 발명은 상기에서 언급한 바람직한 실시예와 관련하여 설명됐지만, 본 발명의 범위가 이러한 실시예에 한정되는 것은 아니며, 본 발명의 범위는 이하의 특허청구범위에 의하여 정하여지는 것으로 본 발명과 균등 범위에 속하는 다양한 수정 및 변형을 포함할 것이다.
아래의 특허청구범위에 기재된 도면부호는 단순히 발명의 이해를 보조하기 위한 것으로 권리범위의 해석에 영향을 미치지 아니함을 밝히며 기재된 도면부호에 의해 권리범위가 좁게 해석되어서는 안될 것이다.
10 : 영상 생성부
15 : 음향 어레이
30 : AI 부품 영상 인식부
40 : 음향 신호 재생성부
50 : 데이터 저장부
60 : 상태 감시부
65 : 음향 특징 이미지 생성부
67 : AI 음향 분석부
100 : 광학 영상 및 음향 신호부

Claims (8)

  1. 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 광학 영상 취득 단계(S10)와;

    AI 부분 영상 인식부(30)가, 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분 객체(part objective)를 인식하는, 부분 객체 인식 단계(S20)와;

    음향 센서 어레이(acoustic sensor array, 15)를 가지고 상기 장면(scene)에 대해 취득된 음향 신호들(acoustic signals)로부터 빔 포밍 기법을 이용하여 부분 객체(part objective)가 위치하고 있는 영역(area)의 음향 신호를 재생성하는, 음향 신호 재생성 단계(S30)와;

    광학 영상 취득 단계(S10)와 부분 객체 인식 단계(S20)와 음향 신호 재생성 단계(S30)를 서로 다른 시간에 반복하는 단계(S40)와;

    상태 감시부(60)가, 동일성이 인정되는 특정 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 해당 부분 객체의 음향 상태를 감시하는, 음향 상태 감시 단계(S50);
    를 포함하여 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법.
  2. 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 음향 신호 취득부(20)가 음향 센서 어레이(acoustic sensor array)를 이용하여 상기 장면(scene)에 대한 음향 신호들(acoustic signals)을 취득하는, 광학 영상 및 음향 신호 취득 단계(S110)와;

    AI 부분 영상 인식부(30)가, 인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분 객체(part objective)를 인식하고 부분 객체 위치 영역을 정의하는, 부분 객체 인식 단계(S120)와;

    부분 객체를 위한 음향 신호 재생성부(40)가, 상기 음향 신호들(acoustic signals)들을 가지고 빔 포밍 기법을 이용하여 상기 부분 객체(part objective) 위치 영역(area)에 포함되는 "일부 지점(position)에 대한 음향 신호"를 재생성하는 음향 신호 재생성 단계(S130)와;

    데이터 저장부(50)가, 상기 음향 신호 재생성 단계(S130)에서 생성된 "부분 객체에 대한 재생성 음향 신호"를 저장하는, 재생성 음향 신호 저장 단계(S140)와;

    상태 감시부(60)가, 동일성이 인정되는 특정 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 부분 객체의 음향 특성의 변화를 감시하는, 음향 상태 감시 단계(S150);
    를 포함하여 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법.
  3. 제2항에 있어서,
    상기 음향 상태 감시 단계(S150) 전에,
    상기 광학 영상 및 음향 신호 취득 단계(S110)와 부분 객체 인식 단계(S120)와 음향 신호 재생성 단계(S130)와 재생성 음향 신호 저장 단계(S140)을 반복하는 단계를 더 포함하여 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 영상 생성부(10)의 광학 카메라와 음향 신호 취득부(20)는 하나의 몸체에 구성되고,
    상기 영상 생성부(10)의 광학 카메라와 음향 신호 취득부(20)를 함께 탑재한 몸체는 다른 장면의 영상 및 음향 데이터를 수집할 수 있도록 이동식 또는 방향 전환식으로 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법.
  5. 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하는 영상 생성부(10)와;

    인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하는, AI 부품 영상 인식부(30)와;

    음향 센서 어레이(acoustic sensor array)를 가지고 상기 장면(scene)에 대해 취득된 음향 신호들(acoustic signals)로부터 빔 포밍 기법을 이용하여 부분 객체(part objective)가 위치하고 있는 영역(area)의 음향 신호를 재생성하는, 음향 신호 재생성부(40)와;

    동일성이 인정되는 특정 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 해당 부분 객체의 음향 상태을 감시하는, 상태 감시부(60);
    를 포함하여 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치.
  6. 영상 생성부(10)가 광학 카메라로 장면(scene)을 촬상하여 장면에 대한 광학 영상(visual image)을 생성하고, 음향 신호 취득부(20)가 음향 센서 어레이(acoustic sensor array)를 이용하여 상기 장면(scene)에 대한 음향 신호들(acoustic signals)을 취득하는, 광학 영상 및 음향 신호부(100)와;

    인공지능 수단을 이용하여 상기 광학 영상(visual image) 내의 부분(부품) 객체(part objective)를 인식하고 부분 객체 위치 영역을 정의하는, AI 부분 영상 인식부(30)와;

    상기 음향 신호들(acoustic signals)들을 가지고 빔 포밍 기법을 이용하여 상기 부분 객체(part objective) 위치 영역(area)에 포함되는 "일부 지점(position)에 대한 음향 신호"를 재생성하는, 부분 객체를 위한 음향 신호 재생성부(40)와;

    상기 음향 신호 재생성부(40)에서 생성된 "부분 객체에 대한 재생성 음향 신호"를 저장하는, 데이터 저장부(50)와;

    동일성이 인정되는 특정 부분 객체에 대하여 서로 다른 시간대에 생성되어 저장된 재생성 음향 신호들을 비교 분석함으로써 부분 객체의 음향 특성의 변화를 감시하는, 상태 감시부(60);를
    포함하여 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치.
  7. 제5항 또는 제6항에 있어서,
    상기 음향 신호 재생성부(40)는, 음향 센서 어레이(acoustic sensor array)를 가지고 상기 장면(scene)에 대해 취득된 음향 신호(acoustic signal)들로부터 지연 빔 합성 기법을 이용하여 부분 객체(part objective)가 위치하고 있는 영역(area)의 시간축 기준 음향 신호를 재생성하는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치.
  8. 제5항 또는 제6항에 있어서,
    상기 상태 감시부(60)는,
    부분 객체에 대한 시간축 기준 재생성 음향 신호에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 컬러 이미지로 생성하는, 음향 특징 이미지 생성부(65)와;
    상기 특징 이미지를 인식하여 미리 학습된 인공 지능 수단으로 분석하는 AI 음향 분석부(67)를 포함하여 구성되는 것을 특징으로 하는 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 장치.
KR1020210090662A 2021-06-20 2021-07-12 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치 KR102577110B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/010091 WO2023287149A1 (ko) 2021-06-20 2022-07-12 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210079692 2021-06-20
KR1020210079692 2021-06-20

Publications (2)

Publication Number Publication Date
KR20220098661A KR20220098661A (ko) 2022-07-12
KR102577110B1 true KR102577110B1 (ko) 2023-09-11

Family

ID=82419811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210090662A KR102577110B1 (ko) 2021-06-20 2021-07-12 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102577110B1 (ko)
WO (1) WO2023287149A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190259378A1 (en) * 2018-02-20 2019-08-22 Krishna Khadloya Audio type detection

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102150013B1 (ko) * 2013-06-11 2020-08-31 삼성전자주식회사 음향신호를 위한 빔포밍 방법 및 장치
KR101955956B1 (ko) * 2017-04-26 2019-03-11 (주)에스엠인스트루먼트 방사 초음파 가시화 방법 및 방사 초음파 가시화 방법을 수행하는 프로그램이 기록된 전자적 기록 매체
KR102663375B1 (ko) * 2019-10-23 2024-05-08 엘지전자 주식회사 음성 및 영상 자동 포커싱 방법 및 장치
KR20210039312A (ko) * 2020-09-30 2021-04-09 (주)에스엠인스트루먼트 Cctv 연계형 음향 시각화 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190259378A1 (en) * 2018-02-20 2019-08-22 Krishna Khadloya Audio type detection

Also Published As

Publication number Publication date
WO2023287149A1 (ko) 2023-01-19
KR20220098661A (ko) 2022-07-12

Similar Documents

Publication Publication Date Title
US9875410B2 (en) Camera system for transmitting and receiving an audio signal and operating method of the same
US10129658B2 (en) Method and apparatus for recovering audio signals from images
Zou et al. Tracking humans using multi-modal fusion
AU2011309954A1 (en) Integrated audio-visual acoustic detection
CN108414240A (zh) 一种检测机器异常振动的方法与装置
KR20220163311A (ko) 이상 음원 결정 방법 및 ai 음향 영상 카메라
CN109104683B (zh) 一种双麦克风相位测量校正的方法及校正系统
Vuong et al. Learnable spectro-temporal receptive fields for robust voice type discrimination
Pan et al. Cognitive acoustic analytics service for Internet of Things
US8890953B1 (en) Optical-based scene detection and audio extraction
KR102577110B1 (ko) 높은 신호대 잡음비를 갖는 인공지능 장면 인식 음향 상태 감시 방법 및 장치
ITBO980410A1 (it) Procedimento ed apparato per la guida automatica di videocamere median te microfono .
KR20210060157A (ko) 인공지능 기반 고장 진단 장치 및 방법
RU174044U1 (ru) Аудиовизуальный многоканальный детектор наличия голоса
CN114927141B (zh) 异常水声信号的检测方法及系统
KR100492882B1 (ko) 환경음향을 이용한 보안장치
KR102319687B1 (ko) 무선 음향 센서들을 채용한 감시 시스템
Hakim et al. MIZ Implementation of Discrete Wavelet Transform on Movement Images and Recognition by Artificial Neural Network Algorithm
Li et al. Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Using Temporal Modulation Features on Gammatone Auditory Filterbank.
Hu et al. An embedded audio–visual tracking and speech purification system on a dual-core processor platform
Qu et al. Remote audio/video acquisition for human signature detection
CN110933254A (zh) 一种基于图像分析的声音过滤系统及其声音过滤方法
KR20040025149A (ko) 영상/환경음향을 이용한 보안장치
KR20230006309A (ko) 가스 설비 감시용 ai 음향 영상 카메라
Choi et al. Probabilistic speaker localization in noisy environments by audio-visual integration

Legal Events

Date Code Title Description
G15R Request for early publication
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant