KR102503404B1

KR102503404B1 - 이상 음원 결정 방법 및 ai 음향 카메라

Info

Publication number: KR102503404B1
Application number: KR1020210067629A
Authority: KR
Inventors: 김영기; 김인권; 정욱진; 김정섭
Original assignee: (주)에스엠인스트루먼트
Priority date: 2021-05-16
Filing date: 2021-05-26
Publication date: 2023-02-24
Also published as: EP4351166A1; WO2022250219A1; KR20220163311A; KR20220098659A; US20220381606A1

Abstract

음원의 위치를 파악하여 위치별 음향 수준 데이터를 생성하는 음원 로컬라이징 수단부와, 위치가 파악된 음원에 대한 시간 영역 음향 신호를 추출하고, 추출된 시간 영역 음향 신호의 음향 특징 이미지를 인공지능 학습 및 인식함으로써 이상 음원으로 추정되는 음원의 종류를 인식하는 인공지능 음향 분석부와, 음원이 위치하고 있는 것으로 인정된 영역의 영상 분석을 통해 음원 위치에 있는 객체의 종류를 인식하는 객체 인식부와, 음원의 종류와 객체의 종류가 공통성을 갖는 경우 진정한 음원으로 판정하는 판단부를 포함하여 구성되는 특징으로 하는 AI 음향 카메라에 관한 것이다.

Description

이상 음원 결정 방법 및 AI 음향 카메라 { Method and AI Acoustic Camera }

삭제

발명은 이상 음원 결정 방법 및 AI 음향 영상 카메라에 관한 것이다.

등록특허 제10-1213539호는 복수개의 MEMS 마이크로폰)을 인쇄회로기판(Print Circuit Board)에 탑재하여 구성되고 감지된 음향에 관한 신호를 데이터수집부로 송신하는 음향감지장치와; 상기 음향감지장치와 연결되고, 상기 음향감지장치로부터 송신된 음향에 관한 아날로그 신호를 샘플링 하여 음향에 관한 디지털신호로 변환하고 이를 중앙처리부로 송신하는 데이터수집부와; 상기 데이터수집부와 연결되고, 상기 데이터 수집부로부터 송신된 음향에 관한 디지털신호를 기초로 소음레벨을 계산하는 중앙처리부와; 상기 중앙처리부와 연결되고, 상기 중앙처리부(50)에서 계산된 소음레벨을 색상으로 디스플레이하는 디스플레이부를 포함하여 구성되되, 상기 MEMS 마이크로폰은 반경방향으로 확장되는 2 ~ 10개의 날개부를 가지는 것을 특징으로 하는 멤스 마이크로폰 어레이를 이용한 음향카메라를 개시한다.

본 발명은 음장 가시화 수단을 통하여 음원의 위치를 파악하고, 위치가 파악된 음원에 대한 시간 데이터를 추출하여 인공지능 학습함으로써 음원으로 추정되는 음원의 종류를 인식하고, 음원이 위치하고 있는 것으로 인정된 영역의 영상 분석을 통해 음원 위치에 있는 객체의 종류를 인식한 후, 음원의 종류와 객체의 종류가 공통성을 갖는 경우 진정한 음원으로 판정하는 AI 음향 영상 카메라를 제공하기 위한 것이다.

<이상 음원 결정 방법>

본 발명의 이상 음원 결정 방법은, 복수개의 음향 센서 어레이에 의해 취득된 음향 데이터를 기초로 하여, 위치별 음원의 크기를 연산하는, 음원 로컬라이징 단계(localizing acoustic source)와; 위치별 음원의 크기를 기초로 하여, 음원이 존재하는 것으로 추정되는 위치의 재생성 시간 영역 음향 신호를 추출하는, 후보 음원 시간 데이터 추출단계와; 후보 음원의 시간 데이터로부터 음향 특징을 추출하여 칼라 특징 이미지를 생성하는, 음향 특징 이미지 생성 단계와; 미리 학습된 인공지능 음향 분류 수단을 이용하여 상기 음향 특징 이미지를 인식하고 상기 후보 음원에 대한 음향 분류를 시행하는, AI 음향 분류 단계와; 후보 음원에 대한 음향 분류가 미리 정의된 감시 대상의 범주에 속하는 경우 이상 음원으로 결정하는, 이상 음원 결정 단계;를 포함하여 구성된다.

본 발명의 이상 음원 결정 방법은, 후보 음원 좌표 또는 인접 지점의 영상 분석(vidio image)을 통하여 후보 음원 위치에 있는 객체의 종류를 결정하는, 객체 영성 분류 단계;를 더 포함하여 구성되고, 상기 이상 음원 결정 단계는, 상기 음향 분류와 객체의 종류가 미리 정해진 감시 대상의 범위에 모두 속하는 경우 이상 음원으로 결정하고, 알람 신호를 생성하는 것이 바람직하다.

본 발명의 이상 음원 결정 방법은, 음향 데이터 습득부(10)가 복수의 음향 센서들로 구성된 음향 센서 어레이(11)를 통하여 음향 데이터를 습득하는, 음향 데이터 습득 단계(S10)와; 음향 처리부(20)의 음향 연산부(21)가 음향 센서 어레이가 향하고 있는 방향의 지점(position)별 음향 레벨을 연산하는, 지점별 음향 레벨 연산 단계(S20, localizing acoustic source)와; 이상 음원 후보 선정부(23)가 일정 수준(또는 미리 정의된)을 초과하는 음향 레벨을 갖는 지점들이 집단을 이루는 적어도 하나 이상의 지역(local area, 이상 음원 후보 지역)에서 하나의 지점(position)을 그 지역 대표 지점(예를들어, 대표 지점은 로컬 최대 지점, local maximum position)으로 선정하는, 이상 음원 후보 선정 단계(S30)와; 음향 처리부(20)가 이상 음원 후보 지역에 속하는 지역 대표 지점의 재생성 시간축 음향 신호(time signal, 시간 영역 빔 포밍된 시간축 음향 신호)를 추출하는, 후보 지점(들)의 시간축 음향 신호 추출 단계(S40)와; 음향 특징 이미지 생성부(50)가 상기 지역 대표 지점(position)의 시간축 음향 신호에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 컬러 이미지(예들들어, 스펙토그램)로 생성하는, 음향 특징 이미지 생성단계(S50)와; AI 음향 분석부(60)가 상기 특징 이미지를 인식하여 미리 학습된 음향 신(acoustic scene) 중의 하나로 분류하는 음향 분류 단계(S60)와; 판단부(80)가 상기 단계(60)의 음향 신(acoustic scene)의 분류가 미리 정의된 이상 음원 감지 대상(예를들어, 음향 신은 가스 누설이고 미리 정의된 감지 대상은 가스 관련 설비)과 일치 또는 관련성을 갖는 경우 후보 지역 또는 지역 대표 지점을 이상 음원으로 결정(determination)하는 이상 음원 결정 단계를 포함한다.

본 발명의 이상 음원 결정 방법은, 객체 인식부(70)가 상기 이상 음원 후보 지역(local area)(들) 또는 상기 이상 음원 후보 지점(position)(들) 인접하는 영역의 영상 이미지(vidio image)를 기초로 하여 이상 음원 후보 지역에 위치한 객체의 종류를 인식하는 객체 인식 단계(S70);를 더 포함하여 구성되는 것이 바람직하다. 상기 AI 음향 분석부(60)에서 결정된 음향 신(acoustic scene)의 분류와, 상기 객체 인식부(70)에서 인식된 객체의 종류(특징)와, 미리 정의된 이상 음원 감지 대상의 범주가 모두 일치하는 경우(예를들어, 음향 신은 가스 누설이고 객체 영상은 가스 배관이고 감지 대상은 가스 관련 설비)에, 상기 판단부(80)는 후보 지역 또는 후보 지점을 이상 음원으로 결정(determination)한다.

본 발명의 이상 음원 결정 방법은, 음원의 위치를 파악하여 위치별 음향 수준 데이터를 생성하는 음원 로컬라이징 단계와; 위치가 파악된 음원에 대한 재성성 시간축 기준 신호를 추출하여 인공지능 학습 및 인식 함으로써 이상 음원으로 추정되는 음원의 종류를 인식하는 인공지능 음향 분류 단계와; 음원이 위치하고 있는 것으로 인정된 영역의 영상 분석을 통해 음원 위치에 있는 객체의 종류를 인식하는 객체 종류 인식 단계와; 판단부가 음원의 종류와 객체의 종류가 공통성을 갖는 경우 진정한 음원으로 판정하는 판단 단계;를 포함하여 구성된다.

본 발명의 AI 음향 카메라는, 음원의 위치를 파악하여 위치별 음향 수준 데이터를 생성하는 음원 로컬라이징 수단부와, 위치가 파악된 음원에 대한 재성성 시간 영역 음향 신호를 추출하고, 재생성 추출된 시간 영역 음향 신호의 음향 특징 이미지를 인공지능 학습 및 인식함으로써 이상 음원으로 추정되는 음원의 종류를 인식하는 인공지능 음향 분석부와, 음원이 위치하고 있는 것으로 인정된 영역의 영상 분석을 통해 음원 위치에 있는 객체의 종류를 인식하는 객체 인식부와, 음원의 종류와 객체의 종류가 공통성을 갖는 경우 진정한 음원으로 판정하는 판단부를 포함하여 구성된다.

본 발명의 AI 음향 카메라는, 복수의 음향 센서들로 구성된 음향 센서 어레이(11)를 통하여 음향 데이터를 습득하는 음향 데이터 습득부(10)와; 음향 센서 어레이가 향하고 있는 방향의 지점(position)별 음향 레벨을 연산(localizing acoustic source)하는 음향 처리부(20)의 음향 연산부(21)와; 일정 수준(또는 미리 정의된)을 초과하는 음향 레벨을 갖는 지점들이 집단을 이루는 적어도 하나 이상의 지역(local area, 이상 음원 후보 지역)에서 하나의 지점(position)을 그 지역 대표 지점(예를들어, 대표 지점은 로컬 최대 지점, local maximum position)으로 선정하는, 이상 음원 후보 선정부(23)와; 이상 음원 후보 지역에 속하는 지역 대표 지점의 재생성 시간축 음향 신호(time signal, 시간 영역 빔 포밍된 시간축 음향 신호)를 추출하는, 음향 처리부(20)의 음향신호 추출부와; 상기 지역 대표 지점(position)의 시간축 음향 신호에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 컬러 이미지(예들들어, 스펙토그램)로 생성하는, 음향 특징 이미지 생성부(50)와; 상기 특징 이미지를 인식하여 미리 학습된 음향 신(acoustic scene) 중의 하나로 분류하는 AI 음향 분석부(60)와; 음향 신(acoustic scene)의 분류가 미리 정의된 이상 음원 감지 대상(예를들어, 음향 신은 가스 누설이고 미리 정의된 감지 대상은 가스 관련 설비)과 일치 또는 관련성을 갖는 경우 후보 지역 또는 지역 대표 지점을 이상 음원으로 결정(determination)하는 판단부(80);를 포함하여 구성된다.

본 발명의 AI 음향 카메라는, 이상 음원 후보 지역(local area)(들) 또는 상기 이상 음원 후보 지점(position)(들) 인접하는 영역의 영상 이미지(vidio image)를 기초로 하여 이상 음원 후보 지역에 위치한 객체의 종류를 인식하는 객체 인식부(70)를 더 포함하여 구성되고, 상기 AI 음향 분석부(60)에서 결정된 음향 신(acoustic scene)의 분류와, 상기 객체 인식부(70)에서 인식된 객체의 종류(특징)와, 미리 정의된 이상 음원 감지 대상의 범주가 모두 일치하는 경우(예를들어, 음향 신은 가스 누설이고 객체 영상은 가스 배관이고 감지 대상은 가스 관련 설비)에, 상기 판단부(80)는 후보 지역 또는 후보 지점을 이상 음원으로 결정(determination)한다.

본 발명에 따르는 경우, 음장 가시화 수단을 통하여 음원의 위치를 파악하고, 위치가 파악된 음원에 대한 시간 데이터를 추출하여 인공지능 학습함으로써 음원으로 추정되는 음원의 종류를 인식하고, 음원이 위치하고 있는 것으로 인정된 영역의 영상 분석을 통해 음원 위치에 있는 객체의 종류를 인식한 후, 음원의 종류와 객체의 종류가 공통성을 갖는 경우 진정한 음원으로 판정하는 AI 음향 카메라가 제공된다.

도 1a은 본 발명의 일실시예에 따른 이상 음원 결정 방법 흐름도.
도 1b은 본 발명의 일실시예에 따른 AI 음향 영상 카메라 구성도.
도 2(a, b, c)는 본 발명의 일실시예에 따른 음원 로컬라이징 및 이상 음원 후보 지역(지점) 선정 과정 설명도.
도 3은 본 발명의 일실시예에 따른 후보 지점 시간축 음향 신호 추출 및 음향 특징 이미지 생성 과정 설명도.
도 4(a, b)는 본 발명의 일실시예에 따른 후보 지점 시간축 음향 신호 추출 과정 설명도.
도 5는 주기적 단발성 반복 패턴 소음에 대한 통상의 1 채널 시간축 음향 신호(도 5a) 및 본 발명의 일실시예에 따라 시간 영역 빔 포밍에 의해 추출된 시간축 음향 신호 예시도(도 5b).
도 6(a, b)는 도 2의 후보 지점 시간축 음향 신호 추출 및 음향 특징 이미지 생성 예시도(도 6a : 가스 누설 지점, 도 6b : 배경소음).
도 7은 본 발명의 사용 상태도.

이하에서 본 발명의 일실시예에 따른 이상 음원 결정 방법 및 AI 음향 영상 카메라에 대하여 첨부된 도면을 참조하여 상세허게 설명한다. 도 1a는 본 발명의 일실시예에 따른 이상 음원 결정 방법 흐름도, 도 1b은 본 발명의 일실시예에 따른 AI 음향 영상 카메라 구성도, 도 2(a, b, c)는 본 발명의 일실시예에 따른 음원 로컬라이징 및 이상 음원 후보 지역(지점) 선정 과정 설명도, 도 3은 본 발명의 일실시예에 따른 후보 지점 시간축 음향 신호 추출 및 음향 특징 이미지 생성 과정 설명도, 도 4(a, b)는 본 발명의 일실시예에 따른 후보 지점 시간축 음향 신호 추출 과정 설명도, 도 5(a, b)는 도 2의 후보 지점 시간축 음향 신호 추출 및 음향 특징 이미지 생성 예시도(도 5a : 가스 누설 지점, 도 5b : 배경소음)이다.

본 발명에서 음원은 20KHz~100KHz 범위에 속하는 초음파 음원을 포함한다.

본 발명의 일실시예에 따른 이상 음원 결정 방법은 음원 로컬라이징 단계(localizing acoustic source)와; 후보 음원 시간 데이터 추출단계와 음향 특징 이미지 생성 단계와 AI 음향 분류 단계와 이상 음원 결정 단계를 포함하고 객체 영상 분류 단계를 선택적으로 포함한다.

도 1a에 도시된 바와 같이, 본 발명의 일실시예에 따른 이상 음원 결정 방법은 음향 데이터 습득 단계(S10)와 지점별 음향 레벨 연산 단계(S20, localizing acoustic source)와 이상 음원 후보 선정 단계(S30)와 후보 지점(들)의 시간축 음향 신호 추출 단계(S40)와 음향 특징 이미지 생성단계(S50)와 음향 분류 단계(S60)와 이상 음원 결정 단계(S80)를 포함한다. 본 발명의 일실시예에 따른 이상 음원 결정 방법은 객체 인식 단계(S70)와 알람 및 전송 단계(S90)를 선택적으로 포함한다.

도 1b에 도시된 바와 같이, 본 발명의 AI 음향 영상 카메라는, 음향 데이터 습득부(10)와 음향 처리부(20)의 음향 연산부(21)와 이상 음원 후보 선정부(23)와 음향 처리부(20)의 음향신호 추출부와 음향 특징 이미지 생성부(50)와 AI 음향 분석부(60)와 판단부(80)를 포함하여 구성되고, 본 발명의 AI 음향 영상 카메라는, 객체 인식부(70)와 전송부(90)와 서버(110)를 선택적으로 포함한다. 본 발명의 AI 음향 영상 카메라는, 음원 로컬라이징 수단부와, 인공지능 음향 분석부와, 객체 인식부와, 판단부를 포함하여 구성된다.

a) 음원 로컬라이징 및 이상음원 후보 지역 선정

음원 로컬라이징

먼저, 음원 로컬라이징 단계(localizing acoustic source)에서 복수개의 음향 센서 어레이에 의해 취득된 음향 데이터를 기초로 하여, 위치별 음원의 크기를 연산한다.

세부적으로, 음향 데이터 습득 단계(S10)에서 음향 데이터 습득부(10)가 복수의 음향 센서들로 구성된 음향 센서 어레이(11)를 통하여 음향 데이터를 습득한다.

다음으로, 지점별 음향 레벨 연산 단계(S20, localizing acoustic source)애서 음향 처리부(20)의 음향 연산부(21)가 음향 센서 어레이가 향하고 있는 방향의 지점(position)별 음향 레벨을 연산한다. 구체적으로 음향 레벨은 지점별 빔 파워이다.

일실시예에서, 센서 좌표와 가상평면 좌표를 이용하여 센서)들과 가상평면 지점간 거리들을 연산하는 지연 거리 연산하고, 지연 거리들을 이용하여 상기 음파 신호들에 각각 시간 지연 보정을 적용하고 이들을 합산하여 가상 평면 지점들의 음원값)들을 생성한다. 생성된 음원값들의 빔 파워 레벨(Beam Power Level)들을 연산하여 생성한다.

본 발명의 출원인에 의해 특허 등록된 미국 특허 US10945705 B2 Portable ultrasonic facilities diagnosis device (휴대용 초음파의 설비 진단 장치) 및 한국 특허 제10-1976756호(방사 초음파 가시화용 전자적 수단을 포함하는 휴대용 초음파 영상 설비 진단 장치)에 개시된 음원 로컬라이징(음장 가시화)에 관한 내용은 본 발명의 명세서에 기재된 것으로 본다.

도 2(a, b, c)는 본 발명의 일실시예에 따른 음원 로컬라이징 결과를 광학 영상과 음장 가시화 결과(지점별 음향 레벨, 여기서 레벨은 빔 파워)를 중첩하여 보여주는 영상이다.

센서 어레이에 속하는 각 센서를 통하여 수집되는 신호의 지점과 센서 사이의 시간 지연을 검출하여 센서 배열의 전방에 있는 음원의 발생 위치를 추정하는 지연-합(delay and sum) 빔형성 방법을 통하여 음원 로컬라이징을 수행한다.

이상 음원 후보 선정

이상 음원 후보 선정 단계(S30)에서 이상 음원 후보 선정부(23)가 일정 수준(또는 미리 정의된)을 초과하는 음향 레벨을 갖는 지점들이 집단을 이루는 적어도 하나 이상의 지역(local area, 이상 음원 후보 지역)에서 하나의 지점(position)을 그 지역 대표 지점(예를들어, 대표 지점은 로컬 최대 지점, local maximum position)으로 선정한다.

도 2a에 도시된 바와 같이, 일실시예에서 일정 수준(또는 미리 정의된)을 초과하는 음향 레벨을 갖는 지점들의 집단을 이루는 제1 지역(local area, 이상 음원 후보 지역)과 제2 지역이 존재한다. 일반적으로 지역에 하나의 음원이 존재할 가능성이 높으므로 지역의 선정에 있어서 각 지역의 중심부로 갈수록 음향 레벨(빔 파워 레벨)이 연속적으로 증가하는지 여부를 지역 선정 여부의 인자(파라미터)로 사용할 수 있다.

예를들어, 제1 지역 대표 지점은 제1 지역에서 빔 파워 레벨(beam power level)이 최대인 지점인 것이 바람직하다. 제1 지역에서 중심부를 형성하는 적색 부분에 대표 지점이 있을 것이다. 제2 지역도 같은 방식으로 대표 지점을 선정한다.

b) 시간 영역 음향 신호 추출

시간 영역 음향 신호와 시간축 음향 신호는 같은 의미로 시간(time)의 흐름에 따라 표현된 음향 신호를 말한다. 종축이 시간축이고 횡축이 음향 신호의 진폭을 이룬다.

다음으로 후보 음원 시간 영역 음향 신호 추출단계에서, 위치별 음원의 크기를 기초로 하여, 음원이 존재하는 것으로 추정되는 위치의 재생성(시간 영역 빔 포밍)된 시간 영역 음향 신호를 추출한다. 일실시예에서 음원이 존재하는 것으로 추정되는 위치는 대표 지점, 또는 지역의 최대 레벨 지점일 수 있다.

시간축 음향 신호 추출 단계(S40)에서, 음향 처리부(20)가 이상 음원 후보 지역에 속하는 지역 대표 지점의 시간축 음향 신호(time signal, 시간 영역 빔 포밍된 시간축 음향 신호)를 추출한다.

본 발명에서 "지점의 재생성 시간 영역 음향 신호"는, 다수의 음향 센서를 이용하여 특정 지점(또는 특정 방향)의 음원을 재구성하는 음향학적 방법 또는 빔 포밍 방법에 의해 생성된 시간축 기준 음향 신호를 말한다.

도 3에 도시된 바와 같이, 시간축 음향 신호의 재생성은 지연 빔 합산 방법으로 행될 수 있다. 센서 어레이를 이루는 각 센서들과 지역 대표 지점사이의 지연 거리를 연산하고 각 센서의 취득 신호에 지연 거리 만큼 시간 지연(delay)을 적용하여 보정하고, 보정된 신호들을 합(sum)하여 대표 지점에 대한 시간측 신호를 생성한다.

시간축 음향 신호 추출 단계(S40)에서, 지점별 음향 레벨 연산 단계(S20) 즉, 음원 로컬라이징 단계(localizing acoustic source)에서 시간 영역 빔 포밍에 의해 재생성된 각 지점의 음향 신호 들 중에서 대표 지점에 위치하는 음향 신호를 추출(선택)하여 가져올 수 있다.

도 4는 본 발명의 일실시예에 따른 시간 영역 빔 포밍 즉, 시간 영역 신호 재생성 과정의 일실시예를 보여준다.

마이크로폰에 도달하는 음압 신호는

이다.

위치, 시간별 스캔 벡터(지연시간)는

이다.

지연-합 빔포밍 출력 신호, 즉, 재생성 시간 영역 음향 신호는

이다.

여기서, M은 마이크로폰 채널 번호이고, θ는 음원의 입사 각도이다.

도 5는 단발성 반복 패턴의 시간 영역 음향신호를 보여준다. 도 5a는 단채널에 의해 직접 측정된 신호이고, 도 5b는 본 발명과 같이 다수의 음향 센서(마이크로폰)를 활용하여 빔 포밍을 통해 재생성된 시간 영역 음향 신호를 보여준다. 이와 같이 지점에 대한 시간 신호 추출에 의해 시간 영역 신호의 특징이 부각되고 이것을 음향 특징 이미지로 표현되며 인공 지능 음향 분석으로 인식된다.

c) 음향 특징 이미지 생성

도 3, 도 6(a, b)에 도시된 바와 같이, 음향 특징 이미지 생성 단계에서, 후보 음원의 시간 영역 음향 신호로부터 음향 특징을 추출하여 칼라 특징 이미지를 생성한다.

도 1, 도 3, 도 6(a, b)에 도시된 바와 같이,음향 특징 이미지 생성단계(S50)에서 음향 특징 이미지 생성부(50)가 상기 지역 대표 지점(position)의 시간축 음향 신호에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 컬러 이미지(예들들어, 스펙토그램)로 생성한다.

도 6a는 도 2의 실시예 중 하나의 후보 지점(제1 지역, 가스 누설지점, 500cc/min)의 시간축 음향 신호(시간 영역 음향 신호)와 스펙토그램을 보여준다. 도 6b는 도 2의 실시예 중 하나의 후보 지점(배경 소음 시뮬레이션부, 제2 지역)의 시간축 음향 신호(시간 영역 음향 신호)와 스펙토그램을 보여준다.

음향 특징 이미지 생성부(50)는 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT), 단시간 푸리에 변환(Multi-resolution Short-Time Fourier Transform), 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy), 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜 스펙트로그램, 중에서 선택된 적어도 하나의 특징 파라미터를 이미화하여 입력 및 학습 데이터로 생성할 수 있다.

d) AI 음향 분류

AI 음향 분류 단계에서, 미리 학습된 인공지능 음향 분류 수단을 이용하여 상기 음향 특징 이미지를 인식하고 상기 후보 음원에 대한 음향 분류를 시행한다.

음향 분류 단계(S60)에서, AI 음향 분석부(60)가 상기 특징 이미지를 인식하여 미리 학습된 음향 신(acoustic scene) 중의 하나로 분류한다. 예를들어, AI 음향 분석부(60)는 음향 특징 이미지를 이용하여 트레이닝된 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 적용하여 후보 음원에 대한 음향 분류를 시행할 수 있다.

e) 객체 인식

객체 영상 분류 단계에서, 후보 음원 좌표 또는 인접 지점의 영상 분석(vidio image)을 통하여 후보 음원 위치에 있는 객체의 종류를 결정한다. 이상 음원 결정 단계는, 상기 음향 분류와 객체의 종류가 미리 정해진 감시 대상의 범위에 모두 속하는 경우 이상 음원으로 결정하고, 알람 신호를 생성한다.

객체 인식 단계(S70)에서, 객체 인식부(70)가 상기 이상 음원 후보 지역(local area)(들) 또는 상기 이상 음원 후보 지점(position)(들) 인접하는 영역의 영상 이미지(vidio image)를 기초로 하여 이상 음원 후보 지역에 위치한 객체의 종류를 인식한다.

예를들어, 객체 인식부(70)는 설비 환경 인간 등의 이미지를 미리 학습한 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 포함하고, 이상 음원 후보 지점(position)(들) 인접하는 영역의 영상 이미지(vidio image)를 입력받아ㅣ서 객체의 종류(종류 : 설비, 인간, 파이프, 모터, 기계장치, 변압기, 전력선)를 판별하는 인공지능 수단일 수 있다. 도 6은 본 발명의 사용 상태도이며, 가스 설비, 인간, 모터 설비 등이 보이는 영상 이미지와 및 이상 음원 후보 지역(소음 발생 지역)을 보여준다.

f) 판단

이상 음원 결정 단계에서, 후보 음원에 대한 음향 분류가 미리 정의된 감시 대상의 범주에 속하는 경우 이상 음원으로 결정한다.

도 1에 도시된 바와 같이, 이상 음원 결정 단계(S80)에서, 판단부(80)가 상기 단계(60)의 음향 신(acoustic scene)의 분류가 미리 정의된 이상 음원 감지 대상(예를들어, 음향 신은 가스 누설이고 미리 정의된 감지 대상은 가스 관련 설비)과 일치 또는 관련성을 갖는 경우 후보 지역 또는 지역 대표 지점을 이상 음원으로 결정(determination)한다.

객체 인식부(70)에 의한 객체 인식 단계(S70)를 포함하는 경우, AI 음향 분석부(60)에서 결정된 음향 신(acoustic scene)의 분류와, 상기 객체 인식부(70)에서 인식된 객체의 종류(특징)와, 미리 정의된 이상 음원 감지 대상의 범주가 모두 일치하는 경우(예를들어, 음향 신은 가스 누설이고 객체 영상은 가스 배관이고 감지 대상은 가스 관련 설비)에, 판단부(80)는 후보 지역 또는 후보 지점을 이상 음원으로 결정(determination)한다.

e) 알람 및 전송

도 1에 도시된 바와 같이, 알람 및 전송 단계(S90)에서 이상 음원 후보 지역(local area) 또는 이상 음원 후보 지점(position)이 이상 음원으로 결정(determination)되는 경우 상기 판단부(80)는 알람(alarm) 신호를 생성한다. 전송부(90)는, 광학 영상 이미지(vidio image)와 음향 연산부(21)에 생성된 음장 가시화 영상을 중첩한 광 음향 이미지 정보를 서버(110)에 전송한다.

본 발명은 상기에서 언급한 바람직한 실시예와 관련하여 설명됐지만, 본 발명의 범위가 이러한 실시예에 한정되는 것은 아니며, 본 발명의 범위는 이하의 특허청구범위에 의하여 정하여지는 것으로 본 발명과 균등 범위에 속하는 다양한 수정 및 변형을 포함할 것이다.

아래의 특허청구범위에 기재된 도면부호는 단순히 발명의 이해를 보조하기 위한 것으로 권리범위의 해석에 영향을 미치지 아니함을 밝히며 기재된 도면부호에 의해 권리범위가 좁게 해석되어서는 안될 것이다.

10 : 음향 데이터 습득부
11 : 음향 센서 어레이
20 : 음향 처리부
21 : 음향 연산부
23 : 이상 음원 후보 선정부
50 : 음향 특징 이미지 생성부
60 : AI 음향 분석부
70 : 객체 인식부
80 : 판단부
90 : 전송부
110 : 서버

Claims

삭제
복수개의 음향 센서 어레이에 의해 취득된 음향 데이터를 기초로 하여, 위치별 음원의 크기를 연산하는, 음원 로컬라이징 단계(localizing acoustic source)와;

위치별 음원의 크기를 기초로 하여, 음원이 존재하는 것으로 추정되는 위치의 재생성 시간 영역 음향 신호를 추출하는, 후보 음원 시간 영역 음향 신호 추출단계와;

후보 음원의 시간 영역 음향 신호의 특징을 추출하여 음향 특징 이미지를 생성하는, 음향 특징 이미지 생성 단계와;

미리 학습된 인공지능 음향 분류 수단을 이용하여 상기 음향 특징 이미지를 인식하고 상기 후보 음원에 대한 음향 분류를 시행하는, AI 음향 분류 단계와;

후보 음원에 대한 음향 분류가 미리 정의된 감시 대상의 범주에 속하는 경우 이상 음원으로 결정하는, 이상 음원 결정 단계와;

후보 음원 좌표 또는 인접 지점의 영상 분석(vidio image)을 통하여 후보 음원 위치에 있는 객체의 종류를 결정하는, 객체 영상 분류 단계;를 포함하여 구성되고,

상기 이상 음원 결정 단계는, 상기 음향 분류와 객체의 종류가 미리 정해진 감시 대상의 범위에 모두 속하는 경우 이상 음원으로 결정하고, 알람 신호를 생성하는 것을 특징으로 하는 이상 음원 결정 방법.
음향 데이터 습득부(10)가 복수의 음향 센서들로 구성된 음향 센서 어레이(11)를 통하여 음향 데이터를 습득하는, 음향 데이터 습득 단계(S10)와;

음향 처리부(20)의 음향 연산부(21)가 음향 센서 어레이가 향하고 있는 방향의 지점(position)별 음향 레벨을 연산하는, 지점별 음향 레벨 연산 단계(S20, localizing acoustic source)와;

이상 음원 후보 선정부(23)가 일정 수준(또는 미리 정의된)을 초과하는 음향 레벨을 갖는 지점들이 집단을 이루는 적어도 하나 이상의 지역(local area, 이상 음원 후보 지역)에서 하나의 지점(position)을 그 지역 대표 지점으로 선정하는, 이상 음원 후보 선정 단계(S30)와;

음향 처리부(20)가 이상 음원 후보 지역에 속하는 지역 대표 지점의 재생성 시간축 음향 신호(time signal, 시간 영역 빔 포밍에 의해 재생성된 시간축 음향 신호)를 추출하는, 후보 지점(들)의 재생성 시간축 음향 신호 추출 단계(S40)와;

음향 특징 이미지 생성부(50)가 상기 지역 대표 지점(position)의 시간축 음향 신호에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 음향 특징 이미지를 생성하는, 음향 특징 이미지 생성단계(S50)와;

AI 음향 분석부(60)가 상기 음향 특징 이미지를 인식하여 미리 학습된 음향 신(acoustic scene) 중의 하나로 분류하는 음향 분류 단계(S60)와;

판단부(80)가 상기 단계(S60)의 음향 신(acoustic scene)의 분류가 미리 정의된 이상 음원 감지 대상과 일치 또는 관련성을 갖는 경우 후보 지역 또는 지역 대표 지점을 이상 음원으로 결정(determination)하는 이상 음원 결정 단계(S80);을 포함하여 구성되는 것을 특징으로 하는 이상 음원 결정 방법.
제3항에 있어서,
객체 인식부(70)가 상기 이상 음원 후보 지역(local area)(들) 또는 상기 이상 음원 후보 지점(position)(들) 인접하는 영역의 영상 이미지(vidio image)를 기초로 하여 이상 음원 후보 지역에 위치한 객체의 종류를 인식하는 객체 인식 단계(S70);를 더 포함하여 구성되고,

상기 AI 음향 분석부(60)에서 결정된 음향 신(acoustic scene)의 분류와, 상기 객체 인식부(70)에서 인식된 객체의 종류와, 미리 정의된 이상 음원 감지 대상의 범주가 모두 일치하는 경우에, 상기 판단부(80)는 후보 지역 또는 후보 지점을 이상 음원으로 결정(determination)하는 것을 특징으로 하는 이상 음원 결정 방법.
제3항 또는 제4항에 있어서,
상기 이상 음원 후보 지역(local area) 또는 이상 음원 후보 지점(position)이 이상 음원으로 결정(determination)되는 경우 상기 판단부(80)는 알람(alarm) 신호를 생성하고,
전송부(90)는, 광학 영상 이미지(vidio image)와 음향 연산부(21)에 생성된 음장 가시화 영상을 중첩한 광 음향 이미지 정보를 서버(110)에 전송하는, 알람 및 전송 단계(S90);를 더 포함하여 구성되는 특징으로 하는 이상 음원 결정 방법.
복수의 음향 센서들로 구성된 음향 센서 어레이에 의해 취득된 음향 데이터를 기초로 하여 위치별 음원의 크기를 연산하여 음원의 위치를 파악하고 위치별 음향 수준 데이터를 생성하는 음원 로컬라이징 단계와;
위치가 파악된 음원에 대한 재생성 시간축 기준 신호를 추출하여 인공지능 학습 및 인식 함으로써 이상 음원으로 추정되는 음원의 종류를 인식하는 인공지능 음향 분류 단계와;
음원이 위치하고 있는 것으로 인정된 영역의 영상 분석을 통해 음원 위치에 있는 객체의 종류를 인식하는 객체 종류 인식 단계와;
판단부가 음원의 종류와 객체의 종류가 공통성을 갖는 경우 진정한 음원으로 판정하는 판단 단계;를 포함하여 구성되는 특징으로 하는 이상 음원 결정 방법.
복수의 음향 센서들로 구성된 음향 센서 어레이에 의해 취득된 음향 데이터를 기초로 하여 위치별 음원의 크기를 연산하여 음원의 위치를 파악하고 위치별 음향 수준 데이터를 생성하는 음원 로컬라이징 수단부와,
위치가 파악된 음원에 대한 재생성 시간 영역 음향 신호를 추출하고, 추출된 시간 영역 음향 신호의 음향 특징 이미지를 인공지능 학습 및 인식함으로써 이상 음원으로 추정되는 음원의 종류를 인식하는 인공지능 음향 분석부와,
음원이 위치하고 있는 것으로 인정된 영역의 영상 분석을 통해 음원 위치에 있는 객체의 종류를 인식하는 객체 인식부와,
음원의 종류와 객체의 종류가 공통성을 갖는 경우 진정한 음원으로 판정하는 판단부를 포함하여 구성되는 특징으로 하는 AI 음향 카메라.
복수의 음향 센서들로 구성된 음향 센서 어레이(11)를 통하여 음향 데이터를 습득하는 음향 데이터 습득부(10)와;

음향 센서 어레이가 향하고 있는 방향의 지점(position)별 음향 레벨을 연산(localizing acoustic source)하는 음향 처리부(20)의 음향 연산부(21)와;

일정 수준(또는 미리 정의된)을 초과하는 음향 레벨을 갖는 지점들이 집단을 이루는 적어도 하나 이상의 지역(local area, 이상 음원 후보 지역)에서 하나의 지점(position)을 그 지역 대표 지점으로 선정하는, 이상 음원 후보 선정부(23)와;

이상 음원 후보 지역에 속하는 지역 대표 지점의 재생성 시간축 음향 신호(time signal, 시간 영역 빔 포밍에 의해 생성된 시간축 음향 신호)를 추출하는, 음향 처리부(20)의 음향신호 추출부와;

상기 지역 대표 지점(position)의 시간축 음향 신호에 대한 특징 추출 또는 변환을 통해 얻어진 데이터를 기초로 하여 음향 특징 이미지를 생성하는, 음향 특징 이미지 생성부(50)와;

상기 음향 특징 이미지를 인식하여 미리 학습된 음향 신(acoustic scene) 중의 하나로 분류하는 AI 음향 분석부(60)와;

음향 신(acoustic scene)의 분류가 미리 정의된 이상 음원 감지 대상과 일치 또는 관련성을 갖는 경우 후보 지역 또는 지역 대표 지점을 이상 음원으로 결정(determination)하는 판단부(80);를 포함하여 구성되는 것을 특징으로 하는 AI 음향 카메라.
제8항에 있어서,
상기 이상 음원 후보 지역(local area)(들) 또는 상기 이상 음원 후보 지점(position)(들) 인접하는 영역의 영상 이미지(vidio image)를 기초로 하여 이상 음원 후보 지역에 위치한 객체의 종류를 인식하는 객체 인식부(70)를 더 포함하여 구성되고,

상기 AI 음향 분석부(60)에서 결정된 음향 신(acoustic scene)의 분류와, 상기 객체 인식부(70)에서 인식된 객체의 종류(특징)와, 미리 정의된 이상 음원 감지 대상의 범주가 모두 일치하는 경우에, 상기 판단부(80)는 후보 지역 또는 후보 지점을 이상 음원으로 결정(determination)하는 것을 특징으로 하는 AI 음향 카메라.
제7항에 있어서,
상기 판단부는 이상 음원 후보 지역(local area) 또는 이상 음원 후보 지점(position)이 이상 음원으로 결정(determination)되는 경우 알람(alarm) 신호를 생성하고,

광학 영상 이미지(vidio image)와 음향 연산부(21)에 생성된 음장 가시화 영상을 중첩한 광 음향 이미지 정보를 서버(110)에 전송하는 전송부(90)를 더 포함하여 구성되는 것을 특징으로 하는 AI 음향 카메라.
제7항에 있어서,
상기 음향 특징 이미지는 스펙토그램(spectrogram) 인 것을 특징으로 하는 AI 음향 카메라.