KR102564070B1 - 다차원 센서 데이터 기반 객체인식장치 및 방법 - Google Patents

다차원 센서 데이터 기반 객체인식장치 및 방법 Download PDF

Info

Publication number
KR102564070B1
KR102564070B1 KR1020210020498A KR20210020498A KR102564070B1 KR 102564070 B1 KR102564070 B1 KR 102564070B1 KR 1020210020498 A KR1020210020498 A KR 1020210020498A KR 20210020498 A KR20210020498 A KR 20210020498A KR 102564070 B1 KR102564070 B1 KR 102564070B1
Authority
KR
South Korea
Prior art keywords
information
unit
image
visualized
sound
Prior art date
Application number
KR1020210020498A
Other languages
English (en)
Other versions
KR20220116972A (ko
Inventor
김병학
이수웅
Original Assignee
한국생산기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국생산기술연구원 filed Critical 한국생산기술연구원
Priority to KR1020210020498A priority Critical patent/KR102564070B1/ko
Publication of KR20220116972A publication Critical patent/KR20220116972A/ko
Application granted granted Critical
Publication of KR102564070B1 publication Critical patent/KR102564070B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 3D 센서부의 포인트 클라우드 데이터(PCD, Point Cloud Data)에 객체의 속도(frequency)와 진동(음향, acoustic)의 세기(magnitude) 정보가 추가적으로 표현되는 다차원 센서 데이터 기반 객체인식장치 및 방법을 제공한다.

Description

다차원 센서 데이터 기반 객체인식장치 및 방법{A multi-dimensional sensor data based object recognition device and method}
본 발명은 다차원 센서 데이터 기반 객체인식장치 및 방법에 관한 것으로, 보다 상세하게는 3D 센서의 포인트 클라우드 데이터(PCD, Point Cloud Data)에 객체의 속도(frequency)와 진동(음향, acoustic)의 세기(magnitude) 정보가 추가적으로 표현되는 다차원 센서 데이터 기반 객체인식장치 및 방법에 관한 것이다.
입체 음향(3차원 음향)은 방향감, 거리감 및 공간감 등이 적용된 입체적인 현장감을 갖는 음향을 의미한다.
최근 입체음향 기술은 음원이나 청취자가 움직이면 음원과 청취자 간의 상대적인 위치가 변하므로, 이러한 상호작용을 반영할 수 있는 대화형(Interactive) 3차원 음향 기술로 발전하고 있다.
이러한, 3차원 음향 기술은 최신 음향 미들웨어가 개발됨에 따라 더욱 편리하게 구현할 수 있게 되었다. 하지만, 3차원 사운드를 구현하기 위해서는 음원과 청취자 각각에 대한 3차원 좌표를 수동적으로 설정해야 한다.
또한, 실시간으로 불규칙하게 변하는 동적 음원(또는 청취자)의 경우에는 3차원 좌표의 설정이 매우 어렵다.
이에 따라 종래의 2차원 전자광학시스템의 가림, 반사, 포화 등의 현상을 극복하기 위하여 사용되는 레이저 기반의 3차원 전자광학시스템이 사용되며, 이를 이용하여 소형의 객체를 높은 정밀도로 탐지하기 위하여, 지능형 가변 탐색 반경 기반의 클러스터링이 정밀 객체 탐지 기술로 개발되어 왔다.
또한, 소형 물체의 속도 및 방향의 정보를 확인하기 위하여 객체 탐지의 궤적 추적/예측 등의 방법이 연구되고 있으나, 구현되는 알고리즘의 원리가 복잡하고, 연산 부하가 큰 문제점이 있다.
따라서, 현재에는 물체의 좌표점 탐지의 제한적인 결과로만 활용되고 있는 실정이다.
(특허문헌 1) 등록특허공보 제10-2151250호(2020.08.27.)
(특허문헌 2) 등록특허공보 제10-1673579호(2016.11.01.)
상기와 같은 문제를 해결하기 위한 본 발명의 목적은 스캔 구조를 가지는 3차원 센서부를 사용하여 객체의 거리 좌표 점 및 각 좌표 점의 속도/진동(음향) 정보를 동시에 획득하고 객체가 존재하는 공간의 좌표 정보와 음성의 정보를 동시에 식별하여 비접촉(원격) 객체의 기계적 특성 분석과 원격 음성인식 기술을 구현하는 다차원 센서 데이터 기반 객체인식장치 및 방법을 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 구성은 객체의 3차원 이미지 및 음향을 감지하여 상기 객체에 대한 3차원 이미지정보 및 음향정보를 생성하는 3차원 센서부; 상기 음향정보에서 소음을 제거하고 상기 음향정보를 시각화하며 상기 음향정보의 특성을 추출하는 전처리부; 상기 3차원 이미지정보 및 상기 시각화된 음향정보를 학습하여 찾아낸 패턴으로 상기 3차원 이미지정보 및 상기 시각화된 음향정보를 분류하는 이미지 분류부; 상기 분류된 3차원 이미지정보를 매핑한 결과와 상기 분류된 음향정보를 인공지능의 RNN(Recurrent Neural Network) 응용기술인 LSTM(Long Short-Term Memory)에 적용시킨 결과를 학습하여 상기 객체의 기계적 특성을 분석한 분석정보를 생성하는 특성분석부; 및 상기 특성분석부로부터 전송되는 상기 분석정보를 기반으로 상기 3차원 이미지정보에 상기 객체의 거리 좌표점과 상기 객체의 각 좌표점의 상기 음향정보를 융합한 데이터세트를 생성하는 데이터세트 생성부;를 포함하는 것을 특징으로 하는 다차원 센서 데이터 기반 객체인식장치를 제공한다.
본 발명의 실시예에 있어서, 상기 전처리부는 상기 음향정보의 소음을 제거한 정보를 멜 스펙트로그램(mel spectrogram)에 적용한 정보를 MFCC(Mel-Frequency Cepstral Coefficient)로 전송하고, 상기 MFCC는 상기 시각화된 음향정보로부터 시각화된 특성정보를 추출하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 있어서, 상기 이미지분류부는, 상기 3차원 센서부로부터 전송되는 상기 3차원 이미지정보를 학습하여 3차원 이미지패턴을 찾아낸 후 상기 3차원 이미지패턴을 이용하여 상기 3차원 이미지정보를 분류하는 제1 이미지분류부; 및 상기 MFCC로부터 전송되는 상기 시각화된 특성정보를 학습하여 특성패턴을 찾아낸 후 상기 특성패턴을 이용하여 상기 시각화된 특성정보를 분류하는 제2 이미지분류부;를 포함하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 있어서, 상기 특성분석부는, 상기 제1 이미지분류부로부터 전송되는 상기 3차원 이미지정보를 분류한 3차원 이미지 분류정보를 매핑하는 매핑부; 상기 제2 이미지분류부로부터 전송되는 상기 시각화된 특성정보를 분류한 시각화된 특성분류정보를 학습하는 LSTM부; 및 상기 매핑부로부터 전송되는 상기 3차원 이미지 분류정보와 상기 LSTM부로부터 전송되는 상기 시각화된 특성분류정보를 학습하는 RPN(Reason Proposal Network)부;를 포함하고, 상기 매핑부는 상기 객체의 각 좌표점의 상기 음향정보를 컬러에서 주파수로 매핑하고 길이를 진폭으로 매핑하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 있어서, 상기 음향정보는 상기 객체에 대한 속도정보, 진동정보 및 음성정보를 포함하고, 상기 데이터세트 생성부는 상기 RPN부에서 학습된 정보를 기반으로 상기 객체의 3차원이미지에 상기 속도정보, 상기 진동정보 및 상기 음성정보 중 적어도 어느 하나가 표시되는 데이터세트를 생성하는 것을 특징으로 할 수 있다.
또한, 상기와 같은 목적을 달성하기 위한 본 발명의 구성은 (a) 3차원 센서부가 객체의 3차원 이미지 및 음향을 감지하여 상기 객체에 대한 3차원 이미지정보 및 음향정보를 생성하는 단계; (b) 전처리부가 상기 음향정보에서 소음을 제거하고 상기 음향정보를 시각화하며 상기 음향정보의 특성을 추출하는 단계; (c) 이미지분류부가 상기 3차원 이미지정보 및 상기 시각화된 음향정보를 학습하여 찾아낸 패턴으로 상기 3차원 이미지정보 및 상기 시각화된 음향정보를 분류하는 단계; (d) 특성분석부가 상기 분류된 3차원 이미지정보를 매핑한 결과와 상기 분류된 음향정보를 LSTM에 적용시킨 결과를 학습하여 객체의 기계적 특성을 분석한 분석정보를 생성하는 단계; 및 (e) 데이터세트 생성부가 상기 특성분석부로부터 전송되는 상기 분석정보를 기반으로 상기 3차원 이미지정보에 상기 객체의 거리 좌표점과 상기 객체의 각 좌표점의 음향정보를 융합한 데이터세트를 생성하는 단계;를 포함하는 것을 특징으로 하는 다차원 센서 데이터 기반 객체인식방법을 제공한다.
본 발명의 실시예에 있어서, 상기 (a) 단계는, (a1) 상기 3차원 센서부가 상기 객체의 형상을 감지한 상기 3차원 이미지정보를 생성하는 단계; (a2) 상기 3차원 센서부가 상기 객체의 상태를 감지한 상기 음향정보를 생성하는 단계; 및 (a3) 상기 3차원 센서부가 상기 음향정보를 상기 전처리부로 전송하는 단계를 포함하고, 상기 음향정보는 상기 객체에 대한 속도정보, 진동정보 및 음성정보를 포함하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 있어서, 상기 (b) 단계는, (b1) 상기 전처리부가 상기 3차원 센서부로부터 전송되는 상기 음향정보를 수신하는 단계; (b2) 상기 전처리부가 상기 음향정보에서 소음을 제거하는 단계; (b3) 상기 전처리부가 상기 소음이 제거된 음향정보를 상기 MFCC에 적용시켜 상기 시각화된 음향정보로부터 시각화된 특성정보를 추출하는 단계; 및 (b4) 상기 전처리부가 상기 이미지분류부로 상기 시각화된 특성정보를 전송하는 단계;를 포함하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 있어서, 상기 (c) 단계는, (c1) 제1 이미지분류부가 상기 3차원 센서부로부터 전송되는 상기 3차원 이미지정보를 수신하는 단계; (c2) 제1 이미지분류부가 상기 3차원 이미지정보를 학습하여 3차원 이미지패턴을 찾아내는 단계; (c3) 상기 제1 이미분류부가 상기 3차원 이미지패턴을 이용하여 상기 3차원 이미지정보를 분류하는 단계; (c4) 제2 이미지분류부가 상기 MFCC로부터 전송되는 상기 시각화된 특성정보를 학습하여 특성패턴을 찾아내는 단계; (c5) 상기 제2 이미지분류부가 상기 특성패턴을 이용하여 상기 시각화된 특성정보를 분류하는 단계; 및 (c6) 상기 제1, 2 이미지분류부가 상기 분류된 3차원 이미지정보 및 상기 분류된 특성정보를 상기 특성분석부로 전송하는 단계;를 포함하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 있어서, 상기 (d) 단계는, (d1) 매핑부가 상기 제1 이미지분류부로부터 전송되는 상기 3차원 이미지정보를 분류한 3차원 이미지 분류정보를 매핑하는 단계; (d2) LSTM부가 상기 제2 이미지분류부로부터 전송되는 상기 시각화된 특성정보를 분류한 시각화된 특성분류정보를 학습하는 단계; 및 (d3) RPN부가 상기 매핑부로부터 전송되는 상기 3차원 이미지 분류정보와 상기 LSTM부로부터 전송되는 상기 시각화된 특성분류정보를 학습하여 객체의 특성을 분석하는 단계;를 포함하고, 상기 매핑부는 상기 객체의 각 좌표점의 상기 음향정보를 컬러에서 주파수로 매핑하고 길이를 진폭으로 매핑하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 있어서, 상기 (e) 단계에서, 상기 음향정보는 상기 객체에 대한 속도정보, 진동정보 및 음성정보를 포함하고, 상기 데이터세트 생성부는 상기 RPN부에서 학습된 정보를 기반으로 상기 객체의 3차원이미지에 상기 속도정보, 상기 진동정보 및 상기 음성정보 중 적어도 어느 하나가 표시되는 데이터세트를 생성하는 것을 특징으로 할 수 있다.
상기와 같은 구성에 따르는 본 발명의 효과는, 스캔 구조를 가지는 3차원 센서부를 사용하여 객체의 거리 좌표 점 및 각 좌표 점의 속도/진동(음향) 정보를 동시에 획득하고 객체가 존재하는 공간의 좌표 정보와 음성의 정보를 동시에 식별하여 비접촉(원격) 객체의 기계적 특성 분석과 원격 음성인식 기술을 구현할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식장치를 나타낸 블록도이다.
도 2의 (a), (b), (c)는 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식장치에 구비된 3차원 센서부 및 3차원 센서부에서 감지된 객체에 대한 3차원 이미지정보, 진폭 및 주파수를 나타낸 도면이다.
도 3은 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식방법을 나타낸 순서도이다.
도 4는 본 발명의 일실시예에 따른 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식방법을 나타낸 개략도이다.
도 5는 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식방법을 구현하기 위한 구성요소의 동작흐름을 나타낸 블록도이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
1. 다차원 센서 데이터 기반 객체인식장치(100)
이하, 도 1 내지 도 2를 참조하여 본 발명의 일 실시예에 따른 다차원 센서 데이터 기반 객체인식장치(100)를 설명하도록 한다.
도 1은 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식장치를 나타낸 블록도이다.
본 발명의 일 실시예에 따른 다차원 센서 데이터 기반 객체인식장치(100)는 다차원 융합 센서 데이터 기반 물체의 기계적 특성 분석 및 원격 음향 인식 기술에 관한 것으로서, 3차원 센서부(110), 전처리부(120), 이미지분류부(130), 특성 분석부(140) 및 데이터세트 생성부(150)를 포함한다.
도 2의 (a), (b), (c)는 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식장치에 구비된 3차원 센서부 및 3차원 센서부에서 감지된 객체에 대한 3차원 이미지정보, 진폭 및 주파수를 나타낸 도면이다.
3차원 센서부(110)는 도 2의 (a), (b)에 도시된 바와 같이 객체의 3차원 이미지 및 음향을 감지하여 객체에 대한 3차원 이미지정보 및 음향정보를 생성한다. 이를 위한 3차원 센서부(110)는 스캔 구조를 가지는 위상 분석 라이다센서일 수 있다.
또한, 음향정보는 객체에 대한 속도정보, 진동정보 및 음성정보를 포함할 수 있다.
구체적으로 3차원 센서부(110)는 도 2의 (b)에 도시된 바와 같이 다차원 전자광학 시스템(x-dimensional Electro-optical System)일 수 있으며, 상기한 3차원 센서부(110)는 객체로 레이저(laser)를 조사하는 레이저부, 객체로 조사된 레이저가 반사되는 반사레이저를 수신하는 수신부(receiver), 전달 음질(DAQ: Delivered Audio Quality)과 CFAR(Constant False Alarm Rate) 신호를 처리하기 위한 프로세싱부 및 RNN CFAR 에지 모듈을 포함한다.
여기서, 신호 데이터 획득 및 분석 장치(DAQ)는 레이저 수신신호를 이용하여 획득된 신호의 디지털화(Digitalization)를 수행하고 신호의 위상 특성을 측정하는 신호의 획득 장치 및 이산화 신호처리 단계를 포함하며, CFAR(Constant False Alarm Rate)은 레이저 수신 신호를 처리하는 과정의 클러터 형태의 외란과 위상노이즈를 보상하기 위한 방법이다.
또한, 순환 신경(RNN: Recurrent Neural Network)은 시퀀스(Sequence) 모델로서, 입력과 출력을 시퀀스 단위로 처리하는 모델이다. 예시적으로 번역기를 생각해보면 입력은 번역하고자 하는 문장인 단어 시퀀스이고 출력에 해당되는 번역된 문장 또한 단어 시퀀스이다. 이러한 시퀀스들을 처리하기 위해 고안된 모델들을 시퀀스 모델이라고 하며, 그 중에서도 RNN은 딥러닝에 있어 가장 기본적인 시퀀스 모델이다.
전처리부(120)는 음향정보에서 소음을 제거하고 음향정보를 시각화하며 음향정보의 특성을 추출한다.
구체적으로 전처리부(120)는 음향정보의 소음을 제거한 정보를 멜 스펙트로그램(mel spectrogram)에 적용한 정보를 MFCC(Mel-Frequency Cepstral Coefficient)로 전송하고, 상기한 MFCC는 시각화된 음향정보로부터 시각화된 특성정보를 추출한다.
이미지분류부(130)는 3차원 이미지정보 및 시각화된 음향정보를 학습하여 찾아낸 패턴으로 3차원 이미지정보 및 시각화된 음향정보를 분류한다. 예시적으로 이미분류부(130)는 합성곱 신경망(CNN: Convolutional Neural Network)으로서, 이미지를 인식하기 위한 패턴을 찾는데 특히 유용하다.
데이터에서 직접 학습하고 패턴을 사용해 이미지를 분류하기 때문에 특징을 수동으로 추출할 필요가 없다. 이러한 장점 때문에 자율주행자동차, 얼굴인식과 같은 객체인식이나 컴퓨터 비전(computer vision)이 필요한 분야에 많이 사용된다.
상기한 이미지분류부(130)는 이미지분류부(130)는 제1 이미지분류부(131) 및 제2 이미지분류부(132)를 포함한다.
제1 이미지분류부(131)는 3차원 센서부(110)로부터 전송되는 3차원 이미지정보를 학습하여 3차원 이미지패턴을 찾아낸 후 3차원 이미지패턴을 이용하여 3차원 이미지정보를 분류한다.
제2 이미지분류부(132)는 MFCC로부터 전송되는 시각화된 특성정보를 학습하여 특성패턴을 찾아낸 후 특성패턴을 이용하여 시각화된 특성정보를 분류한다.
특성 분석부(140)는 분류된 3차원 이미지정보를 매핑한 결과와 분류된 음향정보를 장단기 메모리(LSTM: Long Short-Term Memory)에 적용시킨 결과를 학습하여 객체의 기계적 특성을 분석한 분석정보를 생성한다.
이를 위한 특성 분석부(140)는 매핑부(141), LSTM부(142) 및 RPN부(143)를 포함한다.
매핑부(141)는 제1 이미지분류부(131)로부터 전송되는 3차원 이미지정보를 분류한 3차원 이미지 분류정보를 매핑한다.
특히, 매핑부(141)는 객체의 각 좌표점의 음향정보를 컬러에서 주파수로 매핑하고 길이를 진폭으로 매핑한다.
LSTM부(142)는 제2 이미지분류부(132)로부터 전송되는 시각화된 특성정보를 분류한 시각화된 특성분류정보를 학습한다.
RPN부(143)는 매핑부(141)로부터 전송되는 3차원 이미지 분류정보와 LSTM부(142)로부터 전송되는 시각화된 특성분류정보를 학습한다.
여기서, RPN부(143)는 객체를 검출함에 있어서 핵심적인 역할을 수행하는RPN(Reason Proposal Network)이다.
기본적으로 RPN의 입력은 이 구역에서 객체가 발견되는지를 검사하겠다고 최초에 무작정 설정된 고정 영역인 기본 앵커 박스(Anchor Box), 기본 앵커의 크기와 위치를 조정하기 위한 값들인 델타(Delta) 및 각 앵커(Anchor) 내부에 객체가 존재할 확률(Probability)이다.
또한, RPN은 기본 앵커 박스, 델타 및 확률에 대한 정보를 입력받고 바운딩 박스(Bounding Box) 계산(Anchor와 Delta를 결합해서 값들을 조정)하며 바운딩 박스 중에서 확률이 높은 것만 분류(sorting)하는 과정을 수행한다.
데이터세트 생성부(150)는 특성분석부(140)로부터 전송되는 분석정보를 기반으로 상기 3차원 이미지정보에 객체의 거리 좌표점과 객체의 각 좌표점의 음향정보를 융합한 데이터세트를 생성한다.
상기한 데이터세트 생성부(150)는 RPN부(143)에서 학습된 정보를 기반으로 객체의 3차원이미지에 속도정보, 진동정보 및 음성정보 중 적어도 어느 하나가 표시되는 데이터세트를 생성하며, 상기한 데이터세트는 도 2의 (c)에 도시되어 있다.
2. 다차원 센서 데이터 기반 객체인식방법
이하, 도 1 내지 도 5를 참조하여 본 발명의 일 실시예에 따른 다차원 센서 데이터 기반 객체인식방법을 설명하도록 한다.
도 3은 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식방법을 나타낸 순서도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 다차원 센서 데이터 기반 객체인식방법은 (a) 3차원 센서부(110)가 객체의 3차원 이미지 및 음향을 감지하여 객체에 대한 3차원 이미지정보 및 음향정보를 생성하는 단계(S100), (b) 전처리부(120)가 음향정보에서 소음을 제거하고 음향정보를 시각화하며 음향정보의 특성을 추출하는 단계(S200), (c) 이미지분류부(130)가 3차원 이미지정보 및 시각화된 음향정보를 학습하여 찾아낸 패턴으로 3차원 이미지정보 및 시각화된 음향정보를 분류하는 단계(S300), (d) 특성분석부(140)가 분류된 3차원 이미지정보를 매핑한 결과와 분류된 음향정보를 LSTM에 적용시킨 결과를 학습하여 객체의 기계적 특성을 분석한 분석정보를 생성하는 단계(S400) 및 (e) 데이터세트 생성부(150)가 특성분석부로부터 전송되는 분석정보를 기반으로 3차원 이미지정보에 객체의 거리 좌표점과 객체의 각 좌표점의 음향정보를 융합한 데이터세트를 생성하는 단계(S500)를 포함한다.
도 4는 본 발명의 일실시예에 따른 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식방법을 나타낸 개략도이다. 도 5는 본 발명의 일실시예에 따른 다차원 센서 데이터 기반 객체인식방법을 구현하기 위한 구성요소의 동작흐름을 나타낸 블록도이다.
구체적으로 도 4 및 도 5를 참조하면, 상기 (a) 단계는, (a1) 3차원 센서부(110)가 객체의 형상을 감지한 3차원 이미지정보를 생성하는 단계, (a2) 3차원 센서부(110)가 객체의 상태를 감지한 음향정보를 생성하는 단계 및 (a3) 3차원 센서부(110)가 음향정보를 전처리부(120)로 전송하는 단계를 포함하고, 상기한 음향정보는 객체에 대한 속도정보, 진동정보 및 음성정보를 포함한다.
다음, 상기 (b) 단계는, (b1) 전처리부(120)가 3차원 센서부(110)로부터 전송되는 음향정보를 수신하는 단계, (b2) 전처리부(120)가 음향정보에서 소음을 제거하는 단계, (b3) 전처리부(120)가 소음이 제거된 음향정보를 MFCC에 적용시켜 시각화된 음향정보로부터 시각화된 특성정보를 추출하는 단계 및 (b4) 전처리부(120)가 이미지분류부(130)로 시각화된 특성정보를 전송하는 단계를 포함한다.
여기서, MFCC(Mel-Frequency Cepstral Coefficient)는 음성/음악 등 오디오 신호 처리 분야에서 널리 쓰이는 특징값(Feature) 중 하나로서, 오디오 신호에서 추출할 수 있는 feature로, 소리의 고유한 특징을 나타내는 수치이고, 주로 음성 인식, 화자 인식, 음성 합성, 음악 장르 분류 등 오디오 도메인의 문제를 해결하는 데 사용된다.
다음, 상기 (c) 단계는, (c1) 제1 이미지분류부(131)가 3차원 센서부(110)로부터 전송되는 3차원 이미지정보를 수신하는 단계, (c2) 제1 이미지분류부(131)가 3차원 이미지정보를 학습하여 3차원 이미지패턴을 찾아내는 단계, (c3) 제1 이미분류부(131)가 3차원 이미지패턴을 이용하여 3차원 이미지정보를 분류하는 단계, (c4) 제2 이미지분류부(132)가 MFCC로부터 전송되는 시각화된 특성정보를 학습하여 특성패턴을 찾아내는 단계, (c5) 제2 이미지분류부(132)가 특성패턴을 이용하여 시각화된 특성정보를 분류하는 단계 및 (c6) 제1, 2 이미지분류부(131, 132)가 분류된 3차원 이미지정보 및 분류된 특성정보를 특성분석부(140)로 전송하는 단계를 포함한다.
다음, 상기 (d) 단계는, (d1) 매핑부(141)가 제1 이미지분류부(131)로부터 전송되는 3차원 이미지정보를 분류한 3차원 이미지 분류정보를 매핑하는 단계, (d2) LSTM부(142)가 제2 이미지분류부(131)로부터 전송되는 시각화된 특성정보를 분류한 시각화된 특성분류정보를 학습하는 단계 및 (d3) RPN부(143)가 매핑부(141)로부터 전송되는 3차원 이미지 분류정보와 LSTM부(142)로부터 전송되는 시각화된 특성분류정보를 학습하여 객체의 특성을 분석하는 단계를 포함한다.
특히, 상기 (d1) 단계에서, 매핑부(141)는 객체의 각 좌표점의 음향정보를 컬러에서 주파수로 매핑하고 길이를 진폭으로 매핑한다.
상기 (e) 단계에서, 음향정보는 객체에 대한 속도정보, 진동정보 및 음성정보를 포함하고, 데이터세트 생성부(150)는 RPN부(143)에서 학습된 정보를 기반으로 객체의 3차원이미지에 속도정보, 진동정보 및 음성정보 중 적어도 어느 하나가 표시되는 데이터세트를 생성한다.
상기한 바에 따른 본 발명은 3차원 센서부의 포인트 클라우드 데이터(PCD: Point Cloud Date)에 객체의 속도(=주파수, frequency)와 음향(진동)의 세기(magnitude)에 대한 정보를 추가적으로 표현하는 다차원 융합 데이터를 바탕으로 객체의 표면의 거리 좌표점과 각 좌표점의 속도/음향(진동) 프로파일을 기반으로 객체의 정밀한 탐지, 인지 및 분석이 가능하다.
이를 위한 본 발명은 스캔 구조를 가지는 3차원 센서부(=위상 분석 라이다)를 사용하여 객체의 거리 좌표점뿐만 아니라, 각 좌표 점의 속도/진동(음향) 정보를 동시에 획득할 수 있는 다차원(5D)의 데이터를 생성하는 기술을 활용하며, 물체가 존재하는 공간의 좌표 정보와 음성의 정보를 동시에 식별 할 수 있는 방법으로 비접촉(원격) 물체의 기계적 특성 분석과 원격 음성인식 기술을 구현할 수 있다.
이에 따른 본 발명은 3D 센서부의 포인트 클라우드 데이터(PCD, Point Cloud Data)에 객체의 속도(frequency)와 진동(음향, acoustic)의 세기(magnitude) 정보를 추가적으로 표현할 수 있어 객체의 정밀한 탐지, 인지 및 분석이 가능하며, 국소부위의 원격 음성인식 기술 및 산업분야의 예지보전 기술 등으로 활용이 가능하다.
아울러, 본 발명은 국가 기반시설, 자율주행차, 국방분야, 드론 응용분야, 산업분야(스마트팩토리), 의료분야 및 상업시설(무인점포) 등에 적극적으로 활용될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 다차원 센서 데이터 기반 객체인식장치
110: 3차원 센서부
120: 전처리부
130: 이미지 분류부
131: 제1 이미지분류부
132: 제2 이미지분류부
140: 특성 분석부
141: 매핑부
142: LSTM부
143: RPN부
150: 데이터세트 생성부

Claims (11)

  1. 객체의 3차원 이미지 및 음향을 감지하여 상기 객체에 대한 3차원 이미지정보 및 음향정보를 생성하는 3차원 센서부;
    상기 음향정보에서 소음을 제거하고 상기 음향정보를 시각화하며 상기 음향정보의 특성을 추출하는 전처리부;
    상기 3차원 이미지정보 및 상기 시각화된 음향정보를 학습하여 찾아낸 패턴으로 상기 3차원 이미지정보 및 상기 시각화된 음향정보를 분류하는 이미지 분류부;
    상기 분류된 3차원 이미지정보를 매핑한 결과와 상기 분류된 음향정보를 인공지능의 RNN(Recurrent Neural Network) 응용기술인 LSTM(Long Short-Term Memory)에 적용시킨 결과를 학습하여 상기 객체의 기계적 특성을 분석한 분석정보를 생성하는 특성분석부; 및
    상기 특성분석부로부터 전송되는 상기 분석정보를 기반으로 상기 3차원 이미지정보에 상기 객체의 거리 좌표점과 상기 객체의 각 좌표점의 상기 음향정보를 융합한 데이터세트를 생성하는 데이터세트 생성부;를 포함하고,
    상기 전처리부는 상기 음향정보의 소음을 제거한 정보를 멜 스펙트로그램(mel spectrogram)에 적용한 정보를 MFCC(Mel-Frequency Cepstral Coefficient)로 전송하며,
    상기 MFCC는 상기 시각화된 음향정보로부터 시각화된 특성정보를 추출하고,
    상기 이미지분류부는,
    상기 3차원 센서부로부터 전송되는 상기 3차원 이미지정보를 학습하여 3차원 이미지패턴을 찾아낸 후 상기 3차원 이미지패턴을 이용하여 상기 3차원 이미지정보를 분류하는 제1 이미지분류부; 및
    상기 MFCC로부터 전송되는 상기 시각화된 특성정보를 학습하여 특성패턴을 찾아낸 후 상기 특성패턴을 이용하여 상기 시각화된 특성정보를 분류하는 제2 이미지분류부;를 포함하며,
    상기 특성분석부는,
    상기 제1 이미지분류부로부터 전송되는 상기 3차원 이미지정보를 분류한 3차원 이미지 분류정보를 매핑하는 매핑부;
    상기 제2 이미지분류부로부터 전송되는 상기 시각화된 특성정보를 분류한 시각화된 특성분류정보를 학습하는 LSTM부; 및
    상기 매핑부로부터 전송되는 상기 3차원 이미지 분류정보와 상기 LSTM부로부터 전송되는 상기 시각화된 특성분류정보를 학습하는 RPN(Reason Proposal Network)부;를 포함하고,
    상기 매핑부는 상기 객체의 각 좌표점의 상기 음향정보를 컬러에서 주파수로 매핑하고 길이를 진폭으로 매핑하는 것을 특징으로 하는 다차원 센서 데이터 기반 객체인식장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1 항에 있어서,
    상기 음향정보는 상기 객체에 대한 속도정보, 진동정보 및 음성정보를 포함하고,
    상기 데이터세트 생성부는 상기 RPN부에서 학습된 정보를 기반으로 상기 객체의 3차원이미지에 상기 속도정보, 상기 진동정보 및 상기 음성정보 중 적어도 어느 하나가 표시되는 데이터세트를 생성하는 것을 특징으로 하는 다차원 센서 데이터 기반 객체인식장치.
  6. (a) 3차원 센서부가 객체의 3차원 이미지 및 음향을 감지하여 상기 객체에 대한 3차원 이미지정보 및 음향정보를 생성하는 단계;
    (b) 전처리부가 상기 음향정보에서 소음을 제거하고 상기 음향정보를 시각화하며 상기 음향정보의 특성을 추출하는 단계;
    (c) 이미지분류부가 상기 3차원 이미지정보 및 상기 시각화된 음향정보를 학습하여 찾아낸 패턴으로 상기 3차원 이미지정보 및 상기 시각화된 음향정보를 분류하는 단계;
    (d) 특성분석부가 상기 분류된 3차원 이미지정보를 매핑한 결과와 상기 분류된 음향정보를 LSTM에 적용시킨 결과를 학습하여 객체의 기계적 특성을 분석한 분석정보를 생성하는 단계; 및
    (e) 데이터세트 생성부가 상기 특성분석부로부터 전송되는 상기 분석정보를 기반으로 상기 3차원 이미지정보에 상기 객체의 거리 좌표점과 상기 객체의 각 좌표점의 음향정보를 융합한 데이터세트를 생성하는 단계;를 포함하고,
    상기 (b) 단계는,
    (b1) 상기 전처리부가 상기 3차원 센서부로부터 전송되는 상기 음향정보를 수신하는 단계;
    (b2) 상기 전처리부가 상기 음향정보에서 소음을 제거하는 단계;
    (b3) 상기 전처리부가 상기 소음이 제거된 음향정보를 MFCC(Mel-Frequency Cepstral Coefficient)에 적용시켜 상기 시각화된 음향정보로부터 시각화된 특성정보를 추출하는 단계; 및
    (b4) 상기 전처리부가 상기 이미지분류부로 상기 시각화된 특성정보를 전송하는 단계;를 포함하며,
    상기 (c) 단계는,
    (c1) 제1 이미지분류부가 상기 3차원 센서부로부터 전송되는 상기 3차원 이미지정보를 수신하는 단계;
    (c2) 제1 이미지분류부가 상기 3차원 이미지정보를 학습하여 3차원 이미지패턴을 찾아내는 단계;
    (c3) 상기 제1 이미지분류부가 상기 3차원 이미지패턴을 이용하여 상기 3차원 이미지정보를 분류하는 단계;
    (c4) 제2 이미지분류부가 상기 MFCC로부터 전송되는 상기 시각화된 특성정보를 학습하여 특성패턴을 찾아내는 단계;
    (c5) 상기 제2 이미지분류부가 상기 특성패턴을 이용하여 상기 시각화된 특성정보를 분류하는 단계; 및
    (c6) 상기 제1, 2 이미지분류부가 상기 분류된 3차원 이미지정보 및 상기 분류된 특성정보를 상기 특성분석부로 전송하는 단계;를 포함하고,
    상기 (d) 단계는,
    (d1) 매핑부가 상기 제1 이미지분류부로부터 전송되는 상기 3차원 이미지정보를 분류한 3차원 이미지 분류정보를 매핑하는 단계;
    (d2) LSTM부가 상기 제2 이미지분류부로부터 전송되는 상기 시각화된 특성정보를 분류한 시각화된 특성분류정보를 학습하는 단계; 및
    (d3) RPN부가 상기 매핑부로부터 전송되는 상기 3차원 이미지 분류정보와 상기 LSTM부로부터 전송되는 상기 시각화된 특성분류정보를 학습하여 객체의 특성을 분석하는 단계;를 포함하며,
    상기 매핑부는 상기 객체의 각 좌표점의 상기 음향정보를 컬러에서 주파수로 매핑하고 길이를 진폭으로 매핑하는 것을 특징으로 하는 다차원 센서 데이터 기반 객체인식방법.
  7. 제6 항에 있어서,
    상기 (a) 단계는,
    (a1) 상기 3차원 센서부가 상기 객체의 형상을 감지한 상기 3차원 이미지정보를 생성하는 단계;
    (a2) 상기 3차원 센서부가 상기 객체의 상태를 감지한 상기 음향정보를 생성하는 단계; 및
    (a3) 상기 3차원 센서부가 상기 음향정보를 상기 전처리부로 전송하는 단계를 포함하고,
    상기 음향정보는 상기 객체에 대한 속도정보, 진동정보 및 음성정보를 포함하는 것을 특징으로 하는 다차원 센서 데이터 기반 객체인식방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제6 항에 있어서,
    상기 (e) 단계에서,
    상기 음향정보는 상기 객체에 대한 속도정보, 진동정보 및 음성정보를 포함하고,
    상기 데이터세트 생성부는 상기 RPN부에서 학습된 정보를 기반으로 상기 객체의 3차원이미지에 상기 속도정보, 상기 진동정보 및 상기 음성정보 중 적어도 어느 하나가 표시되는 데이터세트를 생성하는 것을 특징으로 하는 다차원 센서 데이터 기반 객체인식방법.
KR1020210020498A 2021-02-16 2021-02-16 다차원 센서 데이터 기반 객체인식장치 및 방법 KR102564070B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210020498A KR102564070B1 (ko) 2021-02-16 2021-02-16 다차원 센서 데이터 기반 객체인식장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210020498A KR102564070B1 (ko) 2021-02-16 2021-02-16 다차원 센서 데이터 기반 객체인식장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220116972A KR20220116972A (ko) 2022-08-23
KR102564070B1 true KR102564070B1 (ko) 2023-08-07

Family

ID=83092524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210020498A KR102564070B1 (ko) 2021-02-16 2021-02-16 다차원 센서 데이터 기반 객체인식장치 및 방법

Country Status (1)

Country Link
KR (1) KR102564070B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101937778B1 (ko) * 2017-02-28 2019-01-14 서울대학교산학협력단 인공지능을 이용한 기계학습 기반의 한국어 대화 시스템과 방법 및 기록매체
KR20200082109A (ko) * 2018-12-28 2020-07-08 한국로봇융합연구원 비주얼 데이터와 3D LiDAR 데이터 융합 기반 계층형 특징정보 추출 및 응용 시스템
KR102331672B1 (ko) * 2019-06-05 2021-11-30 엘지전자 주식회사 사용자의 위치를 결정하는 인공 지능 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문(Jordan J Bird 외 4명, Look and Listen: A Multi-modality Late Fusion Approach to Scene Classification for Autonomous Machines,arXiv:2007.10175 , 2020.07.11.) 1부.*

Also Published As

Publication number Publication date
KR20220116972A (ko) 2022-08-23

Similar Documents

Publication Publication Date Title
KR20190127624A (ko) 라이다 센서를 이용한 밀집도 기반의 객체 검출 장치 및 방법
Najva et al. SIFT and tensor based object detection and classification in videos using deep neural networks
KR101116273B1 (ko) 교통사고 인식장치 및 그 방법
EP3523749B1 (en) Object detection and classification with fourier fans
CN110663060A (zh) 一种用于表示环境元素的方法、装置、系统、以及车辆/机器人
Alaie et al. Passive sonar target detection using statistical classifier and adaptive threshold
Bruno et al. Analysis and fusion of 2d and 3d images applied for detection and recognition of traffic signs using a new method of features extraction in conjunction with deep learning
Khenkar et al. ENVISION: Assisted navigation of visually impaired smartphone users
CN114353819A (zh) 车辆的导航方法、装置、设备、存储介质及程序产品
Zraqou et al. Real-time objects recognition approach for assisting blind people
Shreyas et al. Trends of sound event recognition in audio surveillance: a recent review and study
KR102564070B1 (ko) 다차원 센서 데이터 기반 객체인식장치 및 방법
KR20230101560A (ko) 차량용 라이다 시스템 및 그 객체 검출 방법
KR20200087296A (ko) 라이다 센서 데이터 기반 장애물 검출 3차원 뷰어 시스템
KR20190138377A (ko) Cctv와 딥러닝을 이용한 항공기 식별 및 위치 추적 시스템
Walden et al. Improving the environmental perception of autonomous vehicles using deep learning-based audio classification
KR101575100B1 (ko) 사용자 그룹의 공간행동 센싱 및 의미분석 시스템
Khan et al. Novel framework for outdoor mobility assistance and auditory display for visually impaired people
CN111213069B (zh) 基于相干光的避障装置及方法
Yadav et al. Intelligent Navigation System for the Visually Impaired-A Deep Learning Approach
JP7184087B2 (ja) 物体検出システム、および物体検出方法
Kommey et al. A smart vision based navigation aid for the visually impaired
Wang et al. Road surface recognition based on vision and tire noise
KR101912010B1 (ko) 레이더 신호를 이용하여 무성음성을 인식하기 위한 장치 및 방법
KR20210065718A (ko) 인공지능을 이용한 센서융합 기반의 노면 분류 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant