KR102092475B1 - 동물 종 식별 방법 및 장치 - Google Patents

동물 종 식별 방법 및 장치 Download PDF

Info

Publication number
KR102092475B1
KR102092475B1 KR1020180122900A KR20180122900A KR102092475B1 KR 102092475 B1 KR102092475 B1 KR 102092475B1 KR 1020180122900 A KR1020180122900 A KR 1020180122900A KR 20180122900 A KR20180122900 A KR 20180122900A KR 102092475 B1 KR102092475 B1 KR 102092475B1
Authority
KR
South Korea
Prior art keywords
information processing
processing result
animal species
result
image
Prior art date
Application number
KR1020180122900A
Other languages
English (en)
Inventor
고한석
박상욱
고경득
김동현
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020180122900A priority Critical patent/KR102092475B1/ko
Priority to US17/279,661 priority patent/US11830272B2/en
Priority to PCT/KR2019/004677 priority patent/WO2020080626A1/ko
Application granted granted Critical
Publication of KR102092475B1 publication Critical patent/KR102092475B1/ko

Links

Images

Classifications

    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06K9/00362
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 시청각 정보를 이용하여 동물 종을 식별하는 방법 및 장치에 관한 것이다.
본 발명의 일실시예에 의한 동물 종 식별방법은 대상 객체에 대한 입력 신호를 수신하는 단계; 상기 입력 신호에 근거하여 영상정보 및 음향정보 처리하는 단계 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현됨-; 상기 입력 신호에 대응되는 영상정보 처리 결과 및 음향정보 처리 결과가 존재하는지를 판단하는 단계; 및 상기 판단 결과에 따라 상기 영상정보 처리 결과 및 음향정보 처리 결과를 융합하고, 상기 융합된 처리 결과를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 최종 결과 도출 단계를 포함할 수 있다.

Description

동물 종 식별 방법 및 장치{METHOD AND APPLICATION FOR ANIMAL SPECIES CLASSIFICATION}
본 발명은 동물 종 식별 방법 및 장치에 관한 것으로, 보다 상세하게는 시청각 정보를 이용하여 동물 종을 식별하는 방법 및 장치에 관한 것이다.
UN을 포함한 각 국가에서는 국내뿐만 아니라 국제적으로 동물들의 생산, 유통, 이동 등의 과정에서 발생할 수 있는 모든 리스크를 통제하기 위해서, 효과적이면서도 신뢰성이 높은 동물개체 추적(tracking) 및 식별 시스템에 관한 제도를 운영하고자 노력하고 있으며, 최근 들어서는 전통적인 방법 이외에 발달된 정보화 기술을 통해서 보다 나은 시스템을 구축하고자 다양한 시도 및 연구를 진행하고 있다. 관련된 선행문헌으로 공개특허 공보 제10-2014-0138103호가 있다.
또한, 관련된 기술로 영상 인식 기반의 동물을 감지하는 방법이 있다. 이는 미리 설정해 둔 감시영역을 복수의 센서를 이용하여 동물들이 있는지 감지할 수 있는 기술이다. 즉, 동물들이 감시영역에 들어올 경우 이를 감지하고 하우징 등의 경고장치를 작동시킬 수 있다.
그러나 상기 기술은 감시영역에 동물이 들어오는 것을 감지할 수 있다. 그러나 해당 동물이 동물인지 아닌지는 판별이 가능하지만, 어떠한 종인지는 구분이 불가능하다.
따라서 다양한 동물 종에 대해 보다 정확하고 편리하게 구별할 수 있는 기술에 대한 연국가 필요한 실정이다.
본 발명의 목적은 대상 객체에 대한 시청각 정보를 이용하여 인공지능 방식으로 동물 종을 식별할 수 있는 동물 종 식별 방법을 제공하는 데 있다.
상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 대상 객체에 대한 입력 신호를 수신하는 단계; 상기 입력 신호에 근거하여 영상정보 및 음향정보 처리하는 단계 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현됨-; 상기 입력 신호에 대응되는 영상정보 처리 결과 및 음향정보 처리 결과가 존재하는지를 판단하는 단계; 및 상기 판단 결과에 따라 상기 영상정보 처리 결과 및 음향정보 처리 결과를 융합하고, 상기 융합된 처리 결과를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 최종 결과 도출 단계를 포함하는 동물 종 식별 방법이 개시된다.
본 발명의 일실시예에 의한 동물 종 식별 방법은 대상 객체의 시청각 정보를 이용하여 보다 편리하게 동물 종을 식별할 수 있다.
본 발명의 일실시예에 의하면, 인공지능 방식으로 동물 종을 식별하기에 자생 동물을 조사할 수 있는 인프라 구축 및 부족한 전문가의 인력을 보완할 수 있다.
도 1은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예와 관련된 동물 종 식별 장치를 나타낸다.
도 3은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일실시예와 관련된 대기 광학 모델 구조를 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예와 관련된 영상에서 비, 눈 제거 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예와 관련된 음향 신호 인식을 위한 CNN 구조도이다.
도 7은 본 발명의 일실시예와 관련된 동물 종 식별 방법에서 영상정보와 음향정보를 융합하는 방법을 나타내는 흐름도이다.
이하, 본 발명의 일실시예와 관련된 동물 종 식별 방법 및 장치에 대해 도면을 참조하여 설명하도록 하겠다.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
도 1은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 설명하기 위한 블록도이다.
도시된 바와 같이, 식별서버(100)와 동물 종 식별장치(200)는 네트워크 망을 통해 연결될 수 있다. 네트워크 망은 매체를 통해 통신을 수행하는 망을 말하는 것으로, 유선 통신망, 컴퓨터 네트워크 및 무선 통신망 중 적어도 하나를 포함할 수 있다.
상기 식별서버(100)는 상기 동물 종 식별장치(200)로부터 특정 동물에 대한 움직임 등을 촬영한 영상정보 및 특정 동물의 울음소리 등을 녹음한 음향정보를 수신할 수 있다. 상기 수신된 정보에 근거하여 상기 식별서버(100)는 상기 특정 동물이 어떤 동물 종인지를 식별하고, 그 결과를 상기 동물 종 식별장치(200)로 전송할 수 있다.
상기 식별서버(100)는 통신부(110), 영상 처리부(120), 음향 처리부(130), 융합부(140) 및 최종 분류부(150)를 포함할 수 있다.
상기 통신부(110)는 상기 동물 종 식별장치(200)에 입력된 특정 동물에 대한 영상신호 및 음향신호 등을 수신하고, 수신한 입력신호를 기반으로 최종 분류된 특정 동물에 대한 식별 결과를 상기 동물 종 식별장치(200)로 전송할 수 있다.
상기 영상 처리부(120)는 수신된 특정 동물에 대한 영상신호를 기반으로 객체를 인식할 수 있다.
상기 음향 처리부(130)는 수신된 특정 동물에 대한 음향신호를 기반으로 상기 특정 동물의 음향을 인식할 수 있다.
상기 융합부(140)는 상기 영상 처리부(120)에서 처리된 영상정보 처리 결과와 상기 음향 처리부(130)에서 처리된 음향정보 처리 결과를 융합할 수 있다.
상기 최종 분류부(150)는 상기 융합부(140)에서 융합한 결과에 근거하여 특정 동물이 어떤 동물 종인지 최종적으로 분류할 수 있다.
도 2는 본 발명의 일실시예와 관련된 동물 종 식별 장치를 나타낸다. 이하, 실시예에서는 설명되는 동물 종 식별장치는 이동형 장치를 나타내나, 고정형 장치로 구현될 수도 있다.
도 2(a)는 일방향에서 바라본 동물 종 식별 장치(200)의 사시도이고, 도 2(b)는 도 2(a) 상태의 동물 종 식별장치(200)를 윗면과 아랫면이 바뀌도록 뒤집어 놓은 상태의 사시도이고, 도 2(c)는 도 2(a) 상태의 동물 종 식별장치(200)를 앞측면과 뒤측면이 바뀌도록 위치시킨 상태의 사시도이고, 도 2(d)는 도 2(b) 상태의 동물 종 식별장치(200)를 앞측면과 뒤측면이 바뀌도록 위치시킨 상태의 사시도이다.
상기 동물 종 식별장치(200)는 터치스크린(1), 제1카메라(2), 제2카메라(3), 마이크(4), 방열공(5), 전원스위치(6), 데이터단자(7)를 포함할 수 있다.
상기 터치스크린(1)은 사용자의 명령을 입력 받음과 동시에 상기 식별서버(100)로부터 수신한 인공지능 식별방법의 분석결과 및 관련 정보를 출력할 수 있다.
상기 제1카메라(2) 및 제2카메라(3)는 인공지능 식별방법으로 분석될 영상 또는 이미지 신호를 촬영할 수 있다. 상기 제1카메라(2) 및 제2카메라(3)는 동일한 종류의 카메라일 수도 있고, 서로 다른 종류의 카메라일 수도 있다. 예를 들어, 상기 제1카메라(2) 및 제2카메라(3) 중 어느 하나가 CCD 카메라이고, 다른 하나는 적외선 카메라일 수 있다.
마이크(4)는 인공지능 식별방법으로 분석될 음향 신호를 입력받을 수 있다. 상기 마이크(4)는 복수 개의 마이크가 소정 간격을 이루도록 배열될 수 있다. 예를 들어, 도시된 바와 같이 네 개의 마이크로 구성되며, 각 마이크의 간격이 2.5Cm으로 마이크가 배열될 수 있다.
상기 방열공(5)은 동물 종 식별장치(200)가 구동됨에 따라 발생하는 열을 방출할 수 있다.
상기 전원스위치(6)는 동물 종 식별장치(200)의 전원을 온 시키거나 오프시킬 수 있다.
상기 데이터단자(7)는 기기에 내장된 저장메모리에 접근할 수 있는 단자로써, 이를 통해 데이터를 업로드/다운로드 할 수 있다.
상기 동물 종 식별 장치(200)는 제1카메라(2) 또는 제2카메라(3)로부터 대상 객체(또는 대상 동물)의 영상신호를 입력받고, 마이크(4)로부터 대상 객체(또는 대상 동물)의 음향신호를 입력받을 수 있다. 상기 입력받은 영상신호 및 음향신호는 식별서버(100)로 전송될 수 있다. 상기 식별서버(100)는 수신한 영상신호 및 음향신호를 각각 처리하고, 각각 처리된 결과를 융합하여 상기 대상 객체가 어떤 동물 종인지를 최종적으로 분류할 수 있다.
도 3은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 나타내는 흐름도이다.
상기 식별서버(100)의 통신부(110)는 동물 종 식별장치(200)에 입력된 영상신호를 수신할 수 있다(S310).
상기 영상 처리부(120)는 수신한 영상신호를 처리하여 영상정보 처리 결과를 도출할 수 있다.
먼저, 상기 영상 처리부(120)는 영상 화질 개선을 수행할 수 있다(S320). 화질 개선을 위해 수신한 영상신호에서 안개/연기를 제거하는 방법이 사용될 수 있다.
도 4는 본 발명의 일실시예와 관련된 대기 광학 모델 구조를 설명하기 위한 도면이다.
도 4에서 I는 관측 데이터, x는 영상 내 픽셀 좌표, J는 안개가 제거된 영상, t는 전달량, A는 전역 대기 산란광을 의미한다. 이러한 대기 광학 모델에 바탕한 안개/연기 제거를 위한 방법은 지역적 대기 산란광 추정 단계, 지역적 전달량 추정 단계, 대기 산란광 및 전달량 정련 단계로 구성된다.
지역적 대기 산란광 추정에서는 입력 영상을 gray 영상으로 변환하고, MxM 블록으로 분할한 뒤, 수학식 1과 같이 최소값을 찾는다.
Figure 112018101524196-pat00001
이때, L은 나눠진 개별 블록을 의미하며, y는 블록 내 픽셀 좌표를 의미한다.
Quad-tree subdivision을 통해
Figure 112018101524196-pat00002
(rx, gx, bx) - (1, 1, 1)
Figure 112018101524196-pat00003
값을 최소화하는 하안 산란광 값 Alow_threshold를 추정한다. 하안 산란광 값을 통해 최종적으로 지역적 산란광을 수학식 2를 통해 추정한다.
Figure 112018101524196-pat00004
전달량 추정 단계에서 전달량은 영상 엔트로피, 정보 신뢰성, 다이나믹 레인지의 함수로 이루어진 목적함수, 하기 수학식 3을 최대화 하는 값으로 추정한다.
Figure 112018101524196-pat00005
여기서, N은 전체 화소의 개수, hi는 i 화소값(intensity)의 개수이다.
안개 및 연기의 경우, 거리에 따라 그 농도가 다르기 때문에, 목적 함수 (수학식 3)를 블록에 따라 최대화하여 전달량을 추정하며, 최종적으로 k번째 블록의 추정된 전달량은 하기 수학식 4와 같다.
Figure 112018101524196-pat00006
지역 블록 단위로 추정된 산란광 및 전달량을 정련하는 방법으로 본 발명에서는 WLS (Weighted Least Squares) 최적화 방법을 통해 경계 영역에서 발생하는 블록 결함 (block artifact)을 정련한다. WLS 기반 정련 방법은 목적 함수 (하기 수학식 5)를 최소화하는 해를 구한다.
Figure 112018101524196-pat00007
이때,
Figure 112018101524196-pat00008
는 수학식 4를 통해 추정된 결과, t는 정련될 결과 영상이다. h는 그레이로 변환된 안개 영상을 통해 모폴로지 처리된 영상이며, λ는 스무딩 조절 변수이다. a, b는 각 영상의 가로 및 세로 방향을 나타내며 α는 가중치 조정 변수이다. ε는 분모가 0으로 나누어지는 것을 방지하기 위한 미세 상수 값이다. 수학식 5의 미분을 통한 해는 하기 수학식 6와 같다.
Figure 112018101524196-pat00009
상기 수학식 6에서 A는 각 가로, 세로 방향에 대해 식 11의 가중치 값이 대각 성분에 포함된 행렬이며 D는 1차 미분 행렬 연산자이다.
최종적으로 추정된 지역 산란광 및 전달량을 통해 안개가 제거된 영상을 하기 수학식 7을 통해 복원한다.
Figure 112018101524196-pat00010
또한, 화질 개선을 위해 수신한 영상신호에서 안개/연기를 제거하는 방법이 사용될 수 있다.
도 5는 본 발명의 일실시예와 관련된 영상에서 비, 눈 제거 방법을 설명하기 위한 도면이다.
제1카메라(2) 또는 제2카메라(3)를 통해 연속적으로 관측한 이미지 데이터에서 객체의 이동성을 바탕으로 움직이는 객체를 검출하고 움직임이 없는 배경을 제거한다. 검출된 영역의 크기를 바탕으로 눈/비에 대한 객체를 선정한다. 선정된 후보군에 대해 Histogram of Orientation (HOG)에 기반하여 눈/비 객체를 판단한다. 최종 검출된 객체를 눈/비에 대한 객체로 판단하고 관측데이터에서 제거한다.
상기와 같이 복원된 영상을 통해 영상 처리부(120)는 객체를 검출하고, 검출된 객체를 인식할 수 있다(S330, S3340).
상기 객체 검출은 화질이 개선된 이미지에서 객체들의 위치와 영역을 인식하는 단계이고, 객체 인식은 검출된 객체가 무엇인지 인식하는 단계이다. 이 두 단계를 위해 CNN(Convolutional Neural Network)에 기반한 RCNN(Region Convolutional Neural Network)이 적용된다. 상기 RCNN은 CNN과 같이 이미지를 고정된 크기의 filter를 이용하여 convolutional 연산 결과를 바탕으로 객체의 위치와 객체가 무엇인지를 인식한다. 최종 output layer에서 영상 신호에 대한 클래스(class)별 스코어(score)가 산출된다.
한편, CNN은 convolutional layer와 pooling layer, fully-connected layer로 구성된다.
상기 convolutional layer에서는 2차원 데이터에 고정된 크기의 2차원 필터를 슬라이딩 하며, convolution 연산을 수행한다. 이때, 복수의 필터를 사용할 수 있으며, 이 경우에는 3차원 필터를 사용하여 convolution을 수행하며, 그 결과는 3차원으로 표현된다. 일반적인 CNN에서는 다수의 필터를 적용하여 관측데이터를 다각도로 분석하여 결과를 추출한다.
상기 Pooling layer는 convolutional layer 이후, 결과는 “가로x세로x필터 수”의 차원을 갖는다. 일반적인 2차원 데이터에서 인근 영역의 정보는 서로 유사성이 높아 인근 영역에서 대표값을 선정함으로써 차원을 줄일 수 있다. 이러한 과정이 pooling layer에서 수행된다.
상기 fully-connected layer는 관측데이터가 복수의 convolution-pooling layer를 따라 전파된 후, 마지막 output layer에 연결하기 위한 마지막 layer를 의미한다. convolution - pooling 연산을 마무리한 결과 도출되는 3차원 데이터를 1차원 데이터로 변형한 이후, output layer와 완전히 연결된 NN를 의미한다.
한편, NN는 1차원 관측 데이터를 입력받아 전파되는 반면, CNN은 2차원 관측 데이터를 입력받는다. 관측 데이터가 영상/이미지의 경우 관측 데이터를 바로 CNN에 입력하여 전파할 수 있지만, 음향인 경우 1차원 데이터를 2차원 데이터로 변형해야 한다. 일반적으로, 1차원 음향 데이터는 Short Time Fourier Transform (STFT)를 적용하여 spectrogram으로 변환하고, 저주파에 민감한 인간의 청각 특성을 반영한 Mel-filter를 적용하고 log scale로 변형함으로써, 2차원 log-Mel spectrum이 변환되어 CNN에 입력된다.
상기 식별서버(100)의 통신부(110)는 동물 종 식별장치(200)에 입력된 음향신호를 수신할 수 있다(S350).
상기 음향 처리부(130)는 수신한 음향신호를 처리하여 음향정보 처리 결과를 도출할 수 있다.
먼저, 상기 음향 처리부(120)는 음향 품질 개선을 수행할 수 있다(S360).
상기 마이크(4)를 통해 입력된 음향신호에서 잡음을 줄이기 위한 방법으로 빔포밍 방법이 적용된다. 빔포밍(미도시)은 특정 방향에서 입력된 신호를 추출하는 방법으로 음향신호 입력부, 위상 차 계산부, 잡음 성분 추출부, 신호 크기 추측부, 잡음제거 계수 산출부로 구성될 수 있다.
상기 음향신호 입력부는 마이크(4)에 입력된 신호를 디지털로 변환하는 부분으로 개별 마이크에서 입력된 신호를 이하 제1~4신호라고 명명한다. 음향 신호의 방향에 따라 제1~4신호의 위상에 차이가 발생하는 특성을 이용하여, 방향을 추측하기 위해, 위상 차 계산부에서 제1~4신호의 위상 차이를 계산한다. 잡음 성분 추출부는 계산된 위상 차이 이외의 신호를 잡음으로 고려하여 이를 분리한다. 신호 크기 추측부는 제1~4신호에서 추출된 잡음을 제거함으로써, 신호 크기 성분을 추측한다. 끝으로, 잡음제거 계수 산출부는 추출된 잡음과 신호크기 성분의 비율을 잡음제거 계수로 결정하고 제1~4신호에서 이를 빼내어 관측 신호를 개선한다.
상기 음향 처리부(130)는 상기 개선된 관측 신호에서 필요한 신호 구간을 검출할 수 있다(S370).
상기 음향 처리부(130)는 음향 품질이 개선된 음향 신호에서 신호 구간을 검출하기 위해 변형된 Double Fourier Transform Voice Activity Detection (DFVAD) 알고리즘을 적용할 수 있다. 음향 품질이 개선된 1차원 음향 신호에 Short Time Fourier Transform (STFT)를 적용하여 2차원 이미지(spectrogram)로 변형한 후, 각 주파수 축에서 다시 한번 Fast Fourier Transform (FFT)를 적용하여 각 주파수의 시간적 변화에 대한 정보를 추출한다. 각 주파수에서 관심 대상(동물 개체군)의 울음소리 주파수 대역 별 정보를 바탕으로 최종적으로 신호의 시작지점과 끝지점을 검출함으로써 신호 구간을 판단한다.
그리고 음향 처리부(130)는 검출된 신호 구간을 통해 음향을 인식한다(S380).
상기 음향 처리부(130)는 검출된 음향 신호를 인식하기 위해, CNN 기법을 적용할 수 있다. 예를 들어, 검출된 신호 구간의 음향 신호에 STFT를 적용하여 spectrogram으로 변환한 후, Mel-filter를 적용하고, log scale로 변환하여 log-mel spectrum을 생성한다. 이때, log-mel spectrum이 음향 신호 인식을 위한 CNN으로 입력되어, convolution, pooling, fully-connected layer를 통과하여 최종 output layer에서 음향 신호에 대한 class별 score가 산출된다.
도 6은 본 발명의 일실시예와 관련된 음향 신호 인식을 위한 CNN 구조도이다.
도시된 5개의 convolutional layer 와 2개의 fully-connected layer로 구성된다. 각각의 convolution layer에서 filter의 크기는 3×3으로 모두 동일하고, 첫 번째, 두 번째, 그리고 마지막 convolutional layer 이후에 2×2 max-pooling 을 적용했다. 그림에서 숫자는 CNN을 통해 전파되면서 데이터의 차원 변화를 나타낸다. 최종 output layer의 차원은 인식 대상의 수에 의해 결정되며, 도 6에서는 총 9종을 인식하는 CNN구조의 예시를 보여주며, 인식 대상의 수가 증가할 경우, 최종 output layer의 차원이 증가하며, 내부 구조도 변형될 수 있다.
상기 융합부(140)는 상기 영상 처리부(120) 및 음향 처리부(130)에서 처리된 결과를 융합할 수 있다(S390).
도 7은 본 발명의 일실시예와 관련된 동물 종 식별 방법에서 영상정보와 음향정보를 융합하는 방법을 나타내는 흐름도이다.
상기 식별서버(100)의 융합부(140)는 상기 영상 처리부(120)에서 처리된 영상정보 처리 결과 및 음향 처리부(130)에서 처리된 음향정보 처리 결과가 모두 존재하는지를 판단할 수 있다(S710). 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현될 수 있다.
만약, 두 가지 결과가 모두 존재한다면, 상기 융합부(140)는 영상정보 처리 결과에 대한 스코어와 음향정보 처리 결과에 대한 스코어를 융합할 수 있다(S720).
그러나 두 가지 결과 중 어느 하나만 존재하는 경우는 결과가 도출된 정보 처리 결과에 의존하여 최종 결과가 결정된다.
예를 들어, 영상정보 처리 결과만 존재하는 경우는 영상정보를 호출하여 대상 객체가 어떤 동물 종인지를 최종 분류할 수 있다(S730, S740).
또한, 음향정보 처리 결과만 존재하는 경우는 음향정보를 호출하여 대상 객체가 어떤 동물 종인지를 최종 분류할 수 있다(S730, S750).
한편, 두 가지 결과가 모두 존재할 경우, 영상/음향 score 융합 단계에서 각각의 score를 융합하여 수학식 8에 따라 최종 결과를 도출한다.
Figure 112018101524196-pat00011
c와 n은 각각 인식 대상과 시스템에 대한 색인이며,
Figure 112018101524196-pat00012
는 n번째 시스템에서 c번째 인식 대상에 대한 신뢰도를 의미하고,
Figure 112018101524196-pat00013
는 n번째 시스템에서 c번째 인식 대상에 대한 score를 의미하며,
Figure 112018101524196-pat00014
Figure 112018101524196-pat00015
Figure 112018101524196-pat00016
로 나누어 정규화 된 score를 의미한다.
상기 수학식 8은 각 시스템에서 각각의 인식 대상에 대한 score에 신뢰도를 부여하여 더했을 경우, 가장 높은 score를 가지는 인식 대상으로 인식 결과를 도출한다.
각 시스템에서 도출된 결과에 대한 신뢰도
Figure 112018101524196-pat00017
은 하기 수학식 9와 같이 산출된다.
Figure 112018101524196-pat00018
이때, G는 실제 값을 의미하고 O는 인식 시스템에서 얻은 인식 결과를 의미한다. 즉,
Figure 112018101524196-pat00019
는 인식 시스템의 결과가 c일 때, 실제 값도 c일 조건부확률 P(G=c|O=c)를 의미하며, 이는 bayesian rule에 의해 joint 확률로 표현할 수 있다. 이는, 어느 한 시스템에서 특정 인식 대상으로 오인식되는 경우가 적을 경우 높은 신뢰도를 부여하고, 그렇지 않을 경우 낮은 신뢰도를 부여한다.
전술한 바와 같이, 본 발명의 일실시예에 의한 본 발명의 일실시예에 의한 동물 종 식별 방법은 대상 객체의 시청각 정보를 이용하여 보다 편리하게 동물 종을 식별할 수 있다.
본 발명의 일실시예에 의하면, 인공지능 방식으로 동물 종을 식별하기에 자생 동물을 조사할 수 있는 인프라 구축 및 부족한 전문가의 인력을 보완할 수 있다.
상술한 동물 종 식별방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지된 것일 수도 있다.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리, SSD (Solid State Drive)와 같은 메모리 저장장치 등 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기와 같이 설명된 동물 종 식별 방법 및 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 식별서버
110: 통신부
120: 영상 처리부
130: 음향 처리부
140: 융합부
150: 최종 분류부
200: 동물 종 식별장치

Claims (6)

  1. 대상 객체에 대한 입력 신호를 수신하는 단계;
    상기 입력 신호에 근거하여 영상정보 및 음향정보 처리하는 단계 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현됨-;
    상기 입력 신호에 대응되는 영상정보 처리 결과 및 음향정보 처리 결과가 존재하는지를 판단하는 단계; 및
    상기 판단 결과에 따라 상기 영상정보 처리 결과 및 음향정보 처리 결과를 융합하고, 상기 융합된 처리 결과를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 최종 결과 도출 단계를 포함하되,
    상기 최종 결과 도출 단계는
    상기 영상정보 처리 결과 및 음향정보 처리 결과가 모두 존재하는 경우,
    상기 영상정보 처리 결과의 스코어 및 상기 음향정보 처리 결과의 스코어를 융합하는 단계를 포함하되,
    상기 최종 결과 도출 단계는 하기 수학식 1을 이용하여 도출하는 것을 특징으로 하는 동물 종 식별 방법.
    [수학식 1]
    Figure 112019120789371-pat00035

    (c와 n은 각각 인식 대상과 시스템에 대한 색인이며,
    Figure 112019120789371-pat00036
    는 n번째 시스템에서 c번째 인식 대상에 대한 신뢰도를 의미하고,
    Figure 112019120789371-pat00037
    는 n번째 시스템에서 c번째 인식 대상에 대한 score를 의미하며,
    Figure 112019120789371-pat00038
    Figure 112019120789371-pat00039
    Figure 112019120789371-pat00040
    로 나누어 정규화 된 score를 의미한다.)
  2. 삭제
  3. 제1항에 있어서, 상기 최종 결과 도출 단계는
    상기 영상정보 처리 결과 및 음향정보 처리 결과 중 어느 하나의 결과만 존재하는 경우,
    상기 영상정보 처리 결과의 스코어 및 상기 음향정보 처리 결과의 스코어 wd 어느 하나를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 단계를 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 수학식 1에서의
    Figure 112019120789371-pat00026
    은 하기 수학식 2에 의해 산출되는 것을 특징으로 하는 동물 종 식별 방법.
    [수학식 2]
    Figure 112019120789371-pat00027

    (여기서, G는 실제 값을 의미하고 O는 인식 시스템에서 얻은 인식 결과를 의미한다.)
  6. 제1항에 있어서, 상기 영상정보 및 음향정보 처리 단계는
    CNN(Convolutional Neural Network) 기법을 이용하는 처리하는 단계를 포함하는 것을 특징으로 하는 동물 종 식별 방법.
KR1020180122900A 2018-10-16 2018-10-16 동물 종 식별 방법 및 장치 KR102092475B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020180122900A KR102092475B1 (ko) 2018-10-16 2018-10-16 동물 종 식별 방법 및 장치
US17/279,661 US11830272B2 (en) 2018-10-16 2019-04-18 Method and apparatus for identifying animal species
PCT/KR2019/004677 WO2020080626A1 (ko) 2018-10-16 2019-04-18 동물 종 식별 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180122900A KR102092475B1 (ko) 2018-10-16 2018-10-16 동물 종 식별 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102092475B1 true KR102092475B1 (ko) 2020-03-23

Family

ID=69998461

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180122900A KR102092475B1 (ko) 2018-10-16 2018-10-16 동물 종 식별 방법 및 장치

Country Status (3)

Country Link
US (1) US11830272B2 (ko)
KR (1) KR102092475B1 (ko)
WO (1) WO2020080626A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210315186A1 (en) * 2020-04-14 2021-10-14 The United States Of America, As Represented By Secretary Of Agriculture Intelligent dual sensory species-specific recognition trigger system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115188387B (zh) * 2022-07-12 2023-04-07 四川农业大学 一种有效的海洋哺乳动物声音自动检测和分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160098581A (ko) * 2015-02-09 2016-08-19 홍익대학교 산학협력단 얼굴 인식 및 화자 인식이 융합된 인증 방법
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム
KR101803471B1 (ko) * 2016-02-15 2017-12-01 성균관대학교 산학협력단 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법
US10496893B2 (en) * 2016-08-11 2019-12-03 DiamondFox Enterprises, LLC Handheld arthropod detection device
GB201710877D0 (en) * 2017-07-06 2017-08-23 Nokia Technologies Oy A method and an apparatus for evaluating generative machine learning model
KR101891631B1 (ko) * 2018-03-07 2018-08-27 (주)크레아소프트 영상 학습 장치, 이를 이용한 촬영영상 분석 시스템 및 방법, 이를 수행하기 위한 기록매체

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160098581A (ko) * 2015-02-09 2016-08-19 홍익대학교 산학협력단 얼굴 인식 및 화자 인식이 융합된 인증 방법
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210315186A1 (en) * 2020-04-14 2021-10-14 The United States Of America, As Represented By Secretary Of Agriculture Intelligent dual sensory species-specific recognition trigger system

Also Published As

Publication number Publication date
US20220036053A1 (en) 2022-02-03
WO2020080626A1 (ko) 2020-04-23
US11830272B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
JP6943338B2 (ja) 画像処理装置、システム、方法及びプログラム
US11195038B2 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
US11869227B2 (en) Image recognition method, apparatus, and system and storage medium
Charfi et al. Definition and performance evaluation of a robust SVM based fall detection solution
US10489660B2 (en) Video processing with object identification
EP3191989B1 (en) Video processing for motor task analysis
JP2023145558A (ja) 外観検索のシステムおよび方法
US10540988B2 (en) Method and apparatus for sound event detection robust to frequency change
US20180082113A1 (en) Apparatus and method for gait recognition
KR102103770B1 (ko) 보행자 검출 장치 및 방법
US9189867B2 (en) Adaptive image processing apparatus and method based in image pyramid
KR101872811B1 (ko) 행동 패턴 인식 장치, 행동 패턴 인식 방법 및 행동 패턴 분류기 생성 방법
CN108268850B (zh) 一种基于图像的大数据处理方法
CN110795595A (zh) 基于边缘计算的视频结构化存储方法、装置、设备及介质
Park et al. Wildfire smoke detection using spatiotemporal bag-of-features of smoke
KR102092475B1 (ko) 동물 종 식별 방법 및 장치
AU2013204156B2 (en) Classification apparatus and program
WO2023159898A1 (zh) 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN105930789B (zh) 基于对数欧式空间词袋模型的人体行为识别
KR101542206B1 (ko) 코아스-파인 기법을 이용한 객체 추출과 추적 장치 및 방법
Nalepa et al. Real-time people counting from depth images
KR20210048271A (ko) 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치
Kavimandan et al. Human action recognition using prominent camera
Zhang et al. A posture recognition system for rat cyborg automated navigation
Thangaraj et al. A competent frame work for efficient object detection, tracking and classification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant