KR20230068914A

KR20230068914A - 동물 종 식별 장치 및 방법

Info

Publication number: KR20230068914A
Application number: KR1020210155212A
Authority: KR
Inventors: 허태영; 김재훈; 홍석수; 김준기
Original assignee: 충북대학교 산학협력단
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2023-05-18
Also published as: KR102620948B1

Abstract

본 발명에 따른 동물 종 식별 장치는, 동물 소리가 포함된 소리 신호를 수신하는 소리 신호 수신부; 상기 소리 신호로부터 기계학습을 위한 벡터 성분을 추출하는 벡터 성분 추출부; 및 상기 벡터 성분을 미리 저장된 제1 뉴럴 네트워크의 입력으로 적용하여 상기 벡터 성분의 기계학습 결과인 특징맵을 추출하고, 상기 특징맵을 미리 저장된 제2 뉴럴 네트워크의 입력으로 적용하여 상기 특징맵의 기계학습 결과인 동물 종별 출현 확률을 산출하는 출현 확률 산출부를 포함한다. 본 발명에 의하면, 여러 종의 동물 중에서 소리 신호에 어떠한 동물의 소리가 존재하는지를 빠른 시간 내에 식별할 수 있으며, 동물 종 식별 정확도를 향상시킬 수 있게 된다.

Description

동물 종 식별 장치 및 방법{APPARATUS AND METHOD FOR IDENTIFYING ANIMAL SPECIES}

본 발명은 소리 신호에 포함된 동물 소리가 어떤 종의 동물 소리인지를 식별하는 장치 및 방법에 관한 것이다.

최근 IT(Information Technology) 기술의 발전에 따라, 인간과 연관이 깊은 동물들의 이미지나 소리를 통해 동물 종을 식별해내는 연구가 활발하게 진행되고 있다. 예를 들어, 사람의 생명에 치명적인 영향을 미치는 지카 바이러스, 뎅기열, 치쿤구니아 및 황열은 모기 종 중 하나인 이집트 숲모기 종에 의해 발생하기 때문에 모기 종 식별의 필요성이 있으며, 이에 따라 모기 종 식별에 관한 연구가 활발하게 진행되고 있다. 실내 또는 실외에 존재하는 모기 종을 정확도 높게 식별해낼 수 있다면 모기 종에 대한 신속한 대처가 이루어질 수 있기 때문에 사람의 안전과 생명이 보장될 수 있다.

다만, 사람이 시각과 청각에 의존하여 모기 종 등의 동물 종을 식별해내는 것은 시간 및 노력이 많이 소요될 수밖에 없고, 식별의 정확도 또한 낮을 수밖에 없다. 이에 따라, 동물 종을 식별해낼 수 있는 자동화 장치를 개발하는 것은 매우 중요하다 할 것이며, 이때 가장 중요한 것은 동물 종 식별의 정확도를 높이는 일이다.

4차 산업혁명의 시대로 접어들면서 새로운 기술적 수단으로 주목받고 있는 합성곱 신경망(CNN: Convolutional Neural Network)은 다양한 분야에서 널리 사용되는 기계학습 알고리즘으로서, 특히 영상 인식 및 소리 인식에 있어서 탁월한 성능을 보여주고 있다. 다만, 기존의 합성곱 신경망을 활용한 동물 종 식별 기술은 동물 이미지를 기계학습시키거나, 동물 이미지와 동물 소리가 포함된 소리 신호 모두를 기계학습시키고 있었다. 다만, 동물 이미지를 통한 기계학습은 학습 데이터에 해당하는 동물 이미지의 방대한 취득이 어렵기 때문에 실생활에서의 유용성이 낮을 수밖에 없다.

한편, 하기 특허문헌에는, 동물의 음성 자료를 수신하는 수신부와, 동물의 음성에 관한 정보를 저장하는 저장부와, 상기 수신부에 수신된 동물의 음성 자료에 기초하여 동물의 복수 음성에 관한 이력정보를 상기 저장부에 저장하고, 상기 이력정보에 기초하여 동물의 각 음성의 특성에 관한 분석정보를 생성하는 처리부를 포함하는 전자장치가 개시되어 있다.

공개특허공보 제10-2017-0087225호(2017.07.28.)

본 발명은 동물 소리가 포함된 소리 신호를 기계학습시켜 동물 종을 식별하는 및 방법을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 동물 종을 식별함에 있어서 그 식별의 정확도를 향상시킬 수 있는 장치 및 방법을 제공하는 것에 그 목적이 있다.

다만, 본 발명이 해결하고자 하는 기술적 과제는 상술한 과제만으로 한정되는 것은 아니며, 언급되지 않은 또 다른 기술적 과제들은 아래에 기재된 발명의 설명으로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위하여, 본 발명에 따른 동물 종 식별 장치는, 동물 소리가 포함된 소리 신호를 수신하는 소리 신호 수신부; 상기 소리 신호로부터 기계학습을 위한 벡터 성분을 추출하는 벡터 성분 추출부; 및 상기 벡터 성분을 미리 저장된 제1 뉴럴 네트워크의 입력으로 적용하여 상기 벡터 성분의 기계학습 결과인 특징맵을 추출하고, 상기 특징맵을 미리 저장된 제2 뉴럴 네트워크의 입력으로 적용하여 상기 특징맵의 기계학습 결과인 동물 종별 출현 확률을 산출하는 출현 확률 산출부를 포함할 수 있다.

본 발명에 따른 동물 종 식별 장치는 지역별 동물 종들의 출현 정보 및 시간대별 동물 종들의 출현 정보 중 적어도 하나를 동물 종들의 출현 정보로서 저장하는 출현 정보 저장부를 더 포함할 수 있으며, 상기 출현 확률 산출부는, 상기 동물 종들의 출현 정보를 이용해서 상기 동물 종별 출현 확률을 갱신하여 동물 종별 출현 확률 갱신값을 산출할 수 있다.

상기 출현 확률 산출부는, 상기 동물 종별 출현 확률을, 상기 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률인 선험적 확률과 곱셈 처리하여, 상기 동물 종별 출현 확률 갱신값을 산출할 수 있다.

본 발명에 따른 동물 종 식별 장치는 상기 출현 확률 산출부에 의해 산출되는 동물 종별 출현 확률 갱신값을 사용자 단말로 전송하는 통신부를 더 포함할 수 있다.

한편, 상기와 같은 목적을 달성하기 위하여, 본 발명에 따른 동물 종 식별 방법은, 상기 동물 종 식별 장치에 의해 수행되며, (a) 동물 소리가 포함된 소리 신호를 수신하는 단계; (b) 상기 소리 신호로부터 기계학습을 위한 벡터 성분을 추출하는 단계; (c) 상기 벡터 성분을 미리 저장된 제1 뉴럴 네트워크의 입력으로 적용하여 상기 벡터 성분의 기계학습 결과인 특징맵을 추출하는 단계; 및 (d) 상기 특징맵을 미리 저장된 제2 뉴럴 네트워크의 입력으로 적용하여 상기 특징맵의 기계학습 결과인 동물 종별 출현 확률을 산출하는 단계를 포함할 수 있다.

본 발명에 따른 동물 종 식별 방법은, 상기 (d)단계 이후에, (e) 상기 동물 종 식별 장치에 저장된 동물 종들의 출현 정보를 이용해서 상기 동물 종별 출현 확률을 갱신하여 동물 종별 출현 확률 갱신값을 산출하는 단계를 더 포함할 수 있다.

상기 (e)단계에서는, 상기 동물 종별 출현 확률을, 상기 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률인 선험적 확률과 곱셈 처리하여, 상기 동물 종별 출현 확률 갱신값을 산출할 수 있다.

본 발명에 따른 동물 종 식별 방법은, (f) 상기 (e)단계에서 산출되는 동물 종별 출현 확률 갱신값을 사용자 단말로 전송하는 단계를 더 포함할 수 있다.

본 발명은 동물 소리가 포함된 소리 신호만을 기계학습시키고, 그 기계학습에 기반하여 동물 종별 출현 확률을 산출하도록 구성되어 있다. 동물 소리가 포함된 소리 신호는 일상 생활에서 비교적 쉽게 취득할 수 있기 때문에, 본 발명은 동물 이미지를 기계학습시키거나, 동물 이미지와 동물 소리가 포함된 소리 신호 모두를 기계학습시키는 종래 기술에 비해 비교적 간단하게 구현할 수 있고, 실생활에서의 유용성 또한 크다.

또한, 본 발명은 소리 신호에 어느 한 동물 종의 동물 소리가 존재하는지 아니면 존재하지 않는지에 대한 확률을 출력하는 것이 아니라, 소리 신호에 포함된 동물 소리가 여러 종의 동물 중에서 어떠한 동물의 소리에 해당하는지를 동물 종별 출현 확률의 형태로 산출하도록 구성되어 있다. 이러한 본 발명에 의하면, 동물 종 식별 장치의 사용자는 상기 동물 종별 출현 확률을 통해, 여러 종의 동물 중에서 어떠한 동물의 소리가 소리 신호에 존재하는지를 빠른 시간 내에 식별할 수 있게 된다. 나아가, 소리 신호에 2종 이상의 동물 소리가 포함되어 있을 경우, 사용자는 상기 동물 종별 출현 확률을 통해 그 2종 이상의 동물 소리를 식별할 수 있게 된다.

게다가, 본 발명은 동물 종별 출현 확률이 동물 종들의 출현 정보를 통해 갱신되도록 구성되어 있다. 이러한 본 발명에 의하면 동물 종 식별의 정확도를 한층 더 향상시킬 수 있게 된다. 나아가 이와 같이 향상된 동물 종 식별 정확도를 갖는 본 발명은 자동화된 해충 관련 기기의 제작에 유용하게 활용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 동물 종 식별 장치를 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 동물 종 식별 방법의 흐름도이다.
도 3은 1D-컨볼루션 필터를 구비한 Simple CNN을 포함하는 출현 확률 산출부에 의해 동물 종별 출현 확률이 산출되는 모습을 나타낸 도면이다.
도 4는 3×3 2D-컨볼루션 필터를 구비한 VGG13을 포함하는 출현 확률 산출부에 의해 동물 종별 출현 확률이 산출되는 모습을 나타낸 도면이다.
도 5는 2종의 파리(FF, HF)와 8종의 모기(AF, AM, QF, QM, SF, SM, TF, TM)에 대한 활동 일주기 리듬을 나타낸 그래프이다.
도 6은 도 5의 활동 일주기 리듬에 따른 선험적 확률에 의해 동물 종별 출현 확률이 갱신될 경우, 도 4에 나타낸 VGG13의 리콜 변화를 보여주는 산포도이다.

이하, 첨부한 도면들을 참조하여 본 발명에 따른 동물 종 식별 장치 및 방법에 대해 상세히 설명한다. 첨부한 도면들은 통상의 기술자에게 본 발명의 기술적 사상이 충분히 전달될 수 있도록 하기 위하여 어디까지나 예시적으로 제공되는 것으로서, 본 발명은 이하 제시되는 도면들로 한정되지 않고 다른 형태로 얼마든지 구체화될 수 있다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 본 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어로 구현되거나, 소프트웨어로 구현되거나, 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 본 명세서에서 '항목 A 또는 항목 B'라 함은, '항목 A'만을 지칭하거나, '항목 B'만을 지칭하는 것으로 이해할 수 있지만, 경우에 따라서는 '항목 A와 항목 B'를 모두 지칭하는 것으로도 이해할 수 있다.

도 1은 본 발명의 일 실시예에 따른 동물 종 식별 장치를 개략적으로 나타낸 도면이고, 도 2는 본 발명의 일 실시예에 따른 동물 종 식별 방법의 흐름도이다. 이하에서는, 도 1 및 도 2를 함께 참고하여, 본 발명에 따른 동물 종 식별 장치 및 방법에 대해 설명하기로 한다.

본 발명의 일 실시예에 따른 동물 종 식별 장치(1000)는 소리 신호 수신부(110), 벡터 성분 추출부(120), 출현 확률 산출부(130), 출현 정보 저장부(140) 및 통신부(150)를 선택적으로 포함할 수 있다.

이 중에서 소리 신호 수신부(110), 벡터 성분 추출부(120), 출현 확률 산출부(130) 및 통신부(150)는 MPU(Micro Processing Unit), CPU(Central Processing Unit), GPU(Graphics Processing Unit) 또는 TPU(Tensor Processing Unit)와 같은 프로세서에 의해 구현될 수 있다.

또한, 출현 정보 저장부(140)는 플래시 메모리, HDD(Hard Disk Drive) 또는 ROM(Read-Only Memory)와 같은 메모리에 의해 구현될 수 있다. 출현 정보 저장부(140)는 동물 종들의 출현 정보를 저장할 수 있으며, 프로세서에 의해 미리 기계학습된 동물 종별 출현 모델을 저장하거나, 동물 종별 출현 모델의 특징맵(feature map), 노드값, 가중치 등을 저장할 수 있다.

본 발명에 따른 동물 종 식별 방법은, 맨 먼저 소리 신호 수신부(110)가 동물 소리가 포함된 소리 신호를 수신하는 단계가 이루어질 수 있다(S100).

상기 소리 신호는 오디오 센서를 통해 센싱될 수 있으며, 오디오 센서를 통해 센싱된 소리 신호는 유선 또는 무선 통신을 통해 소리 신호 수신부(110)에 송신될 수 있다. 오디오 센서에 의해 센싱되는 소리 신호에는 동물 소리 이외의 소리가 백그라운드 노이즈로서 포함될 수 있다. 이에 따라, 소리 신호 수신부(110)는 수신된 소리 신호에 대해 노이즈 필터를 적용하여 소리 신호에서 백그라운드 노이즈를 제거할 수 있다.

상기 S100 단계 이후에, 벡터 성분 추출부(120)는 소리 신호 수신부(110)에 의해 수신된 소리 신호로부터 기계학습을 위한 벡터 성분을 추출한다(S200). 즉, 벡터 성분 추출부(120)가 소리 신호로부터 벡터 성분을 추출하는 이유는, 소리 신호를 기계학습 알고리즘의 입력으로 적용시키기 위함이다.

벡터 성분 추출부(120)가 추출하는 벡터 성분의 일 예로서, 멜-주파수 켑스트럴 계수(Mel-frequency cepstral coefficient; MFCC)가 있다. 상기 MFCC는 인간이 인식하는 저주파수에서 인간의 청력을 모방한 것과 같은 정보를 추출하기 때문에, 소리 신호를 기계학습시키기에 적절한 벡터 성분에 해당한다.

소리 신호로부터 MFCC를 추출하기 위하여, 벡터 성분 추출부(120)는 상기 소리 신호에 대해 고속 푸리에 변환(Fast Fourier Transform; FFT)을 수행하여 멜-스펙트로그램(Mel-spectrogram)을 생성할 수 있다. 다음으로, 벡터 성분 추출부(120)는 상기 멜-스펙트로그램에 대해 멜-스케일 필터 뱅크(Mel-scale filter bank)를 적용하여, 인간의 청력에 해당하는 저주파수 영역을 강조시킬 수 있다. 다음으로, 벡터 성분 추출부(120)는 상기 멜-스케일 필터 뱅크(Mel-scale filter bank)가 적용된 멜-스펙트로그램을 대상으로 이산 코사인 변환(Discrete Cosine Transform; DCT)을 수행하여 상기 MFCC를 추출할 수 있다.

출현 확률 산출부(130)는 제1 뉴럴 네트워크(131), 제2 뉴럴 네트워크(132) 및 출현 확률 갱신부(133)를 선택적으로 포함할 수 있다.

상기 S200 단계 이후에, 출현 확률 산출부(130)는 벡터 성분 추출부(120)에 의해 추출된 벡터 성분을 미리 저장된 제1 뉴럴 네트워크(131)의 입력으로 적용하여, 상기 벡터 성분의 기계학습 결과인 특징맵을 추출한다(S300).

출현 확률 산출부(130)는 벡터 성분 추출부(120)로부터 벡터 성분을 입력받을 경우, 출현 정보 저장부(140)에 저장되어 있는 동물 종별 출현 모델을 로딩하거나, 동물 종별 출현 모델의 특징맵, 노드값, 가중치 등을 로딩할 수 있다. 다만, 동물 종별 출현 모델은 출현 정보 저장부(140) 대신 클라우드 서버(미도시)에 저장될 수도 있으며, 이 경우 출현 확률 산출부(130)는 통신부(150)를 통해 클라우드 서버와 통신하여, 클라우드 서버에 저장되어 있는 동물 종별 출현 모델을 로딩하거나, 동물 종별 출현 모델의 특징맵, 노드값, 가중치 등을 로딩할 수 있다. 즉, 상기 제1 뉴럴 네트워크(131)는 출현 정보 저장부(140) 또는 클라우드 서버에 미리 저장되어 있던 것이 로딩된 것일 수 있다.

상기 S300 단계 이후, 출현 확률 산출부(130)는 제1 뉴럴 네트워크(131)에서 추출되는 특징맵을 미리 저장된 제2 뉴럴 네트워크(132)의 입력으로 적용하여, 상기 특징맵의 기계학습 결과인 동물 종별 출현 확률을 산출한다(S400). 여기서, 제2 뉴럴 네트워크(132) 역시 제1 뉴럴 네트워크(131)와 마찬가지로, 출현 정보 저장부(140) 또는 클라우드 서버에 미리 저장되어 있던 것이 로딩된 것일 수 있다.

이하에서는, 동물 소리가 포함된 소리 신호가 합성곱 신경망(Simple CNN, VGG13)을 통해 동물 종별 출현 확률이 산출되는 과정에 대해 보다 상세히 설명하기로 한다.

본 발명의 발명자는 캘리포니아, 텍사스, 대만 등의 지역에서 수입되어 길러진 50,000여개의 소리 신호를 가지고 기계학습을 진행하였다. 여기서, 상기 소리 신호는 동물 소리(즉, 2종의 파리 소리 및 8종의 모기 소리)와 함께 백그라운드 노이즈를 포함한다.

다음의 표 1은 2종의 파리(FF, HF)와 8종의 모기(AF, AM, QF, QM, SF, SM, TF, TM)에 대한, 약어(Abbreviation)와 종(Class)을 정리한 것으로서, 이하에서는 2종의 파리와 8종의 모기를 표 1에 나타낸 약어로 지칭하기로 한다.

[표 1]

소리 신호는 오디오 센서에 의해 16kHz의 샘플링 속도로 센싱되었으며, 소리 신호 수신부(110)는 오디오 센서로부터 소리 신호를 수신하고, 미리 저장된 노이즈 필터를 소리 신호에 적용하여 소리 신호에서 백그라운드 노이즈를 제거하였다. 벡터 성분 추출부(120)는 소리 신호를 출현 확률 산출부(130)의 입력으로 적용시키기 위해, 소리 신호로부터 40(시간 구간 수)×43(주파수 구간 수)×1(채널 수) 형태의 MFCC를 추출하였다.

도 3은 1D-컨볼루션 필터를 구비한 Simple CNN을 포함하는 출현 확률 산출부에 의해 동물 종별 출현 확률이 산출되는 모습을 나타낸 도면으로서, 설명의 편의를 위해 동물 종 식별 장치(1000)의 일부 구성만을 도시하였다. 도 3에 나타낸 바와 같이, 본 발명에 따른 출현 확률 산출부(130)는 1D-컨볼루션 필터를 구비한 Simple CNN을 포함할 수 있지만, 1D-컨볼루션 필터 이외에 3×1 2D-컨볼루션 필터 또는 3×3 2D-컨볼루션 필터를 구비한 Simple CNN을 포함할 수도 있다(표 2 참고).

출현 확률 산출부(130)는 2개의 컨볼루션 블록(ConvBlock1, ConvBlock2)으로 이루어진 제1 뉴럴 네트워크(131)를 포함할 수 있다. 여기서, 제1 컨볼루션 블록(ConvBlock1)을 구성하는 1D-컨볼루션 필터의 사이즈는 64이고, 제2 컨볼루션 블록(ConvBlock2)을 구성하는 1D-컨볼루션 필터의 사이즈는 128이다.

각각의 컨볼루션 블록(ConvBlock1, ConvBlock2)은 2개의 1D-컨볼루션 레이어(Convolution layer), 커널 사이즈가 2인 1D-맥스 풀링 레이어(Max pooling layer) 및 30%의 비율을 갖는 드롭아웃 레이어(dropout layer)로 이루어질 수 있다. 제1 뉴럴 네트워크(131)는 벡터 성분 추출부(120)에 의해 추출된 40(시간 구간 수)×43(주파수 구간 수) 형태의 MFCC로부터 최종적으로 7(시간 구간 수)×128(주파수 구간 수) 형태의 특징맵을 추출할 수 있다. 여기서, 상기 특징맵은 특정 시간 도메인의 MFCC에서 전체 주파수 도메인의 특징들을 제공하며, 이 특징들은 뉴럴 네트워크(131, 132)가 동물 종별 출현 확률의 산출 성능을 높이기 위해 스스로 학습하여 얻어진다.

출현 확률 산출부(130)는 풀리 커넥티드 레이어(Fully-Connected layer) 및 출력 레이어(Output layer)로 이루어진 제2 뉴럴 네트워크(132)를 포함할 수 있다.

풀리 커넥티드 레이어는 완전 연결된 다수 개의 노드로 이루어지며, 출현 정보 저장부(140) 또는 클라우드 서버에 저장된 노드별 가중치에 기초하여, 제2 뉴럴 네트워크(132)에 입력되는 특징맵을 노드값으로 변환한다.

출력 레이어는 확률 레이어(probability layer)를 포함할 수 있으며, 풀리 커넥티드 레이어에서 출력되는 노드값에 기초하여 동물 종별 확률을 산출하는 역할을 한다. 여기서, 출력 레이어는 소프트맥스(softmax) 함수를 통해 동물 종별 확률을 산출할 수 있는데, 이에 대한 설명은 뒤에서 하기로 한다.

한편, 도 4는 3×3 2D-컨볼루션 필터를 구비한 VGG13을 포함하는 출현 확률 산출부에 의해 동물 종별 출현 확률이 산출되는 모습을 나타낸 도면으로서, 설명의 편의를 위해 동물 종 식별 장치(1000)의 일부 구성만을 도시하였다. 도 4에 나타낸 바와 같이, 본 발명에 따른 출현 확률 산출부(130)는 3×3 2D-컨볼루션 필터를 구비한 VGG13을 포함할 수 있지만, 3×3 2D-컨볼루션 필터 이외에 1D-컨볼루션 필터 또는 3×1 2D-컨볼루션 필터를 구비한 VGG13을 포함할 수도 있다(표 2 참고).

출현 확률 산출부(130)는 5개의 컨볼루션 블록(ConvBlock1, ConvBlock2, ConvBlock3, ConvBlock4, ConvBlock5)으로 이루어진 제1 뉴럴 네트워크(131)를 포함할 수 있다. 여기서, 제1 컨볼루션 블록(ConvBlock1), 제2 컨볼루션 블록(ConvBlock2), 제3 컨볼루션 블록(ConvBlock3), 제4 컨볼루션 블록(ConvBlock4) 및 제5 컨볼루션 블록(ConvBlock5)을 구성하는 3×3 2D-컨볼루션 필터의 사이즈는 각각 64, 128, 256, 512 및 512이다.

각각의 컨볼루션 블록(ConvBlock1, ConvBlock2, ConvBlock3, ConvBlock4, ConvBlock5)은 2개의 3×3 2D-컨볼루션 레이어 및 1개의 2D-맥스 풀링 레이어로 이루어질 수 있다. 제1 뉴럴 네트워크(131)는 벡터 성분 추출부(120)에 의해 추출된 40(시간 구간 수)×43(주파수 구간 수)×1(채널 수) 형태의 MFCC로부터 최종적으로 1(시간 구간 수)×1(주파수 구간 수)×512(채널 수) 형태의 특징맵을 추출할 수 있다. 여기서의 특징맵 역시 특정 시간 도메인의 MFCC에서 전체 주파수 도메인의 특징들을 제공하며, 이 특징들은 뉴럴 네트워크(131, 132)가 동물 종별 출현 확률의 산출 성능을 높이기 위해 스스로 학습하여 얻어진다.

출현 확률 산출부(130)는 2개의 풀리 커넥티드 레이어, 50%의 비율을 갖는 드롭아웃 레이어 및 출력 레이어로 이루어진 제2 뉴럴 네트워크(132)를 포함할 수 있다.

2개의 풀리 커넥티드 레이어는 각각 완전 연결된 다수 개의 노드로 이루어지며, 출현 정보 저장부(140) 또는 클라우드 서버에 저장된 노드별 가중치에 기초하여, 제2 뉴럴 네트워크(132)에 입력되는 특징맵을 노드값으로 변환한다. 드롭아웃 레이어는 2개의 풀리 커넥티드 레이어 간의 연결 중 50%를 임의로 삭제함으로써, 동물 종별 출현 모델의 과적합(overfitting)을 방지한다.

도 4에 나타낸 출력 레이어 역시 확률 레이어를 포함할 수 있으며, 상기 확률 레이어는 풀리 커넥티드 레이어에서 출력되는 노드값에 기초하여 동물 종별 확률을 산출한다.

도 3 및 도 4에 나타낸 출력 레이어는 다음의 수학식 1에 따른 소프트맥스 함수를 통해 동물 종별 확률을 산출할 수 있다.

[수학식 1]

수학식 1에서 n은 최종 풀리 커넥티드 레이어의 출력층의 노드 수이고, i는 i번째 동물 종을 나타낸다.

예를 들어, 최종 풀리 커넥티드 레이어의 출력층의 노드 수는 10개일 수 있다(n=10). 이 경우 출력 레이어에서 산출되는 1번째 동물 종(i=1)은 FF, 2번째 동물 종(i=2)은 HF, 3번째 동물 종(i=3)은 AF, 4번째 동물 종(i=4)은 AM, 5번째 동물 종(i=5)은 QF, 6번째 동물 종(i=6)은 QM, 7번째 동물 종(i=7)은 SF, 8번째 동물 종(i=8)은 SM, 9번째 동물 종(i=9)은 TF, 10번째 동물 종(i=10)은 TM을 각각 나타내도록, 제1 뉴럴 네트워크(131) 및 제2 뉴럴 네트워크(132)의 기계학습이 미리 이루어질 수 있다.

수학식 1에서

는 마지막 풀리 커넥티드 레이어에 대한 입력 데이터(즉, 제1 뉴럴 네트워크(131)에서 추출된 특징맵을 입력으로 하는 제2 뉴럴 네트워크(132)의 마지막 풀리 커넥티드 레이어의 바로 전 레이어의 값)를 나타내고,

는 상기 입력 데이터

의 지수함수를 나타낸다.

수학식 1에서

는 k번째 동물 종의 출현 확률을 나타내며, 그 값은 0 이상 1 이하이다. 위의 예에 의하면,

은 FF의 출현 확률,

는 HF의 출현 확률,

는 AF의 출현 확률,

는 AM의 출현 확률,

는 QF의 출현 확률을 각각 나타낸다. 또한,

는 QM의 출현 확률,

은 SF의 출현 확률,

은 SM의 출현 확률,

는 TF의 출현 확률,

은 TM의 출현 확률을 각각 나타낸다.

이와 같이 출현 확률 산출부(130)는 벡터 성분이 입력되면, 미리 저장된 제1 뉴럴 네트워크(131) 및 제2 뉴럴 네트워크(132)를 통해 동물 종별 출현 확률을 산출한다. 예를 들어, 출현 확률 산출부(130)는

= 0.9946,

= 0.0047,

= 0.0003(QM의 출현 확률이 99.46%이고, AF의 출현 확률이 0.47%이며, SM의 출현 확률이 0.03%임을 의미함)과 같이 동물 종별 출현 확률을 산출할 수 있다. 즉, 출현 확률 산출부(130)는 소리 신호에 포함된 동물 소리가 어떤 종의 동물 소리에 해당하는 것인지를, 위와 같이 동물 종별 출현 확률로서 산출하게 된다.

그뿐 아니라, 출현 확률 산출부(130)는 상기 동물 종별 출현 확률을 동물 종 식별 장치(1000)의 사용자가 모니터링하는 화면에 디스플레이함으로써, 사용자가 동물 종을 용이하게 확인 및 식별할 수 있도록 할 수 있다. 또한, 출현 확률 산출부(130)는 상기 동물 종별 출현 확률을 출현 정보 저장부(140)로 전달하여 출현 정보 저장부(140)가 이를 저장토록 할 수 있고, 통신부(150)로 전달하여 통신부(150)가 이를 사용자 단말로 전송토록 할 수도 있다.

한편, 상기 S400 단계 이후에, 출현 확률 산출부(130)의 출현 확률 갱신부(133)는 출현 정보 저장부(140)에 미리 저장된 동물 종들의 출현 정보를 이용해서 동물 종별 출현 확률을 갱신하여 동물 종별 출현 확률 갱신값을 산출할 수 있다(S500).

상술한 바와 같이, 출현 정보 저장부(140)는 동물 종들의 출현 정보를 저장할 수 있으며, 여기서 상기 동물 종들의 출현 정보는 지역별 동물 종들의 출현 정보 및 시간대별 동물 종들의 출현 정보 중 적어도 하나일 수 있다. 이는 동물 종들의 출현 확률이 지역적 분포 또는 활동 일주기 리듬(activity circadian rhythm)에 따라 상이하기 때문이다. 상기 동물 종들의 출현 정보는 사용자에 의해 미리 저장된 것이거나, 외부의 동물 종들 출현 정보 제공 기관으로부터 미리 다운로드된 것일 수 있으며, 출현 확률 갱신부(133)는 출현 정보 저장부(140)로부터 동물 종들의 출현 정보를 로딩해서 사용할 수 있다.

동물 종들의 출현 정보는 널리 알려져 있는 것임에도 불구하고 이를 활용하는 방안에 대한 논의는 부족한 실정이다. 이에 본 발명에서는 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률을 선험적 확률(priori probability)로 정의하고, 이를 동물 종별 출현 확률에 적용하여 동물 종 식별의 정확도를 향상시키고자 한다.

도 5는 2종의 파리(FF, HF)와 8종의 모기(AF, AM, QF, QM, SF, SM, TF, TM)에 대한 활동 일주기 리듬을 나타낸 그래프이다. 도 5의 그래프는 한 달 동안 개별 관찰된 파리 및 모기 종들의 활동 일주기 리듬을 평균한 것이며, x축은 시간을, y축은 카운트(즉, 하루 중 시간대별 출현 빈도)를 나타낸다.

도 5에 나타낸 활동 일주기 리듬에 의하면, QM은 오후 9시와 오전 11시 사이에 가장 활발한 활동을 보였고, TM은 오전 5시에서 오전 7시 사이에 가장 활발한 활동을 보였음을 알 수 있다.

이러한 활동 일주기 리듬은 동물 종들의 출현 정보에 해당하며(보다 구체적으로는, 시간대별 동물 종들의 출현 정보에 해당함), 상기 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률은 선험적 확률로 정의될 수 있다.

예를 들어, QM의 경우 오후 9시와 오전 11시 사이의 선험적 확률은 95%로 산출될 수 있고, TM의 경우 오전 5시에서 오전 7시 사이의 선험적 확률은 60%로 산출될 수 있다. 여기서, 상기 선험적 확률은 출현 확률 갱신부(133)가 출현 정보 저장부(140)로부터 동물 종들의 출현 정보를 전달받은 뒤, 출현 확률 갱신부(133)에 의해 직접적으로 산출될 수 있다. 또는, 상기 선험적 확률은 사용자에 의해 출현 정보 저장부(140)에 미리 저장된 것일 수 있으며, 이 경우 출현 확률 갱신부(133)는 출현 정보 저장부(140)로부터 상기 선험적 확률을 로딩해서 사용할 수 있다.

출현 확률 갱신부(133)가 동물 종별 출현 확률 갱신값을 산출하는 방안 중 하나는 베이즈 정리(Bayes' Rule)에 기반한 원리를 이용하는 것이다.

출현 확률 갱신부(133)가 산출하고자 하는 동물 종별 출현 확률 갱신값은, 독립변수

(본 발명에서는 MFCC가 이에 해당함)가 특정 시간 t에 존재할 때, i번째 동물 종

가 출현할 새로운 비율

에 해당한다.

또한, 상기 S400 단계에서 산출된 동물 종별 출현 확률은, 독립변수

가 특정 시간 t에 존재할 때, i번째 동물 종

가 출현할 확률

에 해당한다.

또한, 동물 종들의 출현 정보(예를 들어, 활동 일주기 리듬)에 포함되어 있는 각 동물 종의 출현 확률은, i번째 동물 종

의 선험적 확률

로 정의될 수 있다.

먼저, 동물 종별 출현 확률 갱신값

는 베이즈 정리에 의해 다음의 수학식 2와 같이 나타낼 수 있다.

[수학식 2]

수학식 2에서

는 i번째 동물 종

가 출현할 새로운 데이터에 대하여 시간 t에서 i번째 동물 종

의 출현 확률을 나타내고,

는 상기 새로운 데이터의 스코어이며,

는

의 마지널 확률(marginal probability)을 나타낸다.

다음으로, 상기 S400 단계에서 산출된 동물 종별 출현 확률

는 베이즈 정리에 의해 다음의 수학식 3과 같이 나타낼 수 있다.

[수학식 3]

수학식 3에서

는 미리 기계학습된 데이터에 대하여 시간 t에서 i번째 동물 종

의 출현 확률을 나타내고,

는 상기 기계학습된 데이터의 스코어이며,

는

의 마지널 확률을 나타낸다.

한편, 동물 종별 출현 확률 갱신값을 산출하고자 할 때, 상기 새로운 데이터의 스코어

와, 상기 기계학습된 데이터의 스코어

는 서로 동일한 것으로 가정할 수 있다. 이에 따라, 수학식 2와 수학식 3을 정리하고, 이때

로 정의하면, 다음과 같은 수학식 4를 얻을 수 있다.

[수학식 4]

이므로,

를 얻을 수 있으며, 이는 항(term)이 통계적으로 정규화되었음을 의미한다.

마지막으로,

와

간의 관계는 베이즈 정리에 의해 다음의 수학식 5와 같이 나타낼 수 있다.

[수학식 5]

수학식 5에서 확률

는 동물 종들의 출현 정보(예를 들어, 활동 일주기 리듬)에 포함되어 있는 각 동물 종의 출현 확률 중 시간 t에서의 출현 확률을 나타낸다. 상술한 바와 같이,

이고, 이때

는 정규화 항인

에 포함되므로,

임을 알 수 있다.

이러한 비례 관계에 의하면, 동물 종별 출현 확률 갱신값

은, 동물 종별 출현 확률

을, 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률인 선험적 확률

과 곱셈 처리하여 산출될 수 있다는 것을 알 수 있다. 여기서, 동물 종별 출현 확률 갱신값은 선험적 확률과 대비되는 확률인 사후 확률(posteriori probability)에 해당한다.

예를 들어, 소리 신호 수신부(110)가 오후 9시와 오전 11시 사이에 동물 소리가 포함된 소리 신호를 수신하였고, 이때 출현 확률 산출부(130)의 의해 산출된 동물 종별 출현 확률 중 QM의 출현 확률이 99.46%이며, 그 시간대 QM의 선험적 확률이 95%인 경우, 출현 확률 산출부(130)는 QM의 동물 종별 출현 확률과 선험적 확률을 곱셈 처리하여, 동물 종별 출현 확률 갱신값 94.49%를 산출할 수 있다.

위의 예에서는 비록 시간대별 동물 종들의 출현 정보에 해당하는 활동 일주기 리듬에 대해서만 설명하였으나, 출현 확률 산출부(130)는 동물 종별 출현 확률 갱신값을 산출함에 있어서 지역별 동물 종들의 출현 정보를 이용할 수도 있다. 즉, 출현 확률 산출부(130)(보다 구체적으로는, 출현 확률 갱신부(133))는 지역별 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률(지역별 출현 확률)을 선험적 확률로 하고, 이를 상기 S400 단계에서 산출된 동물 종별 출현 확률과 곱셈 처리하여 동물 종별 출현 확률 갱신값을 산출할 수 있는 것이다.

표 2는 도 5의 활동 일주기 리듬에 따른 선험적 확률에 의해, 상기 S400 단계에서 산출된 동물 종별 출현 확률이 갱신되지 않은 경우와 갱신된 경우, 동물 종 식별 장치(1000)에 의한 파리 및 모기 종의 식별 정확도를 나타낸 표이다.

[표 2]

소리 신호의 기계 학습을 위해 사용된 합성곱 신경망은 Simple CNN 및 VGG13이었으며, 각각의 합성곱 신경망은 1D-컨볼루션 필터, 3×1 2D-컨볼루션 필터 및 3×3 2D-컨볼루션 필터 중 어느 하나를 구비한 상태에서 파리 및 모기 종을 식별하였다.

표 2에서 "No"는 상기 S400 단계에서 산출된 동물 종별 출현 확률 그 자체로서, 도 5의 활동 일주기 리듬에 따른 선험적 확률에 의해 동물 종별 출현 확률이 갱신되지 않은 것을 의미한다. 표 2에서 "Yes"는 상기 S400 단계에서 산출된 동물 종별 출현 확률이, 도 5의 활동 일주기 리듬에 따른 선험적 확률에 의해 갱신(즉, 동물 종별 출현 확률과 선험적 확률의 곱셈 처리)된 것을 의미한다. 표 2에 의하면, 상기 S400 단계에서 산출된 동물 종별 출현 확률이 도 5의 활동 일주기 리듬에 따른 선험적 확률에 의해 갱신된 경우("Yes")에는, 갱신되지 않은 경우("No")에 비해 평균 5.5% 더 향상된 동물 종 식별 정확도를 갖는다는 것을 알 수 있다.

도 6은 도 5의 활동 일주기 리듬에 따른 선험적 확률에 의해, 상기 S400 단계에서 산출된 동물 종별 출현 확률이 갱신되지 않은 경우(삼각형으로 표시함)와 갱신된 경우(원형으로 표시함), 도 4에 나타낸 VGG13의 리콜(recall) 변화를 보여주는 산포도이다.

도 6에서 "1D VGG13"은 출현 확률 산출부(130)가 1D-컨볼루션 필터를 구비한 VGG13으로 동물 종별 출현 확률 및 동물 종별 출현 확률 갱신값을 산출하였음을 의미하고, "3×1 VGG13"은 출현 확률 산출부(130)가 3×1 2D-컨볼루션 필터를 구비한 VGG13으로 동물 종별 출현 확률 및 동물 종별 출현 확률 갱신값을 산출하였음을 의미한다. 또한, "3×3 VGG13"은 출현 확률 산출부(130)가 3×3 2D-컨볼루션 필터를 구비한 VGG13으로 동물 종별 출현 확률 및 동물 종별 출현 확률 갱신값을 산출하였음을 의미한다.

리콜은 소리 신호가 실제 i번째 동물 종의 동물 소리를 포함하고 있을 때, 동물 종 식별 장치(1000)가 i번째 동물로 예측한 비율을 의미하며, 이는 동물 종 식별 장치(1000)가 소리 신호를 통해 동물 종을 얼마나 잘 식별해내는지를 나타낸다. 도 6에 의하면, 상기 S400 단계에서 산출된 동물 종별 출현 확률이, 도 5의 활동 일주기 리듬에 따른 선험적 확률에 의해 갱신(즉, 동물 종별 출현 확률과 선험적 확률의 곱셈 처리)될 경우, 약 1% 차이로 모든 동물 종에서 더 높은 리콜을 나타낸다는 것을 알 수 있다.

한편, 상기 S500 단계 이후에, 통신부(150)는 출현 확률 산출부(130)에 의해 산출되는 동물 종별 출현 확률 갱신값을 사용자 단말(미도시)로 전송할 수 있다(S600). 또한, 통신부(150)는 상기 S400 단계에서 출현 확률 산출부(130)에 의해 산출되는 동물 종별 출현 확률 역시 사용자 단말로 전송할 수 있다. 이와 같은 통신부(150)를 통해 동물 종 식별 장치(1000)의 사용자는 동물 종별 출현 확률 또는 동물 종별 출현 확률 갱신값을 손쉽게 확인 및 저장할 수 있으며, 소리 신호로부터 식별되는 동물 종 역시 손쉽게 파악할 수 있게 된다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

예를 들어, 위에서는 CNN을 통한 소리 신호의 기계학습에 대해서만 설명하였으나, DCNN (Deep Convolution Neural Network), DNN (Deep Neural Network), RNN(Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), SSD (SingleShot Detector), YOLO (You Only Look Once) 등 CNN 이외의 기계학습 알고리즘도 얼마든지 활용 가능하다. 또한, 위에서는 소리 신호 수신부(110)와 통신부(150)가 서로 별개의 하드웨어 구성인 것으로 설명하였으나, 경우에 따라서 소리 신호 수신부(110)와 통신부(150)는 서로 동일한 하드웨어 구성일 수도 있다.

또한, 위에서는 2종의 파리 소리 및 8종의 모기 소리를 예로 들어 설명하였으나, 그 이외의 동물 소리를 가지고도 얼마든지 동물 종별 출현 확률을 산출할 수 있음은 물론이다. 나아가, 동물 종들의 출현 정보(즉, 지역별 동물 종들의 출현 정보 또는 시간대별 동물 종들의 출현 정보)를 특정할 수 있는 동물 종이기만 하면, 파리 및 모기 이외의 동물 종들도 그 동물 종들의 출현 정보를 이용해서 동물 종별 출현 확률 갱신값을 산출할 수 있음은 물론이다.

따라서, 본 발명의 기술적 사상은 청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명의 기술적 사상의 범주 안에 속한다고 할 것이다.

110: 소리 신호 수신부
120: 벡터 성분 추출부
130: 출현 확률 산출부
131: 제1 뉴럴 네트워크
132: 제2 뉴럴 네트워크
133: 출현 확률 갱신부
140: 출현 정보 저장부
150: 통신부
1000: 동물 종 식별 장치

Claims

동물 소리가 포함된 소리 신호를 수신하는 소리 신호 수신부;
상기 소리 신호로부터 기계학습을 위한 벡터 성분을 추출하는 벡터 성분 추출부; 및
상기 벡터 성분을 미리 저장된 제1 뉴럴 네트워크의 입력으로 적용하여 상기 벡터 성분의 기계학습 결과인 특징맵을 추출하고, 상기 특징맵을 미리 저장된 제2 뉴럴 네트워크의 입력으로 적용하여 상기 특징맵의 기계학습 결과인 동물 종별 출현 확률을 산출하는 출현 확률 산출부를 포함하는 동물 종 식별 장치.
제1항에 있어서,
지역별 동물 종들의 출현 정보 및 시간대별 동물 종들의 출현 정보 중 적어도 하나를 동물 종들의 출현 정보로서 저장하는 출현 정보 저장부를 더 포함하고,
상기 출현 확률 산출부는,
상기 동물 종들의 출현 정보를 이용해서 상기 동물 종별 출현 확률을 갱신하여 동물 종별 출현 확률 갱신값을 산출하는 것을 특징으로 하는 동물 종 식별 장치.
제2항에 있어서,
상기 출현 확률 산출부는,
상기 동물 종별 출현 확률을, 상기 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률인 선험적 확률과 곱셈 처리하여, 상기 동물 종별 출현 확률 갱신값을 산출하는 것을 특징으로 하는 동물 종 식별 장치.
제2항에 있어서,
상기 출현 확률 산출부에 의해 산출되는 동물 종별 출현 확률 갱신값을 사용자 단말로 전송하는 통신부를 더 포함하는 동물 종 식별 장치.
동물 종 식별 장치에 의해 수행되는 동물 종 식별 방법으로서,
(a) 동물 소리가 포함된 소리 신호를 수신하는 단계;
(b) 상기 소리 신호로부터 기계학습을 위한 벡터 성분을 추출하는 단계;
(c) 상기 벡터 성분을 미리 저장된 제1 뉴럴 네트워크의 입력으로 적용하여 상기 벡터 성분의 기계학습 결과인 특징맵을 추출하는 단계; 및
(d) 상기 특징맵을 미리 저장된 제2 뉴럴 네트워크의 입력으로 적용하여 상기 특징맵의 기계학습 결과인 동물 종별 출현 확률을 산출하는 단계를 포함하는 동물 종 식별 방법.
제5항에 있어서,
상기 (d)단계 이후에,
(e) 상기 동물 종 식별 장치에 저장된 동물 종들의 출현 정보를 이용해서 상기 동물 종별 출현 확률을 갱신하여 동물 종별 출현 확률 갱신값을 산출하는 단계를 더 포함하는 동물 종 식별 방법.
제6항에 있어서,
상기 (e)단계에서는,
상기 동물 종별 출현 확률을, 상기 동물 종들의 출현 정보에 포함되어 있는 각 동물 종의 출현 확률인 선험적 확률과 곱셈 처리하여, 상기 동물 종별 출현 확률 갱신값을 산출하는 것을 특징으로 하는 동물 종 식별 방법.
제6항에 있어서,
(f) 상기 (e)단계에서 산출되는 동물 종별 출현 확률 갱신값을 사용자 단말로 전송하는 단계를 더 포함하는 동물 종 식별 방법.