WO2020080626A1 - 동물 종 식별 방법 및 장치 - Google Patents

동물 종 식별 방법 및 장치 Download PDF

Info

Publication number
WO2020080626A1
WO2020080626A1 PCT/KR2019/004677 KR2019004677W WO2020080626A1 WO 2020080626 A1 WO2020080626 A1 WO 2020080626A1 KR 2019004677 W KR2019004677 W KR 2019004677W WO 2020080626 A1 WO2020080626 A1 WO 2020080626A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
processing result
result
animal species
image
Prior art date
Application number
PCT/KR2019/004677
Other languages
English (en)
French (fr)
Inventor
고한석
박상욱
고경득
김동현
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to US17/279,661 priority Critical patent/US11830272B2/en
Publication of WO2020080626A1 publication Critical patent/WO2020080626A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • the present invention relates to a method and apparatus for identifying animal species, and more particularly, to a method and apparatus for identifying animal species using audio-visual information.
  • the technology can detect the animal entering the surveillance area. However, it is possible to determine whether the animal is an animal or not, but it is not possible to distinguish which species.
  • An object of the present invention is to provide an animal species identification method capable of identifying an animal species using an artificial intelligence method using audio-visual information about a target object.
  • the animal species identification method according to an embodiment of the present invention can more conveniently identify the animal species using audio-visual information of the target object.
  • FIG. 1 is a block diagram illustrating an animal species identification method related to an embodiment of the present invention.
  • Figure 2 shows an animal species identification device related to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method for identifying animal species related to an embodiment of the present invention.
  • FIG. 4 is a view for explaining the structure of the atmospheric optical model associated with an embodiment of the present invention.
  • FIG. 5 is a view for explaining a method of removing rain and snow in an image related to an embodiment of the present invention.
  • FIG. 6 is a CNN structure diagram for acoustic signal recognition according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method of fusing image information and sound information in an animal species identification method related to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating an animal species identification method related to an embodiment of the present invention.
  • the identification server 100 and the animal species identification device 200 may be connected through a network network.
  • the network network refers to a network that performs communication through a medium, and may include at least one of a wired communication network, a computer network, and a wireless communication network.
  • the identification server 100 may receive the video information from the animal species identification device 200 photographing the movement of a specific animal and the sound information recording the crying sound of a specific animal. Based on the received information, the identification server 100 may identify which animal species the specific animal is and transmit the result to the animal species identification device 200.
  • the identification server 100 may include a communication unit 110, an image processing unit 120, an audio processing unit 130, a fusion unit 140, and a final classification unit 150.
  • the communication unit 110 receives an image signal and an audio signal, etc. for a specific animal input to the animal species identification device 200, and based on the received input signal, the identification result for the specific animal finally classified is the animal It can be transmitted to the species identification device 200.
  • the image processing unit 120 may recognize an object based on the received image signal for a specific animal.
  • the sound processing unit 130 may recognize the sound of the specific animal based on the received acoustic signal for the specific animal.
  • the fusion unit 140 may fuse the image information processing result processed by the image processing unit 120 and the audio information processing result processed by the sound processing unit 130.
  • the final classification unit 150 may finally classify which animal species a specific animal is based on a result of fusion by the fusion unit 140.
  • FIG. 2 shows an animal species identification device related to an embodiment of the present invention.
  • the animal species identification device described in the embodiment shows a mobile device, it may be implemented as a fixed device.
  • FIG. 2 (a) is a perspective view of the animal species identification device 200 viewed from one direction
  • FIG. 2 (b) is a state in which the animal species identification device 200 in the state of FIG. 2 (a) is turned upside down to change
  • 2 (c) is a perspective view of a state in which the animal species identification device 200 in the state of FIG. 2 (a) is positioned such that the front side and the back side are changed
  • FIG. 2 (d) is FIG. 2 (b).
  • the animal species identification device 200 includes a touch screen (1), a first camera (2), a second camera (3), a microphone (4), a radiator (5), a power switch (6), and a data terminal (7). ).
  • the touch screen 1 may receive a user's command and output analysis results and related information of the AI identification method received from the identification server 100 at the same time.
  • the first camera 2 and the second camera 3 may capture an image or image signal to be analyzed by an artificial intelligence identification method.
  • the first camera 2 and the second camera 3 may be the same type of camera or different types of cameras.
  • one of the first camera 2 and the second camera 3 may be a CCD camera, and the other may be an infrared camera.
  • the microphone 4 may receive an acoustic signal to be analyzed by an artificial intelligence identification method.
  • the microphone 4 may be arranged such that a plurality of microphones form a predetermined interval. For example, as shown, it is composed of four microphones, and the microphones can be arranged with a spacing of 2.5 cm for each microphone.
  • the heat dissipation hole 5 may emit heat generated as the animal species identification device 200 is driven.
  • the power switch 6 can turn the power of the animal species identification device 200 on or off.
  • the data terminal 7 is a terminal that can access a storage memory built into the device, through which data can be uploaded / downloaded.
  • the animal species identification device 200 receives an image signal of a target object (or target animal) from the first camera 2 or the second camera 3, and receives the target object (or target animal) from the microphone 4.
  • An acoustic signal can be input.
  • the input video signal and audio signal may be transmitted to the identification server 100.
  • the identification server 100 may process the received video signal and audio signal, respectively, and fuse the processed results, to finally classify which animal species the target object is.
  • FIG. 3 is a flowchart illustrating a method for identifying animal species related to an embodiment of the present invention.
  • the communication unit 110 of the identification server 100 may receive an image signal input to the animal species identification device 200 (S310).
  • the image processing unit 120 may process the received image signal to derive image information processing results.
  • the image processing unit 120 may perform image quality improvement (S320).
  • S320 image quality improvement
  • a method of removing fog / smoke from the received video signal may be used to improve image quality.
  • FIG. 4 is a view for explaining the structure of the atmospheric optical model associated with an embodiment of the present invention.
  • I denotes observation data
  • x denotes pixel coordinates in the image
  • J decomposes the image
  • t denotes a transmission amount
  • A denotes global atmospheric scattered light.
  • the method for removing fog / fume based on the atmospheric optical model is composed of a regional atmospheric scattered light estimation step, a regional delivered quantity estimation step, an atmospheric scattered light and delivered quantity refining step.
  • the input image is converted to a gray image, divided into MxM blocks, and then a minimum value is found as shown in Equation (1).
  • L means divided individual blocks
  • y means pixel coordinates within the block.
  • the delivery amount estimation step the delivery amount is estimated as a value that maximizes the objective function, which is a function of image entropy, information reliability, and dynamic range, and Equation 3 below.
  • N is the number of total pixels and hi is the number of i pixel values.
  • Equation 3 the estimated transfer amount of the k-th block is expressed by Equation 4 below.
  • Equation 4 Is a result estimated through Equation 4, t is a result image to be refined.
  • h is a morphologically processed image through a fog image converted to gray
  • is a smoothing control variable.
  • a and b represent the horizontal and vertical directions of each image, and ⁇ is a weight adjustment variable.
  • is a fine constant value to prevent division of the denominator by zero.
  • Equation 6 The solution through differential of Equation 5 is as shown in Equation 6 below.
  • Equation 6 A is a matrix in which the weight value of Equation 11 is included in the diagonal component for each horizontal and vertical direction, and D is a first order differential matrix operator.
  • a method of removing fog / smoke from the received video signal may be used to improve image quality.
  • FIG. 5 is a view for explaining a method of removing rain and snow in an image related to an embodiment of the present invention.
  • a moving object is detected based on the mobility of the object and a background without motion is removed.
  • Objects for snow / rain are selected based on the size of the detected area.
  • Eye / rain objects are determined based on the Histogram of Orientation (HOG) for the selected candidate groups.
  • the final detected object is determined as an object for snow / rain and is removed from the observation data.
  • the image processing unit 120 may detect an object and recognize the detected object (S330, S3340).
  • the object detection is a step of recognizing a location and an area of objects in an image with improved image quality
  • object recognition is a step of recognizing what the detected object is.
  • a regional convolutional neural network RCNN
  • CNN convolutional neural network
  • the RCNN recognizes the position of the object and what the object is based on the result of the convolutional operation by using a filter of a fixed size for the image like CNN.
  • a score for each class for a video signal is calculated.
  • CNN is composed of a convolutional layer, a pooling layer, and a fully-connected layer.
  • a 2D filter having a fixed size in 2D data is sliding and a convolution operation is performed.
  • a plurality of filters may be used, and in this case, convolution is performed using a 3D filter, and the result is expressed in 3D.
  • multiple filters are applied to analyze observation data from multiple angles to extract results.
  • the pooling layer has a dimension of “number of horizontal x vertical x filters”.
  • the dimension can be reduced by selecting a representative value in the neighboring regions. This process is performed in the pooling layer.
  • the fully-connected layer means the last layer for connecting to the last output layer after the observation data is propagated along a plurality of convolution-pooling layers.
  • convolution-means NN that is completely connected to the output layer after transforming the 3D data resulting from the completion of the pooling operation into 1D data.
  • NN receives 1-dimensional observation data and propagates, while CNN receives 2-dimensional observation data.
  • the observation data can be directly propagated by inputting the observation data to the CNN, but in the case of sound, one-dimensional data must be transformed into two-dimensional data.
  • 1-dimensional acoustic data is transformed into a spectrogram by applying a Short Time Fourier Transform (STFT), and a Mel-filter reflecting human auditory characteristics sensitive to low frequencies is applied and transformed into a log scale, resulting in a 2-dimensional log-Mel spectrum. This is converted and input to CNN.
  • STFT Short Time Fourier Transform
  • the communication unit 110 of the identification server 100 may receive the sound signal input to the animal species identification device 200 (S350).
  • the sound processing unit 130 may process the received sound signal to derive the sound information processing result.
  • the sound processing unit 120 may perform sound quality improvement (S360).
  • a beamforming method is applied as a method for reducing noise in an acoustic signal inputted through the microphone 4.
  • Beamforming (not shown) is a method of extracting a signal input in a specific direction, and may include an acoustic signal input unit, a phase difference calculation unit, a noise component extraction unit, a signal size estimation unit, and a noise removal coefficient calculation unit.
  • the sound signal input unit is a part that converts the signal input to the microphone 4 into digital, and the signals input from the individual microphones are hereinafter referred to as first to fourth signals.
  • the phase difference calculation unit calculates the phase difference of the first to fourth signals in order to estimate the direction by using a characteristic in which the phases of the first to fourth signals differ depending on the direction of the acoustic signal.
  • the noise component extractor considers signals other than the calculated phase difference as noise and separates them.
  • the signal size estimation unit estimates the signal size component by removing the noise extracted from the first to fourth signals.
  • the noise canceling coefficient calculator determines the ratio of the extracted noise and the signal size component as the noise canceling coefficient and extracts it from the first to fourth signals to improve the observed signal.
  • the sound processing unit 130 may detect a required signal section from the improved observation signal (S370).
  • the sound processing unit 130 may apply a modified Double Fourier Transform Voice Activity Detection (DFVAD) algorithm to detect a signal section in an acoustic signal with improved sound quality.
  • DFAD Double Fourier Transform Voice Activity Detection
  • STFT Short Time Fourier Transform
  • FFT Fast Fourier Transform
  • the sound processing unit 130 recognizes sound through the detected signal section (S380).
  • the acoustic processing unit 130 may apply a CNN technique to recognize the detected acoustic signal. For example, after STFT is applied to the acoustic signal of the detected signal section and converted to a spectrogram, Mel-filter is applied and converted to a log scale to generate a log-mel spectrum. At this time, the log-mel spectrum is input to the CNN for acoustic signal recognition, passing through convolution, pooling, and fully-connected layers to calculate scores for each class of acoustic signals in the final output layer.
  • a CNN technique For example, after STFT is applied to the acoustic signal of the detected signal section and converted to a spectrogram, Mel-filter is applied and converted to a log scale to generate a log-mel spectrum. At this time, the log-mel spectrum is input to the CNN for acoustic signal recognition, passing through convolution, pooling, and fully-connected layers to calculate scores for each class of acoustic signals in the final output layer.
  • FIG. 6 is a CNN structure diagram for acoustic signal recognition according to an embodiment of the present invention.
  • the fusion unit 140 may fuse results processed by the image processing unit 120 and the sound processing unit 130 (S390).
  • FIG. 7 is a flowchart illustrating a method of fusing image information and sound information in an animal species identification method related to an embodiment of the present invention.
  • the fusion unit 140 of the identification server 100 may determine whether both the image information processing result processed by the image processing unit 120 and the sound information processing result processed by the sound processing unit 130 exist (S710). .
  • the video information processing result and the audio information processing result may be expressed as a score for each class.
  • the fusion unit 140 may fuse the score for the image information processing result and the score for the audio information processing result (S720).
  • the final result is determined depending on the result of the information processing from which the result was derived.
  • the animal object is finally classified by calling the image information (S730, S740).
  • the sound information may be called to finally classify which animal species the target object is (S730, S750).
  • each score is fused in the image / sound score fusion step to derive the final result according to Equation (8).
  • c and n are indexes for the object and the system, respectively, Is the reliability of the c-th recognition target in the n-th system, Is the score for the c-th recognition target in the n-th system, The To Divide by means the normalized score.
  • Equation (8) derives a recognition result as a recognition object having the highest score when each system is given reliability by adding scores to each recognition object.
  • G means the actual value
  • O means the recognition result obtained from the recognition system.
  • O c) when the result of the recognition system is c, and the actual value is also c, which can be expressed as the joint probability by the bayesian rule. This gives high reliability when there is little misrecognition as a specific recognition target in one system, and low reliability otherwise.
  • the animal species identification method according to an embodiment of the present invention can more conveniently identify the animal species using audio-visual information of the target object.
  • the above-described animal species identification method is implemented in the form of program instructions that can be executed through various computer means and can be recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, or the like alone or in combination.
  • the program instructions recorded on the recording medium may be specially designed and configured for the present invention or may be known to those skilled in computer software.
  • Computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, magnetic media such as optical media such as CD-ROMs and DVDs, and floppy disks. Included are hardware devices specifically configured to store and execute program instructions, such as magneto-optical media, and memory storage devices such as ROM, RAM, flash memory, and solid state drives (SSDs).
  • magnetic media such as hard disks, floppy disks and magnetic tapes
  • magnetic media such as optical media such as CD-ROMs and DVDs
  • floppy disks include hardware devices specifically configured to store and execute program instructions, such as magneto-optical media, and memory storage devices such as ROM, RAM, flash memory, and solid state drives (SSDs).
  • SSDs solid state drives
  • such a recording medium may be a transmission medium such as an optical or metal wire or waveguide including a carrier wave that transmits a signal specifying a program command, data structure, or the like.
  • program instructions include not only machine language codes produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operation of the present invention, and vice versa.
  • the method and apparatus for identifying animal species described above are not limited to the configuration and method of the above-described embodiments, and the above-described embodiments may be selectively selected in whole or in part so that various modifications can be made. It may be configured in combination.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 시청각 정보를 이용하여 동물 종을 식별하는 방법 및 장치에 관한 것이다. 본 발명의 일실시예에 의한 동물 종 식별방법은 대상 객체에 대한 입력 신호를 수신하는 단계; 상기 입력 신호에 근거하여 영상정보 및 음향정보 처리하는 단계 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현됨-; 상기 입력 신호에 대응되는 영상정보 처리 결과 및 음향정보 처리 결과가 존재하는지를 판단하는 단계; 및 상기 판단 결과에 따라 상기 영상정보 처리 결과 및 음향정보 처리 결과를 융합하고, 상기 융합된 처리 결과를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 최종 결과 도출 단계를 포함할 수 있다.

Description

동물 종 식별 방법 및 장치
본 발명은 동물 종 식별 방법 및 장치에 관한 것으로, 보다 상세하게는 시청각 정보를 이용하여 동물 종을 식별하는 방법 및 장치에 관한 것이다.
UN을 포함한 각 국가에서는 국내뿐만 아니라 국제적으로 동물들의 생산, 유통, 이동 등의 과정에서 발생할 수 있는 모든 리스크를 통제하기 위해서, 효과적이면서도 신뢰성이 높은 동물개체 추적(tracking) 및 식별 시스템에 관한 제도를 운영하고자 노력하고 있으며, 최근 들어서는 전통적인 방법 이외에 발달된 정보화 기술을 통해서 보다 나은 시스템을 구축하고자 다양한 시도 및 연구를 진행하고 있다. 관련된 선행문헌으로 공개특허 공보 제10-2014-0138103호가 있다.
또한, 관련된 기술로 영상 인식 기반의 동물을 감지하는 방법이 있다. 이는 미리 설정해 둔 감시영역을 복수의 센서를 이용하여 동물들이 있는지 감지할 수 있는 기술이다. 즉, 동물들이 감시영역에 들어올 경우 이를 감지하고 하우징 등의 경고장치를 작동시킬 수 있다.
그러나 상기 기술은 감시영역에 동물이 들어오는 것을 감지할 수 있다. 그러나 해당 동물이 동물인지 아닌지는 판별이 가능하지만, 어떠한 종인지는 구분이 불가능하다.
따라서 다양한 동물 종에 대해 보다 정확하고 편리하게 구별할 수 있는 기술에 대한 연국가 필요한 실정이다.
본 발명의 목적은 대상 객체에 대한 시청각 정보를 이용하여 인공지능 방식으로 동물 종을 식별할 수 있는 동물 종 식별 방법을 제공하는 데 있다.
상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 대상 객체에 대한 입력 신호를 수신하는 단계; 상기 입력 신호에 근거하여 영상정보 및 음향정보 처리하는 단계 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현됨-; 상기 입력 신호에 대응되는 영상정보 처리 결과 및 음향정보 처리 결과가 존재하는지를 판단하는 단계; 및 상기 판단 결과에 따라 상기 영상정보 처리 결과 및 음향정보 처리 결과를 융합하고, 상기 융합된 처리 결과를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 최종 결과 도출 단계를 포함하는 동물 종 식별 방법이 개시된다.
본 발명의 일실시예에 의한 동물 종 식별 방법은 대상 객체의 시청각 정보를 이용하여 보다 편리하게 동물 종을 식별할 수 있다.
본 발명의 일실시예에 의하면, 인공지능 방식으로 동물 종을 식별하기에 자생 동물을 조사할 수 있는 인프라 구축 및 부족한 전문가의 인력을 보완할 수 있다.
도 1은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 설명하기 위한 블록도이다.
도 2는 본 발명의 일실시예와 관련된 동물 종 식별 장치를 나타낸다.
도 3은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일실시예와 관련된 대기 광학 모델 구조를 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예와 관련된 영상에서 비, 눈 제거 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예와 관련된 음향 신호 인식을 위한 CNN 구조도이다.
도 7은 본 발명의 일실시예와 관련된 동물 종 식별 방법에서 영상정보와 음향정보를 융합하는 방법을 나타내는 흐름도이다.
[부호의 설명]
100: 식별서버
110: 통신부
120: 영상 처리부
130: 음향 처리부
140: 융합부
150: 최종 분류부
200: 동물 종 식별장치
이하, 본 발명의 일실시예와 관련된 동물 종 식별 방법 및 장치에 대해 도면을 참조하여 설명하도록 하겠다.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
도 1은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 설명하기 위한 블록도이다.
도시된 바와 같이, 식별서버(100)와 동물 종 식별장치(200)는 네트워크 망을 통해 연결될 수 있다. 네트워크 망은 매체를 통해 통신을 수행하는 망을 말하는 것으로, 유선 통신망, 컴퓨터 네트워크 및 무선 통신망 중 적어도 하나를 포함할 수 있다.
상기 식별서버(100)는 상기 동물 종 식별장치(200)로부터 특정 동물에 대한 움직임 등을 촬영한 영상정보 및 특정 동물의 울음소리 등을 녹음한 음향정보를 수신할 수 있다. 상기 수신된 정보에 근거하여 상기 식별서버(100)는 상기 특정 동물이 어떤 동물 종인지를 식별하고, 그 결과를 상기 동물 종 식별장치(200)로 전송할 수 있다.
상기 식별서버(100)는 통신부(110), 영상 처리부(120), 음향 처리부(130), 융합부(140) 및 최종 분류부(150)를 포함할 수 있다.
상기 통신부(110)는 상기 동물 종 식별장치(200)에 입력된 특정 동물에 대한 영상신호 및 음향신호 등을 수신하고, 수신한 입력신호를 기반으로 최종 분류된 특정 동물에 대한 식별 결과를 상기 동물 종 식별장치(200)로 전송할 수 있다.
상기 영상 처리부(120)는 수신된 특정 동물에 대한 영상신호를 기반으로 객체를 인식할 수 있다.
상기 음향 처리부(130)는 수신된 특정 동물에 대한 음향신호를 기반으로 상기 특정 동물의 음향을 인식할 수 있다.
상기 융합부(140)는 상기 영상 처리부(120)에서 처리된 영상정보 처리 결과와 상기 음향 처리부(130)에서 처리된 음향정보 처리 결과를 융합할 수 있다.
상기 최종 분류부(150)는 상기 융합부(140)에서 융합한 결과에 근거하여 특정 동물이 어떤 동물 종인지 최종적으로 분류할 수 있다.
도 2는 본 발명의 일실시예와 관련된 동물 종 식별 장치를 나타낸다. 이하, 실시예에서는 설명되는 동물 종 식별장치는 이동형 장치를 나타내나, 고정형 장치로 구현될 수도 있다.
도 2(a)는 일방향에서 바라본 동물 종 식별 장치(200)의 사시도이고, 도 2(b)는 도 2(a) 상태의 동물 종 식별장치(200)를 윗면과 아랫면이 바뀌도록 뒤집어 놓은 상태의 사시도이고, 도 2(c)는 도 2(a) 상태의 동물 종 식별장치(200)를 앞측면과 뒤측면이 바뀌도록 위치시킨 상태의 사시도이고, 도 2(d)는 도 2(b) 상태의 동물 종 식별장치(200)를 앞측면과 뒤측면이 바뀌도록 위치시킨 상태의 사시도이다.
상기 동물 종 식별장치(200)는 터치스크린(1), 제1카메라(2), 제2카메라(3), 마이크(4), 방열공(5), 전원스위치(6), 데이터단자(7)를 포함할 수 있다.
상기 터치스크린(1)은 사용자의 명령을 입력 받음과 동시에 상기 식별서버(100)로부터 수신한 인공지능 식별방법의 분석결과 및 관련 정보를 출력할 수 있다.
상기 제1카메라(2) 및 제2카메라(3)는 인공지능 식별방법으로 분석될 영상 또는 이미지 신호를 촬영할 수 있다. 상기 제1카메라(2) 및 제2카메라(3)는 동일한 종류의 카메라일 수도 있고, 서로 다른 종류의 카메라일 수도 있다. 예를 들어, 상기 제1카메라(2) 및 제2카메라(3) 중 어느 하나가 CCD 카메라이고, 다른 하나는 적외선 카메라일 수 있다.
마이크(4)는 인공지능 식별방법으로 분석될 음향 신호를 입력받을 수 있다. 상기 마이크(4)는 복수 개의 마이크가 소정 간격을 이루도록 배열될 수 있다. 예를 들어, 도시된 바와 같이 네 개의 마이크로 구성되며, 각 마이크의 간격이 2.5Cm으로 마이크가 배열될 수 있다.
상기 방열공(5)은 동물 종 식별장치(200)가 구동됨에 따라 발생하는 열을 방출할 수 있다.
상기 전원스위치(6)는 동물 종 식별장치(200)의 전원을 온 시키거나 오프시킬 수 있다.
상기 데이터단자(7)는 기기에 내장된 저장메모리에 접근할 수 있는 단자로써, 이를 통해 데이터를 업로드/다운로드 할 수 있다.
상기 동물 종 식별 장치(200)는 제1카메라(2) 또는 제2카메라(3)로부터 대상 객체(또는 대상 동물)의 영상신호를 입력받고, 마이크(4)로부터 대상 객체(또는 대상 동물)의 음향신호를 입력받을 수 있다. 상기 입력받은 영상신호 및 음향신호는 식별서버(100)로 전송될 수 있다. 상기 식별서버(100)는 수신한 영상신호 및 음향신호를 각각 처리하고, 각각 처리된 결과를 융합하여 상기 대상 객체가 어떤 동물 종인지를 최종적으로 분류할 수 있다.
도 3은 본 발명의 일실시예와 관련된 동물 종 식별 방법을 나타내는 흐름도이다.
상기 식별서버(100)의 통신부(110)는 동물 종 식별장치(200)에 입력된 영상신호를 수신할 수 있다(S310).
상기 영상 처리부(120)는 수신한 영상신호를 처리하여 영상정보 처리 결과를 도출할 수 있다.
먼저, 상기 영상 처리부(120)는 영상 화질 개선을 수행할 수 있다(S320). 화질 개선을 위해 수신한 영상신호에서 안개/연기를 제거하는 방법이 사용될 수 있다.
도 4는 본 발명의 일실시예와 관련된 대기 광학 모델 구조를 설명하기 위한 도면이다.
도 4에서 I는 관측 데이터, x는 영상 내 픽셀 좌표, J는 안개가 제거된 영상, t는 전달량, A는 전역 대기 산란광을 의미한다. 이러한 대기 광학 모델에 바탕한 안개/연기 제거를 위한 방법은 지역적 대기 산란광 추정 단계, 지역적 전달량 추정 단계, 대기 산란광 및 전달량 정련 단계로 구성된다.
지역적 대기 산란광 추정에서는 입력 영상을 gray 영상으로 변환하고, MxM 블록으로 분할한 뒤, 수학식 1과 같이 최소값을 찾는다.
Figure PCTKR2019004677-appb-M000001
이때, L은 나눠진 개별 블록을 의미하며, y는 블록 내 픽셀 좌표를 의미한다.
Quad-tree subdivision을 통해
Figure PCTKR2019004677-appb-I000001
(rx, gx, bx) - (1, 1, 1)
Figure PCTKR2019004677-appb-I000002
값을 최소화하는 하안 산란광 값 Alow_threshold를 추정한다. 하안 산란광 값을 통해 최종적으로 지역적 산란광을 수학식 2를 통해 추정한다.
Figure PCTKR2019004677-appb-M000002
전달량 추정 단계에서 전달량은 영상 엔트로피, 정보 신뢰성, 다이나믹 레인지의 함수로 이루어진 목적함수, 하기 수학식 3을 최대화 하는 값으로 추정한다.
Figure PCTKR2019004677-appb-M000003
여기서, N은 전체 화소의 개수, hi는 i 화소값(intensity)의 개수이다.
안개 및 연기의 경우, 거리에 따라 그 농도가 다르기 때문에, 목적 함수 (수학식 3)를 블록에 따라 최대화하여 전달량을 추정하며, 최종적으로 k번째 블록의 추정된 전달량은 하기 수학식 4와 같다.
Figure PCTKR2019004677-appb-M000004
지역 블록 단위로 추정된 산란광 및 전달량을 정련하는 방법으로 본 발명에서는 WLS (Weighted Least Squares) 최적화 방법을 통해 경계 영역에서 발생하는 블록 결함 (block artifact)을 정련한다. WLS 기반 정련 방법은 목적 함수 (하기 수학식 5)를 최소화하는 해를 구한다.
Figure PCTKR2019004677-appb-M000005
이때,
Figure PCTKR2019004677-appb-I000003
는 수학식 4를 통해 추정된 결과, t는 정련될 결과 영상이다. h는 그레이로 변환된 안개 영상을 통해 모폴로지 처리된 영상이며, λ는 스무딩 조절 변수이다. a, b는 각 영상의 가로 및 세로 방향을 나타내며 α는 가중치 조정 변수이다. ε는 분모가 0으로 나누어지는 것을 방지하기 위한 미세 상수 값이다. 수학식 5의 미분을 통한 해는 하기 수학식 6와 같다.
Figure PCTKR2019004677-appb-M000006
상기 수학식 6에서 A는 각 가로, 세로 방향에 대해 식 11의 가중치 값이 대각 성분에 포함된 행렬이며 D는 1차 미분 행렬 연산자이다.
최종적으로 추정된 지역 산란광 및 전달량을 통해 안개가 제거된 영상을 하기 수학식 7을 통해 복원한다.
Figure PCTKR2019004677-appb-M000007
또한, 화질 개선을 위해 수신한 영상신호에서 안개/연기를 제거하는 방법이 사용될 수 있다.
도 5는 본 발명의 일실시예와 관련된 영상에서 비, 눈 제거 방법을 설명하기 위한 도면이다.
제1카메라(2) 또는 제2카메라(3)를 통해 연속적으로 관측한 이미지 데이터에서 객체의 이동성을 바탕으로 움직이는 객체를 검출하고 움직임이 없는 배경을 제거한다. 검출된 영역의 크기를 바탕으로 눈/비에 대한 객체를 선정한다. 선정된 후보군에 대해 Histogram of Orientation (HOG)에 기반하여 눈/비 객체를 판단한다. 최종 검출된 객체를 눈/비에 대한 객체로 판단하고 관측데이터에서 제거한다.
상기와 같이 복원된 영상을 통해 영상 처리부(120)는 객체를 검출하고, 검출된 객체를 인식할 수 있다(S330, S3340).
상기 객체 검출은 화질이 개선된 이미지에서 객체들의 위치와 영역을 인식하는 단계이고, 객체 인식은 검출된 객체가 무엇인지 인식하는 단계이다. 이 두 단계를 위해 CNN(Convolutional Neural Network)에 기반한 RCNN(Region Convolutional Neural Network)이 적용된다. 상기 RCNN은 CNN과 같이 이미지를 고정된 크기의 filter를 이용하여 convolutional 연산 결과를 바탕으로 객체의 위치와 객체가 무엇인지를 인식한다. 최종 output layer에서 영상 신호에 대한 클래스(class)별 스코어(score)가 산출된다.
한편, CNN은 convolutional layer와 pooling layer, fully-connected layer로 구성된다.
상기 convolutional layer에서는 2차원 데이터에 고정된 크기의 2차원 필터를 슬라이딩 하며, convolution 연산을 수행한다. 이때, 복수의 필터를 사용할 수 있으며, 이 경우에는 3차원 필터를 사용하여 convolution을 수행하며, 그 결과는 3차원으로 표현된다. 일반적인 CNN에서는 다수의 필터를 적용하여 관측데이터를 다각도로 분석하여 결과를 추출한다.
상기 Pooling layer는 convolutional layer 이후, 결과는 “가로x세로x필터 수”의 차원을 갖는다. 일반적인 2차원 데이터에서 인근 영역의 정보는 서로 유사성이 높아 인근 영역에서 대표값을 선정함으로써 차원을 줄일 수 있다. 이러한 과정이 pooling layer에서 수행된다.
상기 fully-connected layer는 관측데이터가 복수의 convolution-pooling layer를 따라 전파된 후, 마지막 output layer에 연결하기 위한 마지막 layer를 의미한다. convolution - pooling 연산을 마무리한 결과 도출되는 3차원 데이터를 1차원 데이터로 변형한 이후, output layer와 완전히 연결된 NN를 의미한다.
한편, NN는 1차원 관측 데이터를 입력받아 전파되는 반면, CNN은 2차원 관측 데이터를 입력받는다. 관측 데이터가 영상/이미지의 경우 관측 데이터를 바로 CNN에 입력하여 전파할 수 있지만, 음향인 경우 1차원 데이터를 2차원 데이터로 변형해야 한다. 일반적으로, 1차원 음향 데이터는 Short Time Fourier Transform (STFT)를 적용하여 spectrogram으로 변환하고, 저주파에 민감한 인간의 청각 특성을 반영한 Mel-filter를 적용하고 log scale로 변형함으로써, 2차원 log-Mel spectrum이 변환되어 CNN에 입력된다.
상기 식별서버(100)의 통신부(110)는 동물 종 식별장치(200)에 입력된 음향신호를 수신할 수 있다(S350).
상기 음향 처리부(130)는 수신한 음향신호를 처리하여 음향정보 처리 결과를 도출할 수 있다.
먼저, 상기 음향 처리부(120)는 음향 품질 개선을 수행할 수 있다(S360).
상기 마이크(4)를 통해 입력된 음향신호에서 잡음을 줄이기 위한 방법으로 빔포밍 방법이 적용된다. 빔포밍(미도시)은 특정 방향에서 입력된 신호를 추출하는 방법으로 음향신호 입력부, 위상 차 계산부, 잡음 성분 추출부, 신호 크기 추측부, 잡음제거 계수 산출부로 구성될 수 있다.
상기 음향신호 입력부는 마이크(4)에 입력된 신호를 디지털로 변환하는 부분으로 개별 마이크에서 입력된 신호를 이하 제1~4신호라고 명명한다. 음향 신호의 방향에 따라 제1~4신호의 위상에 차이가 발생하는 특성을 이용하여, 방향을 추측하기 위해, 위상 차 계산부에서 제1~4신호의 위상 차이를 계산한다. 잡음 성분 추출부는 계산된 위상 차이 이외의 신호를 잡음으로 고려하여 이를 분리한다. 신호 크기 추측부는 제1~4신호에서 추출된 잡음을 제거함으로써, 신호 크기 성분을 추측한다. 끝으로, 잡음제거 계수 산출부는 추출된 잡음과 신호크기 성분의 비율을 잡음제거 계수로 결정하고 제1~4신호에서 이를 빼내어 관측 신호를 개선한다.
상기 음향 처리부(130)는 상기 개선된 관측 신호에서 필요한 신호 구간을 검출할 수 있다(S370).
상기 음향 처리부(130)는 음향 품질이 개선된 음향 신호에서 신호 구간을 검출하기 위해 변형된 Double Fourier Transform Voice Activity Detection (DFVAD) 알고리즘을 적용할 수 있다. 음향 품질이 개선된 1차원 음향 신호에 Short Time Fourier Transform (STFT)를 적용하여 2차원 이미지(spectrogram)로 변형한 후, 각 주파수 축에서 다시 한번 Fast Fourier Transform (FFT)를 적용하여 각 주파수의 시간적 변화에 대한 정보를 추출한다. 각 주파수에서 관심 대상(동물 개체군)의 울음소리 주파수 대역 별 정보를 바탕으로 최종적으로 신호의 시작지점과 끝지점을 검출함으로써 신호 구간을 판단한다.
그리고 음향 처리부(130)는 검출된 신호 구간을 통해 음향을 인식한다(S380).
상기 음향 처리부(130)는 검출된 음향 신호를 인식하기 위해, CNN 기법을 적용할 수 있다. 예를 들어, 검출된 신호 구간의 음향 신호에 STFT를 적용하여 spectrogram으로 변환한 후, Mel-filter를 적용하고, log scale로 변환하여 log-mel spectrum을 생성한다. 이때, log-mel spectrum이 음향 신호 인식을 위한 CNN으로 입력되어, convolution, pooling, fully-connected layer를 통과하여 최종 output layer에서 음향 신호에 대한 class별 score가 산출된다.
도 6은 본 발명의 일실시예와 관련된 음향 신호 인식을 위한 CNN 구조도이다.
도시된 5개의 convolutional layer 와 2개의 fully-connected layer로 구성된다. 각각의 convolution layer에서 filter의 크기는 3×3으로 모두 동일하고, 첫 번째, 두 번째, 그리고 마지막 convolutional layer 이후에 2×2 max-pooling 을 적용했다. 그림에서 숫자는 CNN을 통해 전파되면서 데이터의 차원 변화를 나타낸다. 최종 output layer의 차원은 인식 대상의 수에 의해 결정되며, 도 6에서는 총 9종을 인식하는 CNN구조의 예시를 보여주며, 인식 대상의 수가 증가할 경우, 최종 output layer의 차원이 증가하며, 내부 구조도 변형될 수 있다.
상기 융합부(140)는 상기 영상 처리부(120) 및 음향 처리부(130)에서 처리된 결과를 융합할 수 있다(S390).
도 7은 본 발명의 일실시예와 관련된 동물 종 식별 방법에서 영상정보와 음향정보를 융합하는 방법을 나타내는 흐름도이다.
상기 식별서버(100)의 융합부(140)는 상기 영상 처리부(120)에서 처리된 영상정보 처리 결과 및 음향 처리부(130)에서 처리된 음향정보 처리 결과가 모두 존재하는지를 판단할 수 있다(S710). 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현될 수 있다.
만약, 두 가지 결과가 모두 존재한다면, 상기 융합부(140)는 영상정보 처리 결과에 대한 스코어와 음향정보 처리 결과에 대한 스코어를 융합할 수 있다(S720).
그러나 두 가지 결과 중 어느 하나만 존재하는 경우는 결과가 도출된 정보 처리 결과에 의존하여 최종 결과가 결정된다.
예를 들어, 영상정보 처리 결과만 존재하는 경우는 영상정보를 호출하여 대상 객체가 어떤 동물 종인지를 최종 분류할 수 있다(S730, S740).
또한, 음향정보 처리 결과만 존재하는 경우는 음향정보를 호출하여 대상 객체가 어떤 동물 종인지를 최종 분류할 수 있다(S730, S750).
한편, 두 가지 결과가 모두 존재할 경우, 영상/음향 score 융합 단계에서 각각의 score를 융합하여 수학식 8에 따라 최종 결과를 도출한다.
Figure PCTKR2019004677-appb-M000008
c와 n은 각각 인식 대상과 시스템에 대한 색인이며,
Figure PCTKR2019004677-appb-I000004
는 n번째 시스템에서 c번째 인식 대상에 대한 신뢰도를 의미하고,
Figure PCTKR2019004677-appb-I000005
는 n번째 시스템에서 c번째 인식 대상에 대한 score를 의미하며,
Figure PCTKR2019004677-appb-I000006
Figure PCTKR2019004677-appb-I000007
Figure PCTKR2019004677-appb-I000008
로 나누어 정규화 된 score를 의미한다.
상기 수학식 8은 각 시스템에서 각각의 인식 대상에 대한 score에 신뢰도를 부여하여 더했을 경우, 가장 높은 score를 가지는 인식 대상으로 인식 결과를 도출한다.
각 시스템에서 도출된 결과에 대한 신뢰도
Figure PCTKR2019004677-appb-I000009
은 하기 수학식 9와 같이 산출된다.
Figure PCTKR2019004677-appb-M000009
이때, G는 실제 값을 의미하고 O는 인식 시스템에서 얻은 인식 결과를 의미한다. 즉,
Figure PCTKR2019004677-appb-I000010
는 인식 시스템의 결과가 c일 때, 실제 값도 c일 조건부확률 P(G=c|O=c)를 의미하며, 이는 bayesian rule에 의해 joint 확률로 표현할 수 있다. 이는, 어느 한 시스템에서 특정 인식 대상으로 오인식되는 경우가 적을 경우 높은 신뢰도를 부여하고, 그렇지 않을 경우 낮은 신뢰도를 부여한다.
전술한 바와 같이, 본 발명의 일실시예에 의한 본 발명의 일실시예에 의한 동물 종 식별 방법은 대상 객체의 시청각 정보를 이용하여 보다 편리하게 동물 종을 식별할 수 있다.
본 발명의 일실시예에 의하면, 인공지능 방식으로 동물 종을 식별하기에 자생 동물을 조사할 수 있는 인프라 구축 및 부족한 전문가의 인력을 보완할 수 있다.
상술한 동물 종 식별방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지된 것일 수도 있다.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리, SSD (Solid State Drive)와 같은 메모리 저장장치 등 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기와 같이 설명된 동물 종 식별 방법 및 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims (6)

  1. 대상 객체에 대한 입력 신호를 수신하는 단계;
    상기 입력 신호에 근거하여 영상정보 및 음향정보 처리하는 단계 상기 영상정보 처리 결과 및 상기 음향정보 처리 결과는 클래스 별 스코어로 표현됨-;
    상기 입력 신호에 대응되는 영상정보 처리 결과 및 음향정보 처리 결과가 존재하는지를 판단하는 단계; 및
    상기 판단 결과에 따라 상기 영상정보 처리 결과 및 음향정보 처리 결과를 융합하고, 상기 융합된 처리 결과를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 최종 결과 도출 단계를 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  2. 제1항에 있어서, 상기 최종 결과 도출 단계는
    상기 영상정보 처리 결과 및 음향정보 처리 결과가 모두 존재하는 경우,
    상기 영상정보 처리 결과의 스코어 및 상기 음향정보 처리 결과의 스코어를 융합하는 단계를 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  3. 제1항에 있어서, 상기 최종 결과 도출 단계는
    상기 영상정보 처리 결과 및 음향정보 처리 결과 중 어느 하나의 결과만 존재하는 경우,
    상기 영상정보 처리 결과의 스코어 및 상기 음향정보 처리 결과의 스코어 wd 어느 하나를 이용하여 상기 대상 객체가 어떤 동물 종 인지를 분류하는 단계를 포함하는 것을 특징으로 하는 동물 종 식별 방법.
  4. 제2항에 있어서, 상기 최종 결과 도출 단계는 하기 수학식 1을 이용하여 도출하는 것을 특징으로 하는 동물 종 식별 방법.
    [수학식 1]
    Figure PCTKR2019004677-appb-I000011
    (c와 n은 각각 인식 대상과 시스템에 대한 색인이며,
    Figure PCTKR2019004677-appb-I000012
    는 n번째 시스템에서 c번째 인식 대상에 대한 신뢰도를 의미하고,
    Figure PCTKR2019004677-appb-I000013
    는 n번째 시스템에서 c번째 인식 대상에 대한 score를 의미하며,
    Figure PCTKR2019004677-appb-I000014
    Figure PCTKR2019004677-appb-I000015
    Figure PCTKR2019004677-appb-I000016
    로 나누어 정규화 된 score를 의미한다)
  5. 제4항에 있어서, 상기 수학식 1에서의
    Figure PCTKR2019004677-appb-I000017
    은 하기 수학식 2에 의해 산출되는 것을 특징으로 하는 동물 종 식별 방법.
    [수학식 2]
    Figure PCTKR2019004677-appb-I000018
    (여기서, G는 실제 값을 의미하고 O는 인식 시스템에서 얻은 인식 결과를 의미한다.)
  6. 제6항에 있어서, 상기 영상정보 및 음향정보 처리 단계는
    CNN(Convolutional Neural Network) 기법을 이용하는 처리하는 단계를 포함하는 것을 특징으로 하는 동물 종 식별 방법.
PCT/KR2019/004677 2018-10-16 2019-04-18 동물 종 식별 방법 및 장치 WO2020080626A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/279,661 US11830272B2 (en) 2018-10-16 2019-04-18 Method and apparatus for identifying animal species

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180122900A KR102092475B1 (ko) 2018-10-16 2018-10-16 동물 종 식별 방법 및 장치
KR10-2018-0122900 2018-10-16

Publications (1)

Publication Number Publication Date
WO2020080626A1 true WO2020080626A1 (ko) 2020-04-23

Family

ID=69998461

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004677 WO2020080626A1 (ko) 2018-10-16 2019-04-18 동물 종 식별 방법 및 장치

Country Status (3)

Country Link
US (1) US11830272B2 (ko)
KR (1) KR102092475B1 (ko)
WO (1) WO2020080626A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210315186A1 (en) * 2020-04-14 2021-10-14 The United States Of America, As Represented By Secretary Of Agriculture Intelligent dual sensory species-specific recognition trigger system
CN115188387B (zh) * 2022-07-12 2023-04-07 四川农业大学 一种有效的海洋哺乳动物声音自动检测和分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160098581A (ko) * 2015-02-09 2016-08-19 홍익대학교 산학협력단 얼굴 인식 및 화자 인식이 융합된 인증 방법
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム
KR20170096298A (ko) * 2016-02-15 2017-08-24 성균관대학교산학협력단 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치
KR101891631B1 (ko) * 2018-03-07 2018-08-27 (주)크레아소프트 영상 학습 장치, 이를 이용한 촬영영상 분석 시스템 및 방법, 이를 수행하기 위한 기록매체

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
US10496893B2 (en) * 2016-08-11 2019-12-03 DiamondFox Enterprises, LLC Handheld arthropod detection device
GB201710877D0 (en) * 2017-07-06 2017-08-23 Nokia Technologies Oy A method and an apparatus for evaluating generative machine learning model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160098581A (ko) * 2015-02-09 2016-08-19 홍익대학교 산학협력단 얼굴 인식 및 화자 인식이 융합된 인증 방법
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム
KR20170096298A (ko) * 2016-02-15 2017-08-24 성균관대학교산학협력단 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치
KR101891631B1 (ko) * 2018-03-07 2018-08-27 (주)크레아소프트 영상 학습 장치, 이를 이용한 촬영영상 분석 시스템 및 방법, 이를 수행하기 위한 기록매체

Also Published As

Publication number Publication date
KR102092475B1 (ko) 2020-03-23
US20220036053A1 (en) 2022-02-03
US11830272B2 (en) 2023-11-28

Similar Documents

Publication Publication Date Title
JP6943338B2 (ja) 画像処理装置、システム、方法及びプログラム
US10489660B2 (en) Video processing with object identification
Charfi et al. Definition and performance evaluation of a robust SVM based fall detection solution
US10043064B2 (en) Method and apparatus of detecting object using event-based sensor
Charfi et al. Optimized spatio-temporal descriptors for real-time fall detection: comparison of support vector machine and Adaboost-based classification
US20190325241A1 (en) Device and a method for extracting dynamic information on a scene using a convolutional neural network
CN110795595A (zh) 基于边缘计算的视频结构化存储方法、装置、设备及介质
CN108564052A (zh) 基于mtcnn的多摄像头动态人脸识别系统与方法
KR101872811B1 (ko) 행동 패턴 인식 장치, 행동 패턴 인식 방법 및 행동 패턴 분류기 생성 방법
WO2020080626A1 (ko) 동물 종 식별 방법 및 장치
KR102309111B1 (ko) 딥러닝 기반 비정상 행동을 탐지하여 인식하는 비정상 행동 탐지 시스템 및 탐지 방법
WO2021100919A1 (ko) 행동 시퀀스 기반으로 이상행동 여부를 판단하는 방법, 프로그램 및 시스템
WO2023159898A1 (zh) 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
Liu et al. Gaze-assisted multi-stream deep neural network for action recognition
CN115171148A (zh) 一种基于特定模态特征补偿的跨模态行人重识别方法
KR102122853B1 (ko) 외부기기 제어가 가능한 모니터링시스템
CN108960146A (zh) 人脸识别监控视频的图像预处理方法
CN105491336B (zh) 一种低功耗图像识别模块
WO2023158205A1 (ko) Ai 기반 객체인식을 통한 감시 카메라 영상의 노이즈 제거
JP3980464B2 (ja) 鼻位置の抽出方法、およびコンピュータに当該鼻位置の抽出方法を実行させるためのプログラムならびに鼻位置抽出装置
Zhang et al. A posture recognition system for rat cyborg automated navigation
KR101910843B1 (ko) 오목점과 슈퍼픽셀 정보를 이용한 깊이 기반 근접 돼지 구분 방법
Nazarkevych et al. A YOLO-based Method for Object Contour Detection and Recognition in Video Sequences.
Vora et al. DroneChase: A Mobile and Automated Cross-Modality System for Continuous Drone Tracking
CN114821482A (zh) 一种基于鱼眼探头的矢量拓扑一体化客流计算方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19872928

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19872928

Country of ref document: EP

Kind code of ref document: A1