KR20230086541A - Apparatus and method for animal speech analysis using artificial intelligence - Google Patents

Apparatus and method for animal speech analysis using artificial intelligence Download PDF

Info

Publication number
KR20230086541A
KR20230086541A KR1020220010220A KR20220010220A KR20230086541A KR 20230086541 A KR20230086541 A KR 20230086541A KR 1020220010220 A KR1020220010220 A KR 1020220010220A KR 20220010220 A KR20220010220 A KR 20220010220A KR 20230086541 A KR20230086541 A KR 20230086541A
Authority
KR
South Korea
Prior art keywords
voice
data
animal
combination
age
Prior art date
Application number
KR1020220010220A
Other languages
Korean (ko)
Other versions
KR102636790B1 (en
Inventor
김진호
임승균
Original Assignee
김진호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김진호 filed Critical 김진호
Publication of KR20230086541A publication Critical patent/KR20230086541A/en
Application granted granted Critical
Publication of KR102636790B1 publication Critical patent/KR102636790B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Child & Adolescent Psychology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Image Analysis (AREA)

Abstract

Disclosed are a device and method for analyzing an animal speech using artificial intelligence. The device for analyzing the animal speech according to one embodiment comprises: a camera part comprising a camera and one or more motors to drive the camera, and generating image data through the camera; a speech detection part that generates speech data through a plurality of microphones; and a control part that controls the camera part and the speech detection part, wherein the control part may comprise a first artificial neural network learned to analyze a type and age of an animal based on the image data, and a second artificial neural network learned to analyze a state of the animal based on speech data.

Description

인공지능을 이용한 동물 음성 분석 장치 및 방법{Apparatus and method for animal speech analysis using artificial intelligence}Apparatus and method for animal speech analysis using artificial intelligence}

동물의 음성을 분석하기 위한 기술로서 특히, 인공지능을 이용하여 동물의 음성을 분석하는 장치 및 방법에 관한 것이다.As a technology for analyzing animal voices, the present invention relates to an apparatus and method for analyzing animal voices using artificial intelligence, in particular.

최근 인공지능을 이용한 음성 인식 기술이 활발히 연구되고 있으며, 나아가 인간이 아닌 동물의 음성을 분석하여 동물의 감정, 상태 등을 감지하기 위한 연구가 활발히 진행되고 있다. Recently, voice recognition technology using artificial intelligence has been actively researched, and furthermore, studies are being actively conducted to detect emotions and states of animals by analyzing voices of non-human animals.

다만, 동물의 상태를 분석하는데 있어서 가장 중요한 부분은 다양한 종류 및 연령의 동물들 각각에 대한 음성 데이터를 획득하여 감정 및 상태를 분류한 학습 데이터를 획득하는 것이다. 그러나, 특정 상태에 대한 음성 데이터를 획득하기 위하여 동물들은 위험 상황에 강제로 노출시킬 수 없는 바, 이에 대한 학습 데이터를 획득하는데 어려움이 있다. However, the most important part in analyzing the state of an animal is to obtain learning data in which emotions and states are classified by acquiring voice data for each of animals of various types and ages. However, since animals cannot be forcibly exposed to dangerous situations in order to acquire voice data for a specific state, it is difficult to acquire learning data for this.

대한민국 공개특허 10-2019-0126552의 경우, 동물의 음성을 분석하는 방법에 대하여 개시하고 있으나, 특정 감정 상태에 대한 동물의 음성 데이터가 없는 경우, 이를 보충하기 위한 구체적인 방법을 제시하지 못하고 있다.In the case of Korean Patent Publication No. 10-2019-0126552, a method for analyzing an animal's voice is disclosed, but when there is no animal's voice data for a specific emotional state, a specific method for supplementing this is not presented.

인공지능을 이용하여 동물의 음성을 분석하는 장치 및 방법을 제공하는데 목적이 있다.An object of the present invention is to provide a device and method for analyzing animal voices using artificial intelligence.

일 양상에 따르면, 동물 음성 분석 장치는 카메라 및 카메라를 구동하기 위한 하나 이상의 모터를 포함하며, 카메라를 통하여 영상 데이터를 생성하는 카메라부; 복수의 마이크를 통하여 음성 데이터를 생성하는 음성 감지부; 및 카메라부 및 음성 감지부를 제어하는 제어부를 포함하며, 제어부는 영상 데이터를 기초로 동물의 종류 및 연령을 분석하도록 학습된 제 1 인공 신경망 및 음성 데이터를 기초로 동물의 상태를 분석하도록 학습된 제 2 인공 신경망을 포함할 수 있다. According to one aspect, an animal voice analysis apparatus includes a camera and one or more motors for driving the camera, and includes a camera unit generating image data through the camera; a voice detector generating voice data through a plurality of microphones; and a control unit for controlling a camera unit and a voice detection unit, wherein the control unit has a first artificial neural network learned to analyze the type and age of an animal based on image data and a first artificial neural network learned to analyze a state of an animal based on voice data. 2 may include artificial neural networks.

제어부는 음성 감지부로부터 수신한 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며, 분석된 위치를 기초로 카메라가 위치를 촬영할 수 있도록 하나 이상의 구동 모터를 제어할 수 있다. The control unit analyzes the location where the corresponding voice occurred when a voice of a predetermined level or higher is detected based on the voice data received from the voice detector, and controls one or more driving motors so that the camera can capture the location based on the analyzed location. can do.

제어부는 음성 감지부로부터 수신한 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며, 분석된 위치를 기초로 복수의 마이크에 적용하기 위한 빔포밍 벡터를 생성할 수 있다. When a voice of a predetermined level or higher is detected based on the voice data received from the voice detector, the control unit analyzes the location where the corresponding voice is generated, and generates a beamforming vector to be applied to a plurality of microphones based on the analyzed location. can

제어부는 제 1 인공 신경망을 통하여 분석된 동물의 종류 및 연령에 대한 정보를 제 2 인공 신경망에 입력할 수 있다. The controller may input information about the type and age of the animal analyzed through the first artificial neural network into the second artificial neural network.

제어부는 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터를 기초로 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는 제 3 인공 신경망을 포함할 수 있다.The control unit may include a third artificial neural network that generates synthetic learning data for combinations of animal types, ages, and states not included in the basic training data based on the basic training data labeled with the animal types, ages, and states. there is.

제어부는 동물의 종류, 연령 및 상태를 기준으로 기본 학습 데이터를 그룹핑하여 하나 이상의 음성 데이터 그룹을 생성하며, 하나 이상의 음성 데이터 그룹에 포함되는 음성 데이터를 기초로 각각의 음성 데이터 그룹 별 음성 특징 공통 데이터를 생성할 수 있다. The control unit groups basic learning data based on animal type, age, and condition to generate one or more voice data groups, and voice characteristic common data for each voice data group based on voice data included in one or more voice data groups. can create

제어부는 동물의 종류, 연령 및 상태를 기준으로 분류된 조합 중 음성 데이터 그룹에 포함되지 않은 누락 조합을 검출하며, 누락 조합에 해당하는 동물의 종류에 대한 조합 중 누락 조합의 상태와 다른 상태를 가지는 조합을 추출하며, 추출된 조합 중 누락된 조합에 해당하는 연령에 대한 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 1 기준 조합을 생성하며, 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터를 가지는 다른 동물의 종류를 검출하며, 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 제 1 기준 조합과 대응하는 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 2 기준 조합을 생성하며, 제 1 기준 조합에 포함되는 음성 특징 공통 데이터와 제 2 기준 조합에 포함되는 음성 특징 공통 데이터를 기초로 음성 차이 특성 데이터를 생성할 수 있다. The control unit detects a missing combination that is not included in the voice data group among combinations classified based on animal type, age, and state, and has a state different from the state of the missing combination among combinations for the type of animal corresponding to the missing combination. A combination is extracted, and a combination having common voice feature data for the age corresponding to the missing combination is extracted from among the extracted combinations to generate a first reference combination, and the same age and condition as the age and condition of the animal corresponding to the missing combination The type of another animal having common voice feature data corresponding to the state is detected, and a combination having common voice feature data corresponding to the first reference combination is extracted from among the common voice feature data corresponding to the type of the detected animal to obtain a second A reference combination may be generated, and voice difference characteristic data may be generated based on common voice feature data included in the first reference combination and common voice feature data included in the second reference combination.

제 3 인공 신경망은 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터 및 음성 차이 특성 데이터를 입력 받아 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성할 수 있다. The third artificial neural network receives common voice feature data and voice difference characteristic data corresponding to the same age and state as the age and state of the animal corresponding to the missing combination among the common voice feature data corresponding to the type of detected animal, and performs basic learning Synthetic learning data can be created for combinations of animal types, ages, and conditions not included in the data.

제 2 인공 신경망은 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터 및 합성 학습 데이터를 기초로 학습될 수 있다. The second artificial neural network may be trained based on basic training data and synthetic training data labeled with the type, age, and state of the animal.

제어부는 분석된 음성 데이터의 조합이 기본 학습 데이터에 포함되지 않은 조합인 경우, 분석된 음성 데이터를 기본 학습 데이터에 포함시키며, 분석된 음성 데이터의 조합에 대응하는 합성 학습 데이터를 삭제하여 학습 데이터 세트를 갱신할 수 있다.If the combination of the analyzed voice data is not included in the basic training data, the control unit includes the analyzed voice data in the basic training data and deletes synthetic training data corresponding to the combination of the analyzed voice data to set the training data. can be updated.

제어부는 갱신된 학습 데이터 세트를 기초로 제 2 인공 신경망을 재학습시킬 수 있다. The controller may re-learn the second artificial neural network based on the updated training data set.

일 양상에 따르면, 동물 음성 분석 방법은 하나 이상의 모터로 구동하는 카메라를 통하여 영상 데이터를 생성하는 단계; 복수의 마이크를 통하여 음성 데이터를 생성하는 단계; 영상 데이터를 기초로 동물의 종류 및 연령을 분석하도록 학습된 제 1 인공 신경망을 이용하여 영상 데이터 상의 동물의 종류 및 연령을 분석하는 단계; 및 음성 데이터를 기초로 동물의 상태를 분석하도록 학습된 제 2 인공 신경망을 이용하여 음성 데이터에 대응하는 동물의 상태를 분석하는 단계를 포함할 수 있다. According to one aspect, an animal voice analysis method includes generating image data through a camera driven by one or more motors; generating voice data through a plurality of microphones; Analyzing the type and age of the animal on the image data using a first artificial neural network trained to analyze the type and age of the animal based on the image data; and analyzing a state of the animal corresponding to the voice data using a second artificial neural network trained to analyze the state of the animal based on the voice data.

동물 음성 분석 방법은 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며, 분석된 위치를 기초로 카메라가 위치를 촬영할 수 있도록 하나 이상의 구동 모터를 제어하는 단계를 더 포함할 수 있다. The animal voice analysis method includes the steps of analyzing a location where a corresponding voice occurred when a voice of a predetermined level or higher is detected based on voice data, and controlling one or more driving motors so that a camera can capture the location based on the analyzed location. can include more.

동물 음성 분석 방법은 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며, 분석된 위치를 기초로 복수의 마이크에 적용하기 위한 빔포밍 벡터를 생성하는 단계를 더 포함할 수 있다. The animal voice analysis method further includes the steps of analyzing a location where the voice is generated when a voice of a predetermined level or higher is detected based on voice data, and generating a beamforming vector to be applied to a plurality of microphones based on the analyzed location. can include

제 2 인공 신경망은 제 1 인공 신경망을 통하여 분석된 동물의 종류 및 연령에 대한 정보를 입력 받아 동물의 상태를 분석할 수 있다. The second artificial neural network may receive information about the type and age of the animal analyzed through the first artificial neural network and analyze the state of the animal.

동물 음성 분석 방법은 제 3 인공 신경망을 이용하여 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터를 기초로 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는 단계를 더 포함할 수 있다. The animal voice analysis method uses a third artificial neural network to generate synthetic learning data for combinations of animal types, ages, and states that are not included in the basic training data based on basic learning data labeled with animal types, ages, and states. A generating step may be further included.

합성 학습 데이터를 생성하는 단계는 동물의 종류, 연령 및 상태를 기준으로 기본 학습 데이터를 그룹핑하여 하나 이상의 음성 데이터 그룹을 생성하며, 하나 이상의 음성 데이터 그룹에 포함되는 음성 데이터를 기초로 각각의 음성 데이터 그룹 별 음성 특징 공통 데이터를 생성할 수 있다. In the step of generating synthetic learning data, one or more voice data groups are generated by grouping the basic training data based on the type, age, and state of the animal, and each voice data is generated based on the voice data included in the one or more voice data groups. Voice feature common data for each group may be generated.

합성 학습 데이터를 생성하는 단계는 동물의 종류, 연령 및 상태를 기준으로 분류된 조합 중 음성 데이터 그룹에 포함되지 않은 누락 조합을 검출하며, 누락 조합에 해당하는 동물의 종류에 대한 조합 중 누락 조합의 상태와 다른 상태를 가지는 조합을 추출하며, 추출된 조합 중 누락된 조합에 해당하는 연령에 대한 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 1 기준 조합을 생성하며, 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터를 가지는 다른 동물의 종류를 검출하며, 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 제 1 기준 조합과 대응하는 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 2 기준 조합을 생성하며, 제 1 기준 조합에 포함되는 음성 특징 공통 데이터와 제 2 기준 조합에 포함되는 음성 특징 공통 데이터를 기초로 음성 차이 특성 데이터를 생성할 수 있다.The step of generating synthetic learning data detects missing combinations that are not included in the voice data group among combinations classified based on animal type, age, and state, and selects missing combinations among combinations for the type of animal corresponding to the missing combination. A combination having a different state from the state is extracted, and a combination having common voice feature data for an age corresponding to the missing combination is extracted from among the extracted combinations to generate a first reference combination, and an animal age corresponding to the missing combination is extracted. and detecting a type of another animal having common voice feature data corresponding to the same age and state as the state, and having common voice feature data corresponding to the first reference combination among common voice feature data corresponding to the type of the detected animal. The combination may be extracted to generate a second reference combination, and voice difference characteristic data may be generated based on common voice feature data included in the first reference combination and common voice feature data included in the second reference combination.

제 3 인공 신경망은 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터 및 음성 차이 특성 데이터를 입력 받아 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성할 수 있다. The third artificial neural network receives common voice feature data and voice difference characteristic data corresponding to the same age and state as the age and state of the animal corresponding to the missing combination among the common voice feature data corresponding to the type of detected animal, and performs basic learning Synthetic learning data can be created for combinations of animal types, ages, and conditions not included in the data.

제 2 인공 신경망은 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터 및 합성 학습 데이터를 기초로 학습될 수 있다. The second artificial neural network may be trained based on basic training data and synthetic training data labeled with the type, age, and state of the animal.

동물 음성 분석 방법은 분석된 음성 데이터의 조합이 기본 학습 데이터에 포함되지 않은 조합인 경우, 분석된 음성 데이터를 기본 학습 데이터에 포함시키며, 분석된 음성 데이터의 조합에 대응하는 합성 학습 데이터를 삭제하여 학습 데이터 세트를 갱신하는 단계를 더 포함할 수 있다.The animal voice analysis method includes the analyzed voice data in the basic training data when the combination of the analyzed voice data is not included in the basic training data, and deletes the synthetic training data corresponding to the analyzed voice data combination. Updating the training data set may be further included.

학습 데이터 세트를 갱신하는 단계는 갱신된 학습 데이터 세트를 기초로 제 2 인공 신경망을 재학습시킬 수 있다.In the updating of the training data set, the second artificial neural network may be retrained based on the updated training data set.

인공지능을 이용하여 동물의 감정 및 건강 상태를 정확히 분석할 수 있다. 또한, 동물의 음성 데이터를 기초로 생성한 합성 음성 데이터를 이용하여 인공지능의 분석 성능을 향상시킬 수 있다.Artificial intelligence can be used to accurately analyze animal emotions and health conditions. In addition, the analysis performance of artificial intelligence can be improved by using synthesized voice data generated based on animal voice data.

도 1은 일 실시예에 따른 동물 음성 분석 장치의 구성도이다.
도 2 및 도 3은 일 실시예에 동물 음성 분석 장치의 동작을 설명하기 위한 예시도이다.
도 4는 일 실시예에 따른 동물 음성 분석 방법을 도시한 흐름도이다.
1 is a configuration diagram of an animal voice analysis device according to an exemplary embodiment.
2 and 3 are exemplary diagrams for explaining an operation of an apparatus for analyzing animal voices according to an exemplary embodiment.
4 is a flowchart illustrating a method for analyzing animal voices according to an exemplary embodiment.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description will be omitted. In addition, the terms to be described later are terms defined in consideration of functions in the present invention, which may vary according to the intention or custom of a user or operator. Therefore, the definition should be made based on the contents throughout this specification.

이하, 동물 음성 분석 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.Hereinafter, embodiments of an apparatus and method for analyzing animal voice will be described in detail with reference to drawings.

도 1은 일 실시예에 따른 동물 음성 분석 장치의 구성도이다.1 is a configuration diagram of an animal voice analysis device according to an exemplary embodiment.

일 실시예에 따르면, 동물 음성 분석 장치(100)는 카메라 및 카메라를 구동하기 위한 하나 이상의 모터를 포함하며, 카메라를 통하여 영상 데이터를 생성하는 카메라부(110), 복수의 마이크를 통하여 음성 데이터를 생성하는 음성 감지부(120) 및 카메라부(110) 및 음성 감지부(120)를 제어하는 제어부(130)를 포함할 수 있다.According to an embodiment, the animal voice analysis device 100 includes a camera and one or more motors for driving the camera, and the camera unit 110 generates image data through the camera and voice data through a plurality of microphones. It may include a voice detecting unit 120 that generates voice and a controller 130 that controls the camera unit 110 and the voice detecting unit 120 .

도 2를 참조하면, 카메라부(110)는 소정 방향의 동물들을 촬영하여 영상 데이터를 생성하 수 있으며, 음성 감지부(120)는 복수의 마이크를 이용하여 동물들의 음성 데이터를 생성할 수 있다. Referring to FIG. 2 , the camera unit 110 may generate image data by photographing animals in a predetermined direction, and the voice detector 120 may generate audio data of animals using a plurality of microphones.

일 실시예에 따르면, 제어부(130)는 영상 데이터를 기초로 동물의 종류 및 연령을 분석하도록 학습된 제 1 인공 신경망 및 음성 데이터를 기초로 동물의 상태를 분석하도록 학습된 제 2 인공 신경망을 포함할 수 있다.According to an embodiment, the controller 130 includes a first artificial neural network trained to analyze the type and age of an animal based on image data and a second artificial neural network trained to analyze a state of an animal based on voice data. can do.

일 예에 따르면, 제 1 인공 신경망은 객체 인식 모델일 수 있으며, 영상 데이터 상에서 동물을 검출하며, 검출된 동물의 종류 및 연령을 분석하도록 학습될 수 있다. 일 예를 들어, 동물의 종류는 개과, 고양이과와 같이 분류되거나 또는 치와와, 푸들과 같은 동일한 개과 내에서 품종을 기준으로 분류된 것일 수 있다. 일 예를 들어, 연령은 성견/성묘(O) 및 아기견/아기묘(Y)와 같이 2 그룹으로 구분될 수 있다.According to an example, the first artificial neural network may be an object recognition model, and may be trained to detect an animal on image data and analyze the type and age of the detected animal. For example, the type of animal may be classified into canines and felines, or classified based on breed within the same canine family such as Chihuahua and Poodle. For example, age may be divided into two groups, such as adult dog/adult cat (O) and baby dog/baby cat (Y).

일 실시예에 따르면, 제어부(130)는 음성 감지부(120)로부터 수신한 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석할 수 있다. According to an embodiment, the controller 130 may analyze a location where the corresponding voice occurred when a voice of a predetermined level or higher is detected based on the voice data received from the voice detector 120 .

일 예로, 동물의 음성은 특이 사항이 발생하였는지 여부에 따라 크기가 다를 수 있다. 예를 들어, 위협, 배고픔, 통증 등 특이사항이 발생한 경우, 동물들은 큰 음성을 낼 수 있다. 따라서, 제어부(130)는 소정 크기 이상의 음성이 감지된 경우를 필터링할 수 있다. For example, the animal's voice may have different levels depending on whether a specific event has occurred. For example, animals may emit loud vocalizations when unusual events such as threat, hunger, or pain occur. Accordingly, the controller 130 may filter out a case in which a voice of a predetermined level or higher is detected.

일 예로, 제어부(130)는 복수개의 마이크를 통해 입력된 음성의 시간 차이를 이용하여 음성이 발생한 위치를 계산할 수 있다. For example, the controller 130 may calculate the location where the voice was generated using a time difference between voices input through a plurality of microphones.

일 실시예에 따르면, 제어부(130)는 분석된 위치를 기초로 카메라가 위치를 촬영할 수 있도록 하나 이상의 구동 모터를 제어할 수 있다. 예를 들어, 동물이 소정 크기 이상의 소리를 낸 경우, 제어부(130)는 해당 동물의 위치를 파악하여 카메라가 해당 위치를 중심으로 촬영할 수 있도록 카메라 구동하는 모터를 제어할 수 있다. 예를 들어, 도 2에서와 같이, 카메라는 특정 위치 또는 특정 각도를 촬영할 수 있다.According to an embodiment, the controller 130 may control one or more driving motors so that the camera can capture the location based on the analyzed location. For example, when an animal emits a sound of a predetermined level or higher, the controller 130 may determine the location of the animal and control a motor for driving the camera so that the camera can take pictures centering on the location. For example, as shown in FIG. 2 , a camera may capture a specific location or a specific angle.

일 실시예에 따르면, 제어부(130)는 분석된 위치를 기초로 복수의 마이크에 적용하기 위한 빔포밍 벡터를 생성할 수 있다. 예를 들어, 동물이 소정 크기 이상의 소리를 낸 경우, 제어부(130)는 해당 동물의 위치를 파악하여 복수의 마이크가 해당 위치의 소리를 집중적으로 획득하기 위한 빔포밍 벡터를 생성할 수 있다. 예를 들어, 도 2에서와 같이, 마이크는 소정 방향의 소리를 획득하기 위한 빔포밍을 형성할 수 있다. According to an embodiment, the controller 130 may generate beamforming vectors to be applied to a plurality of microphones based on the analyzed positions. For example, when an animal emits a sound of a predetermined level or higher, the controller 130 may determine the location of the animal and generate a beamforming vector for intensively acquiring the sound of the corresponding location by a plurality of microphones. For example, as shown in FIG. 2 , the microphone may form beamforming to acquire sound in a predetermined direction.

일 실시예에 따르면, 제어부(130)는 제 1 인공 신경망을 통하여 분석된 동물의 종류 및 연령에 대한 정보를 제 2 인공 신경망에 입력할 수 있다. 예를 들어, 제어부(130)는 제 1 인공 신경망을 통하여 영상 데이터에 포함되어 있는 동물의 종류 및 연령을 파악할 수 있다. 예를 들어, 동물은 치와와/아기견일 수 있다. 이후, 제어부(130)는 치와와/아기견으로 분석된 정보를 제 2 인공 신경망에 입력할 수 있다. 이 경우, 제 2 인공 신경망은 수신 받은 치와와/아기견 정보를 기초로 동물의 음성 데이터를 분석하여 동물의 상태를 분석할 수 있다. According to an embodiment, the controller 130 may input information about the type and age of animals analyzed through the first artificial neural network to the second artificial neural network. For example, the controller 130 may determine the type and age of animals included in the image data through the first artificial neural network. For example, the animal can be a Chihuahua/puppy. Thereafter, the controller 130 may input information analyzed as Chihuahua/baby dog to the second artificial neural network. In this case, the second artificial neural network may analyze the state of the animal by analyzing the animal's voice data based on the received Chihuahua/baby dog information.

일 실시예에 따르면, 제어부(130)는 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터를 기초로 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는 제 3 인공 신경망을 포함할 수 있다. According to an embodiment, the controller 130 generates synthetic learning data for combinations of animal types, ages, and states that are not included in the basic training data based on basic training data labeled with animal types, ages, and states. It may include a third artificial neural network that does.

도 3을 참조하면, 학습 데이터는 동물의 종류, 연령 및 상태를 기준으로 분류될 수 있다. 이때, 실제 동물로부터 획득되어 레이블링된 학습 데이터를 기본 학습 데이터로 할 수 있다. 그러나, 통증을 느끼는 상태 등 특정 상태에 대한 음성 데이터, 연령이 낮은 동물의 음성 데이터 등은 획득하는데 어려움이 있을 수 있다. 이에 따라, 동물의 종류-연령-상태로 분류되는 조합에서 특정 조합의 기본 학습 데이터는 존재하지 않을 수 있다. 예를 들어, 종류-연령-상태 조합 중 A-O-3의 조합과 C-O-1의 조합에 해당하는 기본 학습 데이터가 존재하지 않을 수 있다. Referring to FIG. 3 , learning data may be classified based on animal type, age, and condition. In this case, learning data obtained from an actual animal and labeled may be used as basic learning data. However, it may be difficult to obtain voice data for a specific state, such as a state in which pain is felt, or voice data of an animal of a low age. Accordingly, basic learning data of a specific combination may not exist in a combination classified by animal type-age-state. For example, basic learning data corresponding to a combination of A-O-3 and C-O-1 among type-age-state combinations may not exist.

이러한 경우,제 3 인공 신경망은 특정 조건의 기본 합성 데이터를 이용하여 존재하지 않은 기본 학습 데이터를 보충하기 위한 합성 학습 데이터를 생성할 수 있다. In this case, the third artificial neural network may generate synthetic training data to supplement non-existent basic training data using basic synthetic data under a specific condition.

일 실시예에 따르면, 제어부(130)는 동물의 종류, 연령 및 상태를 기준으로 기본 학습 데이터를 그룹핑하여 하나 이상의 음성 데이터 그룹을 생성할 수 있다. According to an embodiment, the controller 130 may generate one or more voice data groups by grouping basic learning data based on the animal's type, age, and condition.

예를 들어, 기본 학습 데이터는 종류-연령-상태를 기준으로 그룹핑될 수 있으며, 도 3에서 'O', 'X'로 표시된 각각의 칸이 그룹을 나타내는 것일 수 있다.For example, basic learning data may be grouped on the basis of type-age-state, and each cell marked with 'O' and 'X' in FIG. 3 may represent a group.

일 실시예에 따르면, 제어부(130)는 하나 이상의 음성 데이터 그룹에 포함되는 음성 데이터를 기초로 각각의 음성 데이터 그룹 별 음성 특징 공통 데이터를 생성할 수 있다. 예를 들어, 제어부(130)는 도 3의 각 칸에 해당하는 음성 데이터들을 각각 그룹 별로 분석하여 음성 특징을 추출할 수 있다. 예를 들어, 음성의 주파수, 간격, 스펙트럼 밀도 등의 특징을 추출할 수 있으며, 해당 특징을 기초로 음성 특징 공통 데이터를 생성할 수 있다. According to an embodiment, the controller 130 may generate voice feature common data for each voice data group based on voice data included in one or more voice data groups. For example, the controller 130 may extract voice features by analyzing voice data corresponding to each cell in FIG. 3 for each group. For example, features such as frequency, interval, and spectral density of voice may be extracted, and voice feature common data may be generated based on the feature.

일 실시예에 따르면, 제어부(130)는 동물의 종류, 연령 및 상태를 기준으로 분류된 조합 중 음성 데이터 그룹에 포함되지 않은 누락 조합을 검출할 수 있다. 예를 들어, 제어부(130)는 도 3의 B1으로 표시된 칸에 해당하는 조합 'A-O-3' 조합을 누락 조합으로 검출할 수 있다. According to an embodiment, the controller 130 may detect missing combinations that are not included in the voice data group among combinations classified based on animal types, ages, and states. For example, the controller 130 may detect the combination 'A-O-3' corresponding to the cell indicated by B1 in FIG. 3 as a missing combination.

일 실시예에 따르면, 제어부(130)는 누락 조합에 해당하는 동물의 종류에 대한 조합 중 누락 조합의 상태와 다른 상태를 가지는 조합을 추출하며, 추출된 조합 중 누락된 조합에 해당하는 연령에 대한 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 1 기준 조합을 생성할 수 있다.According to an embodiment, the control unit 130 extracts a combination having a state different from the state of the missing combination among animal types corresponding to the missing combination, and determines the age corresponding to the missing combination among the extracted combinations. A first reference combination may be generated by extracting a combination having common voice feature data.

예를 들어, 'A-O-3' 조합이 누락 조합인 경우, 해당 조합에 해당하는 동물의 종류는 A가 되며, 누락 조합의 상태와 다른 상태를 가지는 조합은 'A-O-1', 'A-Y-1', 'A-O-2', 'A-Y-2'가 될 수 있다. 이후, 제어부(130)는 추출된 조합 중 누락된 조합에 해당하는 연령에 대한 음성 특징 공통 데이터를 가지는 조합인 'A-O-1' 및 A-O-2'를 추출할 수 있으며, 이 조합을 제 1 기준 조합(B2)로 생성할 수 있다.For example, if the combination 'A-O-3' is a missing combination, the type of animal corresponding to the combination becomes A, and the combinations having a state different from the state of the missing combination are 'A-O-1' and 'A-Y-1'. ', 'A-O-2', 'A-Y-2'. Thereafter, the controller 130 may extract 'A-O-1' and 'A-O-2', which are combinations having common voice feature data for age corresponding to the missing combination among the extracted combinations, and use this combination as a first criterion. It can be created with combination (B2).

일 실시예에 따르면, 제어부(130)는 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터를 가지는 다른 동물의 종류를 검출할 수 있다. 일 예로, 제어부(130)는 '*-O-3'에 대한 조합 중 음성 특징 공통 데이터를 가지는 종류를 검출할 수 있다. 도 3을 참조하면, 해당 종류는 'B' 및 'C'가 될 수 있다.According to an embodiment, the controller 130 may detect the type of another animal having common voice feature data corresponding to the same age and state as the age and state of the animal corresponding to the missing combination. For example, the controller 130 may detect a type having common voice characteristic data among combinations of '*-O-3'. Referring to FIG. 3 , corresponding types may be 'B' and 'C'.

이후, 제어부(130)는 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 제 1 기준 조합과 대응하는 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 2 기준 조합을 생성할 수 있다. 예를 들어, 제어부(130)는 도 3에서와 같이 'B-O-1', 'B-O-2' 및 'C-O-2'를 검출하여 제 2 기준 조합(B4)를 생성할 수 있다. Thereafter, the controller 130 may generate a second reference combination by extracting a combination having common voice feature data corresponding to the first reference combination among common voice feature data corresponding to the type of the detected animal. For example, as shown in FIG. 3 , the controller 130 may detect 'B-O-1', 'B-O-2', and 'C-O-2' to generate the second reference combination B4.

일 실시예에 따르면, 제어부(130)는 제 1 기준 조합에 포함되는 음성 특징 공통 데이터와 제 2 기준 조합에 포함되는 음성 특징 공통 데이터를 기초로 음성 차이 특성 데이터를 생성할 수 있다. 예를 들어, 제어부(130)는 B2에 해당하는 음성 특징 공통 데이터와 B3에 해당하는 음성 특징 공통 데이터를 비교하여 음성 차이 특성 데이터를 생성할 수 있다. 일 예로, 제어부(130)는 'A-O-1'과 'B-O-1'을 비교하여 음성 차이 특성 데이터를 생성할 수 있다. According to an embodiment, the controller 130 may generate voice difference feature data based on common voice feature data included in the first reference combination and common voice feature data included in the second reference combination. For example, the controller 130 may generate voice difference feature data by comparing common voice feature data corresponding to B2 and common voice feature data corresponding to B3. For example, the controller 130 may generate voice difference characteristic data by comparing 'A-O-1' with 'B-O-1'.

일 실시예에 따르면, 제 3 인공 신경망은 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터 및 음성 차이 특성 데이터를 입력 받아 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성할 수 있다.According to an embodiment, the third artificial neural network includes common voice feature data and voice difference characteristics corresponding to the same age and state as the age and state of the animal corresponding to the missing combination among the common voice feature data corresponding to the type of the detected animal. Data can be input and synthetic learning data can be created for combinations of animal types, ages, and conditions that are not included in the basic learning data.

예를 들어, 제 3 인공 신경망은 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터인 B4에 해당하는 'B-O-3'를 선택할 수 있다. 이후, 'B-O-3'에 'B-O-1'과 'A-O-1'를 이용하여 생성한 음성 차이 특성 데이터를 적용하여 누락된 조합 B1에 해당하는 'A-O-3'에 대한 합성 학습 데이터를 생성할 수 있다. For example, the third artificial neural network corresponds to voice feature common data B4 corresponding to the same age and state as the age and state of the animal corresponding to the missing combination among the voice feature common data corresponding to the detected animal type. B-O-3' can be selected. Then, synthetic learning data for 'A-O-3' corresponding to the missing combination B1 is generated by applying the voice difference characteristic data generated using 'B-O-1' and 'A-O-1' to 'B-O-3' can do.

일 실시예에 따르면, 제 2 인공 신경망은 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터 및 합성 학습 데이터를 기초로 학습될 수 있다. 다시 말해, 제 2 인공 신경망은 실제 동물로부터 획득된 음성 데이터를 기초로 생성한 학습 데이터와 제 3 인공 신경망을 통해 생성된 학습 데이터를 모두 이용하여 학습될 수 있다. According to an embodiment, the second artificial neural network may be trained based on basic training data and synthetic training data labeled with the type, age, and state of the animal. In other words, the second artificial neural network may be trained using both learning data generated based on voice data obtained from a real animal and learning data generated through the third artificial neural network.

일 실시예에 따르면, 제어부(130)는 분석된 음성 데이터의 조합이 기본 학습 데이터에 포함되지 않은 조합인 경우, 분석된 음성 데이터를 기본 학습 데이터에 포함시키며, 분석된 음성 데이터의 조합에 대응하는 합성 학습 데이터를 삭제하여 학습 데이터 세트를 갱신할 수 있다. According to an embodiment, if the combination of the analyzed voice data is a combination not included in the basic training data, the controller 130 includes the analyzed voice data in the basic training data, and provides a response corresponding to the combination of the analyzed voice data. You can update the training data set by deleting the synthetic training data.

일 예로, 제어부(130)가 분석한 음성 데이터가 종류A/연령O/상태3으로 분석될 수 있다. 다시 말해, 제어부(130)가 분석한 음성 데이터가 조합 B1에 해당하는 누락 조합에 대응하는 데이터일 수 있다. For example, voice data analyzed by the controller 130 may be analyzed as type A/age O/state 3. In other words, the voice data analyzed by the controller 130 may be data corresponding to the missing combination corresponding to combination B1.

이 경우, 제어부(130)는 분석한 음성 데이터는 'A-O-3'조합의 기본 학습 데이터로 결정할 수 있다. 또한, 제어부(130)는 앞서 제 3 인공 신경망을 통하여 생성한 합성 학습 데이터를 삭제하고, 분석함 음성 데이터로 해당 데이터를 대체할 수 있다.In this case, the controller 130 may determine the analyzed voice data as the basic learning data of the 'A-O-3' combination. In addition, the control unit 130 may delete synthesized learning data previously generated through the third artificial neural network and replace the corresponding data with analyzed voice data.

일 실시예에 따르면, 제어부(130)는 갱신된 학습 데이터 세트를 기초로 제 2 인공 신경망을 재학습시킬 수 있다. 즉, 제어부(130)는 합성된 학습 데이터보다 정확한 데이터인 음성 데이터를 이용하여 제 2 인공 신경망을 재학습 시킴으로써 제 2 인공 신경망의 성능을 향상시킬 수 있다.According to an embodiment, the controller 130 may relearn the second artificial neural network based on the updated training data set. That is, the controller 130 can improve the performance of the second artificial neural network by re-learning the second artificial neural network using voice data, which is more accurate data than synthesized learning data.

도 4는 일 실시예에 따른 동물 음성 분석 방법을 도시한 흐름도이다.4 is a flowchart illustrating a method for analyzing animal voices according to an exemplary embodiment.

일 실시예에 따르면, 동물 음성 분석 장치는 하나 이상의 모터로 구동하는 카메라를 통하여 영상 데이터를 생성하며(410), 복수의 마이크를 통하여 음성 데이터를 생성할 수 있다(420).According to an embodiment, the animal voice analysis apparatus may generate image data through a camera driven by one or more motors (410), and may generate voice data through a plurality of microphones (420).

일 실시예에 따르면, 동물 음성 분석 장치는 영상 데이터를 기초로 동물의 종류 및 연령을 분석하도록 학습된 제 1 인공 신경망을 이용하여 영상 데이터 상의 동물의 종류 및 연령을 분석할 수 있다(430). 일 예에 따르면, 제 1 인공 신경망은 객체 인식 모델일 수 있으며, 영상 데이터 상에서 동물을 검출하며, 검출된 동물의 종류 및 연령을 분석하도록 학습될 수 있다.According to an embodiment, the animal voice analysis apparatus may analyze the type and age of an animal on the image data by using a first artificial neural network trained to analyze the type and age of an animal based on the image data (430). According to an example, the first artificial neural network may be an object recognition model, and may be trained to detect an animal on image data and analyze the type and age of the detected animal.

일 실시예에 따르면, 동물 음성 분석 장치는 음성 데이터를 기초로 동물의 상태를 분석하도록 학습된 제 2 인공 신경망을 이용하여 음성 데이터에 대응하는 동물의 상태를 분석할 수 있다(440). According to an embodiment, the animal voice analysis apparatus may analyze the state of the animal corresponding to the voice data by using the second artificial neural network learned to analyze the state of the animal based on the voice data (440).

일 실시예에 따르면, 동물 음성 분석 장치는 제 1 인공 신경망을 통하여 분석된 동물의 종류 및 연령에 대한 정보를 제 2 인공 신경망에 입력할 수 있다. 예를 들어, 동물 음성 분석 장치는 제 1 인공 신경망을 통하여 영상 데이터에 포함되어 있는 동물의 종류 및 연령을 파악할 수 있다. 예를 들어, 동물은 치와와/아기견일 수 있다. 이후, 동물 음성 분석 장치는 치와와/아기견으로 분석된 정보를 제 2 인공 신경망에 입력할 수 있다. 이 경우, 제 2 인공 신경망은 수신 받은 치와와/아기견 정보를 기초로 동물의 음성 데이터를 분석하여 동물의 상태를 분석할 수 있다.According to an embodiment, the animal voice analysis apparatus may input information about the type and age of the animal analyzed through the first artificial neural network to the second artificial neural network. For example, the animal voice analysis apparatus may determine the type and age of animals included in the image data through the first artificial neural network. For example, the animal can be a Chihuahua/puppy. Thereafter, the animal voice analysis apparatus may input information analyzed as Chihuahua/baby dog to the second artificial neural network. In this case, the second artificial neural network may analyze the state of the animal by analyzing the animal's voice data based on the received Chihuahua/baby dog information.

일 실시예에 따르면, 동물 음성 분석 장치는 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터를 기초로 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는 제 3 인공 신경망을 포함할 수 있다. According to an embodiment, the apparatus for analyzing animal voices generates synthetic learning data for combinations of animal types, ages, and states that are not included in the basic training data based on basic training data labeled with animal types, ages, and states. It may include a third artificial neural network that does.

도 4에 대한 실시예 중 도 1 내지 도 3을 참조하여 설명한 내용과 중복되는 사항은 생략하였다. 따라서, 도 1 내지 도 3을 참조하여 설명한 실시예는 도 4를 참조하여 설명한 동물 음성 분석 방법에 동일하게 적용될 수 있다.Among the embodiments of FIG. 4 , matters overlapping those described with reference to FIGS. 1 to 3 are omitted. Accordingly, the embodiment described with reference to FIGS. 1 to 3 can be equally applied to the animal voice analysis method described with reference to FIG. 4 .

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.An aspect of the present invention may be implemented as computer readable code on a computer readable recording medium. Codes and code segments implementing the above program can be easily inferred by a computer programmer in the art. A computer-readable recording medium may include all types of recording devices storing data that can be read by a computer system. Examples of computer-readable recording media may include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, and the like. In addition, the computer-readable recording medium may be distributed among computer systems connected through a network, and may be written and executed as computer-readable codes in a distributed manner.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.So far, the present invention has been looked at mainly with its preferred embodiments. Those skilled in the art to which the present invention pertains will be able to understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the scope of the present invention should be construed to include various embodiments within the scope equivalent to those described in the claims without being limited to the above-described embodiments.

100: 동물 음성 분석 장치
110: 카메라부
120: 음성 감지부
130: 제어부
100: animal voice analysis device
110: camera unit
120: voice detector
130: control unit

Claims (22)

카메라 및 카메라를 구동하기 위한 하나 이상의 모터를 포함하며, 상기 카메라를 통하여 영상 데이터를 생성하는 카메라부;
복수의 마이크를 통하여 음성 데이터를 생성하는 음성 감지부; 및
상기 카메라부 및 상기 음성 감지부를 제어하는 제어부를 포함하며,
상기 제어부는
상기 영상 데이터를 기초로 동물의 종류 및 연령을 분석하도록 학습된 제 1 인공 신경망 및
상기 음성 데이터를 기초로 동물의 상태를 분석하도록 학습된 제 2 인공 신경망을 포함하는, 동물 음성 분석 장치.
a camera unit including a camera and one or more motors for driving the camera and generating image data through the camera;
a voice detector generating voice data through a plurality of microphones; and
A control unit for controlling the camera unit and the voice detection unit,
The control unit
A first artificial neural network trained to analyze the type and age of animals based on the image data; and
An animal voice analysis apparatus comprising a second artificial neural network learned to analyze a state of an animal based on the voice data.
제 1 항에 있어서,
상기 제어부는
상기 음성 감지부로부터 수신한 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며,
상기 분석된 위치를 기초로 상기 카메라가 상기 위치를 촬영할 수 있도록 상기 하나 이상의 구동 모터를 제어하는, 동물 음성 분석 장치.
According to claim 1,
The control unit
When a voice of a predetermined level or higher is detected based on the voice data received from the voice detector, a location where the corresponding voice is generated is analyzed;
Animal voice analysis apparatus for controlling the one or more drive motors so that the camera can capture the location based on the analyzed location.
제 1 항에 있어서,
상기 제어부는
상기 음성 감지부로부터 수신한 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며,
상기 분석된 위치를 기초로 상기 복수의 마이크에 적용하기 위한 빔포밍 벡터를 생성하는, 동물 음성 분석 장치.
According to claim 1,
The control unit
When a voice of a predetermined level or higher is detected based on the voice data received from the voice detector, a location where the corresponding voice is generated is analyzed;
Animal voice analysis apparatus for generating a beamforming vector to be applied to the plurality of microphones based on the analyzed position.
제 1 항에 있어서,
상기 제어부는
상기 제 1 인공 신경망을 통하여 분석된 동물의 종류 및 연령에 대한 정보를 상기 제 2 인공 신경망에 입력하는, 동물 음성 분석 장치.
According to claim 1,
The control unit
An animal voice analysis apparatus for inputting information on the type and age of an animal analyzed through the first artificial neural network to the second artificial neural network.
제 1 항에 있어서,
상기 제어부는
동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터를 기초로 상기 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는 제 3 인공 신경망을 포함하는, 동물 음성 분석 장치.
According to claim 1,
The control unit
Based on the basic training data labeled with the type, age and condition of the animal, a third artificial neural network for generating synthetic learning data for combinations of the type, age and condition of animals not included in the basic training data, animal voice analysis device.
제 5 항에 있어서,
상기 제어부는
동물의 종류, 연령 및 상태를 기준으로 기본 학습 데이터를 그룹핑하여 하나 이상의 음성 데이터 그룹을 생성하며,
상기 하나 이상의 음성 데이터 그룹에 포함되는 음성 데이터를 기초로 각각의 음성 데이터 그룹 별 음성 특징 공통 데이터를 생성하는, 동물 음성 분석 장치.
According to claim 5,
The control unit
Generate one or more voice data groups by grouping the basic training data based on animal type, age, and condition;
An animal voice analysis apparatus for generating common voice feature data for each voice data group based on voice data included in the one or more voice data groups.
제 6 항에 있어서,
상기 제어부는
동물의 종류, 연령 및 상태를 기준으로 분류된 조합 중 음성 데이터 그룹에 포함되지 않은 누락 조합을 검출하며,
상기 누락 조합에 해당하는 동물의 종류에 대한 조합 중 상기 누락 조합의 상태와 다른 상태를 가지는 조합을 추출하며, 상기 추출된 조합 중 상기 누락된 조합에 해당하는 연령에 대한 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 1 기준 조합을 생성하며,
상기 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터를 가지는 다른 동물의 종류를 검출하며, 상기 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 상기 제 1 기준 조합과 대응하는 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 2 기준 조합을 생성하며,
상기 제 1 기준 조합에 포함되는 음성 특징 공통 데이터와 상기 제 2 기준 조합에 포함되는 음성 특징 공통 데이터를 기초로 음성 차이 특성 데이터를 생성하는, 동물 음성 분석 장치.
According to claim 6,
The control unit
Detect missing combinations that are not included in the negative data group among combinations classified based on animal type, age, and condition,
A combination having a state different from that of the missing combination is extracted from among combinations of types of animals corresponding to the missing combination, and a combination having common voice feature data for an age corresponding to the missing combination among the extracted combinations. Extracting to generate a first reference combination,
Detecting the type of another animal having common voice feature data corresponding to the same age and state as the age and state of the animal corresponding to the missing combination, and among the common voice feature data corresponding to the type of the detected animal, the first generating a second reference combination by extracting a combination having voice feature common data corresponding to the reference combination;
and generating voice difference feature data based on common voice feature data included in the first reference combination and common voice feature data included in the second reference combination.
제 7 항에 있어서,
상기 제 3 인공 신경망은
상기 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 상기 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터 및 상기 음성 차이 특성 데이터를 입력 받아 상기 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는, 동물 음성 분석 장치.
According to claim 7,
The third artificial neural network
Among the common voice feature data corresponding to the type of the detected animal, common voice feature data corresponding to the same age and state as the age and state of the animal corresponding to the missing combination and the voice difference feature data are received as input, and the basic learning data An animal voice analysis device that generates synthetic learning data for combinations of types, ages, and states of animals that are not included in the
제 5 항에 있어서,
상기 제 2 인공 신경망은
동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터 및 합성 학습 데이터를 기초로 학습된, 동물 음성 분석 장치.
According to claim 5,
The second artificial neural network
An animal speech analysis device trained on the basis of basic training data and synthetic training data labeled with the type, age, and condition of the animal.
제 5 항에 있어서,
상기 제어부는
상기 분석된 음성 데이터의 조합이 상기 기본 학습 데이터에 포함되지 않은 조합인 경우, 상기 분석된 음성 데이터를 기본 학습 데이터에 포함시키며, 상기 분석된 음성 데이터의 조합에 대응하는 합성 학습 데이터를 삭제하여 학습 데이터 세트를 갱신하는, 동물 음성 분석 장치.
According to claim 5,
The control unit
When the combination of the analyzed voice data is a combination not included in the basic training data, the analyzed voice data is included in the basic training data, and the synthesized training data corresponding to the analyzed voice data combination is deleted for learning. An animal voice analysis device that updates a data set.
제 10 항에 있어서,
상기 제어부는
상기 갱신된 학습 데이터 세트를 기초로 상기 제 2 인공 신경망을 재학습시키는, 동물 음성 분석 장치.
According to claim 10,
The control unit
Animal voice analysis apparatus for re-learning the second artificial neural network based on the updated learning data set.
하나 이상의 모터로 구동하는 카메라를 통하여 영상 데이터를 생성하는 단계;
복수의 마이크를 통하여 음성 데이터를 생성하는 단계;
상기 영상 데이터를 기초로 동물의 종류 및 연령을 분석하도록 학습된 제 1 인공 신경망을 이용하여 상기 영상 데이터 상의 동물의 종류 및 연령을 분석하는 단계; 및
상기 음성 데이터를 기초로 동물의 상태를 분석하도록 학습된 제 2 인공 신경망을 이용하여 상기 음성 데이터에 대응하는 동물의 상태를 분석하는 단계를 포함하는, 동물 음성 분석 방법.
generating image data through a camera driven by one or more motors;
generating voice data through a plurality of microphones;
analyzing the type and age of the animal on the image data using a first artificial neural network trained to analyze the type and age of the animal based on the image data; and
and analyzing a state of the animal corresponding to the voice data using a second artificial neural network learned to analyze the state of the animal based on the voice data.
제 12 항에 있어서,
상기 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며, 상기 분석된 위치를 기초로 상기 카메라가 상기 위치를 촬영할 수 있도록 상기 하나 이상의 구동 모터를 제어하는 단계를 더 포함하는, 동물 음성 분석 방법.
According to claim 12,
When a voice of a predetermined level or higher is detected based on the voice data, analyzing a location where the corresponding voice is generated, and controlling the one or more driving motors so that the camera can capture the location based on the analyzed location. Further comprising, animal voice analysis method.
제 12 항에 있어서,
상기 음성 데이터를 기초로 소정 크기 이상의 음성이 감지된 경우, 해당 음성이 발생한 위치를 분석하며, 상기 분석된 위치를 기초로 상기 복수의 마이크에 적용하기 위한 빔포밍 벡터를 생성하는 단계를 더 포함하는, 동물 음성 분석 방법.
According to claim 12,
When a voice of a predetermined size or more is detected based on the voice data, analyzing a location where the corresponding voice is generated, and generating a beamforming vector to be applied to the plurality of microphones based on the analyzed location Further comprising , animal voice analysis method.
제 12 항에 있어서,
상기 제 2 인공 신경망은 상기 제 1 인공 신경망을 통하여 분석된 동물의 종류 및 연령에 대한 정보를 입력 받아 동물의 상태를 분석하는, 동물 음성 분석 방법.
According to claim 12,
The method of analyzing animal voice, wherein the second artificial neural network receives information on the type and age of the animal analyzed through the first artificial neural network and analyzes the state of the animal.
제 12 항에 있어서,
제 3 인공 신경망을 이용하여 동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터를 기초로 상기 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는 단계를 더 포함하는, 동물 음성 분석 방법.
According to claim 12,
Generating synthetic learning data for combinations of animal types, ages, and states not included in the basic learning data based on basic training data labeled with animal types, ages, and states using a third artificial neural network. Further comprising, animal voice analysis method.
제 16 항에 있어서,
상기 합성 학습 데이터를 생성하는 단계는
동물의 종류, 연령 및 상태를 기준으로 기본 학습 데이터를 그룹핑하여 하나 이상의 음성 데이터 그룹을 생성하며,
상기 하나 이상의 음성 데이터 그룹에 포함되는 음성 데이터를 기초로 각각의 음성 데이터 그룹 별 음성 특징 공통 데이터를 생성하는, 동물 음성 분석 방법.
17. The method of claim 16,
The step of generating the synthetic learning data is
Generate one or more voice data groups by grouping the basic training data based on animal type, age, and condition;
The animal voice analysis method of generating common voice feature data for each voice data group based on voice data included in the one or more voice data groups.
제 17 항에 있어서,
상기 합성 학습 데이터를 생성하는 단계는
동물의 종류, 연령 및 상태를 기준으로 분류된 조합 중 음성 데이터 그룹에 포함되지 않은 누락 조합을 검출하며,
상기 누락 조합에 해당하는 동물의 종류에 대한 조합 중 상기 누락 조합의 상태와 다른 상태를 가지는 조합을 추출하며, 상기 추출된 조합 중 상기 누락된 조합에 해당하는 연령에 대한 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 1 기준 조합을 생성하며,
상기 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터를 가지는 다른 동물의 종류를 검출하며, 상기 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 상기 제 1 기준 조합과 대응하는 음성 특징 공통 데이터를 가지는 조합을 추출하여 제 2 기준 조합을 생성하며,
상기 제 1 기준 조합에 포함되는 음성 특징 공통 데이터와 상기 제 2 기준 조합에 포함되는 음성 특징 공통 데이터를 기초로 음성 차이 특성 데이터를 생성하는, 동물 음성 분석 방법.
18. The method of claim 17,
The step of generating the synthetic learning data is
Detect missing combinations that are not included in the negative data group among combinations classified based on animal type, age, and condition,
A combination having a state different from that of the missing combination is extracted from among combinations of types of animals corresponding to the missing combination, and a combination having common voice feature data for an age corresponding to the missing combination among the extracted combinations. Extracting to generate a first reference combination,
Detecting the type of another animal having common voice feature data corresponding to the same age and state as the age and state of the animal corresponding to the missing combination, and among the common voice feature data corresponding to the type of the detected animal, the first generating a second reference combination by extracting a combination having voice feature common data corresponding to the reference combination;
and generating voice difference feature data based on common voice feature data included in the first reference combination and common voice feature data included in the second reference combination.
제 18 항에 있어서,
상기 제 3 인공 신경망은
상기 검출된 동물의 종류에 대응하는 음성 특징 공통 데이터 중 상기 누락 조합에 해당하는 동물의 연령 및 상태와 동일한 연령 및 상태에 대응하는 음성 특징 공통 데이터 및 상기 음성 차이 특성 데이터를 입력 받아 상기 기본 학습 데이터에 포함되지 않은 동물의 종류, 연령 및 상태의 조합에 대한 합성 학습 데이터를 생성하는, 동물 음성 분석 방법.
According to claim 18,
The third artificial neural network
Among the common voice feature data corresponding to the type of the detected animal, common voice feature data corresponding to the same age and state as the age and state of the animal corresponding to the missing combination and the voice difference feature data are received as input, and the basic learning data An animal voice analysis method that generates synthetic learning data for a combination of animal types, ages, and conditions not included in.
제 16 항에 있어서,
상기 제 2 인공 신경망은
동물의 종류, 연령 및 상태로 레이블링된 기본 학습 데이터 및 합성 학습 데이터를 기초로 학습된, 동물 음성 분석 방법.
17. The method of claim 16,
The second artificial neural network
A method for analyzing animal voices, trained on the basis of primary training data and synthetic training data labeled by animal type, age, and condition.
제 16 항에 있어서,
상기 분석된 음성 데이터의 조합이 상기 기본 학습 데이터에 포함되지 않은 조합인 경우, 상기 분석된 음성 데이터를 기본 학습 데이터에 포함시키며, 상기 분석된 음성 데이터의 조합에 대응하는 합성 학습 데이터를 삭제하여 학습 데이터 세트를 갱신하는 단계를 더 포함하는, 동물 음성 분석 방법.
17. The method of claim 16,
When the combination of the analyzed voice data is a combination not included in the basic training data, the analyzed voice data is included in the basic training data, and the synthesized training data corresponding to the analyzed voice data combination is deleted for learning. A method for analyzing animal speech, further comprising updating the data set.
제 21 항에 있어서,
상기 학습 데이터 세트를 갱신하는 단계는
상기 갱신된 학습 데이터 세트를 기초로 상기 제 2 인공 신경망을 재학습시키는, 동물 음성 분석 방법.
According to claim 21,
Updating the training data set
The animal voice analysis method of re-learning the second artificial neural network based on the updated learning data set.
KR1020220010220A 2021-12-08 2022-01-24 Apparatus and method for animal speech analysis using artificial intelligence KR102636790B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210174987 2021-12-08
KR20210174987 2021-12-08

Publications (2)

Publication Number Publication Date
KR20230086541A true KR20230086541A (en) 2023-06-15
KR102636790B1 KR102636790B1 (en) 2024-02-15

Family

ID=86763892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220010220A KR102636790B1 (en) 2021-12-08 2022-01-24 Apparatus and method for animal speech analysis using artificial intelligence

Country Status (1)

Country Link
KR (1) KR102636790B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200038849A (en) * 2018-10-04 2020-04-14 임성기 Method for providing voice of companion animal with artificial intelligence based on deep neural network machine learning
KR20210079480A (en) * 2019-12-19 2021-06-30 주식회사 비즈모델라인 Method for Providing Conversation with Pet using Augmented Reality by Pet's Emotional Sate
KR102279958B1 (en) * 2019-07-18 2021-07-21 인하대학교 산학협력단 Method and Apparatus for Recognizing Animal State using Video and Sound
KR102325259B1 (en) * 2021-05-11 2021-11-11 (주) 아지랑랑이랑 companion animal life management system and method therefor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200038849A (en) * 2018-10-04 2020-04-14 임성기 Method for providing voice of companion animal with artificial intelligence based on deep neural network machine learning
KR102279958B1 (en) * 2019-07-18 2021-07-21 인하대학교 산학협력단 Method and Apparatus for Recognizing Animal State using Video and Sound
KR20210079480A (en) * 2019-12-19 2021-06-30 주식회사 비즈모델라인 Method for Providing Conversation with Pet using Augmented Reality by Pet's Emotional Sate
KR102325259B1 (en) * 2021-05-11 2021-11-11 (주) 아지랑랑이랑 companion animal life management system and method therefor

Also Published As

Publication number Publication date
KR102636790B1 (en) 2024-02-15

Similar Documents

Publication Publication Date Title
CN100411828C (en) Robot device and behavior control method for robot device
US20200285449A1 (en) Visual programming environment
KR102660124B1 (en) Method for generating data for learning emotion in video, method for determining emotion in video, and apparatus using the methods
EP3772710A1 (en) Artificial intelligence server
JP2023072025A5 (en) Information processing system, electronic device, information processing method, and computer program
KR20110002757A (en) Emotion model device, apparatus and method for adaptive learning personality of emotion model
KR20200144658A (en) Classification apparatus and operating method thereof and training method
KR20210155824A (en) A method for on-device learning of a machine learning network of an autonomous vehicle through multi-stage learning using an adaptive hyperparameter set, and an on-device learning device using the same
Ganchev Computational bioacoustics: Biodiversity monitoring and assessment
US20230073669A1 (en) Optimising a neural network
KR20200038849A (en) Method for providing voice of companion animal with artificial intelligence based on deep neural network machine learning
Eichinski et al. A convolutional neural network bird species recognizer built from little data by iteratively training, detecting, and labeling
KR20230086541A (en) Apparatus and method for animal speech analysis using artificial intelligence
KR20200052440A (en) Electronic device and controlling method for electronic device
KR20220030583A (en) Caption Generation System through Animal Context-Awareness
KR102459775B1 (en) Automatic editing method, apparatus and system for artificial intelligence-based vidieo content production
EP3971782A2 (en) Neural network selection
KR20220095102A (en) Method and device for control harmful birds using reinforcement learning
KR102679200B1 (en) Pet robot device based on identification using voice recognition and operation method thereof
KR102640143B1 (en) Systems and Methods for Training a Hair Removal Neural Network
KR20240082442A (en) Method and system for controlling pet robot device that identifies user's grade in different way for each mode
KR102668872B1 (en) Apparatus and method for generating hyperpersonalized personas
Priyanka et al. Identification of bird species using automation tool
KR102525601B1 (en) Apparatus and method for classifying class using deep learning
US20240095597A1 (en) Method for Generating Additional Training Data for Training a Machine Learning Algorithm

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right