KR20190125668A - 반려동물의 감정상태 분석장치 및 방법 - Google Patents
반려동물의 감정상태 분석장치 및 방법 Download PDFInfo
- Publication number
- KR20190125668A KR20190125668A KR1020180049753A KR20180049753A KR20190125668A KR 20190125668 A KR20190125668 A KR 20190125668A KR 1020180049753 A KR1020180049753 A KR 1020180049753A KR 20180049753 A KR20180049753 A KR 20180049753A KR 20190125668 A KR20190125668 A KR 20190125668A
- Authority
- KR
- South Korea
- Prior art keywords
- emotional state
- unit
- feature vector
- companion animal
- extracting
- Prior art date
Links
- 230000002996 emotional effect Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims description 41
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000008451 emotion Effects 0.000 claims abstract description 34
- 238000010801 machine learning Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 28
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 206010037180 Psychiatric symptoms Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychiatry (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Hospice & Palliative Care (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Signal Processing (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Child & Adolescent Psychology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
본 발명에 따른 반려동물의 감정상태 분석장치는 반려동물의 음성정보를 수집하는 음성정보 수집부; 상기 음성정보 수집부에서 수집된 상기 음성정보에서 음성 특징벡터를 추출하는 특징벡터 추출부; 상기 특징벡터 추출부에서 추출된 상기 음성 특징벡터를 입력 데이터로 하는 기계학습을 수행하여 상기 반려동물에 대응하는 감정상태정보를 추출하는 감정상태 분석부; 상기 감정상태 분석부에서 분석된 상기 감정 상태정보를 출력하는 상태정보 출력부; 상기 음성정보 수집부, 상기 특징벡터 추출부, 상기 감정상태 분석부, 상기 상태정보 출력부의 동작을 제어하는 제어부; 및 상기 음성정보 수집부, 상기 특징벡터 추출부, 상기 감정상태 분석부, 상기 상태정보 출력부의 동작을 위한 데이터를 저장하는 저장부를 포함한다.
Description
본 발명은 반려동물과의 교감을 위한 기술에 관한 것으로, 더욱 상세하게는 반려동물이 감정상태를 분석하기 위한 기술에 관한 것이다.
최근, 반려동물의 음성정보(스피치)로 반려동물의 감정이나 상태를 알고자 하는 연구가 진행되면서 반려 동물의 소리를 분석하는 장치 및 프로그램들이 등장하고는 있다.
이때, 반려동물의 소리를 분석하는 방법은 주파수를 분석하여 분석하는 방법으로 이루어지고 있다. 이와 관련하여, 반려 동물의 소리로부터 주파수 특성을 분석하여 미리 설정된 특정 상태에 있다고 판단되는 경우 사용자 단말기로 자동으로 화상 전화 연결을 시도하며, 전자 기기 또는 표시부의 화면에 사용자 화상 정보를 출력시키되, 화상 정보 주위에 미리 설정된 주기로 변화하는 컬러 스펙트럼 영상을 함께 제공하는 기술 등이 개시되어 있다.
그러나, 반려동물에 대한 소리를 분석한다고 하더도, 단순 감정을 파악하는 것일 뿐, 정확한 분석 방법이 제시되고 있지 않아 단지 호기심을 만족시키는데 그치고 있다.
특히, 반려 동물의 음성 정보로부터 주파수 특성을 분석하는 경우, 주파수가 겹치는 감정에 따른 소리가 존재하는 경우에는 정확한 분석이 어렵다. 또한, 감정을 정확하게 분석하기 위해서는 주파수 뿐만 아니라 종별, 나이별, 신체정보별로 달라지는 주파수나 소리를 정규화하는 과정이 요구되는데, 이러한 과정이 포함되지 않아 정확한 분석이 용이하지 않다.
본 발명이 해결하고자 하는 과제는 반려동물이 짖는 소리 즉, 음성정보(스피치)를 입력받아서, 기계학습을 통한 반복적인 학습을 통해 반려동물에 대한 감정상태를 파악할 수 있도록 하는 반려동물의 감정상태 분석장치 및 방법에 관한 것이다.
상기 과제를 해결하기 위한 본 발명에 따른 반려동물의 감정상태 분석장치는 반려동물의 음성정보를 수집하는 음성정보 수집부; 상기 음성정보 수집부에서 수집된 상기 음성정보에서 음성 특징벡터를 추출하는 특징벡터 추출부; 상기 특징벡터 추출부에서 추출된 상기 음성 특징벡터를 입력 데이터로 하는 기계학습을 수행하여 상기 반려동물에 대응하는 감정상태정보를 추출하는 감정상태 분석부; 상기 감정상태 분석부에서 분석된 상기 감정 상태정보를 출력하는 상태정보 출력부; 상기 음성정보 수집부, 상기 특징벡터 추출부, 상기 감정상태 분석부, 상기 상태정보 출력부의 동작을 제어하는 제어부; 및 상기 음성정보 수집부, 상기 특징벡터 추출부, 상기 감정상태 분석부, 상기 상태정보 출력부의 동작을 위한 데이터를 저장하는 저장부를 포함한다.
상기 특징벡터 추출부는, 오토 엔코더(Auto-encoder) 및 MFCC(Mel Frequency Cepstral Coefficient) 중 어느 하나를 이용하여 상기 음성 특징벡터를 추출하는 것을 특징으로 한다.
상기 감정상태 분석부는, DNN(Deep Neural Network) 알고리즘 및 RNN(Recurrent Neural Network) 알고리즘 중 어느 하나의 기계학습 알고리즘을 이용하여 상기 감정상태정보를 추출하는 것을 특징으로 한다.
상기 상태정보 출력부는, 상기 감정상태정보를 음성 신호 및 영상 신호 중 어느 하나로 출력하는 것을 특징으로 한다.
상기 과제를 해결하기 위한 본 발명에 따른 반려동물의 감정상태 분석방법은 반려동물의 음성정보를 수집하는 단계; 상기 수집된 음성정보에서 음성 특징벡터를 추출하는 단계; 상기 추출된 음성 특징벡터를 입력 데이터로 하는 기계학습을 수행하여 상기 반려동물에 대응하는 감정상태정보를 추출하는 단계; 및 상기 분석된 감정 상태정보를 출력하는 단계를 포함한다.
상기 음성 특징벡터를 추출하는 단계는, 오토 엔코더(Auto-encoder) 및 MFCC(Mel Frequency Cepstral Coefficient) 중 어느 하나를 이용하여 상기 음성 특징벡터를 추출하는 것을 특징으로 한다.
상기 감정상태정보를 추출하는 단계는, DNN(Deep Neural Network) 알고리즘 및 RNN(Recurrent Neural Network) 알고리즘 중 어느 하나의 기계학습 알고리즘을 이용하여 상기 감정상태정보를 추출하는 것을 특징으로 한다.
상기 감정상태정보를 출력하는 단계는, 상기 감정상태정보를 음성 신호 및 영상 신호 중 어느 하나로 출력하는 것을 특징으로 한다.
본 발명에 따르면, 반려동물의 음성정보(스피치)를 입력 데이터로 하여 반복적인 기계학습을 통해 반려동물에 대한 감정상태를 파악할 수 있도록 함으로써, 반려동물의 감정상태에 대한 인식 오류를 줄이고, 반려동물의 현재 상태를 정확히 파악할 수 있도록 한다.
또한, 반려동물의 감정 상태를 정확히 인식함으로써, 인식된 감정 상태에 대응하여 반려동물로 하여금 올바른 행동 또는 반응이 유도될 수 있도록 반려동물에 대한 적절한 명령을 제시할 수 있도록 한다.
도 1은 본 발명에 따른 반려동물의 감정상태 분석장치를 설명하기 위한 일 실시예의 구성 블록도이다.
도 2는 특징벡터 추출부에 해당하는 오토 엔코더(Auto-encoder) 방식의 기본 동작 구조를 예시하는 참조도이다.
도 3은 특징벡터 추출부에 해당하는 MFCC(Mel Frequency Cepstral Coefficient) 방식에 의한 음성 특징벡터의 추출을 예시하는 참조도이다.
도 4는 감정상태 분석부(130)에 해당하는 RNN(Recurrent Neural Network) 알고리즘의 기본 동작 구조를 예시하는 참조도이다.
도 5는 감정상태 분석부(130)에 해당하는 DNN(Deep Neural Network) 알고리즘의 기본 동작 구조를 예시하는 참조도이다.
도 6은 본 발명에 따른 반려동물의 감정상태 분석방법을 설명하기 위한 일 실시예의 플로차트이다.
도 2는 특징벡터 추출부에 해당하는 오토 엔코더(Auto-encoder) 방식의 기본 동작 구조를 예시하는 참조도이다.
도 3은 특징벡터 추출부에 해당하는 MFCC(Mel Frequency Cepstral Coefficient) 방식에 의한 음성 특징벡터의 추출을 예시하는 참조도이다.
도 4는 감정상태 분석부(130)에 해당하는 RNN(Recurrent Neural Network) 알고리즘의 기본 동작 구조를 예시하는 참조도이다.
도 5는 감정상태 분석부(130)에 해당하는 DNN(Deep Neural Network) 알고리즘의 기본 동작 구조를 예시하는 참조도이다.
도 6은 본 발명에 따른 반려동물의 감정상태 분석방법을 설명하기 위한 일 실시예의 플로차트이다.
이하, 본 발명의 목적이 구체적으로 실현될 수 있는 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.
본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 아래의 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 아래의 실시예들로 한정되는 것은 아니다. 오히려, 이들 실시예는 본 개시를 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 명세서에서 사용된 용어는 특정 실시예를 설명하기 위하여 사용되며, 본 발명을 제한하기 위한 것이 아니다. 본 명세서에서 사용된 바와 같이 단수 형태는 문맥상 다른 경우를 분명히 지적하는 것이 아니라면, 복수의 형태를 포함할 수 있다. 또한, 본 명세서에서 사용되는 경우 "포함한다(comprise)" 및/또는"포함하는(comprising)"은 언급한 형상들, 숫자, 단계, 동작, 부재, 요소 및/또는 이들 그룹의 존재를 특정하는 것이며, 하나 이상의 다른 형상, 숫자, 동작, 부재, 요소 및/또는 그룹들의 존재 또는 부가를 배제하는 것이 아니다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 해당 열거된 항목 중 어느 하나 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서 제1, 제2 등의 용어가 다양한 부재, 영역 및/또는 부위들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들 및/또는 부위들은 이들 용어에 의해 한정되어서는 안됨은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역 또는 부위를 다른 부재, 영역 또는 부위와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역 또는 부위는 본 발명의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역 또는 부위를 지칭할 수 있다.
이하, 본 발명의 실시예들은 본 발명의 실시예들을 개략적으로 도시하는 도면들을 참조하여 설명한다. 도면들에 있어서, 예를 들면, 제조 기술 및/또는 공차에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 발명의 실시예는 본 명세서에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니 되며, 예를 들면 제조상 초래되는 형상의 변화를 포함하여야 한다.
도 1은 본 발명에 따른 반려동물의 감정상태 분석장치(100)를 설명하기 위한 일 실시예의 구성 블록도이다.
도 1을 참조하면, 반려동물의 감정상태 분석장치(100)는 음성정보 수집부(110), 특징벡터 추출부(120), 감정상태 분석부(130), 상태정보 출력부(140), 사용자 인터페이스부(150), 제어부(160), 저장부(170), 통신부(180) 등을 포함할 수 있다.
음성정보 수집부(110)는 반려동물의 음성 정보, 즉 짖는 소리 또는 스피치를 연속적으로 검출한다. 이를 위해, 음성정보 수집부(110)는 음성정보 수집을 위한 마이크를 포함할 수 있다. 음성정보 수집부(110)는 연속적으로 검출된 소리를 시간순서로 정렬하고, 1차 검출된 소리(sound1), 1차 검출된 소리와 2차 검출된 소리의 시간 간격(delay1), 2차 검출된 소리(sound2), 2차 검출된 소리와 3차 검출된 소리의 시간 간격(delay2), 3차 검출된 소리(sound3) 순으로 임의의 n차까지 계속적으로 소리를 벡터 형태로 저장할 수 있다.
이에 따라, 음성정보 수집부(110)에 의해 반려동물의 연속적인 짖는 소리로부터 반려동물의 소리를 실시간 검출하여 감정을 분석하기 때문에 단순히 한번의 짖는 소리로 감정을 분석하는 방법 보다 더욱 정확하게 반려동물의 감정을 분석하기 위한 정보를 수집할 수 있다.
음성정보 수집부(110)는 반려동물의 짖는 소리에 대한 소리 정보를 검출하기 위해 입력된 아날로그 신호를 디지털 신호로 변환한 다음, 변환된 디지털 신호로부터 짖는 소리와 소리 구간 사이의 시간 간격인 소리 정보를 검출한다.
특징벡터 추출부(120)는 음성정보 수집부(110)에서 수집된 상기 음성정보에서 음성 특징벡터를 추출한다. 특징벡터 추출부(120)는 음성 인식을 위하여 가장 먼저 해야할 것은 입력된 신호에서 노이즈 및 배경 소리로부터 실제 유효한 소리의 특징을 추출한다.
특징벡터 추출부(120)는 오토 엔코더(Auto-encoder) 방식 및 MFCC(Mel Frequency Cepstral Coefficient) 방식 중 어느 하나를 이용하여 상기 음성 특징벡터를 추출할 수 있다.
오토 엔코더(Auto-encoder) 방식은 입력값과 같은 결과값을 출력하는 과정에서 해당 데이터의 중요 특징들을 도출해내는 알고리즘이다. 도 2는 특징벡터 추출부에 해당하는 오토 엔코더(Auto-encoder) 방식의 기본 동작 구조를 예시하는 참조도이다.
MFCC(Mel Frequency Cepstral Coefficient) 방식은 소리의 특징을 추출하는 기법으로, 입력된 소리의 일정 구간(Short time)으로 나누어, 이 구간에 대한 스펙트럼을 분석하여 특징을 추출하는 기법이다. 도 3은 특징벡터 추출부(120)에 해당하는 MFCC(Mel Frequency Cepstral Coefficient) 방식에 의한 음성 특징벡터의 추출을 예시하는 참조도이다.
특징벡터 추출부(120)는 MFCC의 수행을 위해, 다음의 과정을 수행할 수 있다. 예를 들어, 특징벡터 추출부(120)는 입력 시간 도메인의 소리 신호를 작은 크기 프레임으로 자른다. 그 후, 특징벡터 추출부(120)는 각 프레임에 대하여 Power Spectrum의 Periodogram estimate (Periodogram Spectral Estimate)를 계산한다. 그 후, 특징벡터 추출부(120)는 산출한 Power Spectrum 에 Mel Filter bank를 적용하고, 각 필터에 에너지를 합한다. 그 후, 특징벡터 추출부(120)는 모든 필터 뱅크 에너지의 Log를 취한후에 DCT를 취한다. 그 후, 특징벡터 추출부(120)는 DCT를 취한 값에 Coefficients 2~13 만 남기고 나머지는 버린다.
특징벡터 추출부(120)는 반려동물의 짖는 소리가 들리면 현재 입력되는 반려동물의 소리를 주파수 형태(사운드 파형)로 연속적으로 표시한다. 이때, 특징벡터 추출부(120)는 저장부(170)로부터 감정에 대응하는 기준 음성 특징벡터정보를 이용하여 음성 특징벡터를 추출할 수 있다.
반려동물이 한번 짖을 때마다 입력 파형은 거의 포물선 형태로 표시된다. 그러나, 반려동물이 한번 짖는 것만으로 반려동물의 감정을 구분하기는 현실적으로 거의 불가능하다. 반려동물의 감정을 제대로 구분하기 위해서는 반려동물이 짖는 소리와 짖는 소리 사이의 시간 간격(소리 정보)을 파악해야 되며, 상기 음성정보 수집부(110)가 검출하는 반려동물의 소리는 다음과 같은 벡터로 구성된다. 이러한 음성 벡터는 음성정보 수집부(110)의 끝점검출 조건에 따라 같은 입력 소리라도 다른 벡터로 표현될 수 있기 때문에, 가능한한 동일한 끝점검출 조건이 적용되어야 하며, 미리 저장되어 있는 저장부(170)에도 동일한 끝점 검출 조건에서 테스트한 샘플이 제공되어야 한다. 벡터 형태로 반려동물이 한 번 짖음을 프레임(Frame)별 영교차율(ZCR)과 에너지(Energy)의 벡터값 형태로 표시할 수 있다
감정상태 분석부(130)는 특징벡터 추출부(120)에서 추출된 음성 특징벡터를 입력 데이터로 하는 기계학습을 수행하여 반려동물에 대응하는 감정상태정보를 추출한다.
감정상태 분석부(130)는 DNN(Deep Neural Network) 알고리즘 및 RNN(Recurrent Neural Network) 알고리즘 중 어느 하나의 기계학습 알고리즘을 이용하여 상기 감정상태정보를 추출할 수 있다.
RNN(Recurrent Neural Network) 알고리즘은 음성과 같은 연속적인 데이터를 입력받고 또한 이전의 입력값을 고려하여 결과값을 출력하는 알고리즘이다. 도 4는 감정상태 분석부(130)에 해당하는 RNN(Recurrent Neural Network) 알고리즘의 기본 동작 구조를 예시하는 참조도이다.
DNN(Deep Neural Network) 알고리즘은 심층 신경망에 해당하는 것으로, 입력층(input layer)과 출력층(output layer) 사이에 다중의 은닉층(hidden layer)을 포함하는 인공 신경망(ANN: Artificial Neural Network)을 의미한다. 도 5는 감정상태 분석부(130)에 해당하는 DNN(Deep Neural Network) 알고리즘의 기본 동작 구조를 예시하는 참조도이다.
심층 신경망은 다중의 은닉층을 포함하여 다양한 비선형적 관계를 학습할 수 있다. 심층 신경망은 알고리즘에 따라 비지도 학습 방법(unsupervised learning)을 기반으로 하는 심층 신뢰 신경망(DBN: Deep Belief Network), 심층 오토인코더(deep autoencoder) 등이 있고, 이미지와 같은 2차원 데이터 처리를 위한 합성곱 신경망(CNN: Convolutional Neural Network), 시계열 데이터 처리를 위한 순환 신경망(RNN: Recurrent Neural Network) 등이 있다. 따라서, 데이터들을 토대로 input(앞서 추출된 음성의 특징벡터)과 output(감정 상태)을 정하여 학습한다. 학습되면서 input layer와 hidden layer 1 사이처럼 각 layer 사이의 연결마다 가중치 값이 정해지고, 완성 후에 모델로 저장하여 다른 데이터가 입력되었을 때 적절한 결과가 출력될 수 있다.
또한, 감정상태 분석부(130)는 특징벡터 추출부(120)에서 검출된 음성 특징벡터와 저장부(170)에 저장되어 있는 감정별 음성 특징벡터의 패턴을 비교해서 감정을 추론할 수 있다. 이를 위해, 감정상태 분석부(130)는 DTW(Dynamic Time Warping), HMM(Hidden Marcov Model), ANN(Artificial Neural Network), Fuzzy 등의 패턴 비교 알고리즘을 단독으로 또는 두 개 이상 사용하여 가장 유사한 감정을 판단함으로써 반려동물에 대한 감정상태정보를 인식할 수 있다.
감정상태 분석부(130)는 반려동물의 감정을 요구(Demand), 반가움(Joy), 호기심(Curiosity), 외로움(Solitude), 경고(Warning), 화남(Woof), 두려움(Fear) 등의 감정 중에서 선택적으로 추론할 수 있다. 여기서, 감정상태 분석부(130)는 전술한 감정별 음성 특징벡터가 저장되어 있는 저장부(170)와 접속할 수 있다.
상태정보 출력부(140)는 감정상태 분석부(130)에서 분석된 상기 감정 상태정보를 출력한다. 상태정보 출력부(140)는 감정상태정보를 음성 신호 및 영상 신호 중 어느 하나로 출력할 수 있다. 상태정보 출력부(140)는 추론하거나 생성한 반려동물의 감정동작과 대화문장, 대화음성을 출력한다.
상태정보 출력부(140)는 감정상태 분석부(130)에서 추론한 감정에 따른 영상 신호 또는 음성 신호를 생성하는 곳으로, 저장부(170)에 저장되어 있는 2차원 이미지 파일형태를 연속적으로 플레이하여 3차원 동작 효과를 내거나 3차원 동작 애니메이션 파일을 구동시켜서 동작을 생성할 수 있다.
상태정보 출력부(140)는 감정상태 분석부(130)에서 분석된 현재 반려동물 감정과 현재 반려동물의 설정 환경에 의해 사람의 대화로 통역하게 되는데, 통역하는 방법은 현재 반려동물의 종류(Species), 성별(Sex), 나이(Age), 흥미(Interest), 성격(Character)과 같은 조건에 따라 대화를 설정한 대화 및 대화음성을 이용할 수 있다.
상태정보 출력부(140)는 반려동물의 감정과 현재 반려동물의 설정 환경에 더하여, 현재시간이나 날씨 등의 다른 조건에 의해서 규칙기반으로 사람의 대화를 생성할 수 있다.
사용자 인터페이스부(150)는 반려 동물에 대한 설정 정보를 제공하기 위한 것으로, 환경 설정 버튼(예를 들어 종류(Species), 성별(Sex), 나이(Age), 흥미(Interest), 성격(Character)을 눌러서(S2000) 반려동물에 대한 각종 환경 조건(예를 들어 라브라도 리트리버(LabradorRetriever)/닥스훈트(Dachshund)/요크셔테리어(Yorkshire Terrier)/저먼 셰퍼드 도그(German Shepherd Dog)/골든 리트리버(Golden Retriever)/비글(Beagle)/복서(Boxer)/푸들(Poodle)/시추(Shih Tzu)/불독(Bulldog), 수컷/암컷(Male/Female), 나이(1~40), 잠(Sleep)/여행(Travel)/놀기(Play), 행복함(Happy)/온화함(Gentle)/신경질적임(Nervous)/사나움(Fierce)) 등을 입력할 수 있다.
제어부(160)는 음성정보 수집부(110), 특징벡터 추출부(120), 감정상태 분석부(130), 상태정보 출력부(140) 등의 동작을 제어한다. 이를 위해, 제어부(160)는 중앙처리장치 (central processing unit (CPU)), 어플리케이션 프로세서 (application processor (AP)), 또는 커뮤니케이션 프로세서 (communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다. 제어부(160)는 예를 들면, 적어도 하나의 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.
저장부(170)는 상기 음성정보 수집부, 상기 특징벡터 추출부, 상기 감정상태 분석부, 상기 상태정보 출력부의 동작을 위한 데이터를 저장하고 있다. 이를 위해, 저장부(170)는 대표감정 분류값, 소리주파수 벡터, 소리간격 시간 벡터 등이 저장되어 있다.
통신부(180)는 음성정보 수집부(110)에서 수집된 음성정보를 다른 기기(예를 들어, 서버)로 전송할 수 있다. 또한, 통신부(180)는 휴대용 단말기로부터 음성정보를 수신할 수도 있다. 이를 위해, 통신부는, 유선 통신망 또는 무선 통신망과 접속할 수 있는 유선 통신모듈 또는 무선 통신모듈을 포함할 수 있다.
한편, 전술한 반려동물의 감정상태 분석장치는 휴대용 단말기에 탑재될 수도 있지만, 서버에 탑재되는 것일 수 있다. 이때, 휴대용 단말기는 스마트폰, 태블릿 PC, 이동 전화기, 화상 전화기, 전자북 리더기, 넷북 컴퓨터, PDA, PMP, 휴대용 의료기기, 또는 웨어러블 장치(예: 스마트 안경, 머리 착용형 장치(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리, 스마트 미러, 또는 스마트 와치 등)을 포함할 수 있다. 또한, 단말 장치(40)는 데스크탑 PC, 랩탑 PC, 워크스테이션 등을 포함할 수 있다.
반려동물의 감정상태 분석장치가 서버에 탑재되는 경우에는, 휴대용 단말기에서 수집되는 음성정보를 수신하고, 수신된 음성정보를 이용하여 전술한 특징벡터 추출부, 감정상태 분석부 및 상태정보 출력부의 동작을 수행할 수 있다.
도 6은 본 발명에 따른 반려동물의 감정상태 분석방법을 설명하기 위한 일 실시예의 플로차트이다.
먼저, 반려동물의 음성정보를 수집한다(S200 단계).
반려동물의 감정상태 분석장치는 반려동물의 음성 정보, 즉 짖는 소리 또는 스피치를 연속적으로 검출한다. 반려동물의 감정상태 분석장치는 연속적으로 검출된 소리를 시간순서로 정렬하고, 임의의 n차까지 계속적으로 소리를 벡터 형태로 저장할 수 있다.
반려동물의 감정상태 분석장치는 반려동물의 짖는 소리에 대한 소리 정보를 검출하기 위해 입력된 아날로그 신호를 디지털 신호로 변환한 다음, 변환된 디지털 신호로부터 짖는 소리와 소리 구간 사이의 시간 간격인 소리 정보를 검출한다.
S200 단계 후에, 상기 수집된 음성정보에서 음성 특징벡터를 추출한다(S200 단계). 반려동물의 감정상태 분석장치는 오토 엔코더(Auto-encoder) 방식 및 MFCC(Mel Frequency Cepstral Coefficient) 방식 중 어느 하나를 이용하여 상기 음성 특징벡터를 추출할 수 있다. 오토 엔코더(Auto-encoder) 방식은 입력값과 같은 결과값을 출력하는 과정에서 해당 데이터의 중요 특징들을 도출해내는 알고리즘이다. 또한, MFCC(Mel Frequency Cepstral Coefficient) 방식은 소리의 특징을 추출하는 기법으로, 입력된 소리의 일정 구간(Short time)으로 나누어, 이 구간에 대한 스펙트럼을 분석하여 특징을 추출하는 기법이다.
S202 단계 후에, 상기 추출된 음성 특징벡터를 입력 데이터로 하는 기계학습을 수행하여 상기 반려동물에 대응하는 감정상태정보를 추출한다(S204 단계).
반려동물의 감정상태 분석장치는 DNN(Deep Neural Network) 알고리즘 및 RNN(Recurrent Neural Network) 알고리즘 중 어느 하나의 기계학습 알고리즘을 이용하여 상기 감정상태정보를 추출할 수 있다.
RNN(Recurrent Neural Network) 알고리즘은 음성과 같은 연속적인 데이터를 입력받고 또한 이전의 입력값을 고려하여 결과값을 출력하는 알고리즘이다. DNN(Deep Neural Network) 알고리즘은 심층 신경망에 해당하는 것으로, 입력층(input layer)과 출력층(output layer) 사이에 다중의 은닉층(hidden layer)을 포함하는 인공 신경망(ANN: Artificial Neural Network)을 의미한다.
반려동물의 감정상태 분석장치는 검출된 음성 특징벡터와 감정별 음성 특징벡터의 패턴을 비교해서 감정을 추론할 수 있다. 이를 위해, 반려동물의 감정상태 분석장치는 DTW(Dynamic Time Warping), HMM(Hidden Marcov Model), ANN(Artificial Neural Network), Fuzzy 등의 패턴 비교 알고리즘을 단독으로 또는 두 개 이상 사용하여 가장 유사한 감정을 판단함으로써 반려동물에 대한 감정상태정보를 인식할 수 있다.
S204 단계 후에, 상기 분석된 감정 상태정보를 출력한다(S206 단계). 반려동물의 감정상태 분석장치는 감정상태정보를 음성 신호 및 영상 신호 중 어느 하나로 출력할 수 있다. 반려동물의 감정상태 분석장치는 추론하거나 생성한 반려동물의 감정동작과 대화문장, 대화음성을 출력한다. 반려동물의 감정상태 분석장치는 2차원 이미지 파일형태를 연속적으로 플레이하여 3차원 동작 효과를 내거나 3차원 동작 애니메이션 파일을 구동시켜서 동작을 생성할 수 있다.
본 발명의 반려동물의 감정상태 분석장치 및 방법은 상세한 설명을 통해 해당 프로그램을 다운로드 받아서 구현하는 아이폰/아이팟 터치에 적용된 예를 기재하였으나, 해당 프로그램이 설치된 전용 단말기 내지 스마트폰과 같은 각종 휴대용 통신 단말기를 사용하거나 종래 널리 보편화되어 있는 각종 게임기 등에 본 발명이 적용될 수 있음은 당업자에게 자명한 사항이라 할 것이다.
이와 같이 본 발명에 따른 바람직한 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화될 수 있다는 사실은 해당 기술분야에 있어 통상의 지식을 가진 자에게는 자명한 것이다.
그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하며, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수 있다.
100: 반려동물의 감정상태 분석장치
110: 음성정보 수집부
120: 특징벡터 추출부
130: 감정상태 분석부
140: 상태정보 출력부
150: 사용자 인터페이스부
160: 제어부
170: 저장부
180: 통신부
110: 음성정보 수집부
120: 특징벡터 추출부
130: 감정상태 분석부
140: 상태정보 출력부
150: 사용자 인터페이스부
160: 제어부
170: 저장부
180: 통신부
Claims (8)
- 반려동물의 음성정보를 수집하는 음성정보 수집부;
상기 음성정보 수집부에서 수집된 상기 음성정보에서 음성 특징벡터를 추출하는 특징벡터 추출부;
상기 특징벡터 추출부에서 추출된 상기 음성 특징벡터를 입력 데이터로 하는 기계학습을 수행하여 상기 반려동물에 대응하는 감정상태정보를 추출하는 감정상태 분석부; 및
상기 감정상태 분석부에서 분석된 상기 감정 상태정보를 출력하는 상태정보 출력부;
상기 음성정보 수집부, 상기 특징벡터 추출부, 상기 감정상태 분석부, 상기 상태정보 출력부의 동작을 제어하는 제어부; 및
상기 음성정보 수집부, 상기 특징벡터 추출부, 상기 감정상태 분석부, 상기 상태정보 출력부의 동작을 위한 데이터를 저장하는 저장부를 포함하는 반려동물의 감정상태 분석장치. - 청구항 1에 있어서,
상기 특징벡터 추출부는,
오토 엔코더(Auto-encoder) 및 MFCC(Mel Frequency Cepstral Coefficient) 중 어느 하나를 이용하여 상기 음성 특징벡터를 추출하는 것을 특징으로 하는 반려동물의 감정상태 분석장치. - 청구항 1에 있어서,
상기 감정상태 분석부는,
DNN(Deep Neural Network) 알고리즘 및 RNN(Recurrent Neural Network) 알고리즘 중 어느 하나의 기계학습 알고리즘을 이용하여 상기 감정상태정보를 추출하는 것을 특징으로 하는 반려동물의 감정상태 분석장치. - 청구항 1에 있어서,
상기 상태정보 출력부는,
상기 감정상태정보를 음성 신호 및 영상 신호 중 어느 하나로 출력하는 것을 특징으로 하는 반려동물의 감정상태 분석장치. - 반려동물의 음성정보를 수집하는 단계;
상기 수집된 음성정보에서 음성 특징벡터를 추출하는 단계;
상기 추출된 음성 특징벡터를 입력 데이터로 하는 기계학습을 수행하여 상기 반려동물에 대응하는 감정상태정보를 추출하는 단계; 및
상기 분석된 감정 상태정보를 출력하는 단계를 포함하는 반려동물의 감정상태 분석방법. - 청구항 5에 있어서,
상기 음성 특징벡터를 추출하는 단계는,
오토 엔코더(Auto-encoder) 및 MFCC(Mel Frequency Cepstral Coefficient) 중 어느 하나를 이용하여 상기 음성 특징벡터를 추출하는 것을 특징으로 하는 반려동물의 감정상태 분석방법. - 청구항 5에 있어서,
상기 감정상태정보를 추출하는 단계는,
DNN(Deep Neural Network) 알고리즘 및 RNN(Recurrent Neural Network) 알고리즘 중 어느 하나의 기계학습 알고리즘을 이용하여 상기 감정상태정보를 추출하는 것을 특징으로 하는 반려동물의 감정상태 분석방법. - 청구항 5에 있어서,
상기 감정상태정보를 출력하는 단계는,
상기 감정상태정보를 음성 신호 및 영상 신호 중 어느 하나로 출력하는 것을 특징으로 하는 반려동물의 감정상태 분석방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180049753A KR20190125668A (ko) | 2018-04-30 | 2018-04-30 | 반려동물의 감정상태 분석장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180049753A KR20190125668A (ko) | 2018-04-30 | 2018-04-30 | 반려동물의 감정상태 분석장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190125668A true KR20190125668A (ko) | 2019-11-07 |
Family
ID=68578867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180049753A KR20190125668A (ko) | 2018-04-30 | 2018-04-30 | 반려동물의 감정상태 분석장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190125668A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102255520B1 (ko) | 2020-11-27 | 2021-05-25 | 임수진 | 빅데이터 분석 기반의 인공지능 자연어 메시지 전달을 통한 반려동물 의사전달 장치 및 시스템 |
KR20210099952A (ko) * | 2020-02-05 | 2021-08-13 | 서울과학기술대학교 산학협력단 | 반려동물의 감정 및 상태 분석을 이용한 스마트 홈케어 시스템 |
WO2024080429A1 (ko) * | 2022-10-14 | 2024-04-18 | (주)펫펄스랩 | 자동차 반려동물 모드 제공방법 |
-
2018
- 2018-04-30 KR KR1020180049753A patent/KR20190125668A/ko unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210099952A (ko) * | 2020-02-05 | 2021-08-13 | 서울과학기술대학교 산학협력단 | 반려동물의 감정 및 상태 분석을 이용한 스마트 홈케어 시스템 |
KR102255520B1 (ko) | 2020-11-27 | 2021-05-25 | 임수진 | 빅데이터 분석 기반의 인공지능 자연어 메시지 전달을 통한 반려동물 의사전달 장치 및 시스템 |
WO2024080429A1 (ko) * | 2022-10-14 | 2024-04-18 | (주)펫펄스랩 | 자동차 반려동물 모드 제공방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stanton et al. | Predicting expressive speaking style from text in end-to-end speech synthesis | |
CN107705807B (zh) | 基于情绪识别的语音质检方法、装置、设备及存储介质 | |
JP6617053B2 (ja) | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 | |
Bertero et al. | A first look into a convolutional neural network for speech emotion detection | |
CN110875032B (zh) | 语音交互系统和方法、程序、学习模型生成装置和方法 | |
CN108197115A (zh) | 智能交互方法、装置、计算机设备和计算机可读存储介质 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN108320733A (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN104538043A (zh) | 一种通话中实时情感提示装置 | |
Prasomphan | Improvement of speech emotion recognition with neural network classifier by using speech spectrogram | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
KR20210070213A (ko) | 음성 사용자 인터페이스 | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
US20160267924A1 (en) | Speech detection device, speech detection method, and medium | |
CN106502382B (zh) | 用于智能机器人的主动交互方法和系统 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
KR20190125668A (ko) | 반려동물의 감정상태 분석장치 및 방법 | |
KR101984283B1 (ko) | 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체 | |
WO2019119279A1 (en) | Method and apparatus for emotion recognition from speech | |
Alghifari et al. | On the use of voice activity detection in speech emotion recognition | |
KR20190126552A (ko) | 반려동물의 감정상태에 대한 정보 제공 시스템 및 방법 | |
CN110480656A (zh) | 一种陪护机器人、陪护机器人控制方法及装置 | |
CN109074809A (zh) | 信息处理设备、信息处理方法和程序 | |
Gomes et al. | i-vector algorithm with Gaussian Mixture Model for efficient speech emotion recognition | |
Tuasikal et al. | Voice activation using speaker recognition for controlling humanoid robot |