KR20200038849A - 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법 - Google Patents

심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법 Download PDF

Info

Publication number
KR20200038849A
KR20200038849A KR1020190113578A KR20190113578A KR20200038849A KR 20200038849 A KR20200038849 A KR 20200038849A KR 1020190113578 A KR1020190113578 A KR 1020190113578A KR 20190113578 A KR20190113578 A KR 20190113578A KR 20200038849 A KR20200038849 A KR 20200038849A
Authority
KR
South Korea
Prior art keywords
companion animal
sound
artificial intelligence
user
management server
Prior art date
Application number
KR1020190113578A
Other languages
English (en)
Other versions
KR102442529B1 (ko
Inventor
임성기
Original Assignee
임성기
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 임성기 filed Critical 임성기
Publication of KR20200038849A publication Critical patent/KR20200038849A/ko
Application granted granted Critical
Publication of KR102442529B1 publication Critical patent/KR102442529B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법이 개시된다. 이 방법은 관리 서버가 사용자 단말에서 실행되는 반려동물 애플리케이션으로 사용자 반려동물의 의사 또는 감정별 소리 녹음 및 업로드를 요청하는 단계, 반려동물 애플리케이션이 요청된 의사 또는 감정별 녹음된 사용자 반려동물의 소리 데이터를 관리 서버로 업로드하는 단계, 관리 서버가 업로드된 의사 또는 감정별 소리 데이터로 심층 신경회로망 머신러닝(Deep Neural Network Machine Learning) 기반의 인공지능 모델을 학습시키는 단계, 관리 서버가 학습 완료한 인공지능 모델을 반려동물 애플리케이션으로 제공하는 단계, 및 반려동물 애플리케이션이 사용자 입력에 해당하는 반려동물용 소리를 인공지능 모델을 이용해 생성하여 스피커를 통해 출력하는 단계를 포함한다.

Description

심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법{Method for providing voice of companion animal with artificial intelligence based on deep neural network machine learning}
본 발명은 반려동물과의 소통을 위한 기술에 관한 것이다.
심층 신경회로망 머신러닝(Deep Neural Network Machine Learning) 기반의 인공지능 연구가 활발하게 진행되면서 심층 신경회로망 머신러닝 기반의 인공지능을 이용하여 인간의 음성을 합성하는 시스템 및 방법들이 등장하고 있다. 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 인간 음성 합성 시스템 및 방법들은 종래의 인간 음성 합성 시스템 및 방법들과는 다르게 대규모의 인간 음성 데이터를 고성능 컴퓨터 시스템 상에서 구현된 심층 신경회로망 인공지능 모델에 학습시킨 후, 학습된 심층 신경회로망 인공지능 모델을 이용하여 고품질의 인간 음성을 합성하여 재현한다. 이러한 심층 신경회로망 머신러닝 기반의 인공지능 모델은 복잡한 인간 음성합성 모델을 사용하여 인간 음성을 합성하여 재현하는 종래의 방식들과 비교할 때, 복잡한 음성합성 모델을 사용하지 않고서도 고품질의 인간 음성을 합성하여 재현할 수 있는 안정적인 음성합성 시스템을 제공할 수 있다.
그러나 동물의 의사를 나타내는 동물 소리를 합성하는 종래의 시스템 및 방법들은 동물의 의사를 나타내는 모든 동물 소리를 일일이 녹음해서 모은 후에 원하는 의사를 표현하고자 할 경우에는 해당하는 동물 소리의 조각들을 조합한 후 합성하여 재현한다. 혹은 동물의 의사를 나타내는 모든 동물 소리를 일일이 녹음해서 모은 후에, 동물 소리를 주파수나 특정 요소로 분해해서 저장한 후 원하는 동물의 의사에 해당하는 동물 소리의 주파수나 특정 요소를 조합하여 동물 소리를 합성해서 재현하는 시스템 및 방법들이 사용된다. 이 같은 종래의 시스템 및 방법들은 동물의 의사를 나타내는 동물 소리를 수집, 취합하기가 너무 어렵다. 또한, 동물의 의사를 정확히 나타내는 고품질의 동물 소리를 합성하기 어렵거나, 해당 시스템과 방법들이 너무 복잡해서 사용이 어렵거나 매우 고비용이거나 오류에 약하거나 하는 등의 문제가 있다.
국내공개특허공보 제10-2018-0084542호 (2018년 7월 25일 공개)
본 발명은 사용자가 반려동물에게 전달하고자 하는 표현을 반려동물 소리로 용이하게 재현할 수 있도록 하는 방안을 제공함을 목적으로 한다.
일 양상에 따른 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법은, 관리 서버가 사용자 단말에서 실행되는 반려동물 애플리케이션으로 사용자 반려동물의 의사 또는 감정별 소리 녹음 및 업로드를 요청하는 단계, 반려동물 애플리케이션이 요청된 의사 또는 감정별 녹음된 사용자 반려동물의 소리 데이터를 관리 서버로 업로드하는 단계, 관리 서버가 업로드된 사용자 반려동물의 의사 또는 감정별 소리 데이터를 의사 또는 감정을 표현하는 글자와 글자에 대응하는 반려동물의 소리를 함께 묶고 분류해서, 심층 신경회로망 머신러닝 기반의 인공지능 모델을 학습시키기 위한 학습데이터로 정제하고 가공하는 단계, 관리 서버가 학습데이터를 정제하고 가공할 때, 반려동물의 의사 또는 감정별 소리 데이터를 의사 또는 감정을 표현하는 글자와 더불어, 소리의 음높이(pitch)와 소리의 지속시간(duration), 소리의 반복(repetition) 횟수 등을 분석/추출해서 함께 묶고 분류하여 심층 신경회로망 머신러닝 기반의 인공지능 모델을 학습시키기 위한 학습데이터로 정제하고 가공하는 단계, 관리 서버가, 함께 묶여서 정제되고 가공된 의사 또는 감정별 소리와 의사 또는 감정을 표현하는 글자, 소리의 음높이(pitch), 소리의 지속시간(duration), 소리의 반복(repetition) 횟수 등으로 구성된 학습데이터로 심층 신경회로망 머신러닝(Deep Neural Network Machine Learning) 기반의 인공지능 모델을 학습시키는 단계, 관리 서버가 학습 완료한 인공지능 모델을 반려동물 애플리케이션으로 제공하는 단계, 반려 동물 애플리케이션이 사용자 입력에 해당하는 반려동물용 소리를 인공지능 모델을 이용해 생성하여 스피커를 통해 출력하는 단계, 및 인공지능 모델이 사용자 입력이 나타내는 반려동물의 의사 또는 감정에 해당하는 반려동물의 소리를 생성할 때, 반려동물의 의사 또는 감정에 해당하는 소리의 음높이(pitch), 소리의 지속시간(duration), 소리의 반복(repetition) 횟수 등을 함께 생성하여 스피커를 통해 출력하는 단계를 포함할 수 있다.
소리 녹음 및 업로드 요청 단계는 사용자 반려동물이 소리로 표현 가능한 모든 의사 또는 감정 중에서 일부 의사 또는 감정을 나타내는 소리 녹음 및 업로드를 요청할 수 있다.
반려동물 소리 서비스 제공 방법은 관리 서버가 사용자 반려동물의 품종을 확인하는 단계를 더 포함할 수 있으며, 소리 녹음 및 업로드 요청 단계는 확인된 품종에 대응되는 일부 의사 또는 감정을 나타내는 소리 녹음 및 업로드를 요청할 수 있다.
품종 확인 단계는 반려동물 애플리케이션으로 사용자 반려동물 이미지를 요청하는 단계, 및 품종 확인을 위해 반려동물 애플리케이션으로부터 수신된 사용자 반려동물 이미지를 분석하는 단계를 포함할 수 있다.
반려동물 소리 서비스 제공 방법은 관리 서버가 복수의 인공지능 모델 중에서 사용자 반려동물의 품종에 대한 사전 학습데이터를 이용하여 사전 학습을 완료한 인공지능 모델을 선택하는 단계를 더 포함할 수 있으며, 학습 단계는 업로드된 의사 또는 감정별 소리 데이터로 선택된 인공지능 모델을 추가로 학습시킬 수 있다.
개시된 바에 따르면, 심층 신경회로망 머신러닝 기반의 인공지능을 이용하여 사용자가 반려동물에게 전달하고자 하는 의사나 감정을 반려동물이 이해할 수 있는 소리로 용이하게 재현하는 것이 가능해진다.
도 1은 일 실시예에 따른 반려동물 소리 서비스 제공 시스템 블록도이다.
도 2는 일 실시예에 따른 사용자 반려동물용 인공지능 모델을 학습시키기 위한 학습데이터를 정제하고 가공하여 생성하는 시스템 블록도이다.
도 3은 일 실시예에 따른 학습데이터로 사용자 반려동물용 인공지능 모델을 학습시킨 후에, 학습이 완료된 인공지능 모델이 포함된 추론 시스템(Inference System)을 통해서 반려동물 소리를 생성하는 시스템 블록도이다.
도 4는 일 실시예에 따른 사용자 반려동물용 인공지능 모델의 제공 과정을 나타낸 흐름도이다.
도 5는 일 실시예에 따른 사용자 반려동물 소리 재현 과정을 나타낸 흐름도이다.
도 6은 다른 실시예에 따른 사용자 반려동물 소리 재현 과정을 나타낸 흐름도이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 사용자 반려동물 맞춤형 소통 시스템 블록도이다. 도 1에 도시된 바와 같이, 사용자 반려동물 맞춤형 소통 시스템은 사용자 단말(100)과 관리 서버(300)를 포함할 수 있다. 아니면 사용자 반려동물 맞춤형 소통 시스템은 관리 서버(300)만을 의미할 수 있으며, 관리 서버(300)와 사용자 단말(100)에 설치되어 실행되는 반려동물 소통 애플리케이션(이하 ‘반려동물 앱’이라 한다)(200)을 포함하는 것일 수도 있다. 그리고 사용자 단말(100)과 관리 서버(300)는 네트워크를 통해 데이터 통신이 가능하다. 네트워크에는 복수의 이종 네트워크들이 포함될 수 있으며, 복수의 통신 프로토콜들을 지원할 수 있다. 예를 들어, 네트워크는 TCP/IP, IPX, SPX, NetBIOS, 이더넷, ARCNET, Fiber Distributed Data Interface(FDDI), IEEE 802.11, IEEE 802.11a 및 직접 동기화 연결 등의 통신 프로토콜들 중 적어도 일부를 지원한다. 사용자 단말(100)과 관리 서버(300)는 이 같은 네트워크를 통해 데이터 통신을 수행할 수 있다.
사용자 단말(100)은 컴퓨팅 기능을 가진 통신 단말로서, 스마트폰 등의 모바일 단말일 수 있다. 사용자 단말(100)은 반려동물 앱(200)을 포함한다. 반려동물 앱(200)은 사용자와 사용자의 반려동물 간에 소통이 이루어지도록 하는 서비스를 제공한다. 관리 서버(300)는 웹 서버, 웹 애플리케이션 서버(Web Application Server, WAS), 데이터베이스 서버, 심층 신경회로망 머신러닝(Deep Neural Network Machine Learning) 학습 서버(Training Server), 심층 신경회로망 머신러닝 추론 서버(Inference Server) 등을 포함하여 구성되는 서버 시스템일 수 있다. 관리 서버(300)는 윈도우 계열 운영체제나 MacOS, 자바, 유닉스 (UNIX) 또는 리눅스(LINUX)를 포함하거나, 이에 포함되지 않은 다양한 운영체제 하에서 운영될 수 있다. 관리 서버(300)는 반려동물 앱(200)과 연동하여 사용자에게 반려동물과의 소통을 위한 서비스와 인공지능 모델을 제공한다.
도 2는 일 실시예에 따른 사용자 반려동물용 인공지능 모델을 학습시키기 위한 학습데이터를 정제하고 가공하여 생성하는 시스템 블록도이다. 도 2에 도시된 바와 같이, 관리 서버(300)로 업로드된 사용자 반려동물의 의사 또는 감정별 소리 데이터는 의사 또는 감정을 표현하는 글자와 글자에 대응하는 반려동물의 소리가 함께 묶고 분류되어, 심층 신경회로망 머신러닝 기반의 인공지능 모델을 학습시키기 위한 학습데이터로 정제되고 가공된다. 관리 서버(300)가 학습데이터를 정제하고 가공할 때, 반려동물의 의사 또는 감정별 소리 데이터를 의사 또는 감정을 표현하는 글자와 더불어, 소리의 음높이(pitch), 소리의 지속시간(duration), 소리의 반복(repetition) 횟수 등과 함께 묶고 분류해서, 심층 신경회로망 머신러닝 기반의 인공지능 모델을 학습시키기 위한 학습데이터로 정제하고 가공할 수 있다.
도 3은 일 실시예에 따른 학습데이터로 사용자 반려동물용 인공지능 모델을 학습시킨 후에, 학습이 완료된 인공지능 모델이 포함된 추론 시스템(inference system)을 통해서 반려동물 소리를 생성하는 시스템 블록도이다. 도 3에 도시된 바와 같이, 정제되고 가공된 학습데이터들이 심층 신경회로망 머신러닝 기반의 인공지능 모델에 입력되어 학습이 이루어진다. 이때, 학습데이터는 반려동물의 소리와 그 소리에 대응하는 의사/감정 글자, 소리의 음높이(pitch), 소리의 지속시간(duration), 소리의 반복(repetition) 횟수 등으로 구성될 수 있다. 학습이 완료되면, 인공지능 모델이 포함된 추론 시스템(inference system)이 구성되며, 사용자가 나타내고자 하는 의사/감정 글자를 입력하면 심층 신경회로망 머신러닝 기반의 인공지능 모델 추론 시스템에 의해서 반려동물의 소리가 생성된다. 이 때, 추론 시스템은 나타내고자 하는 의사/감정 글자에 대응하는 소리와 소리의 음높이(pitch), 소리의 지속시간(duration), 소리의 반복(repetition) 횟수 등을 함께 생성할 수 있다.
나아가, 이러한 인공지능 모델 추론 시스템은 GAN(Generative Adversarial Networks) 모델을 이용할 수 있다. 이러한 GAN 모델은 생성자와 분류자의 쌍을 통해서 정교화된 신규 데이터를 생성하기 위한 것으로, 반려동물의 소리에 대한 정보를 학습하여 유사한 특징을 가지는 새로운 데이터를 생성할 수 있다. 따라서, 이러한 GAN 모델을 적용할 경우 소리와 음높이, 소리의 지속시간, 소리의 반복 및 이에 대응되는 의사/감정 글자로 구분되는 학습 내용 분류 내에서도 반려동물 소리 특유의 특성을 파악할 수 있으며, GAN 모델을 통해서 실제와 유사한 반려동물의 소리를 생성할 수 있게 된다. 예컨대, "산책가요"에 해당하는 다양한 종류의 반려동물의 소리를 학습하여 실제로 제공하고자 하는 소리를 자신의 반려동물이 내는 소리와 유사하게 만들어 준다거나, 사용자가 지정한 기준에 맞추어 변형하여 만들어 줄 수 있으며, 해당 반려동물에 대한 학습이 완료되지 않거나 학습 내용이 적은 경우에도 타 반려동물을 통해 학습한 내용을 토대로 학습이 완료되지 않거나 학습 내용이 적은 반려동물의 소리를 만들어 낼 수도 있다.
도 4 내지 도 6은 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법에 대한 흐름 예시도이다. 먼저, 도 4에 대해 설명한다. 도 4는 일 실시예에 따른 사용자 반려동물용 인공지능 모델의 제공 과정을 나타낸 흐름도이다. 반려동물 앱(200)은 사용자 조작에 의해 실행되어 사용자 명령에 따라 관리 서버(300)로 반려동물 리스트를 요청하며(S100), 관리 서버(300)는 반려동물 리스트를 반려동물 앱(200)으로 제공한다(S105). 반려동물 리스트에는 개, 고양이 등이 항목으로 포함된다. 반려동물 앱(200)은 반려동물 리스트를 수신하고 화면에 표시하여 사용자로 하여금 자신의 반려동물 종류를 선택할 수 있도록 한다. 다른 예로, 반려동물 앱(200)은 반려동물 리스트를 미리 가지고 있어 관리 서버(300)에 요청할 필요 없이 반려동물 리스트를 화면 표시한다.
사용자는 반려동물 리스트에서 반려동물 항목을 선택하는데, 자신의 반려동물이 개인 경우에는 반려동물 리스트에서 개를 선택하는 것이다. 반려동물 리스트에서 반려동물 항목이 선택되면, 반려동물 앱(200)은 관리 서버(300)로 반려동물 선택 정보를 전달한다(S110). 선택된 반려동물이 확인되면, 관리 서버(300)는 반려동물 앱(200)으로 사용자 반려동물의 이미지를 요청한다(S115). 이에 반려동물 앱(200)은 사용자에게 반려동물 이미지 요청이 있음을 알리며, 사용자는 자신의 반려동물을 촬영하거나 기저장된 자신의 반려동물 이미지를 선택한다. 반려동물 앱(200)은 촬영 또는 선택된 반려동물 이미지를 관리 서버(300)로 전달하며, 관리 서버(300)는 전달된 반려동물 이미지를 분석하여 사용자 반려동물의 품종을 확인한다. 참고로, 견종으로는 푸들, 진돗개, 말티즈, 시츄, 요크셔테리어, 치와와, 페모라니안, 삽살개, 시베리안 허스키 등이 있으며, 관리 서버(300)는 반려동물 이미지 분석을 통해 어떤 견종인지를 확인하는 것이다. 다른 예로, 관리 서버(300)는 반려동물 앱(200)으로 품종 리스트를 제시하면서 품종을 선택토록 할 수도 있으며, 품종 리스트는 반려동물 리스트에 반영되어 함께 제시될 수도 있다.
관리 서버(300)는 사용자 반려동물의 의사 또는 감정별 소리를 녹음하여 업로드할 것을 반려동물 앱(200)으로 요청한다(S130). 이때, 관리 서버(300)는 반려동물이 표현할 수 있는 모든 의사 또는 감정별 소리를 모두 녹음하여 업로드할 것을 요청하는 것이 아니라, 일부 의사 또는 감정별 소리를 녹음하여 업로드할 것을 요청한다. 이에 반려동물 앱(200)은 일부 의사 또는 감정별 사용자 반려동물의 소리를 녹음하여 업로드한다. 여기서, 일부 의사/감정은 반려동물별로 상이할 수 있으며, 반려동물의 품종별로도 상이할 수 있다. 이는 반려동물별로 그리고 같은 종류의 반려동물이라 하더라도 품종별로 특성이 상이하여 주로 표현하는 의사나 감정이 다르다는 점을 고려한 것이다.
일 실시예에 있어서, 반려동물 또는 품종별 일부 의사/감정 정보는 데이터베이스에 저장되어 있으며, 관리 서버(300)는 사용자 반려동물 또는 사용자 반려동물의 품종에 매핑된 일부 의사 또는 감정 정보를 데이터베이스에서 검색하여 반려동물 앱(200)으로 전달하면서 사용자 반려동물의 소리를 녹음하여 업로드할 것을 반려동물 앱(200)으로 요청한다. 요청을 확인한 사용자는 관리 서버(300)로부터 전달된 의사/감정 정보에 속하는 의사/감정 항목들을 확인하고, 자신의 반려동물이 확인된 의사/감정 항목에 대응되는 소리를 내는 것으로 판단하면 반려동물 앱(200)을 작동시켜 소리 녹음 및 업로드를 명령하며, 반려동물 앱(200)은 그 명령에 따라 해당 항목에 대한 반려동물의 소리를 녹음한 후에 그 녹음된 소리 데이터를 업로드한다(S135). 이 같은 방식으로 일부 의사/감정 정보에 속하는 모든 항목에 대해 반려동물의 소리가 녹음되고 업로드될 수 있다. 그리고 일부 의사/감정 정보에 속하는 항목은 일정 개수 이하일 수 있다. 예를 들어, 일부 의사/감정 정보는 “배고파요”, “소변이 마려워요”, “산책가요” 항목들로 이루어진다.
관리 서버(300)는 반려동물 앱(200)에 요청한 의사/감정 정보에 대한 모든 소리 데이터가 업로드되면 그 업로드된 모든 소리 데이터를 심층 신경회로망 머신러닝 기반의 인공지능 모델이 학습할 수 있는 데이터로 가공 및 정제한 후에 그 학습 데이터로 인공지능 모델을 학습시킨다(S140). 관리 서버(300)는 소리 데이터를 정제하고 가공하여 학습데이터로 생성할 때, 반려동물의 의사 또는 감정별 소리 데이터를 의사 또는 감정을 표현하는 글자와 더불어, 소리의 음높이(pitch), 소리의 지속시간(duration), 소리의 반복(repetition) 횟수 등과 함께 묶고 분류해서, 심층 신경회로망 머신러닝 기반의 인공지능 모델을 학습시키기 위한 학습데이터로 정제하고 가공할 수 있다.
일 실시예에 있어서, 관리 서버(300)는 사전에 미리 충분히 많은 양의 학습 데이터(사전 학습 데이터)를 이용하여 학습이 완료된 인공지능 모델들 중에서 사용자 반려동물 또는 사용자 반려동물의 품종에 해당하는 인공지능 모델을 선택하고, 그 선택된 인공지능 모델을, 반려동물 앱(200)으로부터 업로드된 후 정제되고 가공된 학습데이터로 추가 학습시킨다. 학습이 완료되면, 관리 서버(300)는 그 인공지능 모델을 반려동물 앱(200)으로 전송한다(S145).
이상의 도 4의 절차들 중에서 일부는 생략될 수 있다. 예를 들어, S100 내지 S125 중에서 적어도 일부는 생략 가능하다. 또한, 단계들의 선후도 뒤바뀔 수 있다. 한편, 소리 데이터를 가공 및 정제함에 있어서, 녹음된 소리를 적절한 비율로 학습(training)용과 검증(validation)용 및 테스트(test)용으로 가공하고 정제할 수 있다. 그리고 소리 데이터를 가공하고 정제하는 것은 관리 서버(300)가 아니라 반려동물 앱(200)에서 수행될 수도 있다. 즉, 반려동물 앱(200)이 녹음된 소리 데이터를 업로드하기 전에 심층 신경회로망 머신러닝 기반의 인공지능 모델이 학습할 수 있는 데이터로 가공하고 정제한 후에 업로드할 수 있다.
도 5는 일 실시예에 따른 사용자 반려동물 소리 재현 과정을 나타낸 흐름도이다. 사용자가 반려동물에게 의사나 감정을 표현하고자 반려동물 앱(200)을 조작하면, 반려동물 앱(200)은 반려동물에게 표현할 수 있는 의사/감정 리스트를 제시한다. 의사/감정 리스트에는 “산책가요”, “밥먹어요” 등과 같은 의사/감정 항목들이 포함된다. 사용자가 어느 하나의 항목을 선택하면, 반려동물 앱(200)은 선택된 항목에 해당하는 반려동물 소리를 인공지능 모델을 이용하여 생성한 후에 스피커를 통해 출력한다. 이를 통해, 사용자가 반려동물에게 표현하고자 하는 바를 반려동물이 인지할 수 있는 소리로 재현할 수 있다.
도 6은 다른 실시예에 따른 사용자 반려동물 소리 재현 과정을 나타낸 흐름도이다. 반려동물 앱(200)은 사용자로부터 음성을 입력받으며(S300), 입력된 음성을 분석하여 텍스트로 변환한다(S310). 반려동물 앱(200)은 텍스트에 해당하는 반려동물 소리를 인공지능 모델을 이용하여 생성한 후에 스피커를 통해 출력한다(S320). 일 실시예에 있어서, 반려동물 앱(200)은 의사/감정 리스트에 속한 의사/감정 항목들 중에서 변환된 텍스트에 대응되는 항목이 있는지 파악하며, 파악 결과 대응되는 항목이 존재할 경우에 그 대응 항목에 해당하는 반려동물 소리를 인공지능 모델을 이용하여 생성한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 사용자 단말 200 : 반려동물 앱
300 : 관리 서버

Claims (1)

  1. 관리 서버는 사용자 단말에서 실행되는 반려동물 애플리케이션으로 사용자 반려동물의 의사 또는 감정별 소리 녹음 및 업로드를 요청하는 단계;
    반려동물 애플리케이션은 요청된 의사 또는 감정별 녹음된 사용자 반려동물의 소리 데이터를 관리 서버로 업로드하는 단계;
    관리 서버는 학습 완료한 인공지능 모델을 반려동물 애플리케이션으로 제공하는 단계; 및
    반려동물 애플리케이션은 사용자 입력에 해당하는 반려동물용 소리를 인공지능 모델을 이용해 생성하여 스피커를 통해 출력하는 단계;
    를 포함하는 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법.
KR1020190113578A 2018-10-04 2019-09-16 인공지능을 이용한 반려동물 소통 서비스 제공 방법 KR102442529B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020180118401 2018-10-04
KR20180118401 2018-10-04
KR1020190008639A KR102023649B1 (ko) 2018-10-04 2019-01-23 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190008639A Division KR102023649B1 (ko) 2018-10-04 2019-01-23 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법

Publications (2)

Publication Number Publication Date
KR20200038849A true KR20200038849A (ko) 2020-04-14
KR102442529B1 KR102442529B1 (ko) 2022-09-13

Family

ID=68067316

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190008639A KR102023649B1 (ko) 2018-10-04 2019-01-23 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법
KR1020190113578A KR102442529B1 (ko) 2018-10-04 2019-09-16 인공지능을 이용한 반려동물 소통 서비스 제공 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020190008639A KR102023649B1 (ko) 2018-10-04 2019-01-23 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법

Country Status (3)

Country Link
US (1) US20210383217A1 (ko)
KR (2) KR102023649B1 (ko)
WO (1) WO2020071696A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230086541A (ko) * 2021-12-08 2023-06-15 김진호 인공지능을 이용한 동물 음성 분석 장치 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102023649B1 (ko) * 2018-10-04 2019-09-20 임성기 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법
KR20220059841A (ko) 2020-11-03 2022-05-10 주식회사 케이티 영상 기반의 동물 감정 분석 서버, 방법 및 컴퓨터 프로그램
WO2023084291A1 (en) * 2021-11-12 2023-05-19 Bagheri Hamed Ai-based organization management

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101785888B1 (ko) * 2017-01-18 2017-10-17 이동환 이종동물 양방향 커뮤니케이션 서비스 제공 방법
KR20180084542A (ko) 2017-01-17 2018-07-25 양한성 애완동물 소통 방법
KR20180090637A (ko) * 2017-02-03 2018-08-13 주식회사 창의산업 고양이와의 의사소통을 위한 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
JP2004212544A (ja) * 2002-12-27 2004-07-29 Casio Comput Co Ltd 音声分析結果送信装置、動物用端末装置、音声分析結果表示装置及びプログラム
KR20060081759A (ko) * 2005-01-10 2006-07-13 주식회사 앳누리 휴대 전화를 이용한 개 감정분석 시스템
KR102023649B1 (ko) * 2018-10-04 2019-09-20 임성기 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180084542A (ko) 2017-01-17 2018-07-25 양한성 애완동물 소통 방법
KR101785888B1 (ko) * 2017-01-18 2017-10-17 이동환 이종동물 양방향 커뮤니케이션 서비스 제공 방법
KR20180090637A (ko) * 2017-02-03 2018-08-13 주식회사 창의산업 고양이와의 의사소통을 위한 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230086541A (ko) * 2021-12-08 2023-06-15 김진호 인공지능을 이용한 동물 음성 분석 장치 및 방법

Also Published As

Publication number Publication date
WO2020071696A1 (ko) 2020-04-09
US20210383217A1 (en) 2021-12-09
KR102023649B1 (ko) 2019-09-20
KR102442529B1 (ko) 2022-09-13

Similar Documents

Publication Publication Date Title
KR102023649B1 (ko) 심층 신경회로망 머신러닝 기반의 인공지능을 이용한 반려동물 소리 서비스 제공 방법
Bergler et al. ORCA-SPOT: An automatic killer whale sound detection toolkit using deep learning
CN110023926A (zh) 使用文本输入和用户状态信息生成要呈现的回复内容以响应文本输入
EP3493032A1 (en) Robot control method and companion robot
KR102185469B1 (ko) 인공지능을 이용한 반려동물 감성봇 장치 및 이를 이용한 교감 방법
CN109710748B (zh) 一种面向智能机器人的绘本阅读交互方法和系统
JP2017194782A (ja) 情報処理装置及び情報処理方法
CN108737324B (zh) 生成人工智能服务组件的方法、装置及相关设备、系统
JP6751816B2 (ja) 新規学習データセット生成方法および新規学習データセット生成装置
CN106991115A (zh) 向用户提供经适配的学习信息的方法和设备
US11823439B2 (en) Training machine-learned models for perceptual tasks using biometric data
Janning et al. Perceived task-difficulty recognition from log-file information for the use in adaptive intelligent tutoring systems
CN117079299B (zh) 数据处理方法、装置、电子设备及存储介质
JP2021533489A (ja) フィードバックを収集するためのコンピュータ実装システム及び方法
CN114048299A (zh) 对话方法、装置、设备、计算机可读存储介质及程序产品
Origlia et al. FANTASIA: a framework for advanced natural tools and applications in social, interactive approaches
Rincon et al. Using emotions for the development of human-agent societies
Hou et al. AI-based soundscape analysis: Jointly identifying sound sources and predicting annoyance
KR102120936B1 (ko) 스마트 단말의 기능을 탑재한 캐릭터 인형 제작 서비스 제공 시스템
US11658928B2 (en) Virtual content creation method
Talbot et al. Perceptive Patient: Important Factors for Practical Emotion Sensing in Conversational Human-Computer: Interactions and Simulations
JP2020177367A (ja) エッジ主導型協働aiのためのコンピュータシステム、そのためのプログラム及び方法
JP6930781B1 (ja) 学習方法、及びコンテンツ再生装置
CN116992867B (zh) 一种基于软提示主题建模的抑郁情绪检测方法及系统
Ananthabhotla Cognitive Audio: Enabling Auditory Interfaces with an Understanding of How We Hear

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant