KR20200040625A - 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법 - Google Patents

사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법 Download PDF

Info

Publication number
KR20200040625A
KR20200040625A KR1020180120779A KR20180120779A KR20200040625A KR 20200040625 A KR20200040625 A KR 20200040625A KR 1020180120779 A KR1020180120779 A KR 1020180120779A KR 20180120779 A KR20180120779 A KR 20180120779A KR 20200040625 A KR20200040625 A KR 20200040625A
Authority
KR
South Korea
Prior art keywords
user
user terminal
information
various embodiments
images
Prior art date
Application number
KR1020180120779A
Other languages
English (en)
Inventor
최유리
이가희
한민석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180120779A priority Critical patent/KR20200040625A/ko
Priority to US16/596,083 priority patent/US11443738B2/en
Priority to CN201910953329.2A priority patent/CN111107218B/zh
Priority to PCT/KR2019/013283 priority patent/WO2020076089A1/en
Publication of KR20200040625A publication Critical patent/KR20200040625A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법이 제공된다. 본 문서의 다양한 실시예들에 따른 사용자 단말은, 상기 사용자 단말의 일부분이거나 상기 사용자 단말과 원격으로 통신하는 적어도 하나의 프로세서, 및 상기 사용자 단말 상에 또는 상기 사용자 단말의 외부에 위치하여, 상기 적어도 하나의 프로세서와 동작 가능하도록 연결된 메모리를 포함하고, 상기 메모리는, 실행 시에, 상기 적어도 하나의 프로세서가, 사용자의 발화를 수신하고, 상기 사용자의 발화는 복수의 이미지들을 분류하기 위한 제1 단어를 포함하고, 상기 통신 회로를 이용하여 외부 전자 장치로 상기 수신된 사용자의 발화에 대한 정보를 전송하고, 상기 전송에 기반하여, 상기 외부 전자 장치로부터 상기 사용자의 발화와 관련된 동작 정보를 수신하여 상기 수신된 동작 정보에 따른 태스크(task)를 수행하도록 설정된 인스트럭션들을 저장하도록 설정되고, 상기 동작 정보는, 상기 적어도 하나의 제1 단어 및 상기 적어도 하나의 제1 단어에 따라 분류된 복수의 이미지들의 속성 정보를 나타내는 적어도 하나의 제2 단어를 제공하는 동작을 포함할 수 있다.

Description

사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법{AN ELECTRONIC DEVICE WHICH IS PROCESSING USER'S UTTERANCE AND CONTROL METHOD THEREOF}
본 문서는, 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법에 관한 것이다.
전자 장치, 예를 들어, 스마트 폰과 같은 휴대용 전자 장치를 통해 제공되는 다양한 서비스 및 부가 기능들이 점차 증가하고 있다. 이러한 전자 장치의 효용 가치를 높이고, 다양한 사용자들의 욕구를 만족시키기 위해서 통신 서비스 제공자 또는 전자 장치 제조사들은 다양한 기능들을 제공하고 다른 업체와의 차별화를 위해 전자 장치를 경쟁적으로 개발하고 있다. 이에 따라, 전자 장치를 통해서 제공되는 다양한 기능들도 점점 고도화 되고 있다.
전자 장치(예: 스마트 폰)의 사용자는 지능형 어플리케이션(예: 삼성 빅스비)에 의하여 제공되는 서비스를 이용하기 위하여 발화(예: "어제 찍은 사진 보여줘")를 입력할 수 있다. 지능형 어플리케이션은, 이와 같은 사용자의 발화에 따라 지능형 서비스를 제공(예: 어제 찍은 사진을 정렬하여 디스플레이)할 수 있다. 지능형 서비스의 다양화에 따라, 지능형 어플리케이션을 이용하는 사용자는 지능형 서비스를 통하여 감성적인 만족을 느끼기를 원한다. 이와 같은 사용자들의 요구에 따라, 사용자가 요구한 기능의 제공을 넘어, 사용자의 감성적인 측면의 만족을 고려한 기술의 개발이 요청된다.
본 문서의 다양한 실시예들에 따르면, 사용자가 요청한 검색 조건 이외의 정보를 추가적으로 제공함으로써, 지능형 서비스를 제공받는 사용자가 감성적인 측면까지도 만족감을 느낄 수 있도록 할 수 있는 전자 장치가 개시된다.
본 문서의 다양한 실시예들에 따르면, 사용자가 요청한 검색 조건 이외의 정보를 추가적으로 제공함으로써, 지능형 서비스를 제공받는 사용자가 감성적인 측면까지도 만족감을 느낄 수 있도록 할 수 있는 전자 장치의 제어 방법이 개시된다.
본 문서의 다양한 실시예들에 따른 전자 장치는, 상기 전자 장치의 일부분이거나 상기 전자 장치와 원격으로 통신하는 적어도 하나의 프로세서, 및 상기 전자 장치 상에 또는 상기 전자 장치의 외부에 위치하여, 상기 적어도 하나의 프로세서와 동작 가능하도록 연결된 메모리를 포함하고, 상기 메모리는, 실행 시에, 상기 적어도 하나의 프로세서가, 사용자의 발화를 수신하고, 상기 사용자의 발화는 복수의 이미지들을 분류하기 위한 제1 단어를 포함하고, 상기 통신 회로를 이용하여 외부 전자 장치로 상기 수신된 사용자의 발화에 대한 정보를 전송하고, 상기 전송에 기반하여, 상기 외부 전자 장치로부터 상기 사용자의 발화와 관련된 동작 정보를 수신하여 상기 수신된 동작 정보에 따른 태스크(task)를 수행하도록 설정된 인스트럭션들을 저장하도록 설정되고, 상기 동작 정보는, 상기 적어도 하나의 제1 단어 및 상기 적어도 하나의 제1 단어에 따라 분류된 복수의 이미지들의 속성 정보를 나타내는 적어도 하나의 제2 단어를 제공하는 동작을 포함할 수 있다.
본 문서의 다양한 실시예들에 따른 전자 장치의 제어 방법은, 사용자의 발화를 수신하는 동작과, 상기 사용자의 발화는 복수의 이미지들을 분류하기 위한 제1 단어를 포함하고, 상기 전자 장치의 통신 회로를 이용하여, 외부 전자 장치로 상기 수신된 사용자의 발화에 대한 정보를 전송하는 동작과, 및 상기 전송에 기반하여, 상기 외부 전자 장치로부터 상기 사용자의 발화와 관련된 동작 정보를 수신하여 상기 수신된 동작 정보에 따른 태스크를 수행하는 동작을 포함하고, 상기 동작 정보는, 상기 적어도 하나의 제1 단어 및 상기 적어도 하나의 제1 단어에 따라 분류된 복수의 이미지들의 속성 정보를 나타내는 적어도 하나의 제2 단어를 제공하는 동작을 포함할 수 있다.
본 문서의 다양한 실시예들에 따른 전자 장치는, 상기 전자 장치의 일부분이거나 상기 전자 장치와 원격으로 통신하는 적어도 하나의 프로세서, 및 상기 전자 장치 상에 또는 상기 전자 장치의 외부에 위치하여, 상기 적어도 하나의 프로세서와 동작 가능하도록 연결된 메모리를 포함하고, 상기 메모리는, 실행 시에, 상기 적어도 하나의 프로세서가, 사용자의 발화를 수신하고, 상기 사용자의 발화는 복수의 이미지들을 분류하기 위한 제1 단어를 포함하고, 상기 발화의 수신에 기반하여, 상기 사용자의 발화와 관련된 태스크를 수행하도록 설정된 인스트럭션들을 저장하도록 설정되고, 상기 태스크는, 상기 적어도 하나의 제1 단어 및 상기 적어도 하나의 제1 단어에 따라 분류된 복수의 이미지들의 속성 정보를 나타내는 적어도 하나의 제2 단어를 제공하는 태스크를 포함할 수 있다.
사용자가 요청한 검색 조건 이외의 정보를 추가적으로 제공함으로써, 지능형 서비스를 제공받는 사용자가 감성적인 측면까지도 만족감을 느낄 수 있도록 할 수 있는 지능형 서비스가 제공될 수 있다.
다양한 실시예들에 따른 효과는 상기 기술된 효과로 제한되지 아니하며, 다양한 효과가 본 문서 상에 내재되어 있음은 통상의 기술자에게 자명하다.
도 1은, 통합 지능화 시스템을 설명하기 위한 도면이다.
도 2a 및 도 2b는, 통합 지능화 시스템의 사용자 단말을 설명하기 위한 블록도이다.
도 3은, 사용자 단말의 지능형 앱을 실행시키는 동작을 설명하기 위한 예시 도면이다.
도 4는, 통합 지능화 시스템의 지능형 서버를 설명하기 위한 블록도이다.
도 5는, 지능형 서비스 모듈의 컨텍스트 모듈이 현재 상태를 수집하는 동작을 설명하기 위한 예시 도면이다.
도 6은, 패스 플래너 모듈(path planner module)이 패스 룰(path rule)을 생성하는 방법을 설명하기 위한 예시 도면이다.
도 7 내지 도 8f는, 사용자 발화에 포함된 검색 조건 이외의 부가 정보를 제공하는 동작을 설명하기 위한 예시 도면이다.
도 9a 내지 도 9d는, 사용자의 발화에 따라 검색된 이미지에 포함된 객체 중에서 특정한 표정을 가지는 인물의 일부 영역을 다른 그래픽컬 객체(graphical object) 로 변경하여 디스플레이 하는 동작을 설명하기 위한 예시 도면이다.
도 10a 내지 도 10c는, 사용자의 발화에 따라 검색된 이미지에 기반하여 제1 부가 정보 및 제2 부가 정보를 제공하는 동작을 설명하기 위한 예시 도면이다.
도 11a 내지 도 11f는, 사용자의 발화에 따라 검색된 이미지 상에, 이미지와 관련된 부가 설명을 추가적으로 디스플레이 하는 동작을 설명하기 위한 예시 도면이다.
도 12a 내지 도 12d는, 사용자의 발화에 따라 검색된 이미지를 지정된 감정 상태 별로 분류하여 디스플레이 하는 동작을 설명하기 위한 예시 도면이다.
도 13a 내지 도 13e는, 사용자의 발화에 따라 검색된 이미지를 특정한 감정 상태에 따라 선택적으로 디스플레이 하는 동작을 설명하기 위한 예시 도면이다.
도 14a 내지 도 14d는, 사용자의 발화에 따라 검색된 이미지에 특정한 시각적 효과를 부가하거나 검색된 이미지와 대응하는 다른 이미지로 변경하여 디스플레이 하는 동작을 설명하기 위한 예시 도면이다.
도 15a 내지 도 15c는, 사용자의 발화에 따라 검색된 이미지 중에서 특정한 감정 상태를 가지는 적어도 하나의 이미지를 삭제하는 동작을 설명하기 위한 예시 도면이다.
도 16a 내지 도 16c는, 사용자 단말에 대한 사용자의 근접 또는 사용자의 시선을 식별하여 지정된 문장을 출력하는 동작을 설명하기 위한 예시 도면이다.
도 17a 및 도 17b는, 사용자의 시선 또는 사용자의 발화에 기반하여 실행 중인 지능형 어플리케이션의 실행을 유지하는 동작을 설명하기 위한 예시 도면이다.
도 18a 및 도 18b는, 사용자의 시선 또는 사용자의 발화에 기반하여 실행 중인 지능형 어플리케이션의 실행을 종료하는 동작을 설명하기 위한 예시 도면이다.
도 19a 내지도 19c는, 임의의 사용자 발화에 기반하여 사용자의 음성을 등록하는 동작을 설명하기 위한 예시 도면이다.
도 20a 내지 도 20c는, 제1 사용자가 지능형 어플리케이션을 사용하는 중에 제2 사용자의 발화가 입력된 경우, 제1 사용자의 발화 및 제2 사용자의 발화를 함께 처리하는 동작을 설명하기 위한 예시 도면이다.
도 1은, 통합 지능화 시스템을 설명하기 위한 예시 도면이다.
도 1을 참조하면, 통합 지능화 시스템(10)은 사용자 단말(100), 지능형 서버(200), 개인화 정보 서버(300) 또는 제안 서버(400)를 포함할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자 단말(100) 내부에 저장된 앱(app)(또는, 어플리케이션 프로그램(application program))(예: 알람 앱, 메시지 앱, 사진(갤러리) 앱 등)을 통해 사용자에게 필요한 서비스를 제공할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 사용자 단말(100) 내부에 저장된 지능형 앱(또는, 음성 인식 앱)을 통해 다른 앱을 실행하고 동작시킬 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)의 상기 지능형 앱을 통해 상기 다른 앱의 실행하고 동작을 실행시키기 위한 사용자 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 입력은, 예를 들어, 물리적 버튼, 터치 패드, 음성 입력, 원격 입력 등을 통해 수신될 수 있다. 다양한 실시예들에 따르면, 사용자 단말(100)은 휴대폰, 스마트폰, PDA(personal digital assistant) 또는 노트북 컴퓨터 등 인터넷에 연결 가능한 각종 단말 장치(또는, 전자 장치)가 이에 해당될 수 있다.
본 문서의 다양한 실시예들에 따르면, 사용자 단말(100)은 사용자의 발화를 사용자 입력으로 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 사용자의 발화를 수신하고, 상기 사용자의 발화에 기초하여 앱을 동작시키는 명령을 생성할 수 있다. 이에 따라, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 상기 명령을 이용하여 상기 앱을 동작시킬 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는 통신망을 통해 사용자 단말(100)로부터 사용자 음성 입력(voice input)을 수신하여 텍스트 데이터(text data)로 변경할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는 상기 텍스트 데이터에 기초하여 패스 룰(path rule)을 생성(또는, 선택)할 수 있다. 본 문서의 다양한 실시예들에 따른 패스 룰은 앱의 기능을 수행하기 위한 동작(action)(또는, 오퍼레이션(operation))에 대한 정보 또는 상기 동작을 실행하기 위해 필요한 파라미터에 대한 정보를 포함할 수 있다. 또한, 본 문서의 다양한 실시예들에 따른 패스 룰은 상기 앱의 상기 동작의 순서를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 상기 패스 룰을 수신하고, 상기 패스 룰에 따라 앱을 선택하고, 상기 선택된 앱에서 상기 패스 룰에 포함된 동작을 실행시킬 수 있다.
본 문서에서 언급되는 "패스 룰(path rule)" 이라는 용어는 일반적으로, 전자 장치가 사용자에 의해 요청된 태스크를 제공하기 위한 상태들의 시퀀스를 의미할 수 있지만, 이에 제한되지 않는다. 다시 말해, 본 문서의 다양한 실시예들에 따른 패스 룰은 상태들의 시퀀스에 대한 정보를 포함할 수 있다. 상기 태스크는, 예를 들어, 지능형 앱이 제공할 수 있는 어떠한 동작(action)일 수 있다. 상기 태스크는 일정을 생성하거나, 원하는 상대방에게 사진을 전송하거나, 날씨 정보를 제공하는 것을 포함 할 수 있다. 사용자 단말(100)은 적어도 하나 이상의 상태(예: 사용자 단말(100)의 동작 상태)를 순차적으로 갖음으로써, 상기 태스크를 제공할 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 룰은 인공 지능(artificial intelligent)(AI) 시스템에 의해 제공되거나, 생성될 수 있다. 인공지능 시스템은 룰 베이스 시스템(rule-based system) 일 수도 있고, 신경망 베이스 시스템(neual network-based system)(예: 피드포워드 신경망(feedforward neural network(FNN)), 순환 신경망(recurrent neural network(RNN))) 일 수도 있다. 또는 전술한 것의 조합 또는 이와 다른 인공지능 시스템일 수도 있다. 본 문서의 다양한 실시예들에 따르면, 패스 룰은 미리 정의된 패스 룰들의 집합에서 선택될 수 있거나, 사용자 요청에 응답하여 실시간으로 생성될 수 있다. 예를 들어, 인공지능 시스템은 미리 정의 된 복수의 패스 룰 중 적어도 패스 룰을 선택하거나, 동적(또는, 실시간)으로 패스 룰을 생성할 수 있다. 또한, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 패스 룰을 제공하기 위해 하이브리드 시스템을 사용할 수 있다.
본 문서의 다양한 실시예들에 따르면, 사용자 단말(100)은 상기 동작을 실행하고, 동작을 실행한 사용자 단말(100)의 상태에 대응되는 화면을 디스플레이에 표시할 수 있다. 본 문서의 다양한 실시예들에 따르면, 사용자 단말(100)은 상기 동작을 실행하고, 동작을 수행한 결과를 디스플레이에 표시하지 않을 수 있다. 사용자 단말(100)은, 예를 들어, 복수의 동작을 실행하고, 상기 복수의 동작의 일부 결과 만을 디스플레이에 표시할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 예를 들어, 마지막 순서의 동작을 실행한 결과만을 디스플레이에 표시할 수 있다. 또 다른 예를 들어, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 사용자의 입력을 수신하여 상기 동작을 실행한 결과를 디스플레이에 표시할 수 있다.
본 문서의 다양한 실시예들에 따른 개인화 정보 서버(300)는 사용자 정보가 저장된 데이터베이스를 포함할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 개인화 정보 서버(300)는 사용자 단말(100)로부터 사용자 정보(예: 컨텍스트 정보, 앱 실행 등)를 수신하여 상기 데이터베이스에 저장할 수 있다. 지능형 서버(200)는 통신망을 통해 개인화 정보 서버(300)로부터 상기 사용자 정보를 수신하여 사용자 입력에 대한 패스 룰을 생성하는 경우에 이용할 수 있다. 본 문서의 다양한 실시예들에 따르면, 사용자 단말(100)은 통신망을 통해 개인화 정보 서버(300)로부터 사용자 정보를 수신하여 데이터베이스를 관리하기 위한 정보로 이용할 수 있다.
본 문서의 다양한 실시예들에 따른 제안 서버(400)는 단말 내에 기능 혹은 어플리케이션의 소개 또는 제공될 기능에 대한 정보가 저장된 데이터베이스를 포함할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 제안 서버(400)는 개인화 정보 서버(300)로부터 사용자 단말기(100)의 사용자 정보를 수신하여 사용자가 사용 할 수 있는 기능에 대한 데이터베이스를 포함 할 수 있다. 사용자 단말(100)은 통신망을 통해 제안 서버(400)로부터 상기 제공될 기능에 대한 정보를 수신하여 사용자에게 정보를 제공할 수 있다.
도 2a 및 도 2b는, 통합 지능화 시스템의 사용자 단말(100)을 설명하기 위한 블록도이다.
도 2a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 디스플레이(120), 메모리(140) 및 프로세서(150) 중 적어도 하나를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 디스플레이(120)는, 터치스크린 디스플레이를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 디스플레이(120)는, 다양한 사용자 인터페이스를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 메모리(140)는 사용자 단말(100)의 적어도 하나의 구성요소(예: 프로세서(150))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 본 문서의 다양한 실시예들에 따른 적어도 하나의 프로세서(150)는, 소프트웨어를 실행하여 프로세서(150)에 연결된 사용자 단말(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다.
도 2b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 입력 모듈(110), 디스플레이(120), 스피커(130), 메모리(140) 또는 프로세서(150)을 포함할 수 있다. 사용자 단말(100)은 하우징을 더 포함할 수 있고, 상기 사용자 단말(100)의 구성들은 상기 하우징의 내부에 안착되거나 하우징 상에(on the housing) 위치할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 상기 하우징의 내부에 위치한 통신 회로를 더 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 상기 통신 회로를 통해 외부 서버(예: 지능형 서버(200))와 데이터(또는, 정보)를 송수신할 수 있다.
본 문서의 다양한 실시예들에 따른, 입력 모듈(110)은 사용자로부터 사용자 입력을 수신할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 입력 모듈(110)은 연결된 외부 장치(예: 키보드, 헤드셋)로부터 사용자 입력을 수신할 수 있다. 다른 예를 들어, 본 문서의 다양한 실시예들에 따른 입력 모듈(110)은 디스플레이(120)와 결합된 터치 스크린(예: 터치 스크린 디스플레이)을 포함할 수 있다. 또 다른 예를 들어, 입력 모듈(110)은 사용자 단말(100)(또는, 사용자 단말(100)의 하우징)에 위치한 하드웨어 키(또는, 물리적 키)(112)를 포함할 수 있다.
본 문서의 다양한 실시예들에 따르면, 입력 모듈(110)은 사용자의 발화를 음성 신호로 수신할 수 있는 마이크를 포함할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 입력 모듈(110)은 발화 입력 시스템(speech input system)을 포함하고, 상기 발화 입력 시스템을 통해 사용자의 발화를 음성 신호로 수신할 수 있다. 상기 마이크는, 예를 들어, 하우징의 일부분(예: 제1 부분)을 통해 노출될 수 있다.
본 문서의 다양한 실시예들에 따른, 디스플레이(120)는 이미지나 비디오, 및/또는 어플리케이션의 실행 화면을 표시할 수 있다. 예를 들어, 디스플레이(120)는 앱의 그래픽 사용자 인터페이스(graphic user interface)(GUI)를 표시할 수 있다. 다양한 실시예들에 따르면, 디스플레이(120)는 하우징의 일부분(예: 제2 부분)을 통해 노출될 수 있다.
본 문서의 다양한 실시예들에 따르면, 스피커(130)는 음성 신호를 출력할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 스피커(130)는 사용자 단말(100) 내부에서 생성된 음성 신호를 외부로 출력할 수 있다. 다양한 실시예들에 따르면, 스피커(130)는 하우징의 일부분(예: 제3 부분)을 통해 노출될 수 있다.
본 문서의 다양한 실시예들에 따르면, 메모리(140)는 복수의 앱(또는, 어플리케이션 프로그램 application program))(141, 143)을 저장할 수 있다. 복수의 앱(141, 143)은, 예를 들어, 사용자 입력에 대응되는 기능을 수행하기 위한 프로그램(program)일 수 있다. 다양한 실시예들에 따르면, 메모리(140)는 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)을 저장할 수 있다. 지능형 에이전트(145), 실행 매니저 모듈(147) 및 지능형 서비스 모듈(149)은, 예를 들어, 수신된 사용자 입력(예: 사용자 발화)을 처리하기 위한 프레임워크(framework)(또는, 어플리케이션 프레임워크(application framework))일 수 있다.
본 문서의 다양한 실시예들에 따르면, 메모리(140)는 사용자 입력을 인식하는데 필요한 정보를 저장할 수 있는 데이터베이스를 포함할 수 있다. 예를 들어, 메모리(140)은 로그(log) 정보를 저장할 수 있는 로그 데이터베이스를 포함할 수 있다. 다른 예를 들어, 메모리(140)는 사용자 정보를 저장할 수 있는 페르소나 데이터베이스를 포함할 수 있다.
본 문서의 다양한 실시예들에 따르면, 메모리(140)는 복수의 앱(141, 143)을 저장하고, 복수의 앱(141, 143)은 로드되어 동작할 수 있다. 예를 들어, 메모리(140)에 저장된 복수의 앱(141,143)은 실행 매니저 모듈(147)에 의해 로드되어 동작할 수 있다. 복수의 앱(141, 143)은 기능을 수행하는 실행 서비스 모듈(141a, 143a)을 포함할 수 있다. 다양한 실시예들에서, 복수의 앱(141,143)은 기능을 수행하기 위해서 실행 서비스 모듈(141a, 143a)를 통해 복수의 동작(예: 상태 들의 시퀀스)(141b, 143b)을 실행할 수 있다. 다시 말해, 실행 서비스 모듈(141a, 143a)는 실행 매니저 모듈(147)에 의해 활성화되고, 복수의 동작 (141b, 143b)을 실행할 수 있다.
본 문서의 다양한 실시예들에 따르면, 앱(141, 143)의 동작(141b, 143b)이 실행되었을 때, 동작(141b, 143b)의 실행에 따른 실행 상태 화면은 디스플레이(120)에 표시될 수 있다. 본 문서의 다양한 실시예들에 따른 실행 상태 화면은, 예를 들어, 동작(141b, 143b)이 완료된 상태의 화면일 수 있다. 상기 실행 상태 화면은, 다른 예를 들어, 동작(141b, 143b)의 실행이 정지된 상태(partial landing)(예: 동작(141b, 143b)에 필요한 파라미터가 입력되지 않은 경우)의 화면일 수 있다.
본 문서의 다양한 실시예들에 따른, 실행 서비스 모듈(141a, 143a)은 패스 룰에 따라 동작(141b, 143b)을 실행할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 실행 서비스 모듈(141a, 143a)은 실행 매니저 모듈(147)에 의해 활성화되고, 실행 매니저 모듈(147)로부터 상기 패스 룰에 따라 실행 요청을 전달 받고, 상기 실행 요청에 따라 동작(141b, 143b)을 함으로써, 앱(141, 143)의 기능을 실행할 수 있다. 실행 서비스 모듈(141a, 143a)는 상기 동작(141b, 143b)의 수행이 완료되면 완료 정보를 실행 매니저 모듈(147)로 전달할 수 있다.
본 문서의 다양한 실시예들에 따르면, 앱(141, 143)에서 복수의 동작(141b, 143b)이 실행되는 경우, 복수의 동작(141b, 143b)은 순차적으로 실행될 수 있다. 실행 서비스 모듈(141a, 143a)은 하나의 동작(예: 제1 앱(141)의 동작 1, 제2 앱(143)의 동작 1)의 실행이 완료되면 다음 동작(예: 제1 앱(141)의 동작 2, 제2 앱(143)의 동작 2)을 오픈하고 완료 정보를 실행 매니저 모듈(147)로 송신할 수 있다. 여기서 임의의 동작을 오픈한다는 것은, 임의의 동작을 실행 가능한 상태로 천이시키거나, 임의의 동작의 실행을 준비하는 것으로 이해될 수 있다. 다시 말해서, 임의의 동작이 오픈되지 않으면, 해당 동작은 실행될 수 없다. 실행 매니저 모듈(147)은 상기 완료 정보가 수신되면 다음 동작(예: 제1 앱(141)의 동작 2, 제2 앱(143)의 동작 2)에 대한 실행 요청을 실행 서비스 모듈로 전달할 수 있다. 다양한 실시예들에 따르면, 복수의 앱(141, 143)이 실행되는 경우, 복수의 앱(141, 143)은 순차적으로 실행될 수 있다. 예를 들어, 제1 앱(141)의 마지막 동작(예: 제1 앱(141)의 동작 3)의 실행이 완료되어 완료 정보를 수신하면, 실행 매니저 모듈(147)은 제2 앱(143)의 첫번째 동작(예: 제2 앱(143)의 동작 1)의 실행 요청을 실행 서비스(143a)로 송신할 수 있다.
본 문서의 다양한 실시예들에 따르면, 앱(141, 143)에서 복수의 동작(141b, 143b)이 실행된 경우, 상기 실행된 복수의 동작(141b, 143b) 각각의 실행에 따른 결과 화면은 디스플레이(120)에 표시될 수 있다. 다양한 실시예들에 따르면, 상기 실행된 복수의 동작(141b, 143b)의 실행에 따른 복수의 결과 화면 중 일부만 디스플레이(120)에 표시될 수 있다.
본 문서의 다양한 실시예들에 따르면, 메모리(140)는 지능형 에이전트(145)와 연동된 지능형 앱(예: 음성 인식 앱)을 저장할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 에이전트(145)와 연동된 앱은 사용자의 발화를 음성 신호로 수신하여 처리할 수 있다. 다양한 실시예들에 따르면, 지능형 에이전트(145)와 연동된 앱은 입력 모듈(110)을 통해 입력되는 특정 입력(예: 하드웨어 키를 통한 입력, 터치 스크린을 통한 입력, 특정 음성 입력)에 의해 동작될 수 있다.
본 문서의 다양한 실시예들에 따르면, 메모리(140)에 저장된 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)이 프로세서(150)에 의해 실행될 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)의 기능은 프로세서(150)에 의해 구현될 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 에이전트(145), 실행 매니저 모듈(147) 및 지능형 서비스 모듈(149)의 기능에 대해 프로세서(150)의 동작으로 설명하겠다. 다양한 실시예들에 따르면, 메모리(140)에 저장된 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)는 소프트웨어뿐만 아니라 하드웨어로 구현될 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 사용자 단말(100)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(150)는 입력 모듈(110)을 제어하여 사용자 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 프로세서(150)는 디스플레이(120)를 제어하여 이미지를 표시할 수 있다. 본 문서의 다양한 실시예들에 따른 프로세서(150)는 스피커(130)를 제어하여 음성 신호를 출력할 수 있다. 본 문서의 다양한 실시예들에 따른 프로세서(150)는 메모리(140)를 제어하여 프로그램을 실행시키고, 필요한 정보를 불러오거나 저장할 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 메모리(140)에 저장된 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)을 실행시킬 수 있다. 이에 따라, 본 문서의 다양한 실시예들에 따른 프로세서(150)는 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)의 기능을 구현할 수 있다.
본 문서의 다양한 실시예들에 따른, 프로세서(150)는 지능형 에이전트(145)를 실행하여 사용자 입력으로 수신된 음성 신호에 기초하여 앱을 동작시키는 명령을 생성할 수 있다. 다양한 실시예들에 따른, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 상기 생성된 명령에 따라 메모리(140)에 저장된 앱(141, 143)을 실행시킬 수 있다. 다양한 실시예들에 따르면, 프로세서(150)는 지능형 서비스 모듈(149)을 실행하여 사용자의 정보를 관리하 고, 상기 사용자의 정보를 이용하여 사용자 입력을 처리할 수 있다.
본 문서의 다양한 실시예들에 따른 프로세서(150)는 지능형 에이전트(145)를 실행하여 입력 모듈(110)을 통해 수신된 사용자 입력을 지능형 서버(200)로 송신하고, 지능형 서버(200)를 통해 상기 사용자 입력을 처리할 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 상기 사용자 입력을 지능형 서버(200)로 송신하기 전에 상기 사용자 입력을 전처리할 수 있다. 다양한 실시예들에 따르면, 지능형 에이전트(145)는 상기 사용자 입력을 전처리하기 위하여, 적응 반향 제거(adaptive echo canceller)(AEC) 모듈, 노이즈 억제(noise suppression)(NS) 모듈, 종점 검출(end-point detection)(EPD) 모듈 또는 자동 이득 제어(automatic gain control)(AGC) 모듈을 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 적응 반향 제거부는 상기 사용자 입력에 포함된 에코(echo)를 제거할 수 있다. 본 문서의 다양한 실시예들에 따른 노이즈 억제 모듈은 상기 사용자 입력에 포함된 배경 잡음을 억제할 수 있다. 본 문서의 다양한 실시예들에 따른 종점 검출 모듈은 상기 사용자 입력에 포함된 사용자 음성의 종점을 검출하고, 상기 검출된 종점을 이용하여 사용자의 음성이 존재하는 부분을 찾을 수 있다. 상기 자동 이득 제어 모듈은 상기 사용자 입력을 인식하고, 상기 인식된 사용자 입력을 처리하기 적합하도록 상기 사용자 입력의 음량을 조절할 수 있다. 다양한 실시예들에 따르면, 프로세서(150)는 성능을 위하여 상기 전처리 구성을 전부 실행시킬 수 있지만, 다른 실시 예에서 프로세서(150)는 저전력으로 동작하기 위해 상기 전처리 구성 중 일부를 실행시킬 수 있다.
본 문서의 다양한 실시예들에 따르면, 지능형 에이전트(145)는 사용자의 호출을 인식하기 위해 메모리(140)에 저장된 웨이크업(wake up) 인식 모듈을 실행시킬 수 있다. 이에 따라, 본 문서의 다양한 실시예들에 따른 프로세서(150)는 상기 웨이크업 인식 모듈을 통해 사용자의 웨이크업 명령을 인식할 수 있고, 상기 웨이크업 명령을 수신한 경우 사용자 입력을 수신하기 위한 지능형 에이전트(145)를 실행시킬 수 있다. 본 문서의 다양한 실시예들에 따른 웨이크업 인식 모듈은 저전력 프로세서(예: 오디오 코덱에 포함된 프로세서)로 구현될 수 있다. 다양한 실시예들에 따르면, 프로세서(150)는 하드웨어 키를 통한 사용자 입력을 수신하였을 때 지능형 에이전트(145)를 실행시킬 수 있다. 지능형 에이전트(145)가 실행된 경우, 지능형 에이전트(145)와 연동된 지능형 앱(예: 음성 인식 앱)이 실행될 수 있다.
본 문서의 다양한 실시예들에 따르면, 지능형 에이전트(145)는 사용자 입력을 실행하기 위한 음성 인식 모듈을 포함할 수 있다. 프로세서(150)는 상기 음성 인식 모듈을 통해 앱에서 동작을 실행하도록 하기 위한 사용자 입력을 인식할 수 있다. 예를 들어, 프로세서(150)는 상기 음성 인식 모듈을 통해 앱(141, 143)에서 상기 웨이크업 명령과 같은 동작을 실행하는 제한된 사용자 (음성) 입력(예: 카메라 앱이 실행 중일 때 촬영 동작을 실행시키는 "찰칵"과 같은 발화 등)을 인식할 수 있다. 본 문서의 다양한 실시예들에 따른 프로세서(150)는 상기 지능형 서버(200)를 보조하여 상기 음성 인식 모듈을 통해 사용자 단말(100)내에서 처리할 수 있는 사용자 명령을 인식하여 빠르게 처리할 수 있다. 다양한 실시예들에 따르면, 사용자 입력을 실행하기 위한 지능형 에이전트(145)의 음성 인식 모듈은 앱 프로세서에서 구현될 수 있다.
본 문서의 다양한 실시예들에 따르면, 지능형 에이전트(145)의 음성 인식 모듈(웨이크업 모듈의 음성 인식 모듈을 포함)은 음성을 인식하기 위한 알고리즘을 이용하여 사용자 입력을 인식할 수 있다. 본 문서의 다양한 실시예들에 따른 음성을 인식하기 위해 사용되는 알고리즘은, 예를 들어, HMM(hidden markov model) 알고리즘, ANN(artificial neural network) 알고리즘 또는 DTW(dynamic time warping) 알고리즘 중 적어도 하나일 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 사용자의 음성 입력을 텍스트 데이터로 변환할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 프로세서(150)는 지능형 에이전트(145)를 통해 사용자의 음성을 지능형 서버(200)로 송신하고, 지능형 서버(200)로부터 사용자의 음성에 대응되는 텍스트 데이터를 수신할 수 있다. 이에 따라, 본 문서의 다양한 실시예들에 따른 프로세서(150)는 상기 변환된 텍스트 데이터를 디스플레이(120)에 표시할 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 지능형 서버(200)로부터 패스 룰을 수신할 수 있다. 다양한 실시예들에 따르면, 프로세서(150)는 지능형 에이전트(145)를 통해 상기 패스 룰을 실행 매니저 모듈(147)로 전달할 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 지능형 서버(200)로부터 수신된 패스 룰에 따른 실행 결과 로그(log)를 지능형 서비스 모듈(149)로 전달하고, 상기 전달된 실행 결과 로그는 페르소나 모듈(persona manager)(149b)의 사용자의 선호(preference) 정보에 누적되어 관리될 수 있다.
본 문서의 다양한 실시예들에 따른, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 지능형 에이전트(145)로부터 패스 룰을 전달받아 앱(141, 143)을 실행시키고, 앱(141, 143)이 상기 패스 룰에 포함된 동작(141b, 143b)을 실행하도록 할 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 앱(141, 143)으로 동작(141b, 143b)을 실행하기 위한 명령 정보(예: 패스 룰 정보)를 송신할 수 있고, 상기 앱(141, 143)로부터 동작(141b, 143b)의 완료 정보를 전달 받을 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 지능형 에이전트(145)와 앱(141, 143)의 사이에서 앱(141, 143)의 동작(141b, 143b)을 실행하기 위한 명령 정보(예: 패스 룰 정보)를 전달할 수 있다. 프로세서(150)는 실행 매니저 모듈(147)을 통해 상기 패스 룰에 따라 실행할 앱(141, 143)을 바인딩(binding)하고, 상기 패스 룰에 포함된 동작(141b, 143b)의 명령 정보(예: 패스 룰 정보)를 앱(141, 143)으로 전달할 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 상기 패스 룰에 포함된 동작(141b, 143b)을 순차적으로 앱(141, 143)으로 전달하여, 앱(141, 143)의 동작(141b, 143b)을 상기 패스 룰에 따라 순차적으로 실행시킬 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 앱(141, 143)의 동작(141b, 143b)의 실행 상태를 관리할 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 앱(141, 143)으로부터 상기 동작(141b, 143b)의 실행 상태에 대한 정보를 전달 받을 수 있다. 상기 동작(141b, 143b)의 실행 상태가, 예를 들어, 정지된 상태(partial landing)인 경우(예: 동작(141b, 143b)에 필요한 파라미터가 입력되지 않은 경우), 프로세서(150)는 실행 매니저 모듈(147)을 통해 상기 정지된 상태에 대한 정보를 지능형 에이전트(145)로 전달할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 전달 받은 정보를 이용하여, 사용자에게 필요한 정보(예: 파라미터 정보)의 입력을 요청할 수 있다. 상기 동작(141b, 143b)의 실행 상태가, 다른 예를 들어, 동작 상태인 경우, 프로세서(150)는 지능형 에이전트(145)를 통해 사용자로부터 발화를 수신할 수 있 다. 프로세서(150)는 실행 매니저 모듈(147)를 통해 상기 실행되고 있는 앱(141, 143) 및 앱(141, 143)의 실행 상태에 대한 정보를 지능형 에이전트(145)로 전달할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 사용자 발화를 지능형 서버(200)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 지능형 서버(200)로부터 상기 사용자의 발화의 파라미터 정보를 수신할 수 있 다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 수신된 파라미터 정보를 실행 매니저 모듈(147)로 전달할 수 있다. 실행 매니저 모듈(147)은 상기 수신한 파라미터 정보를 이용하여 동작(141b, 143b)의 파라미터를 새로운 파라미터로 변경할 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 패스 룰에 포함된 파라미터 정보를 앱(141, 143)로 전달할 수 있다. 상기 패스 룰에 따라 복수의 앱(141, 143)이 순차적으로 실행되는 경우, 실행 매니저 모듈(147)은 하나의 앱에서 다른 앱으로 패스 룰에 포함된 파라미터 정보를 전달할 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 복수의 패스 룰을 수신할 수 있다. 프로세서(150)는 실행 매니저 모듈(147)을 통해 사용자의 발화에 기초하여 복수의 패스 룰이 선택될 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 사용자의 발화가 일부 동작(141a)을 실행할 일부 앱(141)을 특정하였지만, 나머지 동작(143b)을 실행할 다른 앱(143)을 특정하지 않은 경우, 일부 동작(141a)를 실행할 동일한 앱(141)(예: 갤러리 앱)이 실행되고 나머지 동작(143b)를 실행할 수 있는 서로 다른 앱(143)(예: 메시지 앱, 텔레그램 앱)이 각각 실행되는 서로 다른 복수의 패스 룰을 수신할 수 있다. 프로세서(150)는, 예를 들어, 실행 매니저 모듈(147)을 통해 상기 복수의 패스 룰의 동일한 동작(141b, 143b)(예: 연속된 동일한 동작(141b, 143b))을 실행할 수 있다. 프로세서(150)는 상기 동일한 동작까지 실행한 경우, 실행 매니저 모듈(147)을 통해 상기 복수의 패스 룰에 각각 포함된 서로 다른 앱(141, 143)을 선택할 수 있는 상태 화면을 디스플레이(120)에 표시할 수 있다.
본 문서의 다양한 실시예들에 따르면, 지능형 서비스 모듈(149)은 컨텍스트 모듈(149a), 페르소나 모듈(149b) 또는 제안 모듈(149c)을 포함할 수 있다.
본 문서의 다양한 실시예들에 따른 프로세서(150)는 컨텍스트 모듈(149a)을 실행하여 앱(141, 143)으로부터 앱(141, 143)의 현재 상태를 수집할 수 있다. 예를 들어, 프로세서(150)는 컨텍스트 모듈(149a)을 실행하여 앱(141, 143)의 현재 상태를 나타내는 컨텍스트 정보를 수신하고, 상기 수신된 컨텍스트 정보를 통해 앱(141, 143)의 현재 상태를 수집할 수 있다.
본 문서의 다양한 실시예들에 따른 프로세서(150)는 페르소나 모듈(149b)을 실행하여 사용자 단말(100)을 사용하는 사용자의 개인 정보를 관리할 수 있다. 예를 들어, 프로세서(150)는 페르소나 모듈(149b)을 실행하여 사용자 단말(100)의 사용 정보 및 수행 결과를 수집하고, 상기 수집된 사용자 단말(100)의 사용 정보 및 수행 결과를 이용하여 사용자의 개인 정보를 관리할 수 있다.
본 문서의 다양한 실시예들에 따른 프로세서(150)는 제안 모듈(149c)을 실행하여 사용자의 의도를 예측하고, 상기 사용자의 의도에 기초하여 사용자에게 명령을 추천해줄 수 있다. 예를 들어, 프로세서(150)는 제안 모듈(149c)을 실행하여 사용자의 현재 상태(예: 시간, 장소, 상황, 앱)에 따라 사용자에게 명령을 추천해줄 수 있다.
도 3은, 사용자 단말의 지능형 앱을 실행시키는 것을 나타낸 도면이다.
도 3을 참조하면, 사용자 단말(100)이 사용자 입력을 수신하여 지능형 에이전트(145)와 연동된 지능형 앱(예: 음성 인식 앱)을 실행시키는 것을 나타낸 것이다.
본 문서의 다양한 실시예들에 따르면, 사용자 단말(100)은 하드웨어 키(112)를 통해 음성을 인식하기 위한 지능형 앱을 실행시킬 수 있다. 예를 들어, 사용자 단말(100)은 하드웨어 키(112)를 통해 사용자 입력을 수신한 경우 디스플레이(120)에 지능형 앱의 UI(user interface)(121)를 표시할 수 있다. 사용자는, 예를 들어, 지능형 앱의 UI(121)가 디스플레이(120)에 표시된 상태에서 음성을 입력(120b)하기 위해 지능형 앱의 UI(121)에 음성인식 버튼(121a)를 터치할 수 있다. 사용자는, 다른 예를 들어, 음성을 입력(120b)하기 위해 상기 하드웨어 키(112)를 지속적으로 눌러서 음성을 입력(120b)을 할 수 있다.
본 문서의 다양한 실시예들에 따르면, 사용자 단말(100)은 마이크(111)를 통해 음성을 인식하기 위한 지능형 앱을 실행시킬 수 있다. 예를 들어, 사용자 단말(100)은 마이크(111)를 통해 지정된 음성(예: 일어나!(wake up!))이 입력(120a)된 경우 디스플레이(120)에 지능형 앱의 UI(121)를 표시할 수 있다.
도 4는 본 문서의 다양한 실시예들에 따른 통합 지능화 시스템의 지능형 서버를 나타낸 블록도이다.
도 4를 참조하면, 지능형 서버(200)는 자동 음성 인식(automatic speech recognition)(ASR) 모듈(210), 자연어 이해(natural language understanding)(NLU) 모듈(220), 패스 플래너(path planner) 모듈(230), 대화 매니저(dialogue manager)(DM) 모듈(240), 자연어 생성(natural language generator)(NLG) 모듈(250) 또는 텍스트 음성 변환(text to speech)(TTS) 모듈(260)을 포함할 수 있다. 다양한 실시예들에 따르면, 지능형 서버(200)는 통신 회로, 메모리 및 프로세서를 포함할 수 있다. 상기 프로세서는 상기 메모리에 저장된 명령어를 실행하여 자동 음성 인식 모듈(210), 자연어 이해 모듈(220), 패스 플래너 모듈(230), 대화 매니저 모듈(240), 자연어 생성 모듈(250) 및 텍스트 음성 변환 모듈(260)을 구동시킬 수 있다. 지능형 서버(200)는 상기 통신 회로를 통해 외부 전자 장치(예: 사용자 단말(100))와 데이터(또는, 정보)를 송수신할 수 있다.
지능형 서버(200)의 자연어 이해 모듈(220) 또는 패스 플래너 모듈(230)은 패스 룰(path rule)을 생성할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자동 음성 인식(automatic speech recognition)(ASR) 모듈(210)은 사용자 단말(100)로부터 수신된 사용자 입력을 텍스트 데이터로 변환할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자동 음성 인식 모듈(210)은 사용자 단말(100)로부터 수신된 사용자 입력을 텍스트 데이터로 변환할 수 있다. 예를 들어, 자동 음성 인식 모듈(210)은 발화 인식 모듈을 포함할 수 있다. 상기 발화 인식 모듈은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 상기 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 상기 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 상기 발화 인식 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트 데이터로 변환할 수 있다. 상기 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식 데이터베이스(automatic speech recognition database)(ASR DB)(211)에 저장될 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 사용자 입력을 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 상기 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, 자연어 이해 모듈(220)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))를 얻을 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 도메인(domain), 의도(intend) 및 상기 의도를 파악하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))로 나누어진 매칭 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 상기 하나의 도메인(예: 알람)은 복수의 의도(예: 알람 설정, 알람 해제 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 이해 데이터베이스(natural language understanding database)(NLU DB)(221)에 저장될 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 형태소, 구 등의 언어적 특징(예: 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는 지를 계산하여 사용자 의도를 결정할 수 있다. 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 상기 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 이해 데이터베이스(221)를 이용하여 사용자의 의도를 결정할 수 있다. 다른 실시 예에 따르면, 자연어 이해 모듈(220)은 개인화 언어 모델(personal language model)(PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 개인화된 정보(예: 연락처 리스트, 음악 리스트)를 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 이해 데이터베이스(221)에 저장될 수 있다. 다양한 실시예들에 따르면, 자연어 이해 모듈(220)뿐만 아니라 자동 음성 인식 모듈(210)도 자연어 이해 데이터베이스(221)에 저장된 개인화 언어 모델을 참고하여 사용자의 음성을 인식할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터에 기초하여 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 입력의 의도에 기초하여 실행될 앱을 선택하고, 상기 선택된 앱에서 수행될 동작을 결정할 수 있다. 자연어 이해 모듈(220)은 상기 결정된 동작에 대응되는 파라미터를 결정하여 패스 룰을 생성할 수 있다. 다양한 실시예들에 따르면, 자연어 이해 모듈(220)에 의해 생성된 패스 룰은 실행될 앱, 상기 앱에서 실행될 동작(예: 적어도 하나 이상의 상태(state)) 및 상기 동작을 실행하는데 필요한 파라미터에 대한 정보를 포함할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터를 기반으로 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 패스 플래너 모듈(230)로부터 사용자 단말(100)에 대응되는 패스 룰 셋을 수신하고, 사용자 입력의 의도 및 파라미터를 상기 수신된 패스 룰 셋에 매핑하여 패스 룰을 결정할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터에 기초하여 실행될 앱, 상기 앱에서 실행될 동작 및 상기 동작을 실행하는데 필요한 파라미터를 결정하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 단말(100)의 정보를 이용하여 상기 실행될 앱 및 상기 앱에서 실행될 동작을 사용자 입력의 의도에 따라 온톨로지(ontology) 또는 그래프 모델(graph model) 형태로 배열하여 패스 룰을 생성할 수 있다. 상기 생성된 패스 룰은, 예를 들어, 패스 플래너 모듈(230)를 통해 패스 룰 데이터베이스(path rule database)(PR DB)(231)에 저장될 수 있다. 상기 생성된 패스 룰은 데이터베이스(231)의 패스 룰 셋에 추가될 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 생성된 복수의 패스 룰 중 적어도 하나의 패스 룰을 선택할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 상기 복수의 패스 룰 최적의 패스 룰을 선택할 수 있다. 다른 예를 들어, 자연어 이해 모듈(220)은 사용자 발화에 기초하여 일부 동작만이 특정된 경우 복수의 패스 룰을 선택할 수 있다. 자연어 이해 모듈(220)은 사용자의 추가 입력에 의해 상기 복수의 패스 룰 중 하나의 패스 룰을 결정할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 입력에 대한 요청으로 패스 룰을 사용자 단말(100)로 송신할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 입력에 대응되는 하나의 패스 룰을 사용자 단말(100)로 송신할 수 있다. 다른 예를 들어, 자연어 이해 모듈(220)은 사용자 입력에 대응되는 복수의 패스 룰을 사용자 단말(100)로 송신할 수 있다. 상기 복수의 패스 룰은, 예를 들어, 사용자 발화에 기초하여 일부 동작만이 특정된 경우 자연어 이해 모듈(220)에 의해 생성될 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 플래너 모듈(230)은 복수의 패스 룰 중 적어도 하나의 패스 룰을 선택할 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 플래너 모듈(230)은 자연어 이해 모듈(220)로 복수의 패스 룰을 포함하는 패스 룰 셋을 전달할 수 있다. 상기 패스 룰 셋의 복수의 패스 룰은 패스 플래너 모듈(230)에 연결된 패스 룰 데이터베이스(231)에 테이블 형태로 저장될 수 있다. 예를 들어, 패스 플래너 모듈(230)은 지능형 에이전트(145)로부터 수신된 사용자 단말(100)의 정보(예: OS 정보, 앱 정보)에 대응되는 패스 룰 셋을 자연어 이해 모듈(220)로 전달할 수 있다. 상기 패스 룰 데이터베이스(231)에 저장된 테이블은, 예를 들어, 도메인 또는 도메인의 버전 별로 저장될 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 플래너 모듈(230)은 패스 룰 셋에서 하나의 패스 룰, 또는 복수의 패스 룰을 선택하여 자연어 이해 모듈(220)로 전달할 수 있다. 예를 들어, 패스 플래너 모듈(230)은 사용자의 의도 및 파라미터를 사용자 단말(100) 에 대응되는 패스 룰 셋에 매칭하여 하나의 패스 룰, 또는 복수의 패스 룰을 선택하여 자연어 이해 모듈(220)로 전달할 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 플래너 모듈(230)은 사용자 의도 및 파라미터를 이용하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 패스 플래너 모듈(230)은 사용자 의도 및 파라미터에 기초하여 실행될 앱 및 상기 앱에서 실행될 동작을 결정하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 다양한 실시예들에 따르면, 패스 플래너 모듈(230)은 상기 생성된 패스 룰을 패스 룰 데이터베이스(231)에 저장할 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 플래너 모듈(230)은 자연어 이해 모듈(220)에서 생성된 패스 룰을 패스 룰 데이터베이스(231)에 저장할 수 있다. 상기 생성된 패스 룰은 패스 룰 데이터베이스(231)에 저장된 패스 룰 셋에 추가될 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 룰 데이터베이스(231)에 저장된 테이블에는 복수의 패스 룰 또는 복수의 패스 룰 셋을 포함할 수 있다. 복수의 패스 룰 또는 복수의 패스 룰 셋은 각 패스 룰을 수행하는 장치의 종류, 버전, 타입, 또는 특성을 반영할 수 있다.
본 문서의 다양한 실시예들에 따르면, 대화 매니저 모듈(240)은 자연어 이해 모듈(220)에 의해 파악된 사용자의 의도가 명확한지 여부를 판단할 수 있다. 예를 들어, 대화 매니저 모듈(240)은 파라미터의 정보가 충분하지 여부에 기초하여 사용자의 의도가 명확한지 여부를 판단할 수 있다. 대화 매니저 모듈(240)은 자연어 이해 모듈(220)에서 파악된 파라미터가 태스크를 제공하는데 충분한지 여부를 판단할 수 있다. 다양한 실시예들에 따르면, 대화 매니저 모듈(240)은 사용자의 의도가 명확하지 않은 경우 사용자에게 필요한 정보를 요청하는 피드백을 수행할 수 있다. 예를 들어, 대화 매니저 모듈(240)은 사용자의 의도를 파악하기 위한 파라미터에 대한 정보를 요청하는 피드백을 수행할 수 있다.
본 문서의 다양한 실시예들에 따르면, 대화 매니저 모듈(240)은 컨텐츠 제공(content provider) 모듈을 포함할 수 있다. 상기 컨텐츠 제공 모듈은 자연어 이해 모듈(220)에서 파악된 의도 및 파라미터에 기초하여 동작을 수행할 수 있는 경우, 사용자 입력에 대응되는 태스크를 제공한 결과를 생성할 수 있다. 다양한 실시예들에 따르면, 대화 매니저 모듈(240)은 사용자 입력에 대한 응답으로 상기 컨텐츠 제공 모듈에서 생성된 상기 결과를 사용자 단말(100)로 송신할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 생성 모듈(NLG)(250)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는, 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보(예: 사용자 입력에 대한 피드백 정보)일 수 있다. 상기 텍스트 형태로 변경된 정보는 사용자 단말(100)로 송신되어 디스플레이(120)에 표시되거나, 텍스트 음성 변환 모듈(260)로 송신되어 음성 형태로 변경될 수 있다.
본 문서의 다양한 실시예들에 따르면, 텍스트 음성 변환 모듈(260)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. 텍스트 음성 변환 모듈(260)은 자연어 생성 모듈(250)로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 사용자 단말(100)로 송신할 수 있다. 사용자 단말(100)은 상기 음성 형태의 정보를 스피커(130)로 출력할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220), 패스 플래너 모듈(230) 및 대화 매니저 모듈(240)은 하나의 모듈로 구현될 수 있다. 예를 들어, 자연어 이해 모듈(220), 패스 플래너 모듈(230) 및 대화 매니저 모듈(240)은 하나의 모듈로 구현되어 사용자의 의도 및 파라미터를 결정하고, 상기 결정된 사용자의 의도 및 파라미터에 대응되는 응답(예: 패스 룰)을 생성할 수 있다. 이에 따라, 생성된 응답은 사용자 단말(100)로 송신될 수 있다.
도 5는 본 문서의 다양한 실시예들에 따른 지능형 서비스 모듈의 컨텍스트 모듈이 현재 상태를 수집하는 것을 나타낸 도면이다.
도 5를 참조하면, 프로세서(150)는 지능형 에이전트(145)로부터 컨텍스트 요청을 수신(①)하면, 컨텍스트 모듈(149a)을 통해 앱(141, 143)의 현재 상태를 나타내는 컨텍스트 정보를 요청(②)할 수 있다. 다양한 실시예들에 따르면, 프로세서(150)는 컨텍스트 모듈(149a)을 통해 앱(141, 143)으로부터 상기 컨텍스트 정보를 수신(③)하여 지능형 에이전트(145)로 송신(④)할 수 있다.
다양한 실시예들에 따르면, 프로세서(150)는 컨텍스트 모듈(149a)을 통해 앱(141, 143)으로부터 복수의 컨텍스트 정보를 전달 받을 수 있다. 상기 컨텍스트 정보는, 예를 들어, 가장 최근 실행된 앱(141, 143)에 대한 정보일 수 있다. 상기 컨텍스트 정보는, 다른 예를 들어, 앱(141, 143) 내의 현재 상태에 대한 정보(예: 갤러리에서 사진을 보고 있는 경우, 해당 사진에 대한 정보)일 수 있다.
본 문서의 다양한 실시예들에 따르면, 프로세서(150)는 컨텍스트 모듈(149a)을 통해 앱(141, 143)뿐만 아니라, 디바이스 플랫폼(device platform)으로부터 사용자 단말(100)의 현재 상태를 나타내는 컨텍스트 정보를 수신할 수 있다. 상기 컨텍스트 정보는 일반적 컨텍스트 정보, 사용자 컨텍스트 정보 또는 장치 컨텍스트 정보를 포함할 수 있다.
상기 일반적 컨텍스트 정보는 사용자 단말(100)의 일반적인 정보를 포함할 수 있다. 상기 일반적 컨텍스트 정보는 디바이스 플랫폼의 센서 허브 등을 통해 데이터를 전달 받아서 내부 알고리즘을 통해 식별(identification)될 수 있다. 예를 들어, 상기 일반적 컨텍스트 정보는 현재 시공간에 대한 정보를 포함할 수 있다. 상기 현재 시공간에 대한 정보는, 예를 들어, 현재 시간 또는 사용자 단말(100)의 현재 위치에 대한 정보를 포함할 수 있다. 상기 현재 시간은 사용자 단말(100) 상에서의 시간을 통해 식별될 수 있고, 상기 현재 위치에 대한 정보는 GPS(global positioning system)를 통해 식별될 수 있다. 다른 예를 들어, 상기 일반적 컨텍스트 정보는 물리적 움직임에 대한 정보를 포함할 수 있다. 상기 물리적 움직임에 대한 정보는, 예를 들어, 걷기, 뛰기, 운전 중 등에 대한 정보를 포함할 수 있다. 상기 물리적 움직임 정보는 모션 센서(motion sensor)를 통해 식별될 수 있다. 상기 운전 중에 대한 정보는 상기 모션 센서를 통해 운행을 식별할 수 있을 뿐만 아니라, 차량 내의 블루투스 연결을 감지하여 탑승 및 주차를 식별할 수 있다. 또 다른 예를 들어, 상기 일반적 컨텍스트 정보는 사용자 활동 정보를 포함할 수 있다. 상기 사용자 활동 정보는, 예를 들어, 출퇴근, 쇼핑, 여행 등에 대한 정보를 포함할 수 있다. 상기 사용자 활동 정보는 사용자 또는 앱이 데이터베이스에 등록한 장소에 대한 정보를 이용하여 식별될 수 있다.
상기 사용자 컨텍스트 정보는 사용자에 대한 정보를 포함할 수 있다. 예를 들어, 상기 사용자 컨텍스트 정보는 사용자의 감정적 상태에 대한 정보를 포함할 수 있다. 상기 감정적 상태에 대한 정보는, 예를 들어, 사용자의 행복, 슬픔, 화남 등에 대한 정보를 포함할 수 있다. 다른 예를 들어, 상기 사용자 컨텍스트 정보는 사용자의 현재 상태에 대한 정보를 포함할 수 있다. 상기 현재 상태에 대한 정보는, 예를 들어, 관심, 의도 등(예: 쇼핑)에 대한 정보를 포함할 수 있다.
상기 장치 컨텍스트 정보는 사용자 단말(100)의 상태에 대한 정보를 포함할 수 있다. 예를 들어, 상기 장치 컨텍스트 정보는 실행 매니저 모듈(147)이 실행한 패스 룰에 대한 정보를 포함할 수 있다. 다른 예를 들어, 상기 디바이스 정보는 배터리에 대한 정보를 포함할 수 있다. 상기 배터리에 대한 정보는, 예를 들어, 상기 배터리의 충전 및 방전 상태를 통해 식별될 수 있다. 또 다른 예를 들어, 상기 디바이스 정보는 연결된 장치 및 네트워크에 대한 정보를 포함할 수 있다. 상기 연결된 장치에 대한 정보는, 예를 들어, 상기 장치가 연결된 통신 인터페이스를 통해 식별될 수 있다.
도 6은 본 문서의 다양한 실시예들에 따른 패스 플래너 모듈(path planner module)의 패스 룰(path rule)을 생성하는 방법을 나타낸 도면이다.
도 6을 참조하면, 다양한 실시예들에 따른, 자연어 이해 모듈(220)은 앱의 기능을 어느 하나 동작(예: 상태 A 내지 상태 F)으로 구분하여 패스 룰 데이터베이스(231)에 저장할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 어느 하나의 동작(예: 상태)으로 구분된 복수의 패스 룰(A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F)을 포함하는 패스 룰 셋을 패스 룰 데이터베이스(231)에 저장할 수 있다.
본 문서의 다양한 실시예들에 따르면, 패스 플래너 모듈(230)의 패스 룰 데이터베이스(231)는 앱의 기능을 수행하기 위한 패스 룰 셋을 저장할 수 있다. 상기 패스 룰 셋은 복수의 동작(예: 상태들의 시퀀스)을 포함하는 복수의 패스 룰을 포함할 수 있다. 상기 복수의 패스 룰은 복수의 동작 각각에 입력되는 파라미터에 따라 실행되는 동작이 순차적으로 배열될 수 있다. 다양한 실시예들에 따르면, 상기 복수의 패스 룰은 온톨로지(ontology) 또는 그래프 모델(graph model) 형태로 구성되어 패스 룰 데이터베이스(231)에 저장될 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터에 대응되는 상기 복수의 패스 룰(A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F) 중에 최적의 패스 룰(A-B1-C3-D-F)을 선택할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 입력에 완벽히 매칭되는 패스 룰이 없는 경우 사용자 단말(100)에 복수의 룰을 전달할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 입력에 부분적으로 대응된 패스 룰(예: A-B1)을 선택할 수 있다. 자연어 이해 모듈(220)은 사용자 입력에 부분적으로 대응된 패스 룰(예: A-B1)을 포함하는 하나 이상의 패스 룰(예: A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F)을 선택하여 사용자 단말(100)에 전달할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 사용자 단말(100)의 추가 입력에 기초하여 복수의 패스 룰 중 하나를 선택하고, 상기 선택된 하나의 패스 룰을 사용자 단말(100)에 전달 할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 단말(100)에서 추가로 입력된 사용자 입력(예: C3를 선택하는 입력)에 따라 복수의 패스 룰(예: A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F) 중 하나의 패스 룰(예: A-B1-C3-D-F)을 선택하여 사용자 단말(100)에 송신할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 자연어 이해 모듈(220)을 통해 사용자 단말(100)에 추가로 입력된 사용자 입력(예: C3를 선택하는 입력)에 대응되는 사용자의 의도 및 파라미터를 결정할 수 있고, 상기 결정된 사용자의 의도 또는 파라미터를 사용자 단말(100)로 송신할 수 있다. 사용자 단말(100)은 상기 송신된 의도 또는 상기 파라미터에 기초하여, 복수의 패스 룰(예: A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F) 중 하나의 패스 룰(예: A-B1-C3-D-F)을 선택할 수 있다.
이에 따라, 사용자 단말(100)은 상기 선택된 하나의 패스 룰에 의해 앱(141, 143)의 동작을 완료시킬 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 정보가 부족한 사용자 입력이 지능형 서버(200)에 수신된 경우, 상기 수신한 사용자 입력에 부분적으로 대응되는 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 상기 부분적으로 대응된 패스 룰을 지능형 에이전트(145)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 실행하여 상기 패스 룰을 수신하고, 실행 매니저 모듈(147)로 상기 부분적으로 대응된 패스 룰을 전달할 수 있다. 프로세서(150)는 실행 매니저 모듈(147)를 통해 상기 패스 룰에 따라 제1 앱(141)을 실행시킬 수 있다. 프로세서(150)는 실행 매니저 모듈(147)을 통해 제1 앱(141)을 실행하면서 부족한 파라미터에 대한 정보를 지능형 에이전트(145)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 부족한 파라미터에 대한 정보를 이용하여 사용자에게 추가 입력을 요청할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 사용자에 의해 추가 입력이 수신되면 사용자 입력을 지능형 서버(200)로 송신하여 처리할 수 있다. 자연어 이해 모듈(220)은 상기 추가로 입력된 사용자 입력의 의도 및 파라미터 정보에 기초하여 추가된 패스 룰을 생성하여 지능형 에이전트(145)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 실행 매니저 모듈(147)로 상기 패스 룰을 송신하여 제2 앱(143)을 실행할 수 있다.
본 문서의 다양한 실시예들에 따르면, 자연어 이해 모듈(220)은 일부 정보가 누락된 사용자 입력이 지능형 서버(200)에 수신된 경우, 개인화 정보 서버(300)로 사용자 정보 요청을 송신할 수 있다. 개인화 정보 서버(300)는 페르소나 데이터베이스에 저장된 사용자 입력을 입력한 사용자의 정보를 자연어 이해 모듈(220)로 송신할 수 있다. 자연어 이해 모듈(220)은 상기 사용자 정보를 이용하여 일부 동작이 누락된 사용자 입력에 대응되는 패스 룰을 선택할 수 있다. 이에 따라, 자연어 이해 모듈(220)은 일부 정보가 누락된 사용자 입력이 지능형 서버(200)에 수신되더라도, 누락된 정보를 요청하여 추가 입력을 받거나 사용자 정보를 이용하여 상기 사용자 입력에 대응되는 패스 룰을 결정할 수 있다.
하기에 첨부된 표 1은 다양한 실시예들에 따른 사용자가 요청한 태스크와 관련한 패스 룰의 예시적 형태를 나타낼 수 있다.
Path rule ID State parameter
Gallery_101 pictureView(25) NULL
searchView(26) NULL
searchViewResult(27) Location,time
SearchEmptySelectedView(28) NULL
SearchSelectedView(29) ContentType,selectall
CrossShare(30) anaphora
표 1을 참조하면, 사용자 발화(예: "사진 공유해줘")에 따라 지능형 서버(도 1의 지능형 서버(200))에서 생성 또는 선택되는 패스 룰은 적어도 하나의 상태(state)(25, 26, 27, 28, 29 또는 30)를 포함할 수 있다. 예를 들어, 상기 적어도 하나의 상태(예: 단말의 어느 한 동작 상태)는 사진 어플리케이션 실행(PicturesView)(25), 사진 검색 기능 실행(SearchView)(26), 검색 결과 표시 화면 출력(SearchViewResult)(27), 사진이 미(non)선택된 검색 결과 표시 화면 출력(SearchEmptySelectedView)(28), 적어도 하나의 사진이 선택된 검색 결과 표시 화면 출력(SearchSelectedView)(29) 또는 공유 어플리케이션 선택 화면 출력(CrossShare)(30) 중 적어도 하나에 해당될 수 있다.
본 문서의 다양한 실시예들에서, 상기 패스 룰의 파라미터 정보는 적어도 하나의 상태(state)에 대응될 수 있다. 예를 들어, 상기 적어도 하나의 사진이 선택된 검색 결과 표시 화면 출력(29) 상태에 포함될 수 있다.
상기 상태(25, 26, 27, 28, 29)들의 시퀀스를 포함한 패스 룰의 수행 결과 사용자가 요청한 태스크(예: "사진 공유해줘!")가 수행될 수 있다.
도 7a 내지 도 8f는, 사용자 발화에 포함된 검색 조건 이외의 부가 정보를 제공하는 동작을 설명하기 위한 예시 도면이다.
도 7a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 700에서, 사용자 발화를 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 705에서, 사용자 발화에 기반하여 사용자 단말(100)에 저장된 이미지를 검색할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 710에서, 검색된 이미지의 속성을 식별할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 715에서, 검색된 이미지의 속성에 기반하여, 검색된 이미지와 함께, 사용자 발화에 따른 검색 조건 및 부가 정보를 포함하는 응답을 제공할 수 있다.
도 7b을 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 720에서, 사용자 발화(예: "작년에 찍은 사진 보여줘!" 또는 "집에서 찍은 사진 보여줘!")를 수신할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 725에서, 사용자 발화 정보를 지능형 서버(200)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 730에서, 수신된 사용자 발화 정보에 기반하여 제1 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 동작 정보(예: 패스 룰)는, 사용자 단말(100)이 사용자의 발화에 따라 이미지를 검색하는 동작(다른 말로, 태스크)에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 제1 동작 정보는, 사용자 단말(100)이 사용자의 발화에 따라 검색된 이미지의 속성(예: 메타 데이터)을 식별하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 이미지의 속성은, 검색된 적어도 하나의 이미지가 촬영된 위치에 대한 정보(예: "수원시 영통구"와 같은 행정 구역 또는 "에버랜드"와 같은 랜드마크), 상기 복수의 이미지들이 촬영된 시간에 대한 정보(예: 어제 오전 10시 35분), 상기 복수의 이미지들에 포함된 복수의 인물들 간의 관계에 대한 정보(예: 가족 또는 부인), 상기 복수의 이미지들에 포함된 적어도 하나의 인물과 관련된 감정에 대한 정보(예: 화남, 슬픔, 놀람, 당황 또는 즐거움) 및 상기 복수의 이미지들과 관련된 이벤트 정보(예: 결혼식 또는 생일) 및 이미지에 포함된 객체의 속성(예: 문서, 풍경 또는 음식) 중 적어도 하나를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자에 의하여 촬영된 이미지 중 특정한 인물이 촬영된 빈도에 기반하여 복수의 인물들 간의 관계에 대한 정보를 식별할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자에 의하여 촬영된 이미지에 포함된 인물의 표정을 분석하여 감정 상태를 식별(예: 특정한 감정에 해당할 확률로서)할 수 있다. 본 문서의 다양한 실시예들에 따른, 이미지에 포함된 복수의 인물들 간의 관계 또는 인물의 감정 상태를 식별하는 방법에 대해서는 다양한 기술들이 적용될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820)의 속성 각각에 대응하는 비율을 식별할 수 있다. 예를 들어, 사용자 단말(100)은 검색된 이미지를 분석(예: 사람 사이의 관계 분석, 사람의 표정 분석)하여, "즐거운 감정 상태"로 식별된 이미지의 비율을 70%로, "아기"와 찍은 사진의 비율을 50%로, "슬픈 감정 상태"로 식별된 이미지의 비율을 20%로 식별할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820)를 분석함에 있어서 각각의 이미지의 메타 데이터를 이용할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 735에서, 생성된 제1 동작 정보를 사용자 단말(100)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 740에서, 지능형 서버(200)로부터 수신된 제1 동작 정보에 따라 이미지를 검색(다른 말로, 선택)할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 검색된 이미지를 사용자 단말(100)에 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 745에서, 지능형 서버(200)로부터 수신된 제1 동작 정보에 따라 검색된 이미지의 속성을 식별(identification)할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 750에서, 식별된 속성 정보를 지능형 서버(200)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 755에서, 식별된 속성에 기반하여 제2 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 제2 동작 정보는, 사용자 단말(100)이 사용자 발화에 포함된 단어와 실질적으로 동일한 제1 단어(예: "작년") 및 적어도 하나의 검색된 이미지(820)의 식별된 속성에 기반한 제2 단어(예: "즐거운 일")를 출력하는 동작에 대한 정보를 포함할 수 있다. 본 문서에서 언급되는 "제1 단어" 는, 사용자가 발화로서 의도한 이미지의 검색 기준을 나타내는 단어를 의미할 수 있다. 본 문서에서 언급되는 "제2 단어" 또는 "제3 단어"라는 용어는 검색된 적어도 하나의 이미지(820)의 속성에 기반하여 지능형 서버(200) 또는 사용자 단말(100)에 의하여 생성된 단어를 의미할 수 있다. 본 문서에서, "단어"라는 용어는 "파라미터"라는 용어와 교환적으로/대체적으로 사용될 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 760에서, 제2 동작 정보를 사용자 단말(100)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 765에서, 제2 동작 정보에 기반하여, 적어도 하나의 검색된 이미지(820)와 함께, 검색 조건(예: 제1 단어, "작년") 및 부가 정보(예: 제2 단어, "즐거운 일")를 포함하는 문장(예: "작년에 즐거운 일이 많으셨나 봐요!")을 포함하는 응답을 제공할 수 있다.
도 8a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 사용자로부터 발화(예: "작년에 찍은 사진 보여줘!")를 수신할 수 있다.
도 8b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 기반하여 응답을 제공할 수 있다. 본 문서의 다양한 실시예들에 따른 응답은, 제1 단어 및 제2 단어를 적어도 포함하는 특정한(specified) 제1 문장(810), 적어도 하나의 검색된 이미지(820) 및 적어도 하나의 검색된 이미지(820)를 재 분류(다른 말로, 재 구성)하기 위한 사용자 인터페이스(830) 중 적어도 하나를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 제1 문장(810)은, 제1 단어(예: "작년") 및 제2 단어(예: "즐거운 일")를 포함하는 문장을 포함할 수 있다. 본 문서의 다양한 실시예들에 따르면, 제1 문장(810)에 포함된 제1 단어는, 사용자의 발화에 포함된 단어와 실질적으로 동일한 단어를 포함할 수 있다. 예를 들어, 사용자가 "작년"이라는 단어를 포함하는 발화를 입력한 경우, 제1 단어는 "작년" 뿐만 아니라, "1년 전"이라는 단어로 사용자 단말(100) 또는 지능형 서버(200)에 의해 선택될 수도 있다. 도 8b에서는, 적어도 하나의 검색된 이미지(820) 중 웃는 표정을 가지는 객체(예: 인물(822))의 비율이 가장 높은 것으로 식별되어(예: 24개의 이미지들 중 16개의 이미지들), 지능형 서버(200)에 의해 제2 단어로서 "즐거운 일"이 선택(다른 말로, 생성)된 경우가 예시적으로 도시된다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 따른 응답으로서 "작년에 즐거운 일이 많으셨나봐요"라는 문장을 출력(예: 디스플레이) 할 수 있다. 본 문서의 다양한 실시예들에 따른 제1 문장(810) 및 제2 문장(912)은, 사용자 단말(100)을 통하여 발화 형식으로 출력될 수도 있다. 본 문서의 다양한 실시예들에 따른 사용자 인터페이스(830)는, 특정한 기준에 따라 검색된 이미지를 재 분류하기 위한 메뉴들(832, 834, 836)을 포함할 수 있다.
도 8c를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 사용자로부터 발화(예: "집에서 찍은 사진 보여줘!")(802)를 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 수신된 발화(802)의 내용을 디스플레이할 수 있다.
도 8d를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 기반하여 응답을 제공할 수 있다. 도 8d에서는, 검색된 이미지 중 아기 사진의 비율이 가장 높은 것으로 식별되어, 지능형 서버(200)에 의해 제2 단어로서 "아기"가 선택된 경우가 예시적으로 도시된다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 따른 응답으로서 "집에서 아기와 찍은 사진이 많네요"라는 메시지를 출력(예: 디스플레이) 할 수 있다. 도 8d에서는, 설명의 편의상 "아기"를 포함하는 이미지들이 굵은 선으로서 표시된다. 본 문서의 다양한 실시예들에 따르면 굵게 표시된 선은 설명의 편의를 위한 것으로서, 실제로 디스플레이 되지 않을 수 있다.
도 8e를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은 사용자로부터 발화(예: "어제 에버랜드에서 찍은 사진 보여줘!")를 수신할 수 있다.
도 8f를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 기반하여 응답을 제공할 수 있다. 도 8f에서는, 검색된 이미지 중 웃는 얼굴을 포함하는 이미지의 비율이 가장 높은 것으로 식별되어(예: 18개의 이미지들 중 12개의 이미지들), 지능형 서버(200)에 의해 제2 단어로서 "즐거운" 이라는 단어가 선택된 경우가 예시적으로 도시된다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 따른 응답으로서 "어제 에버랜드에서 즐거우셨나봐요"라는 메시지를 출력(예: 디스플레이) 할 수 있다. 도 8d에서는, 설명의 편의상 "웃는 얼굴"을 포함하는 이미지들이 굵은 선으로서 표시된다. 본 문서의 다양한 실시예들에 따르면 굵게 표시된 선은 설명의 편의를 위한 것으로서, 실제로 디스플레이 되지 않을 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사진이 촬영된 위치에 대한 정보를 기반으로 특정한 위치(예: 주소)에 대응하는 랜드마크의 명칭(예: 에버랜드)을 식별할 수 있다.
도 9a 내지 도 9d는, 사용자의 발화에 따라 검색된 이미지에 포함된 객체 중에서 특정한 표정을 가지는 인물의 일부 영역을 다른 그래픽컬 객체(graphical object)로 변경하여 디스플레이 하는 동작을 설명하기 위한 예시 도면이다. 도 9a에 도시된 동작 900 내지 동작 930에 대해서는 도 7b에서 설명된 동작 720 내지 동작 750에 대한 설명이 동일하게 적용될 수 있다.
도 9a를 참조하면, 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 940에서, 동작 935에 따라 식별된 속성에 기반하여 제2 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 제2 동작 정보는, 사용자 단말(100)이 인물의 표정에 따라 특정한 감정 상태를 가지는 것으로 식별된 인물의 일부 영역을 다른 객체(예: 이모지)로 변경하여 디스플레이 하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 제2 동작 정보는, 사용자 단말(100)이 변경된 객체를 포함하는 인물, 검색 조건(예: "어제 찍은 사진 보여줘!"라는 발화 중 "어제") 및 부가 정보(예: "웃는 사진으로 바꿔봤어요")를 포함하는 응답을 제공하는 동작에 대한 정보를 포함할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 945에서, 제2 동작 정보에 기반하여, 특정한 감정 상태를 가지는 인물의 일부 영역(예: 얼굴)에 다른 객체(예: 이모지)를 삽입 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 950에서, 동작 945에 따라 변경된 객체를 포함하는 인물, 검색 조건(예: "어제 찍은 사진 보여줘!"라는 발화 중 "어제") 및 부가 정보(예: "웃는 사진으로 바꿔봤어요")를 포함하는 응답을 제공할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제1 동작 정보에 따라 적어도 하나의 검색된 이미지(820)(예: "어제 찍은 사진 보여줘!"에 대한 응답으로 디스플레이 되는 적어도 하나의 이미지)에 포함된 인물의 표정을 식별할 수 있다. 도 9b에서는, 제1 동작 정보에 따라 검색된 적어도 하나의 검색된 이미지(820)에 웃는 표정이 아닌 인물(902a)이 포함된 경우가 예시적으로 도시된다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820)에 포함된 인물 중에서 웃는 표정이 아닌 인물(902a)을 식별할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 웃는 표정이 아닌 인물(902a)과 동일한 인물의 사진 중에서 웃는 표정을 가지는 얼굴(904b)을 적어도 하나의 검색된 이미지(820)에 삽입할 수 있다. 도 9c에서는, 지정된 영역(904)(예: 얼굴을 포함하는 영역)에 웃는 표정을 가지는 얼굴 사진(904b)이 삽입되는 실시예가 도시된다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 기반하여 "어제 찍은 사진이에요. 웃는 사진으로 바꿔봤어요"라는 제1 문장(810)을 출력(예: 디스플레이)할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 특정한 그래픽컬 객체의 삽입에 따라, 적어도 하나의 제 2 단어로서, "웃는 사진으로" 및 "바꿔봤어요"라는 단어들을 선택할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 삽입된 그래픽컬 객체(예: 웃는 표정을 가지는 얼굴 사진(904b))를 포함하는 이미지(906)를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 삽입된 그래픽컬 객체가 포함된 이미지(906)의 하부에 사용자 인터페이스(830)를 디스플레이 할 수 있다.
도 9d에서는, 도 9c에서 설명된, 웃는 표정을 가지는 얼굴 사진(904b)이 아닌, 웃는 형상을 가지는 이모지(904b)가 적어도 하나의 검색된 이미지(820)에 삽입되는 실시예가 도시된다. 도 9d와 관련하여, 웃는 형상을 가지는 이모지(904b)가 삽입되는 동작 이외에 다른 동작에 대해서는 도 9c에서 설명된 내용이 동일하게 적용될 수 있다. 도 9c 및 도 9d에서 설명된 본 문서의 다양한 실시예들은, 사용자의 입력에 따라 수행될 수도 있다.
도 10a 내지 도 10c는, 사용자의 발화에 따라 검색된 이미지에 기반하여 제1 부가 정보 및 제2 부가 정보를 제공하는 동작을 설명하기 위한 예시 도면이다. 도 10a의 동작 1000 내지 동작 1040에 대해서는, 도 7b의 동작 720 내지 동작 760에 대한 설명이 동일하게 적용될 수 있다.
도 10a를 참조하면, 동작 1045에서, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 기반하여, 검색된 이미지와 함께 검색 조건(예: 제1 단어, "작년") 및 제1 부가 정보(예: 제2 단어, "즐거운")를 포함하는 응답을 제공할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 부가 정보를 확인하기 위한 사용자 입력을 수신(1050)할 수 있다. 본 문서의 다양한 실시예들에 따른 제2 부가 정보는, 검색된 적어도 하나의 이미지(820) 중에서 가장 높은 비율을 가지는 이미지의 속성(예: 즐거운 감정 상태) 다음으로 많은 비율을 가지는 적어도 하나의 이미지의 속성(예: 아내, 슬픈 감정 상태)에 기반하여 선택된 적어도 하나의 단어(예: 제3 단어, "아내", "싸우실 때도 많았지만")를 포함할 수 있다. 예를 들어, 검색된 이미지 중에서 "즐거운 감정 상태"의 비율이 가장 높고, 그 다음으로 "아내"를 포함하는 이미지의 비율이 높은 경우, 지능형 서버(200)는, "아내"라는 단어를 제2 부가 정보로서 선택할 수 있다. 또한, 검색된 이미지 중에서 슬픈 감정 상태를 가지는 인물을 포함하는 이미지의 비율이 "아내"를 포함하는 이미지의 비율 다음으로 높은 경우, 지능형 서버(200)는, 제2 부가 정보로서 "싸우실 때" 또는 "슬플 때"와 같은 단어를 선택할 수 있다. 또한, 검색된 이미지 중에서 음식을 포함하는 이미지의 비율이 슬픈 감정 상태를 가지는 인물을 포함하는 이미지의 비율 다음으로 높은 경우, 지능형 서버(200)는, 제2 부가 정보로서 "밥도 해먹고" 또는 "맛있는 요리"과 같은 단어를 선택할 수 있다.본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1055에서, 동작 1050에 따라 수신된 사용자 입력에 대한 정보를 지능형 서버(200)로 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 1060에서, 동작 1055에 따라 수신된 사용자 입력에 기반하여 제3 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 제3 동작 정보는, 사용자 단말(100)이 사용자 발화에 포함된 검색 조건(예: 제1 단어), 제1 부가 정보 및 제2 부가 정보(예: 제2 단어 및 제3 단어)를 포함하는 문장을 출력(예: 디스플레이)하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 제3 동작 정보는, 사용자 단말(100)이 적어도 하나의 검색된 이미지(820)를 감정 상태 별로 시간 순서에 따라 정렬하여 제공하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 1065에서, 동작 1055에 따라 생성된 제3 동작 정보를 사용자 단말(100)로 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1070에서, 지능형 서버(200)로부터 수신된 제3 동작 정보에 기반하여, 사용자 발화에 따른 검색 조건, 제1 부가 정보 및 제2 부가 정보를 포함하는 응답을 제공할 수 있다.
도 10b를 참조하면, 사용자 단말(100)은, 사용자 인터페이스(830) 중 특정한 메뉴(예: "스토리 앨범 만들기(836)")를 선택하는 사용자 입력을 수신할 수 있다.
도 10c를 참조하면, 사용자 단말(100)은, 사용자의 특정한 메뉴(예: "스토리 앨범 만들기(836)")의 선택에 따라, 제2 부가 정보(예: "아내", "싸우실 때도 많았지만", "밥도 해먹고", "행복한 생활")를 포함하는 제2 문장(912)을 출력(예: 디스플레이)할 수 있다. 본 문서의 다양한 실시예들에 따른 제2 문장(912)은, 사용자의 요청에 따라 재 구성된 이미지와 함께 제공되는 문장을 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자의 특정한 메뉴(예: "스토리 앨범 만들기(836)")의 선택에 따라, 적어도 하나의 검색된 이미지(820)를 인물의 감정 상태 별로 분류된 이미지(1004)를 디스플레이 할 수 있다. 도 10c에서는, 즐거운 감정을 가지는 이미지들(1004a)과 슬픈 감정을 가지는 이미지들(1004b)이 서로 구분되어 디스플레이 되는 실시예가 도시된다. 본 문서의 다양한 실시예들에 따르면, 즐거운 감정을 가지는 이미지들(1004a)과 슬픈 감정을 가지는 이미지들(1004b) 각각에 포함되는 이미지들은 촬영된 시간 순서에 따라 디스플레이 될 수 있다. 본 문서의 다양한 실시예들에 따르면, 각각의 감정 상태를 가지는 이미지들 각각에, 식별된 감정 상태(예: 즐거움, 슬픔)를 나타내는 그래픽컬 객체가 함께 디스플레이 될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 동작 정보에 기반하여, 제2 문장(912) 및 감정 별로 분류된 이미지들(1004)을 저장하기 위한 메뉴(1006) 및 이전 단계로 되돌아 가기 위한 메뉴(1008)를 디스플레이 할 수 있다.
도 11a 내지 도 11f는, 사용자의 발화에 따라 검색된 이미지 상에, 이미지와 관련된 부가 설명을 추가적으로 디스플레이 하는 동작을 설명하기 위한 예시 도면이다. 도 11a에서, 동작 1100 내지 동작 1145에 대해서는, 도 7b의 동작 720 내지 동작 765에 대한 설명이 동일하게 적용될 수 있다.
도 11a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1150에서, 검색된 이미지 상에 부가 설명을 표시하기 위한 사용자 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 부가 설명은, 특정한 이미지에 포함된 적어도 하나의 객체와 관련된 설명을 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 부가 설명은, 말풍선 형태로 각각의 이미지의 적어도 일부분 상에 디스플레이 될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1155에서, 동작 1150에 따라 수신된 사용자 입력에 대한 정보를 지능형 서버(200)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 사용자 입력 정보의 수신에 따라, 동작 1125에 따라 검색된 이미지의 속성에 기반하여 제4 동작 정보를 생성할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 이미지가 촬영된 위치(예: "부산"), 이미지에 포함된 랜드마크(예: "영도 다리"), 이미지에 포함된 인물의 자세(예: 누워있는 자세, 복수의 인물이 동일한 포즈를 취하고 있는 자세), 이미지에 포함된 인물의 표정(예: 웃는 표정)과 같은 이미지의 속성에 기반하여 부가 설명을 선택할 수 있다. 본 문서의 다양한 실시예들에 따른 부가 설명의 내용은, 지능형 서버(200)에 미리 저장되어 있을 수도 있다. 본 문서의 다양한 실시예들에 따른 제4 동작 정보는 사용자 단말(100)이 적어도 하나의 검색된 이미지(820)와 함께 지능형 서버(200)에 의하여 선택된 부가 설명을 적어도 하나의 검색된 이미지(820)와 함께 디스플레이 하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 1165에서, 생성된 제4 동작 정보를 사용자 단말(100)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1170에서, 제4 동작 정보에 기반하여, 검색된 이미지의 적어도 일부분 상에 부가 설명을 디스플레이 할 수 있다.
도 11b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 검색 조건(예: "부산에서 찍은 사진")을 포함하는 사용자 발화를 수신할 수 있다. 본 문서의 다양한 실시예들에 따르면, 수신된 사용자 발화의 내용은 사용자 단말(100)에 디스플레이 될 수 있다.
도 11c를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자 발화에 따라, 제1 문장(810), 적어도 하나의 검색된 이미지(820) 및 사용자 인터페이스(830) 중 적어도 하나를 디스플레이 할 수 있다.
도 11d를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지 상에 부가 설명을 표시하기 위한 사용자 입력(804)(예: "만화로 만들어줘!")을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 입력(804)은 발화 형식으로 입력될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 부가 설명을 표시하기 위한 사용자 입력(804)(예: "만화로 만들어줘!")을 제1 문장(810), 적어도 하나의 검색된 이미지(820) 및 사용자 인터페이스(830)와 함께 디스플레이 할 수 있다.
도 11e를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 부가 설명을 표시하기 위한 사용자 입력(804)에 대응하는 제2 문장(912)(예: "만화로 만들어 봤어요"), 부가 설명(1104a, 1104b, 1104c, 1104d, 1104e)이 표시된 이미지들(1104), 부가 설명이 표시된 이미지들을 저장하기 위한 메뉴(1113) 및 이전 화면으로 되돌아 가기 위한 메뉴(1114) 중 적어도 하나를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 부가 설명을 말풍선으로 디스플레이 하도록 요청하는 사용자의 입력에 따라 "만화"라는 단어를 선택할 수 있다.
도 12a 내지 도 12d는, 사용자의 발화에 따라 검색된 이미지를 지정된 감정 상태 별로 분류하여 디스플레이 하는 동작을 설명하기 위한 예시 도면이다. 도 12a의 동작 1200 내지 동작 1245에 대해서는 도 7b에서의 동작 720 내지 동작 765에 대한 설명이 동일하게 적용될 수 있다.
도 12a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1250에서, 적어도 하나의 검색된 이미지(820)를 감정 상태에 따라 분류하기 위한 사용자 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 수신된 사용자 입력에 대한 정보를 지능형 서버(200)로 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 사용자 입력 정보에 대한 수신에 따라 제5 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 제5 동작 정보는, 사용자 단말(100)이 적어도 하나의 검색된 이미지(820)에 포함된 인물의 감정 상태를 시간 순서에 따라 정렬하여 그래프 타입으로 디스플레이 하는 동작에 대한 정보를 포함할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 제5 동작 정보는, 사용자 단말(100)이 사용자 발화에 포함된 특정한 월(예: 8월)에 포함되는 적어도 하나의 일(예: 8월 1일, 10일, 20일, 30일)에 촬영된 이미지들 중 각각의 일자에 가장 높은 비율을 가지는 감정 상태(다른 말로, 해당 일의 대표 감정 상태)를 식별하고, 가장 높은 비율을 가지는 감정 상태에 해당하는 적어도 하나의 이미지를 선택하여 디스플레이 하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 적어도 하나의 일(예: 8월 1일, 10일, 20일, 30일)은 사용자에 의하여 지정된 기간(예: 8월) 내에 포함되는 각각의 일자에 획득된 이미지의 수가 미리 지정된 개수(예: 10개) 이상인 경우, 대표 감정을 식별하기 위한 대상 일자로 선택될 수 있다. 본 문서의 다양한 실시예들에 따른 적어도 하나의 일은, 획득된 이미지의 개수와 무관하게 사용자에 의하여 지정된 기간 내에 포함되는 모든 일자가, 대표 감정을 식별하기 위한 대상 일자로 선택될 수 있다. 본 문서의 다양한 실시예들에 따른 제5 동작 정보는, 사용자 단말(100)이 사용자 발화에 포함된 검색 조건과 관련된 이벤트 정보(예: "베이비 페어" 정보, "콘서트" 정보)를 제공하는 동작에 대한 정보를 더 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 1265에서, 동작 1260에 따라 생성된 제5 동작 정보를 사용자 단말(100)로 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1270에서, 수신된 제5 동작 정보에 따라, 적어도 하나의 검색된 이미지(820)를 그래프 타입으로 정렬하여 제공할 수 있다.
도 12b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제1 문장(810), 적어도 하나의 검색된 이미지(820) 및 사용자 인터페이스(830)를 디스플레이 할 수 있다. 도 12b에 도시된 제1 문장(810)은, 사용자 발화(예: "8월에 찍은 사진을 보여줘!")에 대한 응답으로서 제공되는 문장을 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 월의 감정 분포를 확인하기 위한 사용자 입력(1204)(예: "달력으로 만들어줘!")을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 입력(1204)은 사용자의 발화로서 입력될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 수신된 사용자 입력(1204)을 제1 문장(810), 적어도 하나의 검색된 이미지(820) 및 사용자 인터페이스(830) 중 적어도 하나와 함께 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 그래프 타입은 예시적인 것으로서, 캘린더 형식으로 각각의 일자에 해당하는 대표 감정 및 이미지가 디스플레이 될 수도 있다.
도 12c를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820)를 특정한 월의 감정 분포를 확인하기 위한 사용자 입력(1204)에 대한 응답으로, 제2 문장(912)(예: "감정 달력을 만들어 봤어요. 8월에는 좋은 일들이 많았네요"), 특정한 월의 적어도 하나의 일에서의 대표 감정, 적어도 하나의 이미지(1204), 사용자 발화(예: "8월에 찍은 사진 보여줘!")에 포함된 검색 조건과 관련된 이벤트 정보를 제공하기 위한 메뉴(1221) 및 이전 화면으로 되돌아 가기 위한 메뉴(1222)를 디스플레이 할 수 있다. 도 12c에서는 감정 분포가 그래프 타입으로 표현되는 실시예를 도시하고 있지만, 이는 예시적인 것이다. 본 문서의 다양한 실시예들에 따른 그래프 타입에서, X축은 시간(예: 월 및 일)을 나타낼 수 있고, Y축은 감정 확률(예: 즐거운 감정을 가질 확률)을 나타낼 수 있다. 도 12c에서는, 본 문서의 다양한 실시예들에 따른 감정 분포로서, 8월 1일에는 슬픈 감정이 대표 감정으로, 8월 7일에는 즐거운 감정이 대표 감정으로, 8월 25일에는 약간 슬픈 감정이 대표 감정으로 선택된 예를 도시한다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 일자(예: 8월 7일)에 발생된 이벤트 정보(예: 생일)를 함께 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 대표 감정에 대응하는 적어도 하나의 이미지(1204a, 1204b, 1204c)를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820)에 포함된 인물의 표정에 기반하여 촬영 당시의 감정 상태에 대한 확률을 확인할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 각각의 대표 감정에 포함된 이미지의 수에 기반하여 제2 단어를 선택할 수 있다. 예를 들어, 도 12c에 도시된 바와 같이, 적어도 하나의 검색된 이미지(820) 중에 즐거운 감정에 대응하는 이미지의 수가 가장 많은 경우, 지능형 서버(200)는, "좋은 일들이 많았네요"라는 문장 또는 단어를 선택할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는 가장 많은 이미지가 포함된 날짜를 확인할 수 있다. 예를 들어, 즐거운 감정 상태로 식별된 이미지가 8월 7일에 가장 많은 경우, 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, "8월 초"라는 단어를 선택할 수 있다. 이와 같은 동작을 통하여, 사용자 단말(100)은 사용자의 발화에 포함된 특정한 기간(예: 8월) 동안의 감정을 요약적으로 사용자에게 제공할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 선택된 문장 또는 단어에 대한 정보를 출력하는 동작을 제5 동작 정보로서 사용자 단말(100)에 제공할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자 발화(예: "8월에 찍은 사진 보여줘!")에 포함된 검색 조건과 관련된 이벤트 정보를 제공하기 위한 메뉴(1221)에 대한 선택 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자 발화(예: "8월에 찍은 사진 보여줘!")에 포함된 검색 조건과 관련된 이벤트 정보를 제공하기 위한 메뉴(1221)에 대한 선택 입력에 따라, 도 12d에 도시된 바와 같이, 사용자 발화(예: "8월에 찍은 사진 보여줘!")에 포함된 검색 조건(예; "8월에 찍은 사진")과 관련된 이벤트 정보(예: 9월에 진행 예정인 이벤트들)(1290)를 제공할 수 있다. 도 12d에서는 이벤트 정보(1290)의 예시로서, "베이비 페어" 이벤트(1292) 및 "가을 어린이 축제" 이벤트(1294)에 대한 정보가 제공되는 실시예가 도시된다.
도 13a 내지 도 13e는, 사용자의 발화에 따라 검색된 이미지를 특정한 감정 상태에 따라 선택적으로 디스플레이 하는 동작을 설명하기 위한 예시 도면이다. 도 13a의 동작 1300 내지 동작 1345에 대해서는 도 7b의 동작 720 내지 동작 765에 대한 설명이 동일하게 적용될 수 있다.
도 13a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 검색된 이미지의 재 분류(다른 말로, 선택적으로 디스플레이)를 위한 사용자 입력을 수신할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자 입력에 따라, 적어도 하나의 검색된 이미지들 중에서 웃는 표정을 가지는 적어도 하나의 이미지를 선택적으로 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1350에 따라 수신된 사용자 입력 정보를 지능형 서버(200)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 수신된 사용자 입력 정보에 따라 제6 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 제6 동작 정보는, 사용자 단말(100)이 적어도 하나의 검색된 이미지 중에서 사용자의 분류 기준(예: 웃는 사진만을 디스플레이)에 따라 선택된 이미지를 제공하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 1365에서, 생성된 제6 동작 정보를 사용자 단말(100)로 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1370에서, 지능형 서버(200)로부터 수신된 제6 동작 정보에 기반하여, 적어도 하나의 검색된 이미지 중에서 사용자에 의해 선택된 분류 기준에 따라 선택된 이미지를 제공할 수 있다.
도 13b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자로부터 적어도 하나의 검색된 이미지를 재 분류하기 위한 입력을 수신할 수 있다. 예를 들어, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자로부터 "즐거웠던 사진만 보기" 메뉴(834)를 선택받을 수 있다. 본 문서의 다양한 실시예들에 따르면, 적어도 하나의 검색된 이미지를 재분류하기 위한 입력은 사용자의 발화를 통해서도 입력받을 수 있다.
도 13c를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자의 입력을 수신함에 따라, 적어도 하나의 검색된 이미지 중에서 사용자에 의하여 재 분류된 적어도 하나의 이미지(1304)(예: 웃는 표정을 가지는 인물을 포함하는 적어도 하나의 이미지)를 디스플레이 할 수 있다. 도 13c에서는 사용자의 입력에 따라 사용자 단말(100)이 특정한 사용자에 대해서만 선택적으로 웃는 이미지를 디스플레이 하는 실시예가 도시된다. 본 문서의 다양한 실시예들에 따르면, 사용자 단말(100)은 적어도 하나의 검색된 이미지 중에서 웃는 표정을 가지는 이미지를 모두 선택하여 디스플레이 할 수도 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자에 의하여 재 분류된 적어도 하나의 이미지(1304) 이외에, 재 분류된 적어도 하나의 이미지(1304)를 설명하기 위한 제2 문장(912)(예: "사진들을 보니, 참 많이 웃으시네요. 웃는 모습만 모아드렸어요")을 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 적어도 하나의 검색된 이미지(820)를 재 분류하기 위한 사용자의 입력에 따라 제2 문장(912)을 선택하는 동작, 및 사용자 단말(100)이 제2 문장(912)을 디스플레이 하는 동작을 제6 동작 정보로서 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 재 분류된 적어도 하나의 이미지(1304)를 저장하기 위한 메뉴(1331) 및 이전 화면으로 되돌아가기 위한 메뉴(1332)를 디스플레이 할 수 있다.
도 13d를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820) 중에서 특정한 인물(예: 아기)과 함께 촬영된 이미지만을 확인하기 위한 사용자 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 인물(예: 아기)과 함께 촬영된 이미지만을 확인하기 위한 사용자 입력을 수신함에 따라, 재 분류된 적어도 하나의 이미지(1304)로서, 특정한 인물과 촬영된 사진만을 선택적으로 디스플레이 할 수 있다. 이 경우, 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 특정한 인물과 촬영된 사진을 선택적으로 디스플레이 하는 동작을 제6 동작 정보로서 생성할 수 있다.
도 14a 내지 도 14d는, 사용자의 발화에 따라 검색된 이미지에 특정한 시각적 효과를 부가하거나 검색된 이미지와 대응하는 다른 이미지로 변경하여 디스플레이 하는 동작을 설명하기 위한 예시 도면이다. 도 14a의 동작 1400 내지 동작 1445에 대해서는 도 7b의 동작 720 내지 동작 765에 대한 설명이 동일하게 적용될 수 있다.
도 14a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1445에서, 적어도 하나의 검색된 이미지에 지정된 시각적 효과(예: 수채화 효과)를 적용하기 위한 사용자 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 입력은, 특정한 메뉴에 대한 터치 입력 또는 발화로서 수신될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 수신된 사용자 입력을 지능형 서버(200)에 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 1460에서, 수신된 사용자 입력에 따라 제7 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 제7 동작 정보는, 사용자 단말(100)이 적어도 하나의 검색된 이미지 중에서 적어도 하나의 이미지에 대해 지정된 시각적 효과를 적용하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따르면, 지정된 시각적 효과가 적용되는 적어도 하나의 이미지는 특정한 인물(다른 말로, 사용자)을 포함하는 이미지를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 특정한 인물은, 지능형 서버(200)에 의해 지정될 수 있거나, 미리 지정되어 있을 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 생성된 제7 동작 정보를 사용자 단말(100)로 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1470에서, 수신된 제7 동작 정보에 따라 적어도 하나의 이미지에 지정된 시각적 효과를 적용할 수 있다.
도 14b를 참조하면, 사용자 단말(100)은 특정한 인물을 포함하는 이미지에 대해서 지정된 시각적 효과(예: 수채화 효과)를 적용한 결과를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 지정된 시각적 효과가 적용된 이미지와 함께, 제2 응답(912)으로서 "A 님의 사진에 특별한 효과를 적용해 봤어요"라는 문장을 출력(예: 디스플레이)할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 시각적 효과가 적용될 이미지 및 사용자 단말(100)이 시각적 효과가 적용되기 전의 이미지 및 적용된 후의 이미지를 함께 디스플레이 하는 동작에 대한 정보를 제7 동작 정보로서 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 지정된 시각적 효과를 적용하기 위한 메뉴(1431) 및 이전 화면으로 되돌아가기 위한 메뉴(1432)를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따르면, 시각적 효과가 적용될 이미지는 특정한 인물과 특정한 관계를 가지는 인물들(예: 가족)에 대해서 모두 적용될 수 있다. 도 14c를 참조하면, 특정한 인물과 특정한 관계를 가지는 인물들에 대해서 모두 지정된 시각적 효과가 적용되는 실시예가 도시된다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 인물과 유사한 캐릭터 이미지를 검색하여 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820)에 포함된 인물의 특징점을 식별하고, 식별된 특징점과 유사한 특징점을 가지는 캐릭터 이미지(1406)를 네트워크를 통하여 검색하거나, 또는 사용자 단말(100)에 저장되어 있는 캐릭터를 검색할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 검색된 캐릭터 이미지를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 검색된 캐릭터 이미지(1406)와 함께, 제2 응답(912)으로서 "A 님의 사진을 비슷한 만화 캐릭터로 바꿔봤어요"라는 문장을 출력(예: 디스플레이)할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 지정된 시각적 효과를 적용하기 위한 메뉴(1431) 및 이전 화면으로 되돌아가기 위한 메뉴(1432)를 디스플레이 할 수 있다.
도 15a 내지 도 15c는, 사용자의 발화에 따라 검색된 이미지 중에서 특정한 감정 상태를 가지는 적어도 하나의 이미지를 삭제하는 동작을 설명하기 위한 예시 도면이다. 도 15a의 동작 1500 내지 동작 1545에 대해서는 도 7b의 동작 720 내지 동작 765에 대한 설명이 동일하게 적용될 수 있다.
도 15a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1550에서, 특정한 표정을 가지는 이미지를 삭제하기 위한 사용자 입력을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1555에서, 수신된 사용자 입력 정보를 지능형 서버(200)로 전송할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 수신된 사용자 입력 정보에 따라 제8 동작 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 제8 동작 정보는, 사용자 단말(100)이 적어도 하나의 검색된 이미지(820)에서 특정한 표정(예: 찡그린 표정)을 가지는 이미지를 검색하여 디스플레이 하는 동작 및 사용자의 요청에 따라 특정한 표정을 가지는 이미지를 삭제하는 동작에 대한 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 동작 1565에서, 생성된 제8 동작 정보에 대한 정보를 사용자 단말(100)로 전송할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1570에서,제8 동작 정보에 따라, 적어도 하나의 검색된 이미지 중에서 특정한 표정을 가지는 이미지를 검색하고 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1575에서, 사용자의 요청에 따라, 특정한 표정을 가지는 이미지를 삭제할 수 있다.
도 15b를 참조하면, 사용자 단말(100)은, 제1 응답(810), 적어도 하나의 검색된 이미지(820) 및 사용자 인터페이스(830) 중 적어도 하나를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 적어도 하나의 검색된 이미지(820)을 추가적으로 디스플레이 하기 위한 인디케이터(1501)를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 표정을 삭제하기 위한 메뉴(838)(예: "NG 컷 보기")를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 표정을 삭제하기 위한 메뉴(838)를 선택하는 사용자 입력을 수신할 수 있다.
도 15c를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 표정을 삭제하기 위한 메뉴(838)를 선택하는 사용자 입력에 따라, 적어도 하나의 검색된 이미지(820) 중에서 특정한 표정을 가지는 적어도 하나의 이미지(1504)를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 문장(912)으로서, "어제 찍은 사진 중에 8장의 찡그린 사진을 찾아봤어요"라는 문장을 출력(예: 디스플레이)할 수 있다. 본 문서의 다양한 실시예들에 따른 지능형 서버(200)는, 제8 동작 정보로서, 사용자 단말(100)이 "어제 찍은 사진 중에 8장의 찡그린 사진을 찾아봤어요"라는 문장을 출력하는 동작에 대한 정보를 생성할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 표정을 가지는 적어도 하나의 이미지(1504)를 삭제하기 위한 메뉴(1531) 및 이전 화면으로 되돌아가기 위한 메뉴(1532)를 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따르면, 특정한 표정을 가지는 적어도 하나의 이미지(1504)를 삭제하기 위한 메뉴(1531)를 선택하면, 사용자 단말(100)은 삭제할 이미지를 선택받을 체크 박스를 각각의 이미지 상에 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 특정한 표정을 가지는 적어도 하나의 이미지(1504) 중 적어도 하나의 이미지를 삭제하기 위한 사용자 입력에 따라, 선택된 적어도 하나의 이미지를 삭제할 수 있다. 본 문서의 다양한 실시예들에 따른 삭제 요청은, 메뉴(1531)에 대한 선택과 대체적으로/교환적으로 사용자의 발화(예: "찡그린 사진 삭제해 줘!")로서 입력될 수도 있다.
도 16a 내지 도 16c는, 사용자 단말(100)에 대한 사용자의 근접 또는 사용자의 시선을 식별하여 지정된 문장을 출력하는 동작을 설명하기 위한 예시 도면이다.
도 16a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1600에서, 사용자의 근접 및 사용자의 시선을 확인할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자의 근접 및 사용자의 시선을 사용자 단말(100)의 센서 모듈(예: 카메라 모듈)에 의해 확인할 수 있다.
본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1610에서, 사용자가 지정된 범위 내에 있음을 검출하고, 사용자의 시선이 사용자 단말(100)로 향함을 식별하면, 지정된 문장을 발화할 수 있다.
도 16b에서는, 사용자(1640)가 사용자 단말(100)로부터 지정된 범위(1630)내에 위치하고, 사용자(1640)의 시선이 사용자 단말(100)을 향하는 경우를 도시한다. 이 경우, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 지정된 문장(1620)(예: "제가 필요하신가요?")을 출력할 수 있다. 본 문서의 다양한 실시예들에 따른 지정된 발화를 출력하는 동작은, 지능형 서버(200)에 의하여 제어(예: 지능형 서버(200)로부터 동작 정보를 수신하여 동작 정보에 따라 출력)될 수 있다. 또는, 본 문서의 다양한 실시예들에 따른 지정된 발화를 출력하는 동작은, 사용자 단말(100)의 프로세서(150)에 의하여 제어될 수도 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 지정된 문장(1620)(예: "제가 필요하신가요?")을 출력하면서, 지정된 색상을 가지는 인디케이터를 지정된 속도로 깜빡거리도록 출력할 수 있다.
도 16c에서는, 지정된 1음절의 단어로서 사용자 단말을 웨이크 업하는 실시예가 도시된다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 1음절의 단어(예: "A야")를 포함하는 사용자의 발화를 수신하면, 슬립 상태에서 웨이크 업 상태(예: 지능형 어플리케이션을 실행하는 상태)로 전환할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 웨이크 업 상태로 전환되면 지정된 문장(1620) (예: "제가 필요하신가요?")을 출력할 수 있다.
도 17a 및 도 17b는, 사용자의 시선 또는 사용자의 발화에 기반하여 실행 중인 지능형 어플리케이션의 실행을 유지하는 동작을 설명하기 위한 예시 도면이다.
도 17a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1700에서, 사용자의 시선을 검출할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1710에서, 사용자의 시선이 지정된 시간 이상 연속적으로 검출되는지 여부를 확인할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1720에서, 사용자의 시선이 지정된 시간 이상 연속적으로 검출됨을 확인한 경우(동작 1710-예), 지능형 어플리케이션의 실행을 유지할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1730에서, 사용자의 시선이 지정된 시간 이상 연속적으로 검출됨을 확인한 경우(동작 1710-아니오), 지능형 어플리케이션의 실행을 종료할 수 있다. 도 17a에 도시된 본 문서의 다양한 실시예들에 따른 동작들은, 사용자 단말(예: 프로세서(150)) 또는 지능형 서버(200)에 의해서 제어될 수 있다.
도 17b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1740에서, 사용자의 발화 중에서 지정된 단어의 포함을 식별할 수 있다. 본 문서의 다양한 실시예들에 따른 지정된 단어는, "음" 또는 "그래서"와 같이 사용자의 발화 중에 무의식적으로 언급되는 단어를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1750에서, 사용자의 발화 중에서 지정된 단어의 포함이 식별되면, 지능형 어플리케이션의 실행을 유지할 수 있다. 도 17b에 도시된 본 문서의 다양한 실시예들에 따른 동작들은, 사용자 단말(예: 프로세서(150)) 또는 지능형 서버(200)에 의해서 제어될 수 있다.
도 18a 및 도 18b는, 사용자의 시선 또는 사용자의 발화에 기반하여 실행 중인 지능형 어플리케이션의 실행을 종료하는 동작을 설명하기 위한 예시 도면이다.
도 18a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1800에서, 사용자의 움직임을 확인할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1810에서, 사용자의 움직임이 검출되는지 여부를 확인할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1820에서, 사용자의 움직임이 검출된 경우(동작 1810-아니오) 지능형 어플리케이션의 실행을 종료할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1830에서, 사용자의 움직임이 검출된 경우(동작 1810-예) 지능형 어플리케이션의 실행을 유지할 수 있다. 도 18a에 도시된 본 문서의 다양한 실시예들에 따른 동작들은, 사용자 단말(예: 프로세서(150)) 또는 지능형 서버(200)에 의해서 제어될 수 있다.
도 18b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1840에서, 사용자의 발화를 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1850에서, 사용자의 발화에 지정된 단어가 포함되었는지 여부를 확인할 수 있다. 본 문서의 다양한 실시예들에 따른 지정된 단어는, 예를 들어, "알려줘"와 같은 명령성 단어 또는 "뭐야?" 와 같은 질의성 단어를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1860에서, 지정된 단어가 포함되지 않은 경우(동작 1850-아니오), 지능형 어플리케이션의 실행을 종료할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1870에서, 지정된 단어가 포함된 경우(동작 1850-예), 지능형 어플리케이션의 실행을 유지할 수 있다. 도 18b에 도시된 본 문서의 다양한 실시예들에 따른 동작들은, 사용자 단말(예: 프로세서(150)) 또는 지능형 서버(200)에 의해서 제어될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 지능형 어플리케이션이 실행 중인 동안, 지정된 색상을 가지는 인디케이터를 지정된 시간 간격에 따라 깜빡이도록 출력할 수 있다.
도 19a 내지도 19c는, 임의의 사용자 발화에 기반하여 사용자의 음성을 등록하는 동작을 설명하기 위한 예시 도면이다.
도 19a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1900에서, 사용자의 음성 정보를 획득할 수 있다. 본 문서의 다양한 실시예들에 따르면, 동작 1900에 따라 획득되는 사용자의 음성 정보는, 사용자의 음성 정보를 등록하기 위하여 미리 지정된 문장에 따른 음성 정보가 아닌, 사용자의 임의의 발화에 기반한 음성 정보를 포함할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 1910에서, 획득된 음성 정보를 이용하여 지능형 서비스를 제공하기 위한 사용자를 등록할 수 있다.
도 19b 및 도 19c에서는, 미리 지정된 문장이 아닌, 사용자의 임의의 발화를 기반으로 사용자를 식별하기 위한 사용자의 음성을 사용자 단말(100) 또는 지능형 서버(200)에 저장하는 실시예가 도시된다.
도 19b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자의 음성을 등록하기 위하여 대화 형식(예: "안녕, 내 이름은 빅스비야. 너 이름은 뭐니?")으로 사용자에게 제1 질문(1930)을 출력할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사운드로서 출력된 제1 질문(1930)을 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제1 질문(1930)에 대한 응답으로, 사용자로부터 응답(1940)(예: "내 이름은 김 삼성이야")을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 수신된 제1 응답(1940)을 이용하여 사용자를 등록할 수 있다.
도 19c를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사용자의 음성을 등록하기 위하여 퀴즈 형식(예: "퀴즈! 아래 문장에 들어갈 내용은?")으로 사용자에게 제2 질문(1950) 출력할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 사운드로서 출력된 제2 질문(1950)을 디스플레이 할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제2 질문(1950)에 대한 응답으로, 사용자로부터 제2 응답(1960)(예: "무궁화 꽃이 피었습니다")을 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 수신된 제2 응답(1960)을 이용하여 사용자를 등록할 수 있다.
도 20a 내지 도 20c는, 제1 사용자가 지능형 어플리케이션을 사용하는 중에 제2 사용자의 발화가 입력된 경우, 제1 사용자의 발화 및 제2 사용자의 발화를 함께 처리하는 동작을 설명하기 위한 예시 도면이다.
도 20a를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 2000에서, 제1 사용자의 발화를 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 2010에서, 제2 사용자의 발화를 수신할 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 동작 2020에서, 제1 사용자의 발화 및 제2 사용자의 발화 각각에 대응하는 태스크를 수행할 수 있다.
도 20b를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제1 사용자(예: speaker A)(2030)와 제2 사용자(예: speaker B)(2040)의 음성의 파형을 구분하여 서로 상이한 사용자로부터의 발화를 구분할 수 있다.
도 20c를 참조하면, 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 제1 사용자(예: Kim)의 발화가 입력된 후, 미리 지정된 시간 이내에 제2 사용자(예: Lee)의 발화가 입력된 경우, 각각의 사용자에 대한 발화에 대한 태스크를 수행하고, 태스크 수행 결과(2050)를 출력할 수 있다.
본 문서에서 설명되는, 지능형 서버(200)에 의해 수행되는 다양한 동작들은 사용자 단말(100)의 프로세서(150)에 의해서도 수행될 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 사용자 단말(100)은 다양한 형태의 장치가 될 수 있다. 본 문서의 다양한 실시예들에 따른 사용자 단말(100)은, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 사용자 단말(100)은 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 사용자 단말(100)) 의해 읽을 수 있는 저장 매체(storage medium)에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, "비일시적"은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims (20)

  1. 사용자 단말에 있어서,
    상기 사용자 단말의 일부분이거나 상기 사용자 단말과 원격으로 통신하는 적어도 하나의 프로세서, 및
    상기 사용자 단말 상에 또는 상기 사용자 단말의 외부에 위치하여, 상기 적어도 하나의 프로세서와 동작 가능하도록 연결된 메모리를 포함하고,
    상기 메모리는, 실행 시에, 상기 적어도 하나의 프로세서가,
    사용자의 발화를 수신하고, 상기 사용자의 발화는 복수의 이미지들을 분류하기 위한 제1 단어를 포함하고,
    상기 통신 회로를 이용하여 외부 사용자 단말로 상기 수신된 사용자의 발화에 대한 정보를 전송하고,
    상기 전송에 기반하여, 상기 외부 전자 장치로부터 상기 사용자의 발화와 관련된 동작 정보를 수신하여 상기 수신된 동작 정보에 따른 태스크(task)를 수행하도록 설정된 인스트럭션들을 저장하도록 설정되고, 상기 동작 정보는, 상기 적어도 하나의 제1 단어 및 상기 적어도 하나의 제1 단어에 따라 분류된 복수의 이미지들의 속성 정보를 나타내는 적어도 하나의 제2 단어를 제공하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  2. 제1항에 있어서,
    상기 속성 정보는, 상기 복수의 이미지들이 촬영된 위치에 대한 정보, 상기 복수의 이미지들이 촬영된 시간에 대한 정보, 상기 복수의 이미지들에 포함된 복수의 인물들 간의 관계에 대한 정보, 상기 복수의 이미지들에 포함된 적어도 하나의 인물과 관련된 감정에 대한 정보 및 상기 복수의 이미지들과 관련된 이벤트 정보 중 적어도 하나를 포함함을 특징으로 하는, 사용자 단말.
  3. 제1항에 있어서,
    상기 동작 정보는, 상기 적어도 하나의 프로세서가, 상기 속성 정보에 따라 상기 복수의 이미지들을 분류하기 위한 적어도 하나의 사용자 인터페이스를 상기 사용자 단말의 터치스크린 디스플레이에 디스플레이 하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  4. 제3항에 있어서,
    상기 동작 정보는, 상기 적어도 하나의 프로세서가,
    상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 따라, 상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 대한 응답으로 상기 복수의 이미지에 포함된 적어도 하나의 인물의 표정을 검출하는 동작, 및
    상기 검출된 표정에 기반하여 식별된 상기 인물의 감정 상태가 제1 감정 상태로 식별되면, 상기 인물의 지정된 영역을 미리 지정된 그래픽컬 객체로 변경하여 상기 터치스크린 디스플레이에 디스플레이 하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  5. 제3항에 있어서,
    상기 동작 정보는, 상기 적어도 하나의 프로세서가,
    상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 따라, 상기 복수의 이미지에 포함된 복수의 인물 사이의 관계, 상기 복수의 인물의 감정 상태 및 상기 복수의 이미지가 촬영된 위치 중 적어도 하나를 식별하여 상기 외부 전자 장치로 전송하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  6. 제5항에 있어서,
    상기 동작 정보는, 상기 적어도 하나의 프로세서가, 상기 복수의 인물 사이의 관계, 상기 감정 상태 및 상기 위치 중 적어도 하나에 기반하여 상기 외부 전자 장치에 의하여 생성된 제3 단어를 제공하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  7. 제1항에 있어서,
    상기 동작 정보는, 상기 복수의 이미지들 중에서 적어도 하나의 이미지에, 상기 적어도 하나의 이미지의 속성 정보 관련된 부가 설명을 상기 복수의 이미지들 중 적어도 하나의 이미지 상에 디스플레이 하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  8. 제1항에 있어서,
    상기 동작 정보는, 상기 복수의 이미지들 및 상기 제1 단어와 관련된 추천 이벤트 정보를 제공하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  9. 제3항에 있어서,
    상기 동작 정보는, 상기 적어도 하나의 프로세서가, 상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 따라, 상기 복수의 이미지들 중에서, 사용자에 의하여 선택된 감정 상태와 대응하는 표정을 가지는 인물을 포함하는 적어도 하나의 이미지를 선택하여 디스플레이 하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  10. 제3항에 있어서,
    상기 동작 정보는, 상기 적어도 하나의 프로세서가, 상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 따라, 상기 복수의 이미지에 포함된 이미지 중 인물을 포함하는 적어도 하나의 이미지에 대해서, 상기 인물과 대응하는 이미지로 변경하여 상기 터치스크린 디스플레이에 디스플레이 하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  11. 제3항에 있어서,
    상기 동작 정보는, 상기 적어도 하나의 프로세서가, 상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 따라, 특정한 감정과 대응하는 표정을 가지는 인물을 포함하는 적어도 하나의 이미지를 삭제하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말.
  12. 사용자 단말의 제어 방법에 있어서,
    사용자의 발화를 수신하는 동작과, 상기 사용자의 발화는 복수의 이미지들을 분류하기 위한 제1 단어를 포함하고,
    상기 사용자 단말의 통신 회로를 이용하여, 외부 전자 장치로 상기 수신된 사용자의 발화에 대한 정보를 전송하는 동작과, 및
    상기 전송에 기반하여, 상기 외부 전자 장치로부터 상기 사용자의 발화와 관련된 동작 정보를 수신하여 상기 수신된 동작 정보에 따른 태스크(task)를 수행하는 동작을 포함하고, 상기 동작 정보는, 상기 제1 단어 및 상기 제1 단어에 따라 분류된 복수의 이미지들의 속성 정보를 나타내는 적어도 하나의 제2 단어를 제공하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말의 제어 방법.
  13. 제12항에 있어서,
    상기 속성 정보는, 상기 복수의 이미지들이 촬영된 위치에 대한 정보, 상기 복수의 이미지들이 촬영된 시간에 대한 정보, 상기 복수의 이미지들에 포함된 복수의 인물들 간의 관계에 대한 정보, 상기 복수의 이미지들에 포함된 적어도 하나의 인물과 관련된 감정에 대한 정보 및 상기 복수의 이미지들과 관련된 이벤트 정보 중 적어도 하나를 포함함을 특징으로 하는, 사용자 단말의 제어 방법.
  14. 제12항에 있어서,
    상기 동작 정보는, 상기 사용자 단말의 적어도 하나의 프로세서가, 상기 속성 정보에 따라 상기 복수의 이미지들을 분류하기 위한 적어도 하나의 사용자 인터페이스를 상기 사용자 단말의 터치스크린 디스플레이에 디스플레이 하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말의 제어 방법.
  15. 제12항에 있어서,
    상기 동작 정보는, 상기 사용자 단말의 적어도 하나의 프로세서가,
    상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 따라, 상기 적어도 하나의 사용자 인터페이스에 대한 사용자의 입력에 대한 응답으로 상기 복수의 이미지에 포함된 적어도 하나의 인물의 표정을 검출하는 동작, 및
    상기 검출된 표정에 기반하여 식별된 상기 인물의 감정 상태가 제1 감정 상태로 식별되면, 상기 인물의 지정된 영역을 미리 지정된 그래픽컬 객체로 변경하여 상기 사용자 단말의 터치스크린 디스플레이에 디스플레이 하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말의 제어 방법.
  16. 제12항에 있어서,
    상기 동작 정보는, 상기 복수의 이미지들 및 상기 제1 단어와 관련된 추천 이벤트 정보를 제공하는 동작을 포함하는 것을 특징으로 하는, 사용자 단말의 제어 방법.
  17. 사용자 단말에 있어서,
    상기 사용자 단말의 일부분이거나 상기 사용자 단말과 원격으로 통신하는 적어도 하나의 프로세서, 및
    상기 사용자 단말 상에 또는 상기 사용자 단말의 외부에 위치하여, 상기 적어도 하나의 프로세서와 동작 가능하도록 연결된 메모리를 포함하고,
    상기 메모리는, 실행 시에, 상기 적어도 하나의 프로세서가,
    사용자의 발화를 수신하고, 상기 사용자의 발화는 복수의 이미지들을 분류하기 위한 제1 단어를 포함하고,
    상기 발화의 수신에 기반하여, 상기 사용자의 발화와 관련된 태스크를 수행하도록 설정된 인스트럭션들을 저장하도록 설정되고, 상기 태스크는, 상기 적어도 하나의 제1 단어 및 상기 적어도 하나의 제1 단어에 따라 분류된 복수의 이미지들의 속성 정보를 나타내는 적어도 하나의 제2 단어를 제공하는 태스크를 포함하는 것을 특징으로 하는, 사용자 단말.
  18. 제17항에 있어서,
    상기 속성 정보는, 상기 복수의 이미지들이 촬영된 위치에 대한 정보, 상기 복수의 이미지들이 촬영된 시간에 대한 정보, 상기 복수의 이미지들에 포함된 복수의 인물들 간의 관계에 대한 정보, 상기 복수의 이미지들에 포함된 적어도 하나의 인물과 관련된 감정에 대한 정보 및 상기 복수의 이미지들과 관련된 이벤트 정보 중 적어도 하나를 포함함을 특징으로 하는, 사용자 단말.
  19. 제17항에 있어서,
    상기 태스크는, 상기 적어도 하나의 프로세서가, 상기 속성 정보에 따라 상기 복수의 이미지들을 분류하기 위한 적어도 하나의 사용자 인터페이스를 상기 사용자 단말의 터치스크린 디스플레이에 디스플레이 하는 태스크를 포함하는 것을 특징으로 하는, 사용자 단말.
  20. 제1항에 있어서,
    상기 태스크는, 상기 복수의 이미지들 중에서 적어도 하나의 이미지에, 상기 적어도 하나의 이미지의 속성 정보 관련된 부가 설명을 상기 복수의 이미지들 중 적어도 하나의 이미지 상에 디스플레이 하는 태스크를 포함하는 것을 특징으로 하는, 사용자 단말.


KR1020180120779A 2018-10-10 2018-10-10 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법 KR20200040625A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020180120779A KR20200040625A (ko) 2018-10-10 2018-10-10 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법
US16/596,083 US11443738B2 (en) 2018-10-10 2019-10-08 Electronic device processing user utterance and control method thereof
CN201910953329.2A CN111107218B (zh) 2018-10-10 2019-10-09 处理用户话语的电子装置及其控制方法
PCT/KR2019/013283 WO2020076089A1 (en) 2018-10-10 2019-10-10 Electronic device processing user utterance and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180120779A KR20200040625A (ko) 2018-10-10 2018-10-10 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20200040625A true KR20200040625A (ko) 2020-04-20

Family

ID=70160350

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180120779A KR20200040625A (ko) 2018-10-10 2018-10-10 사용자의 발화를 처리하는 사용자 단말 및 그 제어 방법

Country Status (4)

Country Link
US (1) US11443738B2 (ko)
KR (1) KR20200040625A (ko)
CN (1) CN111107218B (ko)
WO (1) WO2020076089A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102478367B1 (ko) * 2022-05-10 2022-12-16 주식회사 메타크라우드 이미지 인식 기반 음원 매칭 및 추천 방법, 장치 및 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD1013718S1 (en) * 2021-08-30 2024-02-06 Samsung Electronics Co., Ltd. Display screen or portion thereof with animated graphical user interface

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4197019B2 (ja) 2006-08-02 2008-12-17 ソニー株式会社 撮像装置および表情評価装置
JP4905099B2 (ja) 2006-12-07 2012-03-28 富士ゼロックス株式会社 データ検索システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8126715B2 (en) 2008-11-26 2012-02-28 Microsoft Corporation Facilitating multimodal interaction with grammar-based speech applications
US8078623B2 (en) 2009-10-14 2011-12-13 Cyberlink Corp. Systems and methods for summarizing photos based on photo information and user preference
US8789120B2 (en) 2012-03-21 2014-07-22 Sony Corporation Temporal video tagging and distribution
KR101988279B1 (ko) * 2013-01-07 2019-06-12 삼성전자 주식회사 얼굴 인식 기반 사용자 기능 운용 방법 및 이를 지원하는 단말기
US9639743B2 (en) 2013-05-02 2017-05-02 Emotient, Inc. Anonymization of facial images
US9443167B2 (en) 2013-08-02 2016-09-13 Emotient, Inc. Filter and shutter based on image emotion content
US10726831B2 (en) 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US9558428B1 (en) * 2014-07-18 2017-01-31 Samuel B. Green Inductive image editing based on learned stylistic preferences
KR20160044194A (ko) 2014-10-15 2016-04-25 주식회사 인프라웨어 터치 스크린을 구비하는 전자기기 상의 복수객체에서 객체를 선택하는 방법 및 장치
KR102453603B1 (ko) 2015-11-10 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102462644B1 (ko) * 2016-04-01 2022-11-03 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180060328A (ko) 2016-11-28 2018-06-07 삼성전자주식회사 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
US10547729B2 (en) * 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
KR102366617B1 (ko) * 2017-03-28 2022-02-23 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102478367B1 (ko) * 2022-05-10 2022-12-16 주식회사 메타크라우드 이미지 인식 기반 음원 매칭 및 추천 방법, 장치 및 시스템

Also Published As

Publication number Publication date
US20200118562A1 (en) 2020-04-16
US11443738B2 (en) 2022-09-13
CN111107218A (zh) 2020-05-05
CN111107218B (zh) 2023-04-18
WO2020076089A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
US11367439B2 (en) Electronic device and method for providing artificial intelligence services based on pre-gathered conversations
US10832674B2 (en) Voice data processing method and electronic device supporting the same
JP6738445B2 (ja) デジタルアシスタントサービスの遠距離拡張
US11677690B2 (en) Method for providing service by using chatbot and device therefor
KR20190006403A (ko) 음성 처리 방법 및 이를 지원하는 시스템
KR20200113105A (ko) 응답을 제공하는 전자 장치와 이의 동작 방법
KR20190099761A (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
KR20190101630A (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
KR102406718B1 (ko) 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템
KR102508677B1 (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
CN110462647B (zh) 电子设备及执行电子设备的功能的方法
CN111542814A (zh) 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质
KR20190032026A (ko) 자연어 표현 제공 방법 및 이를 지원하는 전자 장치
US20190302970A1 (en) Method for executing application and electronic device supporting the same
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
US11443738B2 (en) Electronic device processing user utterance and control method thereof
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
KR102426411B1 (ko) 사용자 발화을 처리하는 전자 장치 및 시스템
US11145290B2 (en) System including electronic device of processing user's speech and method of controlling speech recognition on electronic device
KR20190083884A (ko) 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
CN112513833B (zh) 用于基于预先合成的对话提供人工智能服务的电子设备和方法
JP7474211B2 (ja) ユーザから発話された名詞を忘却する対話プログラム、装置及び方法
CN115312058A (zh) 文本显示方法、电子设备及装置

Legal Events

Date Code Title Description
A201 Request for examination