KR102413860B1 - Voice agent system and method for generating responses based on user context - Google Patents
Voice agent system and method for generating responses based on user context Download PDFInfo
- Publication number
- KR102413860B1 KR102413860B1 KR1020190156722A KR20190156722A KR102413860B1 KR 102413860 B1 KR102413860 B1 KR 102413860B1 KR 1020190156722 A KR1020190156722 A KR 1020190156722A KR 20190156722 A KR20190156722 A KR 20190156722A KR 102413860 B1 KR102413860 B1 KR 102413860B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- user
- response
- information
- event
- Prior art date
Links
- 230000004044 response Effects 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims description 33
- 238000012545 processing Methods 0.000 claims abstract description 78
- 230000007935 neutral effect Effects 0.000 claims description 24
- 230000008451 emotion Effects 0.000 claims description 20
- 238000013136 deep learning model Methods 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims 2
- 239000003795 chemical substances by application Substances 0.000 description 54
- 238000010586 diagram Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000411 inducer Substances 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012559 user support system Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명의 음성 에이전트 시스템은 사용자 상태에 기반한 응답 음성을 생성하는 시스템으로, 등록된 서비스에 대한 이벤트 정보를 수집하고, 사용자의 음성 명령과 발생된 이벤트에 대한 사용자의 유인가 정보로부터 응답 컨텍스트를 결정하고, 결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력한다.The voice agent system of the present invention is a system for generating a response voice based on user status, collects event information for a registered service, determines a response context from a user's voice command and user's inducement information for an event that has occurred, , according to the determined response context, a response voice for the processing result of the user's voice command is generated and output.
Description
음성 에이전트 시스템에 관한 것으로, 보다 상세하게는 음성 명령을 처리하고, 특정 이벤트에 대한 사용자의 상태에 따라 응답 결과를 생성하여 출력하는 시스템에 관한 발명이 개시된다.The present invention relates to a voice agent system, and more particularly, to a system for processing a voice command and generating and outputting a response result according to a user's state for a specific event.
과거의 음성 인식 기술은 평평한 낭독체 음성 인식 기술이 주로 연구 대상이었으나, 딥러닝 및 잡음 처리 기술의 발전으로 인해 현재는 사람 간의 자연스러운 대화 음성을 대상으로 고도화가 이루어지고 있다. 뉴스읽기와 같은 단조로운 낭독체 음성 합성이 아닌 전달하고자 하는 메시지의 내용과 사용자 의도에 따라 합성음의 분위기가 다르게 표현되는 대화체 음성 기술에 대한 필요성이 증가하고 있다. 현재 음성 합성 기술을 이용한 응답 읽기 기능을 구현하는 대부분의 음성 에이전트 서비스는 하나의 차분한 목소리로 전체 내용을 다 읽어준다. 그러나 이러한 서비스는 사용자에게 매우 지루함을 느끼게 하며 지속적인 사용을 방해할 수 있다. 이를 해결하기 위해서 대화체 음성 기술을 적용하여, 텍스트와 사용자의 상황 문맥에 맞는 발화스타일을 제공하는 에이전트의 발명이 요구된다.In the past, speech recognition technology mainly focused on flat reading speech recognition technology, but due to the development of deep learning and noise processing technology, it is now being advanced to natural conversational voices between people. There is an increasing need for a conversational voice technology in which the atmosphere of a synthesized sound is expressed differently depending on the content of the message to be delivered and the user's intention, rather than a monotonous aloud voice synthesis such as reading news. Currently, most voice agent services that implement a response reading function using speech synthesis technology read the entire contents with one calm voice. However, these services can be very boring for users and can hinder their continued use. In order to solve this problem, the invention of an agent that provides a speech style suitable for text and the user's situational context by applying the interactive voice technology is required.
본 발명은 사용자의 음성 명령에 대한 응답을 전달하고자 하는 메시지의 내용과 사용자의 상태에 따라 다른 분위기로 음성 응답을 생성하여 출력하는 음성 에이전트 시스템을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a voice agent system that generates and outputs a voice response in a different atmosphere according to the content of a message to be delivered in response to a user's voice command and the state of the user.
추가로, 본 발명은 사용자 관심 분야에 발생한 이벤트를 사용자에게 통지할 때 해당 이벤트에 대한 사용자의 상태를 결정하고, 결정된 사용자 상태에 따라 다른 분위기로 이벤트를 통지하는 음성을 생성하여 출력하는 음성 에이전트 시스템을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention is a voice agent system for notifying the user of an event occurring in the user's field of interest, determining the user's status for the event, and generating and outputting a voice for notifying the event in a different atmosphere according to the determined user status Another purpose is to provide
본 발명의 일 양상에 따라 사용자의 음성 명령을 인식하여 처리하고 처리 결과를 응답 음성으로 생성하여 출력하는 음성 에이전트 시스템은 이벤트 수집부와, 음성 명령 처리부와, 응답 컨텍스트 처리부와, 응답 처리부를 포함하여 사용자 상태에 기반한 응답 음성을 생성한다.According to an aspect of the present invention, a voice agent system for recognizing and processing a user's voice command and generating and outputting a processing result as a response voice includes an event collection unit, a voice command processing unit, a response context processing unit, and a response processing unit. Generates a response voice based on user status.
이벤트 수집부는 등록된 서비스에 대한 이벤트 정보를 수집하고, 음성 명령 처리부는 사용자의 음성 명령을 인식하여 처리하고 인식된 명령과 관련된 이벤트 정보를 이벤트 수집부로부터 수신하여 전달한다.The event collection unit collects event information for a registered service, the voice command processing unit recognizes and processes a user's voice command, and receives and transmits event information related to the recognized command from the event collection unit.
응답 컨텍스트 처리부는 수신한 이벤트 정보와 사용자의 관심 서비스 정보로부터 상기 시스템의 응답 컨텍스트를 결정하고, 응답 처리부는 결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력한다.The response context processing unit determines a response context of the system from the received event information and the user's service information of interest, and the response processing unit generates and outputs a response voice to the processing result of the user's voice command according to the determined response context.
또한, 응답 컨텍스트 처리부는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정할 수 있다.In addition, the response context processing unit may determine the response context from the inducement information determined as any one of positive, negative, and neutral states with respect to the event information by matching the event information with the user's interest service information.
추가적으로, 본 발명의 음성 에이전트 시스템은 사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 문장을 분석하여 사용자의 정서를 결정하는 정서 결정부를 더 포함할 수 있고, 이때 응답 컨텍스트 결정부는 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정한다.Additionally, the voice agent system of the present invention may further include a sentiment determiner configured to determine the user's emotion by analyzing the sound of the user's voice command and the text sentence converted from the voice command, in which case the response context determining unit may include the inducement information and the user A response context is determined from the user's sentiment analyzed based on the voice command.
본 발명의 또 다른 양상에 따르는 음성 에이전트 시스템은 이벤트 통지부를 더 포함할 수 있고, 이벤트 통지부는 등록된 관심 서비스에 대하여 수집된 이벤트 정보를 응답 컨텍스트 처리부에 전송하고, 사용자에게 음성으로 통지할 수집된 이벤트에 대한 이벤트 통지 문장을 생성하여 응답 처리부에 전송하고, 응답 처리부가 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력할 수 있다.The voice agent system according to another aspect of the present invention may further include an event notification unit, and the event notification unit transmits the event information collected for the registered interest service to the response context processing unit, and collects the collected information to notify the user by voice. An event notification sentence for an event may be generated and transmitted to the response processing unit, and the event notification sentence received by the response processing unit may be generated and output as an event notification voice according to the determined response context.
본 발명의 일 양상에 따르는 음성 에이전트 시스템이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 등록된 서비스에 대한 이벤트 정보를 수집하는 단계와, 사용자의 음성 명령을 인식하여 텍스트로 변환하고, 음성 명령을 처리하는 단계와, 이벤트 정보와 사용자의 관심 서비스 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 단계와, 결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력하는 단계를 포함한다.According to an aspect of the present invention, a method for a voice agent system to generate a response voice based on a user state includes collecting event information for a registered service, recognizing a user's voice command and converting it into text, and performing a voice command processing, determining the response context of the system from event information and the user's service information of interest, and generating and outputting a response voice to the processing result of the user's voice command according to the determined response context do.
본 발명의 또 다른 양상에 따른 음성 에이전트 시스템이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 등록된 서비스에 대한 이벤트 정보를 수집하는 단계와, 수집한 이벤트에 대한 이벤트 통지 문장을 생성하는 단계와, 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정하는 단계와, 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 단계를 포함할 수 있다.According to another aspect of the present invention, a method for a voice agent system to generate a response voice based on a user state comprises the steps of: collecting event information for a registered service; generating an event notification sentence for the collected event; , determining a response context from the inducement information determined as any one of positive, negative, and neutral states with respect to the event information by matching the event information with the user's service information of interest; It may include the step of generating and outputting the notification voice.
본 발명의 음성 에이전트 시스템에 의하면 사용자의 음성 명령에 대한 응답을 전달하고자 하는 메시지의 내용과 사용자의 상태에 따라 다른 분위기로 음성 응답을 생성하여 출력할 수 있다.According to the voice agent system of the present invention, it is possible to generate and output a voice response in a different atmosphere according to the content of a message to be delivered in response to the user's voice command and the state of the user.
추가로, 본 발명의 음성 에이전트 시스템에 의하면 사용자 관심 분야에 발생한 이벤트를 사용자에게 통지할 때 해당 이벤트에 대한 사용자의 상태를 결정하고, 결정된 사용자 상태에 따라 다른 분위기로 이벤트를 통지하는 음성을 생성하여 출력할 수 있다.In addition, according to the voice agent system of the present invention, when notifying the user of an event occurring in the user's area of interest, the user's status for the event is determined, and a voice is generated to notify the event in a different atmosphere according to the determined user status. can be printed out.
도 1은 본 발명의 일 양상에 따르는 음성 에이전트 시스템의 블록도를 도시한 것이다.
도 2는 본 발명의 추가적 양상에 따라 음성 명령을 분석하여 파악된 사용자 정서를 반영하는 음성 에이전트 시스템의 블록도를 도시하고 있다.
도 3은 본 발명의 또 다른 양상에 따라 발생된 이벤트에 대한 사용자의 유인가를 반영하여 이벤트를 통지하는 음성 에이전트 시스템의 블록도를 도시하고 있다.
도 4는 본 발명의 일 양상에 따르는 음성 에이전트 시스템이 음성 명령에 대한 응답 음성을 생성하는 절차를 도시한 것이다.
도 5는 본 발명의 또 다른 양상에 따르는 음성 에이전트 시스템이 발생된 이벤트를 통지하는 음성을 생성하는 절차를 도시한 것이다.1 illustrates a block diagram of a voice agent system in accordance with an aspect of the present invention.
2 is a block diagram of a voice agent system reflecting user sentiment identified by analyzing a voice command according to an additional aspect of the present invention.
3 is a block diagram of a voice agent system for notifying an event by reflecting a user's inducement for an event that has occurred according to another aspect of the present invention.
4 illustrates a procedure for generating a voice response voice to a voice command by a voice agent system according to an aspect of the present invention.
5 is a diagram illustrating a procedure for generating a voice for notifying an event that has occurred by a voice agent system according to another aspect of the present invention.
전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.The foregoing and additional aspects are embodied through embodiments described with reference to the accompanying drawings. It is understood that various combinations of elements of each embodiment are possible within the embodiments as long as there is no contradiction between them or other mentions. Each block in the block diagram may represent a physical part in some cases, but in other cases may be a part of the function of one physical part or a logical representation of a function across a plurality of physical parts. Sometimes a block or part of an entity may be a set of program instructions. All or a part of these blocks may be implemented by hardware, software, or a combination thereof.
유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버와 연결되는 음성 에이전트 시스템(10)은 개인용 컴퓨터, 서버, 스마트폰, IPTV, 인공지능 스피커, 웨어러블 디바이스(Wearable Device) 등 컴퓨팅 기능을 구비한 장치들로 구현될 수 있다.The
음성 에이전트 시스템(10)은 사용자의 음성 명령을 입력 받는 마이크를 포함하는 입력부와, 응답 음성을 출력하는 스피커를 포함하는 출력부와, 각종 메모리 및 저장 장치를 포함하는 저장부와, 메모리 또는 저장 장치에 저장된 프로그램을 실행하는 마이크로프로세서를 포함하는 제어부를 포함할 수 있다.The
특히, 제어부는 음성 에이전트 시스템(10)의 전체적인 동작을 제어하는 소프트웨어 프로그램을 포함한다.In particular, the control unit includes a software program for controlling the overall operation of the voice agent system (10).
도 1은 본 발명의 일 양상에 따르는 음성 에이전트 시스템의 블록도를 도시한 것이다. 일 양상에 따르는 음성 에이전트 시스템(10)은 이벤트 수집부(100)와, 음성 명령 처리부(110)와, 응답 컨텍스트 처리부(120)와, 응답 처리부(130)와, 사용자 데이터베이스(200)를 포함하여 사용자 상태에 기반한 응답 음성을 생성한다. 이벤트 수집부(100)와, 음성 명령 처리부(110)와, 응답 컨텍스트 처리부(120)와, 응답 처리부(130)는 제어부에 포함되며, 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.1 illustrates a block diagram of a voice agent system in accordance with an aspect of the present invention. The
사용자 데이터베이스(200)는 사전에 사용자로부터 입력 받은 데이터를 저장한다. 저장되는 데이터는 사용자의 성별, 연령, 지역 등을 포함하는 인구통계학적인 정보와, 사용자가 관심이 있는 서비스 관련 정보를 포함한다. 특히, 사용자가 관심이 있는 서비스 관련 정보는 음성 에이전트 시스템(10)을 통해 사용자가 명령을 수행할 가능성이 높은 서비스 분야에 대한 정보이다. 예를 들어, 사용자가 특정 스포츠 서비스에 관심이 있는 경우 서비스 관련 정보는 해당 스포츠 분야와 사용자가 응원하는 팀에 대한 정보를 포함한다. 또 다른 예로, 사용자가 주식 거래 서비스에 관심이 있는 경우 서비스 관련 정보는 주식 정보와 사용자가 보유하고 있거나 선호하는 주식 목록 정보를 포함한다.The
사용자 데이터베이스(200)는 음성 에이전트 시스템(10)과 일대일로 연결될 수 있다. 즉, 하나의 음성 에이전트 시스템(10)마다 사용자 데이터베이스(200)를 포함할 수 있다. 또한, 사용자 데이터베이스(200)는 다수의 음성 에이전트 시스템(10)과 연결될 수 있으며, 이때는 다수의 음성 에이전트 시스템(10)이 사용자 데이터베이스(200)와 연결될 수 있다. The
이벤트 수집부(100)는 유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버로부터 등록된 서비스에 대한 이벤트 정보를 수집한다. 이때 등록된 서비스는 이벤트 수집부(100)에 의해 음성 에이전트 시스템(10)을 사용하는 사용자의 관심 서비스에 대한 정보를 사용자 데이터베이스(200)로부터 추출되어 등록된다. 이벤트 수집부(100)가 서비스 제공 서버로부터 이벤트 정보를 수집하는 방법은 제한이 없다. 일 예로, 정보 수집 방법은 메시지 큐로 구현되어 등록된 서비스에 대하여 구독(subscribe)하여 해당 서비스에 대한 정보를 획득할 수 있다.The
음성 명령 처리부(110)는 사용자의 음성 명령을 인식하여 텍스트로 변환하는 명령 인식부(112)와, 인식된 사용자의 음성 명령을 수행하여 처리하고 처리 결과 정보를 출력하는 명령 처리부(114)를 포함하며, 명령 인식부(112)와 명령 처리부(114) 또한 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다. 또한, 음성 명령 처리부(110)는 인식된 명령과 관련된 이벤트 정보를 이벤트 수집부(100)로부터 수신하여 응답 컨텍스트 처리부(120)로 전달한다. 이때, 인식된 명령이 사용자의 관심 서비스와 관련이 없거나 관심 서비스에 대한 새로운 이벤트가 발생하지 않는 경우, 빈 이벤트 정보를 응답 컨텍스트 처리부(120)로 전달할 수도 있다.The voice
명령 인식부(112)가 사용자의 음성 명령을 인식하는 기술은 ASR(Automatic Speech Recognition)과 같이 알려진 기술로 자세한 설명은 생략한다. 또한, 명령 처리부(114)는 자연어 처리 알고리즘 기반으로 명령을 이해하여 명령을 수행하고 수행결과를 출력한다. 이때, 필요한 경우 외부의 서비스 제공 서버와 연동하여 명령을 수행할 수 있다.A technique for recognizing a user's voice command by the
응답 컨텍스트 처리부(120)는 음성 명령 처리부(110)로부터 수신한 이벤트 정보와 사용자 데이터베이스(200)로부터 추출한 사용자의 관심 서비스 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하여 응답 처리부(130)에 응답 컨텍스트 정보를 전달한다.The response
응답 컨텍스트는 사용자의 상태에 따라 응답으로 발화될 음성의 음조, 속도, 강세, 억양을 포함하는 응답의 톤이나 무드를 의미하고, 사용자 상태는 사용자가 특정 서비스에 발생된 이벤트에 대해 느끼는 긍정, 부정 또는 중립적 정서 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 의미한다.The response context refers to the tone or mood of the response including the tone, speed, stress, and intonation of the voice to be uttered as a response according to the user's status, and the user status is the positive or negative feeling that the user feels about an event occurring in a specific service. Or, it refers to various emotional states, such as happiness, anger, fear, sadness, surprise, in addition to neutral emotions.
또한, 응답 컨텍스트 처리부(120)는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 유인가를 결정하는 유인가 결정부(122)와, 결정된 유인가 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하는 응답 컨텍스트 결정부(124)를 포함할 수 있다. 유인가 결정부(122)와 응답 컨텍스트 결정부(124) 또한 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.In addition, the response
유인가 결정부(122)는 수신하는 이벤트 정보가 빈 정보이거나 해당 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정할 수 있다. 예를 들어, 등록된 관심 서비스 분야가 야구이고 응원팀이 A팀인 경우 B팀의 승패에 대한 정보를 요청하는 사용자 음성 명령의 경우 유인가 결정부(122)가 중립 상태의 유인가를 결정한다.When the received event information is empty information or the corresponding event information is event information unrelated to the service of interest, the
응답 처리부(130)는 명령 처리부(114)로부터 수신한 사용자 음성 명령에 대한 명령 처리 결과를 수신하여 응답 문장을 생성하는 응답 문장 생성부(132)와, 생성된 응답 문장을 결정된 응답 컨텍스트에 따라 응답 문장에 대한 응답 음성을 생성하여 출력하는 응답 음성 생성부(134)를 포함한다. 응답 문장 생성부(132)와 응답 음성 생성부(134) 또한 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다. 응답 음성 생성부(134)는 TTS 엔진을 통해 응답 문장으로부터 음성을 생성한다.The
이때, 응답 처리부(130)에 포함되는 응답 음성 생성부(134)는 입력된 문장 또는 음성을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 포함하고, 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 음성을 생성하여 출력할 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델이다. 또한, 딥러닝 모델은 긍정, 부정, 중립 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 학습한 모델일 수 있다. 발명의 양상에 따라서는 TTS 엔진을 통해 응답 문장을 음성으로 생성하고, 딥러닝 모델을 통해 사용자 상태가 반영되도록 음성을 변조하도록 딥러닝 모델이 학습될 수도 있고, 딥러닝 모델이 내부에 TTS 엔진을 포함하여 응답 문장과 사용자 컨텍스트를 입력으로 하여 사용자 상태가 반영된 음성을 생성하도록 학습될 수도 있다.At this time, the response
도 2는 본 발명의 추가적 양상에 따라 음성 명령을 분석하여 파악된 사용자 정서를 반영하는 음성 에이전트 시스템의 블록도를 도시하고 있다. 추가적으로 음성 에이전트 시스템(10)은 정서 결정부(140)를 더 포함할 수 있고, 정서 결정부(140)는 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.2 is a block diagram of a voice agent system reflecting user sentiment identified by analyzing a voice command according to an additional aspect of the present invention. Additionally, the
정서 결정부(140)는 명령 인식부(112)로부터 음성 데이터와 음성 명령이 변환된 텍스트 정보를 수신하고, 사용자의 음성 명령 즉, 음성 데이터의 음향과 텍스트 정보를 분석하여 사용자의 정서를 결정한다. 정서 결정부(140)는 음성 데이터에 포함된 음조, 속도, 강세, 억양 등의 음향적 성질을 분석하고, 텍스트 정보에 포함된 문장의 맥락 및 문장 내의 단어들을 분석하여 정서를 결정할 수 있다.The
정서 결정부(140)는 입력된 음성을 분석하여 정서를 분류하도록 학습된 딥러닝 모델을 포함할 수 있고, 딥러닝 모델을 통해 입력된 음성의 정서를 분류할 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델일 수 있다.The
또한, 정서 결정부(140)는 텍스트 정보를 분석할 때 감정을 나타내는 단어들을 추출하여 정서를 유추할 수 있으며, 동일한 텍스트의 반복, 표현 강도 등에 가중치를 부여할 수도 있다.In addition, when analyzing text information, the
정서 결정부(140)는 음성을 분석한 결과와 텍스트를 분석한 결과를 조합하여 사용자의 현재 정서를 결정한다.The
정서 결정부(140)가 결정한 정서 정보는 응답 컨텍스트 처리부(120), 구체적으로 응답 컨텍스트 결정부(124)로 전달된다.The sentiment information determined by the
이 양상에서의 응답 컨텍스트 처리부(120), 구체적으로 응답 컨텍스트 결정부(124)는 결정된 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서 정보로부터 응답 컨텍스트를 결정한다.In this aspect, the response
도 3은 본 발명의 또 다른 양상에 따라 발생된 이벤트에 대한 사용자의 유인가를 반영하여 이벤트를 통지하는 음성 에이전트 시스템의 블록도를 도시하고 있다. 발명의 또 다른 양상에 따르면, 음성 에이전트 시스템(10)은 이벤트 통지부(150)를 더 포함할 수 있고, 이벤트 통지부(150)는 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.3 is a block diagram of a voice agent system for notifying an event by reflecting a user's inducement for an event that has occurred according to another aspect of the present invention. According to another aspect of the invention, the
이벤트 통지부(150)는 응답 컨텍스트 처리부가 등록된 관심 서비스에 대하여 수집된 이벤트 정보를 이용하여 해당 이벤트에 대한 응답 컨텍스트를 결정하도록 컨텍스트 처리부에 전송한다. 이때 이벤트 통지부(150)는 등록된 모든 관심 서비스에 대하여 이벤트 정보를 전송할 수도 있고, 이벤트 발생 시 통지하도록 설정된 관심 서비스에 대해서만 이벤트 정보를 전송할 수도 있다. 또한, 이벤트 통지부(150)는 사용자에게 음성으로 통지할 수집된 이벤트에 대한 이벤트 통지 문장을 생성하여 응답 처리부(130)에 전송한다. The
이 양상의 응답 처리부(130)는 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력할 수 있다.The
도 4는 본 발명의 일 양상에 따르는 음성 에이전트 시스템이 음성 명령에 대한 응답 음성을 생성하는 절차를 도시한 것이다. 본 발명의 일 양상에 따르는 음성 에이전트 시스템(10)이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 이벤트 정보 수집 단계와, 음성 명령 처리 단계와, 응답 컨텍스트 결정 단계와, 응답 음성 생성 단계를 포함한다.4 is a diagram illustrating a procedure in which a voice agent system generates a voice response to a voice command according to an aspect of the present invention. A method for the
이벤트 정보 수집 단계는 음성 에이전트 시스템(10), 구체적으로 이벤트 수집부(100)가 유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버로부터 등록된 서비스에 대한 이벤트 정보를 수집하는 단계이다(S1000). 이때 등록된 서비스는 음성 에이전트 시스템(10)을 사용하는 사용자의 관심 서비스에 대한 정보를 사용자 데이터베이스(200)로부터 추출되어 등록된다. 음성 에이전트 시스템(10)이 서비스 제공 서버로부터 이벤트 정보를 수집하는 방법은 제한이 없으며, 일 예로, 정보 수집 방법은 메시지 큐로 구현되어 등록된 서비스에 대하여 구독(subscribe)하여 해당 서비스에 대한 정보를 획득할 수 있다.In the event information collection step, the
음성 명령 처리 단계는 음성 에이전트 시스템(10), 구체적으로 음성 명령 처리부(110)가 사용자의 음성 명령을 인식하여 텍스트로 변환하고, 인식된 사용자의 음성 명령을 수행하여 처리한 후 처리 결과 정보를 출력하는 단계이다(S1020).In the voice command processing step, the
응답 컨텍스트 결정 단계는 음성 에이전트 시스템(10), 구체적으로 응답 컨텍스트 처리부(120)가 이벤트 정보와 사용자의 관심 서비스 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 단계이다.The response context determination step is a step in which the
또한, 응답 컨텍스트 결정 단계는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 유인가를 결정하는 유인가 정보를 결정하는 단계(S1060)와, 결정된 유인가 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하는 단계로 구성될 수 있다.In addition, the response context determining step includes a step (S1060) of matching event information and the service information of the user's interest to determine inducement information for determining whether to induce in any one of positive, negative, and neutral states with respect to event information (S1060); Determining a response context to be used for generating a response voice by the
유인가 결정 단계에서 수신하는 이벤트 정보가 빈 정보이거나 해당 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정할 수 있다. 예를 들어, 등록된 관심 서비스 분야가 야구이고 응원팀이 A팀인 경우 B팀의 승패에 대한 정보를 요청하는 사용자 음성 명령의 경우 중립 상태의 유인가 정보가 결정될 수 있다.When the event information received in the inducement determination step is empty information or the corresponding event information is event information not related to the service of interest, it may be determined as an inducer in a neutral state. For example, when the registered interest service field is baseball and the cheering team is team A, in the case of a user's voice command requesting information on the victory or defeat of team B, manned information in a neutral state may be determined.
응답 음성 생성 단계는 음성 에이전트 시스템(10), 구체적으로 응답 처리부(130)가 사용자 음성 명령에 대한 명령 처리 결과를 응답 문장을 생성하는 응답 문장으로 생성하고, 생성된 응답 문장을 결정된 응답 컨텍스트에 따라 응답 문장에 대한 응답 음성을 생성하여 출력하는 단계이다(S1100). In the response voice generation step, the
이때, 응답 음성은 입력된 문장 또는 음성을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 생성되어 출력될 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델이다. 또한, 딥러닝 모델은 긍정, 부정, 중립 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 학습한 모델일 수 있다.In this case, the response voice may be generated and output from the processing result of the voice command through the deep learning model trained to generate the input sentence or voice as a voice according to the response context information. The deep learning model is a model in which human evaluators listen to a voice and learn the voice data set that is divided into positive, negative, and neutral using a supervised learning method. In addition, the deep learning model may be a model that has learned various emotional states such as happiness, anger, fear, sadness, and surprise in addition to positive, negative, and neutral.
추가적으로, 음성 에이전트 시스템(10)이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 정서 결정 단계를 더 포함할 수 있다.Additionally, the method by which the
정서 결정 단계는 응답 컨텍스트를 결정하는 단계 수행하기 전, 도 4에서는 유인가 정보를 결정하기 전에 음성 에이전트 시스템(10), 구체적으로 정서 결정부(140)가 사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 문장을 분석하여 사용자의 정서를 결정하는 단계이다(S1040).In the sentiment determination step, before performing the step of determining the response context, in FIG. 4 , before determining the inducement information, the
정서 결정 단계에서 음성 에이전트 시스템(10)은 음성 데이터에 포함된 음조, 속도, 강세, 억양 등의 음향적 성질을 분석하고, 텍스트 정보에 포함된 문장의 맥락 및 문장 내의 단어들을 분석하여 정서를 결정할 수 있다. 입력된 음성을 분석하여 정서를 분류하도록 학습된 딥러닝 모델을 통해 입력된 음성의 정서를 분류할 수 있고, 이때 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델일 수 있다.In the emotion determination step, the
이 경우 응답 컨텍스트를 결정하는 단계는 상기 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정한다.In this case, the step of determining the response context determines the response context from the user's sentiment analyzed based on the inducement information and the user's voice command.
도 5는 본 발명의 또 다른 양상에 따르는 음성 에이전트 시스템이 발생된 이벤트를 통지하는 음성을 생성하는 절차를 도시한 것이다. 본 발명의 또 다른 양상에 따른 음성 에이전트 시스템(10)이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 이벤트 정보 수집 단계와, 이벤트 통지 문장 생성 단계와, 응답 컨텍스트 결정 단계와, 이벤트 통지 음성 생성 단계를 포함할 수 있다.5 is a diagram illustrating a procedure for generating a voice for notifying a generated event by a voice agent system according to another aspect of the present invention. A method for the
이벤트 정보 수집 단계는 음성 에이전트 시스템(10), 구체적으로 이벤트 수집부(100)가 유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버로부터 등록된 서비스에 대한 이벤트 정보를 수집하는 단계이다(S2000). 이때 등록된 서비스는 음성 에이전트 시스템(10)을 사용하는 사용자의 관심 서비스에 대한 정보를 사용자 데이터베이스(200)로부터 추출되어 등록된다. 음성 에이전트 시스템(10)이 서비스 제공 서버로부터 이벤트 정보를 수집하는 방법은 제한이 없으며, 일 예로, 정보 수집 방법은 메시지 큐로 구현되어 등록된 서비스에 대하여 구독(subscribe)하여 해당 서비스에 대한 정보를 획득할 수 있다.In the event information collection step, the
이벤트 통지 문장 생성 단계는 음성 에이전트 시스템(10), 구체적으로 이벤트 통지부(150)가 수집한 이벤트에 대한 이벤트 통지 문장을 생성하는 단계이다(S2020). The event notification sentence generation step is a step of generating an event notification sentence for the event collected by the
이 양상의 응답 처리부(130)는 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력할 수 있다.The
응답 컨텍스트 결정 단계는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정하는 단계로, 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 유인가를 결정하는 유인가 정보를 결정하는 단계(S2040)와, 결정된 유인가 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하는 단계(S2060)로 구성될 수 있다.The response context determination step is a step of determining the response context from the inducement information determined as any one of positive, negative, and neutral states with respect to the event information by matching the event information and the user's interest service information, and the event information and the user's interest A step (S2040) of determining inducement information for determining whether to induce in any one of positive, negative, and neutral states with respect to the event information by matching service information, and the
유인가 결정 단계에서 수신하는 이벤트 정보가 빈 정보이거나 해당 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정할 수 있다. 예를 들어, 등록된 관심 서비스 분야가 야구이고 응원팀이 A팀인 경우 B팀의 승패에 대한 정보를 요청하는 사용자 음성 명령의 경우 중립 상태의 유인가 정보가 결정될 수 있다.When the event information received in the inducement determination step is empty information or the corresponding event information is event information not related to the service of interest, it may be determined as an inducer in a neutral state. For example, when the registered interest service field is baseball and the cheering team is team A, in the case of a user's voice command requesting information on the victory or defeat of team B, manned information in a neutral state may be determined.
이벤트 통지 음성 생성 단계는 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 단계이다(S2080). 이때, 이벤트 통지 음성은 입력된 문장 또는 음성을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 생성되어 출력될 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델이다. 또한, 딥러닝 모델은 긍정, 부정, 중립 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 학습한 모델일 수 있다.The event notification voice generating step is a step of generating and outputting an event notification sentence as an event notification voice according to the determined response context (S2080). In this case, the event notification voice may be generated and output from the processing result of the voice command through the deep learning model trained to generate the input sentence or voice as a voice according to the response context information. The deep learning model is a model in which human evaluators listen to a voice and learn the voice data set that is divided into positive, negative, and neutral using a supervised learning method. In addition, the deep learning model may be a model that has learned various emotional states such as happiness, anger, fear, sadness, and surprise in addition to positive, negative, and neutral.
이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.Although the present invention has been described above with reference to the accompanying drawings, the present invention is not limited thereto, and it should be construed to encompass various modifications that can be apparent from those skilled in the art. The claims are intended to cover such variations.
10: 음성 에이전트 시스템
100: 이벤트 수집부
110: 음성 명령 처리부
112 : 명령 인식부 114: 명령 처리부
120: 응답 컨텍스트 처리부
122 : 유인가 결정부 124: 응답 컨텍스트 결정부
130: 응답 처리부
132 : 응답 문장 생성부 134: 응답 음성 생성부
140: 정서 결정부
150: 이벤트 통지부
200: 사용자 데이터베이스10: Voice agent system
100: event collection unit
110: voice command processing unit
112: command recognition unit 114: command processing unit
120: response context processing unit
122: inducement determination unit 124: response context determination unit
130: response processing unit
132: response sentence generation unit 134: response voice generation unit
140: emotion decision unit
150: event notification unit
200: user database
Claims (11)
등록된 서비스에 대한 이벤트 정보를 수집하는 이벤트 수집부;
사용자의 음성 명령을 인식하여 처리하되, 인식된 명령과 관련된 이벤트 정보를 이벤트 수집부로부터 수신하여 전달하는 음성 명령 처리부;
수신한 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 응답 컨텍스트 처리부; 및
결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력하는 응답 처리부;
를 포함하여 사용자 상태에 기반한 응답 음성을 생성하되,
사용자의 관심 서비스 정보는 사전에 사용자로부터 입력되어 사용자 데이터베이스에 저장된 사용자가 관심이 있는 서비스 관련 정보이고,
상기 시스템은 :
등록된 관심 서비스에 대하여 수집된 이벤트 정보를 응답 컨텍스트 처리부에 전송하고, 사용자에게 음성으로 통지할 수집된 이벤트에 대한 이벤트 통지 문장을 생성하여 응답 처리부에 전송하는 이벤트 통지부;
를 더 포함하고,
응답 처리부는 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 음성 에이전트 시스템.
In the voice agent system for recognizing and processing a user's voice command and generating and outputting the processing result as a response voice,
an event collection unit that collects event information for a registered service;
a voice command processing unit for recognizing and processing the user's voice command, receiving event information related to the recognized command from the event collecting unit and transmitting the received event information;
a response context processing unit that matches the received event information with the user's service information of interest to determine a response context of the system from the inducement information determined as any one of positive, negative, and neutral status for the event information; and
a response processing unit for generating and outputting a response voice in response to a processing result of a user's voice command according to the determined response context;
to generate a response voice based on the user's state,
The user's interest service information is information related to the service that the user is interested in, input from the user in advance and stored in the user database,
The system is:
an event notification unit that transmits event information collected for the registered interest service to the response context processing unit, generates an event notification sentence for the collected event to be notified to the user by voice, and transmits it to the response processing unit;
further comprising,
The response processing unit generates and outputs the received event notification sentence as an event notification voice according to the determined response context.
사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 정보를 분석하여 사용자의 정서를 결정하는 정서 결정부;
를 더 포함하되,
응답 컨텍스트 처리부는 상기 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정하는 음성 에이전트 시스템.
The system of claim 1 , wherein the system
a sentiment determiner configured to analyze the sound of the user's voice command and text information converted from the voice command to determine the user's emotion;
further comprising,
The response context processing unit is a voice agent system for determining a response context from the user's sentiment analyzed based on the inducement information and the user's voice command.
응답 처리부는 입력된 문장을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 포함하고, 상기 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 음성을 생성하여 출력하는 음성 에이전트 시스템.
The method of claim 1,
The response processing unit includes a deep learning model trained to generate an input sentence as a voice according to response context information, and a voice agent system for generating and outputting a voice from a processing result of a voice command through the deep learning model.
등록된 서비스에 대한 이벤트 정보를 수집하는 단계;
사용자의 음성 명령을 인식하여 텍스트로 변환하고, 음성 명령을 처리하는 단계;
이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 단계; 및
결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력하는 단계;
를 포함하되,
사용자의 관심 서비스 정보는 사전에 사용자로부터 입력되어 사용자 데이터베이스에 저장된 사용자가 관심이 있는 서비스 관련 정보이고,
응답 컨텍스트를 결정하는 단계에서 수신한 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정하는 응답 음성 생성 방법.
A method for a voice agent system to generate a response voice based on a user state, the method comprising:
collecting event information for the registered service;
Recognizing a user's voice command, converting it into text, and processing the voice command;
determining a response context of the system from the inducement information determined as any one of a positive, negative, and neutral state with respect to event information by matching the event information with the user's service information of interest; and
generating and outputting a voice response to the processing result of the user's voice command according to the determined response context;
including,
The user's interest service information is information related to the service that the user is interested in, input from the user in advance and stored in the user database,
If the event information received in the step of determining the response context is event information not related to the service of interest, the response voice generation method is determined as an inducement in a neutral state.
응답 컨텍스트를 결정하는 단계 수행 전, 사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 문장을 분석하여 사용자의 정서를 결정하는 단계;
를 더 포함하되,
응답 컨텍스트를 결정하는 단계는 상기 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정하는 단계인 응답 음성 생성 방법.
7. The method of claim 6, wherein the method
Before performing the step of determining the response context, analyzing the sound of the user's voice command and the text sentence in which the voice command is converted to determine the user's emotion;
further comprising,
The step of determining the response context is the step of determining the response context from the user's sentiment analyzed based on the inducement information and the user's voice command.
응답 음성을 생성하여 출력하는 단계는 입력된 문장을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 머신러닝 모델을 통해 음성 명령의 처리 결과로부터 음성을 생성하여 출력하는 단계인 응답 음성 생성 방법.
7. The method of claim 6,
The step of generating and outputting a response voice is a step of generating and outputting a voice from a processing result of a voice command through a machine learning model trained to generate an input sentence as a voice according to response context information.
등록된 서비스에 대한 이벤트 정보를 수집하는 단계;
수집한 이벤트에 대한 이벤트 통지 문장을 생성하는 단계;
이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정하는 단계; 및
이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 단계;
를 포함하되,
사용자의 관심 서비스 정보는 사전에 사용자로부터 입력되어 사용자 데이터베이스에 저장된 사용자가 관심이 있는 서비스 관련 정보인 응답 음성 생성 방법.
A method for a voice agent system to generate a response voice based on a user state, the method comprising:
collecting event information for the registered service;
generating an event notification sentence for the collected event;
determining a response context from the inducement information determined as any one of positive, negative, and neutral states with respect to event information by matching the event information with the user's service information of interest; and
generating and outputting an event notification sentence as an event notification voice according to the determined response context;
including,
The user's interest service information is input from the user in advance and stored in the user database.
이벤트 통지 음성을 생성하여 출력하는 단계는 입력된 문장을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 머신러닝 모델을 통해 이벤트 통지 문장으로부터 음성을 생성하여 출력하는 단계인 응답 음성 생성 방법.
11. The method of claim 10,
The step of generating and outputting the event notification voice is a step of generating and outputting a voice from the event notification sentence through a machine learning model trained to generate the input sentence as a voice according to the response context information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190156722A KR102413860B1 (en) | 2019-11-29 | 2019-11-29 | Voice agent system and method for generating responses based on user context |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190156722A KR102413860B1 (en) | 2019-11-29 | 2019-11-29 | Voice agent system and method for generating responses based on user context |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210067283A KR20210067283A (en) | 2021-06-08 |
KR102413860B1 true KR102413860B1 (en) | 2022-06-27 |
Family
ID=76399797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190156722A KR102413860B1 (en) | 2019-11-29 | 2019-11-29 | Voice agent system and method for generating responses based on user context |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102413860B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838448B (en) * | 2021-06-16 | 2024-03-15 | 腾讯科技(深圳)有限公司 | Speech synthesis method, device, equipment and computer readable storage medium |
KR102588017B1 (en) * | 2021-10-19 | 2023-10-11 | 주식회사 카카오엔터프라이즈 | Voice recognition device with variable response voice, voice recognition system, voice recognition program and control method thereof |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180119515A (en) * | 2017-04-25 | 2018-11-02 | 김현민 | Personalized service operation system and method of smart device and robot using smart mobile device |
KR20180128805A (en) * | 2017-05-24 | 2018-12-04 | 주식회사 솔트룩스 | System and method for dynamic expansion of dialogue model based on real time data aggregation |
KR102321789B1 (en) * | 2019-08-28 | 2021-11-05 | 엘지전자 주식회사 | Speech synthesis method based on emotion information and apparatus therefor |
-
2019
- 2019-11-29 KR KR1020190156722A patent/KR102413860B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20210067283A (en) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020135194A1 (en) | Emotion engine technology-based voice interaction method, smart terminal, and storage medium | |
CN109256136B (en) | Voice recognition method and device | |
US10395655B1 (en) | Proactive command framework | |
JP2018055548A (en) | Interactive device, learning device, interactive method, learning method, and program | |
KR102413860B1 (en) | Voice agent system and method for generating responses based on user context | |
JP2013167666A (en) | Speech recognition device, speech recognition method, and program | |
CN113851136A (en) | Clustering-based speaker recognition method, device, equipment and storage medium | |
CN111694941A (en) | Reply information determining method and device, storage medium and electronic equipment | |
CN111128175B (en) | Spoken language dialogue management method and system | |
CN110931002B (en) | Man-machine interaction method, device, computer equipment and storage medium | |
CN114138960A (en) | User intention identification method, device, equipment and medium | |
CN117690456A (en) | Small language spoken language intelligent training method, system and equipment based on neural network | |
Sheikhan | Generation of suprasegmental information for speech using a recurrent neural network and binary gravitational search algorithm for feature selection | |
WO2020223742A2 (en) | Generation and operation of artificial intelligence based conversation systems | |
Esposito et al. | Recent Advances in Nonlinear Speech Processing: Directions and Challenges | |
US20220020368A1 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
KR102605178B1 (en) | Device, method and computer program for generating voice data based on family relationship | |
JP7180127B2 (en) | Information presentation system, information presentation method and program | |
KR102604277B1 (en) | Complex sentiment analysis method using speaker separation STT of multi-party call and system for executing the same | |
CN118506802A (en) | Method and apparatus for emotion framework based computerized matching | |
JP2020071690A (en) | Pattern recognition model and pattern learning device, generation method for pattern recognition model, faq extraction method using the same and pattern recognition device, and program | |
EP4428854A1 (en) | Method for providing voice synthesis service and system therefor | |
KR102691412B1 (en) | Apparatus and method for providing communication service based on chat-bot | |
Guha | Detecting User Emotions From Audio Conversations With the Smart Assistants | |
CN117315101A (en) | Virtual object action generation method and device and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |