KR102413860B1 - Voice agent system and method for generating responses based on user context - Google Patents

Voice agent system and method for generating responses based on user context Download PDF

Info

Publication number
KR102413860B1
KR102413860B1 KR1020190156722A KR20190156722A KR102413860B1 KR 102413860 B1 KR102413860 B1 KR 102413860B1 KR 1020190156722 A KR1020190156722 A KR 1020190156722A KR 20190156722 A KR20190156722 A KR 20190156722A KR 102413860 B1 KR102413860 B1 KR 102413860B1
Authority
KR
South Korea
Prior art keywords
voice
user
response
information
event
Prior art date
Application number
KR1020190156722A
Other languages
Korean (ko)
Other versions
KR20210067283A (en
Inventor
이준환
서봉원
김수민
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Priority to KR1020190156722A priority Critical patent/KR102413860B1/en
Publication of KR20210067283A publication Critical patent/KR20210067283A/en
Application granted granted Critical
Publication of KR102413860B1 publication Critical patent/KR102413860B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 음성 에이전트 시스템은 사용자 상태에 기반한 응답 음성을 생성하는 시스템으로, 등록된 서비스에 대한 이벤트 정보를 수집하고, 사용자의 음성 명령과 발생된 이벤트에 대한 사용자의 유인가 정보로부터 응답 컨텍스트를 결정하고, 결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력한다.The voice agent system of the present invention is a system for generating a response voice based on user status, collects event information for a registered service, determines a response context from a user's voice command and user's inducement information for an event that has occurred, , according to the determined response context, a response voice for the processing result of the user's voice command is generated and output.

Figure R1020190156722
Figure R1020190156722

Description

사용자 상태에 기반한 응답 음성을 생성하는 음성 에이전트 시스템 및 방법{VOICE AGENT SYSTEM AND METHOD FOR GENERATING RESPONSES BASED ON USER CONTEXT}VOICE AGENT SYSTEM AND METHOD FOR GENERATING RESPONSES BASED ON USER CONTEXT

음성 에이전트 시스템에 관한 것으로, 보다 상세하게는 음성 명령을 처리하고, 특정 이벤트에 대한 사용자의 상태에 따라 응답 결과를 생성하여 출력하는 시스템에 관한 발명이 개시된다.The present invention relates to a voice agent system, and more particularly, to a system for processing a voice command and generating and outputting a response result according to a user's state for a specific event.

과거의 음성 인식 기술은 평평한 낭독체 음성 인식 기술이 주로 연구 대상이었으나, 딥러닝 및 잡음 처리 기술의 발전으로 인해 현재는 사람 간의 자연스러운 대화 음성을 대상으로 고도화가 이루어지고 있다. 뉴스읽기와 같은 단조로운 낭독체 음성 합성이 아닌 전달하고자 하는 메시지의 내용과 사용자 의도에 따라 합성음의 분위기가 다르게 표현되는 대화체 음성 기술에 대한 필요성이 증가하고 있다. 현재 음성 합성 기술을 이용한 응답 읽기 기능을 구현하는 대부분의 음성 에이전트 서비스는 하나의 차분한 목소리로 전체 내용을 다 읽어준다. 그러나 이러한 서비스는 사용자에게 매우 지루함을 느끼게 하며 지속적인 사용을 방해할 수 있다. 이를 해결하기 위해서 대화체 음성 기술을 적용하여, 텍스트와 사용자의 상황 문맥에 맞는 발화스타일을 제공하는 에이전트의 발명이 요구된다.In the past, speech recognition technology mainly focused on flat reading speech recognition technology, but due to the development of deep learning and noise processing technology, it is now being advanced to natural conversational voices between people. There is an increasing need for a conversational voice technology in which the atmosphere of a synthesized sound is expressed differently depending on the content of the message to be delivered and the user's intention, rather than a monotonous aloud voice synthesis such as reading news. Currently, most voice agent services that implement a response reading function using speech synthesis technology read the entire contents with one calm voice. However, these services can be very boring for users and can hinder their continued use. In order to solve this problem, the invention of an agent that provides a speech style suitable for text and the user's situational context by applying the interactive voice technology is required.

본 발명은 사용자의 음성 명령에 대한 응답을 전달하고자 하는 메시지의 내용과 사용자의 상태에 따라 다른 분위기로 음성 응답을 생성하여 출력하는 음성 에이전트 시스템을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a voice agent system that generates and outputs a voice response in a different atmosphere according to the content of a message to be delivered in response to a user's voice command and the state of the user.

추가로, 본 발명은 사용자 관심 분야에 발생한 이벤트를 사용자에게 통지할 때 해당 이벤트에 대한 사용자의 상태를 결정하고, 결정된 사용자 상태에 따라 다른 분위기로 이벤트를 통지하는 음성을 생성하여 출력하는 음성 에이전트 시스템을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention is a voice agent system for notifying the user of an event occurring in the user's field of interest, determining the user's status for the event, and generating and outputting a voice for notifying the event in a different atmosphere according to the determined user status Another purpose is to provide

본 발명의 일 양상에 따라 사용자의 음성 명령을 인식하여 처리하고 처리 결과를 응답 음성으로 생성하여 출력하는 음성 에이전트 시스템은 이벤트 수집부와, 음성 명령 처리부와, 응답 컨텍스트 처리부와, 응답 처리부를 포함하여 사용자 상태에 기반한 응답 음성을 생성한다.According to an aspect of the present invention, a voice agent system for recognizing and processing a user's voice command and generating and outputting a processing result as a response voice includes an event collection unit, a voice command processing unit, a response context processing unit, and a response processing unit. Generates a response voice based on user status.

이벤트 수집부는 등록된 서비스에 대한 이벤트 정보를 수집하고, 음성 명령 처리부는 사용자의 음성 명령을 인식하여 처리하고 인식된 명령과 관련된 이벤트 정보를 이벤트 수집부로부터 수신하여 전달한다.The event collection unit collects event information for a registered service, the voice command processing unit recognizes and processes a user's voice command, and receives and transmits event information related to the recognized command from the event collection unit.

응답 컨텍스트 처리부는 수신한 이벤트 정보와 사용자의 관심 서비스 정보로부터 상기 시스템의 응답 컨텍스트를 결정하고, 응답 처리부는 결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력한다.The response context processing unit determines a response context of the system from the received event information and the user's service information of interest, and the response processing unit generates and outputs a response voice to the processing result of the user's voice command according to the determined response context.

또한, 응답 컨텍스트 처리부는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정할 수 있다.In addition, the response context processing unit may determine the response context from the inducement information determined as any one of positive, negative, and neutral states with respect to the event information by matching the event information with the user's interest service information.

추가적으로, 본 발명의 음성 에이전트 시스템은 사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 문장을 분석하여 사용자의 정서를 결정하는 정서 결정부를 더 포함할 수 있고, 이때 응답 컨텍스트 결정부는 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정한다.Additionally, the voice agent system of the present invention may further include a sentiment determiner configured to determine the user's emotion by analyzing the sound of the user's voice command and the text sentence converted from the voice command, in which case the response context determining unit may include the inducement information and the user A response context is determined from the user's sentiment analyzed based on the voice command.

본 발명의 또 다른 양상에 따르는 음성 에이전트 시스템은 이벤트 통지부를 더 포함할 수 있고, 이벤트 통지부는 등록된 관심 서비스에 대하여 수집된 이벤트 정보를 응답 컨텍스트 처리부에 전송하고, 사용자에게 음성으로 통지할 수집된 이벤트에 대한 이벤트 통지 문장을 생성하여 응답 처리부에 전송하고, 응답 처리부가 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력할 수 있다.The voice agent system according to another aspect of the present invention may further include an event notification unit, and the event notification unit transmits the event information collected for the registered interest service to the response context processing unit, and collects the collected information to notify the user by voice. An event notification sentence for an event may be generated and transmitted to the response processing unit, and the event notification sentence received by the response processing unit may be generated and output as an event notification voice according to the determined response context.

본 발명의 일 양상에 따르는 음성 에이전트 시스템이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 등록된 서비스에 대한 이벤트 정보를 수집하는 단계와, 사용자의 음성 명령을 인식하여 텍스트로 변환하고, 음성 명령을 처리하는 단계와, 이벤트 정보와 사용자의 관심 서비스 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 단계와, 결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력하는 단계를 포함한다.According to an aspect of the present invention, a method for a voice agent system to generate a response voice based on a user state includes collecting event information for a registered service, recognizing a user's voice command and converting it into text, and performing a voice command processing, determining the response context of the system from event information and the user's service information of interest, and generating and outputting a response voice to the processing result of the user's voice command according to the determined response context do.

본 발명의 또 다른 양상에 따른 음성 에이전트 시스템이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 등록된 서비스에 대한 이벤트 정보를 수집하는 단계와, 수집한 이벤트에 대한 이벤트 통지 문장을 생성하는 단계와, 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정하는 단계와, 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 단계를 포함할 수 있다.According to another aspect of the present invention, a method for a voice agent system to generate a response voice based on a user state comprises the steps of: collecting event information for a registered service; generating an event notification sentence for the collected event; , determining a response context from the inducement information determined as any one of positive, negative, and neutral states with respect to the event information by matching the event information with the user's service information of interest; It may include the step of generating and outputting the notification voice.

본 발명의 음성 에이전트 시스템에 의하면 사용자의 음성 명령에 대한 응답을 전달하고자 하는 메시지의 내용과 사용자의 상태에 따라 다른 분위기로 음성 응답을 생성하여 출력할 수 있다.According to the voice agent system of the present invention, it is possible to generate and output a voice response in a different atmosphere according to the content of a message to be delivered in response to the user's voice command and the state of the user.

추가로, 본 발명의 음성 에이전트 시스템에 의하면 사용자 관심 분야에 발생한 이벤트를 사용자에게 통지할 때 해당 이벤트에 대한 사용자의 상태를 결정하고, 결정된 사용자 상태에 따라 다른 분위기로 이벤트를 통지하는 음성을 생성하여 출력할 수 있다.In addition, according to the voice agent system of the present invention, when notifying the user of an event occurring in the user's area of interest, the user's status for the event is determined, and a voice is generated to notify the event in a different atmosphere according to the determined user status. can be printed out.

도 1은 본 발명의 일 양상에 따르는 음성 에이전트 시스템의 블록도를 도시한 것이다.
도 2는 본 발명의 추가적 양상에 따라 음성 명령을 분석하여 파악된 사용자 정서를 반영하는 음성 에이전트 시스템의 블록도를 도시하고 있다.
도 3은 본 발명의 또 다른 양상에 따라 발생된 이벤트에 대한 사용자의 유인가를 반영하여 이벤트를 통지하는 음성 에이전트 시스템의 블록도를 도시하고 있다.
도 4는 본 발명의 일 양상에 따르는 음성 에이전트 시스템이 음성 명령에 대한 응답 음성을 생성하는 절차를 도시한 것이다.
도 5는 본 발명의 또 다른 양상에 따르는 음성 에이전트 시스템이 발생된 이벤트를 통지하는 음성을 생성하는 절차를 도시한 것이다.
1 illustrates a block diagram of a voice agent system in accordance with an aspect of the present invention.
2 is a block diagram of a voice agent system reflecting user sentiment identified by analyzing a voice command according to an additional aspect of the present invention.
3 is a block diagram of a voice agent system for notifying an event by reflecting a user's inducement for an event that has occurred according to another aspect of the present invention.
4 illustrates a procedure for generating a voice response voice to a voice command by a voice agent system according to an aspect of the present invention.
5 is a diagram illustrating a procedure for generating a voice for notifying an event that has occurred by a voice agent system according to another aspect of the present invention.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.The foregoing and additional aspects are embodied through embodiments described with reference to the accompanying drawings. It is understood that various combinations of elements of each embodiment are possible within the embodiments as long as there is no contradiction between them or other mentions. Each block in the block diagram may represent a physical part in some cases, but in other cases may be a part of the function of one physical part or a logical representation of a function across a plurality of physical parts. Sometimes a block or part of an entity may be a set of program instructions. All or a part of these blocks may be implemented by hardware, software, or a combination thereof.

유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버와 연결되는 음성 에이전트 시스템(10)은 개인용 컴퓨터, 서버, 스마트폰, IPTV, 인공지능 스피커, 웨어러블 디바이스(Wearable Device) 등 컴퓨팅 기능을 구비한 장치들로 구현될 수 있다.The voice agent system 10 connected to a service providing server that provides various online services including a web server through a wired/wireless communication network is a personal computer, server, smart phone, IPTV, artificial intelligence speaker, wearable device, etc. computing It may be implemented as devices having a function.

음성 에이전트 시스템(10)은 사용자의 음성 명령을 입력 받는 마이크를 포함하는 입력부와, 응답 음성을 출력하는 스피커를 포함하는 출력부와, 각종 메모리 및 저장 장치를 포함하는 저장부와, 메모리 또는 저장 장치에 저장된 프로그램을 실행하는 마이크로프로세서를 포함하는 제어부를 포함할 수 있다.The voice agent system 10 includes an input unit including a microphone for receiving a user's voice command, an output unit including a speaker for outputting a response voice, a storage unit including various memories and storage devices, and a memory or storage device It may include a control unit including a microprocessor for executing a program stored in the.

특히, 제어부는 음성 에이전트 시스템(10)의 전체적인 동작을 제어하는 소프트웨어 프로그램을 포함한다.In particular, the control unit includes a software program for controlling the overall operation of the voice agent system (10).

도 1은 본 발명의 일 양상에 따르는 음성 에이전트 시스템의 블록도를 도시한 것이다. 일 양상에 따르는 음성 에이전트 시스템(10)은 이벤트 수집부(100)와, 음성 명령 처리부(110)와, 응답 컨텍스트 처리부(120)와, 응답 처리부(130)와, 사용자 데이터베이스(200)를 포함하여 사용자 상태에 기반한 응답 음성을 생성한다. 이벤트 수집부(100)와, 음성 명령 처리부(110)와, 응답 컨텍스트 처리부(120)와, 응답 처리부(130)는 제어부에 포함되며, 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.1 illustrates a block diagram of a voice agent system in accordance with an aspect of the present invention. The voice agent system 10 according to an aspect includes an event collection unit 100 , a voice command processing unit 110 , a response context processing unit 120 , a response processing unit 130 , and a user database 200 . Generates a response voice based on user status. The event collection unit 100, the voice command processing unit 110, the response context processing unit 120, and the response processing unit 130 are included in the control unit, and are implemented as a set of computer program instructions that are loaded into a memory and executed on a microprocessor. can be

사용자 데이터베이스(200)는 사전에 사용자로부터 입력 받은 데이터를 저장한다. 저장되는 데이터는 사용자의 성별, 연령, 지역 등을 포함하는 인구통계학적인 정보와, 사용자가 관심이 있는 서비스 관련 정보를 포함한다. 특히, 사용자가 관심이 있는 서비스 관련 정보는 음성 에이전트 시스템(10)을 통해 사용자가 명령을 수행할 가능성이 높은 서비스 분야에 대한 정보이다. 예를 들어, 사용자가 특정 스포츠 서비스에 관심이 있는 경우 서비스 관련 정보는 해당 스포츠 분야와 사용자가 응원하는 팀에 대한 정보를 포함한다. 또 다른 예로, 사용자가 주식 거래 서비스에 관심이 있는 경우 서비스 관련 정보는 주식 정보와 사용자가 보유하고 있거나 선호하는 주식 목록 정보를 포함한다.The user database 200 stores data previously input by the user. The stored data includes demographic information including the user's gender, age, region, and the like, and service-related information that the user is interested in. In particular, the service-related information that the user is interested in is information on a service field in which the user is likely to perform a command through the voice agent system 10 . For example, if the user is interested in a specific sports service, the service-related information includes information on the sports field and the team the user supports. As another example, if the user is interested in a stock trading service, the service-related information includes stock information and stock listing information that the user owns or prefers.

사용자 데이터베이스(200)는 음성 에이전트 시스템(10)과 일대일로 연결될 수 있다. 즉, 하나의 음성 에이전트 시스템(10)마다 사용자 데이터베이스(200)를 포함할 수 있다. 또한, 사용자 데이터베이스(200)는 다수의 음성 에이전트 시스템(10)과 연결될 수 있으며, 이때는 다수의 음성 에이전트 시스템(10)이 사용자 데이터베이스(200)와 연결될 수 있다. The user database 200 may be connected to the voice agent system 10 on a one-to-one basis. That is, each of the voice agent systems 10 may include the user database 200 . In addition, the user database 200 may be connected to a plurality of voice agent systems 10 , in this case, a plurality of voice agent systems 10 may be connected to the user database 200 .

이벤트 수집부(100)는 유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버로부터 등록된 서비스에 대한 이벤트 정보를 수집한다. 이때 등록된 서비스는 이벤트 수집부(100)에 의해 음성 에이전트 시스템(10)을 사용하는 사용자의 관심 서비스에 대한 정보를 사용자 데이터베이스(200)로부터 추출되어 등록된다. 이벤트 수집부(100)가 서비스 제공 서버로부터 이벤트 정보를 수집하는 방법은 제한이 없다. 일 예로, 정보 수집 방법은 메시지 큐로 구현되어 등록된 서비스에 대하여 구독(subscribe)하여 해당 서비스에 대한 정보를 획득할 수 있다.The event collecting unit 100 collects event information for a registered service from a service providing server that provides various online services including a web server through a wired/wireless communication network. At this time, the registered service is registered by extracting information about the service of interest of the user using the voice agent system 10 from the user database 200 by the event collection unit 100 . There is no limit to the method in which the event collection unit 100 collects event information from the service providing server. As an example, the information collection method may be implemented as a message queue and may acquire information on the service by subscribing to a registered service.

음성 명령 처리부(110)는 사용자의 음성 명령을 인식하여 텍스트로 변환하는 명령 인식부(112)와, 인식된 사용자의 음성 명령을 수행하여 처리하고 처리 결과 정보를 출력하는 명령 처리부(114)를 포함하며, 명령 인식부(112)와 명령 처리부(114) 또한 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다. 또한, 음성 명령 처리부(110)는 인식된 명령과 관련된 이벤트 정보를 이벤트 수집부(100)로부터 수신하여 응답 컨텍스트 처리부(120)로 전달한다. 이때, 인식된 명령이 사용자의 관심 서비스와 관련이 없거나 관심 서비스에 대한 새로운 이벤트가 발생하지 않는 경우, 빈 이벤트 정보를 응답 컨텍스트 처리부(120)로 전달할 수도 있다.The voice command processing unit 110 includes a command recognition unit 112 for recognizing a user's voice command and converting it into text, and a command processing unit 114 for processing the recognized user's voice command and outputting processing result information. And, the command recognition unit 112 and the command processing unit 114 may also be implemented as a set of computer program instructions that are loaded into a memory and executed in a microprocessor. Also, the voice command processing unit 110 receives event information related to the recognized command from the event collection unit 100 and transmits it to the response context processing unit 120 . In this case, when the recognized command is not related to the user's interest service or a new event for the interest service does not occur, empty event information may be transmitted to the response context processing unit 120 .

명령 인식부(112)가 사용자의 음성 명령을 인식하는 기술은 ASR(Automatic Speech Recognition)과 같이 알려진 기술로 자세한 설명은 생략한다. 또한, 명령 처리부(114)는 자연어 처리 알고리즘 기반으로 명령을 이해하여 명령을 수행하고 수행결과를 출력한다. 이때, 필요한 경우 외부의 서비스 제공 서버와 연동하여 명령을 수행할 수 있다.A technique for recognizing a user's voice command by the command recognition unit 112 is a known technique such as Automatic Speech Recognition (ASR), and a detailed description thereof will be omitted. In addition, the command processing unit 114 understands the command based on the natural language processing algorithm, performs the command, and outputs the execution result. In this case, if necessary, the command may be executed in conjunction with an external service providing server.

응답 컨텍스트 처리부(120)는 음성 명령 처리부(110)로부터 수신한 이벤트 정보와 사용자 데이터베이스(200)로부터 추출한 사용자의 관심 서비스 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하여 응답 처리부(130)에 응답 컨텍스트 정보를 전달한다.The response context processing unit 120 determines the response context to be used by the voice agent system 10 to generate the response voice from the event information received from the voice command processing unit 110 and the user's interest service information extracted from the user database 200 , The response context information is transmitted to the response processing unit 130 .

응답 컨텍스트는 사용자의 상태에 따라 응답으로 발화될 음성의 음조, 속도, 강세, 억양을 포함하는 응답의 톤이나 무드를 의미하고, 사용자 상태는 사용자가 특정 서비스에 발생된 이벤트에 대해 느끼는 긍정, 부정 또는 중립적 정서 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 의미한다.The response context refers to the tone or mood of the response including the tone, speed, stress, and intonation of the voice to be uttered as a response according to the user's status, and the user status is the positive or negative feeling that the user feels about an event occurring in a specific service. Or, it refers to various emotional states, such as happiness, anger, fear, sadness, surprise, in addition to neutral emotions.

또한, 응답 컨텍스트 처리부(120)는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 유인가를 결정하는 유인가 결정부(122)와, 결정된 유인가 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하는 응답 컨텍스트 결정부(124)를 포함할 수 있다. 유인가 결정부(122)와 응답 컨텍스트 결정부(124) 또한 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.In addition, the response context processing unit 120 matches the event information with the user's interest service information to determine whether to induce to any one of positive, negative, and neutral states for the event information, and the determined inducement decision unit 122 . From the information, the voice agent system 10 may include a response context determining unit 124 that determines a response context to be used for generating a response voice. The incentive determining unit 122 and the response context determining unit 124 may also be implemented as a set of computer program instructions that are loaded into a memory and executed in a microprocessor.

유인가 결정부(122)는 수신하는 이벤트 정보가 빈 정보이거나 해당 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정할 수 있다. 예를 들어, 등록된 관심 서비스 분야가 야구이고 응원팀이 A팀인 경우 B팀의 승패에 대한 정보를 요청하는 사용자 음성 명령의 경우 유인가 결정부(122)가 중립 상태의 유인가를 결정한다.When the received event information is empty information or the corresponding event information is event information unrelated to the service of interest, the inducer determiner 122 may determine the inducer in a neutral state. For example, when the registered interest service field is baseball and the cheering team is team A, in the case of a user's voice command requesting information on the victory or defeat of team B, the incentive determination unit 122 determines whether to induce in a neutral state.

응답 처리부(130)는 명령 처리부(114)로부터 수신한 사용자 음성 명령에 대한 명령 처리 결과를 수신하여 응답 문장을 생성하는 응답 문장 생성부(132)와, 생성된 응답 문장을 결정된 응답 컨텍스트에 따라 응답 문장에 대한 응답 음성을 생성하여 출력하는 응답 음성 생성부(134)를 포함한다. 응답 문장 생성부(132)와 응답 음성 생성부(134) 또한 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다. 응답 음성 생성부(134)는 TTS 엔진을 통해 응답 문장으로부터 음성을 생성한다.The response processing unit 130 receives the command processing result for the user's voice command received from the command processing unit 114 and receives the response sentence generation unit 132 to generate a response sentence, and responds to the generated response sentence according to the determined response context and a response voice generator 134 for generating and outputting a response voice to a sentence. The response sentence generation unit 132 and the response voice generation unit 134 may also be implemented as a set of computer program instructions that are loaded into a memory and executed in a microprocessor. The response voice generator 134 generates a voice from the response sentence through the TTS engine.

이때, 응답 처리부(130)에 포함되는 응답 음성 생성부(134)는 입력된 문장 또는 음성을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 포함하고, 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 음성을 생성하여 출력할 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델이다. 또한, 딥러닝 모델은 긍정, 부정, 중립 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 학습한 모델일 수 있다. 발명의 양상에 따라서는 TTS 엔진을 통해 응답 문장을 음성으로 생성하고, 딥러닝 모델을 통해 사용자 상태가 반영되도록 음성을 변조하도록 딥러닝 모델이 학습될 수도 있고, 딥러닝 모델이 내부에 TTS 엔진을 포함하여 응답 문장과 사용자 컨텍스트를 입력으로 하여 사용자 상태가 반영된 음성을 생성하도록 학습될 수도 있다.At this time, the response voice generating unit 134 included in the response processing unit 130 includes a deep learning model trained to generate an input sentence or voice as a voice according to the response context information, and the voice command through the deep learning model. It is possible to generate and output audio from the processing result. The deep learning model is a model in which human evaluators listen to a voice and learn the voice data set that is divided into positive, negative, and neutral using a supervised learning method. In addition, the deep learning model may be a model that has learned various emotional states such as happiness, anger, fear, sadness, and surprise in addition to positive, negative, and neutral. According to an aspect of the invention, a deep learning model may be trained to generate a response sentence as a voice through the TTS engine, and to modulate the voice to reflect the user's state through the deep learning model, and the deep learning model has a TTS engine inside Including, it may be learned to generate a voice reflecting the user's state by inputting the response sentence and the user context as inputs.

도 2는 본 발명의 추가적 양상에 따라 음성 명령을 분석하여 파악된 사용자 정서를 반영하는 음성 에이전트 시스템의 블록도를 도시하고 있다. 추가적으로 음성 에이전트 시스템(10)은 정서 결정부(140)를 더 포함할 수 있고, 정서 결정부(140)는 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.2 is a block diagram of a voice agent system reflecting user sentiment identified by analyzing a voice command according to an additional aspect of the present invention. Additionally, the voice agent system 10 may further include a sentiment determining unit 140, and the sentiment determining unit 140 may be implemented as a set of computer program instructions loaded into a memory and executed in a microprocessor.

정서 결정부(140)는 명령 인식부(112)로부터 음성 데이터와 음성 명령이 변환된 텍스트 정보를 수신하고, 사용자의 음성 명령 즉, 음성 데이터의 음향과 텍스트 정보를 분석하여 사용자의 정서를 결정한다. 정서 결정부(140)는 음성 데이터에 포함된 음조, 속도, 강세, 억양 등의 음향적 성질을 분석하고, 텍스트 정보에 포함된 문장의 맥락 및 문장 내의 단어들을 분석하여 정서를 결정할 수 있다.The sentiment determining unit 140 receives the voice data and the voice command-converted text information from the command recognition unit 112, and analyzes the user's voice command, that is, the sound and text information of the voice data to determine the user's sentiment. . The emotion determination unit 140 may determine the emotion by analyzing acoustic properties such as tone, speed, stress, intonation, etc. included in the voice data, and analyzing the context and words in the sentence included in the text information.

정서 결정부(140)는 입력된 음성을 분석하여 정서를 분류하도록 학습된 딥러닝 모델을 포함할 수 있고, 딥러닝 모델을 통해 입력된 음성의 정서를 분류할 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델일 수 있다.The emotion determiner 140 may include a deep learning model trained to classify the emotion by analyzing the input voice, and may classify the emotion of the input voice through the deep learning model. The deep learning model may be a model in which human evaluators listen to a voice and learn a voice data set in which the voice is divided into positive, negative, and neutral using a supervised learning method.

또한, 정서 결정부(140)는 텍스트 정보를 분석할 때 감정을 나타내는 단어들을 추출하여 정서를 유추할 수 있으며, 동일한 텍스트의 반복, 표현 강도 등에 가중치를 부여할 수도 있다.In addition, when analyzing text information, the emotion determiner 140 may extract words representing emotions to infer emotions, and may give weight to repetition of the same text, expression strength, and the like.

정서 결정부(140)는 음성을 분석한 결과와 텍스트를 분석한 결과를 조합하여 사용자의 현재 정서를 결정한다.The emotion determining unit 140 determines the user's current emotion by combining the result of analyzing the voice and the result of analyzing the text.

정서 결정부(140)가 결정한 정서 정보는 응답 컨텍스트 처리부(120), 구체적으로 응답 컨텍스트 결정부(124)로 전달된다.The sentiment information determined by the sentiment determining unit 140 is transmitted to the response context processing unit 120 , specifically, the response context determining unit 124 .

이 양상에서의 응답 컨텍스트 처리부(120), 구체적으로 응답 컨텍스트 결정부(124)는 결정된 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서 정보로부터 응답 컨텍스트를 결정한다.In this aspect, the response context processing unit 120 , specifically the response context determining unit 124 , determines a response context from the user's sentiment information analyzed based on the determined inducement information and the user's voice command.

도 3은 본 발명의 또 다른 양상에 따라 발생된 이벤트에 대한 사용자의 유인가를 반영하여 이벤트를 통지하는 음성 에이전트 시스템의 블록도를 도시하고 있다. 발명의 또 다른 양상에 따르면, 음성 에이전트 시스템(10)은 이벤트 통지부(150)를 더 포함할 수 있고, 이벤트 통지부(150)는 메모리에 로드되어 마이크로프로세서에서 실행되는 컴퓨터 프로그램 명령어 세트로 구현될 수 있다.3 is a block diagram of a voice agent system for notifying an event by reflecting a user's inducement for an event that has occurred according to another aspect of the present invention. According to another aspect of the invention, the voice agent system 10 may further include an event notification unit 150, the event notification unit 150 is implemented as a set of computer program instructions loaded into a memory and executed in a microprocessor. can be

이벤트 통지부(150)는 응답 컨텍스트 처리부가 등록된 관심 서비스에 대하여 수집된 이벤트 정보를 이용하여 해당 이벤트에 대한 응답 컨텍스트를 결정하도록 컨텍스트 처리부에 전송한다. 이때 이벤트 통지부(150)는 등록된 모든 관심 서비스에 대하여 이벤트 정보를 전송할 수도 있고, 이벤트 발생 시 통지하도록 설정된 관심 서비스에 대해서만 이벤트 정보를 전송할 수도 있다. 또한, 이벤트 통지부(150)는 사용자에게 음성으로 통지할 수집된 이벤트에 대한 이벤트 통지 문장을 생성하여 응답 처리부(130)에 전송한다. The event notification unit 150 transmits the response context processing unit to the context processing unit to determine the response context for the corresponding event by using the event information collected for the registered interest service. In this case, the event notification unit 150 may transmit event information for all registered interest services, or may transmit event information only for services of interest set to notify when an event occurs. In addition, the event notification unit 150 generates an event notification sentence for the collected event to be notified to the user by voice, and transmits it to the response processing unit 130 .

이 양상의 응답 처리부(130)는 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력할 수 있다.The response processing unit 130 of this aspect may generate and output the received event notification sentence as an event notification voice according to the determined response context.

도 4는 본 발명의 일 양상에 따르는 음성 에이전트 시스템이 음성 명령에 대한 응답 음성을 생성하는 절차를 도시한 것이다. 본 발명의 일 양상에 따르는 음성 에이전트 시스템(10)이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 이벤트 정보 수집 단계와, 음성 명령 처리 단계와, 응답 컨텍스트 결정 단계와, 응답 음성 생성 단계를 포함한다.4 is a diagram illustrating a procedure in which a voice agent system generates a voice response to a voice command according to an aspect of the present invention. A method for the voice agent system 10 according to an aspect of the present invention to generate a response voice based on a user state includes: collecting event information; processing a voice command; determining a response context; and generating a response voice. do.

이벤트 정보 수집 단계는 음성 에이전트 시스템(10), 구체적으로 이벤트 수집부(100)가 유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버로부터 등록된 서비스에 대한 이벤트 정보를 수집하는 단계이다(S1000). 이때 등록된 서비스는 음성 에이전트 시스템(10)을 사용하는 사용자의 관심 서비스에 대한 정보를 사용자 데이터베이스(200)로부터 추출되어 등록된다. 음성 에이전트 시스템(10)이 서비스 제공 서버로부터 이벤트 정보를 수집하는 방법은 제한이 없으며, 일 예로, 정보 수집 방법은 메시지 큐로 구현되어 등록된 서비스에 대하여 구독(subscribe)하여 해당 서비스에 대한 정보를 획득할 수 있다.In the event information collection step, the voice agent system 10, specifically, the event collection unit 100 collects event information for a registered service from a service providing server that provides various online services including a web server through a wired/wireless communication network. step (S1000). At this time, the registered service is registered by extracting information on the service of interest of the user using the voice agent system 10 from the user database 200 . There is no limitation in how the voice agent system 10 collects event information from the service providing server. For example, the information collection method is implemented as a message queue and subscribes to a registered service to acquire information about the service. can do.

음성 명령 처리 단계는 음성 에이전트 시스템(10), 구체적으로 음성 명령 처리부(110)가 사용자의 음성 명령을 인식하여 텍스트로 변환하고, 인식된 사용자의 음성 명령을 수행하여 처리한 후 처리 결과 정보를 출력하는 단계이다(S1020).In the voice command processing step, the voice agent system 10, specifically, the voice command processing unit 110 recognizes the user's voice command and converts it into text, performs the recognized user's voice command and processes it, and then outputs the processing result information This is a step (S1020).

응답 컨텍스트 결정 단계는 음성 에이전트 시스템(10), 구체적으로 응답 컨텍스트 처리부(120)가 이벤트 정보와 사용자의 관심 서비스 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 단계이다.The response context determination step is a step in which the voice agent system 10, specifically, the response context processing unit 120, determines the response context of the system from the event information and the user's service information of interest.

또한, 응답 컨텍스트 결정 단계는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 유인가를 결정하는 유인가 정보를 결정하는 단계(S1060)와, 결정된 유인가 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하는 단계로 구성될 수 있다.In addition, the response context determining step includes a step (S1060) of matching event information and the service information of the user's interest to determine inducement information for determining whether to induce in any one of positive, negative, and neutral states with respect to event information (S1060); Determining a response context to be used for generating a response voice by the voice agent system 10 from the authorization information.

유인가 결정 단계에서 수신하는 이벤트 정보가 빈 정보이거나 해당 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정할 수 있다. 예를 들어, 등록된 관심 서비스 분야가 야구이고 응원팀이 A팀인 경우 B팀의 승패에 대한 정보를 요청하는 사용자 음성 명령의 경우 중립 상태의 유인가 정보가 결정될 수 있다.When the event information received in the inducement determination step is empty information or the corresponding event information is event information not related to the service of interest, it may be determined as an inducer in a neutral state. For example, when the registered interest service field is baseball and the cheering team is team A, in the case of a user's voice command requesting information on the victory or defeat of team B, manned information in a neutral state may be determined.

응답 음성 생성 단계는 음성 에이전트 시스템(10), 구체적으로 응답 처리부(130)가 사용자 음성 명령에 대한 명령 처리 결과를 응답 문장을 생성하는 응답 문장으로 생성하고, 생성된 응답 문장을 결정된 응답 컨텍스트에 따라 응답 문장에 대한 응답 음성을 생성하여 출력하는 단계이다(S1100). In the response voice generation step, the voice agent system 10, specifically, the response processing unit 130 generates a command processing result for a user voice command as a response sentence for generating a response sentence, and uses the generated response sentence according to the determined response context. It is a step of generating and outputting a voice response to the response sentence (S1100).

이때, 응답 음성은 입력된 문장 또는 음성을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 생성되어 출력될 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델이다. 또한, 딥러닝 모델은 긍정, 부정, 중립 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 학습한 모델일 수 있다.In this case, the response voice may be generated and output from the processing result of the voice command through the deep learning model trained to generate the input sentence or voice as a voice according to the response context information. The deep learning model is a model in which human evaluators listen to a voice and learn the voice data set that is divided into positive, negative, and neutral using a supervised learning method. In addition, the deep learning model may be a model that has learned various emotional states such as happiness, anger, fear, sadness, and surprise in addition to positive, negative, and neutral.

추가적으로, 음성 에이전트 시스템(10)이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 정서 결정 단계를 더 포함할 수 있다.Additionally, the method by which the voice agent system 10 generates a response voice based on the user state may further include a sentiment determining step.

정서 결정 단계는 응답 컨텍스트를 결정하는 단계 수행하기 전, 도 4에서는 유인가 정보를 결정하기 전에 음성 에이전트 시스템(10), 구체적으로 정서 결정부(140)가 사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 문장을 분석하여 사용자의 정서를 결정하는 단계이다(S1040).In the sentiment determination step, before performing the step of determining the response context, in FIG. 4 , before determining the inducement information, the voice agent system 10, specifically the sentiment determination unit 140, converts the sound of the user's voice command and the voice command It is a step of determining the emotion of the user by analyzing the text sentence (S1040).

정서 결정 단계에서 음성 에이전트 시스템(10)은 음성 데이터에 포함된 음조, 속도, 강세, 억양 등의 음향적 성질을 분석하고, 텍스트 정보에 포함된 문장의 맥락 및 문장 내의 단어들을 분석하여 정서를 결정할 수 있다. 입력된 음성을 분석하여 정서를 분류하도록 학습된 딥러닝 모델을 통해 입력된 음성의 정서를 분류할 수 있고, 이때 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델일 수 있다.In the emotion determination step, the voice agent system 10 analyzes acoustic properties such as tone, speed, stress, intonation, etc. included in the voice data, and determines the emotion by analyzing the context and words in the sentence included in the text information. can It is possible to classify the emotion of the input voice through a deep learning model trained to classify the emotion by analyzing the input voice. It may be a model trained by a supervised learning method on a neutrally divided speech data set.

이 경우 응답 컨텍스트를 결정하는 단계는 상기 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정한다.In this case, the step of determining the response context determines the response context from the user's sentiment analyzed based on the inducement information and the user's voice command.

도 5는 본 발명의 또 다른 양상에 따르는 음성 에이전트 시스템이 발생된 이벤트를 통지하는 음성을 생성하는 절차를 도시한 것이다. 본 발명의 또 다른 양상에 따른 음성 에이전트 시스템(10)이 사용자 상태에 기반하여 응답 음성을 생성하는 방법은 이벤트 정보 수집 단계와, 이벤트 통지 문장 생성 단계와, 응답 컨텍스트 결정 단계와, 이벤트 통지 음성 생성 단계를 포함할 수 있다.5 is a diagram illustrating a procedure for generating a voice for notifying a generated event by a voice agent system according to another aspect of the present invention. A method for the voice agent system 10 according to another aspect of the present invention to generate a response voice based on a user state includes the event information collection step, the event notification sentence generation step, the response context determination step, and the event notification voice generation step. may include steps.

이벤트 정보 수집 단계는 음성 에이전트 시스템(10), 구체적으로 이벤트 수집부(100)가 유무선 통신망을 통해 웹 서버 등을 비롯한 각종 온라인 서비스를 제공하는 서비스 제공 서버로부터 등록된 서비스에 대한 이벤트 정보를 수집하는 단계이다(S2000). 이때 등록된 서비스는 음성 에이전트 시스템(10)을 사용하는 사용자의 관심 서비스에 대한 정보를 사용자 데이터베이스(200)로부터 추출되어 등록된다. 음성 에이전트 시스템(10)이 서비스 제공 서버로부터 이벤트 정보를 수집하는 방법은 제한이 없으며, 일 예로, 정보 수집 방법은 메시지 큐로 구현되어 등록된 서비스에 대하여 구독(subscribe)하여 해당 서비스에 대한 정보를 획득할 수 있다.In the event information collection step, the voice agent system 10, specifically, the event collection unit 100 collects event information for a registered service from a service providing server that provides various online services including a web server through a wired/wireless communication network. step (S2000). At this time, the registered service is registered by extracting information on the service of interest of the user using the voice agent system 10 from the user database 200 . There is no limitation in how the voice agent system 10 collects event information from the service providing server. For example, the information collection method is implemented as a message queue and subscribes to a registered service to acquire information about the service. can do.

이벤트 통지 문장 생성 단계는 음성 에이전트 시스템(10), 구체적으로 이벤트 통지부(150)가 수집한 이벤트에 대한 이벤트 통지 문장을 생성하는 단계이다(S2020). The event notification sentence generation step is a step of generating an event notification sentence for the event collected by the voice agent system 10 , specifically, the event notification unit 150 ( S2020 ).

이 양상의 응답 처리부(130)는 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력할 수 있다.The response processing unit 130 of this aspect may generate and output the received event notification sentence as an event notification voice according to the determined response context.

응답 컨텍스트 결정 단계는 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정하는 단계로, 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 유인가를 결정하는 유인가 정보를 결정하는 단계(S2040)와, 결정된 유인가 정보로부터 음성 에이전트 시스템(10)이 응답 음성의 생성에 사용할 응답 컨텍스트를 결정하는 단계(S2060)로 구성될 수 있다.The response context determination step is a step of determining the response context from the inducement information determined as any one of positive, negative, and neutral states with respect to the event information by matching the event information and the user's interest service information, and the event information and the user's interest A step (S2040) of determining inducement information for determining whether to induce in any one of positive, negative, and neutral states with respect to the event information by matching service information, and the voice agent system 10 from the determined inducement information Determining a response context to be used for generation (S2060) may be configured.

유인가 결정 단계에서 수신하는 이벤트 정보가 빈 정보이거나 해당 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정할 수 있다. 예를 들어, 등록된 관심 서비스 분야가 야구이고 응원팀이 A팀인 경우 B팀의 승패에 대한 정보를 요청하는 사용자 음성 명령의 경우 중립 상태의 유인가 정보가 결정될 수 있다.When the event information received in the inducement determination step is empty information or the corresponding event information is event information not related to the service of interest, it may be determined as an inducer in a neutral state. For example, when the registered interest service field is baseball and the cheering team is team A, in the case of a user's voice command requesting information on the victory or defeat of team B, manned information in a neutral state may be determined.

이벤트 통지 음성 생성 단계는 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 단계이다(S2080). 이때, 이벤트 통지 음성은 입력된 문장 또는 음성을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 생성되어 출력될 수 있다. 딥러닝 모델은 인간 평가자(human evaluator)들이 음성을 듣고 해당 음성을 긍정, 부정, 중립으로 구분한 음성 데이터 셋을 지도 학습 방식으로 학습한 모델이다. 또한, 딥러닝 모델은 긍정, 부정, 중립 외에 행복, 분노, 두려움, 슬픔, 놀람 등의 다양한 정서 상태를 학습한 모델일 수 있다.The event notification voice generating step is a step of generating and outputting an event notification sentence as an event notification voice according to the determined response context (S2080). In this case, the event notification voice may be generated and output from the processing result of the voice command through the deep learning model trained to generate the input sentence or voice as a voice according to the response context information. The deep learning model is a model in which human evaluators listen to a voice and learn the voice data set that is divided into positive, negative, and neutral using a supervised learning method. In addition, the deep learning model may be a model that has learned various emotional states such as happiness, anger, fear, sadness, and surprise in addition to positive, negative, and neutral.

이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.Although the present invention has been described above with reference to the accompanying drawings, the present invention is not limited thereto, and it should be construed to encompass various modifications that can be apparent from those skilled in the art. The claims are intended to cover such variations.

10: 음성 에이전트 시스템
100: 이벤트 수집부
110: 음성 명령 처리부
112 : 명령 인식부 114: 명령 처리부
120: 응답 컨텍스트 처리부
122 : 유인가 결정부 124: 응답 컨텍스트 결정부
130: 응답 처리부
132 : 응답 문장 생성부 134: 응답 음성 생성부
140: 정서 결정부
150: 이벤트 통지부
200: 사용자 데이터베이스
10: Voice agent system
100: event collection unit
110: voice command processing unit
112: command recognition unit 114: command processing unit
120: response context processing unit
122: inducement determination unit 124: response context determination unit
130: response processing unit
132: response sentence generation unit 134: response voice generation unit
140: emotion decision unit
150: event notification unit
200: user database

Claims (11)

사용자의 음성 명령을 인식하여 처리하고 처리 결과를 응답 음성으로 생성하여 출력하는 음성 에이전트 시스템에 있어서,
등록된 서비스에 대한 이벤트 정보를 수집하는 이벤트 수집부;
사용자의 음성 명령을 인식하여 처리하되, 인식된 명령과 관련된 이벤트 정보를 이벤트 수집부로부터 수신하여 전달하는 음성 명령 처리부;
수신한 이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 응답 컨텍스트 처리부; 및
결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력하는 응답 처리부;
를 포함하여 사용자 상태에 기반한 응답 음성을 생성하되,
사용자의 관심 서비스 정보는 사전에 사용자로부터 입력되어 사용자 데이터베이스에 저장된 사용자가 관심이 있는 서비스 관련 정보이고,
상기 시스템은 :
등록된 관심 서비스에 대하여 수집된 이벤트 정보를 응답 컨텍스트 처리부에 전송하고, 사용자에게 음성으로 통지할 수집된 이벤트에 대한 이벤트 통지 문장을 생성하여 응답 처리부에 전송하는 이벤트 통지부;
를 더 포함하고,
응답 처리부는 수신한 이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 음성 에이전트 시스템.
In the voice agent system for recognizing and processing a user's voice command and generating and outputting the processing result as a response voice,
an event collection unit that collects event information for a registered service;
a voice command processing unit for recognizing and processing the user's voice command, receiving event information related to the recognized command from the event collecting unit and transmitting the received event information;
a response context processing unit that matches the received event information with the user's service information of interest to determine a response context of the system from the inducement information determined as any one of positive, negative, and neutral status for the event information; and
a response processing unit for generating and outputting a response voice in response to a processing result of a user's voice command according to the determined response context;
to generate a response voice based on the user's state,
The user's interest service information is information related to the service that the user is interested in, input from the user in advance and stored in the user database,
The system is:
an event notification unit that transmits event information collected for the registered interest service to the response context processing unit, generates an event notification sentence for the collected event to be notified to the user by voice, and transmits it to the response processing unit;
further comprising,
The response processing unit generates and outputs the received event notification sentence as an event notification voice according to the determined response context.
삭제delete 제 1 항에 있어서, 상기 시스템은
사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 정보를 분석하여 사용자의 정서를 결정하는 정서 결정부;
를 더 포함하되,
응답 컨텍스트 처리부는 상기 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정하는 음성 에이전트 시스템.
The system of claim 1 , wherein the system
a sentiment determiner configured to analyze the sound of the user's voice command and text information converted from the voice command to determine the user's emotion;
further comprising,
The response context processing unit is a voice agent system for determining a response context from the user's sentiment analyzed based on the inducement information and the user's voice command.
삭제delete 제 1 항에 있어서,
응답 처리부는 입력된 문장을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 딥러닝 모델을 포함하고, 상기 딥러닝 모델을 통해 음성 명령의 처리 결과로부터 음성을 생성하여 출력하는 음성 에이전트 시스템.
The method of claim 1,
The response processing unit includes a deep learning model trained to generate an input sentence as a voice according to response context information, and a voice agent system for generating and outputting a voice from a processing result of a voice command through the deep learning model.
음성 에이전트 시스템이 사용자 상태에 기반한 응답 음성을 생성하는 방법에 있어서,
등록된 서비스에 대한 이벤트 정보를 수집하는 단계;
사용자의 음성 명령을 인식하여 텍스트로 변환하고, 음성 명령을 처리하는 단계;
이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 상기 시스템의 응답 컨텍스트를 결정하는 단계; 및
결정된 응답 컨텍스트에 따라 사용자의 음성 명령의 처리 결과에 대한 응답 음성을 생성하여 출력하는 단계;
를 포함하되,
사용자의 관심 서비스 정보는 사전에 사용자로부터 입력되어 사용자 데이터베이스에 저장된 사용자가 관심이 있는 서비스 관련 정보이고,
응답 컨텍스트를 결정하는 단계에서 수신한 이벤트 정보가 관심 서비스와 관련 없는 이벤트 정보인 경우 중립 상태의 유인가로 결정하는 응답 음성 생성 방법.
A method for a voice agent system to generate a response voice based on a user state, the method comprising:
collecting event information for the registered service;
Recognizing a user's voice command, converting it into text, and processing the voice command;
determining a response context of the system from the inducement information determined as any one of a positive, negative, and neutral state with respect to event information by matching the event information with the user's service information of interest; and
generating and outputting a voice response to the processing result of the user's voice command according to the determined response context;
including,
The user's interest service information is information related to the service that the user is interested in, input from the user in advance and stored in the user database,
If the event information received in the step of determining the response context is event information not related to the service of interest, the response voice generation method is determined as an inducement in a neutral state.
삭제delete 제 6 항에 있어서, 상기 방법은
응답 컨텍스트를 결정하는 단계 수행 전, 사용자의 음성 명령의 음향과 음성 명령이 변환된 텍스트 문장을 분석하여 사용자의 정서를 결정하는 단계;
를 더 포함하되,
응답 컨텍스트를 결정하는 단계는 상기 유인가 정보와 사용자 음성 명령에 기초하여 분석된 사용자의 정서로부터 응답 컨텍스트를 결정하는 단계인 응답 음성 생성 방법.
7. The method of claim 6, wherein the method
Before performing the step of determining the response context, analyzing the sound of the user's voice command and the text sentence in which the voice command is converted to determine the user's emotion;
further comprising,
The step of determining the response context is the step of determining the response context from the user's sentiment analyzed based on the inducement information and the user's voice command.
제 6 항에 있어서,
응답 음성을 생성하여 출력하는 단계는 입력된 문장을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 머신러닝 모델을 통해 음성 명령의 처리 결과로부터 음성을 생성하여 출력하는 단계인 응답 음성 생성 방법.
7. The method of claim 6,
The step of generating and outputting a response voice is a step of generating and outputting a voice from a processing result of a voice command through a machine learning model trained to generate an input sentence as a voice according to response context information.
음성 에이전트 시스템이 사용자 상태에 기반한 응답 음성을 생성하는 방법에 있어서,
등록된 서비스에 대한 이벤트 정보를 수집하는 단계;
수집한 이벤트에 대한 이벤트 통지 문장을 생성하는 단계;
이벤트 정보와 사용자의 관심 서비스 정보를 매칭하여 이벤트 정보에 대하여 긍정, 부정 및 중립 상태 중 어느 하나의 상태로 결정된 유인가 정보로부터 응답 컨텍스트를 결정하는 단계; 및
이벤트 통지 문장을 결정된 응답 컨텍스트에 따라 이벤트 통지 음성으로 생성하여 출력하는 단계;
를 포함하되,
사용자의 관심 서비스 정보는 사전에 사용자로부터 입력되어 사용자 데이터베이스에 저장된 사용자가 관심이 있는 서비스 관련 정보인 응답 음성 생성 방법.
A method for a voice agent system to generate a response voice based on a user state, the method comprising:
collecting event information for the registered service;
generating an event notification sentence for the collected event;
determining a response context from the inducement information determined as any one of positive, negative, and neutral states with respect to event information by matching the event information with the user's service information of interest; and
generating and outputting an event notification sentence as an event notification voice according to the determined response context;
including,
The user's interest service information is input from the user in advance and stored in the user database.
제 10 항에 있어서,
이벤트 통지 음성을 생성하여 출력하는 단계는 입력된 문장을 응답 컨텍스트 정보에 따라 음성으로 생성하도록 학습된 머신러닝 모델을 통해 이벤트 통지 문장으로부터 음성을 생성하여 출력하는 단계인 응답 음성 생성 방법.
11. The method of claim 10,
The step of generating and outputting the event notification voice is a step of generating and outputting a voice from the event notification sentence through a machine learning model trained to generate the input sentence as a voice according to the response context information.
KR1020190156722A 2019-11-29 2019-11-29 Voice agent system and method for generating responses based on user context KR102413860B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190156722A KR102413860B1 (en) 2019-11-29 2019-11-29 Voice agent system and method for generating responses based on user context

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190156722A KR102413860B1 (en) 2019-11-29 2019-11-29 Voice agent system and method for generating responses based on user context

Publications (2)

Publication Number Publication Date
KR20210067283A KR20210067283A (en) 2021-06-08
KR102413860B1 true KR102413860B1 (en) 2022-06-27

Family

ID=76399797

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190156722A KR102413860B1 (en) 2019-11-29 2019-11-29 Voice agent system and method for generating responses based on user context

Country Status (1)

Country Link
KR (1) KR102413860B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838448B (en) * 2021-06-16 2024-03-15 腾讯科技(深圳)有限公司 Speech synthesis method, device, equipment and computer readable storage medium
KR102588017B1 (en) * 2021-10-19 2023-10-11 주식회사 카카오엔터프라이즈 Voice recognition device with variable response voice, voice recognition system, voice recognition program and control method thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119515A (en) * 2017-04-25 2018-11-02 김현민 Personalized service operation system and method of smart device and robot using smart mobile device
KR20180128805A (en) * 2017-05-24 2018-12-04 주식회사 솔트룩스 System and method for dynamic expansion of dialogue model based on real time data aggregation
KR102321789B1 (en) * 2019-08-28 2021-11-05 엘지전자 주식회사 Speech synthesis method based on emotion information and apparatus therefor

Also Published As

Publication number Publication date
KR20210067283A (en) 2021-06-08

Similar Documents

Publication Publication Date Title
WO2020135194A1 (en) Emotion engine technology-based voice interaction method, smart terminal, and storage medium
CN109256136B (en) Voice recognition method and device
US10395655B1 (en) Proactive command framework
JP2018055548A (en) Interactive device, learning device, interactive method, learning method, and program
KR102413860B1 (en) Voice agent system and method for generating responses based on user context
JP2013167666A (en) Speech recognition device, speech recognition method, and program
CN113851136A (en) Clustering-based speaker recognition method, device, equipment and storage medium
CN111694941A (en) Reply information determining method and device, storage medium and electronic equipment
CN111128175B (en) Spoken language dialogue management method and system
CN110931002B (en) Man-machine interaction method, device, computer equipment and storage medium
CN114138960A (en) User intention identification method, device, equipment and medium
CN117690456A (en) Small language spoken language intelligent training method, system and equipment based on neural network
Sheikhan Generation of suprasegmental information for speech using a recurrent neural network and binary gravitational search algorithm for feature selection
WO2020223742A2 (en) Generation and operation of artificial intelligence based conversation systems
Esposito et al. Recent Advances in Nonlinear Speech Processing: Directions and Challenges
US20220020368A1 (en) Output apparatus, output method and non-transitory computer-readable recording medium
KR102605178B1 (en) Device, method and computer program for generating voice data based on family relationship
JP7180127B2 (en) Information presentation system, information presentation method and program
KR102604277B1 (en) Complex sentiment analysis method using speaker separation STT of multi-party call and system for executing the same
CN118506802A (en) Method and apparatus for emotion framework based computerized matching
JP2020071690A (en) Pattern recognition model and pattern learning device, generation method for pattern recognition model, faq extraction method using the same and pattern recognition device, and program
EP4428854A1 (en) Method for providing voice synthesis service and system therefor
KR102691412B1 (en) Apparatus and method for providing communication service based on chat-bot
Guha Detecting User Emotions From Audio Conversations With the Smart Assistants
CN117315101A (en) Virtual object action generation method and device and electronic equipment

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant