WO2021066399A1 - 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템 - Google Patents

관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템 Download PDF

Info

Publication number
WO2021066399A1
WO2021066399A1 PCT/KR2020/013054 KR2020013054W WO2021066399A1 WO 2021066399 A1 WO2021066399 A1 WO 2021066399A1 KR 2020013054 W KR2020013054 W KR 2020013054W WO 2021066399 A1 WO2021066399 A1 WO 2021066399A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
user
unit
relationship setting
artificial intelligence
Prior art date
Application number
PCT/KR2020/013054
Other languages
English (en)
French (fr)
Inventor
안성민
박동길
Original Assignee
주식회사 오투오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 오투오 filed Critical 주식회사 오투오
Priority to US17/418,843 priority Critical patent/US20220059080A1/en
Publication of WO2021066399A1 publication Critical patent/WO2021066399A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • the present invention relates to a realistic artificial intelligence-based voice assistant system using relationship setting.
  • a realistic artificial intelligence-based voice assistant system using relationship setting In particular, an optimal voice conversation corresponding to a voice command by setting a relationship through user information input. It relates to a realistic artificial intelligence-based voice assistant system using relationship setting that creates objects and provides more realistic and interesting voice conversation services by providing voice features for each object.
  • Korean Laid-Open Patent Publication No. 2003-0033890 discloses a system for providing a personal assistant service using such a voice recognition technology.
  • Such a general personal assistant service converts the voice command into text through the meaning of words included in the user's voice command and recognizes only information as a command, but does not recognize the user's emotions. Therefore, the response of the mobile personal assistant service is the same regardless of the user's emotions such as sadness, anger, and joy.
  • the general mobile personal assistant service as described above may feel dry to the user, and this has a problem in that interest in use may be lost. As a result, there is a problem in that the frequency of use of the user decreases and the desire to use of the user decreases.
  • Patent Literature 1> is a virtual reality-based deceased person who can communicate with the deceased through voice and video of the deceased as well as realize the place where the deceased usually lived or a space to reminisce the deceased. Provides a customized memorial system.
  • This prior art uses the setting of the relationship between the user and the deceased, but this only uses the setting of the relationship between the deceased person registered in advance, and does not provide the optimal response object by grasping the user's emotions. There is a drawback that it is impossible to analyze and understand the user's interests.
  • ⁇ Patent Document 2> stores a plurality of information on the appearance of characters displayed for each state of a portable terminal in a memory, and displays various characters according to the user's taste or age as a background screen of the display (i.e. , To provide a portable terminal to display on the standby screen or idle screen).
  • This prior art can express the change of the character's expression according to the battery status, connection status, reception status, operation status, etc. on the display of a portable terminal in various ways, but it is impossible to establish a relationship through user information input, and responds to voice commands. There is a disadvantage in that it is impossible to create an optimal response object.
  • Patent Document 1 Republic of Korea Patent Publication 10-2019-0014895 (published on February 13, 2019) (Virtual reality-based personalized memorial system for the deceased)
  • Patent Document 2 Korean Patent Laid-Open Publication No. 10-2008-0078333 (published on August 27, 2008)
  • the present invention has been proposed to solve the problems arising from the prior art as described above, and it is possible to create an optimal voice conversation object corresponding to a voice command by establishing a relationship through user information input. Its purpose is to provide a realistic artificial intelligence-based voice assistant system using relationship setting.
  • Another object of the present invention is to provide a realistic artificial intelligence-based voice assistant system using a relationship setting that provides more realistic and interesting voice conversation services by providing voice characteristics for each object.
  • Another object of the present invention is not to convert the entire display screen to the voice command standby screen when the wakeup signal is called, but to convert it into a pop-up window form to enable multitasking during voice conversation. It is to provide a voice assistant system based.
  • the "artificial intelligence-based voice assistant system using relationship setting" is a user basic information input unit that inputs user information and sets an initial response character according to caller recognition. ;
  • a pager setting unit for setting a voice command pager;
  • a voice command analysis unit that analyzes the voice command uttered by the user and recognizes the user's emotion through sound analysis;
  • An image processing unit that recognizes a user's face image photographed through a camera and recognizes a user's situation and emotions through gesture recognition;
  • a voice dialogue object is derived, and a voice characteristic matching the derived voice dialogue object is applied, and from the image processing unit
  • the relationship setting unit may include an object candidate group derivation unit and an environment candidate group derivation unit for deriving an object candidate group and a surrounding environment candidate group matching the acquired voice command; And an object and a surrounding environment determining unit determining a final voice conversation object and a surrounding environment through artificial intelligence learning of the object candidate group and the surrounding environment candidate group based on user information.
  • the object and surrounding environment determining unit determines a voice conversation object through artificial intelligence learning, and determines, as a priority, a voice conversation object having a high preference for the same age group and gender group as the user.
  • the relationship setting unit when the voice feature of the determined voice conversation object does not exist in the voice database, the relationship setting unit outputs voice feedback by applying a preset voice feature.
  • the relationship setting unit changes the relationship setting through the associated person related to the voice dialogue object, thereby newly creating the voice dialogue object. It is characterized by generating.
  • the relationship setting unit is characterized in that it comprises an object emotion expression determination unit that determines the emotion expression of the voice conversation object determined based on the user context information and emotion information obtained from the image processing unit.
  • the relationship setting unit recognizes the voice characteristic of the user through call word recognition, and when the call word is recognized, displays an initial response object in a pop-up form on the display unit, thereby implementing a multitasking operation during a voice conversation.
  • the entire display screen is not converted to a voice command standby screen, but is converted into a pop-up window, thereby promoting multitasking during voice conversation.
  • FIG. 1 is a block diagram of a realistic artificial intelligence-based voice assistant system using relationship setting according to the present invention
  • FIG. 2 is a block diagram of an embodiment of the relationship setting unit of FIG. 1;
  • FIG. 3 is an exemplary view of a realistic AI assistant selection screen in the present invention
  • FIG. 4 is a first exemplary view of the screen display of an initial response character when recognizing a call word in the present invention
  • FIG. 5 is a second exemplary view showing the screen of an initial response character when recognizing a call word in the present invention
  • FIG. 8 is an exemplary view of a voice and video feedback screen according to a user's voice command in the present invention.
  • object candidate group derivation unit 123 surrounding environment candidate group derivation unit
  • voice feature search unit 127 customized video and response audio output unit
  • FIG. 1 is a block diagram of a realistic artificial intelligence-based voice assistant system using a relationship setting according to a preferred embodiment of the present invention, wherein a user basic information input unit 101, a microphone 102, a voice preprocessor 103, and a pager Setting unit 104, voice command analysis unit 105, camera 106, image processing unit 107, relationship setting unit 108, object database (DB) 109, environment information database (DB) 110 , An audio database (DB) 111, a display unit 112, a speaker 113, and a GPS module 114.
  • the user basic information input unit 101 is an input device such as a keypad that inputs user information and sets an initial response character according to call word recognition.
  • the microphone 102 is a device for receiving a user's voice, and the voice preprocessor 103 pre-processes the voice input through the microphone 102 to output an end point and a feature.
  • the caller setting unit 104 serves to set the voice command caller, and the voice command analysis unit 105 analyzes the voice command uttered from the user transmitted through the voice preprocessor 103, and analyzes the sound. It plays the role of grasping the user's emotions through.
  • the camera 106 takes a role of capturing a user's image and a gesture, and the image processing unit 107 recognizes the user's face image captured through the camera 106 and recognizes the user's situation and the user's situation through gesture recognition. It plays a role in grasping emotions.
  • the object database 109 serves to store a voice conversation object candidate group and a realistic artificial intelligence (AI) secretary character matched to the voice command input by the user, and the environmental information database 110 stores the object candidate group. It serves to store the corresponding surrounding environment information, and the voice database 111 serves to store the voice characteristic information of the derived voice conversation object.
  • AI artificial intelligence
  • the display unit 112 serves to display an initial response screen according to a call word recognition word, and to display an expression image and gesture information of a voice conversation object on the screen.
  • a response screen in which a voice conversation object according to the caller recognition is displayed in the form of a pop-up window, a multitasking work screen is implemented during voice conversation.
  • the speaker 113 serves to output a response voice
  • the GPS module 114 serves to acquire time and location information through an artificial satellite.
  • the relationship setting unit 108 sets an initial response character set based on the caller recognized through the caller recognition unit 104, displays it through the display unit 112, and obtains it from the user basic information input unit 101.
  • the user's interest information and the image information based on the voice command keyword are learned with a machine learning algorithm to derive a voice dialog object, apply a voice feature matching the derived voice dialog object, and the user's emotional state obtained from the image processing unit 107 By reflecting the characterization of the voice conversation object, it plays a role of outputting a user-customized video and voice feedback.
  • the relationship setting unit 108 obtains user information through the input unit 101 to obtain basic information of the user, analyzes the user-owned application, and obtains interest information to identify the user's interests.
  • the unit 121 an object candidate group derivation unit 122 that searches for an object candidate group matching the obtained voice command from the object database 109, and a surrounding environment candidate group corresponding to the candidate group derived from the object candidate group derivation unit 122 It may include a surrounding environment candidate group derivation unit 123 that searches from the environment information database 110.
  • the relationship setting unit 108 further includes an object and surrounding environment determining unit 124 that determines the final voice conversation object and the surrounding environment through artificial intelligence learning of the object candidate group and the surrounding environment candidate group based on user information. can do.
  • the object and surrounding environment determining unit 124 may determine a voice conversation object through artificial intelligence learning, but may prioritize a voice conversation object having a high preference for the same age group and gender group as the user.
  • the relationship setting unit 108 may further include a voice feature search unit 126 that extracts the voice feature of the determined voice conversation object from the voice database 111.
  • the voice feature search unit 126 applies a preset voice feature through the search of the voice database 111.
  • the relationship setting unit 108 determines the emotion expression of the object determined based on the user context information and emotion information obtained from the image processing unit 107, the object emotion expression determination unit 125, the determined voice dialogue object. It may further include a customized video and response audio output unit 127 that characterizes and outputs a user-customized video and response audio including a surrounding environment corresponding to the determined voice conversation object.
  • the realistic artificial intelligence-based voice assistant system using the relationship setting implemented as described above may be implemented using a smartphone used by a user or implemented using an AI speaker.
  • a smartphone it is assumed that a smartphone is used, but it will be apparent to those of ordinary skill in the art that it is not limited thereto.
  • the user inputs basic information of the user through the user basic information input unit 101.
  • the basic information may include age, gender, blood type, work, hobbies, preferred food, preferred color, favorite celebrity, preferred brand, and the like.
  • the initial screen for answering the caller is set.
  • the initial response character is displayed through the display unit 112 on the initial page for answering the caller.
  • 3 is an example of a screen for setting an initial response character for setting a caller response initial screen.
  • the user selects an initial response character according to the call word recognition through the user basic information input unit 101.
  • the selected initial response character is stored in the storage unit 115 through the relationship setting unit 108.
  • the user selects a pager setting item through the user basic information input unit 101.
  • the relationship setting unit 108 displays a screen to tell the caller to be used through the display unit 112.
  • the user inputs a call word for calling the voice assistant service through the microphone 102.
  • the input call word voice is pre-processed for voice recognition through the voice pre-processing unit 103.
  • speech pre-processing means performing end point detection, feature detection, and the like, which are performed in conventional speech recognition.
  • the pager setting unit 104 recognizes the caller by voice recognition using the endpoints and features preprocessed by the voice preprocessor 103, and transfers the recognized caller information to the relationship setting unit 108. .
  • the voice recognition relationship setting unit 108 induces the user to input the call word through the display unit 112 once more in order to grasp the characteristics of the user's voice, and when the call word is input, the call word is recognized as described above. Recognize the caller through the process. When the call word is recognized, it displays the recognized call word through the display unit 112 and checks whether it is correct. When the user inputs the correct voice, the recognized call word is registered in the storage unit 115 as a final call word.
  • the relationship setting unit 108 compares the call word set through the call word setting unit 104 with the call word stored in the storage unit 115, and if they match, extracts the initial response character stored in the storage unit 115 and displays the display unit 112 ) And converts to the voice command standby screen.
  • the initial response character may be expressed in a method of expressing an initial set character on the entire screen as shown in FIG. 4 and in a pop-up form as shown in FIG. 5.
  • the initial response character is displayed on the entire screen and converted to the voice command standby screen, other tasks become impossible.
  • the above two screens can be used as the voice command standby screen, it is preferable to express the initial response character in a pop-up form as shown in FIG. 5 so that the user can perform multitasking during the voice chat service.
  • the voice command is transmitted to the voice command analysis unit 105 through the microphone 102 and the voice preprocessor 103 in sequence.
  • the voice command analysis unit 105 analyzes the voice command based on the endpoints and features preprocessed by the voice preprocessor 103, and grasps the user's emotion through sound analysis.
  • the voice command analysis unit 105 estimates the user's emotion by analyzing tone, speed, and pitch (pitch height) information compared with the usual voice information of the input command sound.
  • the image processing unit 107 analyzes the user's image (especially, a face image) and gestures captured through the camera 106 to grasp the user's situation and emotions.
  • the camera 106 and the image processing unit 107 are automatically activated at the same time as the voice recognition operation during the voice assistant service according to the call word recognition.
  • Expression recognition or gesture recognition of a face image also adopts an image recognition technique and a gesture recognition technique known in the past to perform facial expression recognition or gesture recognition.
  • the relationship setting unit 108 sets an initial response character set based on the caller set through the caller setting unit 104 and displays it through the display unit 112, and from the user basic information input unit 101
  • a user acquired from the image processing unit 107 by learning the acquired user interest information and image information based on the voice command keyword with a machine learning algorithm to derive a voice conversation object, apply a voice feature matching the derived voice conversation object, and
  • the voice dialog object is characterized by reflecting the emotional state, and a user-customized video and voice feedback are output.
  • the object candidate group derivation unit 122 searches for an object candidate group matching the user information and the acquired voice command from the object database 109 to derive the object candidate group.
  • the types of object candidates are diverse, such as friends, lovers, politicians, entertainers, celebrities, educators, and companion animals.
  • the surrounding environment candidate group derivation unit 123 searches for and derives the surrounding environment candidate group corresponding to the candidate group derived by the object candidate group derivation unit 122 from the environment information database 110.
  • the surrounding environment candidate group is extracted from information about the surrounding environment set in advance to correspond to the object candidate group, and when the object candidate is a professional baseball player, it may be information related to baseball, and when the object candidate is an entertainer, it may be a product advertised by the corresponding entertainer. In the case of a chef, it may be a variety of food types representing the chef. 6 is an example of an object candidate group and a surrounding environment candidate group corresponding thereto.
  • the object and surrounding environment determining unit 124 learns the object candidate group and the surrounding environment candidate group based on the user information by using an artificial intelligence algorithm to obtain a final voice.
  • an artificial intelligence algorithm to obtain a final voice.
  • machine learning algorithms and deep-learning learning algorithms well known in the art may be used.
  • Machine learning or deep-learning is an artificial intelligence (AI) algorithm that obtains optimal results by inputting a variety of information.
  • AI artificial intelligence
  • the object emotion expression determination unit 125 determines the emotion expression of the voice conversation object determined based on the user context information and emotion information obtained from the image processing unit 107. That is, if the user's face image is a smiling face, it is predicted that the current mood is good, and the emotion expression is determined so that the emotion of the voice conversation object is also a good mood.
  • the voice feature search unit 126 searches the voice database 111 and extracts the voice feature of the finally determined voice conversation object.
  • the voice characteristic means a characteristic such as a tone or dialect. If the voice feature of the voice conversation object does not exist in the voice database 111, the voice feature search unit 126 applies a preset basic voice through a search of the voice database 111.
  • the customized video and response audio output unit 127 applies the emotion expression to the determined voice conversation object to characterize it.
  • 7 is an example of expressing a voice conversation object including emotion expression. Since the user's emotional expression is in a good mood, the characterized voice conversation object is also expressed in a good mood.
  • a user-customized video and audio are output by applying the extracted voice feature to the character of the determined voice conversation object.
  • the response character is displayed through the display unit 112, and the voice is transmitted through the speaker 113.
  • the character of the voice dialogue object determined in response to the voice command expresses the same emotion as that containing the current emotion of the character, and a voice including the voice characteristic (tone) of the determined character is transmitted to respond to the voice command.
  • the voice assistant service is implemented through the optimal customized video and audio.
  • the user requests a character change through the user basic information input unit 101 if the user is not satisfied with the output voice conversation object.
  • the customized video and response audio output unit 127 changes the relationship setting through a person related to the voice conversation object.
  • the voice conversation object is also changed.
  • FIG. 8 is an example of a screen showing a voice command waiting state by converting a voice conversation object into a pop-up form while displaying related information of a specific part touched on the entire screen by selecting a specific part of the screen in the voice assistant service state to be.
  • the voice assistant service when implementing the voice assistant service through the relationship setting as described above, if the geographical information of the surrounding area is required as a result of analyzing the voice command, the current location information is extracted through the GPS module 114. Subsequently, it is possible to implement a voice assistant service by providing the surrounding geographic information by searching for map data based on the location information obtained when providing the surrounding environment information. This can be usefully used when a user gives a voice command to find a place such as a restaurant.
  • the present invention creates an optimal voice dialog object corresponding to a voice command by establishing a relationship through user information input, characterizes it, and provides voice characteristics for each character, thereby providing a more realistic and interesting voice dialog service. It will be possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

사용자의 정보를 입력하고 호출어 인식에 따른 초기 응답 캐릭터를 설정한 후, 호출어 또는 음성 명령을 입력하면 호출어를 인식하고, 음성 명령어를 분석하고, 음향 분석을 통해 사용자의 감정을 파악하며, 카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악한 후, 인식된 호출어를 기초로 설정된 초기 응답 캐릭터를 설정하여 표시부를 통해 디스플레이하고, 음성 명령과 사용자 정보와 감정 표현 정보의 관계 설정을 통해 음성 대화 객체 및 주변환경을 결정하고, 결정된 음성 대화 객체를 캐릭터화한 후 음성 특징을 적용하여 사용자 맞춤형 영상 및 음성피드백을 하여, 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성하고, 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공한다.

Description

관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
본 발명은 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템에 관한 것으로, 특히 사용자 정보입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성하고, 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템에 관한 것이다.
최근 국내외에서는 음성 인식 기술을 이용한 인공 지능 서비스가 다양하게 출시되고 있다. 인공 지능 서비스의 일종인 인공 지능 스피커의 세계 시장 규모는 2020년 약 2조 5천억 원에 달할 것으로 전망되는 등 향후 관련 시장 규모는 급격하게 증가할 것으로 예상된다.
일반적인 개인 비서 서비스는 사용자의 음성 명령을 다양한 음성 인식 기술을 이용하여 텍스트 명령으로 인식한 후, 그 인식 결과에 따라 사용자의 음성 명령을 처리하는 방식이 일반적이다. 한국 공개 특허공보 제2003-0033890호에는 이와 같은 음성 인식 기술을 이용하여 개인 비서 서비스를 제공하는 시스템이 개시되어 있다.
이와 같은 일반적인 개인 비서 서비스는 사용자의 음성 명령에 포함된 단어의 의미를 통해서 음성 명령을 텍스트로 변환하여 명령으로서의 정보만 인식할 뿐 사용자의 감정을 인식하지는 않는다. 그로 인해 슬픔, 분노, 기쁨 등의 사용자의 감정에 관계없이 모바일 개인 비서 서비스의 응답은 동일하다.
상기와 같은 일반적인 모바일 개인 비서 서비스는 사용자에게 무미건조하게 느껴질 수 있고, 이는 곧 사용의 흥미를 잃을 수 있는 문제점이 있다. 이로 인해 사용자의 사용빈도가 감소하고 사용자의 사용욕구도 감소하는 문제점이 있다.
이러한 일반적인 모바일 개인 비서 서비스의 문제를 개선하기 위해서, 종래에 제안된 기술이 하기의 <특허문헌 1> 및 <특허문헌 2> 에 개시되어 있다.
<특허문헌 1> 에 개시된 종래기술은 평소 고인이 생활했던 장소 혹은 고인을 추억할 수 있는 공간을 가상현실 속에 구현함은 물론 고인의 음성 및 영상을 통해서 고인과 교감할 수 있는 가상현실 기반의 고인 맞춤형 추모 시스템을 제공한다.
이러한 종래기술은 사용자와 고인과의 관계설정은 이용하나, 이는 미리 등록된 고인과의 관계 설정만을 이용할 뿐, 사용자의 감정을 파악하여 최적의 응대 객체를 제공해주지 못하며, 사용자 단말에 설치된 애플리케이션 등을 분석하여 사용자의 관심사를 파악하는 것도 불가능한 단점이 있다.
또한, <특허문헌 2> 에 개시된 종래기술은 휴대용 단말기의 상태별로 표시되는 캐릭터의 모습에 대한 정보를 메모리에 복수로 저장하고, 사용자의 취향이나 연령에 따라 다양한 캐릭터 등을 디스플레이의 배경 화면(즉, 대기 화면이나 아이들 화면)에 표시하는 휴대용 단말기를 제공한다.
이러한 종래기술은 배터라 상태, 연결 상태, 수신 상태, 작동 상태 등에 따른 캐릭터의 표정변화를 휴대용 단말기의 디스플레이에 다양한 모습으로 표현할 수 있으나, 사용자 정보입력을 통한 관계설정이 불가능하고, 음성 명령에 대응하는 최적의 응대 객체를 생성하는 것이 불가능한 단점이 있다.
[선행기술문헌]
[특허문헌]
(특허문헌 1) 대한민국 공개특허 10-2019-0014895(2019.02.13. 공개)(가상현실 기반의 고인 맞춤형 추모 시스템)
(특허문헌 2) 대한민국 공개특허 10-2008-0078333(2008.08.27. 공개)(상태 변화에 따라 배경 화면이 변하는 휴대용 단말기 및 그 제어방법)
따라서 본 발명은 상기와 같은 종래기술에서 발생하는 제반 문제점을 해결하기 위해서 제안된 것으로서, 사용자 정보입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성할 수 있도록 한 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템을 제공하는 데 그 목적이 있다.
본 발명의 다른 목적은 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템을 제공하는 것이다.
본 발명의 또 다른 목적은 웨이크업 신호 호출 시 디스플레이 화면 전체가 음성 명령 대기화면으로 전환하는 것이 아니고, 팝-업 창 형태로 전환되어 음성 대화시 멀티태스킹 작업이 가능하도록 한 관계 설정을 이용한 인공지능기반 음성 비서시스템을 제공하는 것이다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 "관계 설정을 이용한 인공지능기반 음성 비서시스템"은, 사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 사용자 기본정보 입력부; 음성명령 호출어를 설정하는 호출어 설정부; 사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 음성 명령어 분석부; 카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 영상 처리부; 상기 사용자 기본정보 입력부로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하고, 도출한 음성대화 객체에 매칭되는 음성 특징을 적용하며, 영상 처리부로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력하는 관계 설정부를 포함하는 것을 특징으로 한다.
상기에서 관계 설정부는 획득한 음성 명령에 매칭되는 객체 후보군 및 주변환경 후보군을 도출하는 객체 후보군 도출부 및 주변환경 후보군 도출부; 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부를 포함하는 것을 특징으로 한다.
상기에서 객체 및 주변환경 결정부는 인공지능 학습을 통해 음성 대화 객체를 결정하되, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정하는 것을 특징으로 한다.
상기에서 관계 설정부는 결정된 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 미리 설정된 음성 특징을 적용하여 음성 피드백을 출력하는 것을 특징으로 한다.
상기에서 관계 설정부는 결정된 음성 대화 객체의 캐릭터를 표시부를 통해 표출한 상태에서, 사용자가 입력부를 통해 캐릭터 변경을 요청하면 음성 대화 객체에 관한 연관 인물을 통해 관계 설정을 변경하여, 음성 대화 객체를 새롭게 생성하는 것을 특징으로 한다.
상기에서 관계 설정부는 상기 영상 처리부에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 음성 대화 객체의 감정표현을 결정하는 객체 감정표현 결정부를 포함하는 것을 특징으로 한다.
상기에서 관계 설정부는 호출어 인식을 통해 사용자의 목소리 특색을 파악하고, 호출어가 인식되면 표시부에 팝-업 형태로 초기 응답 객체를 디스플레이해주어, 음성 대화시 멀티태스킹 작업을 구현해주는 것을 특징으로 한다.
본 발명에 따르면 사용자 정보입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성할 수 있는 효과가 있다.
또한, 본 발명에 따르면 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공해주는 효과도 있다.
또한, 본 발명에 따르면 웨이크업 신호 호출 시 디스플레이 화면 전체가 음성 명령 대기화면으로 전환하는 것이 아니고, 팝-업 창 형태로 전환되어 음성 대화시 멀티태스킹 작업을 도모해주는 효과도 있다.
도 1은 본 발명에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템의 블록도,
도 2는 도 1의 관계 설정부의 실시 예 블록도,
도 3은 본 발명에서 실감형 AI비서 선택화면 예시도,
도 4는 본 발명에서 호출어 인식시 초기 응답 캐릭터의 화면 표출 제1 예시도,
도 5는 본 발명에서 호출어 인식시 초기 응답 캐릭터의 화면 표출 제2 예시도
도 6은 본 발명에서 관계설정 예시도,
도 7은 본 발명에서 관계 설정과 감정 표현을 통해 생성된 캐릭터의 예시도,
도 8은 본 발명에서 사용자 음성 명령에 따른 음성 및 영상 피드백 화면 예시도이다.
[부호의 설명]
101: 사용자 기본정보 입력부 102: 마이크
103: 음성 전처리부 104: 호출어 설정부
105: 음성 명령어 분석부 106: 카메라
107: 영상 처리부 108: 관계 설정부
109: 객체 데이터베이스(DB) 110: 환경정보 데이터베이스
111: 음성 데이터베이스 112: 표시부
113: 스피커 114: GPS 모듈
115: 저장부 121: 사용자 정보 획득부
122: 객체 후보군 도출부 123: 주변환경 후보군 도출부
124: 객체 및 주변환경 결정부 125: 객체 감정표현 결정부
126: 음성 특징 검색부 127: 맞춤형 영상 및 응대음성 출력부
이하 본 발명의 바람직한 실시 예에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템을 첨부된 도면을 참조하여 상세하게 설명한다.
이하에서 설명되는 본 발명에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 바람직한 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명의 바람직한 실시 예에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템의 블록도로서, 사용자 기본정보 입력부(101), 마이크(102), 음성 전처리부(103), 호출어 설정부(104), 음성 명령어 분석부(105), 카메라(106), 영상 처리부(107), 관계 설정부(108), 객체 데이터베이스(DB)(109), 환경정보 데이터베이스(DB)(110), 음성 데이터베이스(DB)(111), 표시부(112), 스피커(113) 및 GPS 모듈(114)을 포함한다.
사용자 기본정보 입력부(101)는 사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 키패드와 같은 입력장치를 의미한다.
마이크(102)는 사용자의 음성을 입력받기 위한 장치이며, 음성 전처리부(103)는 마이크(102)를 통해 입력되는 음성을 전처리하여 끝점 및 특징을 출력하는 역할을 한다.
호출어 설정부(104)는 음성명령 호출어를 설정하는 역할을 하며, 음성 명령어 분석부(105)는 상기 음성 전처리부(103)를 통해 전달되는 사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 역할을 한다.
카메라(106)는 사용자의 영상을 촬영하고, 제스처를 촬영하는 역할을 하며, 영상 처리부(107)는 상기 카메라(106)를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 역할을 한다.
객체 데이터베이스(109)는 사용자가 입력한 음성명령에 매칭되는 음성 대화 객체(Object) 후보군 및 실감형 인공지능(AI)비서 캐릭터를 저장하는 역할을 하며, 환경정보 데이터베이스(110)는 상기 객체 후보군에 대응하는 주변 환경 정보를 저장하는 역할을 하며, 음성 데이터베이스(111)는 도출한 음성 대화 객체의 음성 특징 정보를 저장하는 역할을 한다.
표시부(112)는 호출어 인식어에 따른 초기 응대 화면을 표시해주고, 음성 대화 객체의 표현 영상 및 제스처 정보를 화면에 표시해주는 역할을 한다. 호출어 인식에 따른 음성 대화 객체가 팝-업 창 형태로 디스플레이되는 응대 화면을 디스플레이하여, 음성 대화 시 멀티태스킹 작업 화면을 구현해준다.
스피커(113)는 응대 음성을 출력하는 역할을 하며, GPS 모듈(114)은 인공위성을 통해 시간 및 위치 정보를 획득하는 역할을 한다.
관계 설정부(108)는 상기 호출어 인식부(104)를 통해 인식된 호출어를 기초로 설정된 초기 응답 캐릭터를 설정하여 표시부(112)를 통해 디스플레이하고, 상기 사용자 기본정보 입력부(101)로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하며 도출한 음성 대화 객체에 매칭되는 음성 특징을 적용하고, 영상 처리부(107)로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력하는 역할을 한다.
상기 관계 설정부(108)는 도 2에 도시한 바와 같이, 입력부(101)를 통해 사용자의 기본 정보를 획득하고, 사용자 보유 애플리케이션을 분석하여 사용자의 관심사를 파악하는 관심 정보를 획득하는 사용자 정보 획득부(121), 획득한 음성 명령에 매칭되는 객체 후보군을 객체 데이터베이스(109)로부터 탐색하는 객체 후보군 도출부(122), 상기 객체 후보군 도출부(122)에서 도출한 후보군에 대응하는 주변환경 후보군을 환경정보 데이터베이스(110)로부터 탐색하는 주변환경 후보군 도출부(123)를 포함할 수 있다.
또한, 상기 관계 설정부(108)는 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부(124)를 더 포함할 수 있다. 이러한 객체 및 주변환경 결정부(124)는 인공지능 학습을 통해 음성 대화 객체를 결정하되, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정할 수 있다.
또한, 상기 관계 설정부(108)는 결정된 음성 대화 객체의 음성 특징을 음성 데이터베이스(111)로부터 추출하는 음성 특징 검색부(126)를 더 포함할 수 있다. 음성 특징 검색부(126)는 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 상기 음성 데이터베이스(111)의 검색을 통해 미리 설정된 음성 특징을 적용한다.
또한, 상기 관계 설정부(108)는 상기 영상 처리부(107)에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 객체의 감정표현을 결정하는 객체 감정표현 결정부(125), 결정된 음성 대화 객체를 캐릭터화하고, 결정된 음성 대화 객체에 대응하는 주변 환경을 포함한 사용자 맞춤형 영상 및 응대 음성을 출력해주는 맞춤형 영상 및 응대 음성 출력부(127)를 더 포함할 수 있다.
상기와 같이 구현되는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템은 사용자가 사용하는 스마트폰을 이용하여 구현하거나, AI 스피커를 이용하여 구현될 수 있다. 본 발명에서는 스마트폰을 이용하는 것을 가정하여 설명하나, 이것에 한정되는 것은 아님을 당해 분야의 통상의 지식을 가진 사람이라면 자명하다 할 것이다.
이와 같이 구성된 본 발명의 바람직한 실시 예에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템의 동작을 첨부한 도면을 참조하여 구체적으로 설명하면 다음과 같다.
먼저, 사용자는 사용자 기본정보 입력부(101)를 통해 사용자의 기본 정보를 입력한다. 여기서 기본 정보는 연령, 성별, 혈액형, 직장, 취미, 선호음식, 선호색상, 좋아하는 유명인, 선호 브랜드 등을 포함할 수 있다. 아울러 호출어 응답 초기 화면을 설정한다. 호출어 응답 초기화면은 호출어 인식에 따른 초기 응답 캐릭터가 설정되면 해당 초기 응답 캐릭터가 표시부(112)를 통해 표출된다. 도 3은 호출어 응답 초기화면 설정을 위한 초기 응답 캐릭터를 설정하는 화면 예시이다. 도 3과 같은 초기 응답 캐릭터 화면에서 사용자는 호출어 인식에 따른 초기 응답 캐릭터를 사용자 기본정보 입력부(101)를 통해 선택한다. 선택된 초기 응답 캐릭터는 관계 설정부(108)를 통해 저장부(115)에 저장된다.
다음으로, 사용자는 사용자 기본정보 입력부(101)를 통해 호출어 설정 항목을 선택하게 된다. 호출어 설정 항목이 선택되면 관계 설정부(108)는 표시부(112)를 통해 사용할 호출어를 말씀하라는 화면을 표시해준다. 이후, 사용자는 마이크(102)를 통해 음성 비서 서비스를 호출하기 위한 호출어를 입력한다. 입력된 호출어 음성은 음성 전처리부(103)를 통해 음성 인식을 위한 전처리가 이루어진다. 여기서 음성 전처리는 통상의 음성 인식에서 수행하는 끝점 검출, 특징 검출 등을 수행하는 것을 의미한다. 이어, 호출어 설정부(104)는 상기 음성 전처리부(103)에서 전처리된 끝점 및 특징을 이용하여 호출어를 음성인식으로 인식하고, 인식한 호출어 정보를 관계 설정부(108)에 전달한다. 여기서 음성 인식은 일반적으로 알려진 음성 인식 기술을 이용할 수 있다. 음성 인식 관계 설정부(108)는 호출어가 인식되면 사용자의 목소리 특색 등을 파악하기 위해서, 표시부(112)를 통해 한 번 더 호출어를 입력하도록 유도하고, 호출어가 입력되면 상기와 같은 호출어 인식 과정을 통해 호출어를 인식한다. 호출어가 인식되면 표시부(112)를 통해 인식된 호출어를 표시해주고 맞는지를 확인한다. 사용자가 맞는다는 음성을 입력하면, 상기 인식한 호출어를 최종 호출어로 저장부(115)에 등록한다.
이러한 과정을 통해 음성 비서 서비스 구현을 위한 기초적인 과정이 이루어진 상태에서, 실제 사용자가 음성 비서 서비스를 사용하기 위해 마이크(102)를 통해 호출어를 입력하면, 음성 전처리부(103), 호출어 설정부(104)를 순차 통해 호출어 인식이 이루어진다.
관계 설정부(108)는 호출어 설정부(104)를 통해 설정된 호출어를 저장부(115)에 저장된 호출어와 비교하여 일치하면, 저장부(115)에 저장된 초기 응대 캐릭터를 추출하여 표시부(112)를 통해 표출하여 음성명령 대기화면으로 전환한다.
여기서 초기 응대 캐릭터는 도 4와 같이 화면 전체에 초기 설정 캐릭터를 표출하는 방법과 도 5와 같이 팝-업 형태로 표출해줄 수 있다. 화면 전체에 초기 설정된 응대 캐릭터를 표출하여 음성명령 대기화면으로 전환하면 다른 작업은 불가능한 상태가 된다. 상기 2가지 화면을 음성명령 대기화면으로 사용할 수 있으나, 사용자가 음성 대화 서비스시에 멀티태스킹 작업이 가능하도록 도 5와 같이 초기 응대 캐릭터를 팝-업 형태로 표출하는 것이 바람직하다.
이어, 음성명령 대기화면 상태에서 사용자가 음성 명령을 하면, 음성 명령은 마이크(102) 및 음성 전처리부(103)를 순차 통해 음성 명령어 분석부(105)에 전달된다. 음성 명령어 분석부(105)는 상기 음성 전처리부(103)에서 전처리된 끝점 및 특징을 기초로 음성 명령어를 분석하고, 음향 분석을 통해 사용자의 감정을 파악한다. 여기서 음성 명령어 분석부(105)는 입력된 명령 음향의 어조, 빠르기, 평소의 음성 정보와 비교한 음고(음의 높이) 정보를 분석하여 사용자 감정을 추측한다.
다음으로, 음성 비서 서비스시 영상 처리부(107)는 카메라(106)를 통해 촬영한 사용자의 이미지(특히, 얼굴 이미지) 및 제스처 등을 분석하여, 사용자의 상황 및 감정을 파악한다. 여기서 카메라(106) 및 영상 처리부(107)는 호출어 인식에 따른 음성 비서 서비스시 음성 인식 동작과 동시에 자동으로 활성화된다. 얼굴 이미지의 표정 인식이나 제스처 인식 역시 기존에 알려진 이미지 인식 기법 및 제스처 인식 기법을 그대로 채택하여 표정 인식이나 제스처 인식을 수행한다.
이어, 관계 설정부(108)는 상기 호출어 설정부(104)를 통해 설정된 호출어를 기초로 설정된 초기 응답 캐릭터를 설정하여 표시부(112)를 통해 디스플레이하고, 상기 사용자 기본정보 입력부(101)로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하며, 도출한 음성 대화 객체에 매칭되는 음성 특징을 적용하고, 영상 처리부(107)로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력한다.
즉, 객체 후보군 도출부(122)에서 사용자 정보와 획득한 음성 명령에 매칭되는 객체 후보군을 객체 데이터베이스(109)로부터 탐색하여 객체 후보군을 도출한다. 여기서 객체 후보군 종류는 친구, 연인, 정치인, 연예인, 유명인, 교육자, 반려동물 등과 같이 다양하다.
아울러 주변환경 후보군 도출부(123)는 상기 객체 후보군 도출부(122)에서 도출한 후보군에 대응하는 주변환경 후보군을 환경정보 데이터베이스(110)로부터 탐색하여 도출한다. 여기서 주변환경 후보군은 상기 객체 후보군에 대응하게 미리 설정된 주변환경 정보로부터 추출하는 것으로서, 객체 후보가 프로야구 선수인 경우 야구와 관련된 정보일 수 있으며, 연예인일 경우 해당 연예인이 광고한 상품일 수 있으며, 요리사일 경우 해당 요리사를 대표하는 다양한 음식 종류일 수 있다. 도 6은 객체 후보군 및 그에 대응하는 주변환경 후보군의 예시이다.
음성 명령, 사용자 정보에 따른 객체 후보군 및 주변환경 후보군을 도출한 상태에서, 객체 및 주변환경 결정부(124)는 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군을 인공지능 알고리즘으로 학습하여 최종 음성 대화 객체 및 주변환경을 결정한다. 여기서 인공지능 학습은 당해 분야에 이미 잘 알려진 머신러닝 학습 알고리즘, 딥-러닝 학습 알고리즘을 이용할 수 있다. 머신러닝이나 딥-러닝은 다양한 정보를 입력으로 최적의 결과물을 획득하는 인공지능(Artificial Intelligence; AI) 알고리즘이다. 인공지능 학습을 통해 음성 대화 객체를 결정할 때, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정하는 것이 바람직하다.
다음으로, 객체 감정표현 결정부(125)는 상기 영상 처리부(107)에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 음성 대화 객체의 감정표현을 결정한다. 즉, 사용자의 얼굴 이미지가 웃는 얼굴이면 현재 기분이 좋은 감정상태로 예측하고, 음성 대화 객체의 감정도 기분 좋은 상태가 되도록 감정표현을 결정한다.
또한, 음성 특징 검색부(126)는 최종적으로 결정된 음성 대화 객체의 음성 특징을 음성 데이터베이스(111)를 검색하여 추출한다. 여기서 음성 특징은 말투나 사투리 등의 특징을 의미한다. 음성 특징 검색부(126)는 음성 대화 객체의 음성 특징이 음성 데이터베이스(111)에 없으면, 음성 데이터베이스(111)의 검색을 통해 미리 설정된 기본 음성을 적용한다.
이후, 맞춤형 영상 및 응대 음성 출력부(127)는 결정된 음성 대화 객체에 감정 표현을 적용하여 캐릭터화한다. 도 7은 감정 표현을 포함한 음성 대화 객체를 표현한 예시이다. 사용자의 감정 표현이 기분이 좋은 상태이므로, 캐릭터화된 음성 대화 객체도 기분이 좋은 상태로 표출된다.
이어, 결정된 음성 대화 객체의 캐릭터에 추출한 음성 특징을 적용하여 사용자 맞춤형 영상 및 음성을 출력한다. 응대 캐릭터는 표시부(112)를 통해 디스플레이되고, 음성은 스피커(113)를 통해 송출된다.
이에 따라 음성 명령에 대응하여 결정한 음성 대화 객체의 캐릭터가 자신의 현재 감정을 내포하는 것과 동일한 감정 표현을 하고, 결정된 캐릭터의 음성 특징(말투)을 포함하는 음성이 송출되어 음성명령에 대해 응답을 함으로써, 최적의 맞춤형 영상 및 음성을 통해 음성 비서 서비스를 구현하게 되는 것이다.
한편, 결정된 음성 대화 객체의 캐릭터를 표시부(112)를 통해 표출한 상태에서, 사용자는 출력된 음성 대화 객체에 만족하지 못하면 사용자 기본정보 입력부(101)를 통해 캐릭터 변경을 요청한다. 음성 대화 객체의 변경 요청이 발생하면 맞춤형 영상 및 응대 음성 출력부(127)는 음성 대화 객체에 관한 연관 인물을 통해 관계 설정을 변경한다. 여기서 관계 설정의 변경이 발생하면 음성 대화 객체도 변경된다.
표시부(112)를 통해 객체 캐릭터를 통해 음성 명령에 따른 음성 비서 서비스를 받는 도중에, 사용자는 화면에 디스플레이된 영상의 특정 부분을 터치하면 디스플레이 화면 전체에 터치된 특정 부분의 관련 정보가 표현된다. 이때, 음성 대화 객체는 팝-업 형태로 변환되어 음성명령 대기 상태가 된다. 도 8은 음성 비서 서비스 상태에서 화면의 특정 부분을 선택하여 화면 전체에 터치된 특정 부분의 관련 정보를 디스플레이한 상태에서, 음성 대화 객체가 팝-업 형태로 변환되어 음성명령 대기 상태를 보인 화면 예시이다.
한편, 상기와 같은 관계 설정을 통해 음성 비서 서비스를 구현할 때, 음성 명령어를 분석한 결과 주변 지리정보가 필요한 경우, GPS 모듈(114)을 통해 현재 위치 정보를 추출한다. 이어, 주변환경 정보를 제공할 때 획득한 위치정보를 기반으로 지도데이터를 탐색하여 주변 지리 정보의 제공을 통해 음성 비서 서비스를 구현할 수도 있다. 이것은 사용자가 음식점 등과 같은 장소를 찾는 음성 명령을 한 경우, 유용하게 사용되어 질 수 있다.
이와 같이 본 발명은 사용자 정보 입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체를 생성하고 이를 캐릭터화하며, 캐릭터별 음성 특징을 제공하여, 더욱 실감나고 흥미로운 음성 대화 서비스를 제공해줄 수 있게 되는 것이다.
이상 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명하다 할 것이다.

Claims (7)

  1. 관계 설정을 이용한 실감형 AI음성 비서를 제공할 수 있는 시스템으로서,
    사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 사용자 기본정보 입력부;
    음성명령 호출어를 설정하는 호출어 설정부;
    사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 음성 명령어 분석부;
    카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 영상 처리부;
    상기 사용자 기본정보 입력부로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하고, 도출한 음성대화 객체에 매칭되는 음성 특징을 적용하며, 영상 처리부로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력하는 관계 설정부를 포함하는 것을 특징으로 하는 관계 설정을 이용한 실감형 AI음성 비서 시스템.
  2. 청구항 1에서, 상기 관계 설정부는 획득한 음성 명령에 매칭되는 객체 후보군 및 주변환경 후보군을 도출하는 객체 후보군 도출부 및 주변환경 후보군 도출부; 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부를 포함하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
  3. 청구항 2에서, 상기 객체 및 주변환경 결정부는 인공지능 학습을 통해 음성 대화 객체를 결정하되, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
  4. 청구항 1에서, 상기 관계 설정부는 결정된 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 미리 설정된 기본 음성 특징을 적용하여 음성 피드백을 출력하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
  5. 청구항 1에서, 상기 관계 설정부는 결정된 음성 대화 객체의 캐릭터를 표시부를 통해 표출한 상태에서, 사용자가 입력부를 통해 캐릭터 변경을 요청하면 음성 대화 객체에 관한 연관 인물을 통해 관계 설정을 변경하여, 음성 대화 객체를 새롭게 생성하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
  6. 청구항 1에서, 상기 관계 설정부는 상기 영상 처리부에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 음성 대화 객체의 감정표현을 결정하는 객체 감정표현 결정부를 포함하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
  7. 청구항 1에서, 상기 관계 설정부는 호출어 인식을 통해 사용자의 목소리 특색을 파악하고, 호출어가 인식되면 표시부에 전체 화면으로 초기 응답 객체를 디스플레이해주거나, 팝-업 형태로 초기 응답 객체를 디스플레이해주어 음성 대화시 멀티태스킹 작업을 구현해주는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
PCT/KR2020/013054 2019-09-30 2020-09-25 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템 WO2021066399A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/418,843 US20220059080A1 (en) 2019-09-30 2020-09-25 Realistic artificial intelligence-based voice assistant system using relationship setting

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190120294A KR102433964B1 (ko) 2019-09-30 2019-09-30 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
KR10-2019-0120294 2019-09-30

Publications (1)

Publication Number Publication Date
WO2021066399A1 true WO2021066399A1 (ko) 2021-04-08

Family

ID=75336598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/013054 WO2021066399A1 (ko) 2019-09-30 2020-09-25 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템

Country Status (3)

Country Link
US (1) US20220059080A1 (ko)
KR (1) KR102433964B1 (ko)
WO (1) WO2021066399A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102588017B1 (ko) * 2021-10-19 2023-10-11 주식회사 카카오엔터프라이즈 응답 목소리가 가변되는 음성 인식 장치, 음성 인식 시스템, 음성 인식 프로그램 및 그것의 제어 방법
CN116884392B (zh) * 2023-09-04 2023-11-21 浙江鑫淼通讯有限责任公司 一种基于数据分析的语音情感识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170133048A (ko) * 2016-05-25 2017-12-05 김선필 인공 지능 투명 디스플레이의 동작 방법 및 인공 지능 투명 디스플레이
JP2018014091A (ja) * 2017-06-20 2018-01-25 Gatebox株式会社 画像表示装置、話題選択方法、話題選択プログラム
JP2018014575A (ja) * 2016-07-19 2018-01-25 Gatebox株式会社 画像表示装置、画像表示方法及び画像表示プログラム
KR20180057489A (ko) * 2016-11-22 2018-05-30 주식회사 로보러스 감정을 생성하여 표현하는 로봇 시스템과, 그 시스템에서의 감정 생성 및 표현 방법
KR20180132364A (ko) * 2017-06-02 2018-12-12 서용창 캐릭터 기반의 영상 표시 방법 및 장치

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
KR100886504B1 (ko) 2007-02-23 2009-03-02 손준 상태 변화에 따라 배경 화면이 변하는 휴대용 단말기 및 그제어 방법
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US10055681B2 (en) * 2013-10-31 2018-08-21 Verint Americas Inc. Mapping actions and objects to tasks
US9830044B2 (en) * 2013-12-31 2017-11-28 Next It Corporation Virtual assistant team customization
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10446142B2 (en) * 2015-05-20 2019-10-15 Microsoft Technology Licensing, Llc Crafting feedback dialogue with a digital assistant
US9812151B1 (en) * 2016-11-18 2017-11-07 IPsoft Incorporated Generating communicative behaviors for anthropomorphic virtual agents based on user's affect
US10878479B2 (en) * 2017-01-05 2020-12-29 Microsoft Technology Licensing, Llc Recommendation through conversational AI
US10579401B2 (en) * 2017-06-21 2020-03-03 Rovi Guides, Inc. Systems and methods for providing a virtual assistant to accommodate different sentiments among a group of users by correlating or prioritizing causes of the different sentiments
KR20190014895A (ko) 2017-08-04 2019-02-13 전자부품연구원 가상 현실 기반의 고인 맞춤형 추모 시스템
US20190095775A1 (en) * 2017-09-25 2019-03-28 Ventana 3D, Llc Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human
JPWO2019073559A1 (ja) * 2017-10-11 2020-10-22 サン電子株式会社 情報処理装置
US10714084B2 (en) * 2018-02-09 2020-07-14 Accenture Global Solutions Limited Artificial intelligence based service implementation
US10522143B2 (en) * 2018-02-27 2019-12-31 Microsoft Technology Licensing, Llc Empathetic personal virtual digital assistant
DK201870355A1 (en) * 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170133048A (ko) * 2016-05-25 2017-12-05 김선필 인공 지능 투명 디스플레이의 동작 방법 및 인공 지능 투명 디스플레이
JP2018014575A (ja) * 2016-07-19 2018-01-25 Gatebox株式会社 画像表示装置、画像表示方法及び画像表示プログラム
KR20180057489A (ko) * 2016-11-22 2018-05-30 주식회사 로보러스 감정을 생성하여 표현하는 로봇 시스템과, 그 시스템에서의 감정 생성 및 표현 방법
KR20180132364A (ko) * 2017-06-02 2018-12-12 서용창 캐릭터 기반의 영상 표시 방법 및 장치
JP2018014091A (ja) * 2017-06-20 2018-01-25 Gatebox株式会社 画像表示装置、話題選択方法、話題選択プログラム

Also Published As

Publication number Publication date
US20220059080A1 (en) 2022-02-24
KR102433964B1 (ko) 2022-08-22
KR20210037857A (ko) 2021-04-07

Similar Documents

Publication Publication Date Title
KR102411766B1 (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
WO2020189850A1 (en) Electronic device and method of controlling speech recognition by electronic device
US7058208B2 (en) Method and apparatus of managing information about a person
US20020178005A1 (en) System and method for adaptive language understanding by computers
WO2011074771A2 (ko) 외국어 학습 장치 및 그 제공 방법.
WO2021066399A1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
JP7279494B2 (ja) 会議支援装置、および会議支援システム
CN107003823A (zh) 头戴式显示系统和头戴式显示装置
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
WO2022196921A1 (ko) 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
WO2015163684A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20140358543A1 (en) Linked-work assistance apparatus, method and program
KR20190068021A (ko) 감정 및 윤리 상태 모니터링 기반 사용자 적응형 대화 장치 및 이를 위한 방법
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
KR20190115405A (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
WO2019031621A1 (ko) 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
KR100868638B1 (ko) 영상 통화 말풍선 제공 시스템 및 방법
CN111156441A (zh) 用于辅助学习的台灯、系统和方法
KR20160149488A (ko) 대화 상황 및 주제에 따른 대화 순서 관리 장치 및 방법
WO2021091145A1 (en) Electronic apparatus and method thereof
WO2016137071A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP2014149571A (ja) コンテンツ検索装置
JP2018055022A (ja) 音声認識システム、情報処理装置、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20873313

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20873313

Country of ref document: EP

Kind code of ref document: A1