WO2022196921A1 - 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치 - Google Patents

인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치 Download PDF

Info

Publication number
WO2022196921A1
WO2022196921A1 PCT/KR2022/001066 KR2022001066W WO2022196921A1 WO 2022196921 A1 WO2022196921 A1 WO 2022196921A1 KR 2022001066 W KR2022001066 W KR 2022001066W WO 2022196921 A1 WO2022196921 A1 WO 2022196921A1
Authority
WO
WIPO (PCT)
Prior art keywords
interaction service
avatar
artificial intelligence
service device
voice
Prior art date
Application number
PCT/KR2022/001066
Other languages
English (en)
French (fr)
Inventor
고한석
배정민
알바미겔
Original Assignee
주식회사 디엠랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220002347A external-priority patent/KR20220130000A/ko
Application filed by 주식회사 디엠랩 filed Critical 주식회사 디엠랩
Publication of WO2022196921A1 publication Critical patent/WO2022196921A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers

Definitions

  • the present invention relates to an avatar-based interaction service method and apparatus.
  • Avatar refers to an alter ego or incarnation, and is an animated character that takes the place of a user in cyberspace.
  • An object of the present invention is to provide an interaction service method and apparatus based on an artificial intelligence avatar that can communicate naturally with humans.
  • the unmanned information terminal is collected from the mounted microphone array transmitting the sound signal and the video signal collected from the vision sensor to the interaction service device; setting, by the interaction service device, a detection zone based on the received sound signal and image signal; recognizing, by the interaction service device, an active speaker based on a user's voice signal and a user's video signal collected within the detection area; and generating, by the interaction service device, a response to the recognized active speaker, 3D rendering the AI avatar reflecting the response, and providing the rendered AI avatar to the unmanned information terminal. do.
  • the interaction service device estimates the sound source direction by the sound source direction estimation method based on the received sound signal, limits the input of sound from the side by the sidelobe signal canceling method, and It is characterized in that the image input after the recognized object is restricted by applying the background separation technique.
  • the step of recognizing the active speaker may include: when the interaction service device checks the number of people by a facial recognition method with respect to the user's image signal in the detection zone, and a plurality of people in the detection zone are recognized, the sound source It is characterized in that a person recognized as a speaker is selected as an active speaker by using at least one of a location estimation method, a voice recognition method, and a mouth shape recognition method.
  • the step of providing the artificial intelligence avatar to the unmanned information terminal may include analyzing and reacting non-verbal information including any one or more of a speaker's facial expression, pose, gesture, and voice tone to the received user's image signal. characterized by creating
  • the step of providing the artificial intelligence avatar to the unmanned information terminal includes, by the interaction service device, any one or more of speech recognition (ASR), natural language understanding (NLU), and text-to-speech (TTS). It is characterized in that the voice of the active speaker is recognized through
  • the interaction service apparatus adds weights to the recognized voice information and non-verbal information, but when the voice information and the non-verbal information show results in the same direction and in different directions, each other It is characterized in that different weights are added.
  • the step of providing the artificial intelligence avatar to the unmanned information terminal may include analyzing a facial expression, a gesture, and a voice tone from the user's image to recognize the user's emotional state and respond to the recognized emotional state. It is characterized by changing the facial expression, gesture, and voice tone of the AI avatar, or attaching an effect.
  • the interaction service device based on the artificial intelligence avatar includes: an unmanned information terminal equipped with a microphone array and a vision sensor, collecting an acoustic signal from the microphone array, and collecting an image signal from the vision sensor; and setting a detection zone by receiving the sound signal and the video signal, recognizing an active speaker based on the user's voice signal and the user's video signal collected in the detection zone, and generating a response to the recognized active speaker and 3D rendering the artificial intelligence avatar reflecting the reaction, and then providing the rendered artificial intelligence avatar to the unmanned information terminal.
  • the artificial intelligence avatar can provide an interactive service that can respond by finding a speaker even in the presence of a large number of speakers or noise.
  • FIG. 1 is a diagram showing the configuration of a network environment according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating the configuration of an unmanned information terminal according to an embodiment of the present specification.
  • FIG. 3 is a block diagram illustrating the configuration of an interaction service server according to an embodiment of the present invention.
  • FIG. 4 is a block diagram illustrating an example of components that a control unit of an interaction service apparatus according to an embodiment of the present specification may include.
  • FIG. 5 is a flowchart illustrating an example of a method performed by a control unit of an interaction service apparatus according to an embodiment of the present invention.
  • FIG. 6 is a diagram for explaining setting of a detection zone according to an embodiment of the present invention.
  • FIG. 7 is a view for explaining an implementation example of a customer service field of an avatar-based interaction service method according to an embodiment of the present invention.
  • FIG. 8 is a diagram for explaining an embodiment of the rehabilitation treatment field of the avatar-based interaction service method according to an embodiment of the present invention.
  • first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another.
  • the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component. and/or includes a combination of a plurality of related description items or any of a plurality of related description items.
  • the interaction service server of an embodiment of the present invention implements a human or artificial intelligent system to be a virtual agent allowing other mechanisms to interact between them.
  • FIG. 1 is a diagram showing the configuration of a network environment according to an embodiment of the present invention.
  • the network environment of FIG. 1 includes the unmanned information terminal 100 and the interaction service apparatus 200 .
  • the unmanned information terminal 100 is a terminal that accesses the interaction service apparatus 200 through a communication network, for example, a terminal usable by users who want to receive an interaction service such as a kiosk, and the interaction service apparatus 200 and wired or wireless It may be implemented as an electronic device or a similar device capable of performing communication through a communication network of a user, receiving a user input, and outputting a screen.
  • the communication network is TCP/IP, LAN (Local Area Network), WIFI, Long Term Evolution (LTE), WCDMA (Wideband Code Division Multiple Access), other known or future wired communication, wireless communication method, other communication It may be implemented using at least some of the schemes. Although many communications are performed through a communication network, in the following description, reference to the communication network is omitted for the sake of brevity.
  • the interaction service device 200 may be implemented as a computer device or a plurality of computer devices that communicates with the unmanned information terminal 100 through a communication network to provide commands, codes, files, contents, services, and the like.
  • the interaction service apparatus 200 may provide an interaction service targeted by a corresponding application as a computer program installed and driven in the unmanned information terminal 100 connected through a communication network.
  • the interaction service is defined as a service provided between the unmanned information terminal 100 and the avatar generated by the interaction service apparatus 200 .
  • the field may include customer service, counseling, education, and entertainment.
  • the interaction service device 200 generates an AI avatar by learning the response of a service provider who is a teacher in the non-face-to-face conversation environment, and provides an interaction service to students based on the generated AI avatar. have.
  • AI avatar Through training or a pre-programmed AI avatar, it is possible to perform learning guidance in a non-face-to-face conversation environment to the user terminal 100, which is a student, without access to a service provider terminal that is a teacher.
  • a trained or pre-programmed AI avatar can provide interaction/communication based on a real-time response of a person in a non-face-to-face conversation environment.
  • the interaction service apparatus 200 has been described as being independent of the unmanned information terminal 100 , but is not limited thereto, and the interaction service apparatus 200 is formed integrally with the unmanned information terminal 100 or , may be mounted on the unmanned information terminal 100 .
  • FIG. 2 is a block diagram illustrating the configuration of an unmanned information terminal according to an embodiment of the present specification.
  • the unmanned information terminal 100 may include an input/output interface 110 , a communication unit 120 , a storage unit 130 , and a control unit 140 .
  • the input/output interface 110 may be a means for an interface with an input/output device.
  • the input/output interface 110 may include an input device including the microphone array 111 and the vision sensor 112 and an output device such as a display and a speaker to collect sensed data.
  • the microphone array 111 may consist of at least three to five, one microphone is used for voice recognition, and the other microphone is used for beam forming or other technology that allows directional signal reception. can By applying beamforming, robust speech recognition performance can be secured from noise-mixed signals.
  • the vision sensor 112 may be a camera without a depth sensor, a stereo camera, or a camera including a depth sensor. When using a camera with a depth sensor, by selecting a foreground or background limit, detection of people or objects in the background can be restricted to set an area that can focus on a person approaching the device.
  • the input/output interface 110 may be a means for an interface with a device in which functions for input and output are integrated into one, such as a touch screen.
  • the input/output device may be composed of the unmanned information terminal 100 and one device.
  • the control unit 140 of the unmanned information terminal 100 processes the command of the computer program loaded in the storage unit 130 , the video and audio information acquired through the input/output interface 110 is used as an interaction service device.
  • a service screen or content configured using data transmitted to the 200 and provided from the interaction service device 200 may be displayed on the display through the input/output interface 110 .
  • the input/output interface 110 may further include an artificial tactile nerve, an olfactory sensor, an artificial cell membrane electronic tongue, and the like to implement an avatar similar to a human.
  • Such an input/output interface 110 serves as a sensing organ for an avatar similar to a human.
  • sight is implemented through a camera (vision sensor)
  • hearing is implemented through a microphone or microphone array
  • touch is implemented through an artificial tactile nerve
  • smell is implemented through an intelligent olfactory sensor
  • taste is implemented through an artificial It can be implemented through the cell membrane electron tongue.
  • the communication unit 120 exchanges data with the interaction service device 200 .
  • the communication unit 120 transmits the data received from the interaction service device 200 to the control unit 140 .
  • the communication unit 120 transmits data to the interaction service apparatus 200 under the control of the control unit 140 .
  • the communication technology used by the communication unit 120 may vary depending on the type of communication network or other circumstances.
  • the storage unit 130 stores data under the control of the control unit 140 and transmits the requested data to the control unit 140 .
  • the controller 140 controls the overall operation of the terminal 100 and each component.
  • the control unit 140 transmits the user image and voice input from the input/output interface unit 110 to the interaction service apparatus 200 through the communication unit 120, and information received from the interaction service apparatus 200, as will be described later. Controls the AI avatar to be displayed on the input/output device according to the
  • FIG. 3 is a block diagram illustrating the configuration of an interaction service server according to an embodiment of the present invention.
  • the interaction service apparatus 200 may include a communication unit 210 , a control unit 220 , and a storage unit 230 .
  • the communication unit 210 is a data transmission/reception device provided in the interaction service device 200, and transmits and receives information for an interaction service with an unmanned information terminal through a communication network.
  • the communication unit 210 exchanges data (information for interaction with the artificial intelligence avatar) with the unmanned information terminal ( 100 in FIG. 1 ) and/or other external devices.
  • the communication unit 210 transmits the received data to the control unit 220 .
  • the communication unit 210 transmits data to the unmanned information terminal 100 under the control of the control unit 220 .
  • the communication technology used by the communication unit 210 may vary depending on the type of communication network or other circumstances.
  • the communication unit 210 may receive, for example, an image and a voice photographed by a user acquired through a camera and a microphone provided in the unmanned information terminal 100 .
  • the communication unit 210 may transmit information for outputting an artificial intelligence avatar to the connected unmanned information terminal 100 .
  • the controller 220 may be configured to process commands of a computer program by performing basic arithmetic, logic, and input/output operations in order to control the overall operation of the interaction service apparatus 200 and each component.
  • the command may be provided to the control unit 220 through the storage unit 230 or the communication unit 210 .
  • the controller 220 may be a processor configured to execute a received command according to a program code stored in a storage device such as the storage 230 .
  • the control unit 220 may provide an interaction service through the avatar to the unattended information terminal 100 connected to the user based on the image and voice captured by the user received through the communication unit 210 .
  • the received video and audio are the received video and audio obtained by the input/output interface 110 of the unmanned information terminal 100 .
  • the controller 220 sets a detection zone based on the image and voice received from the unmanned information terminal 100 , and recognizes an active speaker based on the image and voice within the set detection zone. Thereafter, the controller 220 generates an artificial intelligence avatar that interacts with the active speaker.
  • the implementation of the controller 220 will be described later with reference to FIGS. 4 and 7 .
  • the artificial intelligence avatar generated for the interaction of the controller 220 may make eye contact with the user by exchanging gaze during conversation with the user in order to provide a sense of vitality to the user, and colloquial conversation may be possible.
  • the avatar can have friendly and realistic conversations in the form of daily conversations, questions and answers by utilizing the memory (stored data) obtained from past conversations with the user.
  • the avatar system can perform emotion recognition that recognizes the user's emotional state through the user's facial expressions, gestures, and voice tones. You can express your avatar's emotions through
  • control unit 220 applies Web Real-Time Communication (WebRTC) or other mechanism that enables real-time interaction between two or more entities on a network in a peer-to-peer (P2P) manner for data, video and audio can be transmitted in real time.
  • WebRTC Web Real-Time Communication
  • P2P peer-to-peer
  • the storage unit 230 serves to store programs and data necessary for the operation of the interaction service apparatus 200 , and may be divided into a program area and a data area.
  • the program area includes a program for controlling the overall operation of the interaction service apparatus 200 and an operating system (OS) for booting the interaction service apparatus 200 and at least one program code (eg, installed in the unmanned information terminal 100 ) It is possible to store a browser that is driven and operated or a code for an application installed in the unmanned information terminal 100 to provide a specific service), a learning model for learning an avatar, an application program necessary to provide an interaction service, and the like.
  • OS operating system
  • FIG. 4 is a block diagram illustrating an example of components that the control unit of the interaction service apparatus according to an embodiment of the present specification may include, and FIG. 5 is a block diagram illustrating the control unit of the interaction service apparatus according to an embodiment of the present invention. It is a flowchart showing an example of how to do it. 6 is a diagram for explaining setting of a detection zone according to an embodiment of the present invention.
  • the controller 220 of the interaction service apparatus 200 includes a detection zone setting unit 221 , an active speaker recognition unit 222 and an AI avatar as shown in FIG. 4 .
  • An interactor 223 may be included.
  • components of the control unit 220 may be selectively included or excluded from the control unit 220 .
  • the components of the control unit 220 may be separated or merged to express the function of the control unit 220 .
  • the controller 220 and components of the controller 220 may control the interaction service apparatus 200 to perform steps S110 to S140 included in the avatar interaction service method of FIG. 5 .
  • the control unit 220 and the components of the control unit 220 may be implemented to execute instructions according to the code of the operating system included in the storage unit 230 and the code of at least one program.
  • the components of the control unit 220 are expressions of different functions of the control unit 220 that are performed by the control unit 220 according to a command provided by a program code stored in the interaction service apparatus 200 .
  • the AI avatar interactor 223 may be used as a functional expression of the control unit 220 that controls the interaction service apparatus 200 according to the above-described command so that the interaction service apparatus 200 provides a real-time interaction service. have.
  • step S110 the sensing area setting unit 221 sets a sensing area for limiting the sensing area of the AI avatar system.
  • the sensing area setting unit 221 sets a sensing area for limiting the sensing area of the AI avatar system.
  • the detection zone setting unit 221 estimates the speaker's position by means of sound source localization, and Sidelobe
  • the area in the x direction is limited.
  • the x direction represents the width direction of the screen of the unmanned information terminal 100
  • the z direction represents the length direction of the screen of the unmanned information terminal 100
  • the y direction represents the distance direction between the unmanned information terminal 100 and the speaker.
  • the detection zone setting unit 221 includes a background detector to limit the area in the y-direction to exclude information greater than a specific distance from the camera.
  • the detection zone setting unit 221 may remove a background job by applying a background removal and a background noise suppressor to an image other than the detection zone.
  • the detection zone setting unit 221 may include a background detector to exclude information on images other than the detection zone that is at least a specific distance from the camera, thereby reducing the probability of erroneous detection and improving image processing speed through background removal.
  • the detection zone setting unit 221 can detect only an event within the detection zone limited to a predetermined area in the limited x-direction, the y-direction, and the preset z-direction, thereby reducing the erroneous detection probability and improving the processing speed. have.
  • the detection zone setting unit 221 may go through a process of time-synchronizing information (eg, images and sounds) acquired from multiple sensors before setting the detection zone. Since such a time synchronization method can be implemented by a known technique, a detailed description thereof will be omitted.
  • time-synchronizing information eg, images and sounds
  • the active speaker recognition unit 222 may include a face recognizer to recognize the speaker.
  • the active speaker recognition unit 222 recognizes the active speaker through current pose and gesture recognition using a multi-object detector, a mouth shape recognition method, and a 3D pose sequence estimator when several people exist in the set detection area. .
  • the active speaker refers to the subject of the interaction.
  • the mouth shape recognition method lip reading used in the speech recognition field may be utilized.
  • the active speaker recognition unit 222 recognizes sentence information from audio data obtained from the microphone array 111 of the unmanned information terminal 100 . It generates sentences through content processing of the user's input dialog, not based on a specific "wake word” or timer.
  • the active speaker recognition unit 222 separates whether the input sentence is a command to an actual avatar or a word to a target other than the AI avatar, and provides the voice recognition result through the ASR module adopting the speaker separation technology. create
  • speakers A and B located within the detection area and speaker C located outside the detection area exist. Since speaker C is located outside the detection zone, the voice of speaker C is ignored, and the voices AAA, AAA1, and AAA2 uttered by speaker A and the voices BBB, BBB1, and BBB2 uttered by speaker B can be distinguished and recognized.
  • the speaker classification may be determined, for example, whether the speaker A's voice or the speaker B's voice is the speaker's voice by a voice analysis method to recognize the speaker who is speaking.
  • the speaker may be recognized by recognizing the face and/or mouth shape of a person located in the sound source direction.
  • the conversation content is a request for providing information (e.g. news, e-mail, ...) whether the content of the conversation is for 'small talk' through a keyword classification technique for main functions, including a keyword detector.
  • Such an active speaker recognition unit 222 may distinguish an active speaker through a speaker diaryization technique and a keyword classification technique.
  • step S130 the AI avatar interactor 223 creates an artificial intelligence avatar using the trained model, and provides an interaction service through the artificial intelligence avatar to the unmanned information terminal 100 through the communication unit. .
  • the AI avatar interactor 223 performs the unmanned information terminal through at least one of speech recognition (ASR), Speech-to-Text (STT), natural language understanding (NLU), and Text-to-Speech (TTS). It is possible to recognize, understand, and react to the user's voice received from 100 .
  • ASR speech recognition
  • STT Speech-to-Text
  • NLU natural language understanding
  • TTS Text-to-Speech
  • the AI avatar interactor 223 checks whether there is a selected keyword in the sentence generated by voice recognition. If the selected keyword does not exist, a response is generated through the function of the open domain chatbot. At this time, the log of the conversation is recorded and the context of the conversation is grasped based on this to maintain the consistency of the conversation topic. When a selected keyword is present, a response is generated through the function of a closed domain chatbot. Information on user requests is provided by configuring information on selected keywords as presets.
  • the AI avatar interactor 223 renders a 3D character to provide a generated reaction.
  • the AI avatar interactor 223 generates voices and body movements to render the 3D character.
  • the AI avatar interactor 223 may generate a 3D character's voice using a text to speech (TTS) method using the sentences included in the generated response.
  • TTS text to speech
  • the AI avatar interactor 223 may generate various voices with a single deep learning model to optimize performance for preparing procedures such as refining and tuning for the number of voice demands, respectively.
  • the AI avatar interactor 223 may generate a voice by mimicking the voice pattern of the specific person for a small amount of time (40 minutes to 1 hour) for the voice of the specific person.
  • the AI avatar interactor 223 may generate a voice by tuning the existing training result by adjusting a pitch, a tone, etc. using a voice synthesizer.
  • the AI avatar interactor 223 may output a trained gesture in response to an input sentence by applying a sentence generation function included in the generated response.
  • the AI avatar interactor 223 may generate and output a corresponding result of a new animation from a conventional database using an open domain chatbot function and a TTS method for the user's voice recognition and gesture input.
  • the AI avatar interactor 223 may select an animation corresponding to an answer of the closed domain chatbot after creating an animation group corresponding to the closed domain chatbot.
  • the AI avatar interactor 223 recognizes the speaker in the user's image received from the unmanned information terminal 100 and analyzes the speaker's facial expression, pose, gesture, and voice tone to determine the user's emotional state. By recognizing , it is possible to change the facial expression, gesture, and voice tone of the avatar in response to the recognized emotional state, or to attach an effect.
  • the AI avatar interactor 223 adds weights to the voice recognition result through the user's voice and the non-voice recognition result through the user's non-verbal information (facial expression, gesture, and voice tone) other than the user's voice.
  • non-verbal information facial expression, gesture, and voice tone
  • weights may be different from each other.
  • the weight is 1: ⁇
  • a weight of 1: ⁇ may be assigned to each.
  • the AI avatar interactor 223 may provide an interaction service through the AI avatar based on the above-described databased content.
  • the AI avatar interactor 223 may communicate with a user in connection with an artificial intelligence (AI) conversation system or provide various information such as weather, news, music, maps, and photos.
  • AI artificial intelligence
  • the artificial intelligence conversation system is applied to personal assistant systems, chatbot platforms, and artificial intelligence (AI) speakers, and can understand the intent of the user's command and provide corresponding information.
  • the AI avatar interactor 223 when the AI avatar interactor 223 receives the voice input “** dance” according to the user's utterance from the second user terminal 103, the AI avatar interactor 223 recognizes and analyzes the received voice input to perform “** dance”. may obtain information about the , and output the obtained information through the AI avatar. In this case, the AI avatar interactor 223 may provide visual information together using a separate pop-up window, a word bubble, a tooltip, etc. in the information providing process.
  • the AI avatar interactor 223 may exchange and express emotions with the user by changing the facial expression of the AI avatar.
  • the AI avatar interactor 223 can change the facial expression of the character by transforming the face region of the AI avatar that is objectified through 3D modeling, and apply various effects to the AI avatar to maximize the expression of emotions. It is also possible to attach. Effects are contents composed of image objects, and can mean all filters, stickers, and emojis that can be synthesized in AI avatar-based images. can also be implemented.
  • the AI avatar interactor 223 may extract emotion information from a sentence of a voice input received from a user to express emotion.
  • the emotion information may include an emotion type and an emotion intensity (emotion degree).
  • Terms representing emotions that is, emotional terms are determined in advance, and are classified into a plurality of emotional types (eg, joy, sadness, surprise, worry, suffering, anxiety, fear, disgust, anger, etc.) according to a predetermined standard, and strength and weakness of emotional terms may be classified into a plurality of strength classes (eg, 1 to 10).
  • the emotional term may include a specific word representing an emotion, as well as a phrase or sentence including the specific word.
  • the AI avatar interactor 223 extracts a morpheme from a sentence according to a user's voice input and then extracts a predetermined emotional term from the extracted morpheme to classify the emotion type and emotion intensity corresponding to the extracted emotional term. have. If the sentence of the voice input contains a plurality of emotional terms, the weight can be calculated according to the type of emotion and the intensity of the emotion to which the emotion term belongs. can be extracted.
  • the technique for extracting the emotion information is exemplary and not limited thereto, and it is also possible to use other well-known techniques.
  • one user interacts with the AI avatar through the AI avatar interactor 223, but this is only an example and a plurality of people access the same AI avatar through each user terminal It can also be implemented so that it can be interacted with.
  • FIG. 7 is a view for explaining an implementation example of a customer service field of an avatar-based interaction service method according to an embodiment of the present invention.
  • FIG. 7 an example used for ordering in a customer service field, particularly a cafe, etc. will be described.
  • An interface that communicates and responds like a human may be provided through the AI avatar provided through the interaction service device 200 .
  • the AI avatar provided through the interaction service device 200 may provide or recommend a menu to a customer who is a user in a cafe, explain a payment method, and proceed. This allows customers (users) to place orders in a more comfortable and intimate way than with a touch screen kiosk.
  • FIG. 8 is a diagram for explaining an implementation example in the field of rehabilitation of an avatar-based interaction service method according to an embodiment of the present invention.
  • the AI avatar provided through the interaction service device 200 shows the user the motion for rehabilitation, and analyzes the motion the user follows to provide real-time feedback on the posture in a conversational format.
  • the AI avatar can give feedback in a conversational form in real time while observing the user's posture, so that the class can be progressed to the level of receiving a service from a real person.
  • such an interaction service may be applied to the entertainment field. It can be implemented to create an avatar with the appearance of a specific singer with 3D modeling, have the created avatar imitate the dance of a specific singer with motion capture, and provide performance and interactive content with the voice of a specific singer through TTS and voice cloning have.
  • the device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component.
  • the devices and components described in the embodiments may include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable logic unit (PLU).
  • ALU arithmetic logic unit
  • FPGA field programmable gate array
  • PLU programmable logic unit
  • It may be implemented using one or more general purpose or special purpose computers, such as a logic unit, microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • OS operating system
  • the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that may include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.
  • the software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device.
  • the software and/or data may be embodied in any type of machine, component, physical device, computer storage medium or device for interpretation by or providing instructions or data to the processing device. have.
  • the software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.
  • the method according to an embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the medium may be to continuously store the program executable by the computer, or to temporarily store the program for execution or download.
  • the medium may be various recording means or storage means in the form of a single or several hardware combined, it is not limited to a medium directly connected to any computer system, and may exist distributed on a network. Examples of the medium include a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floppy disk, and those configured to store program instructions, including ROM, RAM, flash memory, and the like.
  • examples of other media may include recording media or storage media managed by an app store that distributes applications, sites that supply or distribute other various software, and servers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명의 일 실시예에 따른 무인 정보 단말과 인터랙션 서비스 장치를 포함하는 시스템에서 수행되는 인공지능 아바타에 기초한 인터랙션 서비스 방법은, 무인 정보 단말이 탑재된 마이크 어레이로부터 수집된 음향 신호와 비전 센서로부터 수집된 영상 신호를 인터랙션 서비스 장치에 전송하는 단계; 상기 인터랙션 서비스 장치가 수신된 음향 신호와 영상 신호에 기초하여 감지 구역을 설정하는 단계; 상기 인터랙션 서비스 장치가 상기 감지 구역 내에서 수집되는 사용자의 음성 신호와 사용자의 영상 신호에 기초하여 능동 화자를 인식하는 단계; 및 상기 인터랙션 서비스 장치가 인식된 능동 화자에 대한 반응을 생성하고, 상기 반응을 반영한 인공지능 아바타를 3D 랜더링한 후, 랜더링된 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계를 포함한다.

Description

인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
본 발명은 아바타에 기초한 인터랙션 서비스 방법 및 장치에 관한 것이다.
아바타(Avatar)는 분신 또는 화신을 뜻하는 말로, 사이버공간에서 사용자의 역할을 대신하는 애니메이션 캐릭터이다.
기존의 아바타는 2차원으로 된 그림이 대부분이었다. 머드게임이나 온라인채팅에 등장하는 2차원 아바타는 가장 초보적인 수준이었고, 현실감 및 입체감이 떨어지는 문제점을 보완하기 위한 아바타 기술들이 등장하고 있다.
최근 들어, 인공지능 기술 및 센서 기술의 발전과 더불어 인간과 자연스럽게 소통하는 인공지능 아바타 기술에 대한 필요성이 대두되고 있다.
본 발명은 인간과 자연스럽게 소통할 수 있는 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치를 제공하고자 한다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 무인 정보 단말과 인터랙션 서비스 장치를 포함하는 시스템에서 수행되는 인공지능 아바타에 기초한 인터랙션 서비스 방법으로서, 상기 무인 정보 단말이 탑재된 마이크 어레이로부터 수집된 음향 신호와 비전 센서로부터 수집된 영상 신호를 인터랙션 서비스 장치에 전송하는 단계; 상기 인터랙션 서비스 장치가 수신된 음향 신호와 영상 신호에 기초하여 감지 구역을 설정하는 단계; 상기 인터랙션 서비스 장치가 상기 감지 구역 내에서 수집되는 사용자의 음성 신호와 사용자의 영상 신호에 기초하여 능동 화자를 인식하는 단계; 및 상기 인터랙션 서비스 장치가 인식된 능동 화자에 대한 반응을 생성하고, 상기 반응을 반영한 인공지능 아바타를 3D 랜더링한 후, 랜더링된 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계를 포함하는 것을 특징으로 한다.
일 실시예에서, 상기 인터랙션 서비스 장치가 수신된 음향 신호에 기초하여 음원 방향 추정 방법에 의해 음원 방향을 추정하고, Sidelobe signal cancelling 방법에 의해 측면으로부터의 음향의 입력을 제한하며, 수신된 영상 신호에 배경 분리 기술을 적용하여 인식된 객체 이후의 영상 입력을 제한하는 것을 특징으로 한다.
일 실시예에서, 상기 능동 화자를 인식하는 단계는, 상기 인터랙션 서비스 장치가 상기 감지 구역 내 사용자의 영상신호에 대하여 안면 인식 방법으로 사람의 수를 확인하고, 감지 구역 내 복수명이 인식되는 경우, 음원 위치 추정 방법, 음성 인식 방법 및 입모양 인식 방법 중 어느 하나 이상을 이용하여 화자라고 인식되는 사람을 능동 화자로서 선정하는 것을 특징으로 한다.
일 실시예에서, 상기 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계는 수신된 사용자의 영상 신호에 대하여 화자의 얼굴 표정, 포즈, 제스처, 음성 톤 중 어느 하나 이상을 포함한 비언어적 정보를 분석하여 반응을 생성하는 것을 특징으로 한다.
일 실시예에서, 상기 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계는, 상기 인터랙션 서비스 장치가 상기 음성인식(ASR), 자연어 이해(NLU) 및 Text-to-Speech(TTS) 중 어느 하나 이상을 통해 능동 화자의 음성을 인식하는 것을 특징으로 한다.
일 실시예에서, 상기 인터랙션 서비스 장치가 인식된 음성 정보와 비언어적 정보에 대하여 가중치를 부가하되, 상기 음성정보와 비 언어적 정보가 동일한 방향의 결과를 나타내는 경우와 상이한 방향의 결과를 나타내는 경우에 서로 다른 가중치를 부가하는 것을 특징으로 하는 것을 특징으로 한다.
일 실시예에서, 상기 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계는, 상기 사용자의 영상에서 얼굴 표정, 제스처, 음성 톤을 분석하여 사용자의 감정적 상태를 인지하여, 인지된 감정적 상태에 대응하여 AI 아바타의 표정, 제스처, 음성 톤을 변화시키거나, 이팩트(effect)를 첨부하는 것을 특징으로 한다.
본 발명의 다른 실시예에서, 인공지능 아바타에 기초한 인터랙션 서비스 장치는 마이크 어레이 및 비전 센서를 탑재하고, 상기 마이크 어레이로부터 음향 신호를 수집하고 비전 센서로부터 영상 신호를 수집하는 무인 정보 단말; 및 상기 음향 신호와 영상 신호를 수신하여 감지 구역을 설정하고, 상기 감지 구역 내에서 수집되는 사용자의 음성 신호와 사용자의 영상 신호에 기초하여 능동 화자를 인식하며, 인식된 능동 화자에 대한 반응을 생성하고, 상기 반응을 반영한 인공지능 아바타를 3D 랜더링한 후, 랜더링된 인공지능 아바타를 상기 무인 정보 단말에 제공하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 인공지능 아바타에 기초하여 사용자와 자율 대화 및 반응을 반환하는 인터랙션 서비스를 제공할 수 있다.
또한, 인공지능 아바타에 의해 다수의 화자 또는 노이즈 속에서도 대화자를 찾아 응답가능한 인터랙션 서비스를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 네트워크 환경의 구성을 나타내는 도면이다.
도 2는 본 명세서의 일 실시 예에 따르는 무인 정보 단말의 구성을 나타내는 블럭도이다.
도 3은 본 발명의 일 실시예에 따른 인터랙션 서비스 서버의 구성을 나타내는 블럭도이다.
도 4는 본 명세서의 일 실시 예에 따르는 인터랙션 서비스 장치의 제어부가 포함할 수 있는 구성요소의 예를 도시한 블럭도이다.
도 5는 본 발명의 일 실시예에 따른 인터랙션 서비스 장치의 제어부가 수행하는 방법의 예를 도시한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 감지 구역 설정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 아바타에 기초한 인터랙션 서비스 방법의 고객 응대 분야 구현예를 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 아바타에 기초한 인터랙션 서비스 방법의 재활치료 분야 구현예를 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면을 참조하여 상세하게 설명하도록 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재 항목들의 조합 또는 복수의 관련된 기재 항목들 중의 어느 항목을 포함한다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.
본 발명의 일 실시예의 인터랙션 서비스 서버는 사람(human) 또는 인공지능시스템(artificial intelligent system)이 그들간에 상호작용하는 다른 메커니즘을 허락하는 가상 에이전트(virtual agents)가 되도록 구현한다.
이하, 첨부된 도면을 참조하여 본 발명에 대해 설명한다.
도 1은 본 발명의 일 실시예에 따른 네트워크 환경의 구성을 나타내는 도면이다.
도 1의 네트워크 환경은 무인 정보 단말(100) 및 인터랙션 서비스 장치(200)를 포함한다.
무인 정보 단말(100)은 통신망을 통해 인터랙션 서비스 장치(200)에 접속하는 단말로서, 예컨대, 키오스크와 같은 인터랙션 서비스를 제공받고자 하는 사용자들이 이용가능한 단말로서, 인터랙션 서비스 장치(200)와 유선 또는 무선의 통신망을 통해 통신을 수행하고 사용자의 입력을 수신하고 화면을 출력할 수 있는 전자적 기기 또는 이와 유사한 기기로써 구현될 수 있다.
여기서, 통신망은 TCP/IP, LAN(Local Area Network), WIFI, LTE(Long Term Evolution), WCDMA(Wideband Code Division Multiple Access), 기타 현재까지 알려졌거나 미래에 알려질 유선 통신, 무선 통신 방식, 기타 통신 방식 중 적어도 일부를 이용하여 구현될 수 있다. 많은 통신이 통신망을 통해 수행되지만 후술하는 설명에서는 설명을 간결하게 하기 위해 통신망에 대한 언급을 생략한다.
인터랙션 서비스 장치(200)는 무인 정보 단말(100)과 통신망을 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 인터랙션 서비스 장치(200)는 통신망을 통해 접속한 무인 정보 단말(100)에 설치되어 구동되는 컴퓨터 프로그램으로서의 해당 어플리케이션이 목적하는 인터랙션 서비스를 제공할 수 있다. 여기서, 인터랙션 서비스는 무인 정보 단말(100)과 인터랙션 서비스 장치(200)에 의해 생성된 아바타 사이에서 제공하는 서비스로 정의된다. 상기 분야는 고객 응대, 상담, 교육, 엔터테인먼트를 포함할 수 있다.
예를 들어 교육 분야에서, 인터랙션 서비스 장치(200)는 상기 비대면 대화 환경에서 교사인 서비스 제공자의 응답을 학습하여 AI 아바타를 생성하고, 생성된 AI 아바타에 기초하여 학생들에게 인터랙션 서비스를 제공할 수 있다. 훈련 또는 사전 프로그램된 AI 아바타를 통해 교사인 서비스 제공자 단말의 접속 없이 학생인 사용자 단말(100)에 비대면 대화 환경에서 학습지도를 수행할 수 있게 한다.
다시 말하면, 본 발명의 일 실시예에 의한 인터랙션 서비스에 의해, 훈련 또는 사전 프로그램된 AI 아바타가 비대면 대화 환경에서, 사람의 실시간 응답을 기반으로 상호 작용/커뮤니케이션을 제공할 수 있다.
본 발명의 일 실시예에서 인터랙션 서비스 장치(200)는 무인 정보 단말(100)과 독립된 것처럼 설명하였으나, 이에 한정되는 것은 아니며, 인터랙션 서비스 장치(200)는 무인 정보 단말(100)과 일체형으로 형성되거나, 무인 정보 단말(100)에 탑재될 수 있다.
도 2는 본 명세서의 일 실시 예에 따르는 무인 정보 단말의 구성을 나타내는 블럭도이다.
도 2를 참조하면 본 명세서의 일 실시 예에 따르는 무인 정보 단말 (100)은 입출력 인터페이스(110), 통신부(120), 저장부(130) 및 제어부(140)를 포함할 수 있다.
입출력 인터페이스(110)는 입출력 장치와의 인터페이스를 위한 수단일 수 있다. 입출력 인터페이스(110)는 마이크 어레이(111) 및 비전 센서(112)를 포함하는 입력 장치와, 디스플레이, 스피커와 같은 출력 장치를 포함하여 센싱되는 데이터를 수집할 수 있다.
마이크 어레이(111)는 최소 3개에서 5개로 구성될 수 있으며, 이 중 하나의 마이크는 음성 인식을 위해 사용되고, 나머지 마이크는 빔포밍(Beam forming) 또는 방향성 신호 수신을 허용하는 다른 기술을 위해 사용될 수 있다. 빔포밍을 적용하여 잡음 섞인 신호로부터 강인한 음성 인식 성능을 확보할 수 있다. 비전 센서(112)는 깊이 센서가 포함되지 않은 카메라, 스테레오 카메라, 깊이 센서가 포함된 카메라일 수 있다. 깊이 센서가 포함된 카메라를 이용하는 경우, 전경 또는 배경 한계를 선정하여 배경에 있는 사람이나 물체에 대한 검지를 제한하여 기기에 접근한 사람에 집중이 가능한 영역을 설정할 수 있다.
다른 예로 입출력 인터페이스(110)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치는 무인 정보 단말(100)과 하나의 장치로 구성될 수도 있다.
보다 구체적인 예로, 무인 정보 단말(100)의 제어부(140)가 저장부(130)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서, 입출력 인터페이스(110)를 통해 획득한 영상 및 음성 정보를 인터랙션 서비스 장치(200)에 전달하고, 인터랙션 서비스 장치(200)로부터 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠를 입출력 인터페이스(110)를 통해 디스플레이에 표시할 수 있다.
다른 실시예에서, 입출력 인터페이스(110)는 인간과 유사한 아바타를 구현하기 위하여 인공 촉감 신경, 후각 센서, 인공 세포막 전자혀 등을 더 포함할 수 있다.
이와 같은 입출력 인터페이스(110)는 인간과 유사한 아바타의 감지 기관의 역할을 한다. 예를 들어, 시각은 카메라(비전 센서)를 통해 구현되고, 청각은 마이크 또는 마이크 어레이를 통해 구현되고, 촉각은 인공 촉감 신경을 통해 구현되고, 후각은 지능형 후각 센서를 통해 구현되고, 미각은 인공 세포막 전자혀를 통해 구현될 수 있다.
통신부(120)는 인터랙션 서비스 장치(200)와 데이터를 주고받는다. 통신부(120)는 인터랙션 서비스 장치(200)로부터 수신한 데이터를 제어부(140)에게 전달한다. 또한 통신부(120)는 제어부(140)의 제어에 따라 데이터를 인터랙션 서비스 장치(200)에게 전달한다. 통신부(120)가 사용하는 통신 기술은 통신망의 유형이나 기타 사정에 따라 달라질 수 있다.
저장부(130)는 제어부(140)의 제어에 따라 데이터를 저장하고 요청된 데이터를 제어부(140)에게 전달한다.
제어부(140)는 단말(100)의 전반적인 동작과 각 구성부를 제어한다. 제어부(140)는 특히 후술하는 바와 같이 입출력 인터페이스력부(110)로부터 입력된 사용자 영상 및 음성을 통신부(120)를 통해 인터랙션 서비스 장치(200)에 전달하고, 인터랙션 서비스 장치(200)로부터 수신한 정보에 따라 인공지능 아바타를 입출력 장치에 표시하도록 제어한다.
도 3은 본 발명의 일 실시예에 따른 인터랙션 서비스 서버의 구성을 나타내는 블럭도이다.
도 3을 참조하면, 본 명세서의 일 실시 예에 따른 인터랙션 서비스 장치(200)는, 통신부(210), 제어부(220) 및 저장부(230)를 포함할 수 있다.
통신부(210)는 인터랙션 서비스 장치(200) 내부에 구비된 데이터 송수신 장치로서, 통신망을 통해 무인 정보 단말과의 인터랙션 서비스를 위한 정보를 송수신한다.
통신부(210)는 무인 정보 단말(도 1의 100)과 및/또는 기타 외부 장치와 데이터(인공지능 아바타와 인터랙션을 위한 정보)를 주고받는다. 통신부(210)는 수신한 데이터를 제어부(220)에게 전달한다. 또한 통신부(210)는 제어부(220)의 제어에 따라 데이터를 무인 정보 단말(100)에게 전달한다. 통신부(210)가 사용하는 통신 기술은 통신망의 유형이나 기타 사정에 따라 달라질 수 있다.
통신부(210)는 예를 들어 무인 정보 단말(100)에 마련된 카메라와 마이크 등을 통해 획득한 사용자를 촬영한 영상 및 음성을 수신할 수 있다.
또한, 통신부(210)는 접속한 무인 정보 단말(100)에게 인공지능 아바타를 출력하기 위한 정보를 송신할 수 있다.
제어부(220)는 인터랙션 서비스 장치(200)의 전반적인 동작과 각 구성부를 제어하기 위하여, 기본적인 산술, 로직 및 입출력 연산을 수행하여, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 저장부(230) 또는 통신부(210)를 통해 제어부(220)로 제공될 수 있다. 예를 들어, 제어부(220)는 저장부(230)와 같은 저장 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성되는 프로세서일 수 있다.
제어부(220)는 통신부(210)를 통해 수신되는 사용자를 촬영한 영상 및 음성에 기초하여 접속한 무인 정보 단말(100)에게 상기 아바타를 통해 인터랙션 서비스를 제공할 수 있다. 여기서 수신되는 영상 및 음성은 무인 정보 단말(100)의 입출력 인터페이스(110)에 의해 획득되어 수신된 영상 및 음성이다.
일 실시예에서 제어부(220)는 무인 정보 단말(100)로부터 수신되는 영상 및 음성에 기초하여 감지 구역을 설정하고, 설정된 감지 구역 내 영상 및 음성에 기초하여 능동 화자를 인식한다. 이후 제어부(220)는 엑티브 스피커와 인터랙션하는 인공지능 아바타를 생성한다. 이러한 제어부(220)의 구현에 대하여는 도 4 및 도 7을 참조하여 후술한다.
일 실시예에서 제어부(220)의 인터랙션을 위해 생성된 인공지능 아바타는 사용자에게 생동감을 제공하기 위하여 사용자와 대화중 시선을 교환하여 눈을 마주치고, 구어체 대화가 가능 할 수 있다. 또한, 아바타는 사용자와의 과거 대화에서 얻은 기억력(저장된 데이터)을 활용하여 일상 대화, 질문 및 답변 형식으로 친근하면서도 현실감 있는 대화를 할 수 있다.
또한, 아바타 시스템은 사용자의 얼굴 표정 몸짓 음성 톤을 통해 사용자의 감정적 상태를 인지하는 감정 인식을 할 수 있고, 인식한 감정에 대한 적절한 대응 판단과 얼굴 표정 대응 감정 별 목소리 톤 선택, 적절한 단어의 선택을 통해 아바타의 감정을 표현할 수 있다.
일 실시예에서, 제어부(220)는 WebRTC(Web Real-Time Communication) 또는 네트워크 상의 둘 이상의 엔티티 사이에서 실시간 인터랙션을 가능하게 하는 다른 매커니즘을 적용하여 P2P (Peer-to-Peer) 방식으로 데이터, 비디오 및 오디오를 실시간으로 전송할 수 있다.
저장부(230)는 인터랙션 서비스 장치(200)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다.
프로그램 영역은 인터랙션 서비스 장치(200)의 전반적인 동작을 제어하는 프로그램 및 인터랙션 서비스 장치(200)를 부팅시키는 운영체제(OS, Operating System)와 적어도 하나의 프로그램 코드(일례로 무인 정보 단말(100)에 설치되어 구동되는 브라우저나 특정 서비스의 제공을 위해 무인 정보 단말(100)에 설치된 어플리케이션 등을 위한 코드), 아바타를 학습시키기 위한 학습 모델, 인터랙션 서비스를 제공하기 위해 필요한 응용 프로그램 등을 저장할 수 있다.
도 4는 본 명세서의 일 실시 예에 따르는 인터랙션 서비스 장치의 제어부가 포함할 수 있는 구성요소의 예를 도시한 블럭도이고, 도 5는 본 발명의 일 실시예에 따른 인터랙션 서비스 장치의 제어부가 수행하는 방법의 예를 도시한 흐름도이다. 도 6은 본 발명의 일 실시예에 따른 감지 구역 설정을 설명하기 위한 도면이다.
도 5의 아바타 인터랙션 서비스 방법을 수행하기 위해, 인터랙션 서비스 장치(200)의 제어부(220)는 도 4에 도시된 바와 같이, 감지 구역 설정부(221), 능동 화자 인식부(222) 및 AI 아바타 인터랙션부(223)를 포함할 수 있다. 일 실시예에 따라 제어부(220)의 구성요소들은 선택적으로 제어부(220)에 포함되거나 제외될 수도 있다. 또한, 일 실시예에 따라 제어부(220)의 구성요소들은 제어부(220)의 기능의 표현을 위해 분리 또는 병합될 수도 있다.
이러한 제어부(220) 및 제어부(220)의 구성요소들은 도 5의 아바타 인터랙션 서비스 방법이 포함하는 단계들(S110 내지 S140)을 수행하도록 인터랙션 서비스 장치(200)를 제어할 수 있다. 예를 들어, 제어부(220) 및 제어부(220)의 구성요소들은 저장부(230)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
여기서, 제어부(220)의 구성요소들은 인터랙션 서비스 장치(200)에 저장된 프로그램 코드가 제공하는 명령에 따라 제어부(220)에 의해 수행되는 제어부(220)의 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 인터랙션 서비스 장치(200)가 실시간 인터랙션 서비스를 제공하도록 상술한 명령에 따라 인터랙션 서비스 장치(200)를 제어하는 제어부(220)의 기능적 표현으로서 AI 아바타 인터랙션부(223)가 이용될 수 있다.
단계 S110에서 감지 구역 설정부(221)는 인공지능 아바타 시스템의 감지 구역을 제한하기 위한 감지 구역(Sensing area)을 설정한다. 인간의 경우, 자아에게 필요한 일들에 대한 선택적 주의(attention) 기능이 있으므로 일부 신호만을 집중하여 판단을 위한 정보를 파악하는 일이 가능할 수 있다. 따라서, 인공지능 아바타에게 감지 구역이라는 제한된 환경에 집중하게 함으로써 현재 환경내에서 최상의 성능 혹은 최선의 선택을 이끌어 낼 수 있다.
일반적으로 마이크는 측방과 전방 모든 방향의 소리를 취득하므로, 도 4 내지 6을 참조하면, 감지 구역 설정부(221)는 음원 방향 추정 방법(Sound source localization)에 의해 화자의 위치를 추정하고, Sidelobe signal cancelling 방법에 의해 측면의 입력을 제한하여 x방향의 영역을 제한한다. 여기서 x방향은 무인 정보 단말(100)의 화면의 폭 방향을 나타내고, z방향은 무인 정보 단말(100)의 화면의 길이 방향을 나타내며, y방향은 무인 정보 단말(100)과 화자 사이의 거리 방향을 나타낸다.
감지 구역 설정부(221)는 Background 검출기를 구비하여 카메라로부터 특정 거리 이상의 정보를 제외하도록 y방향의 영역을 제한한다.
감지 구역 설정부(221)는 감지 구역 외의 영상에 대하여 배경 제거를 및 Background noise suppressor를 적용하여 배경 잡을 제거할 수 있다. 또한, 감지 구역 설정부(221)는 Background 검출기를 구비하여 카메라로부터 특정 거리 이상인 감지 구역 외의 영상의 정보를 제외하여, 오검출 확률을 감소시키고, 배경 제거를 통한 영상 처리 속도를 개선시킬 수 있다.
이와 같이, 감지 구역 설정부(221)는 한정된 x방향과 y방향, 미리 설정된 z방향으로 일정 영역으로 제한된 감지 구역 내의 이벤트만 감지 가능하도록 함으로써, 오검출 확률을 감소시키고, 처리 속도를 향상시킬 수 있다.
감지 구역 설정부(221)는 감지 구역을 설정하기 이전에, 다중의 센서로부터 취득한 정보(예를 들어 영상, 음향)들을 시간 동기화하는 과정을 거칠 수 있다. 이러한 시간 동기화 방법은 미리 알려진 기술에 의해 구현 가능하므로 상세한 설명은 생략한다.
단계 S120에서 능동 화자 인식부(222)는 Face recognizer를 구비하여 화자를 인식할 수 있다. 능동 화자 인식부(222)는 설정된 감지 구역에 여러 사람이 존재하는 경우 Multi-object detector, 입모양 인식 방법, 3D pose sequence estimator를 이용하여 현재 자세(pose) 및 제스처 인식을 통해 액티브 화자를 인식한다. 액티브 화자는 인터랙션의 주체를 말한다. 여기서, 입모양 인식 방법은 음성 인식 분야에서 활용되는 립리딩(lipreading)이 활용될 수 있다.
일 실시예에서, 능동 화자 인식부(222)는 무인 정보 단말(100)의 마이크 어레이(111)로부터 획득한 오디오 데이터로부터 문장(sentence) 정보를 인식한다. 특정 “wake word”나 timer 기반이 아닌 사용자의 입력 대화에 대한 내용 처리를 통해 문장을 생성한다.
일 실시예에서, 능동 화자 인식부(222)는 화자 분리 기술을 도입한 ASR 모듈을 통해, 입력 문장에 대하여 실제 아바타에게 하는 명령인지 인공지능 아바타가 아닌 다른 대상에게 한 말인지 분리하여 음성 인식 결과를 생성한다.
도 5에 도시한 바와 같이, 감지구역 내에 위치하는 화자 A, B와 감지구역 외에 위치하는 화자 C가 존재하는 것을 가정한다. 화자 C는 감지구역 외에 위치하므로 화자 C의 음성은 무시하고, 화자 A에 의해 발화되는 음성 AAA, AAA1, AAA2와 화자 B에 의해 발화되는 음성 BBB, BBB1, BBB2를 구별하여 인지할 수 있다. 화자 구분은 예를 들어, 화자 A의 음성인지 화자 B의 음성인지는 음성 분석 방법에 의해 발화중인 화자를 인식할 수 있다. 다른 예에서, 스피커 다이어리화 기법을 통해 마이크 어레이를 통해 획득된 음향의 음원 방향을 검출한 후 음원 방향에 위치하는 사람의 얼굴 인식 및/또는 입 모양을 인식하여 발화중인 화자를 인식할 수도 있다.
또한, 키워드 검출기(Keyword detector) 등을 포함하여 주요 기능에 대한 키워드 분류 기법을 통해 대화 내용이 'small talk' 용도 인지 정보(e.g. 뉴스, e-mail,…) 제공 요청인지 분리할 수 있다.
이와 같은 능동 화자 인식부(222)는 스피커 다이어리화 기법, 키워드 분류 기법을 통해 능동 화자를 구분할 수 있다.
단계 S130에서 AI 아바타 인터랙션부(223)는 훈련된 모델을 사용하여 인공지능(artificial intelligence) 아바타를 생성하며, 상기 인공지능 아바타를 통해 인터랙션 서비스를 상기 통신부를 통해 무인 정보 단말(100)에 제공한다.
이를 위해, AI 아바타 인터랙션부(223)는 음성인식(ASR), Speech-to-Text(STT), 자연어 이해(NLU) 및 Text-to-Speech(TTS) 중 어느 하나 이상을 통해 상기 무인 정보 단말(100)로부터 수신한 사용자의 음성을 인식, 이해 및 반응할 수 있다.
AI 아바타 인터랙션부(223)는 음성 인식으로 생성된 문장에서 선별된 키워드가 있는지 확인한다. 선별된 키워드가 존재하지 않는 경우, 오픈 도메인 챗봇의 기능을 통해 반응을 생성한다. 이때, 대화에 대한 로그를 기록하고 이를 바탕으로 대화에 대한 문맥을 파악하여 대화 주제의 일관성을 유지하도록 한다. 선별된 키워드가 존재하는 경우, 클로우즈 도메인 챗봇(closed domain chatbot)의 기능을 통해 반응을 생성한다. 선별된 키워드에 대한 정보를 preset으로 구성하여 사용자 요청에 대한 정보를 제공한다.
일 실시예에서, AI 아바타 인터랙션부(223)는 생성된 반응을 제공하기 위해 3D 캐릭터를 랜더링한다.
AI 아바타 인터랙션부(223)는 3D 캐릭터를 랜더링하기 위해, 목소리와 몸동작을 생성한다.
AI 아바타 인터랙션부(223)는 생성된 반응에 포함된 문장을 TTS(Text to Speech) 방법으로 3D 캐릭터의 목소리를 생성할 수 있다.
이 때, AI 아바타 인터랙션부(223)는 목소리 수요의 개수에 대해 각각 refining, tuning 등의 절차 마련하는 일에 대한 성능 최적화를 위해 단일 deep learning model로 다양한 목소리를 생성할 수 있다.
다른 실시예에서, AI 아바타 인터랙션부(223)는 특정한 인물의 목소리에 대해 적은 시간 (40분~1시간) 분량으로 특정 인물의 목소리 패턴을 흉내내서 목소리를 생성할 수 있다.
다른 실시예에서, AI 아바타 인터랙션부(223)는 음성 합성기를 이용하여 피치(Pitch), 톤(tone) 등의 조정으로 기존 훈련 결과에 대한 튜닝을 통해 목소리를 생성할 수 있다.
AI 아바타 인터랙션부(223)는 생성된 반응에 포함된 문장 생성 기능의 응용하여 입력 문장에 대응하여 훈련된 제스처(gesture)를 출력할 수 있다.
AI 아바타 인터랙션부(223)는 사용자의 음성 인식 및 제스처 입력에 대하여 오픈 도메인 챗봇 기능과 TTS 방법을 사용하여 종래의 데이터베이스로부터 새로운 애니메이션의 대응 결과를 생성하여 출력할 수 있다.
AI 아바타 인터랙션부(223)는 closed domain chatbot에 대응 되는 animation group 제작 후 closed domain chatbot의 답변에 맞는 애니메이션을 선택할 수 있다.
일 실시예에서, AI 아바타 인터랙션부(223)는 무인 정보 단말(100)로부터 수신한 사용자의 영상에서, 화자를 인식하고, 화자의 얼굴 표정, 포즈, 제스처, 음성 톤을 분석하여 사용자의 감정적 상태를 인지하여, 인지된 감정적 상태에 대응하여 아바타의 표정, 제스처, 음성 톤을 변화시키거나, 이팩트(effect)를 첨부할 수 있다.
일 실시예에서, AI 아바타 인터랙션부(223)는 사용자의 음성을 통한 음성 인식 결과와, 사용자의 음성 외 비언어적 정보(얼굴 표정, 제스처, 음성 톤)를 통한 비음성 인식 결과에 대하여 가중치를 부가할 수 있다.
이 때, 음성 인식 결과와 음성 외 비 언어적 정보 인식 결과가 동일한 방향인 경우와 음성 인식 결과와 음성 외 비 언어적 정보 인식 결과가 상반된 방향인 경우에 부가되는 가중치는 서로 상이할 수 있다. 예를 들어, 음성 인식 결과가 '긍정'이고, 비언어적 정보 인식 결과가 '긍정'인 경우, 음성 인식 결과가 '부정'이고, 비언어적 정보 인식 결과가 '부정'인 경우, 각각 가중치는 1: α를 부여할 수 있다. 또한, 상기 인식 결과가 '긍정'이고 비언어적 정보 인식 결과가 '부정'인 경우, 각각 가중치는 1: β를 부여할 수 있다.
한편, AI 아바타 인터랙션부(223)는 상술한 데이터베이스화된 컨텐츠에 기초하여 AI 아바타를 통해 인터랙션 서비스를 제공할 수 있다. 일례로, AI 아바타 인터랙션부(223)는 인공지능(AI) 대화 시스템과 연동하여 사용자와 커뮤니케이션하거나 날씨, 뉴스, 음악, 지도, 사진 등 다양한 정보를 제공할 수 있다. 인공지능 대화 시스템은 개인비서 시스템, 챗봇 플랫폼(chatbot platform), 인공지능(AI) 스피커 등에 적용되는 것으로 사용자의 명령어에 대한 의도를 이해하고 그에 대응하는 정보를 제공할 수 있다.
예를 들어, AI 아바타 인터랙션부(223)는 제2 사용자 단말(103)로부터 사용자의 발화에 따른 음성 입력 "** 댄스"를 수신하는 경우 수신된 음성 입력을 인식 및 분석하여 “** 댄스”에 대한 정보를 획득하고 AI 아바타를 통해 상기 획득한 정보를 출력할 수 있다. 이때, AI 아바타 인터랙션부(223)는 정보 제공 과정에서 별도의 팝업창(pop-up), 말풍선(word bubble), 툴팁(tooltip) 등을 이용하여 시각적인(visual) 정보를 함께 제공할 수도 있다.
AI 아바타 인터랙션부(223)는 AI 아바타의 표정을 변화시켜 사용자와의 감정을 교류하고 표현할 수 있다. AI 아바타 인터랙션부(223)는 3D 모델링을 통해 오브젝트화된 AI 아바타의 얼굴 영역에 대한 변형을 통해 캐릭터의 표정을 변화시킬 수 있고, 감정의 표현을 극대화하기 위해 AI 아바타에 다양한 이펙트(effect)를 첨부하는 것 또한 가능하다. 이펙트는 이미지 객체로 구성된 컨텐츠로서 AI 아바타 기반 영상에 합성 가능한 필터, 스티커나 이모지 등을 모두 포괄하여 의미할 수 있으며, 이는 고정된 형태의 객체는 물론, 플래시나 애니메이션 등이 적용된 움직이는 이미지 객체로도 구현 가능하다. 이러한 이펙트는 감정 정보를 나타내는 것으로 감정 별로 사전 분류될 수 있으며, 다시 말해 복수 개의 감정(예컨대, 기쁨, 슬픔, 놀람, 고민, 괴로움, 불안, 공포, 혐오, 분노 등)이 사전에 정의되고 각 감정 별로 해당 감정을 나타내는 이펙트들이 그룹핑 되어 관리될 수 있다.
AI 아바타 인터랙션부(223)는 감정 표현을 위하여 사용자로부터 수신된 음성 입력의 문장에서 감정 정보를 추출할 수 있다. 이때, 감정 정보는 감정 종류와 감정 강도(감정 정도)를 포함할 수 있다. 감정을 나타내는 용어, 즉 감정 용어들은 사전에 정해지며 소정 기준에 따라 복수 개의 감정 종류(예컨대, 기쁨, 슬픔, 놀람, 고민, 괴로움, 불안, 공포, 혐오, 분노 등)로 분류되고 감정 용어의 강약에 따라 복수 개의 강도 등급(예컨대, 1~10)으로 분류될 수 있다. 감정 용어는 감정을 나타내는 특정 단어는 물론, 특정 단어를 포함한 구절이나 문장 등을 포함할 수 있다. 예를 들어, '좋아해요'나 '괴롭지만요'와 같은 단어, 혹은 '너무너무 좋아해요'와 같은 구절이나 문장 등이 감정 용어의 범주에 포함될 수 있다. 일례로, AI 아바타 인터랙션부(223)는 사용자의 음성 입력에 따른 문장에서 형태소를 추출한 후 추출된 형태소에서 미리 정해진 감정 용어를 추출하여 추출된 감정 용어에 대응되는 감정 종류와 감정 강도를 분류할 수 있다. 음성 입력의 문장에 복수 개의 감정 용어가 포함된 경우 감정 용어가 속한 감정 종류와 감정 강도에 따라 가중치를 계산할 수 있고 이를 통해 문장의 감정 정보에 대한 감정 벡터를 계산하여 해당 문장을 대표하는 감정 정보를 추출할 수 있다. 상기한 감정 정보를 추출하는 기술은 예시적인 것으로 이에 한정되는 것은 아니며, 이미 잘 알려진 다른 기술들을 이용하는 것 또한 가능하다.
본 발명의 일 실시예에서는 AI 아바타 인터랙션부(223)를 통해 한명의 사용자가 AI 아바타와 인터랙션을 수행하는 것을 설명하였으나, 이는 일 예시일 뿐 복수명의 사람이 각각의 사용자 단말을 통해 동일 AI 아바타에 접속하여 인터랙션 할 수 있도록 구현할 수도 있다.
도 7은 본 발명의 일 실시예에 따른 아바타에 기초한 인터랙션 서비스 방법의 고객 응대 분야 구현예를 설명하기 위한 도면이다.
도 7을 참조하여, 고객 응대 분야 특히 카페 등에서의 주문에 활용되는 예를 설명한다.
인터랙션 서비스 장치(200)를 통해 제공되는 AI 아바타를 통해 사람처럼 대화하고 반응하는 인터페이스를 제공할 수 있다. 예컨대, 인터랙션 서비스 장치(200)를 통해 제공되는 AI 아바타는 카페에서 사용자인 손님에게 메뉴를 제공하거나 추천하고, 결제 방식을 설명하고, 진행할 수 있다. 이를 통해 손님(사용자)는 터치 스크린 키오스크 보다 더 편하고 친밀한 방식으로 주문을 진행할 수 있다.
도 8은 본 발명의 일 실시예에 따른 아바타에 기초한 인터랙션 서비스 방법의 재활치료 분야 구현 예를 설명하기 위한 도면이다.
도 8을 참조하여, 재활치료 분야에서 활용되는 예를 설명한다.
인터랙션 서비스 장치(200)를 통해 제공되는 AI 아바타가 재활을 위한 동작을 사용자에게 보여주면서, 사용자가 따라하는 동작을 분석하여 자세에 대한 실시간 피드백을 대화형식으로 제공한다. 이와 같이, AI 아바타가 사용자의 자세를 관찰하면서 실시간으로 대화형식으로 피드백을 줄 수 있어, 실제 사람에게 서비스를 받는 수준으로 수업이 진행될 수 있다.
재활치료 이외에도, 요가, 필라테스, PT(Physical Therapy) 등의 모든 운동에도 적용이 가능하다.
또한, 이러한 인터랙션 서비스는 엔터테인먼트 분야에도 적용될 수 있다. 3D 모델링으로 특정 가수의 모습을 가진 아바타를 생성하고, 생성된 아바타가 모션 캡쳐로 특정 가수의 춤을 따라하게 하고, TTS 와 voice cloning 통해 특정 가수의 목소리로 공연 및 인터랙션 콘텐츠를 제공하도록 구현될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (14)

  1. 무인 정보 단말과 인터랙션 서비스 장치를 포함하는 시스템에서 수행되는 인공지능 아바타에 기초한 인터랙션 서비스 방법에 있어서,
    상기 무인 정보 단말이 탑재된 마이크 어레이로부터 수집된 음향 신호와 비전 센서로부터 수집된 영상 신호를 인터랙션 서비스 장치에 전송하는 단계;
    상기 인터랙션 서비스 장치가 수신된 음향 신호와 영상 신호에 기초하여 감지 구역을 설정하는 단계;
    상기 인터랙션 서비스 장치가 상기 감지 구역 내에서 수집되는 사용자의 음성 신호와 사용자의 영상 신호에 기초하여 능동 화자를 인식하는 단계; 및
    상기 인터랙션 서비스 장치가 인식된 능동 화자에 대한 반응을 생성하고, 상기 반응을 반영한 인공지능 아바타를 3D 랜더링한 후, 랜더링된 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계
    를 포함하는 인공지능 아바타에 기초한 인터랙션 서비스 방법.
  2. 제1항에 있어서,
    상기 인터랙션 서비스 장치가 수신된 음향 신호에 기초하여 음원 방향 추정 방법에 의해 음원 방향을 추정하고, Sidelobe signal cancelling 방법에 의해 측면으로부터의 음향의 입력을 제한하며, 수신된 영상 신호에 배경 분리 기술을 적용하여 인식된 객체 이후의 영상 입력을 제한하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 방법.
  3. 제1항에 있어서,
    상기 능동 화자를 인식하는 단계는,
    상기 인터랙션 서비스 장치가 상기 감지 구역 내 사용자의 영상신호에 대하여 안면 인식 방법으로 사람의 수를 확인하고, 감지 구역 내 복수명이 인식되는 경우, 음원 위치 추정 방법, 음성 인식 방법 및 입모양 인식 방법 중 어느 하나 이상을 이용하여 화자라고 인식되는 사람을 능동 화자로서 선정하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 방법.
  4. 제1항에 있어서,
    상기 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계는,
    수신된 사용자의 영상 신호에 대하여 화자의 얼굴 표정, 포즈, 제스처, 음성 톤 중 어느 하나 이상을 포함한 비언어적 정보를 분석하여 반응을 생성하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 방법.
  5. 제4항에 있어서,
    상기 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계는,
    상기 인터랙션 서비스 장치가 음성인식(ASR), 자연어 이해(NLU) 및 Text-to-Speech(TTS) 중 어느 하나 이상을 통해 능동 화자의 음성을 인식하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 방법.
  6. 제5항에 있어서,
    상기 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계는,
    상기 인터랙션 서비스 장치가 인식된 음성 정보와 비언어적 정보에 대하여 가중치를 부가하되, 음성정보와 비 언어적 정보가 동일한 방향의 결과를 나타내는 경우와 상이한 방향의 결과를 나타내는 경우에 서로 다른 가중치를 부가하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 방법.
  7. 제4항에 있어서,
    상기 인공지능 아바타를 상기 무인 정보 단말에 제공하는 단계는,
    상기 사용자의 영상에서 얼굴 표정, 제스처, 음성 톤을 분석하여 사용자의 감정적 상태를 인지하여, 인지된 감정적 상태에 대응하여 AI 아바타의 표정, 제스처, 음성 톤을 변화시키거나, 이팩트(effect)를 첨부하는 것을 특징으로 하는 아바타에 기초한 인터랙션 서비스 방법.
  8. 마이크 어레이 및 비전 센서를 탑재하고, 상기 마이크 어레이로부터 음향 신호를 수집하고 비전 센서로부터 영상 신호를 수집하는 무인 정보 단말; 및
    상기 음향 신호와 영상 신호를 수신하여 감지 구역을 설정하고, 상기 감지 구역 내에서 수집되는 사용자의 음성 신호와 사용자의 영상 신호에 기초하여 능동 화자를 인식하며, 인식된 능동 화자에 대한 반응을 생성하고, 상기 반응을 반영한 인공지능 아바타를 3D 랜더링한 후, 랜더링된 인공지능 아바타를 상기 무인 정보 단말에 제공하는 인터랙션 서비스 장치
    를 포함하는 인공지능 아바타에 기초한 인터랙션 서비스 장치.
  9. 제8항에 있어서,
    상기 인터랙션 서비스 장치는 수신된 음향 신호에 기초하여 음원 방향 추정 방법에 의해 음원 방향을 추정하고, Sidelobe signal cancelling 방법에 의해 측면으로부터의 음향의 입력을 제한하며, 수신된 영상 신호에 배경 분리 기술을 적용하여 인식된 객체 이후의 영상 입력을 제한하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 장치.
  10. 제8항에 있어서,
    상기 인터랙션 서비스 장치는 상기 감지 구역 내 사용자의 영상신호에 대하여 안면 인식 방법으로 사람의 수를 확인하고, 감지 구역 내 복수명이 인식되는 경우, 음원 위치 추정 방법, 음성 인식 방법 및 입모양 인식 방법 중 어느 하나 이상을 이용하여 화자라고 인식되는 사람을 능동 화자로서 선정하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 장치.
  11. 제8항에 있어서,
    상기 인터랙션 서비스 장치는 수신된 사용자의 영상 신호에 대하여 화자의 얼굴 표정, 포즈, 제스처, 음성 톤 중 어느 하나 이상을 포함한 비언어적 정보를 분석하여 반응을 생성하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 장치.
  12. 제11항에 있어서,
    상기 인터랙션 서비스 장치는 음성인식(ASR), 자연어 이해(NLU) 및 Text-to-Speech(TTS) 중 어느 하나 이상을 통해 능동 화자의 음성을 인식하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 장치.
  13. 제12항에 있어서,
    상기 인터랙션 서비스 장치는 인식된 음성 정보와 비언어적 정보에 대하여 가중치를 부가하되, 음성정보와 비 언어적 정보가 동일한 방향의 결과를 나타내는 경우와 상이한 방향의 결과를 나타내는 경우에 서로 다른 가중치를 부가하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 장치.
  14. 제11항에 있어서,
    상기 인터랙션 서비스 장치는 상기 사용자의 영상에서 얼굴 표정, 제스처, 음성 톤을 분석하여 사용자의 감정적 상태를 인지하여, 인지된 감정적 상태에 대응하여 AI 아바타의 표정, 제스처, 음성 톤을 변화시키거나, 이팩트(effect)를 첨부하는 것을 특징으로 하는 인공지능 아바타에 기초한 인터랙션 서비스 장치.
PCT/KR2022/001066 2021-03-17 2022-01-20 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치 WO2022196921A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20210034756 2021-03-17
KR10-2021-0034756 2021-03-17
KR10-2022-0002347 2022-01-06
KR1020220002347A KR20220130000A (ko) 2021-03-17 2022-01-06 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2022196921A1 true WO2022196921A1 (ko) 2022-09-22

Family

ID=83283885

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/001066 WO2022196921A1 (ko) 2021-03-17 2022-01-20 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치

Country Status (3)

Country Link
US (1) US20220301251A1 (ko)
CN (1) CN115167656A (ko)
WO (1) WO2022196921A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519488B (zh) * 2024-01-05 2024-03-29 四川中电启明星信息技术有限公司 一种对话机器人的对话方法及其对话系统
CN117727303A (zh) * 2024-02-08 2024-03-19 翌东寰球(深圳)数字科技有限公司 一种音视频的生成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130082701A (ko) * 2011-12-14 2013-07-22 한국전자통신연구원 인공지능을 이용한 감성인지 아바타 서비스 장치 및 방법
KR20130140520A (ko) * 2012-06-14 2013-12-24 진삼순 음성인식 질의응답 인형 및 그 제조방법
US20160165003A1 (en) * 2003-03-03 2016-06-09 Microsoft Technology Licensing, Llc Modifying avatar behavior based on user action or mood
KR20190098781A (ko) * 2018-01-29 2019-08-23 삼성전자주식회사 사용자 행동을 바탕으로 반응하는 로봇 및 그의 제어 방법
KR20190123706A (ko) * 2017-04-25 2019-11-01 김현민 스마트 휴대 기기를 이용한 스마트 기기와 로봇의 개인 맞춤형 서비스 운용 시스템 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268491B2 (en) * 2015-09-04 2019-04-23 Vishal Vadodaria Intelli-voyage travel
KR20180047973A (ko) * 2016-11-02 2018-05-10 엘지전자 주식회사 단말기 및 그 제어 방법
WO2019035359A1 (ja) * 2017-08-17 2019-02-21 京セラ株式会社 対話型電子機器、コミュニケーションシステム、方法、およびプログラム
US10834365B2 (en) * 2018-02-08 2020-11-10 Nortek Security & Control Llc Audio-visual monitoring using a virtual assistant
KR102623998B1 (ko) * 2018-07-17 2024-01-12 삼성전자주식회사 음성인식을 위한 전자장치 및 그 제어 방법
US10206036B1 (en) * 2018-08-06 2019-02-12 Alibaba Group Holding Limited Method and apparatus for sound source location detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160165003A1 (en) * 2003-03-03 2016-06-09 Microsoft Technology Licensing, Llc Modifying avatar behavior based on user action or mood
KR20130082701A (ko) * 2011-12-14 2013-07-22 한국전자통신연구원 인공지능을 이용한 감성인지 아바타 서비스 장치 및 방법
KR20130140520A (ko) * 2012-06-14 2013-12-24 진삼순 음성인식 질의응답 인형 및 그 제조방법
KR20190123706A (ko) * 2017-04-25 2019-11-01 김현민 스마트 휴대 기기를 이용한 스마트 기기와 로봇의 개인 맞춤형 서비스 운용 시스템 및 방법
KR20190098781A (ko) * 2018-01-29 2019-08-23 삼성전자주식회사 사용자 행동을 바탕으로 반응하는 로봇 및 그의 제어 방법

Also Published As

Publication number Publication date
CN115167656A (zh) 2022-10-11
US20220301251A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
JP7408048B2 (ja) 人工知能に基づくアニメキャラクター駆動方法及び関連装置
WO2021036644A1 (zh) 一种基于人工智能的语音驱动动画方法和装置
CN112204564A (zh) 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法
WO2022196921A1 (ko) 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
EP1083769B1 (en) Speech converting device and method
CN113454708A (zh) 语言学风格匹配代理
KR20220130000A (ko) 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
KR20220027187A (ko) 장면 인터랙션 방법 및 장치, 전자 장치 및 컴퓨터 저장 매체
WO2019156332A1 (ko) 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템
WO2007098560A1 (en) An emotion recognition system and method
EP3312776A1 (en) Emotion control system, system, and program
CN112204565A (zh) 用于基于视觉背景无关语法模型推断场景的系统和方法
KR20190002067A (ko) 사람-기계 간 감정 대화를 위한 방법 및 시스템
WO2023096275A1 (ko) 텍스트 기반 아바타 생성 방법 및 시스템
WO2022182064A1 (ko) 인공지능 아바타 튜터를 활용한 회화 학습 시스템 및 그 방법
WO2019031621A1 (ko) 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
KR20190109651A (ko) 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템
WO2021066399A1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
CN113205569A (zh) 图像绘制方法及装置、计算机可读介质和电子设备
Strauß et al. Wizard-of-Oz Data Collection for Perception and Interaction in Multi-User Environments.
WO2019124850A1 (ko) 사물 의인화 및 인터랙션을 위한 방법 및 시스템
JP7130290B2 (ja) 情報抽出装置
Schröder et al. A demonstration of audiovisual sensitive artificial listeners

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22771587

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22771587

Country of ref document: EP

Kind code of ref document: A1