WO2020054945A1 - 로봇 및 그 동작 방법 - Google Patents
로봇 및 그 동작 방법 Download PDFInfo
- Publication number
- WO2020054945A1 WO2020054945A1 PCT/KR2019/006614 KR2019006614W WO2020054945A1 WO 2020054945 A1 WO2020054945 A1 WO 2020054945A1 KR 2019006614 W KR2019006614 W KR 2019006614W WO 2020054945 A1 WO2020054945 A1 WO 2020054945A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- emotion
- robot
- data
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000008451 emotion Effects 0.000 claims abstract description 388
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 230000008909 emotion recognition Effects 0.000 claims description 117
- 230000014509 gene expression Effects 0.000 claims description 50
- 230000002996 emotional effect Effects 0.000 claims description 47
- 230000008921 facial expression Effects 0.000 claims description 45
- 238000004891 communication Methods 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 13
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000011017 operating method Methods 0.000 claims 1
- 230000033001 locomotion Effects 0.000 description 64
- 230000000875 corresponding effect Effects 0.000 description 44
- 210000003128 head Anatomy 0.000 description 26
- 210000001508 eye Anatomy 0.000 description 18
- 230000008569 process Effects 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000007935 neutral effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 210000004709 eyebrow Anatomy 0.000 description 7
- 239000002131 composite material Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000008094 contradictory effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 210000001061 forehead Anatomy 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
- B25J11/001—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
- B25J19/021—Optical sensing devices
- B25J19/023—Optical sensing devices including video camera means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/4155—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by programme execution, i.e. part programme or machine function execution, e.g. selection of a programme
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/50—Machine tool, machine tool null till machine tool work handling
- G05B2219/50391—Robot
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Definitions
- the present invention relates to a robot and its operation method, and more particularly, to a robot and its operation method that can recognize a user emotion (emotion) and provide an emotion-based service.
- Robots have been developed for industrial use and have been responsible for part of factory automation. In recent years, the field of application of robots has been further expanded, medical robots, aerospace robots, etc. have been developed, and home robots that can be used in general homes are also being made.
- Prior document 1 (US Patent Publication No. US 2018 / 089880A1) describes the content of a user's face to be photographed, and generates and transmits avatar data corresponding to the identified characteristic.
- An object of the present invention is to provide a robot capable of recognizing a user emotion (emotion) and providing a emotion-based service and a method of operating the same.
- An object of the present invention is to provide a robot capable of automatically generating and using a character expressing a user's emotion and a method of operating the same.
- An object of the present invention is to provide an emotion recognition method capable of more accurately recognizing a user's emotion using artificial intelligence learned by deep learning.
- An object of the present invention is to provide a robot capable of generating a user's own emotional character by reflecting a result of emotion recognition on a user's face and a method of operating the same.
- An object of the present invention is to provide a robot capable of expressing emotion using the generated emotion characters and a method of operating the same.
- An object of the present invention is to provide a robot capable of recognizing emotions of at least one of video call participants and generating a character according to the recognized emotions, and a method of operating the same.
- An object of the present invention is to provide a robot capable of transmitting the emotion of a video call counterpart and a method of operating the same.
- An object of the present invention is to provide a robot capable of recognizing a motion of at least one of video call participants and operating according to the recognized motion, and a method of operating the same.
- a robot and an operation method include an image acquisition unit including a camera that acquires an image of a user located in front of the main body, and an audio input unit that receives a user's voice input , A display for displaying a predetermined image, and an audio output unit for outputting a predetermined sound, obtaining data related to a user including image data including a user's face and voice data spoken by the user, and obtained user Emotion information can be recognized based on data related to providing emotion-based services.
- the robot and its operation method may recognize emotion information based on image data including the user's face and voice data spoken by the user.
- the robot and its operation method express the user's emotion by generating an avatar character by mapping the user's emotion information to the user's face information You can automatically create a character.
- the data related to the user may be video data captured by the user or real-time video data photographing the user, and characters may be generated using stored data and data input in real time.
- the data related to the user may include video data including the user's face and voice data spoken by the user, so that the user's face can be used to generate characters, and video data and voice are used to recognize the user's emotions.
- video data and voice are used to recognize the user's emotions.
- Various elements included in the data can be used.
- the robot and its operation method may display any one of the stored avatar characters of the user, and the generated avatar character may be displayed in a default screen or a specific situation. It can be used as a displayed screen, so characters can be used to express facial expressions and emotions of robots.
- the robot according to an aspect of the present invention and its operation method may store the generated avatar character in association with the user's information, and later use corresponding characters for each user.
- the robot according to an aspect of the present invention and a method of operating the same may transmit emotions by transmitting avatar characters or recognized emotion information together when transmitting predetermined data to other devices.
- a robot and an operation method map a character's emotion information to a user's image data and synchronize the user's voice data to synchronize the avatar character. You can create a video.
- the robot according to an aspect of the present invention and a method of operating the same may change the expression landmark points of the preset animation character to correspond to the recognized emotion information to generate an avatar character.
- the robot according to an aspect of the present invention and its operation method may adjust the degree of change of facial expression landmark points of the avatar character in response to the recognized user's emotion information.
- the degree of change of the facial expression landmark points of the avatar character may be enhanced to increase emotion expression, or may be reduced to reduce emotion expression.
- the robot according to an aspect of the present invention and a method of operating the same can display any one of the stored avatar characters of the user and can be used for a video call.
- the robot and the operation method according to an aspect of the present invention are modified by changing facial expression landmark points of the animation character generated based on the user's face information to correspond to the recognized emotion information.
- a robot and a method of operating the same synthesize an expression landmark point image generated in response to the recognized emotion information on a user's face image into augmented reality to create an avatar character. can do.
- the robot and its operation method can detect a user's motion and perform a corresponding motion mapped to the user's emotional information to the detected motion. .
- the emotion information recognized according to the robot and the operation method according to an aspect of the present invention may be any one of a plurality of emotion classes or a probability value for each of the plurality of emotion classes.
- the robot and its operation method according to an aspect of the present invention may perform emotion recognition in a robot itself or through an emotion recognition server.
- the emotion recognizer provided in the robot or the server is trained to recognize emotion information using a plurality of uni-modal inputs and a multi-modal input based on the plurality of uni-modal inputs, and the emotion recognition results for each of the plurality of uni-modal inputs
- the user's emotion can be more accurately recognized.
- the robot includes an image acquisition unit including a camera that acquires image data including a user's face, and an audio input unit that acquires voice data spoken by the user, A display for displaying a predetermined image, an audio output unit for outputting a predetermined sound, an emotion recognizer for recognizing the emotion information of the user based on image data including the user's face and voice data spoken by the user, and It may include a control unit for generating the avatar character by mapping the emotion information of the recognized user to the user's face information.
- the robot includes an image acquisition unit including a camera that acquires image data including a user's face, and an audio input unit that acquires voice data spoken by the user, A display unit for displaying a predetermined image, a sound output unit for outputting a predetermined sound, a communication unit for transmitting image data including the user's face and the voice data spoken by the user to a server, and receiving emotion recognition results from the server, And, it may include a control unit for generating an avatar character by mapping the recognized user's emotion information to the user's face information.
- the user's emotion can be more accurately recognized using artificial intelligence learned by deep learning.
- a character expressing a user's emotion can be automatically generated and used, thereby providing fun and ease of use to the user.
- the emotion of the video call counterpart can be transmitted through the robot, thereby increasing user satisfaction and convenience.
- the robot by recognizing the movement of the video call counterpart, the robot performs a corresponding action, thereby making it more fun and convenient for people to use the video call.
- FIG. 1 is a configuration diagram of a robot system including a robot according to an embodiment of the present invention.
- FIG. 2 is a front view showing the appearance of a robot according to an embodiment of the present invention.
- FIG 3 is an example of a simplified internal block diagram of a robot according to an embodiment of the present invention.
- FIG. 4 is an example of a simplified internal block diagram of a server according to an embodiment of the present invention.
- FIG. 5 is an example of a simplified internal block diagram of an emotion recognizer according to an embodiment of the present invention.
- FIG. 6 is a view referred to in the description of emotion recognition according to an embodiment of the present invention.
- FIG. 7 to 10 are views referred to for a description of expression of a character according to an embodiment of the present invention.
- FIG. 11 is a flowchart illustrating a method of operating a robot according to an embodiment of the present invention.
- FIG. 12 is a flowchart illustrating a method of operating a robot according to an embodiment of the present invention.
- FIG. 13 is a view referred to in the description of the emotional expression of the robot according to an embodiment of the present invention.
- FIG 14 to 16 are views for reference to a description of a video call using a robot according to an embodiment of the present invention.
- 17 is a flowchart illustrating a method of operating a robot according to an embodiment of the present invention.
- 18 to 21 are flowcharts illustrating a method of operating a robot system according to an embodiment of the present invention.
- module and “part” for the components used in the following description are given merely considering the ease of writing the present specification, and do not impart a particularly important meaning or role in itself. Therefore, the “module” and the “unit” may be used interchangeably.
- FIG. 1 is a configuration diagram of a robot system including a robot according to an embodiment of the present invention.
- the robot system includes one or more robots 100 and a communication module to communicate with other devices, the robots 100, the server 70, or connect to a network. It may be configured to include a home appliance (home appliance, 10) that can be.
- home appliance home appliance
- the home appliance 10 may include an air conditioner 11 having a communication module, a robot cleaner 12, a refrigerator 13, a washing machine 14, a cooking appliance 15, and the like.
- the communication module provided in the home appliance 10 may be a Wi-Fi communication module, and the present invention is not limited to the communication method.
- the home appliance 10 may include different types of communication modules or may include a plurality of communication modules.
- the home appliance 10 may include an NFC module, a zigbee communication module, a Bluetooth TM communication module, and the like.
- the home appliance 10 may be connected to a predetermined server 70 through a Wi-Fi communication module, etc., and may support smart functions such as remote monitoring and remote control.
- the robot system may include a portable terminal (not shown) such as a smart phone and a tablet PC.
- the user can check information about the home appliances 10 and 20 in the robot system or control the home appliance 10 through the mobile terminal.
- the robot 100 may receive a user's voice input, and thus directly control the home appliance 10 or control the home appliance 10 via the server 70. You can.
- the user can control the home appliance 10 without manipulating other devices other than the robot 100 disposed in a room, a living room, or the like.
- the robot system may include a plurality of Internet of Things (IoT) devices (not shown). Accordingly, the robot system may include a home appliance 10, a robot 100, and Internet of Things (IoT) devices.
- IoT Internet of Things
- the robot system according to an embodiment of the present invention is not limited to a communication method configuring a network.
- the home appliance 10, the robot 100, and the Internet of Things (IoT) devices may be communicatively connected through a wired / wireless router (not shown).
- IoT Internet of Things
- devices in the robot system may configure a mesh topology that is individually connected to each other.
- the home appliance 10 in the robot system may communicate with the server 70 or the robot 100 via a wired / wireless router (not shown).
- the home appliance 10 in the robot system may communicate with the server 70 or the robot 100 by Ethernet.
- the robot system may further include a network device such as a gateway.
- a network device such as a gateway.
- at least one of the robots 100 provided in the home may be configured to include the above-described gateway function.
- the home appliance 10 included in the robot system may be networked directly between devices or via a gateway.
- the home appliance 10 may be network connected to communicate with the server 70 directly or via a gateway.
- the gateway may communicate with the server 70 or the portable terminal 50 by Ethernet.
- the gateway may communicate with the server 70 or the robot 100 via a wired / wireless router.
- the home appliance 10 may transmit device operation status information, setting value information, and the like to the server 70 and / or the gateway.
- the user may check information on the home appliance 10 in the robot system or control the home appliance 10 through the mobile terminal or the robot 100.
- the server 70 and / or the gateway has a user command input through the robot 100 or the like, or in response to a specific event occurring in the home appliance 10 in the robot system, the home appliance 10 It is possible to transmit a signal to control them to each device.
- the gateway may include output means such as a display and an audio output unit.
- the display and audio output unit may be stored in the gateway or output video and audio based on the received signal.
- a music file stored in the gateway may be played and output through the audio output unit.
- the display and audio output unit may output video and audio information related to the operation of the gateway.
- the server 70 may store and manage information transmitted from the home appliance 10, the robot 100, and other devices.
- the server 70 may be a server operated by a manufacturer of a home appliance or a company commissioned by a manufacturer.
- Information related to the home appliance 10 may be transmitted to the robot 100, and the robot 100 may display information related to the home appliance 10.
- the home appliance 10 may receive information from the robot 100 or receive a command. At this time, the home appliance 10 may transmit various information to the server 70, and the server 70 may transmit some or all of the information received from the home appliance 10 to the robot 100 You can.
- the server 70 may process the information itself or the information received from the home appliance 10 and transmit it to the robot 100.
- the server 70 is one is illustrated, but the present invention is not limited thereto, and the system according to the present invention may operate in conjunction with two or more servers.
- the server 70 may include a first server for voice recognition and processing, and a second server for providing home appliance related services such as home appliance control.
- the first server and the second server may be configured with information and functions distributed to a plurality of servers, or may be configured as one integrated server.
- the first server for speech recognition and processing may be composed of a speech recognition server recognizing words included in a speech signal and a natural language processing server recognizing the meaning of a sentence including words included in a speech signal. have.
- the server 70 may include a server for emotion recognition and processing and a server for providing home appliance related services such as home appliance control.
- the server for emotion recognition and processing may be configured by distributing information and functions to a plurality of servers or a single integrated server.
- FIG. 2 is a front view showing the appearance of a robot according to an embodiment of the present invention
- FIG. 3 is an example of a simplified internal block diagram of a robot according to an embodiment of the present invention.
- the robot 100 includes main bodies 101 and 102 that form an exterior and house various parts therein.
- the main body 101, 102 is a body (101) forming a space in which various components constituting the robot 100 are accommodated, and a support portion disposed under the body 101 to support the body 101 ( 102).
- the robot 100 may include heads 110 that are disposed above the main bodies 101 and 102.
- a display 182 capable of displaying an image may be disposed on the front surface of the head 110.
- the front direction may mean the + y axis direction
- the up and down direction may mean the z axis direction
- the left and right directions may mean the x axis direction.
- the head 110 may rotate within a predetermined angular range about the x-axis.
- the head 110 when viewed from the front, is capable of a nodding operation moving in the vertical direction as if a person nodding the head in the vertical direction.
- the head 110 may perform the return to the original position one or more times after rotating within a predetermined range, such as a person nodding his head in the vertical direction.
- At least a part of the front surface of the head 100 on which the display 182 capable of responding to the human face is disposed may be implemented.
- the operation of the head 110 to nodding in the vertical direction is the display 182.
- the operation of the head 110 to nodding in the vertical direction is the display 182.
- the body 101 may be configured to be rotatable in the left and right directions. That is, the body 101 may be configured to be rotatable 360 degrees around the z-axis.
- the body 101 is also configured to be rotatable within a predetermined angular range around the x-axis, so that it can be moved as a nod in the vertical direction.
- the head 110 may also rotate along an axis in which the body 101 rotates.
- the head 110 is nodding in the vertical direction (Nodding), when the head 110 itself rotates in the vertical direction when viewed from the front about a predetermined axis and the body 101 in the vertical direction As it is noded, it may include all cases where the head 110 connected to the body 101 is nodeed by rotating together.
- the robot 100 may include a power supply unit (not shown) connected to an outlet in the home to supply power into the robot 100.
- the robot 100 may include a power supply (not shown) having a rechargeable battery (not shown) to supply power into the robot 100.
- the power supply unit (not shown) may include a wireless power receiver for wirelessly charging the battery.
- the robot 100 may include an image acquisition unit 120 capable of photographing a predetermined range around the main bodies 101 and 102 and at least around the front surfaces of the main bodies 101 and 102.
- the image acquisition unit 120 photographs surroundings of the main bodies 101 and 102, an external environment, and the like, and may include a camera module.
- the camera module may include a digital camera.
- the digital camera includes at least one optical lens and an image sensor (for example, a CMOS image sensor) including a plurality of photodiodes (for example, pixels) formed by an image passing through the optical lens,
- a digital signal processor (DSP) that composes an image based on a signal output from photodiodes may be included.
- the digital signal processor can generate not only a still image but also a moving image composed of frames composed of still images.
- the image acquisition unit 120 may include a front camera provided on the front surface of the head 110 to acquire images on the front surfaces of the main bodies 101 and 102.
- the number, arrangement, type, and shooting range of the cameras provided by the image acquisition unit 120 are not necessarily limited thereto.
- the image acquisition unit 120 may photograph the front direction of the robot 100 and photograph an image for user recognition.
- the image acquired by the image acquisition unit 120 may be stored in the storage unit 130.
- the robot 100 may include a voice input unit 125 that receives a user's voice input.
- the voice input unit 125 may include a processing unit for converting analog sound into digital data, or may be connected to the processing unit to dataize the user input voice signal to be recognized by the server 70 or the control unit 140.
- the voice input unit 125 may include a plurality of microphones to increase the accuracy of user voice input reception and to determine the user's location.
- the voice input unit 125 may include at least two microphones.
- the plurality of microphones MIC may be arranged spaced apart from each other, and may acquire external audio signals including voice signals and process them as electrical signals.
- the input device microphone requires at least two for sound source generating sound and user's direction estimation, and the farther the distance between microphones is, the higher the resolution (angle) of direction detection.
- two microphones may be disposed on the head 110.
- the robot 100 includes a control unit 140 that controls the overall operation, a storage unit 130 that stores various data, and a communication unit 190 that transmits and receives data to and from other devices, such as the server 70. can do.
- the robot 100 may further include a driving unit 160 that rotates the head 110 and the body 101.
- the driving unit 160 may include a plurality of driving motors (not shown) that rotate and / or move the body 101 and the head 110.
- the control unit 140 controls the image acquisition unit 120, the driving unit 160, and the display 182 that constitute the robot 100, thereby controlling the overall operation of the robot 100.
- the storage unit 130 records various information necessary for the control of the robot 100, and may include a volatile or nonvolatile recording medium.
- the recording medium stores data that can be read by a microprocessor, and a hard disk drive (HDD), solid state disk (SSD), silicon disk drive (SDD), ROM, RAM, CD-ROM, magnetic Tapes, floppy disks, optical data storage devices, and the like.
- control unit 140 may transmit an operation state or a user input of the robot 100 to the server 70 through the communication unit 190.
- the communication unit 190 includes at least one communication module so that the robot 100 is connected to the Internet or a predetermined network.
- the communication unit 190 connects to a communication module provided in the home appliance 10 to process data transmission and reception between the robot 100 and the home appliance 10.
- data for voice recognition may be stored in the storage unit 130, and the controller 140 may process a voice input signal of a user received through the voice input unit 125 and perform a voice recognition process.
- control unit 140 may control the robot 100 to perform a predetermined operation based on the result of voice recognition.
- control unit 140 may control to transmit a control signal based on the command included in the voice signal to the controlled home appliance.
- the controller 140 may control the body 101 of the robot to rotate in a direction toward a controlled home appliance.
- the voice recognition process may not be performed by the robot 100 itself, but may be performed by the server 70.
- control unit 140 may control the communication unit 190 such that a user input voice signal is transmitted to the server 70.
- the simple speech recognition may be performed by the robot 100, and high-dimensional speech recognition such as natural language processing may be performed by the server 70.
- the robot may be switched from a standby state to an operation state.
- the robot 100 may perform only a voice recognition process up to whether or not a keyword voice is input, and the voice recognition for the subsequent user voice input may be performed through the server 70.
- control unit 140 may compare the user image acquired through the image acquisition unit 120 with information previously stored in the storage unit 130 to determine whether the user is a registered user.
- control unit 140 may control to perform a specific operation only for the voice input of the registered user.
- control unit 140 may control the body 101 and / or the head 111 to rotate based on the user image information acquired through the image acquisition unit 120.
- the robot 100 may include an output unit 180 and display predetermined information as an image or output as sound.
- the output unit 180 may include a display 182 that displays information corresponding to a user's command input, a processing result corresponding to a user's command input, an operation mode, an operation state, an error state, and the like.
- the display 182 may be disposed on the front surface of the head 110 as described above.
- the display 182 may be configured as a touch screen by forming a mutual layer structure with a touch pad.
- the display 182 may be used as an input device capable of inputting information by a user's touch in addition to the output device.
- the output unit 180 may further include an audio output unit 181 for outputting an audio signal.
- the sound output unit 181 displays warning messages such as a warning sound, an operation mode, an operation state, and an error state under the control of the controller 140, information corresponding to a user's command input, and processing results corresponding to a user's command input. It can be output as sound.
- the audio output unit 181 may convert and output an electrical signal from the control unit 140 to an audio signal. To this end, a speaker or the like can be provided.
- the sound output unit 181 is disposed on the left and right sides of the head 110 to output predetermined information as sound.
- the appearance and structure of the robot illustrated in FIG. 2 are exemplary and the present invention is not limited thereto.
- the position, number, etc. of the audio input unit 125, the image acquisition unit 120, and the audio output unit 181 may vary according to design specifications.
- the rotation direction and angle of each component can also be changed.
- the entire robot 100 may be tilted or shaken in a specific direction.
- the robot 100 may be connected to the Internet and a computer with the support of a wired or wireless Internet function.
- the robot 100 can also perform voice and video call functions, and these call functions can be performed using an Internet network, a mobile communication network, etc. according to Voice over Internet Protocol (VoIP).
- VoIP Voice over Internet Protocol
- control unit 140 may control the display 182 to display the video of the video call counterpart and the video of the user according to the user's settings during a video call.
- the sound output unit 181 can be controlled to output.
- the robot system may include two or more robots performing a video call.
- FIG. 4 is an example of a simplified internal block diagram of a server according to an embodiment of the present invention.
- the server 70 may include a communication unit 72, a storage unit 73, a recognizer 74, and a processor 71.
- the processor 71 can control the overall operation of the server 70.
- the server 70 may be a server operated by a home appliance manufacturer such as the robot 100 or a server operated by a service provider, and may be a kind of cloud server.
- the communication unit 72 may receive various data such as status information, operation information, and operation information from a home appliance such as a mobile terminal or a robot 100, a gateway, or the like.
- the communication unit 72 may transmit data corresponding to various types of received information to a mobile terminal, a home appliance such as a robot 100, a gateway, or the like.
- the communication unit 72 may include one or more communication modules such as an Internet module and a mobile communication module.
- the storage unit 73 may store the received information, and may include data for generating result information corresponding thereto.
- the storage unit 73 may store data used for machine learning, result data, and the like.
- the recognizer 74 may serve as a learner of a home appliance such as the robot 100.
- the recognizer 74 may include an artificial neural network, for example, a deep neural network (DNN) such as a convolutional neural network (CNN), a recurrent neural network (RNN), or a deep belief network (DBN), You can learn neural networks.
- DNN deep neural network
- CNN convolutional neural network
- RNN recurrent neural network
- DNN deep belief network
- the processor 71 may control to update the artificial neural network structure of the home appliance, such as the robot 100, to the learned artificial neural network structure after learning according to the setting.
- the recognizer 74 may receive input data for recognition, recognize attributes of objects, spaces, and emotions included in the input data, and output the result.
- the communication unit 72 may transmit the recognition result to the robot 100.
- the recognizer 74 may analyze and learn usage-related data of the robot 100 to recognize usage patterns, usage environments, and the like, and output the results.
- the communication unit 72 may transmit the recognition result to the robot 100.
- home appliance products such as the robot 100 may receive the recognition result from the server 70 and operate using the received recognition result.
- the server 70 may perform voice recognition by receiving a voice input signal spoken by a user.
- the server 70 may include a voice recognizer, and may include an artificial neural network trained to perform voice recognition on the voice recognizer input data and output a voice recognition result.
- the server 70 may include a voice recognition server for voice recognition.
- the voice recognition server may include a plurality of servers that share and perform a predetermined process during the voice recognition process.
- the speech recognition server receives speech data
- the automatic speech recognition (ASR) server converts the received speech data into text data
- the text from the automatic speech recognition server And a natural language processing (NLP) server that receives data and analyzes the received text data to determine a voice command.
- NLP natural language processing
- the speech recognition server may further include a text to speech (TTS) server that converts the text speech recognition result output by the natural language processing server into speech data and transmits the result to the other server or home appliance.
- TTS text to speech
- the server 70 may perform emotion recognition on input data.
- the server 70 may include an emotion recognizer, and the emotion recognizer may include an artificial neural network trained to perform emotion recognition on input data and output an emotion recognition result.
- the server 70 may include an emotion recognition server for emotion recognition. That is, at least one of the servers 70 may be an emotion recognition server having an emotion recognizer for performing emotion recognition.
- FIG. 5 is an example of a simplified internal block diagram of an emotion recognizer according to an embodiment of the present invention.
- the emotion recognizer 74a included in the robot 100 or the server 70 may perform deep learning using emotion data as input data 590.
- Emotion recognizer 74a is a uni-modal pre-processor including a plurality of modal-specific recognizers 521, 522, and 523 trained to recognize emotion information of a user included in uni-modal input data ( 520), and may include a multi-modal recognizer 510 trained to merge output data of the plurality of modal-specific recognizers 521, 522, and 523, and to recognize user emotion information included in the merged data. have.
- Emotional data is emotion information data that has information about the user's emotions, and may include image, voice, and biosignal data, which are emotion information that can be used for emotion recognition.
- the input data 590 may be video data including a user's face, and more preferably, the learning data 590 further includes audio data including a user's voice. It can contain.
- Emotion is the ability of feeling to react to stimuli, the nature of the mind that accepts sensory stimuli or impressions, and in emotional engineering, it is a pleasant feeling as a high-level psychological experience inside humans for changes in the environment or physical stimuli from the outside. It is defined as a complex feeling such as discomfort.
- emotion may refer to emotions such as a feeling of comfort and discomfort that occur with respect to a stimulus, and emotion may be recognized as one of N representative emotional states.
- N representative emotional states can be named as an emotional class.
- the emotion recognizer 74a recognizes six representative emotion classes, such as surprise, happiness, sadness, displeasure, anger, and fear, and recognizes emotion As a result, one of the representative emotion classes may be output, or a probability value for each of the six representative emotion classes may be output.
- the emotion recognized and output by the emotion recognizer 74a indicates a default emotion state in which six emotions have not occurred in addition to emotion classes such as surprise, happiness, sadness, dislike, anger, and fear Neutrality may further include a sensitivity class.
- the emotion recognizer 74a outputs one emotion class selected from surprise, happiness, sadness, dislike, anger, fear, and neutral as a result of emotion recognition, or surprise x%, happiness x%, sadness x%, Probability values for each sentiment class such as dislike x%, anger x%, fear x%, and neutral x% can be output as the emotion recognition result.
- the result value is output as a tagging value of data used in deep learning.
- the emotion recognizer 74a can recognize emotion for each unimodal of voice, video, and text, and , It can have a structure that can be recognized by emotion even with multi-modal.
- the emotion recognizer 74a may recognize the user's emotion input at a specific time point for each unimodal and simultaneously multi-modal recognition.
- the plurality of modal recognizers 521, 522, and 523 recognize and process one input unimodal input data, respectively, and may also be referred to as a unimodal recognizer.
- the emotion recognizer 74a may generate the plurality of unimodal input data by separating the input data 590 for each unimodal.
- the modal separator 530 may separate the input data 590 into a plurality of unimodal input data.
- the plurality of uni-modal input data may include video uni-modal input data, voice uni-modal input data, and text uni-modal input data separated from the video data including the user.
- the input data 590 may be video data captured by a user, and the video data may include video data captured by a user's face and the like, and audio data including voices spoken by the user.
- the modal separator 530 converts the content of the audio data included in the input data 590 into text data, and the text uni-modal input data 531 and voice data, such as voice tone, size, and height, are sound. ) Can be separated into unimodal input data.
- the text unimodal input data may be data obtained by converting speech separated from the video data into text.
- the sound unimodal input data may be a sound source file itself of audio data or a file that has been preprocessed such as noise removal from the sound source file.
- the modal separator 530 may separate video unimodal input data 533 including one or more face image data from video data included in the input data 590.
- the separated unimodal input data 531, 532, 533, a plurality of modal recognizers 521 trained to recognize the user's emotional information based on each unimodal input data 531, 532, 533 , 522, 523 may be input to the unimodal preprocessor 520.
- the text unimodal input data 531 may be input to a text emotion recognizer 521 that performs deep learning using text as learning data.
- the voice unimodal input data 532 may be input to a speech emotion recognizer 522 that performs deep learning using the voice learning data.
- the image unimodal input data 533 including one or more face image data may be input to a face emotion recognizer 523 that performs deep learning using the image learning data.
- the text emotion recognizer 521 may recognize a user's emotion by recognizing a vocabulary, a sentence structure, and the like included in sound to text (STT) data converted to text. For example, as many words related to happiness are used or words expressing the degree of happiness are recognized, the probability value for the happiness emotion class can be recognized higher than the probability value for other emotion classes. Alternatively, the text emotion recognizer 521 may directly output happiness, an emotion class corresponding to the recognized text, as a result of emotion recognition.
- STT sound to text
- the text emotion recognizer 521 may output a text feature point vector together with the emotion recognition result.
- the speech emotion recognizer 522 extracts feature points of input voice data.
- the voice feature points may include a tone, volume, and waveform of the voice.
- the speech emotion recognizer 522 may detect a user's emotion by detecting a tone or the like of the speech.
- the speech emotion recognizer 522 may output emotion recognition results and detected speech feature point vectors.
- the face emotion recognizer 523 may recognize a user's facial expression by detecting a user's face area from the input image data and recognizing facial expression landmark point information, which is feature points constituting the facial expression.
- the facial emotion recognizer 523 may output an emotion class or a probability value for each emotion class corresponding to the recognized expression, and may also output a facial feature point (expressed landmark point) vector.
- FIG. 6 is a view referred to in the description of emotion recognition according to an embodiment of the present invention, illustrating the components of the expression.
- facial expression landmark points include an eyebrow 61, an eye 62, a cheek 63, a forehead 64, a nose 65, a mouth 66, and a chin 67 It may be applicable.
- the facial expression landmark points 61 to 67 in FIG. 6 are exemplary and may have different types and numbers.
- facial expression landmark points having strong characteristics such as eyebrows 61, eyes 62, and mouths 66 may be used, or facial expression landmark points having a large degree of change when constructing a specific expression for each user may be used. have.
- the facial emotion recognizer 523 may recognize the facial expression based on the location and shape of the expression landmark points 61 to 67.
- the facial emotion recognizer 523 may recognize a user's facial expression, including an artificial neural network deep-learned with image data including at least some of the facial expression landmark points 61 to 67.
- the face emotion recognizer 523 determines the user's emotion as happiness among emotion classes or the emotion recognition result having the highest probability value for happiness Can output
- the plurality of modal-specific recognizers may include artificial neural networks corresponding to input characteristics of input uni-modal input data.
- the multi-modal emotion recognizer 511 may also include an artificial neural network corresponding to the characteristics of the input data.
- the facial emotion recognizer 523 that performs image-based learning and recognition is CNN (Convolutional Neural Network), other emotion recognizers 521 and 522 are deep neural networks (DNN), and multi-modal emotion recognizer 511 May include an artificial neural network of a recurrent neural network (RNN).
- CNN Convolutional Neural Network
- DNN deep neural networks
- RNN multi-modal emotion recognizer 511
- the emotion recognizers for each modal 521, 522, 523 may recognize emotion information included in the input uni-modal input data 531, 532, 533, respectively, and output emotion recognition results.
- the modal sentiment recognizers 521, 522, and 523 output the sentiment class having the greatest probability among the predetermined number of preset sentiment classes as the sentiment recognition result or the sentiment recognition result for each sentiment class as the sentiment recognition result. can do.
- the modal emotion recognizers 521, 522, and 523 can learn and recognize text, voice, and video in each deep learning structure, and derive an intermediate vector value consisting of feature point vectors for each unimodal.
- the multi-modal recognizer 510 may perform multi-modal deep learning with intermediate vector values of each voice, video, and text.
- the modal emotion recognizers 521, 522, and 523 can operate as a kind of preprocessor. have.
- the emotion recognizer 74a includes three deep learning models of three modal emotion recognizers 521, 522, and 523 and a deep learning model of one multi-modal recognizer 510. You can use deep learning models.
- the multi-modal recognizer 510 includes a merger 512 that combines feature point vectors output by a plurality of modal-specific recognizers 521, 522, and 523, and the data included in the output data of the merger 512. It may include a multi-modal emotion recognizer 511 learned to recognize the user's emotion information.
- the merger 512 may synchronize the output data of the plurality of modal-specific recognizers 521, 522, and 523, combine vector feature points (Vector Concatenation), and output the multimodal sentiment recognizer 511. .
- the multi-modal emotion recognizer 511 may recognize the user's emotion information from the input data and output an emotion recognition result.
- the multi-modal sentiment recognizer 511 may output the sentiment class having the highest probability among the predetermined number of preset sentiment classes as the sentiment recognition result or the probability value for each sentiment class as the sentiment recognition result. .
- the emotion recognizer 74a may output a plurality of unimodal emotion recognition results and a multi-modal emotion recognition result.
- the emotion recognizer 74a may output a plurality of uni-modal emotion recognition results and a multi-modal emotion recognition result at a level (probability) for each emotion class.
- the emotion recognizer 74a may output a probability value for each emotion class of surprise, happiness, neutrality, sadness, dislike, anger, and fear, and the higher the probability value, the higher the probability value. have.
- the total probability value of the seven emotion classes will be 100%.
- the emotion recognizer 74a may output a composite emotion recognition result including the emotion recognition results 521, 522 and 523 of each of the plurality of modal recognizers and the emotion recognition results of the multi-modal recognizer 511.
- the robot 100 may provide an emotional exchange user experience (UX) based on the emotion recognition results of three uni-modal and one multi-modal.
- UX emotional exchange user experience
- the emotion recognizer 74a may output a recognition result that occupies a majority in the composite emotion recognition result and a recognition result having the highest probability value as the final recognition result.
- the control unit 140 of the robot 100 receiving the plurality of emotion recognition results may determine the final recognition result according to a predetermined criterion.
- the emotion recognizer 74a can recognize and manage emotions of voice (voice tone, etc.), video (face expression, etc.), and text (contents of words, etc.) as levels. Accordingly, the emotional exchange user experience (UX) may be processed differently for each modal.
- the results of emotion recognition for each uni-modal (voice, image, text) and the results of multi-modal emotion recognition can be output simultaneously.
- Emotions can be recognized for a combination of voice, video, and text input at one point in time, so that the user's emotional tendency can be grasped by recognizing contradicting emotions for each uni-modal in multi-modal emotions. Accordingly, even if a negative input is received in some modals, the overall emotion may be recognized to provide an emotional exchange user experience (UX) corresponding to the positive input, which is a real emotional state of the user.
- UX emotional exchange user experience
- the robot 100 can understand the emotion of each user by uni-modal by communicating with the server 70 having the emotion recognizer 74a or the emotion recognizer 74a.
- the present invention can construct a recognizer structure in which a plurality of recognizers 511, 521, 522, and 523 complement each other by combining multiple inputs and outputs. .
- the emotion recognizer 74a may separate voice into sound and meaning, and make three inputs of a video, a voice (sound), and an STT from a video and a voice input.
- the emotion recognizer 74a may be configured to have different artificial neural network models for each input, such as a convolutional neural network (CNN) and a long short-term memory (LSTM).
- CNN convolutional neural network
- LSTM long short-term memory
- the image-based recognizer 523 may have a CNN structure
- the multi-modal emotional recognizer 511 may have a Long Short-Term Memory (LSTM) structure.
- a personalized neural network can be configured for each input characteristic.
- the output of the unimodal recognizers 521, 522, and 523 for each input may be vector values of probability values for 7 kinds of emotion classes and feature points expressing the emotions well.
- the multi-modal recognizer 510 combines vector values of feature points expressing emotion well through a precombination layer and LSTM, rather than simply calculating emotion values for three inputs through a statistical method, thereby making it difficult to recognize one recognizer. Helps improve performance in the form that other recognizers help, and can cover various cases in real life.
- the emotion recognizer 74a includes the voice-based recognizers 521 and 522 and the multi-modal emotion recognizer 511 for the user's emotion. Can recognize.
- the emotion recognizer 74a can recognize a user's complex emotional state by fusing each recognition result of video, voice, and text data with a multi-modal recognition result, emotion recognition for various situations in real life This is possible.
- FIG. 7 to 10 are views referred to for a description of expression of a character according to an embodiment of the present invention.
- the robot 100 may generate an avatar character expressing a user's emotion based on an emotion recognition result recognized by itself or an emotion recognition result received from another device.
- the robot 100 may generate an avatar character by synthesizing an expression landmark point image generated in response to the emotion information recognized on the user's face image data into augmented reality.
- the eyes, eyebrows, and forehead frowning in the position of the eye, eyebrows, and forehead of the user's face image may be displayed by covering them with augmented reality. Accordingly, an avatar character that expresses the user's dislike emotion can be generated.
- the robot 100 may first generate an animation character based on the user's face information. Such an animation character may also be generated by reflecting the detected facial expression landmark points of the user. For example, in the case of a user with a large nose, an animation character with a large nose may be generated. In addition, the robot 100 may generate an avatar character expressing a specific emotion of the user by changing the expression landmark points of the generated animation character to correspond to the recognized emotion information.
- the robot 100 may generate the avatar character by changing facial expression landmark points of the preset animation character to correspond to the recognized emotion information.
- the avatar character can be generated quickly and easily because the user character that is recognized only by the expression landmark points on the previously generated animation character needs to be modified.
- one of the basic animation characters stored in the storage unit 130 of the robot 100 or received through the communication unit 190 is selected, and the detected facial expression landmark points of the user are reflected in the selected character. Can be created.
- an avatar character expressing a user's specific emotion may be generated by changing facial expression landmark points of the generated animation character to correspond to the recognized emotion information.
- 7 to 10 show examples of expressing seven types of emotion classes using a preset animation character and a small number of facial expression landmark points.
- default expressions corresponding to emotion classes of happiness, surprise, dislike, anger, fear, sadness, and neutral may be stored.
- the degree of representing a specific emotion in the default expression can be greatly changed. For example, if the level of happiness is large, the degree of opening the mouth, which is a landmark point included in the expression of the happiness emotion class, can be changed more.
- the avatar character according to an embodiment of the present invention may be configured with only a specific landmark point or a specific landmark point as if drawing a caricature.
- 8 to 10 illustrate avatar characters composed only of eyebrows, eyes, and mouths.
- the avatar character when the user's emotion is perceived as neutral, the avatar character may be generated with a smiling neutral expression 810. Meanwhile, the neutral expression 810 may be set as a default expression used when the robot 100 does not recognize a special emotion.
- the avatar character may be generated with a surprise expression 820 with an eyebrow raised and mouth open.
- the avatar character may be generated with a frown expression 830 that drops the tail of the mouth.
- the avatar character may be created differently.
- the avatar character may be generated differently according to the size, location, and emotion expression method of the user's detected landmark pointer.
- the avatar character may be generated differently according to the sensed level of sensitivity.
- FIGS. 9A and 9B illustrates facial expressions of an avatar character expressing an emotional class of anger.
- the first anger expression 910 and the second anger expression 920 may express different shapes of eyes and mouths.
- FIG. 10 illustrates facial expressions of an avatar character expressing the emotional class of happiness.
- the first happiness expression 1010, the second happiness expression 1020, and the third happiness expression 1030 express different shapes of eyes and mouths. You can.
- the robot 100 may generate an avatar character by mapping the user's emotion information to the user's face information. .
- the avatar character recognizes the user's emotion and follows the facial feature point (landmark) until the emotion is expressed.
- the user's emotion (face expression) can be generated and used as arbitrary content afterwards.
- FIG. 11 is a flowchart illustrating a method of operating a robot according to an embodiment of the present invention.
- the robot 100 may acquire data related to a user (S1110).
- the data related to the user may include video data including the user's face and voice data spoken by the user.
- the image data including the user's face may be obtained through the camera of the image acquisition unit 120, and the voice data spoken by the user may be acquired through the microphone of the voice input unit 125. That is, the present invention can acquire both the user's voice as well as the user's face acquired by the camera, and use both image data and audio data.
- the data related to the user may be video data photographed by the user or real-time video data photographing the user. That is, the robot 100 may use both stored data and data input in real time.
- the emotion information may be any one of the plurality of emotion classes described above, or may be based on probability values for each of the plurality of emotion classes. That is, the result of the emotion recognition according to the recognition of the emotion information may include a selected emotion class among emotion classes or may include probability values for each emotion class.
- the robot 100 includes an artificial neural network trained to recognize emotion information based on image data and audio data, and when data related to the user is input, emotion to recognize the user's emotion information Recognizer 74a may be included.
- the emotion recognizer 74a is trained to recognize emotion information through a plurality of unimodal inputs and a multimodal input based on the plurality of unimodal inputs, and the plurality of unimodals
- a composite emotion recognition result including an emotion recognition result for each input and an emotion recognition result for the multi-modal input may be output.
- the server 70 may include an emotion recognizer 74a including a learned artificial neural network input to recognize emotion information based on image data and audio data. That is, the server 70 may be an emotion recognition server that performs emotion recognition by including an emotion recognizer 74a.
- the server 70 including the emotion recognizer 74a may include a plurality of artificial neural networks trained as unimodal inputs, and may be multi-modal inputs based on the unimodal inputs. It may further include a learned artificial neural network.
- the step of recognizing the user's emotion information includes the steps of the robot 100 transmitting data related to the user to the emotion recognition server 70, and the robot 100 having the emotion recognition server It may include the step of receiving the emotional recognition results from (70).
- the emotion recognizer 74a may recognize emotion information of the user based on data related to the user (S1120).
- the emotion recognizer 74a may recognize emotion information based on image data including the user's face and voice data spoken by the user.
- the emotion recognizer 74a may determine the user's emotion using both the result of the emotion information recognition based on the image data and the result of the emotion information recognition based on the voice data.
- the result of the emotion recognition recognized in the text data converted from the voice data spoken by the user to text and the result of the emotion information recognition recognized in the sound data of the voice data spoken by the user can do.
- the robot 100 may generate an avatar character by mapping the emotion information of the recognized user to the user's face information included in the data related to the user (S1130).
- the avatar character is a character in which at least one of the features extracted from the user's face information is reflected, and the personality of the user can be expressed.
- an avatar character may be generated by reflecting at least one of the facial expression landmark points extracted from the user's face information. If a particular user's facial expression landmark point is the eye, he can continue to hold the eye as a feature point to express various emotions. Or, if you look at the eyes and mouth as landmark points, you can map the eyes and mouth to multiple sample characters or characterize only the eyes and mouth like a caricature.
- the robot 100 may store the generated avatar character in association with the user's information (S1140), and freely use the stored avatar character (S1150).
- any one of the user's stored avatar characters may be displayed on the display 182.
- the generated avatar character may be used as a default screen displayed on the display 182 of the robot 100 at normal times.
- the avatar character 810 having a neutral expression in FIG. 8 may be used as a default screen of the robot 100. That is, one of the generated avatar characters can be used as the facial expression of the robot 100. Accordingly, it is possible to reduce the user's reluctance to use the robot and help to feel more friendly.
- At least one of the stored avatar characters of the user may be used.
- the robot 100 when transmitting predetermined data to another device, the robot 100 may transmit the avatar character or the recognized emotion information together with the predetermined data.
- the robot 100 intuitively represents the user and can transmit the current specific emotion to another person using another device.
- the robot 100 may transmit the recognized emotion information together with the predetermined data.
- the receiving robot 100 may generate and display an avatar character by reflecting the received emotion information according to hardware characteristics. Accordingly, it is possible to mimic the user's emotion, facial expression, and behavior without affecting or receiving the physical characteristics of the receiving robot 100.
- the robot 100 may acquire image data and audio data of the user for a predetermined time. Accordingly, the emotion recognizer 74a may recognize the emotion information of the user for the predetermined time based on the image data and audio data of the user.
- the emotion recognizer 74a may perform emotion recognition continuously for input data for a predetermined time, rather than performing one emotion recognition and ending emotion recognition.
- the controller 140 of the robot 100 maps the user's emotion information to the user's image data, synchronizes the user's voice data, and generates a video of the avatar character. You can.
- the emotion recognizer 74a may perform a plurality of emotion recognitions according to a predetermined cycle on input data for a predetermined time, and may simultaneously or sequentially output a plurality of emotion recognition results.
- controller 140 of the robot 100 may adjust the degree of change of the facial expression landmark points of the avatar character in response to the recognized user's emotion information.
- control unit 140 may enhance the emotional expression by adjusting the degree of change of the facial expression landmark points of the avatar character, or reduce the emotional expression by adjusting it smaller.
- a voice uttered by the sound output unit 181 may be changed based on the recognized user's emotion information.
- the present invention based on the recognized user's emotion information, it is possible to change at least one of the sound-related settings of the sound output unit 181.
- the emotions of the sender and the recipient may be revealed directly.
- a video call participant who hates expressing emotions in such a straightforward manner can use an avatar character with reduced emotion expression.
- a user who wants to accurately recognize or empathize with the emotion of a video call counterpart during a video call can use an avatar character with enhanced emotional expression. Accordingly, it is possible to induce positive interaction by intuitively recognizing the emotion on the content of the conversation.
- it can be set to recognize the other person's emotions in real time during a video call, and to purify and process extreme voices such as profanity.
- the robot 100 may generate an avatar character expressing a user's emotion based on the emotion recognition result recognized by itself or the emotion recognition result received from the server 70.
- the robot 100 may generate an avatar character by synthesizing an expression landmark point image generated in response to the emotion information recognized on the user's face image data into augmented reality.
- the robot 100 may first generate an animation character based on the user's face information. Such an animation character may also be generated by reflecting the detected facial expression landmark points of the user. In addition, the robot 100 may generate an avatar character expressing a specific emotion of the user by changing the expression landmark points of the generated animation character to correspond to the recognized emotion information.
- the robot 100 may generate the avatar character by changing facial expression landmark points of the preset animation character to correspond to the recognized emotion information.
- one of the basic animation characters stored in the storage unit 130 of the robot 100 or received through the communication unit 190 is selected, and the detected facial expression landmark points of the user are reflected in the selected character. Can be created.
- an avatar character expressing a user's specific emotion may be generated by changing facial expression landmark points of the generated animation character to correspond to the recognized emotion information.
- the robot 100 may detect the movement of the user, determine a corresponding motion corresponding to the user's movement, and then perform the corresponding motion.
- control unit 140 may detect an operation, such as a user's head rotating, in an image acquired through the image acquisition unit 120. In this case, the control unit 140 may control the robot 100 to rotate the head in the same direction in response to the user's head rotation.
- an operation such as a user's head rotating
- the control unit 140 may determine a corresponding motion corresponding to the motion of lifting the arm.
- the control unit 140 may control the robot to lift the arm in response to a user's movement.
- the robot may be set to perform alternative operations such as shaking the head and body in response to the user's movement.
- the controller 140 may determine the corresponding motion corresponding to the user's movement in consideration of the hardware use of the robot 100, and may control to perform the determined corresponding motion.
- the robot 100 may detect the user's motion, determine the corresponding motion by mapping the user's emotional information to the user's motion, and then perform the corresponding motion. For example, the motion may be reflected larger or smaller according to the user's emotion.
- FIG. 12 is a flowchart illustrating a method of operating a robot according to an embodiment of the present invention, and shows an emotional user interaction (UX) in a video call
- FIG. 13 is a robot according to an embodiment of the present invention It is a drawing referred to in the description of emotional expression.
- the emotion recognizer 74a provided in the robot 100 or the server 70 may recognize the emotion of the user and / or the video call counterpart (S1210).
- the results of emotion recognition may be output by leveling with numerical values such as surprise, happiness, sadness, dislike, anger, fear, and probability values of seven representative emotion classes of neutrality.
- the emotion recognition result may be output by being leveled with a grade of strong / mid / weak or the like classified in accordance with the probability value rather than the exact probability value.
- the robot 100 may extract a feature point of the user and map the recognized emotion recognition result to the feature point (S1220).
- the feature point of the user may be a landmark point of the user's face, etc., and the feature point may already be a database (DB) in the learning process (S1225).
- the feature points of the newly recognized user can be added to the database and used as learning data.
- the robot 100 may combine the user's leveled emotion and feature points and map it to a corresponding character and motion (S1230).
- the robot 100 may generate at least a part of the face of an avatar character expressing a specific emotion by combining the user's leveled emotion and a feature point, or determine a corresponding motion.
- the robot 100 may express the emotion of the video call participant based on the generated avatar character and the determined corresponding motion (S1240).
- the robot 100 may superimpose the landmark points of the avatar character created on the face of the video call participant, or display the entire avatar character generated (S1240).
- the robot 100 may perform the determined corresponding motion (S1240).
- FIG. 13 illustrates that the robot 100 expresses the joy sensibility by one of the facial expression landmarks, the eyebrow shape 1310 and the body shaking operation 1320.
- the robot can recognize emotions such as happiness, sadness, anger, surprise, fear, neutrality, dislike, etc. of at least one of the video call participants and map it to a character and display it during a call.
- an avatar that replaces a user's specific gesture and facial expression may be provided through emotion recognition.
- Video calls are possible without the speaker's face.
- FIG 14 to 16 are views for reference to a description of a video call using a robot according to an embodiment of the present invention.
- FIG 14 illustrates that two people use a video call using the first robot 100a and the second robot 100b.
- a P2P video call between the first robot 100a and the second robot 100b is possible.
- a P2P video call between the robot 100 and the portable terminal is also possible.
- the faces of the sender and the receiver can be hidden, and the characters are called, and the character can be identified by following the emotions and characteristic points of the sender and the receiver.
- the method of identifying a specific user's emotion and feature points can be performed by characterizing and expressing motion, voice, and facial movements.
- FIG. 15 illustrates an example in which a user of the second robot 100b makes a video call using a character expressing the emotion of the user of the first robot 100a, and the user of the second robot 100b is the first robot Based on the video call data received from (100a), it is possible to recognize the emotion of the video call counterpart and make a video call while viewing the character expressing the emotion of the recognized counterpart.
- FIG. 16 illustrates an example of making a video call using characters by both users of the first robot 100a and the second robot 100b.
- the user's emotions are recognized, and various characters mapped to the recognition result values are displayed overlaid on the speaker's face, or the character's face is replaced with the character to easily identify the other person's emotions, You can expect fun elements and a lock-in effect.
- the user's gesture is recognized and the gesture is mapped to the motion of the robot to operate, so that the user can intuitively recognize the opponent's emotion through the motion of the robot.
- the user's face and surrounding environment information may be recognized, and a character and a background image may be generated and used based on the recognized information. Accordingly, a video call can be used by a user who has a reluctance to the video call because the surrounding environment is exposed.
- the robot 100 can understand the user's emotional information (feature points) and reproduce it when changing to an avatar.
- the robot 100 may store a specific habit or emotion of the user, and when the video call is replaced with an avatar, the robot 100 may make a simple call as an agent. Even in the absence of a user, the robot 100 that exactly follows the user's characteristics can act as an agent. For example, when a video call is received in the absence of the user, the receiving robot 100 may perform a simple call for guiding the user in a character based on the face and emotion of the main user.
- the recognized emotion information may be rendered in real time on the character.
- the facial expression landmark point of a specific user is the eye
- the user can continue to hold the eye as a feature point to express various emotions.
- 17 is a flowchart illustrating a method of operating a robot according to an embodiment of the present invention, and shows a method of operating a robot that recognizes the emotion of a video call counterpart while performing a video call.
- the robot 100 may receive video and audio data from a video call counterpart robot (S1710), and based on data received from a video call counterpart robot Emotion information of the other party on the call may be recognized (S1720).
- the emotion information may be any one of the plurality of emotion classes described above, or may be based on probability values for each of the plurality of emotion classes. That is, the emotion recognition result according to the recognition of the emotion information may be an emotion class selected from the emotion classes.
- the recognized emotional information may be any one of the happiness, surprise, dislike, anger, fear, sadness, and neutrality.
- the result of emotion recognition according to the recognition of emotion information may include probability values for each emotion class.
- a probability value for each emotion class such as surprise x%, happiness x%, sadness x%, dislike x%, anger x%, fear x%, neutral x% can be output as the emotion recognition result.
- the controller 140 of the robot 100 maps the recognized emotion information of the video call counterpart to face information of the video call counterpart included in data received from the video call counterpart robot to map the avatar character. It can be generated (S1730).
- controller 140 of the robot 100 may control to display the generated avatar character on the display 182 (S1740). Accordingly, the user of the robot 100 can intuitively recognize the emotion of the other party while viewing the avatar character expressing the emotion of the other party on the video call.
- the robot 100 when a voice or video call with the other party through the robot 100, by recognizing the personal habits of the other party or the unique characteristics of the person, the robot can perform accordingly, thereby expressing the characteristic point (or personality) of the other party. have.
- control unit 140 of the robot 100 corresponds to the emotion information of the recognized video call counterpart, the facial expression landmark point of the avatar character You can control the degree of change.
- control unit 140 may enhance the emotional expression by adjusting the degree of change of the facial expression landmark points of the avatar character, or reduce the emotional expression by adjusting it smaller.
- the controller 140 may generate the avatar character by changing facial expression landmark points of the preset animation character to correspond to the recognized emotion information.
- the controller 140 may generate the avatar character by changing facial expression landmark points of the animation character generated based on the face information of the video call counterpart to correspond to the recognized emotion information.
- the controller 140 may generate the avatar character by synthesizing the facial expression landmark point image generated in response to the recognized emotion information on the face image of the video call counterpart into augmented reality.
- the generated avatar character may be stored in the storage unit 130 and the stored avatar character may be used again later.
- the controller 140 may store the generated avatar character in association with information of the video call counterpart. For example, when the other party requests a video call again, one of the other party's call request guidance and the other party's avatar character may be displayed on the display 182.
- control unit 140 of the robot 100 detects the movement of the video call counterpart based on the received video data (S1750), and detects the emotion information of the video call counterpart.
- the corresponding motion may be determined by mapping (S1760).
- control unit 140 may control the robot 100 to perform the determined corresponding motion (S1770).
- the controller 140 recognizes the movement direction of the other party's face, and the robot 100 moves in the corresponding direction. It can be controlled to rotate.
- the control unit 140 may control the robot 100 to rotate in the same direction when the other person's face moves in the up and down directions, and in the opposite direction according to the image reversal in the left and right directions.
- the controller 140 may differently control the degree of corresponding motion according to the counterpart's face movement direction.
- control unit 140 may set the rotation angle differently according to the opponent's face movement direction, so that the up and down directions rotate 3 degrees at a time, and the left and right directions rotate 10 degrees at a time.
- control unit 140 if there is no movement of the video call counterpart face in the video for 3 seconds, if the face is recognized, maintains the rotated state, otherwise control to return to the original position, It can reflect the movement of the video call counterpart.
- control unit 140 may generate converted voice data by mapping the recognized emotion information of the video call counterpart to the voice data of the video call counterpart.
- the sound output unit 181 may utter the converted voice data.
- the controller 140 may change at least one of the tone or size of the voice data of the video call counterpart based on the recognized emotion information of the video call counterpart. For example, when the emotion information of the recognized video call counterpart is happy, the tone of the voice data of the video call counterpart may be increased.
- control unit 140 reduces the size of the video call counterpart's voice data to be output.
- the audio output unit 181 can be controlled.
- control unit 140 may enhance the emotional expression by adjusting the degree of change of the voice data larger, or alleviate the emotional expression by adjusting smaller.
- the user can feel and empathize with the emotion of the video call counterpart, or prevent the transmission of emotions more than necessary.
- a background image may be generated and a generated avatar character may be displayed on the generated background image for a user who is reluctant to expose the surrounding environment. Accordingly, it is possible to prevent the background of the current user from being exposed to the video call counterpart.
- the emotion recognition of the video call counterpart may be performed by the robot 100 itself.
- the robot 100 includes an artificial neural network trained to recognize emotion information based on video data and audio data, and when data received from the video call counterpart robot is input, emotion information of the video call counterpart It may include an emotional recognizer (74a) for recognizing.
- the emotion recognizer 74a is trained to recognize emotion information with a plurality of unimodal inputs and multimodal inputs based on the plurality of unimodal inputs, and the emotion recognition for each of the plurality of unimodal inputs
- a composite emotion recognition result including a result and an emotion recognition result for the multi-modal input may be output.
- the emotion recognition (S1720) of the video call counterpart may be performed by the emotion recognition server 70 including the emotion recognizer 74a.
- the emotion recognition server 70 may include a plurality of artificial neural networks 521, 522, and 523 trained through unimodal input.
- the emotion recognition server 70 may further include an artificial neural network 511 learned with multi-modal input based on the plurality of uni-modal inputs.
- the artificial neural networks 511, 521, 522, and 523 provided by the emotion recognition server 70 may be artificial neural networks suitable for each input data.
- the robot 100 may load emotion information on the voice output by the sound output unit 181 and map it. For example, by recognizing the emotion of the other person in real time, radical voices such as profanity are purified. It can be changed and transmitted, or the exclamation point in the voice can be emphasized to increase the volume and output.
- the present invention it is possible to express emotion in an interaction with a user or in a video call with the other party using a multimodal emotion value recognized on a user's voice, video, and text.
- the recognized emotion may be expressed as positive / negative / neutral, or may be based on information recognized as a probability value of seven emotion classes.
- Emotion recognition results of voice, video, and text and multi-modal emotion recognition results can be used complementarily, so that the accuracy of emotion recognition can be further improved.
- leveling may be performed to enhance or weaken emotion expression by exaggerating emotion expression or passive emotion expression.
- the robot 100 may understand the emotional feature points of the user and reproduce the emotional feature points recognized as avatars. For example, when a user laughs, the user's unique feature points (expression in a specific emotion of the speaker) such as always raising one side of the mouth can be recognized and mapped to an avatar character.
- the robot 100 may store a user's specific habit or emotion, and when a video call is replaced with an avatar reflecting the user's emotional feature points, the robot 100 may perform a call as if the avatar character acts as the user's agent.
- 18 to 21 are flowcharts illustrating a method of operating a robot system according to an embodiment of the present invention.
- a robot system may include a first robot 100a and a second robot 100b that perform a video call.
- the first robot 100a and the second robot 100b may transmit and receive data required for a video call while performing a video call (S1810).
- the second robot 100b may receive image data captured by a user of the first robot 100a from the first robot 100a, voice data spoken by a user of the first robot 100a, and the like. It can be (S1810). Thereafter, the first robot 100a and the second robot 100b may continuously transmit and receive data required for a video call while performing a video call.
- the second robot 100b receiving the video data and the audio data from the first robot 100a is based on the received video data and audio data, the user's sensitivity of the first robot 100a as a video call counterpart. It can be recognized (S1820).
- the second robot 100b may include the above-described emotional recognizer 74a.
- the controller 140 maps the result of the emotion recognition of the video call counterpart output by the emotion recognizer 74a to the face information of the video call counterpart obtained based on the image data captured by the user of the first robot 100a. By doing so, an avatar character of the video call counterpart can be generated (S1830).
- control unit 140 the user of the first robot (100a) can detect the movement of the video call counterpart from the captured video data (S1840), in response to the movement of the video call counterpart second robot (100b)
- the corresponding motion to be performed may be determined (S1850).
- the second robot 100b may display the generated avatar character and perform a corresponding motion to express the emotion of the video call counterpart (S1860).
- the user of the second robot 100b can intuitively know the emotion of the video call counterpart from the character displayed by the second robot 100b and the movement of the second robot 100b.
- the first robot 100a recognizes the user's emotion of the second robot 100b, displays the avatar character based on the recognized emotion recognition result, and performs a corresponding motion to perform the corresponding motion of the user of the second robot 100b. You can express your emotions.
- the robots 100a and 100b can recognize user's emotions as voice, image, and text, and store feature points of the user's emotions.
- the avatar can talk to the other party on the basis of the stored emotional feature point information of the user.
- the user's emotions can be mapped to the avatars and the emotions can be called.
- the perceived emotion of the sender or receiver is moved by mapping the avatar, but in the avatar character, the characteristic points of emotion can be further emphasized and expressed.
- the emotion of a speaker can be recognized in real time, and various characters mapped to a recognition result value are displayed overlaid on the speaker's face or the speaker is replaced and displayed to easily grasp the emotion of the other party.
- the gesture of the speaker is recognized and the gesture is mapped to the motion of the robot to operate.
- the user can intuitively recognize the opponent's emotion through the robot's motion, and can expect a fun factor.
- the present invention recognizes the multi-modal emotion of the user's face, voice, text, etc. in the emotion recognizer 74a, and the robot 100a, 100b can map specific emotions to the avatar character using the recognized emotion information. .
- a robot system may include a first robot 100a and a second robot 100b performing a video call, and one or more emotion recognition servers 70b.
- FIG. 19 differs from the embodiment of FIG. 18 in that the emotion recognition is performed by the emotion recognition server 70b connected to the second robot 100b.
- the emotion recognition server 70b may include the emotion recognizer 74a described above.
- the first robot 100a and the second robot 100b may transmit and receive data required for a video call while performing a video call (S1910).
- the second robot 100b receiving the image data and the audio data from the first robot 100a may transmit the received image data and the audio data to the emotion recognition server 70b (S1920).
- the emotion recognition server 70b may recognize the emotion of the user of the first robot 100a, which is a video call counterpart, based on the received data (S1925), and transmit the emotion recognition result to the second robot 100b. Yes (S1930).
- the second robot 100b may generate the avatar character of the video call counterpart by mapping the recognized emotion information to the video call counterpart's face information (S1940).
- the second robot 100b determines the corresponding motion to be performed in response to the motion of the video call counterpart. It can be (S1960).
- the second robot 100b may display the generated avatar character and perform a corresponding motion to express the emotion of the video call counterpart (S1970).
- the user of the second robot 100b can intuitively know the emotion of the video call counterpart from the character displayed by the second robot 100b and the movement of the second robot 100b.
- a robot system may include a first robot 100a and a second robot 100b performing a video call, and one or more emotion recognition servers 70b.
- FIG. 20 differs from the embodiment of FIG. 19 in that the motion detection of the video call counterpart (S2025) is performed before the reception of the emotion recognition result (S2035).
- the second robot 100b may receive data from the first robot 100a (S2010) and transmit the received data to the emotion recognition server 70b (S2020).
- the second robot 100b may detect the movement of the video call counterpart based on the received data (S2025).
- the emotion recognition server 70b may perform emotion recognition (S2030) and transmit the result to the second robot 100b (S2035).
- the second robot 100b maps the emotion recognition result to the user's face information to generate an avatar character (S2040), and can determine a corresponding motion corresponding to the movement of the video call counterpart. Yes (S2050).
- the second robot 100b may display the generated avatar character and perform a corresponding motion to express the emotion of the video call counterpart (S2060).
- a robot system may include a first robot 100a and a second robot 100b that perform a video call, and one or more emotion recognition servers 70a.
- the first robot 100a may acquire user-related data, such as data including a user's face and data including a user's spoken voice (S2110).
- user-related data such as data including a user's face and data including a user's spoken voice (S2110).
- the first robot 100a may transmit the acquired user-related data emotion recognition server 70a (S2115).
- the emotion recognition server 70a may perform emotion recognition based on the received data (S2120), and transmit the result to the first robot 100a (S2125).
- the first robot 100a may generate an avatar character by mapping the emotion recognition result to user face information (S2130).
- the first robot 100a may transmit the recognized emotion information or the generated avatar character to the second robot 100b, which is the robot of the video call counterpart (S2140).
- the generated avatar character may be displayed (S2150).
- the first robot 100a may transmit the recognized emotion information or the generated avatar character to the second robot 100b (S2140).
- the second robot 100b may display the received avatar character or express the emotion of the user of the first robot 100a based on the received emotion information according to the setting.
- the user's emotion can be more accurately recognized using artificial intelligence learned by deep learning.
- a character expressing a user's emotion can be automatically generated and used, thereby providing fun and ease of use to the user.
- the emotion of the video call counterpart can be transmitted through the robot, thereby increasing user satisfaction and convenience.
- the robot by recognizing the movement of the video call counterpart, the robot performs a corresponding action, thereby making it more fun and convenient for people to use the video call.
- the robot and the robot system according to the present invention are not limited to the configuration and method of the above-described embodiments, and the above embodiments may be selectively selected in whole or in part so that various modifications can be made. It may be configured in combination.
- the method of operating the robot and the robot system according to the exemplary embodiment of the present invention may be implemented as a code readable by the processor on a recording medium readable by the processor.
- the processor-readable recording medium includes all types of recording devices in which data that can be read by the processor are stored. Examples of the recording medium that can be read by the processor include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., and include those implemented in the form of carrier waves such as transmission through the Internet. .
- the processor-readable recording medium can be distributed over network coupled computer systems so that the processor-readable code is stored and executed in a distributed fashion.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Robotics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mechanical Engineering (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Manufacturing & Machinery (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 사용자와 관련된 데이터를 획득하고, 획득된 사용자와 관련된 데이터에 기초하여 감성 정보를 인식하여, 감성기반의 서비스를 제공할 수 있고, 사용자의 얼굴 정보에 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성함으로써, 사용자의 감성을 표현하는 캐릭터를 자동으로 생성할 수 있다.
Description
본 발명은 로봇 및 그 동작 방법에 관한 것으로서, 더욱 상세하게는 사용자 감성(emotion)을 인식하고 감성기반의 서비스를 제공할 수 있는 로봇 및 그 동작 방법에 관한 것이다.
로봇은 산업용으로 개발되어 공장 자동화의 일부분을 담당하여 왔다. 최근에는 로봇을 응용한 분야가 더욱 확대되어, 의료용 로봇, 우주 항공 로봇 등이 개발되고, 일반 가정에서 사용할 수 있는 가정용 로봇도 만들어지고 있다.
로봇 이용의 증가에 따라, 단순한 기능 수행을 넘어서 사용자를 이해하고 교감하면서, 다양한 정보, 재미, 서비스를 제공할 수 있는 로봇에 대한 요구가 많아지고 있다.
한편, 최근에는 재밌고 특이한 이모티콘(emoticon), 캐릭터를 소셜 네트워크 서비스, 문자 메시지, 화상 통화 등에서 이용하는 경우가 많아지고 있다. 또한, 기제작된 캐릭터의 단순 사용을 넘어서, 사람들은 자신을 나타내는 고유의 이모티콘, 아바타를 만들어 사용하기도 한다.
예를 들어, 사용자는 자신의 얼굴 등을 이용하여 고유의 캐릭터를 생성하고 이용하기도 한다. 선행 문헌 1(미국 특허공개공보 US 2018/089880A1)는 촬영되는 사용자의 얼굴 특성을 식별하고, 식별된 특성에 대응하는 아바타 데이터를 생성하여 전송하는 내용을 기술하고 있다.
또한, 선행 문헌 2(미국 특허공개공보 US 2015/381534A1)는 전자 메시지를 보낼 때 자화상 세트 중 사용자 감정을 나타낼 수 있는 자화상 하나를 선택하여 파일로 전송하는 내용을 기술하고 있다.
하지만, 이러한 선행 문헌들은 종래에 사용자가 전송하려는 이모티콘, 캐릭터를 고유한 캐릭터(아바타, 자화상)로 대체한 것으로, 사용 영역을 확대하는 데에는 한계가 있다.
또한, 이러한 선행 문헌들에서는 사용자의 의도에 따라 선택된 특정 파일을 전송하는 것으로 사용자의 진짜 감정을 인식하는 것과는 차이가 있고, 사용자의 감성을 기반으로 한 다른 서비스에 캐릭터를 활용하지 못했다.
본 발명의 목적은 사용자 감성(emotion)을 인식하고 감성기반의 서비스를 제공할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
본 발명의 목적은 사용자의 감성을 표현하는 캐릭터를 자동으로 생성하고 이용할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
본 발명의 목적은 딥러닝으로 학습된 인공지능을 이용하여 사용자의 감성을 더욱 정확하게 인식할 수 있는 감성 인식 방법을 제공함에 있다.
본 발명의 목적은 사용자의 얼굴에 감성 인식 결과를 반영하여 사용자 고유의 감성 캐릭터를 생성할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
본 발명의 목적은 생성된 감성 캐릭터들을 이용하여 감성을 표현할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
본 발명의 목적은 화상 통화 참가자 중 적어도 하나의 감성을 인식하고, 인식된 감성에 따라 캐릭터를 생성할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
본 발명의 목적은 화상 통화 상대방의 감성을 전달할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
본 발명의 목적은 화상 통화 시 다양한 재미 요소를 기대할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
본 발명의 목적은 화상 통화 참가자 중 적어도 하나의 움직임을 인식하고, 인식된 움직임에 따라 동작할 수 있는 로봇 및 그 동작 방법을 제공함에 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 본체 전면에 위치하는 사용자의 영상을 획득하는 카메라를 포함하는 영상 획득부, 사용자의 음성 입력을 수신하는 음성 입력부, 소정 영상을 표시하는 디스플레이, 및, 소정 음향을 출력하는 음향 출력부를 포함하고, 사용자의 얼굴을 포함하는 영상 데이터와 사용자가 발화한 음성 데이터를 포함하는 사용자와 관련된 데이터를 획득하고, 획득된 사용자와 관련된 데이터에 기초하여 감성 정보를 인식하여, 감성기반의 서비스를 제공할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 상기 사용자의 얼굴을 포함하는 영상 데이터 및 상기 사용자가 발화한 음성 데이터에 기초하여 감성 정보를 인식할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 사용자의 얼굴 정보에 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성함으로써, 사용자의 감성을 표현하는 캐릭터를 자동으로 생성할 수 있다.
한편, 사용자와 관련된 데이터는, 사용자가 촬영된 동영상 데이터 또는 사용자를 촬영하는 실시간 동영상 데이터일 수 있고, 저장되어 있는 데이터, 실시간으로 입력되는 데이터를 이용하여 캐릭터를 생성할 수 있다.
또한, 사용자와 관련된 데이터는, 사용자의 얼굴을 포함하는 영상 데이터와 사용자가 발화한 음성 데이터를 포함할 수 있어, 캐릭터의 생성에 사용자의 얼굴을 이용할 수 있고, 사용자의 감성 인식에 영상 데이터 및 음성 데이터에 포함되는 다양한 요소를 이용할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 사용자의 저장된 아바타 캐릭터 중 어느 하나를 표시할 수 있고, 생성된 아바타 캐릭터를 디폴트(default) 화면 또는 특정 상황에서 표시되는 화면으로 사용할 수 있어, 로봇의 얼굴 표정, 감정 표현에 캐릭터를 사용할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 생성된 아바타 캐릭터를 상기 사용자의 정보와 연계시켜 저장하고, 추후 사용자별로 대응하는 캐릭터들을 이용할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 다른 기기로 소정 데이터를 전송하는 경우에, 아바타 캐릭터 또는 인식된 감성 정보를 함께 전송하여 감정도 전달할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 캐릭터를 사용자의 영상 데이터에 사용자의 감성 정보들을 매핑(mapping)하고, 사용자의 음성 데이터를 동기화하여, 아바타 캐릭터의 동영상을 생성할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 기설정된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 인식된 감성 정보에 대응하도록 변경하여 아바타 캐릭터를 생성할 수 있다.
또한, 상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 인식된 사용자의 감성 정보에 대응하여, 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를 조절할 수 있다. 설정에 따라, 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를, 더 크게 조절함으로써 감정 표현을 강화하거나, 더 작게 조절함으로써 감정 표현을 완화시킬 수도 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 사용자의 저장된 아바타 캐릭터 중 어느 하나를 표시할 수 있고, 화상 통화에 이용할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 사용자의 얼굴 정보에 기초하여 생성된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 인식된 감성 정보에 대응하도록 변경하여 아바타 캐릭터를 생성할 수 있다.
또는, 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 사용자의 얼굴 이미지 위에 상기 인식된 감성 정보에 대응하여 생성된 표정 랜드마크 포인트 이미지를 증강 현실(augmented reality)로 합성하여 아바타 캐릭터를 생성할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은, 사용자의 움직임을 감지하고, 감지된 움직임에 사용자의 감성 정보를 매핑(mapping)된 대응 모션을 수행할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법에 따라 인식되는 감성 정보는, 복수의 감정 클래스 중 어느 하나이거나 복수의 감정 클래스 각각에 대한 확률값일 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇 및 그 동작 방법은 감성 인식을 로봇에서 자체 수행하거나 감성 인식 서버를 통하여 수행할 수 있다.
여기서, 로봇 또는 서버에 구비되는 감성 인식기는, 복수의 유니모달 입력 및, 복수의 유니모달 입력에 기초한 멀티모달 입력으로 감성 정보를 인식하도록 학습되어, 복수의 유니모달 입력 각각에 대한 감성 인식 결과와 멀티모달 입력에 대한 감성 인식 결과를 포함하는 복합 감성 인식 결과를 출력함으로써, 더욱 정확하게 사용자의 감성을 인식할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇은, 사용자의 얼굴을 포함하는 영상 데이터를 획득하는 카메라를 포함하는 영상 획득부, 상기 사용자가 발화한 음성 데이터를 획득하는 음성 입력부, 소정 영상을 표시하는 디스플레이, 소정 음향을 출력하는 음향 출력부, 상기 사용자의 얼굴을 포함하는 영상 데이터 및 상기 사용자가 발화한 음성 데이터에 기초하여 상기 사용자의 감성 정보를 인식하는 감성 인식기, 및, 상기 사용자의 얼굴 정보에 상기 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성하는 제어부를 포함할 수 있다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따른 로봇은, 사용자의 얼굴을 포함하는 영상 데이터를 획득하는 카메라를 포함하는 영상 획득부, 상기 사용자가 발화한 음성 데이터를 획득하는 음성 입력부, 소정 영상을 표시하는 디스플레이, 소정 음향을 출력하는 음향 출력부, 상기 사용자의 얼굴을 포함하는 영상 데이터 및 상기 사용자가 발화한 음성 데이터를 서버로 송신하고, 상기 서버로부터 감성 인식 결과를 수신하는 통신부, 및, 상기 사용자의 얼굴 정보에 상기 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성하는 제어부를 포함할 수 있다.
본 발명의 실시예들 중 적어도 하나에 의하면, 사용자 감성(emotion)을 인식하고 감성기반의 서비스를 제공할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 딥러닝으로 학습된 인공지능을 이용하여 사용자의 감성을 더욱 정확하게 인식할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 사용자의 감성을 표현하는 캐릭터를 자동으로 생성하고 이용할 수 있어 사용자에게 재미와 사용 편의성을 제공할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 사용자의 감성을 표현하는 캐릭터를 이용하여, 사용자와 로봇 사이의 커뮤니케이션, 사용자들 사이의 커뮤니케이션에 감성적 요소를 더 하는 효과가 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 화상 통화 참가자 중 적어도 하나의 감성을 인식하고, 인식된 감성에 따라 캐릭터를 생성할 수 있어, 화상 통화 참가자의 감성을 직관적으로 확인할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 화상 통화 상대방의 감성을 로봇을 통하여 전달할 수 있어, 사용자의 만족도와 편의성을 높일 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 화상 통화 상대방의 움직임을 인식하여 로봇이 대응되는 동작을 수행함으로써, 사람들이 화상 통화를 더욱 재밌고 편리하게 이용할 수 있는 효과가 있다.
한편, 그 외의 다양한 효과는 후술될 본 발명의 실시예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 것이다.
도 1은 본 발명의 일 실시예에 따른 로봇을 포함하는 로봇 시스템 구성도이다.
도 2는 본 발명의 일 실시예에 따른 로봇의 외관을 도시하는 정면도이다.
도 3은 본 발명의 일 실시예에 따른 로봇의 간략한 내부 블록도의 일예이다.
도 4는 본 발명의 일 실시예에 따른 서버의 간략한 내부 블록도의 일예이다.
도 5는 본 발명의 일 실시예에 따른 감성 인식기의 간략한 내부 블록도의 일예이다.
도 6은 본 발명의 실시예에 따른 감성 인식에 관한 설명에 참조되는 도면이다.
도 7 내지 도 10은 본 발명의 실시예에 따른 캐릭터의 표현에 관한 설명에 참조되는 도면이다.
도 11은 본 발명의 일 실시예에 따른 로봇의 동작 방법을 도시한 순서도이다.
도 12는 본 발명의 일 실시예에 따른 로봇의 동작 방법을 도시한 순서도이다.
도 13은 본 발명의 일 실시예에 따른 로봇의 감성 표현에 관한 설명에 참조되는 도면이다.
도 14 내지 도 16은 본 발명의 일 실시예에 따른 로봇을 이용한 화상 통화에 관한 설명에 참조되는 도면이다.
도 17은 본 발명의 일 실시예에 따른 로봇의 동작 방법을 도시한 순서도이다.
도 18 내지 도 21은 본 발명의 실시예에 따른 로봇 시스템의 동작 방법을 도시한 순서도이다.
이하에서는 첨부한 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나 본 발명이 이러한 실시예에 한정되는 것은 아니며 다양한 형태로 변형될 수 있음은 물론이다.
도면에서는 본 발명을 명확하고 간략하게 설명하기 위하여 설명과 관계없는 부분의 도시를 생략하였으며, 명세서 전체를 통하여 동일 또는 극히 유사한 부분에 대해서는 동일한 도면 참조부호를 사용한다.
한편, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함만이 고려되어 부여되는 것으로서, 그 자체로 특별히 중요한 의미 또는 역할을 부여하는 것은 아니다. 따라서, 상기 "모듈" 및 "부"는 서로 혼용되어 사용될 수도 있다.
또한, 본 명세서에서, 다양한 요소들을 설명하기 위해 제1, 제2 등의 용어가 이용될 수 있으나, 이러한 요소들은 이러한 용어들에 의해 제한되지 아니한다. 이러한 용어들은 한 요소를 다른 요소로부터 구별하기 위해서만 이용된다.
도 1은 본 발명의 일 실시예에 따른 로봇을 포함하는 로봇 시스템 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 로봇 시스템은, 하나 이상의 로봇(100), 및, 통신 모듈을 구비하여 다른 기기, 로봇(100), 서버(70) 등과 통신하거나 네트워크에 접속할 수 있는 홈 어플라이언스(home appliance, 10)들을 포함하여 구성될 수 있다.
예를 들어, 홈 어플라이언스(10)에는 통신 모듈을 구비한 공기조화기(11), 로봇 청소기(12), 냉장고(13), 세탁기(14), 조리기기(15) 등이 해당될 수 있다.
한편, 홈 어플라이언스(10)가 구비하는 통신 모듈은 와이파이(wi-fi) 통신 모듈일 수 있으며, 본 발명은 통신 방식에 한정되지 않는다.
또는, 홈 어플라이언스(10)는 다른 종류의 통신 모듈을 구비하거나 복수의 통신 모듈을 구비할 수 있다. 예를 들어, 홈 어플라이언스(10)는 NFC 모듈, 지그비(zigbee) 통신 모듈, 블루투스(Bluetooth™) 통신 모듈 등을 포함할 수 있다.
홈 어플라이언스(10)는 와이파이(wi-fi) 통신 모듈 등을 통해 소정 서버(70)와 연결 가능하고, 원격 모니터링, 원격 제어 등 스마트 기능을 지원할 수 있다.
본 발명의 일 실시예에 따른 로봇 시스템은, 스마트 폰(smart phone), 태블릿(Tablet) PC 등 휴대 단말기(미도시)를 포함할 수 있다.
사용자는 휴대 단말기를 통하여 로봇 시스템 내의 홈 어플라이언스(10, 20)에 관한 정보를 확인하거나 홈 어플라이언스(10)를 제어할 수 있다.
한편, 사용자가 가정 내에서 홈 어플라이언스(10)를 제어하거나 소정 정보를 확인하고자 하는 경우에도 휴대 단말기를 반드시 이용해야 하는 것은 불편할 수 있다.
예를 들어, 사용자가 휴대 단말기의 현재 위치를 모르거나 다른 장소에 있는 경우에 다른 방식으로 홈 어플라이언스(10)를 제어할 수 있는 수단이 있는 것이 더 효율적이다.
본 발명의 일 실시예에 따른 로봇(100)은 사용자의 음성 입력을 수신할 수 있고, 그에 따라 직접 홈 어플라이언스(10)를 제어하거나, 서버(70)를 경유하여 홈 어플라이언스(10)를 제어할 수 있다.
이에 따라, 사용자는 방, 거실 등에 배치된 로봇(100) 외에 다른 기기를 조작하지 않고서도 홈 어플라이언스(10)를 제어할 수 있다.
한편, 본 발명의 일 실시예에 따른 로봇 시스템은, 복수의 사물인터넷(IoT) 기기(미도시)를 포함하여 구성될 수 있다. 따라서, 로봇 시스템은, 홈 어플라이언스(10), 로봇(100), 사물인터넷(IoT) 기기들을 포함할 수 있다.
본 발명의 일 실시예에 따른 로봇 시스템은, 네트워크를 구성하는 통신 방식에 한정되지 않는다.
예를 들어, 홈 어플라이언스(10), 로봇(100), 사물인터넷(IoT) 기기들은, 유/무선 공유기(미도시)를 통하여, 통신 연결될 수 있다.
또한, 로봇 시스템 내의 기기들은 각각 개별적으로 통신 연결되는 메쉬 토폴로지(mesh topology)를 구성할 수 있다.
로봇 시스템 내의 홈 어플라이언스(10)는 유/무선 공유기(미도시)를 경유하여 서버(70)나 로봇(100)과 통신할 수 있다.
또한, 로봇 시스템 내의 홈 어플라이언스(10)는 이더넷(Ethernet)에 의해서 서버(70)나 로봇(100)과 통신할 수 있다.
본 발명의 일 실시예에 따른 로봇 시스템은, 게이트웨이(Gateway) 등 네크워크 장치를 더 포함할 수 있다. 또는, 가정(home) 내에 구비되는 로봇(100) 중 적어도 하나가 상술하는 게이트웨이(Gateway) 기능을 포함하도록 구성될 수 있다.
로봇 시스템에 포함되는 홈 어플라이언스(10)는, 기기들 간에 직접 또는 게이트웨이를 경유하여 네트워크 연결될 수 있다.
또한, 홈 어플라이언스(10)는, 직접 또는 게이트웨이를 경유하여 서버(70)와 통신 가능하도록 네트워크 연결될 수 있다.
한편, 상기 게이트웨이는 이더넷(Ethernet)에 의해서 서버(70)나 휴대 단말기(50)와 통신할 수 있다.
또한, 상기 게이트웨이는 유/무선 공유기를 경유하여 서버(70)나 로봇(100)과 통신할 수 있다.
홈 어플라이언스(10)는 서버(70) 및/또는 게이트웨이에 기기 작동 상태 정보, 설정값 정보 등을 전송할 수 있다.
사용자는 휴대 단말기, 또는 로봇(100)을 통하여 로봇 시스템 내의 홈 어플라이언스(10)에 관한 정보를 확인하거나 홈 어플라이언스(10)를 제어할 수 있다.
한편, 상기 서버(70) 및/또는 게이트웨이는 로봇(100) 등을 통한 사용자 명령 입력이 있거나, 로봇 시스템 내의 홈 어플라이언스(10)에서 발생하는 특정 이벤트(event)에 대응하여, 홈 어플라이언스(10)들을 제어하는 신호를 각 기기로 전송할 수 있다.
한편, 실시예에 따라서는 상기 게이트웨이는 디스플레이, 오디오 출력부 등 출력 수단을 구비할 수 있다.
이 경우에, 상기 디스플레이와 오디오 출력부는 상기 게이트웨이에 저장되어 있거나, 수신되는 신호에 기초한 영상과 오디오를 출력할 수 있다. 예를 들어, 상기 게이트웨이에 저장된 음악 파일을 재생하여 상기 오디오 출력부를 통하여 출력할 수 있다.
또한, 상기 디스플레이와 오디오 출력부는 상기 게이트웨이의 동작과 관련된 영상, 오디오 정보를 출력할 수 있다.
상기 서버(70)는 홈 어플라이언스(10), 로봇(100), 기타 기기로부터 전달되는 정보를 저장 및 관리할 수 있다.
상기 서버(70)는 홈 어플라이언스의 제조사 또는 제조사가 서비스를 위탁한 회사가 운영하는 서버일 수 있다.
홈 어플라이언스(10)와 관련된 정보는 상기 로봇(100)으로 전송될 수 있고, 상기 로봇(100)은 상기 홈 어플라이언스(10) 관련 정보를 표시할 수 있다.
상기 홈 어플라이언스(10)는 상기 로봇(100)으로부터 정보를 전달받거나 명령을 수신할 수 있다. 이때, 상기 홈 어플라이언스(10)는 상기 서버(70)로 각종 정보를 전송할 수 있고, 상기 서버(70)가 상기 홈 어플라이언스(10)로부터 수신한 정보의 일부 또는 전부를 상기 로봇(100)으로 전송할 수 있다.
그리고, 상기 서버(70)는 상기 홈 어플라이언스(10)로부터 수신한 정보 그 자체 또는 수신한 정보를 가공하여 상기 로봇(100)으로 전송할 수 있다.
한편, 도 1에서는 상기 서버(70)가 하나인 경우를 예시하였지만, 본 발명은 이에 한정되지 않고, 본 발명에 따른 시스템은 2개 이상의 서버와 연동하여 동작할 수 있다.
예를 들어, 상기 서버(70)는 음성 인식 및 처리를 위한 제1 서버와 홈 어플라이언스 제어 등 홈 어플라이언스 관련 서비스 제공을 위한 제2 서버를 포함할 수 있다.
실시예에 따라서는, 상기 제1 서버와 상기 제2 서버는, 복수의 서버로 정보, 기능이 분산되어 구성될 수도 있고, 하나의 통합 서버로 구성될 수도 있을 것이다.
예를 들어, 상기 음성 인식 및 처리를 위한 제1 서버는 음성 신호에 포함되는 단어들을 인식하는 음성 인식 서버와 음성 신호에 포함되는 단어들을 포함하는 문장의 의미를 인식하는 자연어 처리 서버로 구성될 수 있다.
또는, 상기 서버(70)는 감성 인식 및 처리를 위한 서버와 홈 어플라이언스 제어 등 홈 어플라이언스 관련 서비스 제공을 위한 서버를 포함할 수 있다. 이 경우에도, 감성 인식 및 처리를 위한 서버가 복수의 서버로 정보, 기능이 분산되어 구성될 수도 있고, 하나의 통합 서버로 구성될 수도 있다.
도 2는 본 발명의 일 실시예에 따른 로봇의 외관을 도시하는 정면도이고, 도 3은 본 발명의 일 실시예에 따른 로봇의 간략한 내부 블록도의 일예이다.
도 2와 도 3을 참조하면, 로봇(100)은, 외관을 형성하고 그 내부에 각종 부품을 수납하는 본체(101, 102)를 포함한다.
본체(101, 102)는 로봇(100)을 구성하는 각종 부품들이 수용되는 공간을 형성하는 바디(body, 101)와 상기 바디(101)의 하측에 배치되어 상기 바디(101)를 지지하는 지지부(102)를 포함할 수 있다.
또한, 로봇(100)은 본체(101, 102)의 상측에 배치되는 헤드(head, 110)를 포함할 수 있다. 헤드(110)의 전면에는 영상을 표시할 수 있는 디스플레이(182)가 배치될 수 있다.
본 명세서에서 전면 방향은 +y 축 방향을 의미하고, 상하 방향은 z축 방향, 좌우 방향은 x축 방향을 의미할 수 있다.
상기 헤드(110)는 x축을 중심으로 소정 각도 범위 내에서 회전할 수 있다.
이에 따라, 전면에서 봤을 때, 상기 헤드(110)는 사람이 고개를 상하 방향으로 끄덕거리는 것처럼 상하 방향으로 움직이는 노딩(Nodding) 동작이 가능하다. 예를 들어, 상기 헤드(110)는 사람이 머리를 상하 방향으로 끄덕거리는 것처럼 소정 범위 내에서 회전 후 원위치 복귀 동작을 1회 이상 수행할 수 있다.
한편, 실시예에 따라서는, 헤드(100) 중 사람의 안면에 대응할 수 있는 디스플레이(182)가 배치되는 전면 중 적어도 일부가 노딩되도록 구현될 수 있다.
따라서, 본 명세서에서는, 상기 헤드(110) 전체가 상하 방향으로 움직이는 실시예를 중심으로 기술하지만, 특별히 설명하지 않는 한, 헤드(110)가 상하 방향으로 노딩(Nodding)하는 동작은, 디스플레이(182)가 배치되는 전면 중 적어도 일부가 상하 방향으로 노딩하는 동작으로 대체 가능할 것이다.
상기 바디(101)는 좌우 방향으로 회전 가능하도록 구성될 수 있다. 즉, 상기 바디(101)는 z축을 중심으로 360도 회전 가능하도록 구성될 수 있다.
또한, 실시예에 따라서는, 상기 바디(101)도 x축을 중심으로 소정 각도 범위 내에서 회전가능하게 구성됨으로써, 상하 방향으로도 끄덕거리는 것처럼 움직일 수 있다. 이 경우에, 상기 바디(101)가 상하 방향으로 회전함에 따라, 상기 바디(101)가 회전하는 축을 중심으로 상기 헤드(110)도 함께 회전할 수 있다.
따라서, 본 명세서에서 헤드(110)가 상하 방향으로 노딩(Nodding)하는 동작은, 헤드(110) 자체가 소정 축을 중심으로 전면에서 봤을 때 상하 방향으로 회전하는 경우와 상기 바디(101)가 상하 방향으로 노딩함에 따라, 상기 바디(101)에 연결된 상기 헤드(110)가 함께 회전함으로써 노딩되는 경우를 모두 포함할 수 있다.
한편, 로봇(100)은 가정 내 콘센트에 연결되어 로봇(100) 내로 전원을 공급하는 전원 공급부(미도시)를 포함할 수 있다.
또는, 로봇(100)은 충전 가능한 배터리(미도시)를 구비하여 로봇(100) 내로 전원을 공급하는 전원 공급부(미도시)를 포함할 수 있다. 실시예에 따라서는 전원 공급부(미도시)는 상기 배터리를 무선 충전하기 위한 무선전력 수신부를 구비할 수 있다.
한편, 로봇(100)은 본체(101, 102) 주변, 적어도 본체(101, 102) 전면을 중심으로 소정 범위를 촬영할 수 있는 영상 획득부(120)를 포함할 수 있다.
영상 획득부(120)는 본체(101, 102) 주변, 외부 환경 등을 촬영하는 것으로, 카메라 모듈을 포함할 수 있다. 상기 카메라 모듈은 디지털 카메라를 포함할 수 있다. 디지털 카메라는 적어도 하나의 광학렌즈와, 광학렌즈를 통과한 광에 의해 상이 맺히는 다수개의 광다이오드(photodiode, 예를 들어, pixel)를 포함하여 구성된 이미지센서(예를 들어, CMOS image sensor)와, 광다이오드들로부터 출력된 신호를 바탕으로 영상을 구성하는 디지털 신호 처리기(DSP: Digital Signal Processor)를 포함할 수 있다. 디지털 신호 처리기는 정지영상은 물론이고, 정지영상으로 구성된 프레임들로 이루어진 동영상을 생성하는 것도 가능하다.
이러한 카메라는 촬영 효율을 위해 각 부위별로 여러 개가 설치될 수도 있다. 바람직하게, 영상 획득부(120)는, 본체(101, 102) 전면의 영상을 획득하도록 헤드(110)의 전면에 구비되는 전면 카메라를 포함할 수 있다. 하지만, 영상 획득부(120)가 구비하는 카메라의 개수, 배치, 종류, 촬영범위가 반드시 이에 한정되어야 하는 것은 아니다.
영상 획득부(120)는, 로봇(100)의 전면 방향을 촬영할 수 있고, 사용자 인식용 영상을 촬영할 수 있다.
또한, 상기 영상 획득부(120)가 촬영하여 획득된 영상은 저장부(130)에 저장될 수 있다.
또한, 로봇(100)은 사용자의 음성 입력을 수신하는 음성 입력부(125)를 포함할 수 있다.
음성 입력부(125)는 아날로그 소리를 디지털 데이터로 변환하는 처리부를 포함하거나 처리부에 연결되어 사용자 입력 음성 신호를 서버(70) 또는 제어부(140)에서 인식할 수 있도록 데이터화할 수 있다.
음성 입력부(125)는 사용자 음성 입력 수신의 정확도를 높이고, 사용자의 위치를 판별하기 위해, 복수의 마이크를 포함할 수 있다.
예를 들어, 음성 입력부(125)는 적어도 2이상의 마이크를 포함할 수 있다.
복수의 마이크(MIC)는, 서로 다른 위치에 이격되어 배치될 수 있고, 음성 신호를 포함한 외부의 오디오 신호를 획득하여 전기적인 신호로 처리할 수 있다.
한편, 입력 장치인 마이크는 음향을 발생시킨 음원, 사용자의 방향 추정을 위하여 최소 2개가 필요하며, 마이크 사이의 간격은 물리적으로 멀리 떨어져 있을수록 방향 검출의 해상도(각도)가 높다.
실시예에 따라서는 2개의 마이크가 상기 헤드(110)에 배치될 수 있다.
또한, 상기 헤드(110)의 후면에 2개의 마이크를 더 포함함으로써, 사용자의 3차원 공간상의 위치를 판별할 수 있다.
도 2를 참조하면, 로봇(100)은 전반적인 동작을 제어하는 제어부(140), 각종 데이터를 저장하는 저장부(130), 서버(70) 등 다른 기기와 데이터를 송수신하는 통신부(190)를 포함할 수 있다.
또한, 로봇(100)은 상기 헤드(110), 상기 바디(101)를 회전하는 구동부(160)를 더 포함할 수 있다. 구동부(160)는 바디(101) 및 헤드(110)를 회전 및/또는 이동시키는 복수의 구동 모터(미도시)를 포함할 수 있다.
제어부(140)는 로봇(100)을 구성하는 영상 획득부(120), 구동부(160), 디스플레이(182) 등을 제어하여, 로봇(100)의 동작 전반을 제어한다.
저장부(130)는 로봇(100)의 제어에 필요한 각종 정보들을 기록하는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다. 기록 매체는 마이크로 프로세서(micro processor)에 의해 읽힐 수 있는 데이터를 저장한 것으로, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등을 포함할 수 있다.
또한, 제어부(140)는 통신부(190)를 통해 로봇(100)의 동작상태 또는 사용자 입력 등을 서버(70) 등으로 전송할 수 있다.
통신부(190)는 적어도 하나의 통신모듈을 포함하여 로봇(100)이 인터넷, 또는 소정의 네트워크에 연결되도록 한다.
또한, 통신부(190)는 홈 어플라이언스(10)에 구비되는 통신 모듈과 연결하여 로봇(100)과 홈 어플라이언스(10) 간의 데이터 송수신을 처리한다.
한편, 저장부(130)에는 음성 인식을 위한 데이터가 저장될 수 있고, 제어부(140)는 음성 입력부(125)를 통하여 수신되는 사용자의 음성 입력 신호를 처리하고 음성 인식 과정을 수행할 수 있다.
음성 인식 과정은 공지된 다양한 음성 인식 알고리즘을 사용할 수 있으므로, 본 명세서에서 음성 인식 과정에 대한 상세한 설명은 생략하기로 한다.
한편, 제어부(140)는 음성 인식 결과에 기초하여 로봇(100)이 소정 동작을 수행하도록 제어할 수 있다.
예를 들어, 제어부(140)는 음성 신호에 포함되는 명령이 소정 홈 어플라이언스의 동작을 제어하는 명령인 경우, 상기 음성 신호에 포함되는 명령에 기초한 제어 신호를 제어 대상 홈 어플라이언스로 전송하도록 제어할 수 있다.
또한, 제어부(140)는 음성 신호에 포함되는 명령이 소정 홈 어플라이언스의 동작을 제어하는 명령인 경우, 상기 로봇의 바디(101)를 제어 대상 홈 어플라이언스를 향하는 방향으로 회전하도록 제어할 수 있다.
한편, 음성 인식 과정은 로봇(100) 자체에서 실시되지 않고 서버(70)에서 수행될 수 있다.
이 경우에, 제어부(140)는 사용자 입력 음성 신호가 상기 서버(70)로 송신되도록 통신부(190)를 제어할 수 있다.
또는, 간단한 음성 인식은 로봇(100)이 수행하고, 자연어 처리 등 고차원의 음성 인식은 서버(70)에서 수행될 수 있다.
예를 들어, 기설정된 키워드를 포함하는 키워드 음성 입력이 수신되는 경우에, 로봇은 스탠바이(standby) 상태에서 동작 상태로 전환될 수 있다. 이 경우에, 로봇(100)은 키워드 음성 입력 여부까지의 음성 인식 과정만 수행하고, 이후의 사용자 음성 입력에 대한 음성 인식은 서버(70)를 통하여 수행할 수 있다.
한편, 실시예에 따라서는, 제어부(140)는 영상 획득부(120)를 통하여 획득되는 사용자 영상을 저장부(130)에 기저장된 정보와 비교하여 등록된 사용자인지 여부를 판별할 수 있다.
또한, 제어부(140)는 등록된 사용자의 음성 입력에 대해서만 특정 동작을 수행하도록 제어할 수 있다.
한편, 상기 제어부(140)는, 상기 영상 획득부(120)를 통하여 획득된 사용자 영상 정보에 기초하여, 상기 바디(101) 및/또는 상기 헤드(111)를 회전하도록 제어할 수 있다.
이에 따라, 사용자와 로봇(100) 상호 간의 인터랙션(interaction)과 커뮤니케이션(communication)이 용이하게 할 수 있다.
한편, 로봇(100)은 출력부(180)를 포함하여, 소정 정보를 영상으로 표시하거나 음향으로 출력할 수 있다.
출력부(180)는 사용자의 명령 입력에 대응하는 정보, 사용자의 명령 입력에 대응하는 처리 결과, 동작모드, 동작상태, 에러상태 등을 영상으로 표시하는 디스플레이(182)를 포함할 수 있다.
상기 디스플레이(182)는 상술한 것과 같이 헤드(110)의 전면에 배치될 수 있다.
실시예에 따라서는, 상기 디스플레이(182)는 터치패드와 상호 레이어 구조를 이루어 터치스크린으로 구성될 수 있다. 이 경우에, 상기 디스플레이(182)는 출력 장치 이외에 사용자의 터치에 의한 정보의 입력이 가능한 입력 장치로도 사용될 수 있다.
또한, 출력부(180)는 오디오 신호를 출력하는 음향 출력부(181)를 더 포함할 수 있다. 음향 출력부(181)는 제어부(140)의 제어에 따라 경고음, 동작모드, 동작상태, 에러상태 등의 알림 메시지, 사용자의 명령 입력에 대응하는 정보, 사용자의 명령 입력에 대응하는 처리 결과 등을 음향으로 출력할 수 있다. 음향 출력부(181)는, 제어부(140)로부터의 전기 신호를 오디오 신호로 변환하여 출력할 수 있다. 이를 위해, 스피커 등을 구비할 수 있다.
도 2를 참조하면, 음향 출력부(181)는 헤드(110)의 좌우측면에 배치되어, 소정 정보를 음향으로 출력할 수 있다.
한편, 도 2에 예시된 로봇의 외관 및 구조는 예시적인 것으로 본 발명은 이에 한정되지 않는다. 예를 들어, 음성 입력부(125), 영상 획득부(120), 음향 출력부(181)의 위치, 개수 등은 설계 사양에 따라 달라질 수 있다. 또한, 각 구성 부품의 회전 방향과 각도도 달라질 수 있다. 예를 들어, 도 2에서 예시된 로봇(100)의 회전 방향과 달리 로봇(100) 전체가 특정 방향으로 기울어지거나 흔들리는 동작도 가능하다.
한편, 본 발명의 일 실시예에 따른 로봇(100)은, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속될 수 있다.
또한, 본 발명의 일 실시예에 따른 로봇(100)은 음성 및 화상 통화 기능도 수행 가능하며, 이러한 통화 기능은 VoIP(Voice over Internet Protocol)에 따른 인터넷망, 이동통신망 등을 이용하여 수행될 수 있다.
한편, 제어부(140)는, 화상 통화 시 화상 통화 상대방의 영상, 사용자의 영상을 사용자의 설정에 따라 표시하도록 디스플레이(182)를 제어할 수 있으며, 수신되는 화상 통화 상대방의 음성 신호에 기초한 음성을 음향 출력부(181)가 출력하도록 제어할 수 있다.
본 발명의 일 실시예에 따른 로봇 시스템은 화상 통화를 수행하는 2이상의 로봇을 포함할 수 있다.
도 4는 본 발명의 일 실시예에 따른 서버의 간략한 내부 블록도의 일예이다.
도 4를 참조하면, 서버(70)는, 통신부(72), 저장부(73), 인식기(74), 및 프로세서(71)를 구비할 수 있다.
프로세서(71)는, 서버(70)의 전반적인 동작을 제어할 수 있다.
한편, 서버(70)는, 로봇(100) 등 홈 어플라이언스 제조사가 운영하는 서버 또는 서비스 제공자가 운영하는 서버일 수 있고, 일종의 클라우드(Cloud) 서버일 수 있다.
통신부(72)는, 휴대 단말기, 로봇(100) 등 홈 어플라이언스, 게이트웨이 등으로부터 상태 정보, 동작 정보, 조작 정보 등 각종 데이터를 수신할 수 있다.
그리고 통신부(72)는 수신되는 각종 정보에 대응하는 데이터를 휴대 단말기, 로봇(100) 등 홈 어플라이언스, 게이트웨이 등으로 송신할 수 있다.
이를 위해, 통신부(72)는 인터넷 모듈, 이동 통신 모듈 등 하나 이상의 통신 모듈을 구비할 수 있다.
저장부(73)는, 수신되는 정보를 저장하고, 이에 대응하는 결과 정보 생성을 위한 데이터를 구비할 수 있다.
또한, 저장부(73)는, 머신 러닝에 사용되는 데이터, 결과 데이터 등을 저장할 수 있다.
인식기(74)는 상기 로봇(100) 등 홈 어플라이언스의 학습기 역할을 수행할 수 있다.
상기 인식기(74)는 인공신경망, 예를 들어, CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), DBN(Deep Belief Network) 등 심층신경망(Deep Neural Network: DNN)을 포함할 수 있고, 심층신경망을 학습할 수 있다.
한편, 상기 프로세서(71)는 설정에 따라 학습 후 상기 로봇(100) 등 홈 어플라이언스의 인공신경망 구조를 학습된 인공신경망 구조로 업데이트시키도록 제어할 수 있다.
또한, 상기 인식기(74)는, 인식용 입력 데이터를 입력받고, 입력 데이터에 포함된 사물, 공간, 감성의 속성을 인식하여, 그 결과를 출력할 수 있다. 이 경우에, 통신부(72)는 로봇(100)으로 인식 결과를 송신할 수 있다.
또한, 상기 인식기(74)는, 로봇(100)의 사용(Usage) 관련 데이터(Data)를 분석하고 학습하여 사용 패턴, 사용 환경 등을 인식하여, 그 결과를 출력할 수 있다. 이 경우에, 통신부(72)는 로봇(100)으로 인식 결과를 송신할 수 있다.
이에 따라, 로봇(100) 등 홈 어플라이언스 제품들은 서버(70)로부터 인식 결과를 수신하고, 수신된 인식 결과를 활용하여 동작할 수 있다.
상기 서버(70)는 사용자가 발화한 음성 입력 신호를 수신하여 음성 인식을 수행할 수 있다. 이를 위해, 상기 서버(70)는 음성 인식기를 포함할 수 있고, 음성 인식기 입력 데이터에 대하여 음성 인식을 수행하여 음성 인식 결과를 출력하도록 학습된 인공신경망을 포함할 수 있다.
한편, 상기 서버(70)는 음성 인식을 위한 음성 인식 서버를 포함할 수 있다. 또한, 음성 인식 서버도 음성 인식 과정 중 소정 과정을 분담하여 수행하는 복수의 서버를 포함할 수 있다. 예를 들어, 음성 인식 서버는, 음성 데이터를 수신하고, 수신한 음성 데이터를 텍스트(text) 데이터로 변환하는 자동 음성 인식(Automatic Speech Recognition: ASR) 서버, 및, 상기 자동 음성 인식 서버로부터 상기 텍스트 데이터를 수신하고, 수신한 텍스트 데이터를 분석하여 음성 명령을 판별하는 자연어 처리(Natural Language Processing: NLP) 서버를 포함할 수 있다. 경우에 따라서, 음성 인식 서버는, 자연어 처리 서버가 출력한 텍스트 음성 인식 결과를 음성 데이터로 변환하여 다른 서버 또는 홈 어플라이언스로 송신하는 텍스트 음성 변환(Text to Speech: TTS) 서버를 더 포함할 수 있다.
상기 서버(70)는 입력 데이터에 대하여 감성 인식을 수행할 수 있다. 이를 위해, 상기 서버(70)는 감성 인식기를 포함할 수 있고, 감성 인식기는 입력 데이터에 대하여 감성 인식을 수행하여 감성 인식 결과를 출력하도록 학습된 인공신경망을 포함할 수 있다.
한편, 상기 서버(70)는 감성 인식을 위한 감성 인식 서버를 포함할 수 있다. 즉, 상기 서버(70) 중 적어도 하나는 감성 인식을 수행하는 감성 인식기를 구비하는 감성 인식 서버일 수 있다.
도 5는 본 발명의 일 실시예에 따른 감성 인식기의 간략한 내부 블록도의 일예이다.
도 5를 참조하면, 로봇(100) 또는 서버(70)가 구비하는 감성 인식기(74a)는, 감성 데이터를 입력 데이터(590)로 사용하여 딥러닝(Deep Learning)을 수행할 수 있다.
본 발명의 일 실시예에 따른 감성 인식기(74a)는 유니모달 입력 데이터에 포함된 사용자의 감성 정보를 인식하도록 학습된 복수의 모달별 인식기(521, 522, 523)를 포함하는 유니모달 전처리기(520), 및, 상기 복수의 모달별 인식기(521, 522, 523)의 출력 데이터들을 병합하고, 병합된 데이터에 포함된 사용자의 감성 정보를 인식하도록 학습된 멀티모달 인식기(510)를 포함할 수 있다.
감성 데이터는 사용자의 감성에 대한 정보를 가지고 있는 감성 정보 데이터로, 감성 인식에 사용될 수 있는 감성 정보인 영상, 음성, 생체 신호 데이터를 포함할 수 있다. 바람직하게는, 상기 입력 데이터(590)는 사용자의 얼굴을 포함하는 비디오 데이터(Video)일 수 있고, 더욱 바람직하게는 상기 학습 데이터(590)는 사용자의 음성을 포함하는 오디오(Audio) 데이터를 더 포함할 수 있다.
감성은, 자극에 대하여 느낌이 일어나는 능력, 감각적 자극이나 인상을 받아들이는 마음의 성질로, 감성 공학에서는 환경의 변화나 외부로부터의 물리적인 자극에 대한 인간 내부의 고차원적인 심리적인 체험으로 쾌적감, 불쾌감 등 복합적인 감정으로 정의하고 있다.
본 명세서에서, 감성은 자극에 대하여 발생하는 쾌적감, 불쾌감 등의 감정을 의미할 수 있고, 감성은 N개의 대표적인 감정 상태 중 어느 하나로 인식될 수 있다. 이러한 N개의 대표적인 감정 상태를 감성 클래스로 명명할 수 있다.
예를 들어, 감성 인식기(74a)는 놀람(surprise), 행복(happiness), 슬픔(sadness), 싫음(displeasure), 분노(anger), 두려움(fear) 등 6개의 대표적인 감정 클래스를 인식하고 감성 인식 결과로 대표적인 감정 클래스 중 하나를 출력하거나, 6개의 대표적인 감정 클래스 별 확률값으로 출력할 수 있다.
또는, 본 발명의 일 실시예에 따른 감성 인식기(74a)가 인식하고 출력하는 감성으로 놀람, 행복, 슬픔, 싫음, 분노, 두려움과 같은 감성 클래스 외에 6개의 감정이 발생하지 않은 디폴트 감정 상태를 나타내는 중립(neutrality) 감성 클래스를 더 포함할 수 있다.
이 경우에, 감성 인식기(74a)는 놀람, 행복, 슬픔, 싫음, 분노, 두려움, 중립 중 선택된 어느 하나의 감성 클래스를 감성 인식 결과로 출력하거나, 놀람 x%, 행복 x%, 슬픔 x%, 싫음 x%, 분노 x%, 두려움 x%, 중립 x%와 같이 각 감성 클래스 별 확률값을 감성 인식 결과로 출력할 수 있다.
인지하고자 하는 감성을 딥러닝 학습시킨 인공지능 모델로 사용자의 감성을 인식하면, 결과값으로는 딥러닝 학습시 사용한 데이터의 태깅값으로 출력하게 된다.
한편, 실환경에서는 사용자의 감성이 최종적으로 1개의 감성으로 나올 수 없는 경우가 많다. 예를 들어, 사용자가 말로는 기쁨 감성을 표시하지만 얼굴 표정에서는 싫음 감성이 표현될 수 있다. 이와 같이, 사람들이 음성, 영상, 텍스트 등의 각 모달 별로 다른 감성을 출력하는 경우가 많다.
따라서, 사용자의 감성을 인식하여 최종 하나의 감성값으로 출력하거나 음성, 영상, 텍스트 각각의 다른 감성, 모순된 감성, 유사한 감성 등을 무시할 경우, 실제 사용자가 느끼는 감정과 다른 감정을 인식할 수 있다..
사용자의 외부로 드러나는 모든 정보를 기반으로 각각의 감성을 인지하고 관리하기 위하여, 본 발명의 일 실시예에 따른 감성 인식기(74a)는, 음성, 영상, 텍스트 각각의 유니모달 별로 감성 인식이 가능하고, 멀티모달로도 감성 인식이 가능한 구조를 가질 수 있다.
즉, 본 발명의 일 실시예에 따른 감성 인식기(74a)는, 특정 시점에 입력되는 사용자의 감성을 유니모달 별로 인식하고, 동시에 멀티모달로 복합 인식할 수 있다.
한편, 복수의 모달별 인식기(521, 522, 523)는 각각 입력되는 한가지의 유니모달 입력 데이터를 인식하여 처리하는 것으로 유니모달 인식기로도 명명될 수 있다.
본 발명의 일 실시예에 따른 감성 인식기(74a)는 입력 데이터(590)를 각 유니모달 별로 분리하여 상기 복수의 유니모달 입력 데이터를 생성할 수 있다. 모달 분리기(530)는, 입력 데이터(590)를 복수의 유니모달 입력 데이터들로 분리할 수 있다.
여기서, 상기 복수의 유니모달 입력 데이터는, 상기 사용자를 포함하는 동영상 데이터에서 분리된 영상 유니모달 입력 데이터, 음성 유니모달 입력 데이터, 텍스트 유니모달 입력 데이터를 포함할 수 있다.
예를 들어, 입력 데이터(590)는 사용자가 촬영된 동영상 데이터일 수 있고, 동영상 데이터는 사용자의 얼굴 등이 촬영된 비디오 데이터와 사용자가 발화한 음성을 포함하는 오디오 데이터를 포함할 수 있다.
이 경우에, 모달 분리기(530)는 입력 데이터(590)에 포함되는 오디오 데이터의 내용을 텍스트 데이터로 변환한 텍스트 유니모달 입력 데이터(531)와 음성 톤, 크기, 높이 등 오디오 데이터의 음성(sound) 유니모달 입력 데이터로 분리할 수 있다.
상기 텍스트 유니모달 입력 데이터는, 상기 동영상 데이터에서 분리된 음성을 텍스트로 변환한 데이터일 수 있다. 경우에 따라서, 음성(sound) 유니모달 입력 데이터는 오디오 데이터의 음원 파일 그 자체이거나 음원 파일에서 노이즈 제거 등 전처리가 완료된 파일일 수 있다.
또한, 모달 분리기(530)는 입력 데이터(590)에 포함되는 비디오 데이터로부터 하나 이상의 얼굴 이미지 데이터를 포함하는 영상 유니모달 입력 데이터(533)를 분리할 수 있다.
한편, 분리된 유니모달 입력 데이터들(531, 532, 533)은, 각 유니모달 입력 데이터들(531, 532, 533)에 기초하여 사용자의 감성 정보를 인식하도록 학습된 복수의 모달별 인식기(521, 522, 523)를 포함하는 유니모달 전처리기(520)로 입력될 수 있다.
예를 들어, 텍스트 유니모달 입력 데이터(531)는 텍스트를 학습 데이터로 사용하여 딥러닝을 수행하는 텍스트 감성 인식기(521)로 입력될 수 있다.
음성(sound) 유니모달 입력 데이터(532)는 음성 학습 데이터로 사용하여 딥러닝을 수행하는 음성(speech) 감성 인식기(522)로 입력될 수 있다.
하나 이상의 얼굴 이미지 데이터를 포함하는 영상 유니모달 입력 데이터(533)는 영상 학습 데이터로 사용하여 딥러닝을 수행하는 얼굴(face) 감성 인식기(523)로 입력될 수 있다.
텍스트 감성 인식기(521)는 텍스트로 변환된 STT(Sound to text) 데이터에 포함되는 어휘, 문장 구조 등을 인식하여 사용자의 감성을 인식할 수 있다. 예를 들어, 행복에 관련된 단어를 많이 사용하거나 행복의 정도를 강하게 표현하는 단어가 인식될수록 행복 감성 클래스에 대한 확률값이 다른 감성 클래스에 대한 확률값보다 높게 인식할 수 있다. 또는 텍스트 감성 인식기(521)는 인식된 텍스트에 대응하는 감성 클래스인 행복을 감정 인식 결과로 바로 출력할 수 있다.
또한, 텍스트 감성 인식기(521)는 감성 인식 결과와 함께 텍스트 특징점 벡터도 출력할 수 있다.
음성(speech) 감성 인식기(522)는 입력되는 음성 데이터의 특징점들을 추출한다. 이때, 상기 음성 특징점들은 음성의 톤(tone), 음량, 파형 등을 포함할 수 있다. 음성(speech) 감성 인식기(522)는 음성의 톤(tone) 등을 검출하여 사용자의 감성을 판별할 수 있다.
또한, 음성(speech) 감성 인식기(522)도 감성 인식 결과와 검출한 음성 특징점 벡터들을 출력할 수 있다.
얼굴 감성 인식기(523)는 입력된 이미지 데이터에서 사용자의 얼굴 영역을 검출하고, 얼굴 표정을 구성하는 특징점들인 표정 랜드마크(Landmark) 포인트 정보를 인식함으로써 사용자의 표정을 인식할 수 있다. 또한, 얼굴 감성 인식기(523)는 인식된 표정에 대응하는 감성 클래스 또는 감성 클래스별 확률값을 출력할 수 있고, 얼굴 특징점(표정 랜드마트 포인트) 벡터도 출력할 수 있다.
도 6은 본 발명의 실시예에 따른 감성 인식에 관한 설명에 참조되는 도면으로, 표정의 구성 요소들을 예시한 것이다.
도 6을 참조하면, 표정 랜드마크(Landmark) 포인트는 눈썹(61), 눈(62), 뺨(63), 이마(64), 코(65), 입(66), 턱(67) 등이 해당될 수 있다.
도 6에서의 표정 랜드마크(Landmark) 포인트들(61 내지 67)은 예시적인 것으로 종류와 숫자는 달라질 수 있다.
예를 들어, 눈썹(61), 눈(62), 입(66)과 같이 특징이 강한 소수의 표정 랜드마크 포인트만 이용하거나 사용자 별로 특정 표정을 지을 때 변화 정도가 큰 표정 랜드마크 포인트를 이용할 수도 있다.
한편, 얼굴 감성 인식기(523)는 표정 랜드마크(Landmark) 포인트들(61 내지 67)의 위치 및 모양에 기초하여 얼굴 표정을 인식할 수 있다.
얼굴 감성 인식기(523)는 표정 랜드마크 포인트들(61 내지 67) 중 적어도 일부가 포함되는 이미지 데이터로 딥러닝된 인공신경망을 포함하여 사용자의 얼굴 표정을 인식할 수 있다.
예를 들어, 사용자가 눈(62)을 크게 뜨고, 입(66)을 크게 벌리면 얼굴 감성 인식기(523)는 사용자의 감성을 감성 클래스들 중 행복으로 판별하거나 행복에 대한 확률값이 가장 높은 감성 인식 결과를 출력할 수 있다.
한편, 상기 복수의 모달별 인식기는, 각각 입력되는 유니모달 입력 데이터의 입력 특성에 대응하는 인공신경망을 포함할 수 있다. 또한, 멀티모달 감성 인식기(511)도 입력 데이터의 특성에 대응하는 인공신경망을 포함할 수 있다.
예를 들어, 영상 기반의 학습 및 인식을 수행하는 얼굴 감정 인식기(523)는 CNN(Convolutional Neural Network), 다른 감성 인식기들(521, 522)은 심층신경망(DNN), 멀티모달 감성 인식기(511)는 순환 신경망(Recurrent Neural Network: RNN)의 인공신경망을 포함할 수 있다.
모달별 감성 인식기(521, 522, 523)는 각각 입력되는 유니모달 입력 데이터(531, 532, 533)에 포함된 감성 정보를 인식하여 감성 인식 결과를 출력할 수 있다. 예를 들어, 모달별 감성 인식기(521, 522, 523)는 소정 개수의 기설정된 감성 클래스(class) 중 확률이 가장 큰 감성 클래스를 감성 인식 결과로 출력하거나 감정 클래스 별 확률값을 감성 인식 결과로 출력할 수 있다.
한편, 모달별 감성 인식기(521, 522, 523)는 각각의 딥러닝 구조에서 텍스트, 음성, 영상을 학습, 인식하고, 각 유니모달 별 특징점 벡터로 구성되는 중간 벡터값을 도출할 수 있다.
또한, 멀티모달 인식기(510)는, 각 음성, 영상, 텍스트의 중간 벡터값으로 멀티모달 딥러닝을 수행할 수 있다.
이와 같이, 모달별 감성 인식기(521, 522, 523)의 출력에 기초하여 멀티모달 인식기(510)의 입력이 생성되므로, 모달별 감성 인식기(521, 522, 523)들은 일종의 전처리기로서 동작할 수 있다.
한편, 본 발명의 일 실시예에 따른 감성 인식기(74a)는, 3개의 모달별 감성 인식기(521, 522, 523)의 딥러닝 모델과 1개의 멀티모달 인식기(510)의 딥러닝 모델 총 4개의 딥러닝 모델을 사용할 수 있다.
한편, 멀티모달 인식기(510)는 복수의 모달별 인식기(521, 522, 523)가 출력하는 특징점 벡터들을 결합하는 병합기(512), 및, 상기 병합기(512)의 출력 데이터에 포함된 상기 사용자의 감성 정보를 인식하도록 학습된 멀티모달 감성 인식기(511)를 포함할 수 있다.
여기서, 병합기(512)는 복수의 모달별 인식기(521, 522, 523)의 출력 데이터들의 싱크를 맞추고, 특징점 벡터들을 결합(Vector Concatenation)하여 상기 멀티모달 감성 인식기(511)로 출력할 수 있다.
상기 멀티모달 감성 인식기(511)는 입력 데이터로부터 사용자의 감성 정보를 인식하여 감성 인식 결과를 출력할 수 있다.
예를 들어, 상기 멀티모달 감성 인식기(511)는 소정 개수의 기설정된 감성 클래스(class) 중 확률이 가장 큰 감성 클래스를 감성 인식 결과로 출력하거나 감정 클래스 별 확률값을 감성 인식 결과로 출력할 수 있다.
이에 따라, 본 발명의 일 실시예에 따른 감성 인식기(74a)는, 복수의 유니모달 감성 인식 결과와 하나의 멀티모달 감성 인식 결과를 출력할 수 있다.
본 발명의 일 실시예에 따른 감성 인식기(74a)는 복수의 유니모달 감성 인식 결과와 하나의 멀티모달 감성 인식 결과를 감성 클래스별 레벨(확률)로 출력할 수 있다.
예를 들어, 감성 인식기(74a)는 놀람, 행복, 중립, 슬픔, 싫음, 분노, 두려움의 감성 클래스 별 확률값을 출력할 수 있고, 확률값이 높을수록 인지된 감성 클래스일 가능성이 높다는 것을 의미할 수 있다. 여기서, 7종의 감성 클래스들의 확률값 총합은 100%가 될 것이다.
감성 인식기(74a)는, 상기 복수의 모달별 인식기 각각의 감성 인식 결과(521, 522, 523)와 상기 멀티모달 인식기(511)의 감성 인식 결과를 포함하는 복합 감성 인식 결과를 출력할 수 있다.
이에 따라, 로봇(100)은 유니모달 3개, 멀티모달 1개의 감성 인식 결과를 기반으로 감성교류 사용자 경험(UX)을 제공할 수 있다.
설정에 따라서, 감성 인식기(74a)는 복합 감성 인식 결과에서 다수를 차지하는 인식 결과, 확률값이 가장 높은 인식 결과를 최종 인식 결과로 출력할 수 있다. 또는, 복수의 감성 인식 결과를 수신한 로봇(100)의 제어부(140)가 소정 기준에 따라 최종 인식 결과를 판별할 수 있다.
본 발명에 따른 감성 인식기(74a)는 음성(음성톤 등), 영상(얼굴 표정 등), 텍스트(말의 내용 등) 각각의 감성을 레벨로 인식하여 관리할 수 있다. 이에 따라, 모달별로 감성교류 사용자 경험(UX)을 다르게 처리할 수 있다.
또한, 유니모달(음성, 영상, 텍스트)별 감성 인식 결과와 멀티모달 감성 인식 결과값를 한 시점 기준으로 동시에 출력할 수 있다. 한 시점에서 입력되는 음성, 영상, 텍스트를 복합적으로 감성을 인식할 수 있어, 멀티모달 감성에서 각 유니모달별로 모순된 감성을 인식하여 사용자의 감성 성향을 파악할 수 있다. 이에 따라, 일부 모달에서 부정적인 입력이 들어와도 전체적인 감성을 인식하여 사용자의 진짜 감정 상태인 긍정적인 입력에 대응하는 감성교류 사용자 경험(UX)을 제공할 수도 있다.
본 발명에 따르면 로봇(100)이 감성 인식기(74a)를 구비하거나 감성 인식기(74a)를 구비하는 서버(70)와 통신하여 사용자만의 유니모달별 감성을 파악할 수 있다.
또한, 본 발명에 따르면 사용자만의 감성 패턴 분석을 할 수 있고, 모달별 감성인식으로 감성케어(치료)에 활용 가능하다.
종래의 감성 방법은 입력 데이터의 모달별 인식 결과가 다른 모순된 감성의경우 감성을 하나로 맵핑하여 감성을 분석하기엔 어려움이 많았다.
하지만, 본 발명에 따르면, 여러 개의 입력과 출력을 통해 다양한 실생활 상황에 대해 가장 부합하게 처리할 수 있다.
낮은 성능을 보이는 입력 인식기를 보완하기 위해, 본 발명은 여러 개의 입력과 출력을 결합(Fusion) 방식으로 복수의 인식기(511, 521, 522, 523)가 서로 상호 보완하는 인식기 구조를 구성할 수 있다.
본 발명의 일 실시예에 따른 감성 인식기(74a)는, 음성을 소리와 뜻으로 분리하여, 영상, 음성 입력으로부터, 영상, 음성(사운드) 및 STT 총 3개의 입력을 만들 수 있다.
또한, 3개의 입력에 대해 각각 최적의 성능을 내기 위해 감성 인식기(74a)는 CNN(Convolutional Neural Network)와 Long Short-Term Memory(LSTM) 등 입력별로 다른 인공신경망 모델을 가지게 구성할 수 있다. 예를 들어, 영상 기반의 인식기(523)는 CNN 구조를 가지고, 멀티모달 감성 인식기(511)는 Long Short-Term Memory(LSTM) 구조를 가질 수 있다. 이에 따라, 각 입력 특성에 맞춤형 신경망을 구성할 수 있다.
각 입력에 대한 유니모달 인식기(521, 522, 523)의 출력은 7종 감성 클래스에 대한 확률값과 이 감성을 잘 표현하는 특징점들의 벡터값일 수 있다.
멀티모달 인식기(510)는, 단순히 3개의 입력에 대한 감성값을 통계적 방법으로 계산하는 것이 아닌 감성을 잘 표현하는 특징점들의 벡터값을 전결합 레이어와 LSTM을 통해 결합하여, 한 인식기가 어려워 하는 문제를 다른 인식기가 도와주는 형태로 성능 향상에 도움을 주며, 실생활에서 다양한 케이스들을 커버할 수 있다.
예를 들어, 얼굴을 인식하기 어려운 곳에서 말만 들리는 경우에도 본 발명의 일 실시예에 따른 감성 인식기(74a)는 음성 기반의 인식기(521, 522) 및 멀티모달 감성 인식기(511)가 사용자의 감성을 인식할 수 있다.
또한, 감성 인식기(74a)는 영상, 음성, 문자 데이터에 대한 각각의 인식 결과와 멀티모달 인식 결과를 융합함으로써 사용자의 복잡한 감정 상태를 인식할 수 있기 때문에, 실제 생활에서의 다양한 상황에 대해서 감성 인식이 가능하다.
도 7 내지 도 10은 본 발명의 실시예에 따른 캐릭터의 표현에 관한 설명에 참조되는 도면이다.
본 발명의 실시예에 따른 로봇(100)은 자체적으로 인식한 감성 인식 결과 또는 다른 기기로부터 수신한 감성 인식 결과에 기초하여 소정 사용자의 감성을 표현하는 아바타 캐릭터를 생성할 수 있다.
실시예에 따라서, 로봇(100)은 사용자의 얼굴 이미지 데이터 위에 인식된 감성 정보에 대응하여 생성된 표정 랜드마크 포인트 이미지를 증강 현실(augmented reality)로 합성하여 아바타 캐릭터를 생성할 수 있다. 예를 들어, 사용자의 얼굴 이미지의 눈, 눈썹, 이마 위치에 찡그리는 눈, 눈썹, 이마를 증강 현실로 덮어 표시할 수 있다. 이에 따라, 사용자의 싫음 감성을 표현하는 아바타 캐릭터를 생성할 수 있다.
또는, 로봇(100)은, 사용자의 얼굴 정보에 기초하여 애니메이션 캐릭터를 먼저 생성할 수 있다. 이러한 애니메이션 캐릭터도 검출된 사용자의 표정 랜드마크 포인트들을 반영하여 생성할 수 있다. 예를 들어, 코가 큰 사용자의 경우에는 코가 큰 애니메이션 캐릭터를 생성할 수 있다. 또한, 로봇(100)은 생성된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 사용자의 특정 감성을 표현하는 아바타 캐릭터를 생성할 수 있다.
또는, 로봇(100)은 기설정된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 상기 아바타 캐릭터를 생성할 수 있다. 이 경우에, 미리 생성되어 있는 애니메이션 캐릭터 상에 표정 랜드마크 포인트들만 인식되는 사용자 특성을 반영하여 수정하면 되기 때문에, 가장 빠르고 쉽게 아바타 캐릭터를 생성할 수 있다.
예를 들어, 로봇(100)의 저장부(130)에 저장되어 있거나 통신부(190)를 통하여 수신할 수 있는 기본 애니메이션 캐릭터 중에서 하나를 선택하고, 선택된 캐릭터에 검출된 사용자의 표정 랜드마크 포인트들을 반영하여 생성할 수 있다.
또한, 생성된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경함으로써 사용자의 특정 감성을 표현하는 아바타 캐릭터를 생성할 수 있다.
도 7 내지 도 10은 기설정된 애니메이션 캐릭터와 적은 수의 표정 랜드마크 포인트들을 이용하여 7종의 감성 클래스를 표현한 예들을 도시한 것이다.
도 7을 참조하면, 행복, 놀람, 싫음, 분노, 두려움, 슬픔, 중립 각각의 감성 클래스에 대응하는 디폴트(Default) 표현들이 저장될 수 있다.
만약, 인식되는 사용자의 감성 레벨이 클수록 디폴트(Default) 표현에서 특정 감성을 나타내는 정도를 크게 변화시킬 수 있다. 예를 들어, 행복의 레벨이 크다면 행복 감성 클래스 표현에 포함되는 랜드마크 포인트인 입을 벌리는 정도를 더 크게 변경할 수 있다.
본 발명의 일 실시예에 따른 아바타 캐릭터는 캐리커처(caricature)를 그리듯이 특정 랜드마크 포인트가 강조되거나 특정 랜드마크 포인트만으로 구성될 수 있다.
도 8 내지 도 10은 눈썹, 눈, 입으로만 구성되는 아바타 캐릭터들을 예시한다.
먼저, 도 8을 참조하면, 사용자의 감성이 중립으로 인식될 때, 아바타 캐릭터는 미소를 짓는 중립 표정(810)으로 생성될 수 있다. 한편, 중립 표정(810)은 로봇(100)이 특별한 감성이 인식되지 않을 때 사용하는 디폴트 표정으로 설정될 수 있다.
이후, 사용자의 감성이 놀람으로 인식될 때, 아바타 캐릭터는 눈썹을 위로 올리고, 입을 벌리는 놀람 표정(820)으로 생성될 수 있다.
또는, 사용자의 감성이 싫음으로 인식될 때, 아바타 캐릭터는 입꼬리를 떨어뜨리며 찌푸리는 싫음 표정(830)으로 생성될 수 있다.
한편, 동일한 감성 클래스로 인식되더라도 아바타 캐릭터는 다르게 생성될 수 있다. 예를 들어, 감지되는 사용자의 랜드마크 포인터의 크기, 위치, 사용자의 감정 표현 방식에 따라 아바타 캐릭터는 다르게 생성될 수 있다. 또한 감지되는 감성의 레벨에 따라 아바타 캐릭터는 다르게 생성될 수 있다.
도 9는 분노의 감성 클래스를 표현하는 아바타 캐릭터의 표정들을 예시한 것이다. 도 9의 (a)와 (b)를 참조하면, 제1 분노 표정(910)과 제2 분노 표정(920)은 눈과 입의 모양을 다르게 표현할 수 있다.
도 10은 행복의 감성 클래스를 표현하는 아바타 캐릭터의 표정들을 예시한 것이다. 도 10의 (a), (b), (c)를 참조하면, 제1 행복 표정(1010), 제2 행복 표정(1020), 제3 행복 표정(1030)은 눈과 입의 모양을 다르게 표현할 수 있다.
도 7 내지 도 10을 참조하여 설명한 것과 같이, 본 발명의 일 실시예에 따른 로봇(100)은, 사용자의 얼굴 정보에 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성할 수 있다.
본 발명의 일 실시예에 따르면, 사용자의 감정을 인식하고 감정이 표출되기까지의 얼굴 특징점(랜드마크)을 아바타 캐릭터가 따라하게 된다.
이러한 감성표현 과정에서의 얼굴 특징을 캐릭터로 재밌게 그려 아바타 캐릭터를 생성함으로써, 사용자에게 재미 요소를 제공하고, 사용자의 개성 표현 욕구를 만족시킬 수 있다.
또한, 이후에 사용자의 감성(얼굴 표정)을 임의의 콘텐츠로 생성하여 이용할 수 있다.
도 11은 본 발명의 일 실시예에 따른 로봇의 동작 방법을 도시한 순서도이다.
도 11을 참조하면, 본 발명의 일 실시예에 따른 로봇(100)은, 사용자와 관련된 데이터를 획득할 수 있다(S1110).
여기서, 상기 사용자와 관련된 데이터는, 상기 사용자의 얼굴을 포함하는 영상 데이터와 상기 사용자가 발화한 음성 데이터를 포함할 수 있다. 상기 사용자의 얼굴을 포함하는 영상 데이터는 영상 획득부(120)의 카메라를 통하여 획득될 수 있고, 상기 사용자가 발화한 음성 데이터는 음성입력부(125)의 마이크를 통하여 획득될 수 있다. 즉, 본 발명은 카메라로 획득되는 사용자의 얼굴뿐만 아니라 사용자의 음성도 획득하여, 영상 데이터와 음성 데이터를 모두 이용할 수 있다.
또한, 사용자와 관련된 데이터는 상기 사용자가 촬영된 동영상 데이터 또는 상기 사용자를 촬영하는 실시간 동영상 데이터일 수 있다. 즉, 로봇(100)은, 저장되어 있는 데이터와 실시간으로 입력되는 데이터를 모두 이용할 수 있다.
상기 감성 정보는, 상술한 복수의 감정 클래스 중 어느 하나이거나, 상기 복수의 감정 클래스 각각에 대한 확률값에 기초할 수 있다. 즉, 감성 정보의 인식에 따른 감성 인식 결과는 감정 클래스 중 선정된 감성 클래스이거나 감성 클래스 별 확률값을 포함할 수 있다.
실시예에 따라서, 로봇(100)은, 영상 데이터 및 음성 데이터에 기초하여 감성 정보를 인식하도록 학습된 인공신경망을 포함하여, 상기 사용자와 관련된 데이터가 입력되면, 상기 사용자의 감성 정보를 인식하는 감성 인식기(74a)를 포함할 수 있다.
또한, 도 5를 참조하여 설명한 것과 같이, 감성 인식기(74a)는, 복수의 유니모달 입력 및, 상기 복수의 유니모달 입력에 기초한 멀티모달 입력으로 감성 정보를 인식하도록 학습되어, 상기 복수의 유니모달 입력 각각에 대한 감성 인식 결과와 상기 멀티모달 입력에 대한 감성 인식 결과를 포함하는 복합 감성 인식 결과를 출력할 수 있다.
또는, 서버(70)가 영상 데이터 및 음성 데이터에 기초하여 감성 정보를 인식하도록 입력되는 학습된 인공신경망을 포함하는 감성 인식기(74a)를 포함할 수 있다. 즉, 서버(70)는 감성 인식기(74a)를 포함하여 감성 인식을 수행하는 감성 인식 서버일 수 있다.
도 5를 참조하여 설명한 것과 같이, 감성 인식기(74a)를 포함하는 서버(70)는 유니모달 입력으로 학습된 복수의 인공신경망을 포함할 수 있고, 상기 복수의 유니모달 입력에 기초한 멀티모달 입력으로 학습된 인공신경망을 더 포함할 수 있다.
이 경우에, 사용자의 감성 정보를 인식하는 단계(S1120)는, 로봇(100)이 감성 인식 서버(70)로 상기 사용자와 관련된 데이터를 송신하는 단계, 및, 로봇(100)이 상기 감성 인식 서버(70)로부터 감성 인식 결과를 수신하는 단계를 포함할 수 있다.
한편, 감성 인식기(74a)는, 상기 사용자와 관련된 데이터에 기초하여 상기 사용자의 감성 정보를 인식할 수 있다(S1120).
예를 들어, 감성 인식기(74a)는, 상기 사용자의 얼굴을 포함하는 영상 데이터 및 상기 사용자가 발화한 음성 데이터에 기초하여 감성 정보를 인식할 수 있다.
감성 인식기(74a)는, 상기 영상 데이터에 기초한 감성 정보 인식 결과와 상기 음성 데이터에 기초한 감성 정보 인식 결과를 모두 사용하여 상기 사용자의 감성을 판별할 수 있다.
이 경우에, 상기 사용자가 발화한 음성 데이터를 텍스트(text)로 변환한 텍스트 데이터에서 인식된 감성 인식 결과와 상기 사용자가 발화한 음성 데이터의 사운드(sound) 데이터에서 인식된 감성 정보 인식 결과를 포함할 수 있다.
한편, 로봇(100)은, 상기 사용자와 관련된 데이터에 포함되는 상기 사용자의 얼굴 정보에 상기 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성할 수 있다(S1130).
아바타 캐릭터는 사용자의 얼굴 정보에서 추출된 특징들 중 적어도 하나가 반영된 캐릭터로 사용자의 개성을 표현할 수 있다. 예를 들어, 사용자의 얼굴 정보에서 추출된 표정 랜드마크 포인트 중 적어도 하나를 반영하여 아바타 캐릭터를 생성할 수 있다. 특정 사용자의 표정 랜드마크 포인트가 눈이라면, 계속 눈을 특징점으로 잡아서 각종 감성을 표현할 수 있다. 또는, 눈과 입을 랜드마크 포인트로 본다면 복수의 샘플 캐릭터에 눈과 입을 매핑하거나 눈과 입모양만 캐리커쳐처럼 캐릭터화할 수 있다.
로봇(100)은 상기 생성된 아바타 캐릭터를 상기 사용자의 정보와 연계시켜 저장할 수 있고(S1140), 저장된 아바타 캐릭터를 자유롭게 사용할 수 있다(S1150).
예를 들어, 상기 사용자의 저장된 아바타 캐릭터 중 어느 하나를 디스플레이(182)에 표시할 수 있다.
또한, 사용자 명령 또는 설정에 따라서, 상기 생성된 아바타 캐릭터를 평상시에 로봇(100)의 디스플레이(182)에 표시되는 디폴트(default) 화면으로 사용할 수 있다.
예를 들어, 도 8의 중립 표정의 아바타 캐릭터(810)를 로봇(100)의 디폴트(default) 화면으로 사용할 수 있다. 즉, 생성된 아바타 캐릭터들 중 하나를 로봇(100)의 얼굴 표정으로 사용할 수 있다. 이에 따라, 사용자의 로봇 사용 거부감을 감소시키고, 더 친근하게 느끼는 데 도움을 줄 수 있다.
또한, 특정 사용자가 로봇(100)을 이용하여 다른 사람들에게 요청, 명령, 정보 전달을 하는 등의 특정 상황에서, 사용자의 저장된 아바타 캐릭터 중 적어도 하나를 사용할 수 있다.
실시예에 따라서, 다른 기기로 소정 데이터를 전송하는 경우에, 로봇(100)은, 상기 아바타 캐릭터 또는 상기 인식된 감성 정보를 상기 소정 데이터와 함께 전송할 수 있다.
로봇(100)이 상기 아바타 캐릭터를 소정 데이터와 함께 전송함으로써, 사용자 자신을 직관적으로 나타내고, 현재의 특정 감성을 다른 기기를 사용하는 다른 사람에게 전달할 수 있다.
아바타 캐릭터의 전송은 화질 열화, 수신 측 기기의 하드웨어 성능을 고려하지 않으므로, 로봇(100)은 상기 인식된 감성 정보를 상기 소정 데이터와 함께 전송할 수 있다. 수신 측 로봇(100)은 하드웨어 특성에 맞게 수신한 감성 정보를 반영하여 아바타 캐릭터의 생성, 표시 등을 수행할 수 있다. 이에 따라, 수신 측 로봇(100)의 물리적인 특성에 영향을 주거나 받지않고 사용자의 감성, 표정, 행동등을 모방할 수 있다.
한편, 본 발명의 일 실시예에 따르면 로봇(100)은 소정 시간 동안 상기 사용자의 영상 데이터 및 음성 데이터를 획득할 수 있다. 이에 따라, 감성 인식기(74a)는, 상기 사용자의 영상 데이터 및 음성 데이터에 기초하여, 상기 소정 시간 동안의 상기 사용자의 감성 정보들을 인식할 수 있다.
예를 들어, 감성 인식기(74a)는 1회의 감성 인식을 수행하고 감성 인식을 종료하는 것이 아니라, 소정 시간 동안의 입력 데이터에 대하여 연속적으로 감성 인식을 수행할 수 있다.
이 경우에, 로봇(100)의 제어부(140)는, 상기 사용자의 영상 데이터에 상기 사용자의 감성 정보들을 매핑(mapping)하고, 상기 사용자의 음성 데이터를 동기화하여, 상기 아바타 캐릭터의 동영상을 생성할 수 있다.
또는, 감성 인식기(74a)는 소정 시간 동안의 입력 데이터에서 소정 주기에 따라 복수의 감성 인식을 수행하고, 복수의 감성 인식 결과를 동시에 또는 순차적으로 출력할 수 있다.
한편, 로봇(100)의 제어부(140)는, 상기 인식된 사용자의 감성 정보에 대응하여, 상기 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를 조절할 수 있다.
설정에 따라, 제어부(140)는, 상기 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를, 더 크게 조절함으로써 감정 표현을 강화하거나, 더 작게 조절함으로써 상기 감정 표현을 완화시킬 수 있다.
본 발명의 일 실시예에 따르면, 상기 인식된 사용자의 감성 정보에 기초하여, 상기 음향 출력부(181)에서 발화하는 목소리를 변경할 수 있다.
또한, 본 발명의 일 실시예에 따르면, 상기 인식된 사용자의 감성 정보에 기초하여, 상기 음향 출력부(181)의 음향 관련 설정 중 적어도 하나를 변경할 수 있다.
본 발명의 일 실시예에 따르면, 감정 표현을 변경하며 화상 통화를 할 수 있다.
예를 들어, 화상 통화 중에 발신자와 수신자의 감정이 직설적으로 드러날 수 있다. 이렇게 직설적으로 감정이 드러나는 것을 싫어하는 화상 통화 참가자는 감정 표현을 완화한 아바타 캐릭터를 사용할 수 있다.
또한, 화상 통화 중에 화상 통화 상대방의 감성을 정확하게 인식하거나 공감하고 싶은 사용자는 감정 표현을 강화한 아바타 캐릭터를 사용할 수 있다. 이에 따라, 대화 내용상의 감성을 직관적으로 인식하여 긍정적인 인터랙션을 유도할 수 있다.
또한, 화상 통화 중에 상대방의 감성을 실시간으로 인식하여 욕설 등 과격한 음성은 순화해서 변경처리하도록 설정할 수 있다.
본 발명의 실시예에 따른 로봇(100)은 자체적으로 인식한 감성 인식 결과 또는 서버(70)로부터 수신한 감성 인식 결과에 기초하여 소정 사용자의 감성을 표현하는 아바타 캐릭터를 생성할 수 있다.
실시예에 따라서, 로봇(100)은 사용자의 얼굴 이미지 데이터 위에 인식된 감성 정보에 대응하여 생성된 표정 랜드마크 포인트 이미지를 증강 현실(augmented reality)로 합성하여 아바타 캐릭터를 생성할 수 있다.
또는, 로봇(100)은, 사용자의 얼굴 정보에 기초하여 애니메이션 캐릭터를 먼저 생성할 수 있다. 이러한 애니메이션 캐릭터도 검출된 사용자의 표정 랜드마크 포인트들을 반영하여 생성할 수 있다. 또한, 로봇(100)은 생성된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 사용자의 특정 감성을 표현하는 아바타 캐릭터를 생성할 수 있다.
또는, 로봇(100)은 기설정된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 상기 아바타 캐릭터를 생성할 수 있다.
예를 들어, 로봇(100)의 저장부(130)에 저장되어 있거나 통신부(190)를 통하여 수신할 수 있는 기본 애니메이션 캐릭터 중에서 하나를 선택하고, 선택된 캐릭터에 검출된 사용자의 표정 랜드마크 포인트들을 반영하여 생성할 수 있다.
또한, 생성된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경함으로써 사용자의 특정 감성을 표현하는 아바타 캐릭터를 생성할 수 있다.
실시예에 따라서, 로봇(100)은 상기 사용자의 움직임을 감지하고, 상기 사용자의 움직임에 대응하는 대응 모션(motion)을 판별한 후에, 상기 대응 모션을 수행할 수 있다.
예를 들어, 제어부(140)는, 영상 획득부(120)를 통하여 획득되는 영상에서 사용자가 머리를 회전하는 동작 등을 감지할 수 있다. 이 경우에 제어부(140)는 로봇(100)이 사용자의 머리 회전에 대응하여 동일한 방향으로 헤드를 회전하도록 제어할 수 있다.
또한, 사용자가 팔을 드는 동작을 감지한 경우에, 제어부(140)는 팔을 드는 동작에 대응하는 대응 모션을 판별할 수 있다. 팔을 포함하는 인체형 로봇의 경우에 제어부(140)는 사용자의 움직임에 대응하여 로봇이 팔을 들도록 제어할 수 있다. 팔이 없는 로봇(100)의 경우에는 사용자의 움직임에 대응하여 로봇이 헤드, 바디를 흔드는 등의 대체 동작을 수행하도록 설정될 수 있다.
즉, 제어부(140)는 로봇(100)의 하드웨어 사용을 고려하여 사용자의 움직임에 대응하는 대응 모션을 결정하고, 결정된 대응 모션을 수행하도록 제어할 수 있다.
또한, 로봇(100)은 상기 사용자의 움직임을 감지하고, 상기 사용자의 움직임에 상기 사용자의 감성 정보를 매핑(mapping)하여 대응 모션(motion)을 판별한 후에, 상기 대응 모션을 수행할 수 있다. 예를 들어, 사용자의 감성에 따라 동작을 더 크게 반영하거나 작게 반영할 수 있다.
도 12는 본 발명의 일 실시예에 따른 로봇의 동작 방법을 도시한 순서도로, 화상 통화에서의 감정교류 사용자 경험(UX)을 도시한 것이며, 도 13은 본 발명의 일 실시예에 따른 로봇의 감성 표현에 관한 설명에 참조되는 도면이다.
먼저, 로봇(100) 또는 서버(70)에 구비되는 감정 인식기(74a)가 사용자 및/또는 화상 통화 상대방의 감성을 인식할 수 있다(S1210).
예를 들어, 감성 인식 결과는 놀람, 행복, 슬픔, 싫음, 분노, 두려움, 중립의 7종 대표 감성 클래스의 확률값 등 수치로 레벨링되어 출력될 수 있다. 또한, 감성 인식 결과는 정확한 확률값 수치가 아닌 확률값 수치에 대응하여 분류된 강/중/약(strong/mid/weak) 등의 등급으로 레벨링되어 출력되는 것도 가능하다.
로봇(100)은, 사용자의 특징점을 추출하고, 인식된 감성 인식 결과를 특징점에 매핑할 수 있다(S1220). 사용자의 특징점은 사용자 얼굴의 랜드마크(landmark) 포인트 등일 수 있고, 특징점에 대해서는 학습 과정에서 이미 데이터베이스(DB)화 되어 있을 수 있다(S1225). 또한, 신규로 인식된 사용자의 특징점은 데이터베이스에 추가될 수 있고, 학습 데이터로 사용될 수 있다..
한편, 로봇(100)은 사용자의 레벨링된 감정과 특징점을 조합하여 이를 해당하는 캐릭터와 모션으로 매핑할 수 있다(S1230).
예를 들어, 로봇(100)은 사용자의 레벨링된 감정과 특징점을 조합하여 특정 감정을 표현하는 아바타 캐릭터의 얼굴 중 적어도 일부를 생성하거나, 대응 모션을 판별할 수 있다.
이후, 로봇(100)은, 생성된 아바타 캐릭터, 판별된 대응 모션에 기초하여 화상 통화 참가자의 감성을 표현할 수 있다(S1240).
로봇(100)은, 화상 통화 참가자의 얼굴 위에 생성된 아바타 캐릭터의 랜드마크 포인트를 중첩하여 표시하거나, 생성된 아바타 캐릭터 전체를 표시할 수 있다(S1240).
또한, 로봇(100)은, 판별된 대응 모션을 수행할 수 있다(S1240).
도 13은 표정 랜드마크 포인트 중 하나인 눈썹 모양(1310)과 바디를 흔드는 동작(1320)으로 로봇(100)이 기쁨 감성을 표현하는 것을 예시한 것이다.
본 발명의 일 실시예에 따르면, 로봇을 통한 화상 통화를 수행할 수 있고, 화상 통화에 감성 인식/표현 기술을 접목하여 감성통화 서비스를 제공할 수 있다.
로봇은 화상통화 참가자 중 적어도 1인의 행복, 슬픔, 분노, 놀람, 두려움, 중립, 싫음 등 감정을 인식하여 캐릭터에 매핑하고 이를 통화시 디스플레이할 수 있다.
또한, 본 발명의 일 실시예에 따르면, 화상 통화 중에 실시간으로 감정 인식하여 상대방에게 감정 전달함으로써, 사람들 간의 교감에도 도움을 줄 수 있다.
또한, 휴대 단말기 등이 수행할 수 없던 로봇만이 가능한 모션 기능을 통한 감성통화 서비스를 제공할 수 있다. 화상 통화 시 참가자의 모션을 따라하는 로봇으로 재미 요소 및 록인(lock-in) 효과를 기대할 수 있다.
또한, 감성 인식을 통해 사용자의 특정 제스처 및 얼굴 표정 등을 대체하는 아바타를 제공할 수 있다. 사용자 설정 또는 화상 통화에 사용하는 기기에 따라. 화자의 얼굴 없이 화상 통화가 가능하다.
도 14 내지 도 16은 본 발명의 일 실시예에 따른 로봇을 이용한 화상 통화에 관한 설명에 참조되는 도면이다.
도 14는 제1 로봇(100a)과 제2 로봇(100b)을 이용하여 2명의 사람이 화상 통화를 이용하는 것을 예시한다.
도 14와 같이, 제1 로봇(100a)과 제2 로봇(100b) 간의 P2P 화상 통화가 가능하다. 또한, 도 14과 달리, 로봇(100)과 휴대 단말기 간의 P2P 화상 통화도 가능하다.
한편, 로봇(100)을 이용한 화상 통화 시, 발신자와 수신자의 얼굴을 숨기고 캐릭터만으로 통화하고, 캐릭터는 발신자와 수신자만의 감성과 특징점을 따라하여 알아보게(Identify)할 수 있다.
특정 사용자의 감성과 특징점을 알아보게(Identify)하는 방법은 모션, 음성, 얼굴 움직임을 캐릭터화하여 표현함으로써 수행할 수 있다.
도 15는 제2 로봇(100b)의 사용자가 제1 로봇(100a)의 사용자의 감성을 표현하는 캐릭터를 사용하여 화상 통화하는 예를 도시한 것으로, 제2 로봇(100b)의 사용자는 제1 로봇(100a)으로부터 수신되는 화상통화 데이터에 기초하여, 화상 통화 상대방의 감정을 인식하고, 인식된 상대방의 감정이 표현된 캐릭터를 보면서 화상 통화할 수 있다.
도 16은 제1 로봇(100a)과 제2 로봇(100b)의 사용자들 모두 캐릭터를 사용하여 화상 통화하는 예를 도시한 것이다.
화상 통화 시, 사용자의 감정을 인식하고, 인식 결과 값에 매핑되는 다양한 캐릭터를 화자의 얼굴 위에 중첩(overlay)하여 표시하거나 캐릭터로 화자의 얼굴을 대체하여 표시함으로써 상대의 감정을 쉽게 파악할 수 있고, 재미 요소 및 록인(lock-in) 효과를 기대할 수 있다.
또한, 화상 통화 시, 사용자의 제스처를 인식하여 해당 제스처를 로봇의 모션으로 매핑하여 동작하도록 함으로써, 사용자는 상대의 감정을 로봇의 모션을 통해 직관적으로 인식할 수 있다.
한편, 실시예에 따라서, 얼굴과 주변환경이 노출되는 것에 거부감이 있는 사용자를 위하여, 사용자의 얼굴과 주변환경 정보를 인식하고, 인식된 정보에 기초하여, 캐릭터 및 배경 영상을 생성하여 사용할 수 있다. 이에 따라, 주변환경이 노출되는 것 때문에 화상 통화에 거부감이 있는 사용자도 화상 통화를 이용할 수 있다.
본 발명의 일 실시예에 따른 로봇(100)은, 사용자의 감성 정보(특징점)를 이해하고, 아바타로 변경 시 재현할 수 있다.
이 경우에, 로봇(100)은 사용자의 특정한 버릇이나 감정을 저장하고, 화상 통화 시 아바타로 대체되었을 경우 로봇(100)이 대리인 역할로 간단한 통화를 할 수 있다. 사용자 부재일 경우에도 사용자의 특징을 정확히 따라하는 로봇(100)이 대리인 역할 수행이 가능하다. 예를 들어, 사용자 부재시 화상 통화가 걸려오면, 수신측 로봇(100)은, 주 사용자의 얼굴과 감성에 기초한 캐릭터로 사용자 부재를 안내하는 간단한 통화를 수행할 수 있다.
본 발명의 일 실시예에 따르면, 인식되는 감성 정보는 캐릭터에 실시간 렌더링될 수 있다.
예를 들어, 특정 사용자의 표정 랜드마크 포인트가 눈이라면, 계속 눈을 특징점으로 잡아서 각종 감성을 표현할 수 있다.
또는, 눈과 입을 랜드마크 포인트로 본다면 복수의 샘플 캐릭터에 눈과 입을 매핑하거나 눈과 입모양만 캐리커쳐처럼 캐릭터화할 수 있다.
도 17은 본 발명의 일 실시예에 따른 로봇의 동작 방법을 도시한 순서도로, 화상 통화를 수행하면서 화상 통화 상대방의 감성을 인식하는 로봇의 동작 방법을 도시한 것이다.
도 17을 참조하면, 본 발명의 일 실시예에 따른 로봇(100)은, 화상 통화 상대방 로봇으로부터 영상, 음성 데이터를 수신할 수 있고(S1710), 화상 통화 상대방 로봇으로부터 수신되는 데이터에 기초하여 화상 통화 상대방의 감성 정보를 인식할 수 있다(S1720).
상기 감성 정보는, 상술한 복수의 감정 클래스 중 어느 하나이거나, 상기 복수의 감정 클래스 각각에 대한 확률값에 기초할 수 있다. 즉, 감성 정보의 인식에 따른 감성 인식 결과는 감정 클래스 중 선정된 감성 클래스일 수 있다. 예를 들어, 상기 인식된 감성 정보는, 상기 행복, 놀람, 싫음, 분노, 두려움, 슬픔, 중립 중 어느 하나일 수 있다.
또는, 감성 정보의 인식에 따른 감성 인식 결과는 감성 클래스 별 확률값을 포함할 수 있다. 예를 들어, 놀람 x%, 행복 x%, 슬픔 x%, 싫음 x%, 분노 x%, 두려움 x%, 중립 x%와 같이 각 감성 클래스 별 확률값을 감성 인식 결과로 출력할 수 있다.
한편, 로봇(100)의 제어부(140)는, 상기 화상 통화 상대방 로봇으로부터 수신되는 데이터에 포함되는 화상 통화 상대방의 얼굴 정보에 상기 인식된 화상 통화 상대방의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성할 수 있다(S1730).
또한, 로봇(100)의 제어부(140)는, 상기 생성된 아바타 캐릭터를 디스플레이(182)에 표시하도록 제어할 수 있다(S1740). 이에 따라, 로봇(100)의 사용자는 화상 통화 상대방의 감성을 표현한 아바타 캐릭터를 보면서 상대방의 감성을 직관적으로 인식할 수 있다.
한편, 로봇(100)을 통한 상대방과 음성 또는 화상 통화 시, 상대방의 개인적인 버릇이나 그 사람만의 고유의 특징들을 인식하여 로봇이 따라 수행할 수 있도록 함으로써, 상대방의 특징점(혹은 개성)을 표현할 수 있다.
이에 따라, 사용자가 로봇(100)에 대한 거부감 없이 사람과 유사한 감정을 느끼고, 상대방과 통화 시에는 상대방 사람으로 몰입하는데 도움을 줄 수 있다.
한편, 도 1 내지 도 16을 참조하여 설명한 것과 같이, 본 실시예에서도 로봇(100)의 제어부(140)는, 상기 인식된 화상 통화 상대방의 감성 정보에 대응하여, 상기 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를 조절할 수 있다.
설정에 따라, 제어부(140)는, 상기 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를, 더 크게 조절함으로써 감정 표현을 강화하거나, 더 작게 조절함으로써 상기 감정 표현을 완화시킬 수 있다.
본 실시예에서도, 제어부(140)는, 기설정된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 상기 아바타 캐릭터를 생성할 수 있다.
또는, 제어부(140)는, 상기 화상 통화 상대방의 얼굴 정보에 기초하여 생성된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 상기 아바타 캐릭터를 생성할 수 있다.
또는, 제어부(140)는, 상기 화상 통화 상대방의 얼굴 이미지 위에 상기 인식된 감성 정보에 대응하여 생성된 표정 랜드마크 포인트 이미지를 증강 현실(augmented reality)로 합성하여 상기 아바타 캐릭터를 생성할 수 있다.
상기 생성된 아바타 캐릭터는 저장부(130)에 저장될 수 있고, 저장된 아바타 캐릭터를 추후에 다시 사용할 수 있다.
제어부(140)는, 상기 생성된 아바타 캐릭터를 상기 화상 통화 상대방의 정보와 연계시켜 저장할 수 있다. 예를 들어, 상대방이 다시 화상 통화를 신청하면, 상대방의 통화 신청 안내와 상대방의 아바타 캐릭터 중 어느 하나가 디스플레이(182)에 표시될 수 있다.
한편, 본 발명의 일 실시예에 따른 로봇(100)의 제어부(140)는, 수신되는 영상 데이터에 기초하여 화상 통화 상대방의 움직임을 감지하고(S1750), 상기 인식된 화상 통화 상대방의 감성 정보를 매핑(mapping)하여 대응 모션(motion)을 판별할 수 있다(S1760).
또한, 제어부(140)는 판별된 대응 모션을 수행하도록 로봇(100)을 제어할 수 있다(S1770).
예를 들어, 화상 통화 시, 수신한 영상에서 상대방의 얼굴이 인식되고, 그 얼굴의 움직임이 감지되었을 때, 제어부(140)는 상대방 얼굴의 움직임 방향을 인지하여, 해당 방향으로 로봇(100)이 회전하도록 제어할 수 있다.
제어부(140)는 상대방 얼굴의 움직임 방향이 위, 아래 방향인 경우에 동일 방향으로 회전하고, 좌, 우 방향인 경우에는 영상 반전에 따라서 반대 방향으로 회전하도록 로봇(100)을 제어할 수 있다.
실시예에 따라서, 화상 통화 상대방 얼굴 움직임이 감지될 때, 제어부(140)는 상대방의 얼굴 움직임 방향에 따른 대응 모션의 정도를 다르게 제어할 수 있다.
예를 들어, 제어부(140)는 상대방의 얼굴 움직임 방향에 따 회전 각도를 다르게 설정하여, 위, 아래 방향은 한번에 3도씩 회전하고, 좌, 우 방향은 한번에 10도씩 회전하도록 제어할 수 있다.
또한, 제어부(140)는, 영상에서 화상 통화 상대방 얼굴의 움직임이 3초 동안 없을 경우, 얼굴이 인지되고 있는 상태이면, 회전된 상태를 그대로 유지하고, 그렇지 않은 경우에는 원위치로 돌아가도록 제어함으로써, 화상 통화 상대방의 움직임을 반영할 수 있다.
실시예에 따라서는, 제어부(140)는, 상기 화상 통화 상대방의 음성 데이터에 상기 인식된 화상 통화 상대방의 감성 정보를 매핑(mapping)하여 변환된 음성 데이터를 생성할 수 있다. 제어부(140)의 제어에 따라 음향 출력부(181)는 상기 변환된 음성 데이터를 발화할 수 있다.
이 경우에, 제어부(140)는, 상기 인식된 화상 통화 상대방의 감성 정보에 기초하여, 상기 화상 통화 상대방의 음성 데이터의 톤 또는 크기 중 적어도 하나를 변경할 수 있다. 예를 들어, 상기 인식된 화상 통화 상대방의 감성 정보가 행복인 경우에, 상기 화상 통화 상대방의 음성 데이터의 톤을 증가시킬 수 있다.
또한, 상기 인식된 화상 통화 상대방의 감성 정보가 싫음이거나 상기 인식된 화상 통화 상대방의 발화 내용 중 욕설이 포함된 경우에, 제어부(140)는, 상기 화상 통화 상대방의 음성 데이터의 크기를 줄여 출력하도록 음향 출력부(181)를 제어할 수 있다.
또한, 설정에 따라, 제어부(140)는, 상기 음성 데이터의 변경 정도를, 더 크게 조절함으로써 감정 표현을 강화하거나, 더 작게 조절함으로써 상기 감정 표현을 완화시킬 수 있다.
이에 따라, 사용자는 화상 통화 상대방의 감성을 더 크게 느끼고 공감하거나, 필요 이상의 감정 전달을 방지할 수 있다.
실시예에 따라서, 주변환경이 노출되는 것에 거부감이 있는 사용자를 위하여, 배경 영상을 생성하고, 상기 생성된 배경 영상 위에 상기 생성된 아바타 캐릭터를 표시할 수 있다. 이에 따라, 현재 사용자의 배경이 화상 통화 상대방에게 노출되는 것을 방지할 수 있다.
한편, 상기 화상 통화 상대방의 감성 인식(S1720)은, 로봇(100)에서 자체 수행될 수 있다.
이를 위해, 로봇(100)은, 영상 데이터 및 음성 데이터에 기초하여 감성 정보를 인식하도록 학습된 인공신경망을 포함하여, 상기 화상 통화 상대방 로봇으로부터 수신되는 데이터가 입력되면, 상기 화상 통화 상대방의 감성 정보를 인식하는 감성 인식기(74a)를 포함할 수 있다.
더욱 바람직하게, 상기 감성 인식기(74a)는, 복수의 유니모달 입력 및, 상기 복수의 유니모달 입력에 기초한 멀티모달 입력으로 감성 정보를 인식하도록 학습되어, 상기 복수의 유니모달 입력 각각에 대한 감성 인식 결과와 상기 멀티모달 입력에 대한 감성 인식 결과를 포함하는 복합 감성 인식 결과를 출력할 수 있다.
한편, 상기 화상 통화 상대방의 감성 인식(S1720)은, 감성 인식기(74a)를 구비하는 감성 인식 서버(70)에서 수행될 수 있다.
이 경우에, 상기 화상 통화 상대방의 감성 정보를 인식하는 단계(S1720)는, 로봇(100)이 영상 데이터 및 음성 데이터에 기초하여 감성 정보를 인식하도록 입력되는 학습된 인공신경망을 포함하는 감성 인식 서버(70)로 상기 화상 통화 상대방 로봇으로부터 수신되는 데이터를 송신하는 단계, 및, 상기 감성 인식 서버(70)로부터 감성 인식 결과를 수신하는 단계를 포함할 수 있다.
도 5를 참조하여 설명한 것과 같이, 상기 감성 인식 서버(70)는, 유니모달 입력으로 학습된 복수의 인공신경망(521, 522, 523)을 포함할 수 있다. 또한, 상기 감성 인식 서버(70)는, 상기 복수의 유니모달 입력에 기초한 멀티모달 입력으로 학습된 인공신경망(511)을 더 포함할 수 있다. 상기 감성 인식 서버(70)가 구비하는 인공신경망(511,521, 522, 523)은 각각의 입력 데이터에 적합한 인공신경망일 수 있다.
실시예에 따라서, 로봇(100)은 음향 출력부((181)가 출력하는 음성에 감성정보를 실어 매핑할 수 있다. 예를 들어, 상대방의 감성을 실시간으로 인식하여 욕설 등 과격한 음성은 순화해서 변경처리하여 전송하도록 할 수 있다. 또는 음성 내 감탄사를 더욱 강조하여 음량을 증가시켜서 출력하도록 할 수 있다.
본 발명에 따르면, 사용자의 음성, 영상, 텍스트 상에서 인식된 멀티모달의 감성값을 이용하여, 사용자와의 인터랙션 혹은 상대방과의 화상 통화에서 감성을 표현할 수 있다. 여기서, 인식된 감성은 긍정/부정/중립으로 표현되거나, 7종 감성클래스의 확률값으로 인식된 정보를 기반으로 할 수 있다.
또한. 음성, 영상, 텍스트 각각의 감성 인식 결과와 멀티모달 감성 인식 결과를 상호 보완적으로 사용할 수 있어, 감성 인식 정확성을 더욱 향상할 수 있다.
또한, 음성, 영상, 텍스트 각각의 감성정보가 상반되는 감성의 특징을 보이는 사용자를 판별할 수 있고, 특이점을 데이터베이스화하여 사용자와 로봇의 감성 교류 사용자 경험(UX)을 위해 사용할 수 있다.
본 발명의 일 실시예에 따르면, 사용자의 감정 인식 결과 값에 따라, 과장된 감정 표현 혹은 소극적인 감정 표현 등으로 감정 표현을 강화하거나 약화하는 레벨링을 수행할 수 있다.
로봇(100)은 사용자의 감성 특징점을 이해하고, 아바타로 인식된 감성 특징점을 재현할 수 있다. 예를 들어, 사용자가 웃을 때, 항상 한쪽 입꼬리가 올라가는 등 사용자 고유의 특징점(화자의 특정 감정에서의 표정)을 인식하고, 이를 아바타 캐릭터에 매핑할 수 있다.
또한, 로봇(100)은 사용자의 특정한 버릇이나 감정을 저장하고, 화상 통화 시 사용자의 감성 특징점을 반영한 아바타로 대체되었을 경우, 아바타 캐릭터가 사용자의 대리인 역할을 하는 것처럼 통화를 수행할 수 있다.
도 18 내지 도 21은 본 발명의 실시예에 따른 로봇 시스템의 동작 방법을 도시한 순서도이다.
도 18을 참조하면, 본 발명의 실시예에 따른 로봇 시스템은 화상 통화를 수행하는 제1 로봇(100a)과 제2 로봇(100b)을 포함할 수 있다.
제1 로봇(100a)과 제2 로봇(100b)은 화상 통화를 수행하면서 화상 통화에 필요한 데이터를 송수신할 수 있다(S1810).
예를 들어, 제2 로봇(100b)은, 제1 로봇(100a)으로부터 제1 로봇(100a)의 사용자가 촬영된 영상 데이터, 제1 로봇(100a)의 사용자가 발화한 음성 데이터 등을 수신할 수 있다(S1810). 이후에도, 지속적으로 제1 로봇(100a)과 제2 로봇(100b)은 화상 통화를 수행하면서 화상 통화에 필요한 데이터를 송수신할 수 있을 것이다.
한편, 제1 로봇(100a)으로부터 영상 데이터 및 음성 데이터를 수신한 제2 로봇(100b)은 상기 수신한 영상 데이터 및 음성 데이터에 기초하여 화상 통화 상대방인 제1 로봇(100a)의 사용자의 감성을 인식할 수 있다(S1820).
이를 위해, 제2 로봇(100b)은 상술한 감성 인식기(74a)를 구비할 수 있다.
한편, 제어부(140)는, 감성 인식기(74a)가 출력한 화상 통화 상대방의 감성 인식 결과를 제1 로봇(100a)의 사용자가 촬영된 영상 데이터에 기초하여 획득된 화상 통화 상대방의 얼굴 정보에 매핑하여 화상 통화 상대방의 아바타 캐릭터를 생성할 수 있다(S1830).
한편, 제어부(140)는, 제1 로봇(100a)의 사용자가 촬영된 영상 데이터로부터 화상 통화 상대방의 움직임을 감지할 수 있고(S1840), 화상 통화 상대방의 움직임에 대응하여 제2 로봇(100b)이 수행할 대응 모션을 판별할 수 있다(S1850).
이후, 제어부(140)의 제어에 따라, 제2 로봇(100b)은 생성된 아바타 캐릭터를 표시하고, 대응 모션을 수행함으로써, 화상 통화 상대방의 감성을 표현할 수 있다(S1860).
이에 따라, 제2 로봇(100b)의 사용자는 제2 로봇(100b)이 표시하는 캐릭터와 제2 로봇(100b)의 움직임으로부터 화상 통화 상대방의 감성을 직관적으로 알 수 있다.
동일한 방식으로 제1 로봇(100a)이 제2 로봇(100b)의 사용자의 감성을 인식하고, 인식된 감성 인식 결과에 기초한 아바타 캐릭터를 표시하고 대응 모션을 수행함으로써 제2 로봇(100b)의 사용자의 감성을 표현할 수 있다.
본 발명의 일 실시예에 따른 로봇(100a, 100b)은, 평상시, 사용자의 감성을 음성, 영상, 텍스트로 인식하고 사용자 감성의 특징점을 저장할 수 있다. 또한, 평상시 사용자의 저장된 감성 특징점 정보를 기반으로 아바타가 상대방과 대신 통화할 수 있다.
또한, 로봇(100a, 100b)을 이용한 P2P 화상 통화 시, 사용자 감성을 아바타에 매핑하여 감성 아바타로 통화할 수 있다. 실시간으로 발신자나 수신자의 인식된 감성을 아바타를 매핑하여 움직이되, 아바타 캐릭터에서는 감성의 특징점을 더욱 강조하여 표현할 수 있다.
화상 통화 시, 화자의 감정을 실시간 인식하고, 인식 결과 값에 매핑되는 다양한 캐릭터를 화자의 얼굴 위에 오버레이(overlay)하여 표시하거나, 화자를 대체하여 표시함으로써, 상대의 감정을 쉽게 파악할 수 있다.
또한, 화상 통화 시,화자의 제스처를 인식하여 해당 제스처를 로봇의 모션으로 매핑하여 동작하도록 함으로써. 사용자는 상대의 감정을 로봇의 모션을 통해 직관적으로 인식할 수 있고, 재미요소를 기대할 수 있다.
본 발명은 감성 인식기(74a)에서 사용자의 얼굴, 음성, 텍스트 등의 멀티모달 감성을 인식하고, 인식된 감성 정보를 이용하여 로봇(100a, 100b)은, 아바타 캐릭터에 특정 감정을 매핑할 수 있다.
이에 따라, 대화 내용상의 감성을 인식하여 긍정적인 인터랙션을 유도할 수 있다.
도 19를 참조하면, 본 발명의 실시예에 따른 로봇 시스템은 화상 통화를 수행하는 제1 로봇(100a)과 제2 로봇(100b) 및 하나 이상의 감성 인식 서버(70b)를 포함할 수 있다.
도 19는 감성 인식을 제2 로봇(100b)에 연결된 감성 인식 서버(70b)에서 수행되는 점에서 도 18의 실시예와 차이가 있다. 이를 위해, 감성 인식 서버(70b)는 상술한 감성 인식기(74a)를 구비할 수 있다.
제1 로봇(100a)과 제2 로봇(100b)은 화상 통화를 수행하면서 화상 통화에 필요한 데이터를 송수신할 수 있다(S1910).
제1 로봇(100a)으로부터 영상 데이터 및 음성 데이터를 수신한 제2 로봇(100b)은 상기 수신한 영상 데이터 및 음성 데이터를 상기 감성 인식 서버(70b)로 전송할 수 있다(S1920).
상기 감성 인식 서버(70b)는, 수신한 데이터에 기초하여 화상 통화 상대방인 제1 로봇(100a)의 사용자의 감성을 인식하고(S1925), 감성 인식 결과를 제2 로봇(100b)으로 송신할 수 있다(S1930).
이후에는 동일하게, 제2 로봇(100b)이 인식된 감성 정보를 화상 통화 상대방의 얼굴 정보에 매핑하여 화상 통화 상대방의 아바타 캐릭터를 생성할 수 있다(S1940).
만약, 제1 로봇(100a)의 사용자가 촬영된 영상 데이터로부터 화상 통화 상대방의 움직임을 감지되면(S1950), 제2 로봇(100b)은 화상 통화 상대방의 움직임에 대응하여 수행할 대응 모션을 판별할 수 있다(S1960).
이후, 제2 로봇(100b)은 생성된 아바타 캐릭터를 표시하고, 대응 모션을 수행함으로써, 화상 통화 상대방의 감성을 표현할 수 있다(S1970).
이에 따라, 제2 로봇(100b)의 사용자는 제2 로봇(100b)이 표시하는 캐릭터와 제2 로봇(100b)의 움직임으로부터 화상 통화 상대방의 감성을 직관적으로 알 수 있다.
도 20을 참조하면, 본 발명의 실시예에 따른 로봇 시스템은 화상 통화를 수행하는 제1 로봇(100a)과 제2 로봇(100b) 및 하나 이상의 감성 인식 서버(70b)를 포함할 수 있다.
도 20은 화상 통화 상대방의 움직임 감지(S2025)를 감성 인식 결과의 수신 전(S2035)에 수행하는 점에서 도 19의 실시예와 차이가 있다.
도 20을 참조하면, 제2 로봇(100b)은 제1 로봇(100a)으로부터 데이터를 수신하고(S2010), 수신한 데이터를 감성 인식 서버(70b)로 전달할 수 있다(S2020).
한편, 제2 로봇(100b)은 수신한 데이터에 기초하여 화상 통화 상대방의 움직임을 감지할 수 있다(S2025).
한편, 감성 인식 서버(70b)는 감성 인식을 수행하고(S2030), 그 결과를 제2 로봇(100b)으로 송신할 수 있다(S2035).
감성 인식 결과가 수신되면(S2035), 제2 로봇(100b)은 감성 인식 결과를 사용자 얼굴 정보에 매핑하여 아바타 캐릭터를 생성하고(S2040), 화상 통화 상대방의 움직임에 대응하는 대응 모션을 판별할 수 있다(S2050).
이후, 제2 로봇(100b)은 생성된 아바타 캐릭터를 표시하고, 대응 모션을 수행함으로써, 화상 통화 상대방의 감성을 표현할 수 있다(S2060).
도 21을 참조하면, 본 발명의 실시예에 따른 로봇 시스템은 화상 통화를 수행하는 제1 로봇(100a)과 제2 로봇(100b) 및 하나 이상의 감성 인식 서버(70a)를 포함할 수 있다.
도 21을 참조하면, 제1 로봇(100a)은 사용자의 얼굴이 포함된 데이터, 사용자의 발화 음성이 포함된 데이터 등 사용자 관련 데이터를 획득할 수 있다(S2110).
제1 로봇(100a)은 획득된 사용자 관련 데이터 감성 인식 서버(70a)로 전달할 수 있다(S2115).
한편, 감성 인식 서버(70a)는 수신된 데이터에 기초하여 감성 인식을 수행하고(S2120), 그 결과를 제1 로봇(100a)으로 송신할 수 있다(S2125).
감성 인식 결과가 수신되면(S2125), 제1 로봇(100a)은 감성 인식 결과를 사용자 얼굴 정보에 매핑하여 아바타 캐릭터를 생성할 수 있다(S2130).
제1 로봇(100a)은 화상 통화 상대방의 로봇인 제2 로봇(100b)에 인식된 감성 정보 또는 생성된 아바타 캐릭터를 송신할 수 있고(S2140). 생성된 아바타 캐릭터를 표시할 수 있다(S2150).
또는 제1 로봇(100a)은 생성된 아바타 캐릭터를 표시한 후에(S2150), 제2 로봇(100b)에 인식된 감성 정보 또는 생성된 아바타 캐릭터를 송신할 수도 있다(S2140).
한편, 제2 로봇(100b)은 설정에 따라서, 수신된 아바타 캐릭터를 표시하거나, 수신된 감성 정보에 기초하여, 제1 로봇(100a) 사용자의 감성을 표현할 수 있다.
본 발명의 실시예들 중 적어도 하나에 의하면, 사용자 감성(emotion)을 인식하고 감성기반의 서비스를 제공할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 딥러닝으로 학습된 인공지능을 이용하여 사용자의 감성을 더욱 정확하게 인식할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 사용자의 감성을 표현하는 캐릭터를 자동으로 생성하고 이용할 수 있어 사용자에게 재미와 사용 편의성을 제공할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 사용자의 감성을 표현하는 캐릭터를 이용하여, 사용자와 로봇 사이의 커뮤니케이션, 사용자들 사이의 커뮤니케이션에 감성적 요소를 더 하는 효과가 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 화상 통화 참가자 중 적어도 하나의 감성을 인식하고, 인식된 감성에 따라 캐릭터를 생성할 수 있어, 화상 통화 참가자의 감성을 직관적으로 확인할 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 화상 통화 상대방의 감성을 로봇을 통하여 전달할 수 있어, 사용자의 만족도와 편의성을 높일 수 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 화상 통화 상대방의 움직임을 인식하여 로봇이 대응되는 동작을 수행함으로써, 사람들이 화상 통화를 더욱 재밌고 편리하게 이용할 수 있는 효과가 있다.
본 발명에 따른 로봇 및 로봇 시스템은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
한편, 본 발명의 실시예에 따른 로봇 및 로봇 시스템의 동작 방법은, 프로세서가 읽을 수 있는 기록매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 기록매체는 프로세서에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 프로세서가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한, 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한, 프로세서가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
Claims (20)
- 본체 전면에 위치하는 사용자의 영상을 획득하는 카메라를 포함하는 영상 획득부, 상기 사용자의 음성 입력을 수신하는 음성 입력부, 소정 영상을 표시하는 디스플레이, 및, 소정 음향을 출력하는 음향 출력부를 포함하는 로봇의 동작 방법에 있어서,사용자의 얼굴을 포함하는 영상 데이터와 상기 사용자가 발화한 음성 데이터를 포함하는 상기 사용자와 관련된 데이터를 획득하는 단계;상기 사용자의 얼굴을 포함하는 영상 데이터 및 상기 사용자가 발화한 음성 데이터에 기초하여 상기 사용자의 감성 정보를 인식하는 단계; 및,상기 사용자와 관련된 데이터에 포함되는 상기 사용자의 얼굴 정보에 상기 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성하는 단계;를 포함하는 로봇의 동작 방법.
- 제1항에 있어서,상기 감성 정보 인식 단계는,상기 영상 데이터에 기초한 감성 정보 인식 결과와 상기 음성 데이터에 기초한 감성 정보 인식 결과를 모두 사용하여 상기 사용자의 감성을 판별하는 것을 특징으로 하는 로봇의 동작 방법.
- 제2항에 있어서,상기 음성 데이터에 기초한 감성 정보 인식 결과는,상기 사용자가 발화한 음성 데이터를 텍스트(text)로 변환한 텍스트 데이터에서 인식된 감성 인식 결과와 상기 사용자가 발화한 음성 데이터의 사운드(sound) 데이터에서 인식된 감성 정보 인식 결과를 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 인식된 사용자의 감성 정보에 기초하여, 상기 음향 출력부에서 발화하는 목소리를 변경하는 단계;를 더 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 인식된 사용자의 감성 정보에 기초하여, 상기 음향 출력부의 음향 관련 설정 중 적어도 하나를 변경하는 단계;를 더 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 생성된 아바타 캐릭터를 디폴트(default) 화면 또는 특정 상황에서 표시되는 화면으로 사용하는 단계;를 더 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 사용자와 관련된 데이터는,상기 사용자가 촬영된 동영상 데이터 또는 상기 사용자를 촬영하는 실시간 동영상 데이터인 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 생성된 아바타 캐릭터를 상기 사용자의 정보와 연계시켜 저장하는 단계;를 더 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,다른 기기로 소정 데이터를 전송하는 경우에, 상기 아바타 캐릭터 또는 상기 인식된 감성 정보를 상기 소정 데이터와 함께 전송하는 단계;를 더 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 사용자와 관련된 데이터를 획득하는 단계는, 소정 시간 동안 상기 사용자의 영상 데이터 및 음성 데이터를 획득하고,상기 사용자의 감성 정보를 인식하는 단계는, 상기 사용자의 영상 데이터 및 음성 데이터에 기초하여, 상기 소정 시간 동안의 상기 사용자의 감성 정보들을 인식하고,상기 아바타 캐릭터를 생성하는 단계는, 상기 사용자의 영상 데이터에 상기 사용자의 감성 정보들을 매핑(mapping)하고, 상기 사용자의 음성 데이터를 동기화하여, 상기 아바타 캐릭터의 동영상을 생성하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 사용자의 저장된 아바타 캐릭터 중 어느 하나를 표시하는 단계;를 더 포함하는 로봇의 동작 방법.
- 제1항에 있어서,상기 아바타 캐릭터 생성 단계는,상기 인식된 사용자의 감성 정보에 대응하여, 상기 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를 조절하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 아바타 캐릭터 생성 단계는,설정에 따라, 상기 아바타 캐릭터의 표정 랜드마크 포인트들의 변화 정도를, 더 크게 조절함으로써 감정 표현을 강화하거나, 더 작게 조절함으로써 상기 감정 표현을 완화시키는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 아바타 캐릭터 생성 단계는,기설정된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 상기 아바타 캐릭터를 생성하거나,상기 사용자의 얼굴 정보에 기초하여 생성된 애니메이션 캐릭터의 표정 랜드마크 포인트들을 상기 인식된 감성 정보에 대응하도록 변경하여 상기 아바타 캐릭터를 생성하거나,상기 사용자의 얼굴 이미지 위에 상기 인식된 감성 정보에 대응하여 생성된 표정 랜드마크 포인트 이미지를 증강 현실(augmented reality)로 합성하여 상기 아바타 캐릭터를 생성하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 로봇은, 영상 데이터 및 음성 데이터에 기초하여 감성 정보를 인식하도록 학습된 인공신경망을 포함하여, 상기 사용자와 관련된 데이터가 입력되면, 상기 사용자의 감성 정보를 인식하는 감성 인식기를 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 로봇은, 영상 데이터 및 음성 데이터에 기초하여 감성 정보를 인식하도록 학습된 인공신경망을 포함하여, 상기 사용자와 관련된 데이터가 입력되면, 상기 사용자의 감성 정보를 인식하는 감성 인식기를 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 제15항에 있어서,상기 감성 인식기는,복수의 유니모달 입력 및, 상기 복수의 유니모달 입력에 기초한 멀티모달 입력으로 감성 정보를 인식하도록 학습되어, 상기 복수의 유니모달 입력 각각에 대한 감성 인식 결과와 상기 멀티모달 입력에 대한 감성 인식 결과를 포함하는 복합 감성 인식 결과를 출력하는 것을 특징으로 하는 로봇의 동작 방법.
- 제1항에 있어서,상기 사용자의 감성 정보를 인식하는 단계는,감성 인식 서버로 상기 사용자와 관련된 데이터를 송신하는 단계, 및,상기 감성 인식 서버로부터 감성 인식 결과를 수신하는 단계를 포함하고,상기 감성 인식 서버는 입력되는 영상 데이터 및 음성 데이터에 기초하여 감성 정보를 인식하도록 학습된 인공신경망을 포함하는 것을 특징으로 하는 로봇의 동작 방법.
- 사용자의 얼굴을 포함하는 영상 데이터를 획득하는 카메라를 포함하는 영상 획득부;상기 사용자가 발화한 음성 데이터를 획득하는 음성 입력부;소정 영상을 표시하는 디스플레이;소정 음향을 출력하는 음향 출력부;상기 사용자의 얼굴을 포함하는 영상 데이터 및 상기 사용자가 발화한 음성 데이터에 기초하여 상기 사용자의 감성 정보를 인식하는 감성 인식기; 및,상기 사용자의 얼굴 정보에 상기 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성하는 제어부;를 포함하는 로봇.
- 사용자의 얼굴을 포함하는 영상 데이터를 획득하는 카메라를 포함하는 영상 획득부;상기 사용자가 발화한 음성 데이터를 획득하는 음성 입력부;소정 영상을 표시하는 디스플레이;소정 음향을 출력하는 음향 출력부;상기 사용자의 얼굴을 포함하는 영상 데이터 및 상기 사용자가 발화한 음성 데이터를 서버로 송신하고, 상기 서버로부터 감성 인식 결과를 수신하는 통신부; 및,상기 사용자의 얼굴 정보에 상기 인식된 사용자의 감성 정보를 매핑(mapping)하여 아바타 캐릭터를 생성하는 제어부;를 포함하는 로봇.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/976,154 US11948241B2 (en) | 2018-09-14 | 2019-05-31 | Robot and method for operating same |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0110501 | 2018-09-14 | ||
KR1020180110501A KR102242779B1 (ko) | 2018-09-14 | 2018-09-14 | 로봇 및 그 동작 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020054945A1 true WO2020054945A1 (ko) | 2020-03-19 |
Family
ID=69777855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/006614 WO2020054945A1 (ko) | 2018-09-14 | 2019-05-31 | 로봇 및 그 동작 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11948241B2 (ko) |
KR (1) | KR102242779B1 (ko) |
WO (1) | WO2020054945A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699774A (zh) * | 2020-12-28 | 2021-04-23 | 深延科技(北京)有限公司 | 视频中人物的情绪识别方法及装置、计算机设备及介质 |
CN112733994A (zh) * | 2020-12-10 | 2021-04-30 | 中国科学院深圳先进技术研究院 | 机器人的自主情感生成方法、系统及应用 |
CN113609851A (zh) * | 2021-07-09 | 2021-11-05 | 浙江连信科技有限公司 | 心理学上想法认知偏差的识别方法、装置及电子设备 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016072116A1 (ja) * | 2014-11-07 | 2016-05-12 | ソニー株式会社 | 制御システム、制御方法、および記憶媒体 |
KR102198187B1 (ko) * | 2018-12-28 | 2021-01-04 | 엘지전자 주식회사 | 이동 로봇 |
US11461948B2 (en) * | 2020-07-15 | 2022-10-04 | De-Identification Ltd. | System and method for voice driven lip syncing and head reenactment |
US11436781B2 (en) | 2020-07-15 | 2022-09-06 | De-Identification Ltd. | System and method for artificial neural-network based animation with three-dimensional rendering |
US11276214B2 (en) | 2020-07-15 | 2022-03-15 | De-Ideniification Ltd. | System and a method for artificial neural-network based animation |
USD980864S1 (en) * | 2020-07-16 | 2023-03-14 | Lg Electronics Inc. | Display screen or a portion thereof with graphical user interface |
US20230032760A1 (en) * | 2021-08-02 | 2023-02-02 | Bear Robotics, Inc. | Method, system, and non-transitory computer-readable recording medium for controlling a serving robot |
US20240037824A1 (en) * | 2022-07-26 | 2024-02-01 | Verizon Patent And Licensing Inc. | System and method for generating emotionally-aware virtual facial expressions |
KR102567931B1 (ko) * | 2022-09-30 | 2023-08-18 | 주식회사 아리아스튜디오 | 시청자 반응을 기초로 인터랙티브 시나리오를 업데이트하는 콘텐츠 생성 플랫폼 장치 |
US12045639B1 (en) * | 2023-08-23 | 2024-07-23 | Bithuman Inc | System providing visual assistants with artificial intelligence |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160116311A (ko) * | 2016-09-23 | 2016-10-07 | 경북대학교 산학협력단 | 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR20170095817A (ko) * | 2014-12-11 | 2017-08-23 | 인텔 코포레이션 | 아바타 선택 메커니즘 |
US20180027307A1 (en) * | 2016-07-25 | 2018-01-25 | Yahoo!, Inc. | Emotional reaction sharing |
KR101854431B1 (ko) * | 2016-11-15 | 2018-05-03 | 주식회사 로보러스 | 컨시어지 로봇 |
KR20180079824A (ko) * | 2017-01-02 | 2018-07-11 | 엘지전자 주식회사 | 홈 로봇 및 그 동작 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100958030B1 (ko) | 2007-11-28 | 2010-05-17 | 중앙대학교 산학협력단 | 결정 융합 기반 감정인식 방법 및 시스템 |
US10708203B2 (en) | 2014-06-25 | 2020-07-07 | Convergence Acceleration Solutions, Llc | Systems and methods for indicating emotions through electronic self-portraits |
US20180089880A1 (en) | 2016-09-23 | 2018-03-29 | Apple Inc. | Transmission of avatar data |
US10289076B2 (en) * | 2016-11-15 | 2019-05-14 | Roborus Co., Ltd. | Concierge robot system, concierge service method, and concierge robot |
-
2018
- 2018-09-14 KR KR1020180110501A patent/KR102242779B1/ko active IP Right Grant
-
2019
- 2019-05-31 WO PCT/KR2019/006614 patent/WO2020054945A1/ko active Application Filing
- 2019-05-31 US US16/976,154 patent/US11948241B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170095817A (ko) * | 2014-12-11 | 2017-08-23 | 인텔 코포레이션 | 아바타 선택 메커니즘 |
US20180027307A1 (en) * | 2016-07-25 | 2018-01-25 | Yahoo!, Inc. | Emotional reaction sharing |
KR20160116311A (ko) * | 2016-09-23 | 2016-10-07 | 경북대학교 산학협력단 | 로봇의 표정 기반 연속적 정서 인식 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101854431B1 (ko) * | 2016-11-15 | 2018-05-03 | 주식회사 로보러스 | 컨시어지 로봇 |
KR20180079824A (ko) * | 2017-01-02 | 2018-07-11 | 엘지전자 주식회사 | 홈 로봇 및 그 동작 방법 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733994A (zh) * | 2020-12-10 | 2021-04-30 | 中国科学院深圳先进技术研究院 | 机器人的自主情感生成方法、系统及应用 |
CN112733994B (zh) * | 2020-12-10 | 2024-07-12 | 中国科学院深圳先进技术研究院 | 机器人的自主情感生成方法、系统及应用 |
CN112699774A (zh) * | 2020-12-28 | 2021-04-23 | 深延科技(北京)有限公司 | 视频中人物的情绪识别方法及装置、计算机设备及介质 |
CN112699774B (zh) * | 2020-12-28 | 2024-05-24 | 深延科技(北京)有限公司 | 视频中人物的情绪识别方法及装置、计算机设备及介质 |
CN113609851A (zh) * | 2021-07-09 | 2021-11-05 | 浙江连信科技有限公司 | 心理学上想法认知偏差的识别方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US11948241B2 (en) | 2024-04-02 |
US20200410739A1 (en) | 2020-12-31 |
KR102242779B1 (ko) | 2021-04-20 |
KR20200034038A (ko) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020054945A1 (ko) | 로봇 및 그 동작 방법 | |
WO2019182325A1 (ko) | 전자 장치 및 전자 장치의 음성 인식 제어 방법 | |
WO2020235696A1 (ko) | 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법 | |
WO2020246844A1 (en) | Device control method, conflict processing method, corresponding apparatus and electronic device | |
WO2016018029A1 (en) | Mobile terminal and method of operating the same | |
WO2020213758A1 (ko) | 음성으로 상호작용하는 인공 지능 장치 및 그 방법 | |
WO2019225961A1 (en) | Electronic device for outputting response to speech input by using application and operation method thereof | |
WO2017171137A1 (ko) | 보청장치, 휴대장치 및 그 제어방법 | |
WO2020241951A1 (ko) | 인공지능 학습방법 및 이를 이용하는 로봇의 동작방법 | |
WO2019078608A1 (ko) | 외부 장치를 이용하여 음성 기반 서비스를 제공하기 위한 전자 장치, 외부 장치 및 그의 동작 방법 | |
WO2020246647A1 (ko) | 인공 지능 시스템의 동작을 관리하는 인공 지능 장치 및 그 방법 | |
WO2019112295A1 (ko) | 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법 | |
WO2022191435A1 (ko) | 사용자의 동작을 보조하기 위한 전자 장치 및 시스템 | |
WO2020218635A1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
WO2021086065A1 (en) | Electronic device and operating method thereof | |
WO2020263016A1 (ko) | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 | |
WO2020138564A1 (ko) | 전자 장치 | |
WO2019066133A1 (ko) | 혼합 현실에서의 가상 모바일 단말 구현 시스템 및 이의 제어 방법 | |
WO2022055116A1 (ko) | 반려동물의 감정 상태를 표현하는 로봇 및 그 제어 방법 | |
WO2020130662A1 (en) | Electronic device and method for controlling operation of accessory-mountable robot | |
WO2023090831A1 (ko) | 사용자 입력에 기반하여 사운드를 제공하는 전자 장치 및 그 동작 방법 | |
WO2020251101A1 (ko) | 사용자의 동선을 결정하는 인공 지능 장치 및 그 방법 | |
WO2020251102A1 (ko) | 사용자의 동선에 기초한 서비스를 제공하는 인공 지능 장치 및 그 방법 | |
WO2022131533A1 (ko) | 주변 소리 제어 방법 및 이를 위한 전자 장치 | |
WO2022010187A1 (ko) | 전자 장치 및 전자 장치의 인증 동작 수행 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19859963 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19859963 Country of ref document: EP Kind code of ref document: A1 |