WO2019160396A2 - 안내 로봇 및 안내 로봇의 동작 방법 - Google Patents

안내 로봇 및 안내 로봇의 동작 방법 Download PDF

Info

Publication number
WO2019160396A2
WO2019160396A2 PCT/KR2019/004336 KR2019004336W WO2019160396A2 WO 2019160396 A2 WO2019160396 A2 WO 2019160396A2 KR 2019004336 W KR2019004336 W KR 2019004336W WO 2019160396 A2 WO2019160396 A2 WO 2019160396A2
Authority
WO
WIPO (PCT)
Prior art keywords
voice
greeting
received
preset
user
Prior art date
Application number
PCT/KR2019/004336
Other languages
English (en)
French (fr)
Other versions
WO2019160396A3 (ko
Inventor
신원호
맹지찬
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US16/490,468 priority Critical patent/US11276399B2/en
Priority to PCT/KR2019/004336 priority patent/WO2019160396A2/ko
Priority to KR1020197022511A priority patent/KR20210138181A/ko
Publication of WO2019160396A2 publication Critical patent/WO2019160396A2/ko
Publication of WO2019160396A3 publication Critical patent/WO2019160396A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/008Manipulators for service tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/021Optical sensing devices
    • B25J19/023Optical sensing devices including video camera means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1692Calibration of manipulator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a guide robot capable of communicating with an artificial intelligence server.
  • Artificial intelligence technology is not only a research subject in itself, but also directly or indirectly combined with other fields of computer science to provide a variety of functions.
  • attempts have been made to introduce artificial intelligence elements in various fields of information technology and use them to solve problems in those fields.
  • Strong AI is a technology that allows humans to think and make decisions that are similar to humans.
  • Weak AI is a level of technology that provides an optimal solution by performing cognitive processes such as perception and reasoning through computational models.
  • the WO 2017/217978 A1 patent document provides a method for activating a voice app through at least one wake-up word, and determining whether the voice spoken by the speaker includes the start-up word. Disclosed is a configuration for performing information display.
  • an object of the present invention is to provide a guide robot and its operation method implemented to improve the usability while giving a more friendly to the user.
  • Another object of the present invention is to provide a guide robot and a method of operating the same, which continuously perform a customized response according to various features and vocabulary of the user even when the user does not query for a specific purpose. .
  • Another object of the present invention is to provide a guide robot and a method of operating the same, which can perform a response by distinguishing whether a user simply wants to greet or want to be provided with more specific information.
  • the guide robot comprises a voice receiver configured to receive voice; A controller for determining whether a preset start word is included in the received voice; And a wireless communication unit configured to communicate with an artificial intelligence server configured to be activated by a preset startup language, wherein the controller is configured to transmit the received voice to the artificial intelligence server when the preset startup language is included in the received voice. And outputting the received result information by receiving the result information from the artificial intelligence server, and outputting a response voice selected according to a predetermined criterion when the preset start word is not included in the received voice.
  • the controller may perform a greeting recognition operation when the preset start word is not included in the received voice.
  • the controller may perform a greeting based on a detection signal received from at least one sensor. It is characterized by determining whether it is recognized.
  • the controller may further determine whether one or more requests are included in the recognized greeting, and select a response voice based on the determination result. Characterized in that.
  • the controller if the determination result, if the recognized greeting includes one or more requests, the controller outputs a guide voice according to the recognized request, and the determination result, the one or more requests in the recognized greeting. If not included, it is characterized in that for outputting a response voice matching the recognized greeting.
  • the controller when the greeting is not recognized in the greeting recognition operation, the controller performs a misrecognition operation and a greeting learning based on the received voice.
  • the response voice selected according to the preset criterion may be any one of a greeting voice matching the received voice and a guide voice guiding utterance of the preset starter.
  • the controller may start a greeting recognition operation when a preset start word is not included in the received voice, output a response voice matching the received voice according to the greeting recognition operation, and And in response to satisfying a predetermined condition after outputting the response voice, outputting a guide voice for guiding the utterance of the preset starting word.
  • the predetermined condition may include at least one of when the volume of the received voice is increased, when the number of input voices within a predetermined time is more than a certain number of times, or when a new voice is received within a predetermined time after the utterance of the response voice. Characterized by including one.
  • the controller if a new voice is received within a predetermined time without satisfying the predetermined condition after outputting the response voice, the controller outputs a response voice matching the new voice, and after outputting the response voice.
  • the greeting recognition operation is terminated when a predetermined time elapses without satisfying a predetermined condition.
  • the apparatus may further include a sensor configured to detect a user approaching the guide robot body, wherein the controller starts a greeting recognition operation when a preset start word is not included in the received voice, and sets the sensor.
  • the controller starts a greeting recognition operation when a preset start word is not included in the received voice, and sets the sensor.
  • the user may be identified to classify the user characteristics, and the greeting may be processed and output as a response voice to fit the classified user characteristics.
  • the controller when a user approaching through the sensor is detected, acquires a face image of the user by activating the camera, and extracts and classifies a user feature by analyzing the acquired face image. It is characterized by.
  • the controller determines whether a predetermined keyword is included in the received voice, and if the determined keyword includes the determined keyword, the corresponding keyword. It is characterized in that for transmitting the voice included in the voice recognition server to receive the context information corresponding to the keyword, and outputs the response voice generated based on the received context information.
  • the operation method of the guide robot comprising the steps of: receiving a user's voice; Determining whether a received start word is included in the received voice; When the received voice includes a preset start word, transmitting the received voice to an artificial intelligence server set to be activated by the preset starting word, receiving result information from the artificial intelligence server, and outputting the received result information. ; And outputting a response voice selected according to a preset criterion when the preset start word is not included in the received voice.
  • the outputting of the response voice selected according to the preset criterion may include: performing a greeting recognition operation when the preset start word is not included in the received voice; Determining whether the greeting is recognized as a greeting based on a detection signal received from at least one sensor in the greeting recognition operation; And if the greeting is recognized according to the greeting recognition operation, further determining whether one or more requests are included in the recognized greeting, and selecting a response voice based on the determination result.
  • the method may further include: outputting a guide voice according to the recognized request if the one or more requests are included in the recognized greeting as a result of determining whether the one or more requests are included. ; And if it is determined that one or more requests are included, if the one or more requests are not included in the recognized greeting, outputting a response voice matching the recognized greeting.
  • the guide robot according to the embodiment of the present invention as described above can improve usability by guiding the user to naturally interface with the user while giving a more friendly feeling.
  • the user may be able to grasp the characteristics of the user who is supposed to be uttered, perform a customized response, and continuously learn a new daily vocabulary.
  • the starter word even if the user does not speak the starter word, it is possible to distinguish whether the user simply wants to greet the user without the purpose and whether the user wants to be provided with specific information, and thereby performs an appropriate response. As a result, extended daily conversation becomes possible, and thus high friendliness and sensitivity can be felt.
  • FIG. 1 is a view showing an example of a guide robot related to the present invention.
  • FIG. 2 is a block diagram showing an exemplary configuration of a guide robot according to the present invention.
  • FIG 3 is a view for explaining a voice recognition process of the guide robot related to the present invention.
  • Figure 4 is a representative flow chart for explaining the operation of the guide robot related to the present invention.
  • FIG. 5 is a flowchart illustrating a process of outputting different responses according to whether a request is included in a greeting in the guide robot according to the present invention.
  • FIG. 6 is a flowchart illustrating a process of determining whether to output a starter guide voice according to whether a preset condition is satisfied in the guide robot according to the present invention.
  • 7A and 7B are exemplary views outputting different response voices related to FIG. 6.
  • FIG 8, 9A and 9B are diagrams for explaining outputting a greeting voice suitable for a feature of an approaching user in a guide robot according to the present invention.
  • FIG. 10 is a flowchart for describing a processing operation when a received keyword includes a predetermined keyword instead of a preset start word in the guide robot according to the present invention.
  • the "guide robot” disclosed herein refers to a robot that can provide a variety of information, such as road guidance, product information, airport information to the user using the guide robot, such as airports, department stores.
  • the "guide robot” disclosed in the present specification may refer to a robot capable of performing autonomous driving by itself in order to guide a user to a road, a specific place, and the like.
  • the "guide robot” disclosed herein may perform interactions and movements through continuous conversations in addition to screens, voices, and LEDs in order to provide various information or guidance to the user.
  • the guide robot 100 includes a head 102, a camera 121, a speaker 152, a voice recognition unit (not shown), a display unit 151, and a traveling unit ( 130).
  • the guide robot 100 according to the present invention may be implemented by removing some of the means disclosed herein or further including other means.
  • the appearance of the guide robot 100 according to the present invention may be largely made to include an upper module including the head 102 and the display unit 151 and a lower module including the driving unit 130.
  • the upper module and the lower module may be provided to be removable from each other.
  • the upper module provides a user interface changeable according to a service environment.
  • the lower module provides a driving function for the movement of the guide robot body.
  • the upper module may form a body again, and may be divided into a body part including a display unit 151 and a head part 102 including a camera 121 and the like.
  • the camera may be provided in the body portion or the display portion may be disposed in the head portion 102.
  • the camera 121 may be provided at one side of the case of the head 102 or one side of the case of the body portion.
  • the camera 121 may be provided in plurality. In this case, one may be provided to the front of the main body to face the front, the other may be provided to the side or rear to face the side / rear. Accordingly, an angle of view of 360 degrees can be formed.
  • the first camera may include, for example, a 3D stereo camera.
  • the 3D stereo camera may perform functions such as obstacle detection, user face recognition, and stereoscopic image acquisition.
  • the guide robot 100 may detect and avoid obstacles existing in its moving direction by using the first camera, and may recognize various types of control operations by recognizing a user.
  • the second camera may include, for example, a slam (Simultaneous Localization And Mapping) camera.
  • the slam camera tracks the current position of the camera through feature point matching and creates a 3D map based on this.
  • the guide robot 100 may determine its current location using the second camera.
  • the speaker 152 performs a function of notifying voice of information to be provided to the user. Specifically, a response or a search result corresponding to a user's voice received through a microphone (not shown) and a voice recognition unit (not shown) included in the guide robot 100 is output as a voice through the speaker 152.
  • a speaker may be provided on an outer circumferential surface of the body part in which the head part 102 or the display part 151 is provided.
  • the display unit 151 may be positioned in the longitudinal direction in one direction of the body portion, and may display a screen to provide visual information, for example, guide information.
  • the display unit 151 may include a display module, a touch sensor, and a pressure sensor.
  • the display unit 151 may be implemented to open and close the inside of the body part, for example, in combination with the movement guide means.
  • the display unit 151 may be implemented to be fixed to the body unit using a fixing member, for example.
  • the display unit 151 is provided at the rear with respect to the head 102 in consideration of the case where the guide robot 100 moves in a line set in order to guide the user to the path. Or may be further provided in the rear in addition to the front. Alternatively, the head 102 may be rotated 180 degrees prior to the line movement in the set path so that the appearance may be modified as if the display unit 151 is located at the rear.
  • the display unit 151 performs a function of displaying visual information (eg, road guide information, query information) related to a currently provided service. As the user moves along the guide robot 100, the user may see the display unit 151 installed behind the guide robot 100.
  • visual information eg, road guide information, query information
  • the driving unit 130 performs movement and rotation of the main body of the guide robot 100.
  • the driving unit 130 may include a plurality of wheels and a driving motor.
  • the driving of the driving unit 130 is controlled according to a control command received by the controller, and a notification may be provided through output means such as an LED before and after driving.
  • FIG. 2 is a block diagram showing an exemplary configuration of a guide robot according to the present invention.
  • the guide robot 100 includes a communication unit 110, an input unit 120, a driving unit 130, a sensing unit 140, an output unit 150, a running data unit 160, a memory 170,
  • the controller 180 and the power supply unit 190 may be included.
  • the components shown in FIG. 2 are not essential to implementing a guide robot, so the guide robot described herein may have more or fewer components than those listed above.
  • the communication unit 110 may include one or more modules that enable wireless communication between the guide robot 100 and an external server, for example, an artificial intelligence server or an external terminal.
  • the communication unit 110 may include one or more modules for connecting the guide robot 100 to one or more networks.
  • the communication unit 110 may include, for example, a wireless local area network (WLAN), a wireless fidelity (Wi-Fi), a wireless fidelity (Wi-Fi) direct, a digital living network alliance (DLNA), a wireless broadband (WiBro), and a WiMAX ( Wireless Internet communication technologies such as World Interoperability for Microwave Access (HSDPA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), and Long Term Evolution-Advanced (LTE-A) To communicate with an artificial intelligence server.
  • WLAN wireless local area network
  • Wi-Fi wireless fidelity
  • Wi-Fi wireless fidelity
  • DLNA digital living network alliance
  • WiBro wireless broadband
  • WiMAX Wireless Internet communication technologies such as World Interoperability for Microwave Access (HSDPA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), and Long Term Evolution-Advanced (
  • the communication unit 110 may be a short-range communication technology such as Bluetooth TM, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, and Near Field Communication (NFC). It can communicate with an external terminal using the.
  • RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • UWB Ultra Wideband
  • ZigBee ZigBee
  • NFC Near Field Communication
  • the input unit 120 may include a camera 121 or an image input unit for inputting an image signal, a microphone 122 for inputting an audio signal, and a user input unit (not shown, for example, a touch key) for receiving information from a user. (touch key), push key (mechanical key, etc.). Signal data, voice data, and image data collected by the input unit 120 may be analyzed and processed as a user's control command.
  • the driving unit 130 performs movement and rotation of the main body of the guide robot 100.
  • the driving unit 130 may include a plurality of wheels and a driving motor.
  • the driving of the driving unit 130 is controlled according to a control command received by the controller, and a notification may be provided through output means such as an LED before and after driving.
  • the sensing unit 140 may include one or more sensors for sensing at least one of information in the guide robot, surrounding environment information surrounding the guide robot, and user information.
  • the sensing unit 140 may include a proximity sensor 141, an illumination sensor, a touch sensor, an acceleration sensor, a magnetic sensor, and a gravity sensor.
  • the guide robot disclosed herein may use a combination of information sensed by at least two or more of these sensors.
  • the proximity sensor 141 examples include a transmission photoelectric sensor, a direct reflection photoelectric sensor, a mirror reflection photoelectric sensor, a high frequency oscillation proximity sensor, a capacitive proximity sensor, a magnetic proximity sensor, and an infrared proximity sensor.
  • the proximity sensor 141 may recognize the location information of the sensing object by using the ultrasonic wave of the ultrasonic sensor.
  • the output unit 150 is used to generate an output related to visual, auditory, or tactile, and may include at least one of the display unit 151, the audio output module 152, and the light output unit 153.
  • the display unit 151 forms a layer structure with or is integrally formed with the touch sensor, thereby implementing a touch screen.
  • Such a touch screen may function as a user input unit that provides an input interface between the guide robot 100 and the user, and may provide an output interface.
  • the light output unit 153 outputs a signal for notifying occurrence of an event of the guide robot 100 using light of a light source. For example, when a movement command is transmitted to the driving unit 130 of the guide robot 100, a signal for notifying movement is output through the light output unit 153.
  • the learning data unit 160 may be configured to receive, classify, store, and output information to be used for data mining, data analysis, intelligent decision making, and machine learning algorithms and techniques.
  • the running data unit 160 stores, receives, detects, detects, generates, pre-defined information or information output in another way through the guide robot, or receives, detects by other components, devices, and terminals through the guide robot.
  • one or more memory units configured to store sensed, generated, predefined or output data.
  • the running data unit 160 may be integrated in the guide robot or include a memory. In one embodiment, the running data unit 160 may be implemented through the memory 170. However, the present disclosure is not limited thereto, and the running data unit 160 may be implemented in an external memory related to the guide robot 100 or may be implemented through a memory included in a server that can communicate with the guide robot 100. In another embodiment, the running data unit 160 may be implemented through a memory maintained in a cloud computing environment or another remote memory accessible by a guide robot through a communication scheme such as a network.
  • Learning data portion 160 generally identifies, indexes, classifies, manipulates, stores, retrieves, and outputs data for use in supervised or unsupervised learning, data mining, predictive analytics, or other machine learning techniques. Is stored in one or more databases.
  • the information stored in the running data unit 160 is controlled by a controller 180 using at least one of different types of data analysis, machine learning algorithms, and machine learning techniques or a plurality of controllers (processors) included in a guide robot. Can be used. Examples of such algorithms and techniques include the K-Nearest neighbor system, fuzzy logic (e.g., probability theory), neural networks, and Boltzmann machines.
  • machines vector quantization, pulsed neural nets, support vector machines, maximum margin classifiers, hill-climbing, inductive logic systems, Bayesian networks, petri nets (e.g., finite state machines, mealy machines, Moore finite state machines), classifiers trees (e.g., perceptron trees, support vector trees, markov trees, decision tree forests, random forests), horses All models and systems (pandemon ium models and systems, clustering, artificially intelligent planning, artificially intelligent forecasting, data fusion, sensor fusion, image fusion, Reinforcement learning, augmented reality, pattern recognition, automated planning, and the like.
  • petri nets e.g., finite state machines, mealy machines, Moore finite state machines
  • classifiers trees e.g., perceptron trees, support vector trees, markov trees, decision tree forests, random forests
  • horses horses All models and systems (pandemon ium models and systems, clustering, artificially intelligent planning, artificially intelligent forecasting, data fusion, sensor fusion, image fusion
  • the controller 180 may determine or predict an executable operation of the guide robot based on information determined or generated using data analysis, machine learning algorithm, and machine learning technology. To this end, the controller 180 may request, search, receive or utilize data of the running data unit 160.
  • the controller 180 may perform various functions for implementing a knowledge-based system, an inference system, a knowledge acquisition system, and the like, and a system for uncertain inference (eg, fuzzy logic system), an adaptive system, a machine learning system, an artificial Various functions can be performed including neural networks.
  • the controller 180 enables speech and natural language processing such as an I / O processing module, an environmental condition module, a voice-text (STT) processing module, a natural language processing module, a workflow processing module, and a service processing module. It may include sub modules. Each of the submodules may have access to one or more systems or data and models, or a subset or superset thereof, in the guide robot.
  • the targets to which each of the sub modules have access rights may include scheduling, lexical index, user data, task flow model, service model, and automatic speech recognition (ASR) system.
  • the controller 180 or the guide robot may be implemented as the submodule, system, or data and model.
  • the controller 180 detects and detects a request from the user based on a context condition expressed in a user input or natural language input or the user's intention. It may be configured.
  • the running data unit 160 is based on data analysis, machine learning algorithm, and machine learning technology.
  • the controller 180 controls the components of the guide robot to execute the determined operation. Can be.
  • the controller 180 can execute the determined operation by controlling the guide robot based on the control command.
  • the memory 170 stores data supporting various functions of the guide robot 100.
  • the memory 170 may store a plurality of application programs or applications driven by the guide robot 100 and data and instructions for operating the guide robot 100.
  • the memory 170 may be, for example, a flash memory type, a hard disk type, a solid state disk type, an SDD type, a silicon disk drive type, or a multimedia card micro type.
  • multimedia card micro type card type memory (e.g. SD or XD memory, etc.), random access memory (RAM), static random access memory (SRAM), read-only memory (ROM), EEPROM (
  • At least one type of storage medium may include an electrically erasable programmable read-only memory (PROM), a programmable read-only memory (PROM), a magnetic memory, a magnetic disk, and an optical disk.
  • the controller 180 controls the general operation of the guide robot 100 in addition to the operation related to the application program.
  • the controller 180 processes information, signals, data, and the like, which are input or output through the above-described components, drives an application program stored in the memory 170, or controls the driving unit 130 to provide information or information appropriate to the user. Provide or process functionality.
  • the power supply unit 190 receives power from an external power source or an internal power source under the control of the controller 180 to supply power to each component included in the guide robot 100.
  • the power supply unit 190 includes a battery, which may be an internal battery or a replaceable battery.
  • At least some of the components may operate in cooperation with each other in order to implement the operation, control, or control method of the guide robot according to various embodiments described below.
  • the operation, control, or control method of the guide robot may be implemented on the guide robot by driving at least one application program stored in the memory 170.
  • various embodiments of the present disclosure may be implemented in a recording medium readable by a computer or a similar device using, for example, software, hardware, or a combination thereof.
  • the guide robot according to the present invention may be set to a standby state 210 or a voice recognition state 220.
  • the standby state 210 is a state for detecting whether there is a voice related to the execution of the voice recognition function near the guide robot before the voice recognition function is executed. To this end, in the standby state 210, the controller 180 of the guide robot may monitor (or monitor) whether a sound of a specific loudness or more is continuously detected through the microphone 122.
  • This standby state 210 may be referred to as a "listening phase.”
  • the controller 180 of the guide robot When the controller 180 of the guide robot detects a sound having a specific volume or more in the standby state 210, the controller 180 may switch from the standby state 210 to the voice recognition state 220.
  • the voice recognition state 220 is a state in which the controller 180 analyzes a voice input through a microphone. Since speech recognition state 220 performs speech analysis, it consumes more current than in standby state 210. For example, before the preset starter word is received, the guide robot may be in a standby state 210 that does not perform voice analysis, thereby reducing the current consumption.
  • the controller 180 may determine whether a preset starting word for starting voice recognition is received in the voice recognition state 220 before voice analysis.
  • the start word is a control command for starting voice analysis, and may be set to various words for each device.
  • the start language may be set as "Hello, my phone”, “Alexa”, “OK, google”, “air star”, and the like.
  • the controller 180 may start accurate voice analysis on the voice spoken after the preset start word.
  • the controller 180 may analyze the voice information using the voice recognition algorithm in the voice recognition state 220. In addition, the controller 180 may control the guide robot according to a voice command corresponding to voice information based on the analysis result. Such voice analysis may be performed using a separate third party application installed in the guide robot.
  • the controller 180 may transmit the analyzed voice analysis information through an artificial intelligence algorithm to a predetermined artificial intelligence server.
  • the artificial intelligence server is a server that provides a function of learning a large amount of information using an artificial intelligence algorithm and deriving optimal result information based on the learned information.
  • the artificial intelligence server may be a server capable of communicating with a guide robot, and may include a running data unit 160 that stores learned data.
  • the running data unit 160 shown in FIG. 2 may perform only a function for everyday vocabulary learning to be described later.
  • the controller 180 may generate result information in response to the input voice information based on the data stored in the running data unit 160. In the following description, it will be described based on the fact that the guide robot 100 is configured to receive the result information through communication with the artificial intelligence server.
  • the controller 180 switches the voice recognition state 220 back to the standby state 210 when the preset starting word is not received or the voice is not received for the preset time in the voice recognition state 220. can do.
  • the operation state of the guide robot related to the speech recognition function has been described.
  • an operation process of linking the interface between the user and the guide robot is implemented so that the user naturally receives the desired guidance by igniting the starting word.
  • the present invention when the user simply wants to send a greeting, the present invention implements an operation process that can recognize the response and perform a response naturally.
  • FIG. 4 is a representative flowchart for explaining an operation method of a guide robot related to the present invention. Referring to FIG. 4, first, an operation (S10) of receiving a voice from the outside is performed.
  • the voice received from the outside means a user voice having a volume capable of converting the standby state 210 described with reference to FIG. 3 into the voice recognition state 220.
  • a user voice may be text-converted through a speech to text (STT) function and output to the display unit 151 of the guide robot.
  • STT speech to text
  • the controller 180 of the guide robot 100 determines whether the preset start word is included in the received voice (S20).
  • the preset starting word refers to a predetermined keyword that can activate the artificial intelligence server or the running data unit 160 linked with the guide robot 100. For example, there may be 'air start', 'ok google', 'hi clova' and the like.
  • the received voice is transmitted to the artificial intelligence server activated by the preset start word in order to process a command included in the received voice (S30).
  • the received voice may include only a preset start word, or may include a preset start word and a command together.
  • the artificial intelligence server is activated and remains waiting for subsequent voice reception.
  • a result corresponding to the analysis result of the command is retrieved.
  • the guide robot receives the result information from the artificial intelligence server and outputs the received result information (S40).
  • the received result information may be output through the display unit 151 of the guide robot or may be output through the speaker 152.
  • the output may be simultaneously output through the display and the speaker, or different related information may be simultaneously output through the speaker and the display.
  • step S50 the response voice selected according to the preset criterion is output (S50).
  • the controller 180 of the guide robot may enter the greeting recognition operation mode when the preset start word is not included in the received voice.
  • the greeting recognition operation mode may include determining whether a received voice is a greeting uttered by an actual user, checking a characteristic of the user who uttered the greeting, and estimating whether the user wants to receive specific information. have.
  • the response voice selected according to the preset criterion may be a greeting type voice that is largely matched to the voice received by the guide robot or a guide type voice that guides to ignite a preset starter that activates the artificial intelligence server.
  • the combination type may be a greeting type voice and a guide type voice.
  • the preset criterion may be actively set or changed in association with a sensing signal sensed while a voice is received and a response voice previously output, as a result of analysis of the received voice. For example, whether to include a specific keyword (eg, where and when) according to the analysis of the received voice may be set based on a preset criterion. In this case, when it is detected that a specific keyword is included in the received voice, a guide type voice may be output.
  • the controller 180 may perform a misrecognition operation related to the greeting vocabulary.
  • the misrecognition operation may be divided into two processes.
  • the first process is to output a response voice suitable for a misrecognized greeting.
  • the second process is a process of updating a database by determining whether to recognize a misrecognized greeting with a new vocabulary.
  • the process of determining whether the misrecognized greeting is a new vocabulary or a meaningless vocabulary is additionally involved.
  • the response voice selected according to the preset criterion is adopted as a greeting and guide voice that can be naturally accepted in any situation, considering that the received voice is not actually spoken by the user.
  • an additional operation eg, camera and greeting database interworking
  • an additional operation is activated to perform an additional operation for recognizing whether the user speaks or is a greeting. Can be.
  • the response voice selected according to the preset criterion may constitute a customized greeting and guide vocabulary that can deliver a more friendly feeling to the user.
  • an additional operation may be performed to identify a user who has spoken the voice and extract a feature, or to store the user who has revisited within a predetermined time.
  • FIG. 5 is a flowchart illustrating a process of outputting different responses depending on whether a request is included in a greeting in the guide robot according to the present invention.
  • the flowchart of FIG. 5 is operated in the state in which the starter word preset to the voice
  • the state in which the pre-set start word is not detected in the received voice means that the voice received by the guide robot has a volume level such that the voice is switched from the "standby state" described with reference to FIG. It means to have a voice.
  • the voice having a meaning may include, for example, an onomatopia such as 'ya' or 'haha', in addition to a word, a character, and an expression indicating a specific meaning.
  • a greeting recognition operation is started in a state in which a start word preset to a voice received by a guide robot is not detected (S501).
  • the controller of the guide robot determines whether to recognize the greeting based on a sensing signal sensed through at least one sensor provided in the main body (S502).
  • the reason for recognizing whether the greeting is based on the sensed signal is sensed to determine whether the received voice corresponds to ambient noise or whether the user actually uttered it.
  • the at least one sensor may include a proximity sensor, a camera sensor, a motion sensor, an RGB sensor, an infrared sensor, a fingerprint scan sensor, an environmental sensor, and a voice recognition sensor using infrared light. And at least one of a touch sensor.
  • the controller 180 may recognize the received voice as a greeting based on a detection signal generated by the touch when a voice having a specific volume or more is received by the guide robot body and a touch is applied to one side of the main body.
  • the controller 180 receives the voice based on the detected signal generated by the approach. Can be recognized as a greeting.
  • step S503 if it is recognized that the received voice is not a greeting, a greeting misrecognition operation and a greeting learning may be performed (S503).
  • the greeting misrecognition operation may include processing to recognize the received voice as a greeting.
  • the greeting learning may include updating a newly recognized greeting by inputting it into a greeting related database.
  • controller 180 of the guide robot according to the present invention is extended by learning the newly recognized greeting as a greeting vocabulary or searching a response vocabulary matching the newly recognized greeting in association with the running data unit 160. You can also do learning.
  • the controller of the guide robot further determines whether one or more request items are included in the recognized greeting (S504).
  • the one or more requests may mean that the received voice includes query information, for example query related keywords (eg, here, there, what, where, place, go, go ?, what?). Can be.
  • query related keywords eg, here, there, what, where, place, go, go ?, what?.
  • the controller 180 recognizes that the recognized greeting includes a request, and the response voice in the form of a greeting response voice combined with a name (start language), for example, "hello, my name” Is 000 ".
  • the response guide for the request is not enough information pre-stored in the memory of the guide robot, it is necessary to connect with the artificial intelligence server, it can output the guide voice for guiding the ignition of the preset starter. .
  • the guide voice according to the request after the guide voice according to the request is output, it may be determined whether a voice including the preset start word is input within a predetermined time, and when the voice is not input, the guide voice may be continuously output. For example, it may be possible to output a guide voice of a combined form of a request + a utterance guide.
  • the appropriate response voice matching the recognized greeting means a response voice processed based on the situation information of today's weather, time zone, etc., in addition to the characteristics of the spoken user sensed by the sensor.
  • the present invention determines whether the user is recognized as a greeting even if the user does not speak a preset start word, and if it is recognized as a greeting, further determines whether an additional request is included and responds to the determination result. By performing the appropriate response, the usability can be further improved.
  • FIG. 6 is a flowchart illustrating a process of determining whether to output a starter guide voice according to whether a preset condition is satisfied in the guide robot according to the present invention.
  • a greeting recognition operation is started (S601).
  • the greeting recognition operation may be executed when the preset start word is not included in the received voice.
  • a start condition of the aforementioned greeting recognition operation may be added. For example, when the voice received by the guide robot is above a predetermined volume and does not include a preset start word, the greeting greeting operation may be started. Also, although not shown, even if no voice is received, even when a touch is detected on a specific part of the guide robot, for example, the display unit / head, a 'greet recognition operation' may be started.
  • an end condition corresponding to a start condition of the greeting recognition operation may be added. For example, if only a voice below a certain volume is received after the start of the greeting recognition operation or if user voice / user input (touch input, specific motion) / user access is not detected such that a predetermined time passes after the voice recognition operation, May be terminated.
  • the guide robot outputs an appropriate greeting voice (S602).
  • the appropriate greeting voice may include a word, a vocabulary, an onomatopoeia, a pseudonym, a tone, a gender, etc. selected according to the analysis result of the received voice.
  • the controller of the guide robot determines whether the predetermined condition is satisfied (S603).
  • the predetermined condition means that when the volume of the received voice increases, when the number of input voices within a predetermined time is more than a certain number of times, when a new voice is received within a predetermined time after the utterance of the response voice, At least one of the number of output.
  • step S604 when the user's additional voice is received within a predetermined time (eg, within 3 seconds) after the greeting voice is output, the predetermined condition may be satisfied, and subsequent step S604 may be performed.
  • step S605 if the additional voice is received after a certain time elapses, it is determined that the predetermined condition is not satisfied, and step S605 may be performed.
  • the guide robot When the predetermined condition is satisfied, the guide robot outputs a starter guide voice (S604).
  • the starter language guide voice means a guide voice for guiding a predetermined starter word.
  • the starter guide voice may be modified and output in association with which of the predetermined conditions is satisfied.
  • the controller of the guide robot determines whether a new voice is received (S605).
  • the voice recognition state of FIG. 3 is maintained to determine whether a new voice recognized as a greeting is received.
  • the controller of the guide robot may control to switch the voice recognition state to a listening state, that is, a standby state (see FIG. 3).
  • a corresponding greeting voice is output (S602). That is, the response voice matching the new voice is output.
  • the predetermined condition S603 after the output of the greeting voice was not satisfied (S603), but as a new voice is received (S605), when the greeting voice is output again (S602), a predetermined time The number of times the greeting voice is output is counted by one increment. Therefore, the predetermined condition S603 is automatically satisfied, and after the output of the greeting voice (S602), the starter guide voice is subsequently output (S604).
  • the greeting recognition operation may end.
  • the controller 180 may automatically output a guide voice for guiding the utterance of the starter when there is no input of another voice within a predetermined time after the voice including the preset starter word is received.
  • the controller 180 when there is no input of another voice within a predetermined time after receiving a voice including a preset start word, the controller 180 maintains a state in which the user who spoke the voice through a sensor such as a camera maintains a state close to the main body. After confirming, the output of the guide voice may be determined.
  • FIG. 7A and 7B are exemplary views outputting different response voices related to FIG. 6.
  • FIG. 7A illustrates an example of a greeting type response voice (hereinafter, referred to as a “first type response voice”) 710 corresponding to a recognized greeting
  • FIG. 7B illustrates a guide type response voice for guiding a user's starter speech.
  • 'second type response voice' 720 is an example.
  • the first type of response voice and the second type of response voice may be alternately output.
  • the response voice of the first type and the response voice of the second type may be output in order.
  • only one of the first type of response voice and the second type of response voice may be output or combined based on the number and interval of voices received.
  • the vocabulary, tone and volume of the first type response voice and the second type response voice may be modified based on the current location information, the current time zone information, and the weather information of the guide robot body in addition to the user characteristics. have. For example, if a child delivers a greeting during a daytime when there is a lot of people moving, the volume of the response may be increased and the response voice may be output with a friendly and short greeting vocabulary.
  • FIG 8, 9A and 9B are diagrams for explaining outputting a greeting voice suitable for a feature of an approaching user in a guide robot according to the present invention.
  • a greeting recognition operation is started (S801).
  • the controller of the guide robot detects whether the user approaches the guide robot body, and if the user's approach is detected, checks the accessed user and classifies the feature (S802).
  • one or more sensors of the sensing unit 140 of the guide robot may be activated to detect whether the user approaches or gradually approaches or moves away.
  • a sensor for identifying the approaching user for example a camera sensor
  • the head of the guide robot may be automatically rotated toward the direction in which the voice is received and / or the direction in which the approach of the user is sensed. Then, through the activated camera sensor, an operation of checking the presence and face of the approaching user may be performed.
  • the user's face When the presence of the user is recognized through the camera sensor, the user's face may be photographed, and the captured image may be analyzed to determine user characteristics.
  • Such user characteristics may include, for example, objective matters such as the gender, age, companion presence of the user, and the like.
  • the user feature may include an emotional state that matches the facial expression of the user analyzed using a known algorithm.
  • a process of detecting a face region from the captured image may be included.
  • the emotional state matching the facial expression may be classified into 'joy', 'anger', 'sorrow', 'normal', 'tension' and the like.
  • the same or corresponding facial expression may be output through the second display provided on the front surface of the head 102 of the guide robot. As a result, the user can be more familiar.
  • a greeting suitable for the classified features may be detected from a memory or a linked database (S803).
  • the guide robot according to the present invention may operate in conjunction with a plurality of greeting databases corresponding to various user features.
  • the first database is a greeting database based on gender
  • the second database is a greeting database based on emotion.
  • the greeting vocabulary mainly used by women in their 30s is extracted from the first database
  • the greeting vocabulary matching the joyful emotion is extracted from the second database They can then be combined and processed into greetings suitable for the classified features.
  • the processing of a suitable greeting may include whether or not to apply a salutation, tone, tone height, volume, speech rate, whether additional vocabulary is applied.
  • the detected or processed greeting is output as a voice (S804).
  • the processed greeting may be output to the display unit 151 while being output as a voice.
  • FIG. 9A and 9B illustrate an example in which different response voices are output according to user characteristics when the same greeting vocabulary is received as a voice.
  • FIG. 9A illustrates a situation in which the "old man” utters "hello”
  • FIG. 9B illustrates a situation in which the "child” utters "goodbye.”
  • the guide robot activates the camera 121 provided in the head (or the body) to identify the user who uttered the greeting and classify the user's characteristics.
  • an apology greeting response (e.g. 'hello, seniors') is output in FIG. 9a
  • a short and friendly greeting response e.g. 'goodbye, nice'
  • a different matched database is applied to the guide voice guiding the utterance of the preset starter.
  • a guide voice of 'Please tell 000 for more information and elderly' may be output.
  • a guide voice of “If you have a question you want to ask, 000” may be output.
  • FIG. 10 is a flowchart for describing a processing operation when a received keyword includes a predetermined keyword instead of a preset start word in the guide robot according to the present invention.
  • the controller of the guide robot determines whether a preset starting word is included in the received voice (S1002).
  • the received voice is transmitted to the linked artificial intelligence server (S1003).
  • the preset start word is not included, it is additionally determined whether a predetermined keyword is included in the received voice (S1004).
  • the determined response voice is output and the greeting vocabulary learning is performed (S1005).
  • the greeting vocabulary learning includes learning a received voice with a new greeting vocabulary.
  • the voice including the determined keyword is transmitted to a speech recognition server (STT server, Speech-To-Text) (S1006).
  • STT server Speech-To-Text
  • the voice recognition server may convert the received keyword voice into text and search for context information corresponding to the converted text.
  • the contextual information may include query guide information that is matched with a keyword and stored. For example, when 'road / place / where' is designated as a keyword, 'if you want to find a road ⁇ ' may be searched for with matching context information.
  • the controller of the guide robot generates and outputs a response voice based on the situation information received from the voice recognition server (S1007).
  • the guide robot may output the processed guide voice based on the situation information received from the voice recognition server. For example, when 'when you want to find a route' is received as context information, a guide voice generated by combining text corresponding to the received situation information and a preset start word (e.g., '000 if you want to find directions') Ask later ').
  • a preset start word e.g., '000 if you want to find directions'
  • the guide robot according to the present invention can further improve usability by guiding the user to naturally interface with the user while giving a more friendly feeling.
  • the recognition rate of the daily vocabulary is not high, it is possible to recognize whether the user actually speaks through various situation collections and to continue a natural conversation suitable for the situation.
  • the user may be able to grasp the characteristics of the user who is supposed to be uttered, perform a customized response, and continuously learn a new daily vocabulary.
  • even if the user does not speak the starter word it is possible to distinguish whether the user simply wants to greet the user without the purpose and whether the user wants to be provided with specific information, and thereby performs an appropriate response. As a result, extended daily conversation becomes possible, and thus high friendliness and sensitivity can be felt.
  • the present invention described above can be embodied as computer readable codes on a medium in which a program is recorded.
  • the computer-readable medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include hard disk drives (HDDs), solid state disks (SSDs), silicon disk drives (SDDs), ROMs, RAMs, CD-ROMs, magnetic tapes, floppy disks, optical data storage devices, and the like. This also includes implementations in the form of carrier waves (eg, transmission over the Internet).
  • the computer may include the controller 180 of the terminal. Accordingly, the above detailed description should not be construed as limiting in all aspects and should be considered as illustrative. The scope of the invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the invention are included in the scope of the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manipulator (AREA)

Abstract

본 발명은 안내 로봇 및 안내 로봇의 동작방법을 개시한다. 본 발명에 따른 안내 로봇은, 음성을 수신하도록 형성된 음성 수신부, 수신된 음성에 기 설정된 시동어가 포함되어 있는지 여부를 판단하는 제어부, 기 설정된 시동어에 의하여 활성화되도록 설정된 인공 지능 서버와 통신하는 무선 통신부를 포함한다. 이때, 제어부는, 수신된 음성에 기 설정된 시동어가 포함된 경우에는 수신된 음성을 상기 인공 지능 서버로 전송하고, 인공 지능 서버로부터 결과 정보를 수신하여 수신된 결과 정보를 출력한다. 그리고, 수신된 음성에 기 설정된 시동어가 미포함된 경우에는, 기설정된 기준에 따라 선택된 응답 음성을 출력한다.

Description

안내 로봇 및 안내 로봇의 동작 방법
본 발명은 인공 지능 서버와 통신이 가능한 안내 로봇에 관한 것이다.
최근 하드웨어의 발전과 함께, 인간의 사고 과정, 즉 인지, 추론, 학습 등을 컴퓨팅 기술로 구현하는 인공 지능 기술이 비약적으로 발전하고 있다.
인공 지능 기술은 그 자체로 연구 대상이 될 뿐만 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 결합되어, 다양한 기능들을 제공할 수 있다. 특히, 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.
인공 지능 기술은 강한 인공지능과 약한 인공지능으로 구분된다. 강한 인공지능은 인간과 유사한 사고 및 의사 결정을 내릴 수 있는 기술 방식으로, 스스로 학습하여, 스스로 판단을 내리는 수준의 기술이다. 약한 인공지능은 계산 모델을 통하여, 지각, 추론 등의 인지 과정을 수행하여, 최적의 솔루션을 제공하는 수준의 기술이다.
이러한 개술 개발의 일환으로, 사용자에게 다양한 안내 서비스를 제공하는 안내 로봇에 인공 지능 기술을 적용하고자 하는 시도와 연구들이 증가하고 있다.
이러한 안내로봇에 명령을 내리거나 안내 로봇과 대화를 하기 위해서는, 먼저 시동어를 호출하고, 그에 대한 인식이 필요하다. 이와 관련하여WO 2017/217978 A1 특허문헌에는 적어도 하나의 시동어(wake-up word)를 통해 음성 앱을 활성화하는 것과, 스피커에 의해 발화된 음성에 시동어가 포함되어 있는지를 판단하여, 자동화된 음성 인식의 정보 표시를 수행하는 구성을 개시한다.
그러나, 안내 로봇을 마치 사람처럼 생각하는 아이의 경우, 간단한 인사말을 포함한 채팅 수준의 대화를 더 선호한다. 또, 시동어 호출을 자연스럽게 수행하기 어려운 노인, 장애인의 경우도, 시동어 발화를 통해 로봇과 인터페이스를 연계시키기 어려운 문제가 있다. 그러나, 일상적으로 사용하는 인사말을 시동어로 하게 되면 오인식률이 높아져서, 안내 로봇의 성능과 사용성이 크게 감소될 것이다.
또, 사용자에 따라서는 특정 정보를 획득하기 위한 목적 보다는 안내 로봇과 단순히 인사만 나누고 싶은 경우가 있다. 이러한 경우, 사용자는 안내 로봇이 사용자에게 보다 친근감 있게 응답하기를 기대할 것이다.
앞서 설명한 문제점을 해결하기 위하여, 본 발명의 일 목적은 사용자에게 보다 친근감을 주면서 사용성은 향상되도록 구현한 안내 로봇 및 그 동작방법을 제공하는데 있다.
또한, 본 발명의 또 다른 목적은 사용자가 특정 목적을 가지고 질의하지 않은 경우에도, 사용자의 다양한 특징 및 사용 어휘에 맞는 맞춤형 응답을 지속적으로 수행하는 안내 로봇 및 그 동작방법을 제공하는데 그 목적이 있다.
또한, 본 발명의 또 다른 목적은, 사용자가 단순히 인사만 하고 싶은지 또는 보다 구체적인 정보를 제공받기를 원하는지 여부를 구별하여 응답을 수행할 수 있는 안내 로봇 및 그 동작방법을 제공하는데 있다.
이를 위해, 본 발명에 따른 안내 로봇은, 음성을 수신하도록 형성된 음성 수신부; 수신된 음성에 기 설정된 시동어가 포함되어 있는지 여부를 판단하는 제어부; 기 설정된 시동어에 의하여 활성화되도록 설정된 인공 지능 서버와 통신하는 무선 통신부;를 포함하고, 상기 제어부는, 상기 수신된 음성에 기 설정된 시동어가 포함된 경우, 상기 수신된 음성을 상기 인공 지능 서버로 전송하고, 상기 인공 지능 서버로부터 결과 정보를 수신하여 수신된 결과 정보를 출력하며, 상기 수신된 음성에 기 설정된 시동어가 미포함된 경우, 기설정된 기준에 따라 선택된 응답 음성을 출력하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 수행하며, 상기 인사말 인식 동작에서는, 적어도 하나 이상의 센서로부터 수신된 감지신호에 근거하여 인사말로 인식되는지 여부를 판단하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 상기 인사말 인식 동작에 따라 인사말이 인식된 경우, 인식된 인사말에 하나 이상의 요청사항이 포함되어 있는지를 추가로 판단하고, 판단 결과에 근거하여 응답 음성을 선택하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 판단 결과, 인식된 인사말에 하나 이상의 요청사항이 포함된 경우이면, 인식된 요청 사항에 따른 가이드 음성을 출력하고, 판단 결과, 인식된 인사말에 하나 이상의 요청사항이 미포함된 경우이면, 상기 인식된 인사말에 매칭되는 응답 음성을 출력하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 상기 인사말 인식 동작에서 인사말이 인식되지 않은 경우, 상기 수신된 음성에 근거하여 오인식 동작 및 인사말 학습을 수행하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 기설정된 기준에 따라 선택되는 응답 음성은, 상기 수신된 음성에 매칭되는 인사말 음성 및 상기 기 설정된 시동어의 발화를 안내하는 가이드 음성 중 어느 하나인 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 개시하고, 상기 인사말 인식 동작에 따라 상기 수신된 음성에 매칭되는 응답 음성을 출력하고, 상기 응답 음성의 출력 후 정해진 조건을 만족하는 것에 응답하여 상기 기 설정된 기동어의 발화를 안내하는 가이드 음성을 출력하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 정해진 조건은 수신된 음성의 볼륨이 증가하는 경우, 소정시간내의 입력된 음성 횟수가 일정 횟수 이상인 경우, 응답 음성의 발화 후 소정 시간 내에 새로운 음성이 수신된 경우 중 적어도 하나를 포함하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 상기 응답 음성의 출력 후 상기 정해진 조건을 만족하지 않고 일정 시간 내에 새로운 음성이 수신되면, 새로운 음성에 매칭되는 응답 음성을 출력하고, 상기 응답 음성의 출력 후 정해진 조건을 만족하지 않고 일정 시간이 경과하면 상기 인사말 인식 동작을 종료하는 것을 특징으로 한다.
또한, 일 실시 예에서, 안내 로봇 본체에 접근하는 사용자를 감지하는 센서;를 더 포함하고, 상기 제어부는, 상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 개시하고, 상기 센서를 통해 접근하는 사용자가 감지되면, 접근한 사용자를 확인하여 사용자 특징을 분류하고, 분류된 사용자 특징에 적합하도록 인사말을 가공하여 응답 음성으로 출력하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 상기 센서를 통해 접근하는 사용자가 감지되면, 카메라를 활성화하여 접근한 사용자의 얼굴 이미지를 획득하고, 획득된 얼굴 이미지를 분석하여 사용자 특징을 추출하여 분류하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 제어부는, 상기 수신된 음성에 기 설정된 시동어가 미포함된 경우, 상기 수신된 음성에 정해진 키워드가 포함되었는지 여부를 판단하고, 판단 결과 정해진 키워드가 포함된 경우이면 해당 키워드가 포함된 음성을 음성 인식 서버로 전송하여 키워드에 대응되는 상황정보를 수신하고, 수신된 상황정보에 근거하여 생성된 응답 음성을 출력하는 것을 특징으로 한다.
또, 본 발명의 실시 예에 따른 안내 로봇의 동작 방법은, 음성을 출력할 수 있는 안내 로봇의 동작 방법으로서, 사용자의 음성을 수신하는 단계; 수신된 음성에 기 설정된 시동어가 포함되어 있는지 여부를 판단하는 단계; 상기 수신된 음성에 기 설정된 시동어가 포함된 경우, 수신된 음성을 상기 기 설정된 시동어에 의하여 활성화되도록 설정된 인공 지능 서버로 전송하고, 상기 인공 지능 서버로부터 결과 정보를 수신하여 수신된 결과 정보를 출력 단계; 및 상기 수신된 음성에 기 설정된 시동어가 미포함된 경우, 기설정된 기준에 따라 선택된 응답 음성을 출력하는 단계를 포함하여 이루어진다.
또한, 일 실시 예에서, 상기 기설정된 기준에 따라 선택된 응답 음성을 출력하는 단계는, 상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 수행하는 단계; 상기 인사말 인식 동작에서, 적어도 하나 이상의 센서로부터 수신된 감지신호에 근거하여 인사말로 인식되는지 여부를 판단하는 단계; 및 상기 인사말 인식 동작에 따라 인사말이 인식된 경우, 인식된 인사말에 하나 이상의 요청사항이 포함되어 있는지를 추가로 판단하고, 판단 결과에 근거하여 응답 음성을 선택하는 단계를 포함하는 것을 특징으로 한다.
또한, 일 실시 예에서, 상기 동작방법은, 하나 이상의 요청사항이 포함되어 있는지의 판단 결과, 인식된 인사말에 하나 이상의 요청사항이 포함된 경우이면, 인식된 요청 사항에 따른 가이드 음성을 출력하는 단계; 및 하나 이상의 요청사항이 포함되어 있는지의 판단 결과, 인식된 인사말에 하나 이상의 요청사항이 미포함된 경우이면, 상기 인식된 인사말에 매칭되는 응답 음성을 출력하는 단계를 더 포함하는 것을 특징으로 한다.
이상에서 살펴본 본 발명의 실시 예에 따른 안내 로봇은, 사용자에게 보다 친근감을 주면서 자연스럽게 인터페이스 연계가 가능하도록 안내함으로써, 사용성을 더욱 향상시킬 수 있다.
또, 일상 어휘의 인식률이 높지 않은 점을 고려하여, 다양한 상황 수집을 통해 사용자가 실제로 발화한 것인지 여부를 인식하여, 상황에 맞는 자연스러운 대화를 이어나갈 수 있다.
또한, 사용자가 특정 목적을 가지고 질의하지 않은 경우에도, 발화한 것으로 추정되는 사용자의 특징을 파악하여 어울리는 맞춤형 응답을 수행할 수 있고, 새로운 일상 어휘를 지속적으로 학습할 수 있다. 또, 사용자가 시동어를 발화하지 않더라도, 목적없이 단순히 인사만 하고 싶은 경우와 구체적인 정보를 제공받기를 원하는지 여부를 구별하여, 적절한 응답을 수행할 수 있다. 그에 따라, 확장된 일상 대화가 가능해지므로, 높은 친근감과 감성을 느낄 수 있다.
도 1은 본 발명과 관련된 안내 로봇의 예시를 보여주는 도면이다.
도 2 본 발명과 관련된 안내 로봇의 예시 구성을 보인 블록도이다.
도 3은 본 발명과 관련된 안내 로봇의 음성 인식 과정을 설명하기 위한 도면이다.
도 4는 본 발명과 관련된 안내 로봇의 동작방법을 설명하기 위한 대표 흐름도이다.
도 5는 본 발명과 관련된 안내 로봇에서, 인사말에 요청사항이 포함되어있는지 여부에 따라 서로 다른 응답을 출력하는 과정을 설명하기 위한 흐름도이다.
도 6은 본 발명과 관련된 안내 로봇에서, 기 설정된 조건의 만족 여부에 따라 시동어 가이드 음성의 출력 여부를 결정하는 과정을 설명하기 위한 흐름도이다.
도 7a 및 도 7b는 도 6과 관련된 서로 다른 응답 음성을 출력하는 예시 도면들이다.
도 8, 도 9a, 도 9b는 본 발명과 관련된 안내 로봇에서, 접근한 사용자의 특징에 적합한 인사말 음성을 출력하는 것을 설명하기 위한 도면들이다.
도 10은 본 발명과 관련된 안내 로봇에서, 수신된 음성에 기 설정된 시동어가 아닌 정해진 키워드가 포함된 경우의 처리 동작을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
한편, 본 명세서에 개시된 "안내 로봇"은 공항, 백화점 등 안내 로봇을 이용하는 사용자에게 길 안내, 상품안내, 공항 정보 등의 다양한 정보를 제공할 수 있는 로봇을 의미한다.
또, 본 명세서에 개시된 "안내로봇"은, 길, 특정 장소 등을 사용자에게 안내하기 위하여, 스스로 자율주행을 수행하는 것이 가능한 로봇을 의미할 수 있다.
또, 본 명세서에 개시된 "안내 로봇"은, 사용자에게 다양한 정보나 안내를 제공하기 위하여, 화면, 음성, LED 외에, 지속적인 대화를 통한 인터랙션, 및 이동을 수행할 수 있다.
이하, 도 1은 본 발명과 관련된 안내 로봇의 예시를 보여주는 도면이다. 도 1을 참조하면, 본 발명에 따른 안내 로봇(100)은, 헤드(102), 카메라(121), 스피커(152), 음성인식부(미도시), 디스플레이부(151), 및 주행부(130)를 포함하여 이루어질 수 있다. 다만, 경우에 따라서는 여기에 개시된 수단 중 일부를 제거하거나 또는 다른 수단을 더 포함하여, 본 발명에 따른 안내 로봇(100)이 구현될 수도 있다.
본 발명에 따른 안내 로봇(100)의 외관은 크게, 헤드(102)와 디스플레이부(151)를 포함하는 상부모듈과 주행부(130)를 포함하는 하부모듈을 포함하여 이루어질 수 있다.
이때에, 상부모듈과 하부모듈은 상호간에 탈착 가능하도록 구비될 수 있다. 상기 상부모듈은, 서비스 환경에 따라 변경 가능한 사용자 인터페이스(User Interface)를 제공한다. 상기 하부모듈은 안내 로봇 본체의 이동을 위한 주행기능을 제공한다.
상기 상부모듈은, 다시 몸체를 형성하며, 디스플레이부(151)가 구비된 바디부와, 카메라(121) 등이 구비된 헤드부(102)로 구분될 수 있다. 그러나, 경우에 따라서는 바디부에 카메라가 구비되거나 헤드부(102)에 디스플레이부가 배치되는 형태로 구현될 수도 있다.
카메라(121)는 헤드부(102)의 케이스 일측 또는 바디부의 케이스 일측에 구비될 수 있다. 또, 상기 카메라(121)는 복수 개 구비될 수 있다. 이러한 경우, 하나는 본체의 전면에 구비되어 전방을 향하도록 설치되고, 다른 하나는 측면 또는 후면에 구비되어 측방/후방을 향하도록 설치될 수 있다. 그에 따라, 360 범위의 화각을 형성할 수 있다.
카메라(121)가 복수 개 구비되는 경우, 제1카메라는 예를 들어 3D 스테레오 카메라를 포함할 수 있다. 상기 3D 스테레오 카메라는 장애물 감지, 사용자 얼굴인식, 입체영상 획득 등의 기능을 수행할 수 있다. 안내 로봇(100)은 제1카메라를 이용하여 자신의 이동방향에 존재하는 장애물을 감지하여 회피할 수 있고, 사용자를 인식하여 각종 제어동작을 수행할 수 있다. 또, 제2카메라는 예를 들어 슬램(Simultaneous Localization And Mapping) 카메라를 포함할 수 있다. 상기 슬램카메라는 특징점 매칭을 통하여 카메라의 현 위치를 추적하고 이를 기초로 3차원 지도를 작성하는 기능을 수행한다. 안내 로봇(100)은 제2카메라를 이용하여 자신의 현재 위치를 파악할 수 있다.
스피커(152)는 사용자에게 제공될 정보를 음성으로 알려주는 기능을 수행한다. 구체적으로, 안내 로봇(100)에 구비된 마이크(미도시)와 음성인식부(미도시)를 통해 수신된 사용자 음성에 대응되는 응답이나 검색 결과는 스피커(152)를 통해 음성으로 출력된다. 이러한 스피커는 헤드부(102)나 디스플레이부(151)가 구비된 바디부의 외주면에 마련될 수 있다.
디스플레이부(151)는 바디부의 일 방향에 길이방향으로 위치할 수 있고, 시각적인 정보, 예를 들어 안내 정보를 제공하기 위하여 화면을 표시할 수 있다. 또, 상기 디스플레이부(151)는 디스플레이모듈, 터치센서, 압력센서를 포함하여 이루어질 수 있다.
또, 상기 디스플레이부(151)는 예를 들어 이동가이드수단과 결합하여 바디부의 내부를 개폐하도록 구현될 수 있다. 또, 상기 디스플레이부(151)는 예를 들어 고정부재를 사용하여 바디부에 결속되어 고정되도록 구현될 수도 있다.
또, 비록 자세히 도시되지는 않았지만, 안내 로봇(100)이 사용자에게 길을 안내하기 위하여 설정된 경로로 선 이동하는 경우를 고려하여, 상기 디스플레이부(151)는 헤드(102)를 기준으로 후방에 구비되거나, 또는 전방 외에 후방에도 추가로 구비될 수 있다. 또는, 설정된 경로로 선 이동하기에 앞서 헤드(102)가 180도 회전하여, 디스플레이부(151)가 후방에 위치한 것처럼 외관을 변형시킬 수도 있다.
이러한 경우 디스플레이부(151)에는 현재 제공되는 서비스와 관련된 시각정보(예, 길 안내 정보, 질의 정보)를 표시하는 기능을 수행한다. 사용자는 안내 로봇(100)을 따라 이동하면서, 안내 로봇(100)의 후방에 설치된 디스플레이부(151)를 볼 수 있다.
주행부(130)는 안내 로봇(100) 본체의 이동, 회전을 수행한다. 이를 위해, 주행부(130)는 복수의 휠 및 구동 모터를 포함하여 이루어질 수 있다. 주행부(130)의 구동은 제어부에 의해 수신된 제어명령에 따라 제어되며, 구동 전 후에 LED 등의 출력수단을 통한 알림이 제공될 수 있다.
도 2 본 발명과 관련된 안내 로봇의 예시 구성을 보인 블록도이다.
본 발명에 따른 안내 로봇(100)은 통신부(110), 입력부(120), 주행부(130), 센싱부(140), 출력부(150), 러닝데이터부(160), 메모리(170), 제어부(180) 및 전원부(190) 등을 포함할 수 있다. 도 2에 도시된 구성요소들은 안내 로봇을 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 안내 로봇은 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
통신부(110)는, 안내 로봇(100)과 외부서버, 예를 들어 인공 지능 서버, 또는 외부단말 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또, 상기 통신부(110)는, 안내 로봇(100)을 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다.
상기 통신부(110)는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등의 무선 인터넷 통신 기술을 사용하여 인공지능 서버 등과 통신을 수행할 수 있다.
또, 상기 통신부(110)는 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication) 등의 근거리 통신 기술을 사용하여 외부 단말 등과 통신을 수행할 수 있다.
입력부(120)는, 영상 신호 입력을 위한 카메라(121) 또는 영상 입력부, 오디오 신호 입력을 위한 마이크(microphone, 122), 사용자로부터 정보를 입력받기 위한 사용자 입력부(미도시, 예를 들어, 터치키(touch key), 푸시키(mechanical key) 등)를 포함할 수 있다. 입력부(120)에서 수집한 신호데이터, 음성 데이터, 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.
주행부(130)는 안내 로봇(100) 본체의 이동, 회전을 수행한다. 이를 위해, 주행부(130)는 복수의 휠 및 구동 모터를 포함하여 이루어질 수 있다. 주행부(130)의 구동은 제어부에 의해 수신된 제어명령에 따라 제어되며, 구동 전 후에 LED 등의 출력수단을 통한 알림이 제공될 수 있다.
센싱부(140)는 안내 로봇 내 정보, 안내 로봇을 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱하기 위한 하나 이상의 센서를 포함할 수 있다. 예를 들어, 센싱부(140)는 근접센서(141, proximity sensor), 조도 센서(illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라(121 참조)), 마이크로폰(microphone, 122 참조), 배터리 게이지(battery gauge), 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 등), 화학 센서(예를 들어, 전자 코, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 명세서에 개시된 안내 로봇은, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.
근접 센서(141)의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전 용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다. 또, 근접 센서(141)는 초음파 센서의 초음파를 이용하여, 감지대상의 위치정보를 인식할 수 있다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부(151), 음향출력모듈(152), 광 출력부(153) 중 적어도 하나를 포함할 수 있다. 디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 안내 로봇(100)과 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 출력 인터페이스를 제공할 수 있다.
광 출력부(153)는 광원의 빛을 이용하여 안내 로봇(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 예를 들어, 안내 로봇(100)의 주행부(130)에 이동명령이 전달된 경우, 이동을 알리기 위한 신호가 광 출력부(153)를 통해 출력된다.
러닝데이터부(160)는 데이터 마이닝(data mining), 데이터 분석, 지능형 의사결정 및 머신 러닝 알고리즘 및 기술을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성될 수 있다. 러닝데이터부(160)는 안내 로봇을 통해 수신, 검출, 감지, 생성, 사전 정의된 정보 또는 상기 안내 로봇을 통해 다른 방식으로 출력된 정보를 저장하거나, 다른 구성, 장치 및 단말기에 의하여 수신, 검출, 감지, 생성, 사전 정의 또는 출력된 데이터를 저장하도록 구성된 하나 이상의 메모리 유닛을 포함할 수 있다.
러닝데이터부(160)는 안내 로봇에 통합되거나, 메모리를 포함할 수 있다. 일 실시 예에서, 러닝데이터부(160)는 메모리(170)를 통해 구현될 수 있다. 다만 이에 한정되지 않고, 러닝데이터부(160)는 안내 로봇(100)과 관련된 외부 메모리에 구현되거나, 안내 로봇(100)과 통신 가능한 서버에 포함된 메모리를 통해 구현될 수 있다. 다른 일 실시 예에서, 러닝데이터부(160)는 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 안내 로봇에 의해 액세스 가능한 다른 원격 메모리를 통해 구현될 수 있다.
러닝데이터부(160)는 일반적으로 감독 또는 감독되지 않은 학습, 데이터 마이닝, 예측 분석 또는 다른 머신 러닝 기술에서 사용하기 위한 데이터를 식별, 색인화, 분류, 조작, 저장, 검색 및 출력하기 위해, 상기 데이터를 하나 이상의 데이터베이스에 저장하도록 이루어진다. 러닝데이터부(160)에 저장된 정보는 서로 다른 유형의 데이터 분석, 기계 학습 알고리즘 및 기계 학습 기술 중 적어도 하나를 사용하는 제어부(180) 또는 안내 로봇에 포함된 복수의 제어부들(프로세서들)에 의하여 이용될 수 있다. 이러한 알고리즘 및 기법의 예로는 K 최근접 이웃 시스템(k-Nearest neighbor system), 퍼지 논리(fuzzy logic)(예를 들어, 가능성 이론(possibility theory)), 신경 회로망(neural networks), 볼츠만 머신(Boltzmann machines), 벡터 양자화, 펄스 신경망(pulsed neural nets), 서포트 벡터 머신(support vector machines), 최대-마진 분류기(maximum margin classifiers), 힐 클라이밍(hill-climbing), 유도 논리 시스템(inductive logic systems), 베이지안 네트워크(baysian networks), 페트리 네트(petri nets) (예를 들어, 유한 상태 기계(finite state machines), 밀리 머신(mealy machines), 무어 유한 상태 머신(moore finite state machines)), 분류 트리(classifier trees)(예를 들어, 퍼셉트론 트리(perceptron trees), 서포트 벡터 트리(support vector trees), 마코브 트리(markov trees), 트리-숲 결정(decision tree forests), 랜덤 숲(random forests)), 목마전 모형 및 시스템(pandemonium models and systems), 클러스터링(clustering), 인공 지능 플래닝(artificially intelligent planning), 인공 지능 예측(artificially intelligent forecasting), 데이터 퓨전(data fusion), 센서 퓨전(sensor fusion), 이미지 퓨전(image fusion), 강화 학습(reinforcement learning), 증강 현실(augmented reality), 패턴 인식(pattern recognition), 자동 플래닝(automated planning) 등이 있다.
제어부(180)는 데이터 분석, 머신 러닝 알고리즘 및 머신 러닝 기술을 사용하여 결정 또는 생성된 정보에 기초하여, 안내 로봇의 실행 가능한 동작을 결정 또는 예측할 수 있다. 이를 위하여, 제어부(180)는 러닝데이터부(160)의 데이터를 요청, 검색, 수신 또는 활용할 수 있다. 제어부(180)는 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템 등을 구현하는 다양한 기능을 수행할 수 있으며, 불확실한 추론을 위한 시스템(예를 들어, 퍼지 논리 시스템), 적응 시스템, 기계 학습 시스템, 인공 신경망 등을 포함하는 다양한 기능을 수행할 수 있다.
또한, 제어부(180)는 I/O 처리 모듈, 환경 조건 모듈, 음성-텍스트(STT) 처리 모듈, 자연 언어 처리 모듈, 작업 흐름 처리 모듈 및 서비스 처리 모듈 등과 같은 음성 및 자연 언어 처리를 가능하게 하는 서브 모듈들을 포함할 수 있다. 서브 모듈들 각각은 안내 로봇에서 하나 이상의 시스템 또는 데이터 및 모델, 또는 이들의 서브셋 또는 수퍼셋에 대한 접근권한을 가질 수 있다. 여기서, 서브 모듈들 각각이 접근권한을 가지는 대상은 스케줄링, 어휘 인덱스, 사용자 데이터, 태스크 플로우 모델, 서비스 모델 및 자동 음성 인식(ASR) 시스템을 포함할 수 있다. 다른 일 실시 예에 있어서, 제어부(180) 또는 안내 로봇은 상기 서브 모듈, 시스템, 또는 데이터 및 모델로 구현 될 수 있다.
일부 실시 예에서, 러닝데이터부(160)에서의 데이터에 기초하여, 제어부(180)는 사용자 입력 또는 자연 언어 입력으로 표현된 문맥 조건 또는 사용자의 의도에 기초하여 사용자가 요구하는 것을 검출하고 감지하도록 구성될 수도 있다.
러닝데이터부(160)는 데이터 분석, 머신 러닝 알고리즘 및 머신 러닝기술을 바탕으로, 안내 로봇의 동작이 결정되면, 제어부(180)는 이러한 결정된 동작을 실행하기 위하여, 안내 로봇의 구성 요소들을 제어할 수 있다. 제어부(180)는 제어 명령에 근거하여, 안내 로봇을 제어함으로써, 결정된 동작을 실행할 수 있다.
메모리(170)는 안내 로봇(100)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(170)는 안내 로봇(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application))과, 안내 로봇(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다.
메모리(170)는, 예를 들어 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
제어부(180)는 상기 응용 프로그램과 관련된 동작 외에, 통상적으로 안내 로봇(100)의 전반적인 동작을 제어한다. 제어부(180)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(170)에 저장된 응용 프로그램을 구동하거나, 주행부(130)를 제어함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.
전원부(190)는 제어부(180)의 제어 하에서, 외부의 전원, 내부의 전원을 인가 받아 안내 로봇(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원부(190)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다.
상기 각 구성요소들 중 적어도 일부는, 이하에서 설명되는 다양한 실시 예들에 따른 안내 로봇의 동작, 제어, 또는 제어방법을 구현하기 위하여 서로 협력하여 동작할 수 있다. 또한, 상기 안내 로봇의 동작, 제어, 또는 제어방법은 상기 메모리(170)에 저장된 적어도 하나의 응용 프로그램의 구동에 의하여 안내 로봇상에서 구현될 수 있다.
한편, 이하에서 다양한 실시 예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
이하 도 3은 본 발명과 관련된 안내 로봇의 음성 인식 과정을 설명하기 위한 도면이다. 도 3을 참조하면, 본 발명에 따른 안내 로봇은 대기 상태(210) 또는 음성 인식 상태(220)로 설정될 수 있다.
대기 상태(210)는 음성 인식 기능의 실행 전, 안내 로봇 주변에 음성 인식 기능의 실행과 관련된 음성이 존재하는지 여부를 감지하는 상태이다. 이를 위하여, 상기 대기 상태(210)에서, 안내 로봇의 제어부(180)는, 마이크(122)를 통하여 지속적으로 특정 음량(loudness) 이상의 소리가 감지되는지 여부를 감시(또는 모니터링)할 수 있다.
상기 대기 상태(210)에서는 음성 분석이 수행되지 않으므로, 저전력, 예를 들어, 4.4mA 정도의 전류만을 소모할 수 있다. 이러한 대기 상태(210)는 "리스닝 상태(listening phase)"로 명명될 수 있다.
안내 로봇의 제어부(180)는 대기 상태(210)에서 특정 음량 이상의 소리가 감지되면, 대기 상태(210)에서 음성 인식 상태(220)로 전환할 수 있다.
음성 인식 상태(220)는 제어부(180)가 마이크를 통해 입력된 음성을 분석하는 상태이다. 음성 인식 상태(220)는 음성 분석을 수행하기 때문에, 대기 상태(210)에서보다 더 많은 전류를 소모하게 된다. 예를 들어, 기 설정된 시동어가 수신되기 이전에는, 안내 로봇이 음성 분석을 수행하지 않는 대기 상태(210)로 존재하여, 소모 전류를 감소시킬 수 있다.
제어부(180)는 음성 분석 전, 상기 음성 인식 상태(220)에서 음성 인식을 시작하는 기 설정된 시동어가 수신되었는지 여부를 판단할 수 있다.
상기 시동어는, 음성 분석을 시작하기 위한 제어 명령으로, 장치마다 다양한 단어로 설정될 수 있다. 예를 들어, 시동어는, "Hello, my phone", "Alexa", "OK, google", "air star" 등과 같이 설정될 수 있다. 제어부(180)는 기 설정된 시동어 이후에 발화된 음성에 대하여, 정확한 음성 분석을 시작할 수 있다.
상기 제어부(180)는 음성 인식 상태(220)에서, 음성 인식 알고리즘을 이용하여, 음성 정보를 분석할 수 있다. 또한, 상기 제어부(180)는 상기 분석 결과에 근거하여, 음성 정보에 대응되는 음성 명령에 따라, 안내 로봇을 제어할 수 있다. 이러한 음성 분석은 안내 로봇에 설치된 별도의 써드 파티 애플리케이션(3rd party application)을 이용하여 수행될 수도 있다.
상기 제어부(180)는 인공 지능 알고리즘을 통하여 음성 분석된 분석 정보를 처리하기 위하여, 기 설정된 인공 지능 서버에 전송할 수 있다.
상기 인공 지능 서버는, 인공 지능 알고리즘을 이용하여 방대한 량의 정보를 학습하고, 학습된 정보를 바탕으로 최적의 결과 정보를 도출하는 기능을 제공하는 서버이다. 인공 지능 서버는, 안내 로봇과 통신 가능한 서버로써, 학습된 데이터를 저장하는 러닝데이터부(160)를 포함할 수 있다. 이러한 경우, 도 2에 도시된 러닝데이터부(160)는 후술되는 일상 어휘 학습을 위한 기능만 수행할 수 있다.
또는 제어부(180)는 러닝데이터부(160)에 저장된 데이터들을 바탕으로, 입력된 음성 정보에 응답한 결과 정보를 생성할 수도 있다. 이하의 설명에서는, 안내 로봇(100)이 인공 지능 서버와의 통신을 통하여, 결과 정보를 수신하도록 설정되어 있음을 바탕으로 설명한다.
한편, 제어부(180)는 음성 인식 상태(220)에서, 기 설정된 시동어가 수신되지 않거나, 또는 기 설정된 시간 동안 음성이 수신되지 않는 경우, 음성 인식 상태(220)를 다시 대기 상태(210)로 전환할 수 있다. 이상에서는, 음성 인식 기능과 관련된 안내 로봇의 동작 상태에 대하여 설명하였다.
이하에서는, 이러한 음성 인식 기능을 전제로, 사용자에게 친근감을 제공하고 안내 로봇과의 인터페이스를 자연스럽게 연계시키기 위한 동작 과정을 구체적으로 설명하겠다.
본 발명에서는, 사용자가 자연스럽게 시동어를 발화하여 원하는 안내를 받을 수 있도록, 사용자와 안내 로봇 간의 인터페이스를 연계시키는 동작 과정을 구현하였다. 또, 본 발명에서는 사용자가 단순히 인사말을 건네고 싶은 경우, 이를 인식하여 자연스럽게 응답을 수행할 수 있는 동작 과정을 구현하였다.
이하, 도 4는 본 발명과 관련된 안내 로봇의 동작방법을 설명하기 위한 대표 흐름도이다. 도 4를 참조하면, 먼저, 외부로부터 음성을 수신하는 단계(S10)가 수행된다.
여기에서, 상기 외부로부터 수신되는 음성은 도 3에서 설명한 대기 상태(210)를 음성 인식 상태(220)로 전환시킬 수 있는 음량을 갖는 사용자 음성을 의미한다. 또한, 이러한 사용자 음성은 STT(Speech To Text) 기능을 통해 텍스트 변환되어, 안내 로봇의 디스플레이부(151)에 출력될 수도 있다.
이와 같이 음성이 수신되면, 안내 로봇(100)의 제어부(180)는, 수신된 음성에 기 설정된 시동어가 포함되어 있는지 여부를 판단한다(S20). 여기에서, 상기 기 설정된 시동어는 안내 로봇(100)과 연동된 인공 지능 서버 또는 러닝데이터부(160)를 활성화시킬 수 있는 정해진 키워드(key word) 의미한다. 예를 들어, '에어 스타(air start)', '오케이 구글(ok google)', '하이 클로바(hi clova)' 등이 있을 수 있다.
판단 결과, 기 설정된 시동어가 포함된 경우, 수신된 음성에 포함된 명령을 처리하기 위하여, 상기 수신된 음성을 상기 기 설정된 시동어에 의하여 활성화되는 인공 지능 서버로 전송한다(S30). 이때, 상기 수신된 음성은 기 설정된 시동어만 포함하거나, 기 설정된 시동어와 명령어를 함께 포함할 수 있다.
전자의 경우, 인공 지능 서버가 활성화된 상태에서 후속하는 음성 수신 대기 상태를 유지한다. 후자의 경우는, 인공 지능 서버의 활성화 후 상기 명령어의 분석 결과에 대응되는 결과를 검색한다.
이 후, 안내 로봇은, 상기 인공 지능 서버로부터 결과 정보를 수신하고, 수신된 결과 정보를 출력한다(S40). 이때에, 수신된 결과 정보는, 안내 로봇의 디스플레이부(151)를 통해 출력되거나, 스피커(152)를 통해 출력될 수 있다. 또는, 디스플레이부와 스피커를 통해 동시에 출력되거나, 연관된 서로 다른 정보가 스피커와 디스플레이부를 통해 동시에 출력될 수도 있다.
한편, 단계(S20)에서의 판단 결과 수신된 음성에 기 설정된 시동어가 미포함된 경우이면, 기 설정된 기준에 따라 선택된 응답 음성을 출력한다(S50).
이를 위해, 안내 로봇의 제어부(180)는 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작 모드에 진입할 수 있다. 상기 인사말 인식 동작 모드에서는, 수신된 음성이 실제 사용자가 발화한 인사말인지 여부를 결정하는 것과, 인사말을 발화한 사용자의 특징을 확인하는 것과, 사용자가 특정 정보를 제공받고자 하는지를 추정하는 것을 포함할 수 있다.
또, 여기에서, 상기 기 설정된 기준에 따라 선택된 응답 음성은, 크게 안내 로봇에 수신된 음성에 매칭되는 인사말 타입의 음성이거나 또는 인공 지능 서버를 활성화시키는 기 설정된 시동어를 발화하도록 안내하는 가이드 타입의 음성일 수 있다. 또는, 인사말 타입의 음성과 가이드 타입의 음성의 결합 타입일 수도 있다.
상기 기 설정된 기준은, 수신된 음성의 분석 결과, 음성이 수신되는 동안 센싱된 감지 신호, 이전에 출력된 응답 음성과 연관되어, 능동적으로 설정 또는 가변될 수 있다. 예를 들어, 수신된 음성의 분석에 따른 특정 키워드(예, where, when)의 포함 여부가 기 설정된 기준으로 설정될 수 있다. 이러한 경우, 수신된 음성에 특정 키워드가 포함된 것으로 감지되면, 가이드 타입의 음성을 출력할 수 있다.
한편, 수신된 음성에 기 설정된 시동어가 미포함되고 인사말의 의미로 인식되지 않는 경우이면, 제어부(180)는 인사말 어휘와 관련된 오인식 동작을 수행할 수 있다.
여기서, 상기 오인식 동작은 두 과정으로 구분될 수 있다. 제1과정은 오인식된 인사말에 적합한 응답 음성을 출력하는 과정이다. 그리고, 제2과정은 오인식된 인사말을 새로운 어휘로 학습할지 여부를 결정하여, 데이터베이스를 업데이트하는 과정이다. 그리고, 상기 제2과정에서는 다시 오인식된 인사말이 새로운 어휘인지 또는 의미없는 어휘인지를 판단하는 과정이 추가로 수반된다.
또한, 상기 기 설정된 기준에 따라 선택된 응답 음성은, 수신된 음성이 실제로는 사용자가 발화한 것이 아닌 경우를 고려하여, 어떤 상황에도 자연스럽게 수용할 수 있는 인사말 및 가이드 음성으로 채택된다.
이를 위해, 수신된 음성에 기 설정된 시동어가 미포함된 것으로 판단된 후, 추가 수단(element)(예, 카메라, 인사말 데이터베이스 연동)을 활성화하여 사용자의 발화 여부와 인사말인지 인식하기 위한 추가 동작이 수행될 수 있다.
또한, 상기 기 설정된 기준에 따라 선택된 응답 음성은, 사용자에게 보다 친근감을 전달할 수 있는 맞춤형 인사말 및 가이드 어휘를 구성될 수 있다. 이를 위해, 음성을 발화한 사용자를 확인하여 특징을 추출하거나, 일정 시간 내에 재방문한 사용자를 기억하기 위한 추가 동작이 수행될 수 있다.
이하에서는, 안내 로봇에 수신된 음성이 기 설정된 시동어를 미포함한 상태에서, 맞춤형 응답 음성을 생성하는 다양한 방법을 보다 구체적으로 설명하겠다.
이하, 도 5는 본 발명과 관련된 안내 로봇에서, 인사말에 요청사항이 포함되어있는지 여부에 따라 서로 다른 응답을 출력하는 과정을 설명하기 위한 흐름도이다.
도 5의 흐름도는, 안내 로봇에 수신된 음성에 기 설정된 시동어가 미검출된 상태에서 동작된다. 여기에서, 수신된 음성에 기 설정된 시동어가 미검출된 상태란, 안내 로봇에 수신된 음성이 도 3에서 설명한 '대기 상태'에서 '음성 인식 상태'로 전환될 정도의 음량 크기를 가지면서 동시에 의미를 갖는 음성인 것을 의미한다.
여기에서, 의미를 갖는 음성은, 특정 의미를 나타내는 단어, 문자, 표현 외에, '야', '하하' 등의 의성어 등을 포함할 수 있다.
도 5를 참조하면, 먼저 안내 로봇에 수신된 음성에 기 설정된 시동어가 미검출된 상태에서, 인사말 인식 동작이 개시된다(S501).
인사말 인식 동작이 개시되면, 안내 로봇의 제어부는, 본체에 구비된 하나 이상의 센서를 통해 센싱된 감지신호에 근거하여, 인사말의 인식 여부를 판단한다(S502).
이와 같이 센싱된 감지신호에 근거하여 인사말 여부를 인식하는 이유는, 수신된 음성이 주변 소음에 해당하는지 사용자가 실제 발화한 것인지를 파악하기 위함이다.
여기에서, 하나 이상의 센서는, 적외선 등을 이용한 근접 센서(proximity sensor), 카메라 센서, 모션 센서, RGB 센서, 적외선 센서(infrared sensor), 지문인식 센서(finger scan sensor), 환경 센서, 음성 인식 센서, 및 터치 센서 중 하나 이상을 포함한다.
예를 들어, 제어부(180)는 안내 로봇 본체에 특정 음량 이상의 음성이 수신되고 본체 일측에 터치가 가해진 경우, 터치에 의해 생성된 감지신호에 근거하여 수신된 음성을 인사말로 인식할 수 있다.
또, 예를 들어, 제어부(180)는 안내 로봇 본체에 특정 음량 이상의 음성이 수신되고 카메라 센서를 통해 확인 결과 사용자가 본체 가까이에 근접한 경우이면, 접근에 의해 발생된 감지신호에 근거하여 수신된 음성을 인사말로 인식할 수 있다.
단계(S502)의 판단 결과, 수신된 음성이 인사말이 아닌 것으로 인식되면, 인사말 오인식 동작 및 인사말 학습을 수행할 수 있다(S503).
여기에서, 상기 인사말 오인식 동작은 수신된 음성을 인사말로 인식하도록 처리하는 과정을 포함할 수 있다. 또, 상기 인사말 학습은, 새로 인식된 인사말을 인사말 관련 데이터베이스에 입력하여 업데이트하는 과정을 포함할 수 있다.
또, 본 발명에 따른 안내 로봇의 제어부(180)는 러닝데이터부(160)와 연동하여, 상기 새로 인식된 인사말을 인사말 어휘로 그대로 학습하거나 새로 인식된 인사말에 매칭되는 응답 어휘를 검색하여 확장된 학습을 수행할 수도 있다.
한편, 단계(S502)의 판단 결과, 수신된 음성이 인사말인 것으로 인식되면, 안내 로봇의 제어부는, 인식된 인사말에 하나 이상의 요청 사항이 포함되어 있는지를 추가로 판단한다(S504).
여기에서, 하나 이상의 요청 사항이란, 수신된 음성에 질의 정보, 예를 들어 질의 관련 키워드(예, 여기, 거기, 무엇, 어디, 장소, 가다, 가지?, 뭐니? 등)를 포함하는 것을 의미할 수 있다.
판단 결과, 인식된 인사말에 하나 이상의 요청 사항이 포함된 경우이면, 요청 사항에 따른 가이드 음성을 출력한다(S505).
구체적으로, 요청 사항에 대한 응답 가이드가 안내 로봇의 메모리에 미리 저장된 정보로 충분한 정도이면, 메모리로부터 적절한 응답 가이드를 검출하여 출력할 수 있다. 예를 들어, "안녕, 이름이 뭐니?" 라는 인사말 음성이 수신된 경우, 제어부(180)는 인식된 인사말에 요청사항이 포함된 것으로 인식하고, 인사말 응답 음성과 이름(시동어)이 결합된 형태의 응답 음성, 예를 들어 "안녕하세요, 제 이름은 000이에요"을 출력할 수 있다.
반면, 요청 사항에 대한 응답 가이드가 안내 로봇의 메모리에 미리 저장된 정보로 충분하지 않은 경우이면, 인공 지능 서버와의 연결이 필요하므로, 상기 기 설정된 시동어의 발화를 안내하는 가이드 음성을 출력할 수 있다.
또, 일 실시 예에서는, 요청 사항에 따른 가이드 음성이 출력된 후, 소정 시간 내에 상기 기설정된 시동어를 포함한 음성이 입력되는지를 판단하고, 미입력시 상기 가이드 음성을 이어서 출력할 수도 있다. 예를 들어, 요청 사항+시동어 발화 안내의 결합된 형태의 가이드 음성을 출력할 수 있을 것이다.
한편, 단계(S504)의 판단 결과, 인식된 인사말에 요청 사항이 미포함된 경우이면, 인식된 인사말에 매칭되는 적절한 응답 음성을 출력한다(S506).
이때, 인식된 인사말에 매칭되는 적절한 응답 음성이란, 센서에 의해 감지된 발화 사용자의 특징 외에, 오늘의 날씨, 시간대 등의 상황정보를 기초로 가공된 응답 음성을 의미한다.
이상에서 살펴본 바와 같이, 본 발명에서는 사용자가 기 설정된 시동어를 발화하지 않은 경우에도 인사말로 인식되는지를 판단하고, 인사말로 인식된 경우 추가 요청 사항이 포함되어 있는지를 추가로 판단하여, 판단 결과에 대응되는 적절한 응답을 수행함으로써, 사용성을 더욱 향상시킬 수 있다.
도 6은 본 발명과 관련된 안내 로봇에서, 기 설정된 조건의 만족 여부에 따라 시동어 가이드 음성의 출력 여부를 결정하는 과정을 설명하기 위한 흐름도이다.
도 6을 참조하면, 먼저, 안내 로봇에 음성이 수신됨에 따라 인사말 인식 동작이 개시된다(S601). 여기에서, 상기 인사말 인식 동작은 수신된 음성에 기 설정된 시동어가 미포함된 경우에 실행될 수 있다.
또, 비록 도시되지 않았지만, 전술한 인사말 인식 동작의 개시 조건이 추가될 수 있다. 예를 들어, 안내 로봇이 수신한 음성이 일정 볼륨 이상이면서 기 설정된 시동어를 포함하지 않는 경우에, '인사말 인식 동작'이 개시될 수 있다. 또, 비록 도시되지는 않았지만, 아무런 음성이 수신되지 않더라도, 안내 로봇의 특정 부분, 예를 들어 디스플레이부/헤드에 터치가 감지된 경우에도, '인사말 인식 동작'이 개시될 수 있다.
또한, 인사말 인식 동작의 개시 조건에 대응되는 종료 조건이 추가될 수도 있다. 예를 들어, 인사말 인식 동작의 개시 후 일정 볼륨 이하의 음성만 수신되거나 음성 수신 후 소정 시간이 경과하도록 사용자 음성/사용자 입력(터치입력, 특정 모션)/사용자 접근이 감지되지 않으면, '인사말 인식 동작'이 종료될 수 있다.
인사말 인식 동작에 따라, 안내 로봇은 적절한 인사말 음성을 출력한다(S602). 여기에서, 적절한 인사말 음성이란, 수신된 음성의 분석 결과에 따라 선택된 단어, 어휘, 의성어, 의태어, 성조, 성별 등을 포함하여 구성될 수 있다.
인사말 음성이 출력된 후, 안내 로봇의 제어부는, 정해진 조건을 만족하는지 여부를 판단한다(S603).
여기에서, 정해진 조건이란, 수신된 음성의 볼륨이 증가한 경우, 소정시간내의 입력된 음성 횟수가 일정 횟수 이상인 경우, 응답 음성의 발화 후 소정 시간 내에 새로운 음성이 수신된 경우, 일정 시간 내의 인사말 음성의 출력 횟수 중 적어도 하나일 수 있다.
예를 들어, 인사말 음성의 출력 후 일정 시간 내(예, 3초 이내)에 사용자의 추가 음성이 수신된 경우에 정해진 조건을 만족한 것으로 보고, 이후의 단계 S604를 수행할 수 있다. 반면, 추가 음성이 일정 시간을 경과한 뒤에 수신된 경우에는 정해진 조건을 만족하지 못한 것으로 보고 S605단계를 수행할 수 있다.
상기 정해진 조건을 만족하는 경우, 안내 로봇은 시동어 가이드 음성을 출력한다(S604). 여기에서, 상기 시동어 가이드 음성은, 기 설정된 기동어를 발화하도록 안내하는 가이드 음성을 의미한다.
이때에, 일 실시 예에서는 정해진 조건 중 어느 조건을 만족하였는지 여부를 연관시켜서 시동어 가이드 음성을 변형하여 출력할 수 있다.
한편, 상기 정해진 조건을 만족하지 못하는 경우, 안내 로봇의 제어부는 새로운 음성이 수신되었는지 여부를 판단한다(S605).
다시 말해, 일정 시간이 경과한 후에도 도 3의 음성 인식 상태를 유지하여, 인사말로 인식되는 새로운 음성이 수신되는지 여부를 판단한다. 다만, 이때에도 임계 시간이 경과한 경우에는, 배터리 소모를 고려하여, 안내 로봇의 제어부가 음성 인식 상태를 리스닝 상태, 즉 대기 상태(도 3 참조)로 전환하도록 제어할 수 있을 것이다.
정해진 조건은 만족하지 못했지만 새로운 음성이 수신된 경우, 대응되는 인사말 음성을 출력한다(S602). 즉, 새로운 음성에 매칭되는 응답 음성이 출력된다.
한편, 비록 도시되지는 않았지만, 인사말 음성의 출력(S602) 후 정해진 조건(S603)은 만족하지 못하였으나, 새로운 음성이 수신(S605)됨에 따라, 다시 인사말 음성이 출력(S602)된 경우, 일정 시간 내의 인사말 음성의 출력 횟수가 1회 증가로 카운팅된다. 따라서, 기설정된 조건(S603)을 자동 만족하게 되어, 인사말 음성의 출력(S602) 후에, 이어서 시동어 가이드 음성이 출력된다(S604).
한편, 인사말 음성의 출력(S602) 후에, 정해진 조건(S603)을 만족하지 않고 일정 시간이 경과되면, 인사말 인식 동작이 종료될 수 있다.
또 다른 예에서는, 제어부(180)는 기 설정된 시동어를 미포함한 음성이 수신된 후 일정 시간 내에 다른 음성의 입력이 없는 경우에, 자동으로 시동어의 발화를 안내하는 가이드 음성을 출력할 수도 있다.
또는, 상기 제어부(180)는 기 설정된 시동어를 미포함한 음성이 수신된 후 일정 시간 내에 다른 음성의 입력이 없는 경우, 카메라 등의 센서를 통해 음성을 발화한 사용자가 본체에 근접한 상태를 유지하고 있는지를 확인한 후에, 상기 가이드 음성의 출력 여부를 결정할 수도 있다.
도 7a 및 도 7b는 도 6과 관련된 서로 다른 응답 음성을 출력하는 예시 도면들이다. 도 7a는 인식된 인사말에 대응되는 인사말 타입의 응답 음성(이하, '제1타입의 응답음성'이라 함)(710)의 예시이고, 도 7b는 사용자의 시동어 발화를 안내하는 가이드 타입의 응답 음성(이하, '제2타입의 응답음성')(720)의 예시이다.
일 실시 예에서는, 제1타입의 응답음성과 제2타입의 응답음성이 교번하여 출력될 수도 있다. 예를 들어, 제1타입의 응답음성과 제2타입의 응답음성이 순서를 정하여 출력될 수 있다.
또 다른 실시 예에서는, 음성이 수신된 횟수 및 간격에 기초하여 제1타입의 응답음성과 제2타입의 응답음성 중 어느 하나만 출력되거나 결합된 형태로 출력될 수 있다.
한편, 제1타입의 응답음성과 제2타입의 응답음성의 어휘, 어조, 음량은 사용자 특징 외에도, 안내 로봇 본체의 현재 위치 정보, 현재 시간대 정보, 날씨 정보 등의 상황정보에 기초하여 변형될 수 있다. 예를 들어, 사람의 이동이 많은 낮 시간대에 어린이가 인사말을 건넨 경우, 음량을 크게 하고 친근하고 짧은 인사말 어휘로 응답 음성을 변형하여 출력할 수 있을 것이다.
도 8, 도 9a, 도 9b는 본 발명과 관련된 안내 로봇에서, 접근한 사용자의 특징에 적합한 인사말 음성을 출력하는 것을 설명하기 위한 도면들이다.
도 8을 참조하면, 먼저, 안내 로봇에 기 설정된 시동어가 미포함된 음성이 수신됨에 따라, 인사말 인식 동작이 개시된다(S801). 다음, 안내 로봇의 제어부는, 사용자가 안내 로봇 본체에 접근하는지 여부를 감지하고, 사용자 접근이 감지된 경우, 접근한 사용자를 확인하여 특징을 분류하는 동작을 수행한다(S802).
구체적으로, 사용자의 접근을 감지하기 위하여, 안내 로봇의 센싱부(140)의 하나 이상의 센서를 활성화하여 사용자의 접근, 점진적으로 접근하는지 멀어지는지 여부를 시간의 흐름에 따라 감지할 수 있다.
사용자의 접근이 감지되면, 접근한 사용자를 확인하기 위한 센서, 예를 들어 카메라 센서가 활성화될 수 있다. 또, 사용자의 접근이 감지됨에 따라, 음성이 수신된 방향 및/또는 사용자의 접근이 감지된 방향을 향하여 안내 로봇의 헤드가 자동 회전될 수 있다. 그런 다음, 활성화된 카메라 센서를 통하여, 접근한 사용자의 존재와 얼굴을 확인하는 동작을 수행할 수 있다.
카메라 센서를 통해 사용자의 존재가 인식되면, 사용자의 얼굴을 포함하여 촬영하고, 촬영된 이미지를 분석하여 사용자 특징을 파악할 수 있다.
이러한 사용자 특징은, 예를 들어, 사용자의 성별, 나이, 동반자 포함 여부 등과 같은 객관적 사항을 포함할 수 있다.
또, 이러한 사용자 특징은, 알려진 알고리즘을 이용하여 분석된 사용자의 얼굴 표정에 매칭되는 감정 상태를 포함할 수 있다. 이를 위해, 촬영된 이미지로부터 얼굴 영역을 검출하는 과정이 포함될 수 있다. 얼굴 표정에 매칭되는 감정 상태로는, '기쁨', '화남', '슬픔', '보통', '긴장' 등으로 분류될 수 있다.
이와 같이 음성을 발화한 사용자의 감정 상태가 추정되면, 안내 로봇의 헤드(102)의 전면에 구비된 제2디스플레이를 통해 동일 또는 대응되는 표정을 출력해줄 수 있다. 그에 따라, 사용자에게 더욱 친근감을 전달할 수 있다.
이와 같이, 사용자의 특징이 분류되면, 분류된 특징에 적합한 인사말을 메모리 또는 연동된 데이터베이스로부터 검출할 수 있다(S803).
이를 위해, 본 발명에 따른 안내 로봇은, 다양한 사용자 특징에 대응되는 복수의 인사말 데이터베이스와 연동하여 동작할 수 있다.
예를 들어, 제1데이터베이스가 성별에 따른 인사말 데이터베이스이고, 제2데이터베이스가 감정에 따른 인사말 데이터베이스라고 전제하자. 촬영된 이미지의 분석 결과, 기쁜 감정의 30대 여성으로 특징 분류된 경우, 제1데이터베이스에서 30대 여성이 주로 사용하는 인사말 어휘를 추출하고, 제2데이터베이스에서 기쁜 감정에 매치되는 인사말 어휘를 추출한 다음, 이들을 결합하여 분류된 특징에 적합한 인사말로 가공할 수 있을 것이다.
여기에서, 적합한 인사말의 가공은, 높임말 적용 여부, 성조, 음의 높이, 음량, 발화 속도, 추가 어휘 적용 여부 등을 포함할 수 있다. 이와 같이 검출 또는 가공된 인사말은 음성으로 출력된다(S804). 또, 상기 가공된 인사말은, 음성으로 출력되는 동안 디스플레이부(151)에도 함께 출력될 수 있다.
도 9a와 도 9b는 동일한 인사말 어휘가 음성으로 수신된 경우, 사용자 특징에 따라 서로 다른 응답 음성이 출력되는 예시를 보여주고 있다. 구체적으로, 도 9a는 '노인'이 '안녕'이라고 발화한 상황이고, 도 9b는 '아이'가 '안녕'이라고 발화한 상황이다.
안내 로봇은 헤드(또는, 바디부)에 구비된 카메라(121)를 활성화하여, 인사말을 발화한 사용자를 확인하고, 사용자의 특징을 분류한다.
그에 따라, 서로 다른 데이터베이스로부터 검출된 어휘를 사용하여, 도 9a에서는 높임말 인사말 응답(예, '안녕하세요, 어르신')이 출력되고, 도 9b에서는 짧고 친근한 인사말 응답(예, '안녕, 반가워')이 출력된다.
또한, 비록 도시되지는 않았지만, 이와 같이 인사말 응답이 출력된 후, 기 설정된 시동어의 발화를 안내하는 가이드 음성에도 처음에 매칭된 서로 다른 데이터베이스가 적용된다. 예를 들어, 도 9a의 상황에서는, '더 많은 정보를 원하시면 000이라고 말씀해주세요, 어르신'이라는 가이드 음성이 출력될 수 있다. 그리고, 도 9b의 상황에서는, '묻고 싶은 것이 있으면, 000이라고 불러줘'라는 가이드 음성이 출력될 수 있다.
이와 같이, 사용자의 특징에 따라 적절한 응답을 수행함으로써, 보다 높은 친근감과 감성을 느낄 수 있다.
도 10은 본 발명과 관련된 안내 로봇에서, 수신된 음성에 기 설정된 시동어가 아닌 정해진 키워드가 포함된 경우의 처리 동작을 설명하기 위한 흐름도이다.
도 10을 참조하면, 먼저 안내 로봇에 사용자의 음성이 수신되면(S1001), 안내 로봇의 제어부가, 상기 수신된 음성에 기 설정된 시동어가 포함되어 있는지를 판단한다(S1002).
판단 결과, 기 설정된 시동어가 포함된 경우이면, 수신된 음성을 연동된 인공 지능 서버로 전송한다(S1003). 반면, 판단 결과, 기 설정된 시동어가 미포함된 경우이면, 수신된 음성에 정해진 키워드(keyword)가 포함되어 있는지를 추가 판단한다(S1004).
수신된 음성에 정해진 키워드(keyword)가 포함되지 않은 경우이면, 정해진 응답 음성을 출력하고, 인사말 어휘 학습을 수행한다(S1005). 이때에, 인사말 어휘 학습은 수신된 음성을 새로운 인사말 어휘로 학습하는 과정을 포함한다.
수신된 음성에 정해진 키워드(keyword)가 포함된 경우이면, 정해진 키워드가 포함된 음성을 음성 인식 서버(STT 서버, Speech-To-Text)로 전송한다(S1006).
상기 음성 인식 서버는, 수신된 키워드 음성을 텍스트로 변환하고, 변환된 텍스트에 대응되는 상황정보를 검색할 수 있다. 여기에서, 상기 상황정보는, 키워드에 매칭되어 저장된 질의 안내 정보를 포함할 수 있다. 예를 들어, '길/ 장소/어디(where)'가 키워드로 정해진 경우, '길 찾기를 원하시는 경우~'가 매칭된 상황정보로 검색될 수 있다.
다음, 안내 로봇의 제어부는, 음성 인식 서버로부터 수신된 상황정보에 기초하여 응답 음성을 생성하여 출력한다(S1007).
구체적으로, 안내 로봇은 음성 인식 서버로부터 수신된 상황정보에 근거하여 가공된 가이드 음성을 출력할 수 있다. 예를 들어, '길 찾기를 원하시는 경우'가 상황정보로 수신된 경우, 수신된 상황정보에 대응되는 텍스트와 기 설정된 시동어를 합성시켜서 생성한 가이드 음성(예, '길 찾기를 원하시는 경우 000라고 부른 뒤에 물어보세요')을 출력할 수 있다.
이상에서 살펴본 바와 같이, 본 발명에 따른 안내 로봇은, 사용자에게 보다 친근감을 주면서 자연스럽게 인터페이스 연계가 가능하도록 안내함으로써, 사용성을 더욱 향상시킬 수 있다. 또, 일상 어휘의 인식률이 높지 않은 점을 고려하여, 다양한 상황 수집을 통해 사용자가 실제로 발화한 것인지 여부를 인식하여, 상황에 맞는 자연스러운 대화를 이어나갈 수 있다. 나아가, 사용자가 특정 목적을 가지고 질의하지 않은 경우에도, 발화한 것으로 추정되는 사용자의 특징을 파악하여 어울리는 맞춤형 응답을 수행할 수 있고, 새로운 일상 어휘를 지속적으로 학습할 수 있다. 또, 사용자가 시동어를 발화하지 않더라도, 목적없이 단순히 인사만 하고 싶은 경우와 구체적인 정보를 제공받기를 원하는지 여부를 구별하여, 적절한 응답을 수행할 수 있다. 그에 따라, 확장된 일상 대화가 가능해지므로, 높은 친근감과 감성을 느낄 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (15)

  1. 음성을 수신하도록 형성된 음성 수신부;
    수신된 음성에 기 설정된 시동어가 포함되어 있는지 여부를 판단하는 제어부;
    상기 기 설정된 시동어에 의하여 활성화되도록 설정된 인공 지능 서버와 통신하는 무선 통신부;를 포함하고,
    상기 제어부는,
    상기 수신된 음성에 기 설정된 시동어가 포함된 경우, 상기 수신된 음성을 상기 인공 지능 서버로 전송하고, 상기 인공 지능 서버로부터 결과 정보를 수신하여 수신된 결과 정보를 출력하며,
    상기 수신된 음성에 기 설정된 시동어가 미포함된 경우, 기설정된 기준에 따라 선택된 응답 음성을 출력하는 것을 특징으로 하는 안내 로봇.
  2. 제1항에 있어서,
    상기 제어부는
    상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 수행하며, 상기 인사말 인식 동작에서는, 적어도 하나 이상의 센서로부터 수신된 감지신호에 근거하여 인사말로 인식되는지 여부를 판단하는 것을 특징으로 하는 안내 로봇
  3. 제2항에 있어서,
    상기 제어부는,
    상기 인사말 인식 동작에 따라 인사말이 인식된 경우, 인식된 인사말에 하나 이상의 요청사항이 포함되어 있는지를 추가로 판단하고, 판단 결과에 근거하여 응답 음성을 선택하는 것을 특징으로 하는 안내 로봇.
  4. 제3항에 있어서,
    상기 제어부는,
    판단 결과, 인식된 인사말에 하나 이상의 요청사항이 포함된 경우이면, 인식된 요청 사항에 따른 가이드 음성을 출력하고,
    판단 결과, 인식된 인사말에 하나 이상의 요청사항이 미포함된 경우이면, 상기 인식된 인사말에 매칭되는 응답 음성을 출력하는 것을 특징으로 하는 안내 로봇.
  5. 제2항에 있어서,
    상기 제어부는,
    상기 인사말 인식 동작에서 인사말이 인식되지 않은 경우, 상기 수신된 음성에 근거하여 오인식 동작 및 인사말 학습을 수행하는 것을 특징으로 하는 안내 로봇.
  6. 제1항에 있어서,
    상기 기설정된 기준에 따라 선택되는 응답 음성은, 상기 수신된 음성에 매칭되는 인사말 음성 및 상기 기 설정된 시동어의 발화를 안내하는 가이드 음성 중 어느 하나인 것을 특징으로 하는 안내 로봇.
  7. 제1항에 있어서,
    상기 제어부는,
    상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 개시하고, 상기 인사말 인식 동작에 따라 상기 수신된 음성에 매칭되는 응답 음성을 출력하고,
    상기 응답 음성의 출력 후 정해진 조건을 만족하는 것에 응답하여 상기 기 설정된 기동어의 발화를 안내하는 가이드 음성을 출력하는 것을 특징으로 하는 안내 로봇.
  8. 제7항에 있어서,
    상기 정해진 조건은 수신된 음성의 볼륨이 증가하는 경우, 소정시간내의 입력된 음성 횟수가 일정 횟수 이상인 경우, 응답 음성의 발화 후 소정 시간 내에 새로운 음성이 수신된 경우 중 적어도 하나를 포함하는 것을 특징으로 하는 안내 로봇.
  9. 제7항에 있어서,
    상기 제어부는,
    상기 응답 음성의 출력 후 상기 정해진 조건을 만족하지 않고 일정 시간 내에 새로운 음성이 수신되면, 새로운 음성에 매칭되는 응답 음성을 출력하고,
    상기 응답 음성의 출력 후 정해진 조건을 만족하지 않고 일정 시간이 경과하면 상기 인사말 인식 동작을 종료하는 것을 특징으로 하는 안내 로봇.
  10. 제1항에 있어서,
    안내 로봇 본체에 접근하는 사용자를 감지하는 센서;를 더 포함하고,
    상기 제어부는,
    상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 개시하고, 상기 센서를 통해 접근하는 사용자가 감지되면, 접근한 사용자를 확인하여 사용자 특징을 분류하고, 분류된 사용자 특징에 적합하도록 인사말을 가공하여 응답 음성으로 출력하는 것을 특징으로 하는 안내 로봇.
  11. 제10항에 있어서,
    상기 제어부는,
    상기 센서를 통해 접근하는 사용자가 감지되면, 카메라를 활성화하여 접근한 사용자의 얼굴 이미지를 획득하고, 획득된 얼굴 이미지를 분석하여 사용자 특징을 추출하여 분류하는 것을 특징으로 하는 안내 로봇.
  12. 제1항에 있어서,
    상기 제어부는,
    상기 수신된 음성에 기 설정된 시동어가 미포함된 경우, 상기 수신된 음성에 정해진 키워드가 포함되었는지 여부를 판단하고,
    판단 결과 정해진 키워드가 포함된 경우이면 해당 키워드가 포함된 음성을 음성 인식 서버로 전송하여 키워드에 대응되는 상황정보를 수신하고, 수신된 상황정보에 근거하여 생성된 응답 음성을 출력하는 것을 특징으로 하는 안내 로봇.
  13. 음성을 출력할 수 있는 안내 로봇의 동작 방법으로서,
    사용자의 음성을 수신하는 단계;
    수신된 음성에 기 설정된 시동어가 포함되어 있는지 여부를 판단하는 단계;
    상기 수신된 음성에 기 설정된 시동어가 포함된 경우, 수신된 음성을 상기 기 설정된 시동어에 의하여 활성화되도록 설정된 인공 지능 서버로 전송하고, 상기 인공 지능 서버로부터 결과 정보를 수신하여 수신된 결과 정보를 출력 단계; 및
    상기 수신된 음성에 기 설정된 시동어가 미포함된 경우, 기설정된 기준에 따라 선택된 응답 음성을 출력하는 단계를 포함하여 이루어지는 안내 로봇의 동작 방법.
  14. 제13항에 있어서,
    상기 기설정된 기준에 따라 선택된 응답 음성을 출력하는 단계는,
    상기 수신된 음성에 기 설정된 시동어가 미포함된 경우 인사말 인식 동작을 수행하는 단계;
    상기 인사말 인식 동작에서, 적어도 하나 이상의 센서로부터 수신된 감지신호에 근거하여 인사말로 인식되는지 여부를 판단하는 단계; 및
    상기 인사말 인식 동작에 따라 인사말이 인식된 경우, 인식된 인사말에 하나 이상의 요청사항이 포함되어 있는지를 추가로 판단하고, 판단 결과에 근거하여 응답 음성을 선택하는 단계를 포함하는 것을 특징으로 하는 안내 로봇의 동작 방법.
  15. 제14항에 있어서,
    하나 이상의 요청사항이 포함되어 있는지의 판단 결과, 인식된 인사말에 하나 이상의 요청사항이 포함된 경우이면, 인식된 요청 사항에 따른 가이드 음성을 출력하는 단계; 및
    하나 이상의 요청사항이 포함되어 있는지의 판단 결과, 인식된 인사말에 하나 이상의 요청사항이 미포함된 경우이면, 상기 인식된 인사말에 매칭되는 응답 음성을 출력하는 단계를 포함하는 것을 특징으로 하는 안내 로봇의 동작 방법.
PCT/KR2019/004336 2019-04-11 2019-04-11 안내 로봇 및 안내 로봇의 동작 방법 WO2019160396A2 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/490,468 US11276399B2 (en) 2019-04-11 2019-04-11 Guide robot and method for operating the same
PCT/KR2019/004336 WO2019160396A2 (ko) 2019-04-11 2019-04-11 안내 로봇 및 안내 로봇의 동작 방법
KR1020197022511A KR20210138181A (ko) 2019-04-11 2019-04-11 안내 로봇 및 안내 로봇의 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/004336 WO2019160396A2 (ko) 2019-04-11 2019-04-11 안내 로봇 및 안내 로봇의 동작 방법

Publications (2)

Publication Number Publication Date
WO2019160396A2 true WO2019160396A2 (ko) 2019-08-22
WO2019160396A3 WO2019160396A3 (ko) 2020-02-20

Family

ID=67620984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004336 WO2019160396A2 (ko) 2019-04-11 2019-04-11 안내 로봇 및 안내 로봇의 동작 방법

Country Status (3)

Country Link
US (1) US11276399B2 (ko)
KR (1) KR20210138181A (ko)
WO (1) WO2019160396A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543390A (zh) * 2020-11-25 2021-03-23 南阳理工学院 一种幼儿智能音箱及其交互方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11484685B2 (en) * 2010-06-07 2022-11-01 Affectiva, Inc. Robotic control using profiles
US11501794B1 (en) * 2020-05-15 2022-11-15 Amazon Technologies, Inc. Multimodal sentiment detection
CN112008723A (zh) * 2020-08-21 2020-12-01 北京云迹科技有限公司 基于机器人问询的自助机业务办理的方法、装置及系统
WO2022104161A2 (en) * 2020-11-13 2022-05-19 Armstrong Robotics, Inc. System for automated manipulation of objects using a vision-based collision-free motion plan
US11964398B2 (en) * 2021-01-28 2024-04-23 Micropharmacy Corporation Systems and methods for autonomous robot distributed processing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6308157B1 (en) * 1999-06-08 2001-10-23 International Business Machines Corp. Method and apparatus for providing an event-based “What-Can-I-Say?” window
KR20090000637A (ko) 2007-03-13 2009-01-08 주식회사 유진로봇 서비스 컨텐츠 제공 및 위치 안내기능이 구비된 이동형지능 로봇
KR101119026B1 (ko) * 2009-07-07 2012-03-13 송세경 식당의 고객 서비스 및 계산 가능한 지능형 주행로봇
JP5709955B2 (ja) 2013-09-30 2015-04-30 三菱重工業株式会社 ロボットおよび音声認識装置ならびにプログラム
KR102585228B1 (ko) 2015-03-13 2023-10-05 삼성전자주식회사 음성 인식 시스템 및 방법
DE112017001573B4 (de) * 2016-03-28 2020-01-30 Groove X, Inc. Autonom agierender Roboter, der eine Begrüssungsaktion durchführt
US20180158458A1 (en) * 2016-10-21 2018-06-07 Shenetics, Inc. Conversational voice interface of connected devices, including toys, cars, avionics, mobile, iot and home appliances
US20180133900A1 (en) * 2016-11-15 2018-05-17 JIBO, Inc. Embodied dialog and embodied speech authoring tools for use with an expressive social robot
KR102112564B1 (ko) 2017-05-19 2020-06-04 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법
CN111194464A (zh) * 2017-10-11 2020-05-22 索尼公司 语音输入装置和方法以及程序
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN108897848A (zh) * 2018-06-28 2018-11-27 北京百度网讯科技有限公司 机器人互动方法、装置及设备
KR102012968B1 (ko) * 2018-08-07 2019-08-27 주식회사 서큘러스 인터렉션 로봇의 제어 방법 및 제어 서버

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112543390A (zh) * 2020-11-25 2021-03-23 南阳理工学院 一种幼儿智能音箱及其交互方法
CN112543390B (zh) * 2020-11-25 2023-03-24 南阳理工学院 一种幼儿智能音箱及其交互方法

Also Published As

Publication number Publication date
WO2019160396A3 (ko) 2020-02-20
KR20210138181A (ko) 2021-11-19
US20200005787A1 (en) 2020-01-02
US11276399B2 (en) 2022-03-15

Similar Documents

Publication Publication Date Title
WO2019160396A2 (ko) 안내 로봇 및 안내 로봇의 동작 방법
WO2020213762A1 (ko) 전자장치, 그 동작방법, 및 복수의 인공지능장치를 포함한 시스템
WO2020013428A1 (ko) 개인화 asr 모델을 생성하는 전자 장치 및 이를 동작하는 방법
KR102411766B1 (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
WO2021015308A1 (ko) 로봇 및 그의 기동어 인식 방법
WO2018110818A1 (en) Speech recognition method and apparatus
KR20190084789A (ko) 전자 장치 및 그 제어 방법
WO2019124742A1 (ko) 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치
WO2019146970A1 (ko) 사용자 발화 응답 방법 및 이를 지원하는 전자 장치
EP3533052A1 (en) Speech recognition method and apparatus
WO2019132410A1 (en) Electronic device and control method thereof
WO2019172735A2 (ko) 커뮤니케이션 로봇 및 그의 구동 방법
WO2020141952A1 (en) Conversational control system and method for registering external device
WO2020130260A1 (en) Mobile terminal and method of operating the same
WO2020080635A1 (ko) 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법
WO2020130549A1 (en) Electronic device and method for controlling electronic device
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
US11682388B2 (en) Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same
WO2020180001A1 (ko) 전자 장치 및 이의 제어 방법
WO2020138662A1 (ko) 전자 장치 및 그의 제어 방법
EP3785258A1 (en) Electronic device and method for providing or obtaining data for training thereof
WO2021107390A1 (en) Electronic device and method for controlling the electronic device
WO2019088338A1 (ko) 전자 장치 및 그 제어 방법
WO2019054715A1 (ko) 전자 장치 및 이의 피드백 정보 획득 방법
WO2021080033A1 (ko) 음성 분석 방법 및 장치

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19755005

Country of ref document: EP

Kind code of ref document: A2