WO2020171548A1 - 사용자 입력 처리 방법 및 이를 지원하는 전자 장치 - Google Patents

사용자 입력 처리 방법 및 이를 지원하는 전자 장치 Download PDF

Info

Publication number
WO2020171548A1
WO2020171548A1 PCT/KR2020/002327 KR2020002327W WO2020171548A1 WO 2020171548 A1 WO2020171548 A1 WO 2020171548A1 KR 2020002327 W KR2020002327 W KR 2020002327W WO 2020171548 A1 WO2020171548 A1 WO 2020171548A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
electronic device
target
users
Prior art date
Application number
PCT/KR2020/002327
Other languages
English (en)
French (fr)
Inventor
김문식
김기범
여재영
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2020171548A1 publication Critical patent/WO2020171548A1/ko
Priority to US17/406,727 priority Critical patent/US20210383806A1/en

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0011Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
    • G05D1/0016Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement characterised by the operator's input device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0255Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • Various embodiments disclosed in this document are related to a user input processing technology of an electronic device.
  • the electronic device supports various input methods.
  • the electronic device supports a voice input method in which voice data according to a user's speech is input based on execution of a designated application program.
  • the electronic device supports a speech recognition service that derives the intention of the user's speech by recognizing the input speech data, and performs a task corresponding to the derived user's speech intention.
  • the electronic device may receive a user utterance including message information, recognize voice data according to the user utterance, and transmit data corresponding to the message information to an external device owned by a related message recipient.
  • an electronic device may require an external device to interact with the electronic device to perform a task (e.g., message delivery), and the task is not effective when the external device is powered off or communication failure. Otherwise, it may be incompletely terminated.
  • Various embodiments disclosed in this document include, when receiving a user utterance, a user input processing method capable of performing a task (e.g., message delivery) by moving to an execution position of a task corresponding to the user utterance, and an electronic device supporting the same. Device can be provided.
  • a user input processing method capable of performing a task (e.g., message delivery) by moving to an execution position of a task corresponding to the user utterance
  • an electronic device supporting the same can be provided.
  • An electronic device includes a memory, a microphone, a communication circuit, a driving module, a sensor module, and a processor operatively connected to the memory, the microphone, the communication circuit, the driving module, and the sensor module. It may include.
  • the processor stores information related to each of a plurality of users in the memory, receives user utterances related to task performance of the electronic device through the microphone, and the communication circuit At least one operation information of the electronic device related to the task execution and at least one required to perform the operation by transmitting the first data related to the user utterance to a designated external device using the communication circuit Second data including a parameter of is received from the external device, and based on the at least one parameter, a first user related to the target of performing the task is identified among the plurality of users, and each of the plurality of users Inferring the location of the target based on the first user-related information included in related information, controlling the driving module to move the electronic device to a first location based on the inference, and moving the electronic device from the first location
  • the first user is searched for by comparing information acquired using a sensor module or the microphone and information related to the first user, and when the first user is recognized based on the search, the first user is 1
  • the electronic device may be moved to a second location within
  • the target user Information can be provided intuitively.
  • reliability of task execution may be improved by inferring the location of the target user and performing the task by the electronic device.
  • FIG. 1 is a diagram illustrating an example of an operation of an electronic device according to an exemplary embodiment.
  • FIG. 2 is a diagram illustrating an intelligent system according to an exemplary embodiment.
  • FIG. 3 is a diagram illustrating an intelligent server according to an embodiment.
  • FIG. 4 is a diagram illustrating an electronic device according to an exemplary embodiment.
  • FIG. 5 is a diagram illustrating a user speech prediction form of an electronic device according to an exemplary embodiment.
  • FIG. 6 is a diagram illustrating a target identification type of an electronic device according to an exemplary embodiment.
  • FIG. 7 is a diagram illustrating a spatial determination form of an electronic device according to an exemplary embodiment.
  • FIG. 8 is a diagram illustrating a movement form of an electronic device according to an exemplary embodiment.
  • FIG. 9 is a diagram illustrating a function setting screen of an electronic device according to an exemplary embodiment.
  • FIG. 10 is a diagram illustrating a method of processing a user input by an electronic device according to an exemplary embodiment.
  • FIG. 11 is a diagram illustrating an electronic device in a network environment according to an exemplary embodiment.
  • FIG. 1 is a diagram illustrating an example of an operation of an electronic device according to an exemplary embodiment
  • FIG. 2 is a diagram illustrating an intelligent system according to an exemplary embodiment.
  • the electronic device 100 may receive voice data according to a user's utterance in a specific space 10 (eg, home, office, classroom, or workplace, etc.) to be arranged.
  • the electronic device 100 may receive voice data according to a user's speech through a mounted microphone, and process the voice data to perform a related operation, or a state may be changed.
  • the user utterance according to an embodiment is the utterance of a task command containing a command or intention related to the execution of a specific task by the electronic device 100 (eg, “Tell Yujin to eat”, etc.).
  • the electronic device 100 may perform a task (eg, message delivery) corresponding to the user utterance by processing voice data according to the user utterance through interaction with the intelligent server 200 connected through a network. .
  • the user utterance may be a wake-up utterance (eg, “hi, Chat Bot!” or “wake up!”) that controls a state change of the electronic device 100.
  • the user utterance transitions from a listening state in which the electronic device 100 is waiting for reception of the user utterance to a wake-up state in which voice data input according to the occurrence of the user utterance can be processed ( Alternatively, it may be a speech for activating the voice recognition service function.
  • the user utterance may include a specified wake-up keyword related to a transition of the wake-up state of the electronic device 100.
  • the electronic device 100 may transition to a wake-up state capable of processing task command speech.
  • the transition of the wake-up state (or activation of the voice recognition service function) of the electronic device 100 is performed by a user manipulation of a hardware button disposed as an area of the electronic device 100 in addition to the user's wake-up utterance.
  • the electronic device 100 Voice data according to the speech of the first user 20 may be transmitted to the intelligent server 200.
  • the intelligent server 200 may support the operation of the voice recognition service of the electronic device 100 based on the recognition of the voice data, and in this regard, the electronic device 100 may use voice data with high reliability of the intelligent server 200.
  • the voice data according to the speech of the first user 20 may be pre-processed (eg, echo cancellation, background noise suppression, volume control, equalization, or detection of a voice end point) and transmitted.
  • the intelligent server 200 may derive an intention of the first user 20 utterance by using voice data received from the electronic device 100.
  • the intelligent server 200 performs a sequence of operations of the electronic device 100 related to the task execution so that the electronic device 100 can perform a task corresponding to the derived first user 20 utterance intention. (sequence) may be generated and transmitted to the electronic device 100.
  • the functional operation of the intelligent server 200 may be performed by the electronic device 100.
  • the electronic device 100 self-recognizes voice data according to the first user's 20 utterance to derive the first user's 20's utterance intention, and You can create or select a sequence to perform a task.
  • the electronic device 100 may perform a command or a task intended by the first user 20 (eg, message delivery) by operating based on the sequence.
  • the sequence includes at least one operation information to be performed by the electronic device 100 and at least one parameter (eg, message content or message recipient) required to perform the operation (or task execution).
  • the electronic device 100 identifies a second user 30 corresponding to a target of task execution based on a parameter included in the sequence, and the second user 30 pre-stored on the electronic device 100
  • the location of the second user 30 may be estimated based on the related information.
  • the electronic device 100 may move to the estimated location and search for the second user 30 by using information acquired through at least one sensor mounted at the location.
  • the electronic device 100 moves to a location close to the second user 30
  • audio output eg, “Yu Jin-ah's mother wants to eat”
  • video output e.g., “Yu Jin-ah's mother wants to eat”
  • FIG. 3 is a diagram illustrating an intelligent server according to an embodiment.
  • the intelligent server 200 may include a voice input processing module 210 for processing voice data according to a user's utterance received from an electronic device (100 in FIG. 1 or 2 ).
  • the voice input processing module 210 includes at least a response of the electronic device 100 to a user utterance (for example, an operation of the electronic device 100 related to task execution) based on the recognition of the voice data.
  • Some may be generated, and in this regard, an automatic speech recognition (ASR) module 211, a natural language understanding (NLU) module 212, and/or a text to speech (TTS) module 213 may be included.
  • ASR automatic speech recognition
  • NLU natural language understanding
  • TTS text to speech
  • At least one module included in the voice input processing module 210 may be implemented as, for example, hardware or software, and may be independent of each other, or may be at least partially integrated.
  • the intelligent server 200 communicates with a processor that controls a functional operation of the voice input processing module 210, a memory storing at least one model related to recognition of the voice data, or the electronic device 100 It may further include a communication circuit that supports.
  • the ASR module 211 may recognize voice data received from the electronic device 100 and convert it into text data.
  • the ASR module 211 uses an acoustic model including at least one information related to speech or vocalization or a language model including information on a combination of at least one unit phoneme and unit phonemes to text the speech data. Can be converted into data.
  • the ASR module 211 may transmit the converted text data to the electronic device 100 using the communication circuit.
  • the NLU module 212 may receive text data from the ASR module 211 and derive an intention of a user's speech related to the voice data based on the text data. For example, the NLU module 212 divides the text data into grammatical units (e.g., words, phrases, morphemes, etc.), analyzes grammatical elements or linguistic characteristics of each unit, and the meaning of the text data By judging, it is possible to derive the intention of the user's speech related to the voice data. According to an embodiment, the NLU module 212 may acquire a domain, an intent, and a parameter necessary for expressing the intent on the text data based on the derived user speech intent. .
  • grammatical units e.g., words, phrases, morphemes, etc.
  • the NLU module 212 may generate a sequence of operations of the electronic device 100 for performing a task corresponding to the user's speech intention based on the acquired domain, intention, and parameter. According to an embodiment, the sequence may include at least one operation information of the electronic device 100 related to task execution and at least one parameter required to execute the at least one operation. The NLU module 212 may transmit the generated sequence to the electronic device 100 using the communication circuit.
  • the TTS module 213 receives grammatical units (eg, words, phrases, morphemes, etc.) for the text data from the NLU module 212, and converts the grammatical units in the text form into voice data. I can. According to various embodiments, the TTS module 213 changes the part of speech of the grammatical unit in the conversion operation, adds the part of speech to the grammatical unit, or changes the word order of the grammatical unit, thereby changing the grammatical unit of the text form in various aspects. Can be converted to voice data of. The TTS module 213 may transmit the converted voice data to the electronic device 100 using the communication circuit.
  • grammatical units eg, words, phrases, morphemes, etc.
  • At least a part of the above-described voice input processing module 210 may be included in the electronic device 100.
  • at least some of the ASR module 211, NLU module 212, or TTS module 213 of the voice input processing module 210 are included in the electronic device 100, At least a part of recognition or response generation by the device 100 may be supported.
  • FIG. 4 is a diagram illustrating an electronic device according to an exemplary embodiment.
  • an electronic device 100 includes a microphone 110, a communication circuit 120, a memory 130, a processor 140, a driving module 150, a sensor module 160, A speaker 170 and/or a display 180 may be included.
  • the electronic device 100 may omit at least one of the above-described components or may additionally include other components.
  • the electronic device 100 may further include components of the electronic device 1301 of FIG. 13 to be referred to through FIG. 13 to be described later.
  • the components of the electronic device 100 described above may be disposed inside a housing that forms at least a part of the exterior of the electronic device 100, or may be connected or coupled to the housing.
  • the microphone 110 may receive a voice signal according to a user's speech.
  • the microphone 110 may operate in, for example, a state that is always driven (eg, always on) to receive the voice signal.
  • the microphone 110 may be activated and operated when the electronic device 100 transitions to a wake-up state according to a user manipulation of a hardware button disposed in one area of the electronic device 100.
  • the microphone 110 may include a plurality of microphones in relation to efficient reception of the voice signal, and at least some of them may be exposed to the outside through an area of the electronic device 100.
  • the communication circuit 120 may support communication between the electronic device 100 and at least one external device.
  • the communication circuit 120 establishes a network with an intelligent server (200 in FIG. 2 or 3), and connects to the network through wired communication or wireless communication according to a prescribed protocol, so that the intelligent server It is possible to transmit and receive data or signals related to operation of the voice recognition service with 200.
  • the communication circuit 120 may establish an IoT environment connected to at least one IoT device on a specific space 10 in which the electronic device 100 is disposed and a network.
  • the memory 130 stores at least one data related to operation of a voice recognition service function of the electronic device 100, or at least one data related to control of a function operation of components of the electronic device 100 You can save the order.
  • the memory 130 may store voice data according to reception of a user's speech, or a sequence received from the intelligent server 200 (or generated by the electronic device 100).
  • the memory 130 may store at least one application 131.
  • the application 131 may include, for example, an intelligent application that supports the operation of the voice recognition service of the electronic device 100.
  • the intelligent application may execute another application related to the task execution of the electronic device 100 or support the execution of at least some of the operations of the electronic device 100 according to the sequence.
  • the memory 130 may further include at least one module that supports recognition of a speaker of a user's utterance or recognition of a target related to performing a task.
  • the memory 130 may include a speaker recognition module 133, a spatial recognition module 135, an object recognition module 137, and/or a target recognition module 139 executed under the control of the processor 140, which will be described later. It may further include.
  • a model included in the speaker recognition module 133, the spatial recognition module 135, the object recognition module 137, or the target recognition module 139 is at least one registered in the electronic device 100. It can be understood as information related to the user.
  • the speaker recognition module 133 may recognize a target of the user speech (eg, a speaker) when receiving a user speech (eg, task command speech or wake-up speech) through the microphone 110. .
  • the speaker recognition module 133 may include a speaker recognition model corresponding to each of the at least one user in order to recognize at least one user registered in the electronic device 100.
  • the speaker recognition module 133 receives a reference speech from each user through the microphone 110, and is extracted from the reference speech.
  • a speaker recognition model corresponding to each of the users may be generated by using statistical characteristics of a feature vector.
  • the statistical characteristics may include, for example, a distribution of a difference value between a feature vector extracted from a reference speech of a specific user and a feature vector extracted from a plurality of utterances by the specific user.
  • the speaker recognition module 133 when at least one user is registered on the electronic device 100, the speaker recognition module 133 generates a speaker recognition model based on an image (eg, still image or video) captured for each user. Can be generated. For example, the speaker recognition module 133 acquires (or photographs) the face image of each user using an image sensor included in the sensor module 160 to be described later, and at least one A speaker recognition model corresponding to each user can be generated based on the feature point extraction.
  • the speaker recognition module 133 acquires (or photographs) an image of the user's body using an image sensor and/or a depth sensor included in the sensor module 160, and the image of the body A speaker recognition model corresponding to each user may be generated using user skeleton information, key information, or body size information determined from
  • the speaker recognition module 133 uses a biometric sensor (eg, a fingerprint sensor or an iris sensor) included in the sensor module 160 when registering at least one user on the electronic device 100. Information may be obtained, and a speaker recognition model corresponding to each user may be generated based on the biometric information.
  • the speaker recognition module 133 learns the generated speaker recognition model, compares the voice data input when receiving the user speech or the acquired face image with the speaker recognition model to perform the user speech (for example, a speaker). Can be recognized.
  • the space recognition module 135 includes map information and/or map information for a specific space (10 of FIG. 1) (eg, home, office, classroom, or workplace) in which the electronic device 100 is placed. Alternatively, real-time location information of the electronic device 100 obtained through a location sensor included in the sensor module 160 may be obtained. Alternatively, the space recognition module 135 may store a space recognition model corresponding to each of at least one user registered in the electronic device 100. In an embodiment, the spatial recognition model may include spatial information (eg, room information or section information) mapped to a corresponding user. In this regard, when registering at least one user with respect to the electronic device 100, each user may input room information or section information in the specific space 10 related to the user.
  • a specific space eg, home, office, classroom, or workplace
  • the space recognition module 135 may store a space recognition model corresponding to each of at least one user registered in the electronic device 100.
  • the spatial recognition model may include spatial information (eg, room information or section information) mapped to a corresponding user.
  • each user may input their own bedroom information as the room information.
  • each user may input his/her own work space information as the section information.
  • at least some of the at least one user may input the room information or section information for each time zone based on a pattern in which the person is located or active in a specific time zone. For example, the at least some users input first room information or first section information for a first time zone, and second room information different from the first room information or first section information for a second time zone, or You can enter the second section information.
  • the spatial recognition module 135 may generate the spatial recognition model by mapping room information or section information input from each user with a corresponding user.
  • the spatial recognition module 135 may update the generated spatial recognition model in real time or according to a specified period.
  • the spatial recognition module 135 is the speaker recognition model described above (or the target recognition model described later).
  • the photographed user can be recognized with reference to.
  • the space recognition module 135 checks the room or section in which the recognized user is located using map information on the space 10 stored in the memory 130 and real-time location information of the electronic device 100, and Alternatively, information on a section and time stamp information of the photographing may be mapped to a recognized user and registered in a spatial recognition model.
  • the spatial recognition module 135 uses the above-described speaker recognition model (or a target recognition model described later). With reference, a user related to the voice signal can be recognized.
  • the spatial recognition module 135 may map information on a room or section in which the recognized user is located and time stamp information of reception of the voice signal with the recognized user and register it in the spatial recognition model.
  • the spatial recognition module 135 may remove previously updated information (eg, room or section information mapped with a user, and time stamp information) from the spatial recognition model. have.
  • the object recognition module 137 may recognize an object in an image acquired (or photographed) through an image sensor of the sensor module 160.
  • the object recognition module 137 may include an object recognition model that supports recognition of at least one object in a specific space 10 in which the electronic device 100 is disposed.
  • the object recognition module 137 performs machine learning (eg, a home appliance or furniture) image of the specific space 10 and related objects (eg, household appliances or furniture) input by a developer or user of the electronic device 100. : Can do deep learning.
  • the object recognition module 137 may machine learn an object image owned by the user input from the user.
  • the object recognition module 137 may learn an image of a user's favorite clothing or accessory.
  • the object recognition module 137 may generate an object recognition model for at least one object included in the object image based on the machine learning.
  • the object recognition module 137 when the object corresponds to clothing or accessories owned by a user, the object recognition module 137 generates an object recognition model for the object, and when the object recognition model is generated, a user (eg, an object Information of the owner) can be included.
  • the object recognition module 137 analyzes an image captured by the image sensor of the sensor module 160 when the electronic device 100 is moved, using an object recognition model, so that at least one included in the image is Can recognize the object of.
  • the object recognition module 137 identifies a room or section in which the recognized object is located using map information on the specific space 10 and real-time location information of the electronic device 100, and The information and the time stamp information of the photographing may be mapped to a recognized object and registered in an object recognition model.
  • the target recognition module 139 may recognize a user corresponding to a target for performing the task.
  • the target recognition module 139 may include a target recognition model used for recognition of the target user.
  • the target recognition module 139 similarly to the generation of the speaker recognition model described above, when at least one user is registered for the electronic device 100, the utterance received for each user, and the input received from each user.
  • the target recognition model may be generated based on biometric information (eg, fingerprint information or iris information), or a face image or a body image captured for each user.
  • the target recognition module 139 identifies a target for performing the task based on a parameter (eg, a message recipient) included in a sequence received from the intelligent server 200, and an electronic device ( When moving 100), a user corresponding to the identified target may be recognized using the target recognition model.
  • the target recognition module 139 is a user corresponding to a voice acquired when the electronic device 100 moves (or when the movement is completed), biometric information to be detected, or an image to be photographed (eg, a face image or a body image).
  • a user corresponding to the target may be recognized by determining whether a correspondence between the determined user and the identified target is determined using the target recognition model.
  • the target recognition module 139 may generate the target recognition model using a plurality of face images for each user.
  • the target recognition module 139 causes the sensor module 160 to capture a plurality of face images for each user using an image sensor in an operation of registering at least one user for the electronic device 100.
  • the target recognition module 139 may request each of the users to capture a left face image, a right face image, and a front face image.
  • the plurality of face images may be referred to, for example, for user recognition corresponding to a target, which will be described later with reference to FIG. 8.
  • the processor 140 is implemented by at least one of a central processing unit, an application processor, and a communication processor to control components of the electronic device 100. I can.
  • the processor 140 is electrically or functionally connected to the components of the electronic device 100 and transmits at least one command related to a function operation to the components, or provides various operations or data. Processing, etc. can be performed.
  • the processor 140 includes at least one module (eg, speaker recognition module 133, spatial recognition module 135, object recognition module 137) and/or included in the memory 130 described above. A functional operation of the target recognition module 139 may be controlled. Alternatively, the processor 140 may perform a functional operation of the at least one module.
  • the processor 140 refers to at least one model (eg, a speaker recognition model, a spatial recognition model, an object recognition model, or a target recognition model) stored in the memory 130, and the speaker recognition, spatial recognition, object recognition, or Target recognition of task execution can be performed.
  • the processor 140 uses the communication circuit 120 to communicate with at least one IoT device (eg, a computer, a TV, or a sensing device) in a specific space 10 in which the electronic device 100 is disposed.
  • An IoT environment (or an IoT system) can be built.
  • the processor 140 may receive a notification related to a user registered in the electronic device 100 from the IoT device. For example, when a specific user inputs user personal information (eg, ID) or biometric information (eg, fingerprint information or iris information) to the IoT device, the processor 140 notifies the IoT device. Can be received from a specific user inputs user personal information (eg, ID) or biometric information (eg, fingerprint information or iris information) to
  • the driving module 150 may support movement (or driving) of the electronic device 100.
  • the driving module 150 may include at least one of at least one motor that generates power energy, a driving wheel that rotates by receiving power from the at least one motor, and a steering unit that controls a steering angle of the driving wheel. I can.
  • the sensor module 160 may generate a signal or data corresponding to an operating state of the electronic device 100 or an external environment state.
  • the sensor module 160 may include a position sensor, and may generate a real-time position signal or data according to the stationary or movement of the electronic device 100 based on the position sensor.
  • the sensor module 160 may include an image sensor, and when at least one user is registered with the electronic device 100 using the image sensor, a face image or a body image of each user is captured, or an electronic device ( When 100) stops or moves, an image signal or data may be generated by capturing an image of a surrounding environment (eg, surrounding objects or surrounding users).
  • the sensor module 160 may include a biometric sensor (eg, an iris sensor or a fingerprint sensor) to generate a user's own physical signal or data.
  • the sensor module 160 transmits the generated signal or data according to the scheduled information or request, at least one module in the memory 130 (for example, the speaker recognition module 133, the spatial recognition module 135, the object recognition module ( 137) or the target recognition module 139) or the processor 140.
  • the sensor module 160 may further include a proximity sensor for preventing collision with surrounding objects when the electronic device 100 moves.
  • the sensor module 160 may further include a depth sensor for calculating a distance between the electronic device 100 and surrounding objects.
  • the sensor module 160 may determine a direction according to a user gesture (eg, a finger pointing to a specific direction) based on the depth sensor and the image sensor.
  • the speaker 170 may output designated voice data when the electronic device 100 performs a task.
  • the designated voice data may include voice data received from the TTS module (213 in FIG. 3) of the intelligent server 200. Accordingly, the output of designated voice data by the speaker 170 may be understood as at least a part of a task (eg, message delivery) performed by the electronic device 100.
  • the speaker 170 may include a plurality of speakers, and at least a portion of the speaker 170 may be exposed to the outside through a region of the electronic device 100 in relation to output efficiency of the voice data.
  • the display 180 may output designated visual content when the electronic device 100 performs a task.
  • the designated visual content may include text data received from an ASR module (211 in FIG. 3) of the intelligent server 200.
  • the output of the visual content of the display 180 may be performed simultaneously with the output of the audio data of the speaker 170.
  • the visual content output of the display 180 may be performed independently from the audio data output of the speaker 170.
  • the output of the content of the display 180 may be performed while excluding the output of the audio data of the speaker 170 only in a designated time period (eg, a late-night time period).
  • the user may set the specified time zone related to the output of visual content on the display 180, and when the electronic device 100 performs a task in the specified time zone, the processor 140 may use the speaker 170 Excluding the control of, it is possible to control only the display 180.
  • FIG. 5 is a diagram illustrating a user speech prediction form of an electronic device according to an exemplary embodiment.
  • the electronic device 100 may predict a specific user's utterance (eg, wake-up utterance or task command utterance) (or voice recognition service operation) for each specified time period. For example, the electronic device 100 may predict the user's utterance for each of the specified time slots only in a state in which the task is not performed, and may move to a location close to the user.
  • the processor (140 in FIG. 4) of the electronic device 100 includes a memory (130 in FIG. 4) (or a spatial recognition model in the memory 130) in relation to the user speech prediction. Room information or section information for each time zone of at least some users may be referred. For example, the processor 140 identifies room information or section information corresponding to the current time on the memory 130, and controls the driving module (150 in FIG. 4) to identify the identified room or section. Can be moved to.
  • the processor 140 may use the memory 130 (Alternatively, room information or section information corresponding to the first time zone may be identified with reference to the spatial recognition model in the memory 130). The processor 140 predicts the utterance of the third user 40 who has input room information or section information in the identified first time zone, and converts the electronic device to a room or section corresponding to the room information or section information in the first time zone. (100) can be moved.
  • the processor 140 when room information or section information corresponding to the first time zone does not exist on the room information or section information for each time zone included in the memory 130, the processor 140 You can keep the current location of. Similarly, when the current time is included in the second time zone while the electronic device 100 does not perform a task, the processor 140 is a fourth user who inputs room information or section information corresponding to the second time zone. By predicting the utterance of 50, the electronic device 100 may be moved to a room or section corresponding to the room information or section information in the second time zone.
  • a plurality of room information or section information corresponding to the third time zone is included.
  • the memory 130 includes room information or section information input by the fifth user 60 for the third time zone, and room information or section information input by the sixth user 70 for the third time zone. May contain information.
  • the processor 140 may determine the priority of the room or section in which the electronic device 100 is to be moved in the third time period.
  • the processor 140 refers to user personal information (eg, name, age, gender, physical characteristics, medical history, etc.) input from each user when registering at least one user for the electronic device 100 Priority can be determined.
  • the processor 140 may perform a specified condition among a plurality of users (for example, the fifth user 60 and the sixth user 70) who input room information or section information corresponding to the third time zone based on the user personal information. For example, a user who is satisfied with the presence of an infant, an elderly person, a disability or a patient, etc.) may be identified, and the electronic device 100 may be moved to a room or section corresponding to the identified user. Alternatively, the processor 140 checks the voice recognition service operation history of the plurality of users (eg, the number of task command utterances performed, etc.) to identify a user who has used the voice recognition service relatively largely, and responds to the identified user. The electronic device 100 may be moved to a room or section. Alternatively, the processor 140 may determine a room or section in which the electronic device 100 is to be moved based on priority information input from a user, even if a plurality of room information or section information corresponding to a specific time period does not exist.
  • FIG. 6 is a diagram illustrating a form of identifying a target of an electronic device according to an exemplary embodiment
  • FIG. 7 is a diagram illustrating a form of determining a space of an electronic device according to an exemplary embodiment.
  • at least one database described with reference to FIGS. 6 and 7 may be understood as information related to at least one user registered in the electronic device (100 of FIGS. 1, 2, 4 or 5 ).
  • At least one word indicating a target of task execution may be included in a user utterance (eg, task command utterance) received by an electronic device (FIG. 1, 2, 4, or 100 in FIG. 5).
  • the processor of the electronic device 100 (140 in Fig. 4) (or the target recognition module (139 in Fig. 4)) is the task from the NLU module (212 in Fig. 2) of the intelligent server (200 in Fig. 3).
  • a target user corresponding to a parameter eg, a target person
  • the target recognition module 139 in the memory (130 of FIG. 4) may include a target database referred to for identification of the target user.
  • the target database may be individually generated for each user when at least one user is registered with the electronic device 100.
  • the target database corresponding to a specific user may include user personal information (eg, name, job title, relationship with other users, etc.) input by the user.
  • the target database corresponding to a specific user may include information (eg, a nickname or a name of a specific user) input by at least one other user for the specific user.
  • the electronic device 100 receives a task command utterance (for example, “tell the older child to go to the academy”) from the first user 20 corresponding to the speaker.
  • a sequence relating to an operation of the electronic device 100 may be received from the NLU module 212 of the intelligent server 200.
  • the sequence provided from the intelligent server 200 is a parameter corresponding to the word of the target designation. (Eg target person_Keunae) can be included.
  • the processor 140 (or target recognition module 139) of the electronic device 100 refers to a target database for each of at least one registered user, and 2 Users 30 can be identified.
  • the processor 140 includes user personal information (eg, Yujin Kim, etc.), nickname information (eg, princess, etc.), or title information (eg, eldest child, eldest daughter, first-born or our daughter, etc.) corresponding to the above parameters.
  • the target database to be performed may be checked, and a user related to the identified target database may be identified as the second user 30 as a target of performing the task.
  • At least one word indicating a target of task performance may be absent on the task command utterance of the first user 20 received by the electronic device 100.
  • the electronic device 100 may receive a sequence in which at least one parameter related to the target (eg, a target person) is omitted from the intelligent server 200.
  • the processor 140 may identify the missing parameter of the sequence and request the first user 20 to input information corresponding to the target (or corresponding to the missing parameter).
  • the processor 140 may control a speaker (170 in FIG. 4) of the electronic device 100 to output a designated voice (eg, “Please tell me the message recipient”).
  • the processor 140 may control the display (180 of FIG. 4) of the electronic device 100 to output a graphic user interface including a designated text (eg, please input a message recipient).
  • the graphic user interface may include a software input panel (SIP) keyboard supporting user input.
  • SIP software input panel
  • the processor 140 (or the spatial recognition module (135 in FIG. 4)) of the electronic device 100 transmits a sequence related to the operation of the electronic device 100 from the NLU module 212 of the intelligent server 200. After receiving, a room or section corresponding to a parameter (eg, room) included in the sequence in a specific space (10 in FIG. 1) (eg, home, office, classroom, or workplace) in which the electronic device 100 is placed Can be judged.
  • a specific space (10 in FIG. 1) eg, home, office, classroom, or workplace
  • the spatial recognition module 135 in the memory 130 may include a spatial database referred to for determining the room or section.
  • the spatial database may be individually generated for each of at least one room or section included in the specific space 10 when at least one user is registered with the electronic device 100.
  • the spatial database corresponding to a specific room or section is information (e.g., referred to by the user) input from a user (e.g., a user who uses the specific room or section as a bedroom or work space) related to the specific room or section. It may be created to include the name of a room or section, etc.).
  • the spatial database corresponding to the specific room or section stores information input by at least one user other than the user related to the specific room or section (for example, a room or section name referred to by at least one other user). Can be created to contain.
  • the electronic device 100 receives a task command utterance (for example, “Tell Eugene to go to the room and eat”) from a random speaker.
  • a sequence relating to an operation of the electronic device 100 may be received from the NLU module 212 of the intelligent server 200.
  • the intelligent server 200 may include a parameter (eg room_Yujin's room) corresponding to the word of the room or section designation.
  • the processor 140 (or the space recognition module 135) of the electronic device 100 is located in at least one room or section in the specific space 10 in which the electronic device 100 is disposed.
  • a room or section corresponding to the parameter of the sequence may be determined by referring to the spatial database for the sequence.
  • the processor 140 checks a spatial database including room or section name information corresponding to the parameter (eg, Yujini's room, big ae room, first room, princess's room, computer room, etc.), and A room or section related to the spatial database may be determined as a space to which the electronic device 100 will move.
  • the electronic device 100 may recognize a gesture of a user who has performed the task command utterance. For example, the electronic device 100 may recognize a user gesture indicating a specific room or section while receiving a task command utterance including an indication pronoun (eg, there or that).
  • the processor 140 of the electronic device 100 determines the direction of the user gesture using an image sensor and a depth sensor included in the sensor module (160 in FIG. 4), and The section may be determined as a space in which the electronic device 100 corresponding to the indication pronoun will move.
  • FIG. 8 is a diagram illustrating a movement form of an electronic device according to an exemplary embodiment.
  • the electronic device 100 moves (or, the inside of a specific space 10 in which the electronic device 100 is placed) Drive).
  • the task command utterance may include at least one word indicating a target of performing the task and at least one word indicating a space to which the electronic device 100 moves when performing the task.
  • the processor of the electronic device 100 (140 in FIG. 4) refers to the target database and the spatial database included in the memory (130 in FIG. 4), and the user and the electronic device 100 corresponding to the target of the task execution You can determine the room or section to move.
  • the processor 140 corresponds to at least one parameter (eg, target person and/or room) in a sequence provided from the intelligent server (200 in FIG. 3) on the information included in the target database and the spatial database.
  • the room or section to which the target user and the electronic device 100 move may be determined by identifying information to be moved.
  • the processor 140 may control a driving module (150 in FIG. 4) to enter the electronic device 100 into a room or section in which the determined target user is located, and the room or section is the electronic device 100 It can be understood as a first location to move.
  • the task command utterance does not include at least one word indicating a target of performing the task, and includes or includes at least one word indicating a space to which the electronic device 100 moves when performing a task.
  • the processor 140 may request a user (eg, a speaker) who has performed the task command utterance to input information corresponding to the target of the task.
  • the processor 140 may control a speaker (170 in FIG. 4) to output a designated voice requesting input of the information.
  • the processor 140 may control the display (180 in FIG. 4) to output a graphic user interface including text related to the request for input of the information.
  • the task command utterance includes at least one word indicating a target of performing the task and does not include at least one word indicating a space to which the electronic device 100 moves when performing the task.
  • the processor 140 may refer to a target database included in the memory 130 to identify a target user corresponding to at least one parameter (eg, target person) in a sequence provided from the intelligent server 200. . Further, the processor 140 may infer the location of the target user based on spatial information mapped with the target user included in the memory 130 (or the spatial recognition model in the memory 130).
  • the processor 140 infers a room or section in which the existence of a target user is expected based on spatial information mapped with the target user, and determines the inferred room or section in relation to task performance. ) Can be determined as the first position to be moved.
  • the processor 140 may refer to at least one piece of information included in the memory 130 according to a designated priority in relation to the location inference of the target user.
  • the processor 130 may refer to the update history of the spatial recognition model related to the target user included in the memory 130 as a first priority.
  • the processor 140 may check time stamp information mapped with the target user according to the update.
  • the processor 140 identifies the room or section mapped with the time stamp information when the identified time stamp information is within a specified threshold time range based on the time at which the location of the target user is inferred. It may be inferred as the location of, and the corresponding room or section may be determined as a first location in which the electronic device 100 is to be moved.
  • the processor 140 may refer to spatial information for each time zone mapped to the target user included in the memory 130 as a second priority in relation to the location inference of the target user. In this regard, the processor 140 may check the presence or absence of room information or section information mapped to the target user in a time zone including the current time on the spatial recognition model related to the identified target user. According to an embodiment, when room information or section information in a time zone including a current time exists in the spatial recognition model associated with the target user, the processor 140 identifies the room or section in the corresponding time zone. It is possible to infer the current time position and determine the inferred room or section as the first position to move the electronic device 100.
  • the processor 140 performs spatial information mapped to the target user included in the memory 130 in a third priority (for example, spatial information other than spatial information for each time period). ) Can be referenced.
  • the processor 140 checks room information or section information mapped with the target user on the spatial recognition model corresponding to the identified target user, infers the room or section as the location of the identified target user, and determines the inferred room or The section may be determined as a first position in which the electronic device 100 is to be moved.
  • the processor 140 randomly selects a room or section from among a plurality of rooms or sections, The selected room or section may be determined as a first location to which the electronic device 100 is to be moved.
  • the processor 140 comprises at least one IoT device for constructing the electronic device 100 and the IoT environment (or IoT system) in a fourth priority.
  • the notification information may be transmitted to the electronic device 100 when user personal information or biometric information is input to the IoT device.
  • part of the user's personal information eg, name
  • the processor 140 determines the location of the IoT device included in the notification information. It can be determined as the first position to move (100).
  • the processor 140 when there is no spatial recognition model related to the identified target user in the memory 130 (eg, when a spatial recognition model corresponding to the target user is not generated), the processor 140 performs a task In connection with execution, the electronic device 100 may be moved to a designated position.
  • the processor 140 uses map information on a specific space 10 in which the electronic device 100 is disposed and real-time location information of the electronic device 100 to determine the center of the specific space 10. ) (E.g., a living room, etc. when the specific space 10 is a home), and a room or section corresponding to the center may be determined as a first position to which the electronic device 100 is to be moved.
  • the processor 140 may move the electronic device 100 to the determined first position by controlling the driving module 150 in FIG. 4.
  • the processor 140 may perform an operation to search for the identified target user.
  • the processor 140 controls the driving module 150 so that the electronic device 100 rotates at a specified angle (eg, 360 degrees) in the first position, and in the rotating operation At least one piece of information about the surrounding environment may be collected.
  • the processor 140 may collect image information about the surrounding environment at the first location by controlling an image sensor included in the sensor module 160 in FIG. 4.
  • the processor 140 may control the microphone (110 in FIG. 4) to collect voice information on the surrounding environment at the first location.
  • the processor 140 may compare the collected image information or audio information with the target user-related information stored in the memory 130. For example, when a specified object (eg, a person) is detected from an image (eg, a face image or a body image) captured through the image sensor, the processor 140 may perform a target recognition model corresponding to the object and the target user. It can be determined whether to respond by comparing. As a result of the determination, when the object and the face image or the body image included in the target recognition model of the target user match more than a specified ratio, the processor 140 may recognize the user related to the object as the identified target user. . Alternatively, the processor 140 may compare the voice received through the microphone 110 with a target recognition model corresponding to the target user to determine whether to correspond.
  • a specified object eg, a person
  • the processor 140 may perform a target recognition model corresponding to the object and the target user. It can be determined whether to respond by comparing.
  • the processor 140 may recognize the user related to the object as the identified target user.
  • the processor 140 may recognize the user related to the received voice as the identified target user. have.
  • the processor 140 checks user information (eg, clothing or accessory owner) in an object recognition model corresponding to an object (eg, clothing or accessory) photographed through an image sensor, and identifies the identified user information and the identification.
  • user information included in the target recognition model of the target user is matched by a specified ratio or more, a user related to the object (eg, clothing or accessory) (eg, wearing) may be recognized as the identified target user.
  • the processor 140 may perform the above-described comparison operation when a specified angle rotation of the electronic device 100 is completed, or in real time during the specified angle rotation. If the identified target user is recognized during the rotation of the designated angle, the processor 140 may stop controlling the rotation of the electronic device 100.
  • the processor 140 when the target user is not recognized at the first location, the processor 140 returns to the location where the task command utterance was received, and the target user is sent to the user (eg, speaker) who performed the task command utterance. Voice data or visual content indicating that it is not recognized (or that task execution has not been completed) may be output.
  • the processor 140 moves the electronic device 100 to be close to an object (for example, a user other than the target user) in the image captured through the image sensor, so that the voice data or visual data for inquiring the location of the target user Content can be output.
  • the processor 140 may transmit information (eg, a message) related to task performance by communicating with a mobile communication terminal (eg, a smartphone) owned by the target user.
  • the processor 140 controls the driving module 150 to move the electronic device 100 to a second location within a specified threshold distance range based on the target user.
  • the sensor module 160 may further include a depth sensor, and the processor 140 is based on the distance information between the target user and the electronic device 100 calculated based on the depth sensor.
  • the electronic device 100 may be moved within the critical distance range.
  • the processor 140 may photograph a target user using the image sensor of the sensor module 150 while the electronic device 100 moves within the threshold distance range. In this operation, the processor 140 may compare the captured image with the face image included in the target recognition model corresponding to the target user.
  • the processor 140 may compare a left face image, a right face image, and a front face image of the target user included in the face image with the captured image.
  • the processor 140 determines, as the second location, a location within a specified threshold distance range at which a photographed image matching the front face image in the target recognition model corresponding to the target user and a specified ratio or more is acquired, as the second location.
  • the electronic device 100 may be brought close to the recognized target user by moving to the second position.
  • the processor 140 outputs a specified sound using a speaker (170 in FIG. 4) so that the target user recognizes the proximity of the electronic device 100 , By using the display (180 in FIG.
  • a designated visual effect for example, the display 180 flashes, lights, etc.
  • the processor 140 outputs data for requesting user authentication using the speaker 170 or the display 180 while the electronic device 100 moves within the threshold distance range, and the User biometric information (eg, fingerprint information or iris information) input in response to a request may be detected using a biometric sensor.
  • the processor 140 may further recognize or determine the target user based on the detected biometric information.
  • the processor 140 may perform some operations in a sequence according to task execution. For example, the processor 140 uses the speaker 170 to receive voice data from the TTS module (213 in FIG. 3) of the intelligent server (200 in FIG. 2 or 3) (e.g., Voice data) can be output.
  • the processor 140 excludes data output using the speaker 170 and uses the display 180 Text data (eg, text data corresponding to utterance of a task command) received from the ASR module 211 of FIG. 3 of the intelligent server 200 may be output.
  • the processor 140 outputs voice data through the speaker 170 or outputs text data through the display 180, and then utters a response of the target user through the speaker 170 (for example, the electronic device 100 ), a response to the task execution) can be received.
  • the processor 140 interacts with the intelligent server 200 to obtain text data or voice data in which voice data corresponding to the response utterance is converted, and the electronic device 100 performs task command utterance.
  • the obtained text data or voice data may be output by moving to the user.
  • the processor 140 suspends the output of the acquired text data or voice data
  • the output of the acquired text data or voice data may be determined by monitoring a user who has performed the task command utterance at a specified period.
  • the processor 140 performs the task command utterance.
  • the obtained text data or voice data may be transmitted by communicating with a user-owned mobile communication terminal.
  • FIG. 9 is a diagram illustrating a function setting screen of an electronic device according to an exemplary embodiment.
  • the processor of the electronic device 100 may control the display 180 exposed to the outside through a region of the electronic device 100 to output a designated screen.
  • the processor 140 may selectively set a function of the electronic device 100 in relation to a method of delivering information (eg, a message) according to a task execution (eg, message delivery) of the electronic device 100.
  • a user interface 181 that is present can be output.
  • the user interface 181 includes an interface 183 supporting setting of an occurrence function related to an operation in a first time zone of the electronic device 100 and a silent function related to an operation in a second time zone of the electronic device 100. It may include an interface 185 that supports setting of.
  • the occurrence function and the silent function may be set simultaneously, and in this case, the processor 140 performs a task of the electronic device 100 in a first time zone corresponding to the occurrence function. Outputs specified voice data using (170 in FIG. 4), and outputs specified text data using a display (180 in FIG. 4) when performing a task of the electronic device 100 in a second time zone corresponding to the silent function. can do.
  • the processor 140 may operate only the speaker 170 when performing a task of the electronic device 100 in the first time zone and the second time zone. .
  • the first time zone related to the occurrence function or the second time zone related to the silent function may be changed according to user control.
  • the user interface 181 includes, in addition to setting the above-described occurrence function or silent function, a size (eg, volume) of the voice data output of the electronic device 100 through the speaker 170, and the electronic device.
  • a size eg, volume
  • the automatic switching function to the silent function or the automatic switching function to the silent function when the target user's other business e.g., sleeping, showering, talking, etc.
  • I can apply more.
  • FIG. 10 is a diagram illustrating a method of processing a user input by an electronic device according to an exemplary embodiment.
  • a processor (140 of FIG. 4) of an electronic device collects and stores a plurality of user information.
  • the processor 140 may collect information related to each of a plurality of users registered in the electronic device 100.
  • the plurality of user information may be, for example, information referenced for speaker recognition for a user utterance received by the electronic device 100 or for target recognition related to task performance of the electronic device 100.
  • the processor 140 may generate and store a speaker recognition model and a target recognition model corresponding to each user as at least a part of the plurality of user information.
  • the processor 140 may receive an utterance from each user through a microphone (110 in FIG. 4), and may generate the speaker recognition model and the target recognition model using feature vectors extracted from the utterance. .
  • the processor 140 acquires (or photographs) each user's face image or body image using an image sensor, and generates the speaker recognition model and the target recognition model based on feature point extraction for the face image.
  • the speaker recognition model and the target recognition model may be generated using user skeleton information, key information, or body size information determined from the body image.
  • the processor 140 receives room information or section information in a specific space (eg, a space in which the electronic device 100 is arranged) from each user as at least a part of the plurality of user information,
  • a spatial recognition model may be generated by mapping the room information or section information with a corresponding user.
  • the processor 140 may generate a target database or a spatial database as at least a part of the plurality of user information.
  • the target database may be created for each user, and user personal information (e.g., name, title, or relationship with other people) entered by the user or at least one other user for the user May include information (for example, the user's nickname or title, etc.) that is entered.
  • the spatial database may be created for each room or section in the space in which the electronic device is placed, and from a user related to the room or section (eg, a user who uses the room or section as a bedroom or work space).
  • Information entered e.g., the name of the room or section referred to by the user
  • information entered by at least one other user who is not related to the room or section e.g., of the room or section referred to by the other Title, etc.
  • the processor 140 may receive a task command utterance containing a command or intention related to a specific task execution (eg, message delivery) through a microphone (110 in FIG. 4) mounted on the electronic device 100. have.
  • a specific task execution eg, message delivery
  • the processor 140 uses a communication circuit (120 in FIG. 4) to communicate with the intelligent server (200 in FIG. 2 or 3) connected to the electronic device 100 through a network.
  • Data may be transmitted, and second data may be received from the intelligent server 200 in response to the first data transmission.
  • the second data includes operation information of the electronic device 100 related to task execution and at least one parameter (eg, message content, target person, and/or room) required to perform the operation. can do.
  • the processor 140 may identify a user corresponding to a target for performing the task.
  • the processor may determine a user corresponding to the target of task execution by referring to a target database generated in advance.
  • the processor 140 may identify the target user by identifying information corresponding to a parameter (eg, a target person) included in the second data among information included in the target database.
  • the task command utterance may not include at least one word indicating a target of task execution.
  • the processor 140 may control the speaker (170 in FIG. 4) or the display (180 in FIG. 4) to the user who has performed the task command utterance to request input of information corresponding to the target.
  • the processor 140 may infer the location of the user corresponding to the target for performing the task.
  • the processor 140 refers to a pre-generated space database and the electronic device ( 100) can determine the room or section to move.
  • the processor 140 may determine the space mapped to the target user included in the pre-generated space recognition model. Based on the information, the room or section in which the presence of the target user is expected can be inferred.
  • the processor 140 may refer to at least one piece of information previously collected and stored according to a designated priority in relation to the location inference of the target user.
  • the processor 140 is the first priority to update information on the spatial recognition model (for example, information about a room or section in which a user is located, recognized when the electronic device 100 moves, and time stamp information at the time of recognition). Update).
  • the processor 140 may check time stamp information of the corresponding update.
  • the processor 140 infers the updated room or section together with the time stamp information as the location of the identified target user. can do.
  • the processor 140 may refer to spatial information for each time period in a spatial recognition model corresponding to the target user as a second priority. For example, if there is room information or section information in a time zone including the current time on the spatial recognition model, the processor 140 may infer the room or section in the time zone as the location of the target user. In an embodiment, the processor 140 may refer to spatial information (eg, spatial information other than spatial information for each time zone) included in a spatial recognition model corresponding to the target user as a third priority. For example, the processor 140 may check room information or section information mapped with the target user on the spatial recognition model, and infer the room or section as the location of the target user.
  • spatial information eg, spatial information other than spatial information for each time zone
  • the processor 140 from the electronic device 100 and at least one IoT device (for example, a computer, a TV, or a sensing device) that establishes an IoT environment (or IoT system) in a fourth priority. You can refer to the received notification information.
  • the processor 140 determines the location of the IoT device included in the notification information. It can be determined as the first position to move (100).
  • the processor 140 may move the electronic device 100 to the inferred position of the target user.
  • the processor 140 may control a driving module (150 in FIG. 4) included in the electronic device 100 to move the electronic device 100 to a room or section inferred as the location of the target user. .
  • the processor 140 may search for a target user identified in a room or section according to the movement of the electronic device 100.
  • the processor 140 controls the driving module 150 to rotate the electronic device 100 at a specified angle (for example, 360 degrees) in the moved room or section, and in the rotating operation, At least one piece of information can be collected.
  • the processor 140 may control the image sensor or the microphone 110 to collect image information or audio information about the surrounding environment, and compare the collected information with the target user-related information.
  • the processor 140 matches the image information with a face image or a body image included in the target recognition model corresponding to the target user by a specified ratio or more, or the voice information is specified with the speech data of the target user included in the target recognition model.
  • a user related to the video or audio may be recognized as a target user.
  • the processor 140 may recognize a user wearing the object as a target user when an object recognized on the image information is recognized as a clothing or accessory owned by a specific user by referring to the object recognition model.
  • the processor 140 may move the electronic device 100 to a position close to the recognized target user.
  • the processor 140 may control the driving module 150 to move the electronic device 100 within a specified threshold distance range based on the recognized target user.
  • the processor 140 may photograph a target user using an image sensor, and may compare the captured image with a face image included in a target recognition model corresponding to the target user.
  • the face image included in the target recognition model may include a left face image, a right face image, and a front face image of the target user.
  • the processor 140 further moves the electronic device 100 to a position in which a photographed image that matches the front face image and a specified ratio or more within the specified threshold distance range is acquired, and performs some actions ( Example: output of voice data or text data received from the intelligent server 200, etc.) may be performed.
  • the processor 140 outputs data requesting user authentication through a speaker or a display in an operation in which the electronic device 100 moves within the designated threshold distance range, and receives user biometric information input in response to the request. It can be detected using a biometric sensor.
  • the processor 140 may perform some operations according to the task execution.
  • the electronic device is operatively connected to a memory, a microphone, a communication circuit, a driving module, a sensor module, and the memory, the microphone, the communication circuit, the driving module, and the sensor module. It may include a processor.
  • the processor may store information related to each of a plurality of users in the memory, receive user utterances related to task performance of the electronic device through the microphone, and the communication circuit At least one operation information of the electronic device related to the task execution and at least one required to perform the operation by transmitting the first data related to the user utterance to a designated external device using the communication circuit Second data including a parameter of is received from the external device, and based on the at least one parameter, a first user related to the target of performing the task is identified among the plurality of users, and each of the plurality of users Inferring the location of the target based on the first user-related information included in related information, controlling the driving module to move the electronic device to a first location based on the inference, and moving the electronic device from the first location
  • the first user is searched for by comparing information acquired using a sensor module or the microphone and information related to the first user, and when the first user is recognized based on the search, the first user is 1
  • the electronic device may be moved to
  • the processor generates a spatial recognition model corresponding to each of the at least some users by using spatial information for each time zone input from each of at least some of the plurality of users, and the spatial recognition model Is stored as information related to each of the at least some users, and when spatial information of a time zone corresponding to a current time is identified based on the spatial recognition model in a state in which the electronic device does not perform the task, the driving By controlling the module, the electronic device may be moved to a third position corresponding to the identified spatial information.
  • the processor stores user personal information input from each of the plurality of users as information related to each of the plurality of users, and when receiving the second data, the at least one of the user personal information User personal information corresponding to the parameter of may be identified, and a user corresponding to the identified user personal information may be identified as a first user related to a target of performing the task.
  • the processor generates a spatial recognition model corresponding to each of the plurality of users by using spatial information input from each of the plurality of users, and relates the spatial recognition model to each of the plurality of users.
  • a space corresponding to spatial information related to the first user may be determined as the first location using the spatial recognition model.
  • the processor generates a spatial recognition model corresponding to each of the plurality of users by using spatial information input from each of the plurality of users, and relates the spatial recognition model to each of the plurality of users.
  • a specific user is recognized based on photographing through the sensor module or reception of a voice signal through the microphone when the electronic device is moved, spatial information recognized by the specific user and time stamp information of the recognition are stored. It can be mapped and included in a spatial recognition model corresponding to the specific user.
  • the processor determines whether or not time stamp information of a spatial recognition model corresponding to the first user is included, and corresponds to the first user. If the spatial recognition model includes time stamp information within a threshold time range designated based on a time at which the location of the target is inferred, a space corresponding to the time stamp information and mapped spatial information within the threshold time range Can be judged by 1 position
  • the processor generates a spatial recognition model corresponding to each of the at least some users by using spatial information for each time zone input from each of at least some of the plurality of users, and the spatial recognition model A time of inferring the location of the target in the spatial recognition model corresponding to the first user, as at least part of the operation of storing the at least some of the users as information related to each of the at least some users and inferring the location of the target If the spatial recognition model corresponding to the first user includes spatial information in the time period including the time at which the location of the target is inferred, the location of the target is inferred. A space corresponding to spatial information in a time zone including time may be determined as the first location.
  • the processor generates a speaker recognition model corresponding to each of the plurality of users using speech information received from each of the plurality of users or image information photographed for each of the plurality of users
  • the speaker recognition model may be stored as information related to each of the plurality of users, and when the user utterance is received, a second user who performed the user utterance may be recognized using the speaker recognition model.
  • the processor controls the driving module to rotate the electronic device at a specified angle, and uses the sensor module or the microphone to rotate the electronic device. Information on the surrounding environment at the first location may be obtained.
  • the processor generates a target recognition model corresponding to each of the plurality of users using speech information received from each of the plurality of users or image information photographed for each of the plurality of users,
  • the target recognition model is stored as information related to each of the plurality of users, and an object in image information acquired using the sensor module at the first location or voice information acquired using the microphone is the If the target recognition model corresponding to the first user matches the specified ratio or more, the user related to the object or the voice may be recognized as the first user.
  • the target recognition model corresponding to the first user may include front face information of the first user.
  • the processor while the electronic device moves within the specified threshold distance range, the processor performs photographing to acquire specified body information of the first user using the sensor module, and 1 A location within the specified threshold distance range at which the image information by the photographing that matches the front face information of the user by a predetermined ratio or more may be determined as the second location.
  • the electronic device may further include a speaker.
  • the second data may further include voice data corresponding to the first data.
  • the processor when the electronic device is moved to the second position, the processor may output the voice data using the speaker.
  • the electronic device includes a housing, a user interface, a driving unit disposed in the housing or connected to the housing to move the housing, a first sensor and a second sensor positioned in the housing or inside the housing.
  • a wireless communication circuit positioned inside the housing, the user interface, the driving unit, the first sensor, the second sensor, and a processor operatively connected to the wireless communication circuit, and a memory operatively connected to the processor.
  • the processor when the memory is executed, receives the user's utterance for performing a task through the user interface, and the first information detected by using the first sensor and/or Based at least in part on second information received from an external device through the wireless communication circuit, the position of the object for performing the task is determined, the housing is moved to the position using the driving unit, and the second Instructions for recognizing an object using a sensor, determining whether the recognized object matches the object, and performing the task on the object through the user interface may be stored.
  • the method for processing user input of an electronic device includes: storing information related to each of a plurality of users, receiving a user utterance related to performing a task of the electronic device, and the user An operation of transmitting first data related to the utterance to a designated external device, at least one operation information of the electronic device related to the task execution, and second data including at least one parameter required to perform the operation An operation received from an external device, an operation of identifying a first user related to the target of performing the task among the plurality of users based on the at least one parameter, and the first including information related to each of the plurality of users 1 An operation of inferring the location of the target based on user-related information, an operation of moving the electronic device to a first location based on the inference, information obtained at the first location, and comparing the first user-related information An operation of searching for the first user, and a second location within a specified threshold distance range based on the first user so that when the first user is recognized based on the search, specified body information
  • the storing of information related to each of the plurality of users may include storing user personal information input from each of the plurality of users as information related to each of the plurality of users. have.
  • the identification of the first user includes: when receiving the second data, identifying user personal information corresponding to the at least one parameter among the user personal information, and the identified user personal information
  • the operation of identifying a user corresponding to the information as a first user related to the target of performing the task may be included.
  • the storing of information related to each of the plurality of users may include generating a spatial recognition model corresponding to each of the plurality of users using spatial information input from each of the plurality of users, And storing the spatial recognition model as information related to each of the plurality of users.
  • the operation of inferring the location of the target may include determining a space corresponding to spatial information related to the first user as the first location using the spatial recognition model. .
  • the operation of storing information related to each of the plurality of users may correspond to each of the at least some users using spatial information for each time period input from each of at least some of the plurality of users.
  • the operation of inferring the location of the target may include determining whether spatial information in a time zone including a time for inferring the location of the target in a spatial recognition model corresponding to the first user If the motion and the spatial recognition model corresponding to the first user includes spatial information in a time zone including a time at which the position of the target is inferred, corresponding to spatial information in a time zone including a time at which the position of the target is inferred It may include an operation of determining the desired space as the first location.
  • the user input processing method includes controlling the driving module to rotate the electronic device at a specified angle when the movement of the electronic device to the first position is completed, and at the first position. It may further include an operation of obtaining information about the surrounding environment of.
  • the storing of information related to each of the plurality of users may include the plurality of users using speech information received from each of the plurality of users or image information photographed for each of the plurality of users.
  • the object or audio information in the image information acquired at the first location matches the target recognition model corresponding to the first user by a predetermined ratio or more. Then, an operation of recognizing a user related to the object or the voice as the first user may be included.
  • the movement of the electronic device to a second position within a specified threshold distance range based on the first user may include the first user in a state in which the electronic device moves within the specified threshold distance range.
  • FIG. 11 is a diagram illustrating an electronic device in a network environment according to an exemplary embodiment.
  • the electronic device 1101 communicates with the electronic device 1102 through a first network 1198 (eg, a short-range wireless communication network), or a second network 1199 It is possible to communicate with the electronic device 1104 or the server 1108 through (eg, a long-distance wireless communication network). According to an embodiment, the electronic device 1101 may communicate with the electronic device 1104 through the server 1108. According to an embodiment, the electronic device 1101 includes a processor 1120, a memory 1130, an input device 1150, an audio output device 1155, a display device 1160, an audio module 1170, and a sensor module.
  • the interface 1177 can be included.
  • at least one of these components eg, the display device 1160 or the camera module 1180
  • the sensor module 1176 may be implemented while being embedded in the display device 1160 (eg, a display).
  • the processor 1120 for example, executes software (eg, a program 1140) to implement at least one other component (eg, a hardware or software component) of the electronic device 1101 connected to the processor 1120. It can be controlled and can perform various data processing or operations. According to an embodiment, as at least a part of data processing or operation, the processor 1120 may transfer commands or data received from other components (eg, the sensor module 1176 or the communication module 1190) to the volatile memory 1132. The command or data stored in the volatile memory 1132 may be processed, and result data may be stored in the nonvolatile memory 1134.
  • software eg, a program 1140
  • the processor 1120 may transfer commands or data received from other components (eg, the sensor module 1176 or the communication module 1190) to the volatile memory 1132.
  • the command or data stored in the volatile memory 1132 may be processed, and result data may be stored in the nonvolatile memory 1134.
  • the processor 1120 includes a main processor 1121 (eg, a central processing unit or an application processor), and a coprocessor 1123 (eg, a graphics processing unit, an image signal processor) that can be operated independently or together. , A sensor hub processor, or a communication processor). Additionally or alternatively, the coprocessor 1123 may be configured to use lower power than the main processor 1121 or to be specialized for a designated function.
  • the auxiliary processor 1123 may be implemented separately from the main processor 1121 or as a part thereof.
  • the co-processor 1123 is, for example, in place of the main processor 1121 while the main processor 1121 is in an inactive (eg, sleep) state, or the main processor 1121 is active (eg, application execution). ), together with the main processor 1121 while in the state, at least one of the components of the electronic device 1101 (for example, the display device 1160, the sensor module 1176, or the communication module 1190) It is possible to control at least some of the functions or states related to.
  • the coprocessor 1123 eg, an image signal processor or a communication processor
  • may be implemented as part of another functionally related component eg, the camera module 1180 or the communication module 1190). have.
  • the memory 1130 may store various data used by at least one component of the electronic device 1101 (eg, the processor 1120 or the sensor module 1176).
  • the data may include, for example, software (eg, the program 1140) and input data or output data for commands related thereto.
  • the memory 1130 may include a volatile memory 1132 or a nonvolatile memory 1134.
  • the program 1140 may be stored as software in the memory 1130, and may include, for example, an operating system 1142, middleware 1144, or an application 1146.
  • the input device 1150 may receive a command or data to be used for a component of the electronic device 1101 (eg, the processor 1120) from the outside of the electronic device 1101 (eg, a user).
  • the input device 1150 may include, for example, a microphone, a mouse, a keyboard, or a digital pen (eg, a stylus pen).
  • the sound output device 1155 may output an sound signal to the outside of the electronic device 1101.
  • the sound output device 1155 may include, for example, a speaker or a receiver.
  • the speaker can be used for general purposes such as multimedia playback or recording playback, and the receiver can be used to receive incoming calls.
  • the receiver may be implemented separately from or as a part of the speaker.
  • the display device 1160 may visually provide information to the outside of the electronic device 1101 (for example, a user).
  • the display device 1160 may include, for example, a display, a hologram device, or a projector and a control circuit for controlling the device.
  • the display device 1160 may include a touch circuitry set to sense a touch, or a sensor circuit (eg, a pressure sensor) set to measure the strength of a force generated by the touch. have.
  • the audio module 1170 may convert sound into an electrical signal, or conversely, may convert an electrical signal into sound. According to an embodiment, the audio module 1170 acquires sound through the input device 1150, the sound output device 1155, or an external electronic device (for example, an external electronic device directly or wirelessly connected to the electronic device 1101) Sound may be output through the electronic device 1102) (for example, a speaker or headphones).
  • an external electronic device for example, an external electronic device directly or wirelessly connected to the electronic device 1101
  • Sound may be output through the electronic device 1102 (for example, a speaker or headphones).
  • the sensor module 1176 detects an operating state (eg, power or temperature) of the electronic device 1101, or an external environmental state (eg, a user state), and generates an electrical signal or data value corresponding to the detected state. can do.
  • the sensor module 1176 is, for example, a gesture sensor, a gyro sensor, an atmospheric pressure sensor, a magnetic sensor, an acceleration sensor, a grip sensor, a proximity sensor, a color sensor, an infrared (IR) sensor, a biometric sensor, It may include a temperature sensor, a humidity sensor, or an illuminance sensor.
  • the interface 1177 may support one or more designated protocols that may be used to connect the electronic device 1101 directly or wirelessly to an external electronic device (eg, the electronic device 1102 ).
  • the interface 1177 may include, for example, a high definition multimedia interface (HDMI), a universal serial bus (USB) interface, an SD card interface, or an audio interface.
  • HDMI high definition multimedia interface
  • USB universal serial bus
  • SD card interface Secure Digital Card
  • connection terminal 1178 may include a connector through which the electronic device 1101 can be physically connected to an external electronic device (eg, the electronic device 1102 ).
  • the connection terminal 1178 may include, for example, an HDMI connector, a USB connector, an SD card connector, or an audio connector (eg, a headphone connector).
  • the haptic module 1179 may convert an electrical signal into a mechanical stimulus (eg, vibration or movement) or an electrical stimulus that a user can perceive through a tactile or motor sense.
  • the haptic module 1179 may include, for example, a motor, a piezoelectric element, or an electrical stimulation device.
  • the camera module 1180 may capture a still image and a video. According to an embodiment, the camera module 1180 may include one or more lenses, image sensors, image signal processors, or flashes.
  • the power management module 1188 may manage power supplied to the electronic device 1101. According to an embodiment, the power management module 1188 may be implemented as at least a part of, for example, a power management integrated circuit (PMIC).
  • PMIC power management integrated circuit
  • the battery 1188 may supply power to at least one component of the electronic device 1101.
  • the battery 1188 may include, for example, a non-rechargeable primary cell, a rechargeable secondary cell, or a fuel cell.
  • the communication module 1190 is a direct (eg, wired) communication channel or a wireless communication channel between the electronic device 1101 and an external electronic device (eg, electronic device 1102, electronic device 1104, or server 1108). It is possible to support establishment and communication through the established communication channel.
  • the communication module 1190 operates independently of the processor 1120 (eg, an application processor) and may include one or more communication processors supporting direct (eg, wired) communication or wireless communication.
  • the communication module 1190 is a wireless communication module 1192 (eg, a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module) or a wired communication module 1194 (eg : A LAN (local area network) communication module, or a power line communication module) may be included.
  • a corresponding communication module may be a first network 1198 (for example, a short-range communication network such as Bluetooth, WiFi direct or IrDA (infrared data association)) or a second network 1199 (for example, a cellular network, the Internet, or It can communicate with external electronic devices through a computer network (for example, a telecommunication network such as a LAN or WAN).
  • the wireless communication module 1192 uses subscriber information (eg, International Mobile Subscriber Identifier (IMSI)) stored in the subscriber identification module 1196 in a communication network such as the first network 1198 or the second network 1199.
  • IMSI International Mobile Subscriber Identifier
  • the electronic device 1101 may be checked and authenticated.
  • the antenna module 1197 may transmit a signal or power to the outside (eg, an external electronic device) or receive from the outside.
  • the antenna module may include one antenna including a conductor formed on a substrate (eg, a PCB) or a radiator formed of a conductive pattern.
  • the antenna module 1197 may include a plurality of antennas. In this case, at least one antenna suitable for a communication method used in a communication network such as the first network 1198 or the second network 1199 is, for example, provided by the communication module 1190 from the plurality of antennas. Can be chosen.
  • a signal or power may be transmitted or received between the communication module 1190 and an external electronic device through the at least one selected antenna.
  • other components eg, RFIC
  • other than the radiator may be additionally formed as part of the antenna module 1197.
  • At least some of the above components are connected to each other through a communication method (e.g., bus, general purpose input and output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI))) and signals (E.g. commands or data) can be exchanged with each other.
  • a communication method e.g., bus, general purpose input and output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI)
  • signals E.g. commands or data
  • the command or data may be transmitted or received between the electronic device 1101 and the external electronic device 1104 through the server 1108 connected to the second network 1199.
  • Each of the electronic devices 1102 and 1104 may be the same or different types of devices as the electronic device 1101.
  • all or some of the operations executed by the electronic device 1101 may be executed by one or more of the external electronic devices 1102, 1104, or 1108.
  • the electronic device 1101 needs to perform a function or service automatically or in response to a request from a user or another device, the electronic device 1101 does not execute the function or service by itself.
  • One or more external electronic devices that have received the request may execute at least a part of the requested function or service, or an additional function or service related to the request, and transmit a result of the execution to the electronic device 1101.
  • the electronic device 1101 may process the result as it is or additionally and provide it as at least part of a response to the request.
  • cloud computing, distributed computing, or client-server computing technology may be used.
  • Electronic devices may be devices of various types.
  • the electronic device may include, for example, a portable communication device (eg, a smart phone), a computer device, a portable multimedia device, a portable medical device, a camera, a wearable device, or a home appliance.
  • a portable communication device eg, a smart phone
  • a computer device e.g., a smart phone
  • a portable multimedia device e.g., a portable medical device
  • a camera e.g., a portable medical device
  • a camera e.g., a portable medical device
  • a wearable device e.g., a portable medical device
  • a home appliance e.g., a smart bracelet
  • phrases such as “at least one of, B, or C” may include any one of the items listed together in the corresponding one of the phrases, or all possible combinations thereof.
  • Terms such as “first”, “second”, or “first” or “second” may be used simply to distinguish the component from other corresponding components, and the components may be referred to in other aspects (eg, importance or Order) is not limited.
  • Some (eg, first) component is referred to as “coupled” or “connected” to another (eg, second) component, with or without the terms “functionally” or “communicatively”. When mentioned, it means that any of the above components can be connected to the other components directly (eg by wire), wirelessly, or via a third component.
  • module used in this document may include a unit implemented in hardware, software, or firmware, and may be used interchangeably with terms such as logic, logic blocks, parts, or circuits.
  • the module may be an integrally configured component or a minimum unit of the component or a part thereof that performs one or more functions.
  • the module may be implemented in the form of an application-specific integrated circuit (ASIC).
  • ASIC application-specific integrated circuit
  • Various embodiments of the present document include one or more commands stored in a storage medium (eg, internal memory 1136 or external memory 1138) that can be read by a machine (eg, electronic device 1101). It may be implemented as software (eg, program 1140) including them.
  • the processor eg, the processor 1120 of the device (eg, the electronic device 1101) may call and execute at least one command among one or more commands stored from a storage medium. This makes it possible for the device to be operated to perform at least one function according to the at least one command invoked.
  • the one or more instructions may include code generated by a compiler or code executable by an interpreter.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • non-transient only means that the storage medium is a tangible device and does not contain a signal (e.g., electromagnetic waves), and this term refers to a case where data is semi-permanently stored It does not distinguish between temporary storage cases.
  • a signal e.g., electromagnetic waves
  • a method according to various embodiments disclosed in this document may be provided in a computer program product.
  • Computer program products can be traded between sellers and buyers as commodities.
  • Computer program products are distributed in the form of a device-readable storage medium (e.g. compact disc read only memory (CD-ROM)), or through an application store (e.g., Play StoreTM) or two user devices ( It can be distributed (e.g., downloaded or uploaded) directly between, e.g. smartphones).
  • a device e.g. compact disc read only memory (CD-ROM)
  • an application store e.g., Play StoreTM
  • two user devices It can be distributed (e.g., downloaded or uploaded) directly between, e.g. smartphones).
  • at least a part of the computer program product may be temporarily stored or temporarily generated in a storage medium that can be read by a device such as a server of a manufacturer, a server of an application store, or a memory of a relay server.
  • each component (eg, module or program) of the above-described components may include a singular number or a plurality of entities.
  • one or more components or operations among the above-described corresponding components may be omitted, or one or more other components or operations may be added.
  • a plurality of components eg, a module or a program
  • the integrated component may perform one or more functions of each component of the plurality of components in the same or similar to that performed by the corresponding component among the plurality of components prior to the integration. .
  • operations performed by a module, program, or other component may be sequentially, parallel, repeatedly, or heuristically executed, or one or more of the operations may be executed in a different order or omitted. , Or one or more other actions may be added.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명의 일 실시 예는, 사용자 발화 수신 시, 상기 사용자 발화에 대응하는 태스크의 수행 위치로 이동하여 태스크(예: 메시지 전달)를 수행할 수 있는, 사용자 입력 처리 방법 및 이를 지원하는 전자 장치를 제공할 수 있다. 전자 장치는 태스크 수행의 타겟과 관계되는 제1 사용자를 식별하고, 상기 타겟의 위치를 추론하고, 제1 위치로 상기 전자 장치를 이동시키고, 상기 제1 위치에서 상기 제1 사용자를 탐색하고, 상기 제1 사용자가 인식되면, 구동 모듈을 제어하여 상기 제1 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 상기 전자 장치를 이동시키도록 설정될 수 있다. 이 외에도 명세서를 통하여 파악되는 다양한 실시 예가 가능하다.

Description

사용자 입력 처리 방법 및 이를 지원하는 전자 장치
본 문서에서 개시되는 다양한 실시 예들은, 전자 장치의 사용자 입력 처리 기술과 관련된다.
사용자와의 인터렉션(interaction)을 지향하기 위한 일환으로, 전자 장치는 다양한 입력 방식을 지원하고 있다. 예를 들어, 전자 장치는 지정된 어플리케이션 프로그램의 실행을 기반으로 사용자 발화에 따른 음성 데이터를 입력 받는 음성 입력 방식을 지원하고 있다. 나아가, 전자 장치는 입력 받은 음성 데이터를 인식하여 사용자 발화의 의도를 도출하고, 도출된 사용자 발화 의도에 대응하는 태스크(task)를 수행하는 음성 인식 서비스를 지원하고 있다.
음성 인식 서비스의 상용화에 따라, 상기 음성 인식 서비스에 대한 다양한 운용 플랫폼이 구축되고 있다. 일례로, 전자 장치는 메시지 정보를 포함하는 사용자 발화를 수신하고, 상기 사용자 발화에 따른 음성 데이터를 인식하여 관계되는 메시지 수신인 소유의 외부 장치로 상기 메시지 정보에 대응하는 데이터를 전송할 수 있다. 그러나, 이와 같은 전자 장치의 태스크(예: 메시지 전달) 수행은 상기 전자 장치와 상호작용하기 위한 외부 장치가 요구될 수 있으며, 상기 외부 장치의 통신 장애 또는 전원 오프(off) 시 태스크 수행이 유효하지 않거나, 불완전하게 종료될 수 있다.
본 문서에서 개시되는 다양한 실시 예들은, 사용자 발화 수신 시, 상기 사용자 발화에 대응하는 태스크의 수행 위치로 이동하여 태스크(예: 메시지 전달)를 수행할 수 있는, 사용자 입력 처리 방법 및 이를 지원하는 전자 장치를 제공할 수 있다.
일 실시 예에 따른 전자 장치는, 메모리, 마이크, 통신 회로, 구동 모듈, 센서 모듈, 및 상기 메모리, 상기 마이크, 상기 통신 회로, 상기 구동 모듈 및 상기 센서 모듈과 작동적(operatively)으로 연결되는 프로세서를 포함할 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 메모리에 복수의 사용자 각각에 관계되는 정보를 저장하고, 상기 마이크를 통하여 상기 전자 장치의 태스크(task) 수행과 관계되는 사용자 발화를 수신하고, 상기 통신 회로를 이용하여 상기 사용자 발화와 관계되는 제1 데이터를 지정된 외부 장치로 전송하고, 상기 통신 회로를 이용하여 상기 태스크 수행과 관련한 상기 전자 장치의 적어도 하나의 동작 정보 및 상기 동작을 수행하는데 요구되는 적어도 하나의 파라미터를 포함하는 제2 데이터를 상기 외부 장치로부터 수신하고, 상기 적어도 하나의 파라미터에 기초하여 상기 복수의 사용자 중 상기 태스크 수행의 타겟과 관계되는 제1 사용자를 식별하고, 상기 복수의 사용자 각각에 관계되는 정보가 포함하는 상기 제1 사용자 관련 정보에 기초하여 상기 타겟의 위치를 추론하고, 상기 구동 모듈을 제어하여 상기 추론에 기반한 제1 위치로 상기 전자 장치를 이동시키고, 상기 제1 위치에서 상기 센서 모듈 또는 상기 마이크를 이용하여 획득되는 정보 및 상기 제1 사용자 관련 정보를 비교하여 상기 제1 사용자를 탐색하고, 상기 탐색에 기반하여 상기 제1 사용자가 인식되면, 상기 센서 모듈을 이용하여 상기 제1 사용자의 지정된 신체 정보가 획득되도록, 상기 구동 모듈을 제어하여 상기 제1 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 상기 전자 장치를 이동시킬 수 있다.
다양한 실시 예에 따르면, 전자 장치가 태스크(예: 메시지 전달) 수행과 관련 있는 타겟(target) 사용자(예: 메시지 수신인)의 위치로 근접 이동하여 태스크를 수행함으로써, 상기 타겟 사용자에게 태스크 수행에 따른 정보를 직관적으로 제공할 수 있다.
다양한 실시 예에 따르면, 사용자 발화 상에 태스크 수행과 관련되는 타겟 사용자의 위치 정보가 부재하더라도, 전자 장치가 상기 타겟 사용자의 위치를 추론하여 태스크를 수행함으로써, 태스크 수행의 신뢰도가 향상될 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 일 실시 예에 따른 전자 장치의 운용 일례를 도시한 도면이다.
도 2는 일 실시 예에 따른 인텔리전트(intelligent) 시스템을 도시한 도면이다.
도 3은 일 실시 예에 따른 인텔리전트(intelligent) 서버를 도시한 도면이다.
도 4는 일 실시 예에 따른 전자 장치를 도시한 도면이다.
도 5는 일 실시 예에 따른 전자 장치의 사용자 발화 예측 형태를 도시한 도면이다.
도 6은 일 실시 예에 따른 전자 장치의 타겟(target) 식별 형태를 도시한 도면이다.
도 7은 일 실시 예에 따른 전자 장치의 공간 판단 형태를 도시한 도면이다.
도 8은 일 실시 예에 따른 전자 장치의 이동 형태를 도시한 도면이다.
도 9는 일 실시 예에 따른 전자 장치의 기능 설정 화면을 도시한 도면이다.
도 10은 일 실시 예에 따른 전자 장치의 사용자 입력 처리 방법을 도시한 도면이다.
도 11은 일 실시 예에 따른 네트워크 환경 내의 전자 장치를 도시한 도면이다.
도면의 설명과 관련하여, 동일 또는 대응되는 구성요소에 대해서는 동일한 참조 번호가 부여될 수 있다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.
도 1은 일 실시 예에 따른 전자 장치의 운용 일례를 도시한 도면이고, 도 2는 일 실시 예에 따른 인텔리전트(intelligent) 시스템을 도시한 도면이다.
도 1을 참조하면, 일 실시 예에 따른 전자 장치(100)는 배치되는 특정 공간(10)(예: 가정, 사무실, 교실 또는 작업장 등) 상에서 사용자 발화에 따른 음성 데이터를 입력 받을 수 있다. 예를 들어, 전자 장치(100)는 탑재된 마이크를 통하여 사용자 발화에 따른 음성 데이터를 입력 받고, 상기 음성 데이터를 처리하여 관계되는 동작을 수행하거나, 또는 상태가 천이될 수 있다. 이와 관련하여, 일 실시 예에 따른 사용자 발화는 전자 장치(100)의 특정 태스크(task) 수행과 관계된 명령 또는 의도를 내포하는 태스크 명령 발화(예: “유진이한테 밥 먹으라고 전해줘” 등)일 수 있다. 이 경우, 전자 장치(100)는 네트워크로 연결된 인텔리전트 서버(200)와의 상호작용을 통하여 사용자 발화에 따른 음성 데이터를 처리함으로써, 상기 사용자 발화에 대응하는 태스크(예: 메시지 전달)를 수행할 수 있다.
다른 실시 예에서, 상기 사용자 발화는 전자 장치(100)의 상태 변경을 제어하는 웨이크 업(wake up) 발화(예: “hi, Chat Bot!” 또는 “wake up!” 등)일 수 있다. 예를 들어, 상기 사용자 발화는 전자 장치(100)의 상태를 사용자 발화의 수신을 대기하는 리스닝(listening) 상태로부터, 사용자 발화 발생에 따라 입력되는 음성 데이터를 처리할 수 있는 웨이크 업 상태로 천이(또는, 음성 인식 서비스 기능을 활성화)시키기 위한 발화일 수 있다. 이 경우, 상기 사용자 발화는 전자 장치(100)의 웨이크 업 상태 천이와 관계되는 지정된 웨이크 업 키워드를 포함할 수 있다. 전자 장치(100)는 입력 받은 음성 데이터 상에서 상기 웨이크 업 키워드가 인식되는 경우, 태스크 명령 발화를 처리할 수 있는 웨이크 업 상태로 천이될 수 있다. 다양한 실시 예에서, 전자 장치(100)의 웨이크 업 상태 천이(또는, 음성 인식 서비스 기능 활성화)는 상기 사용자의 웨이크 업 발화 이외에도, 전자 장치(100)의 일 영역으로 배치되는 하드웨어 버튼에 대한 사용자 조작에 의해 구현될 수 있다.
일 실시 예에서, 제1 사용자(20)로부터 수신하는 사용자 발화가 특정 태스크 수행을 명령 또는 의도하는 태스크 명령 발화(예: “유진이한테 밥 먹으라고 전해줘”)인 경우, 전자 장치(100)는 상기 제1 사용자(20) 발화에 따른 음성 데이터를 인텔리전트 서버(200)로 전송할 수 있다. 인텔리전트 서버(200)는 상기 음성 데이터에 대한 인식을 기반으로 전자 장치(100)의 음성 인식 서비스 운용을 지원할 수 있으며, 이와 관련하여 전자 장치(100)는 상기 인텔리전트 서버(200)의 신뢰도 높은 음성 데이터 인식을 위해 제1 사용자(20) 발화에 따른 음성 데이터를 전처리(예: 에코 제거, 배경 잡음 억제, 음량 조절, 이퀄라이징 또는 음성 종료 시점 검출 등)하여 전송할 수 있다.
일 실시 예에서, 인텔리전트 서버(200)는 전자 장치(100)로부터 수신한 음성 데이터를 이용하여 제1 사용자(20) 발화의 의도를 도출할 수 있다. 또한, 인텔리전트 서버(200)는 전자 장치(100)가 상기 도출된 제1 사용자(20) 발화 의도에 대응하는 태스크를 수행할 수 있도록, 상기 태스크 수행과 관계되는 전자 장치(100) 동작에 대한 시퀀스(sequence)를 생성하여 전자 장치(100)로 전송할 수 있다. 다양한 실시 예에 따르면, 상기 인텔리전트 서버(200)의 기능 동작은 전자 장치(100)에 의해 대행될 수 있다. 예를 들어, 전자 장치(100)는 제1 사용자(20) 발화에 따른 음성 데이터를 자체적으로 인식하여 제1 사용자(20) 발화 의도를 도출하고, 상기 제1 사용자(20) 발화 의도에 대응하는 태스크를 수행하기 위한 시퀀스를 생성 또는 선택할 수 있다.
일 실시 예에서, 전자 장치(100)는 상기 시퀀스에 기초하여 동작함으로써, 제1 사용자(20)가 명령 또는 의도한 태스크(예: 메시지 전달)를 수행할 수 있다. 이와 관련하여, 상기 시퀀스는 전자 장치(100)가 수행할 적어도 하나의 동작 정보를 비롯하여, 상기 동작 수행(또는, 태스크 수행)에 요구되는 적어도 하나의 파라미터(예: 메시지 내용 또는 메시지 수신인 등)를 포함할 수 있다. 전자 장치(100)는 시퀀스에 포함된 파라미터에 기초하여 태스크 수행의 타겟(target)에 해당하는 제2 사용자(30)를 식별하고, 전자 장치(100) 상에 사전 저장된 상기 제2 사용자(30) 관련 정보를 근거로 제2 사용자(30)의 위치를 추정할 수 있다. 전자 장치(100)는 상기 추정된 위치로 이동하고, 해당 위치에서 탑재된 적어도 하나의 센서를 통해 획득되는 정보를 이용하여 제2 사용자(30)를 탐색할 수 있다. 일 실시 예에서, 전자 장치(100)는 상기 탐색 동작에서 제2 사용자(30) 관련 정보에 근거하여 제2 사용자(30)가 인식되는 경우, 상기 제2 사용자(30)에 근접된 위치로 이동하여 시퀀스 상의 일부 동작에 따른 음성 출력(예: “유진아 엄마가 밥 먹으래”)(또는, 영상 출력)을 수행할 수 있다. 이하 참조되는 도면을 통하여, 전자 장치(100)의 태스크 명령 발화 처리와 관련한 다양한 실시 예를 살펴보기로 한다.
도 3은 일 실시 예에 따른 인텔리전트(intelligent) 서버를 도시한 도면이다.
도 3을 참조하면, 인텔리전트 서버(200)는 전자 장치(도 1 또는 도 2의 100)로부터 수신하는 사용자 발화에 따른 음성 데이터를 처리하기 위한 음성 입력 처리 모듈(210)을 포함할 수 있다. 일 실시 예에 따르면, 음성 입력 처리 모듈(210)은 상기 음성 데이터에 대한 인식을 기반으로 사용자 발화에 대한 전자 장치(100) 응답(예: 태스크 수행과 관련한 전자 장치(100)의 동작)의 적어도 일부를 생성할 수 있으며, 이와 관련하여 ASR(automatic speech recognition) 모듈(211), NLU(natural language understanding) 모듈(212) 및/또는 TTS(text to speech) 모듈(213)을 포함할 수 있다. 상기 음성 입력 처리 모듈(210)이 포함하는 적어도 하나의 모듈은 예컨대, 하드웨어 또는 소프트웨어로 구현될 수 있으며, 상호 독립적이거나, 적어도 일부가 통합될 수 있다. 다양한 실시 예에서, 인텔리전트 서버(200)는 상기 음성 입력 처리 모듈(210)의 기능 동작을 제어하는 프로세서, 상기 음성 데이터의 인식과 관계된 적어도 하나의 모델을 저장하는 메모리 또는 전자 장치(100)와의 통신을 지원하는 통신 회로를 더 포함할 수 있다.
일 실시 예에서, 상기 ASR 모듈(211)은 전자 장치(100)로부터 수신된 음성 데이터를 인식하여 텍스트 데이터로 변환할 수 있다. 예를 들어, ASR 모듈(211)은 발화 또는 발성에 관련한 적어도 하나의 정보를 포함하는 음향 모델 또는 적어도 하나의 단위 음소 정보 및 단위 음소들의 조합 정보를 포함하는 언어 모델을 이용하여 상기 음성 데이터를 텍스트 데이터로 변환할 수 있다. 일 실시 예에 따르면, ASR 모듈(211)은 변환된 텍스트 데이터를 상기 통신 회로를 이용하여 전자 장치(100)에 전송할 수 있다.
일 실시 예에서, 상기 NLU 모듈(212)은 ASR 모듈(211)로부터 텍스트 데이터를 전달받고, 상기 텍스트 데이터에 기초하여 음성 데이터와 관계된 사용자 발화의 의도를 도출할 수 있다. 예를 들어, NLU 모듈(212)은 상기 텍스트 데이터를 문법적 단위(예: 단어, 구 또는 형태소 등)로 구분하고, 각각의 단위에 대한 문법적 요소 또는 언어적 특징을 분석하여 상기 텍스트 데이터에 대한 의미를 판단함으로써, 음성 데이터와 관계되는 사용자 발화의 의도를 도출할 수 있다. 일 실시 예에 따르면, NLU 모듈(212)은 도출된 사용자 발화 의도에 기초하여, 상기 텍스트 데이터 상에서 도메인(domain), 의도(intent) 및 상기 의도를 표현하는데 필요한 파라미터(parameter)를 획득할 수 있다. NLU 모듈(212)은 획득된 도메인, 의도 및 파라미터에 기초하여 상기 사용자 발화 의도에 대응하는 태스크 수행을 위한 전자 장치(100) 동작의 시퀀스를 생성할 수 있다. 일 실시 예에 따르면, 상기 시퀀스는 태스크 수행과 관계되는 전자 장치(100)의 적어도 하나의 동작 정보 및 상기 적어도 하나의 동작을 실행하는데 요구되는 적어도 하나의 파라미터를 포함할 수 있다. NLU 모듈(212)은 생성된 시퀀스를 상기 통신 회로를 이용하여 전자 장치(100)에 전송할 수 있다.
일 실시 예에서, 상기 TTS 모듈(213)은 NLU 모듈(212)로부터 상기 텍스트 데이터에 대한 문법적 단위(예: 단어, 구 또는 형태소 등)를 전달받고, 텍스트 형태의 문법적 단위를 음성 데이터로 변환할 수 있다. 다양한 실시 예에 따르면, TTS 모듈(213)은 상기 변환 동작에서 문법적 단위의 품사를 변경하거나, 문법적 단위에 품사를 부가하거나, 또는 문법적 단위의 어순을 변경함으로써, 상기 텍스트 형태의 문법적 단위를 다양한 양상의 음성 데이터로 변환할 수 있다. TTS 모듈(213)은 변환된 음성 데이터를 상기 통신 회로를 이용하여 전자 장치(100)에 전송할 수 있다.
다양한 실시 예에 따르면, 상술된 음성 입력 처리 모듈(210)의 적어도 일부는 전자 장치(100)에 포함될 수 있다. 예를 들어, 음성 입력 처리 모듈(210)의 ASR 모듈(211), NLU 모듈(212) 또는 TTS 모듈(213) 중 적어도 일부는 전자 장치(100)에 포함되어, 사용자 발화에 따른 음성 데이터의 전자 장치(100)에 의한 인식 또는 응답 생성의 적어도 일부를 지원할 수 있다.
도 4는 일 실시 예에 따른 전자 장치를 도시한 도면이다.
도 4를 참조하면, 일 실시 예에 따른 전자 장치(100)는 마이크(110), 통신 회로(120), 메모리(130), 프로세서(140), 구동 모듈(150), 센서 모듈(160), 스피커(170) 및/또는 디스플레이(180)를 포함할 수 있다. 다양한 실시 예에 따르면, 전자 장치(100)는 상술한 구성요소들 중 적어도 하나를 생략하거나, 다른 구성요소를 추가적으로 포함할 수 있다. 예를 들어, 전자 장치(100)는 후술되는 도 13을 통하여 언급될 전자 장치(도 13의 1301)의 구성요소들을 더 포함할 수 있다. 다양한 실시 예에서, 상술한 전자 장치(100)의 구성요소들은 상기 전자 장치(100) 외관의 적어도 일부를 형성하는 하우징 내부에 배치되거나, 상기 하우징에 연결 또는 결합될 수 있다.
일 실시 예에서, 마이크(110)는 사용자 발화에 따른 음성 신호를 수신할 수 있다. 마이크(110)는 예컨대, 상기 음성 신호를 수신하기 위하여 항시 구동하는 상태(예: always on)로 동작할 수 있다. 또는, 마이크(110)는 전자 장치(100)의 일 영역으로 배치되는 하드웨어 버튼에 대한 사용자 조작에 따라, 상기 전자 장치(100)가 웨이크 업 상태로 천이되는 경우 활성화되어 동작할 수 있다. 다양한 실시 예에 따르면, 마이크(110)는 상기 음성 신호의 효율적 수신과 관련하여, 복수의 마이크를 포함할 수 있으며, 적어도 일부가 전자 장치(100)의 일 영역을 통하여 외부에 노출될 수 있다.
일 실시 예에서, 상기 통신 회로(120)는 전자 장치(100)와 적어도 하나의 외부 장치 간의 통신을 지원할 수 있다. 예를 들어, 통신 회로(120)는 인텔리전트 서버(도 2 또는 도 3의 200)와 네트워크를 구축하고, 규정된 프로토콜(protocol)에 따른 유선 통신 또는 무선 통신을 통하여 상기 네트워크에 접속함으로써, 인텔리전트 서버(200)와 음성 인식 서비스 운용에 관계되는 데이터 또는 신호의 송수신을 수행할 수 있다. 다양한 실시 예에서, 통신 회로(120)는 전자 장치(100)가 배치되는 특정 공간(10) 상의 적어도 하나의 사물인터넷 장치와 네트워크로 연결되는 사물인터넷 환경을 구축할 수 있다.
일 실시 예에서, 상기 메모리(130)는 전자 장치(100)의 음성 인식 서비스 기능 운용과 관계되는 적어도 하나의 데이터를 저장하거나, 전자 장치(100) 구성요소들의 기능 동작 제어와 관계되는 적어도 하나의 명령을 저장할 수 있다. 예를 들어, 메모리(130)는 사용자 발화 수신에 따른 음성 데이터를 저장하거나, 인텔리전트 서버(200)로부터 수신하는(또는, 전자 장치(100)가 생성하는) 시퀀스를 저장할 수 있다. 또는, 메모리(130)는 적어도 하나의 어플리케이션(131)을 저장할 수 있다. 상기 어플리케이션(131)은 예컨대, 전자 장치(100)의 음성 인식 서비스 운용을 지원하는 인텔리전트 어플리케이션을 포함할 수 있다. 상기 인텔리전트 어플리케이션은 전자 장치(100)의 태스크 수행과 관계되는 다른 어플리케이션을 실행시키거나, 상기 시퀀스에 따른 전자 장치(100)의 동작 중 적어도 일부의 수행을 지원할 수 있다. 일 실시 예에 따르면, 메모리(130)는 사용자 발화의 화자에 대한 인식 또는 태스크 수행과 관련한 타겟에 대한 인식을 지원하는 적어도 하나의 모듈을 더 포함할 수 있다. 예를 들어, 메모리(130)는 후술되는 프로세서(140)의 제어에 의해 실행되는 화자 인식 모듈(133), 공간 인식 모듈(135), 오브젝트 인식 모듈(137) 및/또는 타겟 인식 모듈(139)을 더 포함할 수 있다. 일 실시 예에 따르면, 상기 화자 인식 모듈(133), 공간 인식 모듈(135), 오브젝트 인식 모듈(137) 또는 타겟 인식 모듈(139)이 포함하는 모델은 전자 장치(100)에 등록된 적어도 한 명의 사용자와 관련한 정보로 이해될 수 있다.
일 실시 예에서, 상기 화자 인식 모듈(133)은 마이크(110)를 통하여 사용자 발화(예: 태스크 명령 발화 또는 웨이크 업 발화) 수신 시, 상기 사용자 발화의 대상(예: 화자)를 인식할 수 있다. 이와 관련하여, 화자 인식 모듈(133)은 전자 장치(100)에 등록된 적어도 한 명의 사용자를 인식하기 위하여 상기 적어도 한 명의 사용자 각각에 대응하는 화자 인식 모델을 포함할 수 있다. 일 실시 예에 따르면, 화자 인식 모듈(133)은 상기 전자 장치(100) 상에 적어도 한 명의 사용자 등록 시, 마이크(110)를 통하여 각각의 사용자로부터 기준 발화를 수신하고, 상기 기준 발화에서 추출되는 특징 벡터(feature vector)의 통계적 특성을 이용하여 상기 각각의 사용자에 대응하는 화자 인식 모델을 생성할 수 있다. 상기 통계적 특성은 예컨대, 특정 사용자의 기준 발화에서 추출되는 특징 벡터와, 상기 특정 사용자에 의한 복수 번의 발화에서 추출되는 특징 벡터들 간의 차이 값 분포를 포함할 수 있다. 다른 실시 예에 따르면, 화자 인식 모듈(133)은 전자 장치(100) 상에 적어도 한 명의 사용자 등록 시, 각각의 사용자에 대하여 촬영되는 영상(예: still image 또는 video)을 기반으로 화자 인식 모델을 생성할 수 있다. 예를 들어, 화자 인식 모듈(133)은 후술되는 센서 모듈(160)에 포함된 이미지 센서를 이용하여 상기 각각의 사용자의 얼굴 영상을 획득(또는, 촬영)하고, 상기 얼굴 영상에 대한 적어도 하나의 특징점 추출을 기반으로 각각의 사용자에 대응하는 화자 인식 모델을 생성할 수 있다. 또는, 화자 인식 모듈(133)은 상기 센서 모듈(160)이 포함하는 이미지 센서 및/또는 뎁스(depth) 센서를 이용하여 사용자 신체에 대한 영상을 획득(또는, 촬영)하고, 상기 신체에 대한 영상으로부터 판단되는 사용자 골격 정보, 키 정보 또는 몸집 정보를 이용하여 각각의 사용자에 대응하는 화자 인식 모델을 생성할 수 있다. 또 다른 실시 예에서, 화자 인식 모듈(133)은 전자 장치(100) 상에 적어도 한 명의 사용자 등록 시, 상기 센서 모듈(160)이 포함하는 생체 센서(예: 지문 센서 또는 홍채 센서)를 사용자 생체 정보를 획득하고, 상기 생체 정보를 기반으로 각각의 사용자에 대응하는 화자 인식 모델을 생성할 수 있다. 화자 인식 모듈(133)은 상기 생성된 화자 인식 모델을 학습하고, 사용자 발화 수신 시 입력되는 음성 데이터 또는 획득하는 얼굴 영상을 상기 화자 인식 모델과 비교하여 상기 사용자 발화를 수행한 사용자(예: 화자)를 인식할 수 있다.
일 실시 예에서, 상기 공간 인식 모듈(135)은 전자 장치(100)가 배치되는 특정 공간(도 1의 10)(예: 가정, 사무실, 교실 또는 작업장 등)에 대한 맵(map) 정보 및/또는 상기 센서 모듈(160)에 포함된 위치 센서를 통해 획득되는 전자 장치(100)의 실시간 위치 정보를 획득할 수 있다. 또는, 공간 인식 모듈(135)은 전자 장치(100)에 등록된 적어도 한 명의 사용자 각각에 대응하는 공간 인식 모델을 저장할 수 있다. 일 실시 예에서, 상기 공간 인식 모델은 해당 사용자와 매핑된 공간 정보(예: 룸(room) 정보 또는 섹션(section) 정보 등)를 포함할 수 있다. 이와 관련하여, 전자 장치(100)에 대한 적어도 한 명의 사용자 등록 시, 사용자 각각은 본인에게 관계되는 상기 특정 공간(10) 내의 룸 정보 또는 섹션 정보를 입력할 수 있다. 일례로, 상기 특정 공간(10)이 가정인 경우, 사용자 각각은 상기 룸 정보로써 본인의 침실 정보를 입력할 수 있다. 다른 예로, 상기 특정 공간(10)이 사무실인 경우, 사용자 각각은 상기 섹션 정보로써 본인의 업무 공간 정보를 입력할 수 있다. 다양한 실시 예에 따르면, 상기 적어도 한 명의 사용자 중 적어도 일부는 특정 시간대에 본인이 위치하거나 활동하는 패턴에 기초하여, 상기 룸 정보 또는 섹션 정보를 시간대 별로 입력할 수 있다. 예를 들어, 상기 적어도 일부의 사용자는 제1 시간대에 대하여 제1 룸 정보 또는 제1 섹션 정보를 입력하고, 제2 시간대에 대하여 상기 제1 룸 정보 또는 제1 섹션 정보와 상이한 제2 룸 정보 또는 제2 섹션 정보를 입력할 수 있다. 공간 인식 모듈(135)은 사용자 각각으로부터 입력되는 룸 정보 또는 섹션 정보를 해당 사용자와 매핑하여 상기 공간 인식 모델을 생성할 수 있다. 일 실시 예에서, 공간 인식 모듈(135)은 생성된 공간 인식 모델을 실시간 또는 지정된 주기에 따라 업데이트할 수 있다. 이와 관련하여, 전자 장치(100) 이동 시 센서 모듈(160)의 이미지 센서를 통하여 임의의 사용자가 촬영되는 경우, 공간 인식 모듈(135)은 상술된 화자 인식 모델(또는, 후술되는 타겟 인식 모델)을 참조하여 상기 촬영된 사용자를 인식할 수 있다. 공간 인식 모듈(135)은 메모리(130)에 저장된 공간(10)에 대한 맵 정보 및 전자 장치(100)의 실시간 위치 정보를 이용하여 상기 인식된 사용자가 위치한 룸 또는 섹션을 확인하고, 확인된 룸 또는 섹션에 대한 정보 및 상기 촬영의 타임 스탬프 정보를 인식된 사용자와 매핑하여 공간 인식 모델에 등록할 수 있다. 또는, 전자 장치(100) 이동 시 마이크(110)를 통하여 임의의 사용자 발화에 따른 음성 신호가 수신되는 경우, 공간 인식 모듈(135)은 상술된 화자 인식 모델(또는, 후술되는 타겟 인식 모델)을 참조하여 상기 음성 신호와 관계되는 사용자를 인식할 수 있다. 공간 인식 모듈(135)은 인식된 사용자가 위치한 룸 또는 섹션에 대한 정보 및 상기 음성 신호 수신의 타임 스탬프 정보를 상기 인식된 사용자와 매핑하여 공간 인식 모델에 등록할 수 있다. 일 실시 예에 따르면, 공간 인식 모델이 업데이트되는 경우, 공간 인식 모듈(135)은 이전 업데이트된 정보(예: 사용자와 매핑된 룸 또는 섹션 정보 및 타임 스탬프 정보)를 상기 공간 인식 모델에서 제거할 수 있다.
일 실시 예에서, 상기 오브젝트 인식 모듈(137)은 전자 장치(100) 이동 시 센서 모듈(160)의 이미지 센서를 통하여 획득(또는, 촬영)되는 영상 내의 오브젝트를 인식할 수 있다. 이와 관련하여, 상기 오브젝트 인식 모듈(137)은 전자 장치(100)가 배치되는 특정 공간(10) 내의 적어도 하나의 오브젝트에 대한 인식을 지원하는 오브젝트 인식 모델을 포함할 수 있다. 일 실시 예에 따르면, 오브젝트 인식 모듈(137)은 전자 장치(100)의 개발자 또는 사용자에 의하여 입력되는 상기 특정 공간(10)과 유관의 오브젝트(예: 가전 제품 또는 가구) 영상을 기계 학습(예: 딥 러닝(deep learning))할 수 있다. 다른 실시 예에 따르면, 오브젝트 인식 모듈(137)은 사용자로부터 입력되는 해당 사용자 소유의 오브젝트 영상을 기계 학습할 수 있다. 예를 들어, 오브젝트 인식 모듈(137)은 사용자가 애용하는 의류 또는 액세서리에 대한 영상을 학습할 수 있다. 오브젝트 인식 모듈(137)은 상기 기계 학습을 기반으로 오브젝트 영상에 포함된 적어도 하나의 오브젝트에 대한 오브젝트 인식 모델을 생성할 수 있다. 일 실시 예에서, 상기 오브젝트가 사용자 소유의 의류 또는 액세서리에 해당하는 경우, 오브젝트 인식 모듈(137)은 해당 오브젝트에 대한 오브젝트 인식 모델 생성 시, 상기 오브젝트 인식 모델에 상기 오브젝트와 관계된 사용자(예: 오브젝트 소유자)의 정보를 포함시킬 수 있다. 일 실시 예에서, 오브젝트 인식 모듈(137)은 전자 장치(100) 이동 시 상기 센서 모듈(160)의 이미지 센서를 통해 촬영되는 영상을 오브젝트 인식 모델을 이용하여 분석함으로써, 상기 영상에 포함된 적어도 하나의 오브젝트를 인식할 수 있다. 오브젝트 인식 모듈(137)은 상기 특정 공간(10)에 대한 맵 정보 및 전자 장치(100)의 실시간 위치 정보를 이용하여 상기 인식된 오브젝트가 위치한 룸 또는 섹션을 확인하고, 확인된 룸 또는 섹션에 대한 정보 및 상기 촬영의 타임 스탬프 정보를 인식된 오브젝트와 매핑하여 오브젝트 인식 모델에 등록할 수 있다.
일 실시 예에서, 상기 타겟 인식 모듈(139)은 전자 장치(100)의 태스크(예: 메시지 전달) 수행 시, 상기 태스크 수행의 타겟에 해당하는 사용자를 인식할 수 있다. 이와 관련하여, 타겟 인식 모듈(139)은 상기 타겟 사용자의 인식에 이용되는 타겟 인식 모델을 포함할 수 있다. 예를 들어, 타겟 인식 모듈(139)은 상술된 화자 인식 모델의 생성과 유사하게, 전자 장치(100)에 대한 적어도 한 명의 사용자 등록 시 각각의 사용자에 대하여 수신하는 발화, 각각의 사용자로부터 입력 받는 생체 정보(예: 지문 정보 또는 홍채 정보), 또는 각각에 사용자에 대하여 촬영하는 얼굴 영상 또는 신체 영상을 기반으로 상기 타겟 인식 모델을 생성할 수 있다. 일 실시 예에서, 타겟 인식 모듈(139)은 인텔리전트 서버(200)로부터 수신하는 시퀀스에 포함된 파라미터(예: 메시지 수신인)에 기초하여 상기 태스크 수행의 타겟을 식별하고, 태스크 수행과 관련한 전자 장치(100)의 이동 시 상기 타겟 인식 모델을 이용하여 식별된 타겟에 해당하는 사용자를 인식할 수 있다. 예를 들어, 타겟 인식 모듈(139)은 전자 장치(100) 이동 시(또는, 이동 완료 시) 획득되는 음성, 감지되는 생체 정보 또는 촬영되는 영상(예: 얼굴 영상 또는 신체 영상)에 대응하는 사용자를 상기 타겟 인식 모델을 이용하여 판단하고, 판단된 사용자와 상기 식별된 타겟 간의 대응 여부를 확인하여 상기 타겟에 해당하는 사용자를 인식할 수 있다. 다양한 실시 예에 따르면, 타겟 인식 모듈(139)은 상기 얼굴 영상 기반의 타겟 인식 모델을 생성하는 경우, 사용자 각각에 대한 복수의 얼굴 영상을 이용하여 상기 타겟 인식 모델을 생성할 수 있다. 이와 관련하여, 타겟 인식 모듈(139)은 전자 장치(100)에 대한 적어도 한 명의 사용자 등록 동작에서, 상기 센서 모듈(160)로 하여금 이미지 센서를 이용하여 사용자 각각에 대한 복수의 얼굴 영상을 촬영하도록 요청할 수 있다. 예를 들어, 타겟 인식 모듈(139)은 상기 사용자 각각에 대하여 좌측 얼굴 영상, 우측 얼굴 영상 및 정면 얼굴 영상을 촬영하도록 요청할 수 있다. 상기 복수의 얼굴 영상은 예컨대, 타겟에 해당하는 사용자 인식에 참조될 수 있으며, 이에 대해서는 도 8을 통하여 후술하기로 한다.
일 실시 예에서, 상기 프로세서(140)는 중앙처리장치(central processing unit), 어플리케이션 프로세서(application processor) 또는 커뮤니케이션 프로세서(communication processor) 중 적어도 하나로 구현되어, 전자 장치(100)의 구성요소들을 제어할 수 있다. 예를 들어, 프로세서(140)는 전자 장치(100) 구성요소들과 전기적 또는 기능적(operatively)으로 연결되어, 상기 구성요소들로 기능 동작과 관계되는 적어도 하나의 명령을 전달하거나, 각종 연산 또는 데이터 처리 등을 수행할 수 있다. 일 실시 예에 따르면, 프로세서(140)는 상술된 메모리(130)가 포함하는 적어도 하나의 모듈(예: 화자 인식 모듈(133), 공간 인식 모듈(135), 오브젝트 인식 모듈(137) 및/또는 타겟 인식 모듈(139))의 기능 동작을 제어할 수 있다. 또는, 프로세서(140)는 상기 적어도 하나의 모듈의 기능 동작을 대행할 수 있다. 이 경우, 프로세서(140)는 메모리(130)에 저장된 적어도 하나의 모델(예: 화자 인식 모델, 공간 인식 모델, 오브젝트 인식 모델 또는 타겟 인식 모델)을 참조하여, 화자 인식, 공간 인식, 오브젝트 인식 또는 태스크 수행의 타겟 인식을 수행할 수 있다. 다양한 실시 예에서, 상기 프로세서(140)는 통신 회로(120)를 이용하여 전자 장치(100)가 배치되는 특정 공간(10) 내의 적어도 하나의 사물인터넷 장치(예: 컴퓨터, TV 또는 센싱 장치)와 사물인터넷 환경(또는, 사물인터넷 시스템)을 구축할 수 있다. 프로세서(140)는 상기 사물인터넷 장치로부터 전자 장치(100)에 등록된 사용자와 관계되는 알림을 수신할 수 있다. 예를 들어, 프로세서(140)는 상기 사물인터넷 장치에 특정 사용자가 사용자 개인 정보(예: 아이디) 또는 생체 정보(예: 지문 정보 또는 홍채 정보)를 입력하는 경우, 이에 대한 알림을 해당 사물인터넷 장치로부터 수신할 수 있다.
일 실시 예에서, 상기 구동 모듈(150)은 전자 장치(100)의 이동(또는, 주행)을 지원할 수 있다. 이와 관련하여, 구동 모듈(150)은 동력에너지를 발생시키는 적어도 하나의 모터, 상기 적어도 하나의 모터로부터 동력을 전달받아 회전하는 구동륜 및 상기 구동륜의 조향 각을 제어하는 조향 유닛 중 적어도 하나를 포함할 수 있다.
일 실시 예에서, 상기 센서 모듈(160)은 전자 장치(100)의 작동 상태 또는 외부 환경 상태에 대응하는 신호 또는 데이터를 생성할 수 있다. 이와 관련하여, 센서 모듈(160)은 위치 센서를 포함할 수 있으며, 상기 위치 센서를 기반으로 전자 장치(100)의 정거 또는 이동에 따른 실시간 위치 신호 또는 데이터를 생성할 수 있다. 또는, 센서 모듈(160)은 이미지 센서를 포함할 수 있으며, 상기 이미지 센서를 이용하여 전자 장치(100)에 대한 적어도 한 명의 사용자 등록 시 사용자 각각의 얼굴 영상 또는 신체 영상을 촬영하거나, 전자 장치(100)의 정거 또는 이동 시 주변 환경(예: 주변 오브젝트 또는 주변 사용자 등)에 대한 영상을 촬영하여 영상 신호 또는 데이터를 생성할 수 있다. 또는, 센서 모듈(160)은 생체 센서(예: 홍채 센서 또는 지문 센서)를 포함하여 사용자 고유의 신체적 신호 또는 데이터를 생성할 수 있다. 센서 모듈(160)은 생성된 신호 또는 데이터를 스케줄링된 정보 또는 요청에 따라, 메모리(130) 내의 적어도 하나의 모듈(예: 화자 인식 모듈(133), 공간 인식 모듈(135), 오브젝트 인식 모듈(137) 또는 타겟 인식 모듈(139)) 또는 프로세서(140)로 전달할 수 있다. 다양한 실시 예에 따르면, 센서 모듈(160)은 상기 위치 센서 또는 이미지 센서 이외에도, 전자 장치(100)의 이동 시 주변 오브젝트와의 충돌을 방지하기 위한 근접 센서를 더 포함할 수 있다. 또는, 센서 모듈(160)은 전자 장치(100)와 주변 오브젝트 간의 거리를 산출하기 위한 뎁스(depth) 센서를 더 포함할 수 있다. 다양한 실시 예에 따르면, 센서 모듈(160)은 상기 뎁스 센서 및 이미지 센서를 기반으로 사용자 제스처(예: 특정 방향을 가리키는 손가락 등)에 따른 방향을 판단할 수 있다.
일 실시 예에서, 상기 스피커(170)는 전자 장치(100)의 태스크 수행 시 지정된 음성 데이터를 출력할 수 있다. 일 실시 예에 따르면, 상기 지정된 음성 데이터는 인텔리전트 서버(200)의 TTS 모듈(도 3의 213)로부터 수신하는 음성 데이터를 포함할 수 있다. 이에 따르면, 상기 스피커(170)에 의한 지정된 음성 데이터 출력은 전자 장치(100)가 수행하는 태스크(예: 메시지 전달)의 적어도 일부로 이해될 수 있다. 다양한 실시 예에서, 스피커(170)는 상기 음성 데이터의 출력 효율과 관련하여, 복수의 스피커를 포함할 수 있으며, 적어도 일부가 전자 장치(100)의 일 영역을 통하여 외부에 노출될 수 있다.
일 실시 예에서, 상기 디스플레이(180)는 전자 장치(100)의 태스크 수행 시 지정된 시각적 콘텐츠를 출력할 수 있다. 일 실시 예에 따르면, 상기 지정된 시각적 콘텐츠는 인텔리전트 서버(200)의 ASR 모듈(도 3의 211)로부터 수신하는 텍스트 데이터를 포함할 수 있다. 다양한 실시 예에서, 디스플레이(180)의 시각적 콘텐츠 출력은 스피커(170)의 음성 데이터 출력과 동시에 수행될 수 있다. 또는, 디스플레이(180)의 시각적 콘텐츠 출력은 스피커(170)의 음성 데이터 출력과는 독립적으로 수행될 수 있다. 예를 들어, 디스플레이(180)의 콘텐츠 출력은 지정된 시간대(예: 심야 시간대)에 한하여 상기 스피커(170)의 음성 데이터 출력을 배제시키며 수행될 수 있다. 이와 관련하여, 사용자는 디스플레이(180)의 시각적 콘텐츠 출력과 관계되는 상기 지정된 시간대를 설정할 수 있으며, 상기 지정된 시간대에 전자 장치(100)가 태스크를 수행하는 경우, 프로세서(140)는 스피커(170)에 대한 제어를 배제하고, 디스플레이(180)만을 제어할 수 있다.
도 5는 일 실시 예에 따른 전자 장치의 사용자 발화 예측 형태를 도시한 도면이다.
도 5를 참조하면, 전자 장치(100)는 지정된 시간대 별로 특정 사용자의 발화(예: 웨이크 업 발화 또는 태스크 명령 발화)(또는, 음성 인식 서비스 운용)를 예측할 수 있다. 예를 들어, 전자 장치(100)는 태스크를 수행하지 않는 상태에 한하여, 상기 지정된 시간대 별로 사용자의 발화를 예측하고, 해당 사용자에 근접되는 위치로 이동할 수 있다. 일 실시 예에 따르면, 전자 장치(100)의 프로세서(도 4의 140)는 상기 사용자 발화 예측과 관련하여, 메모리(도 4의 130)(또는, 메모리(130) 내의 공간 인식 모델)가 포함하는 적어도 일부 사용자의 시간대 별 룸 정보 또는 섹션 정보를 참조할 수 있다. 예를 들어, 프로세서(140)는 메모리(130) 상에서 현재 시각에 대응하는 룸 정보 또는 섹션 정보를 식별하고, 구동 모듈(도 4의 150)을 제어하여 전자 장치(100)를 식별된 룸 또는 섹션으로 이동시킬 수 있다.
사용자 발화 예측에 따른 전자 장치(100) 이동에 관한 일례를 들면, 전자 장치(100)가 태스크를 수행하지 않는 상태에서 현재 시각이 제1 시간대에 포함되는 경우, 프로세서(140)는 메모리(130)(또는, 메모리(130) 내의 공간 인식 모델)를 참조하여 상기 제1 시간대에 대응하는 룸 정보 또는 섹션 정보를 식별할 수 있다. 프로세서(140)는 식별된 제1 시간대의 룸 정보 또는 섹션 정보를 입력한 제3 사용자(40)의 발화를 예측하고, 상기 제1 시간대의 룸 정보 또는 섹션 정보에 대응하는 룸 또는 섹션으로 전자 장치(100)를 이동시킬 수 있다. 다양한 실시 예에 따르면, 상기 메모리(130)가 포함하는 시간대 별 룸 정보 또는 섹션 정보 상에 상기 제1 시간대에 대응하는 룸 정보 또는 섹션 정보가 부재한 경우, 프로세서(140)는 전자 장치(100)의 현재 위치를 유지시킬 수 있다. 유사하게, 전자 장치(100)가 태스크를 수행하지 않는 상태에서 현재 시각이 제2 시간대에 포함되는 경우, 프로세서(140)는 상기 제2 시간대에 대응하는 룸 정보 또는 섹션 정보를 입력한 제4 사용자(50)의 발화를 예측하여, 상기 제2 시간대의 룸 정보 또는 섹션 정보에 대응하는 룸 또는 섹션으로 전자 장치(100)를 이동시킬 수 있다.
일 실시 예에 따르면, 메모리(130)(또는, 메모리(130) 내의 공간 인식 모델)가 포함하는 적어도 일부 사용자의 시간대 별 룸 정보 또는 섹션 정보에는 제3 시간대에 대응하는 룸 정보 또는 섹션 정보가 복수로 존재할 수 있다. 예를 들어, 메모리(130)는 상기 제3 시간대에 대하여 제5 사용자(60)가 입력한 룸 정보 또는 섹션 정보와, 상기 제3 시간대에 대하여 제6 사용자(70)가 입력한 룸 정보 또는 섹션 정보를 포함할 수 있다. 이 경우, 프로세서(140)는 상기 제3 시간대에 전자 장치(100)를 이동시킬 룸 또는 섹션에 대한 우선순위를 결정할 수 있다. 예를 들어, 프로세서(140)는 전자 장치(100)에 대한 적어도 한 명의 사용자 등록 시 각각의 사용자로부터 입력되는 사용자 개인 정보(예: 이름, 나이, 성별, 신체 특성 또는 병력 등)를 참조하여 상기 우선순위를 결정할 수 있다. 프로세서(140)는 상기 사용자 개인 정보에 기초하여 제3 시간대에 대응하는 룸 정보 또는 섹션 정보를 입력한 복수의 사용자(예: 제5 사용자(60) 및 제6 사용자(70)) 중 지정된 조건(예: 유아 여부, 노인 여부, 장애 여부 또는 환자 여부 등)에 만족되는 사용자를 식별하고, 식별된 사용자에 대응하는 룸 또는 섹션으로 전자 장치(100)를 이동시킬 수 있다. 또는, 프로세서(140)는 상기 복수의 사용자의 음성 인식 서비스 운용 이력(예: 태스크 명령 발화 수행 횟수 등)을 확인하여 상기 음성 인식 서비스를 상대적으로 많이 운용한 사용자를 식별하고, 식별된 사용자에 대응하는 룸 또는 섹션으로 전자 장치(100)를 이동시킬 수 있다. 또는, 프로세서(140)는 특정 시간대에 대응하는 룸 정보 또는 섹션 정보가 복수로 존재하지 않더라도, 사용자로부터 입력되는 우선순위 정보에 기초하여 전자 장치(100)를 이동시킬 룸 또는 섹션을 결정할 수 있다.
도 6은 일 실시 예에 따른 전자 장치의 타겟(target) 식별 형태를 도시한 도면이고, 도 7은 일 실시 예에 따른 전자 장치의 공간 판단 형태를 도시한 도면이다. 이하, 도 6 및 도 7을 참조하여 설명되는 적어도 하나의 데이터베이스는 전자 장치(도 1, 도 2, 도 4 또는 도 5의 100)에 등록된 적어도 한 명의 사용자와 관련한 정보로 이해될 수 있다.
도 6을 참조하면, 전자 장치(도 1, 도 2, 도 4 또는 도 5의 100)가 수신하는 사용자 발화(예: 태스크 명령 발화) 상에는 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어가 포함될 수 있다. 이 경우, 전자 장치(100)의 프로세서(도 4의 140)(또는, 타겟 인식 모듈(도 4의 139))는 인텔리전트 서버(도 3의 200)의 NLU 모듈(도 2의 212)로부터 상기 태스크 수행과 관계되는 시퀀스를 수신한 이후, 전자 장치(100)에 등록된 적어도 한 명의 사용자 중 상기 시퀀스에 포함된 파라미터(예: target person)에 대응하는 타겟 사용자를 식별할 수 있다.
일 실시 예에 따르면, 메모리(도 4의 130) 내의 타겟 인식 모듈(139)은 상기 타겟 사용자 식별에 참조되는 타겟 데이터베이스를 포함할 수 있다. 일 실시 예에서, 상기 타겟 데이터베이스는 전자 장치(100)에 대한 적어도 한 명의 사용자 등록 시 각각의 사용자에 대하여 개별적으로 생성될 수 있다. 예를 들어, 특정 사용자에 대응하는 타겟 데이터베이스는 해당 사용자가 입력하는 사용자 개인 정보(예: 이름, 직책 또는 다른 사용자들과의 관계 등)를 포함할 수 있다. 또는, 특정 사용자에 대응하는 타겟 데이터베이스는 상기 특정 사용자에 대하여 다른 적어도 한 명의 사용자가 입력하는 정보(예: 특정 사용자의 닉네임 또는 호칭 등)를 포함할 수 있다.
상기 타겟 데이터베이스를 기반으로 하는 타겟 사용자 식별에 대한 일례를 들면, 전자 장치(100)는 화자에 해당하는 제1 사용자(20)로부터 태스크 명령 발화(예: “큰 애에게 학원 가라고 전해줘”)를 수신하고, 이에 대응하여 인텔리전트 서버(200)의 NLU 모듈(212)로부터 전자 장치(100)의 동작에 관한 시퀀스를 수신할 수 있다. 일 실시 예에서, 상기 태스크 명령 발화는 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어(예: 큰애)를 포함함에 따라, 인텔리전트 서버(200)로부터 제공되는 시퀀스는 상기 타겟 지칭의 단어와 대응하는 파라미터(예: target person_큰애)를 포함할 수 있다. 일 실시 예에 따르면, 전자 장치(100)의 프로세서(140)(또는, 타겟 인식 모듈(139))는 등록된 적어도 한 명의 사용자 각각에 대한 타겟 데이터베이스를 참조하여, 상기 시퀀스의 파라미터에 대응하는 제2 사용자(30)를 식별할 수 있다. 예를 들어, 프로세서(140)는 상기 파라미터에 대응하는 사용자 개인 정보(예: 김유진 등), 닉네임 정보(예: 공주 등) 또는 호칭 정보(예: 큰애, 큰딸, 첫째 또는 우리 딸 등)를 포함하는 타겟 데이터베이스를 확인하고, 확인된 타겟 데이터베이스에 관계되는 사용자를 태스크 수행의 타겟인 제2 사용자(30)로 식별할 수 있다.
다양한 실시 예에서, 전자 장치(100)가 수신하는 제1 사용자(20)의 태스크 명령 발화 상에는 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어가 부재할 수 있다. 이 경우, 전자 장치(100)는 인텔리전트 서버(200)로부터 상기 타겟과 관련한 적어도 하나의 파라미터(예: target person)가 누락된 시퀀스를 수신할 수 있다. 프로세서(140)는 상기 시퀀스의 파라미터 누락을 식별하고, 제1 사용자(20)에게 상기 타겟에 해당하는(또는, 누락된 파라미터에 해당하는) 정보의 입력을 요청할 수 있다. 예를 들어, 프로세서(140)는 전자 장치(100)의 스피커(도 4의 170)를 제어하여 지정된 음성(예: “메시지 수신인을 말씀해 주세요” 등)을 출력할 수 있다. 또는, 프로세서(140)는 전자 장치(100)의 디스플레이(도 4의 180)를 제어하여 지정된 텍스트(예: 메시지 수신인을 입력해 주세요” 등)를 포함하는 그래픽 사용자 인터페이스를 출력할 수 있다. 이와 관련하여, 상기 그래픽 사용자 인터페이스는 사용자 입력을 지원하는 SIP(software input panel) 자판을 포함할 수 있다.
도 7을 참조하면, 전자 장치(100)가 수신하는 태스크 명령 발화 상에는 태스크 수행과 관련하여 상기 전자 장치(100)가 이동할 룸 또는 섹션을 지칭하는 적어도 하나의 단어가 포함될 수 있다. 이 경우, 전자 장치(100)의 프로세서(140)(또는, 공간 인식 모듈(도 4의 135))는 인텔리전트 서버(200)의 NLU 모듈(212)로부터 전자 장치(100)의 동작에 관한 시퀀스를 수신한 이후, 전자 장치(100)가 배치된 특정 공간(도 1의 10)(예: 가정, 사무실, 교실 또는 작업장 등) 상에서 상기 시퀀스가 포함하는 파라미터(예: room)에 대응하는 룸 또는 섹션을 판단할 수 있다.
일 실시 예에 따르면, 메모리(130) 내의 공간 인식 모듈(135)은 상기 룸 또는 섹션 판단에 참조되는 공간 데이터베이스를 포함할 수 있다. 일 실시 예에서, 상기 공간 데이터베이스는 전자 장치(100)에 대한 적어도 한 명의 사용자 등록 시 상기 특정 공간(10)에 포함되는 적어도 하나의 룸 또는 섹션 각각에 대하여 개별적으로 생성될 수 있다. 예를 들어, 특정 룸 또는 섹션에 대응하는 공간 데이터베이스는 상기 특정 룸 또는 섹션과 관계된 사용자(예: 상기 특정 룸 또는 섹션을 침실 또는 업무 공간으로 이용하는 사용자)로부터 입력되는 정보(예: 상기 사용자가 지칭하는 룸 또는 섹션의 호칭 등)를 포함하도록 생성될 수 있다. 또는, 상기 특정 룸 또는 섹션에 대응하는 공간 데이터베이스는 상기 특정 룸 또는 섹션과 관계된 사용자 이외의 다른 적어도 한 명의 사용자가 입력하는 정보(예: 다른 적어도 한 명의 사용자가 지칭하는 룸 또는 섹션 호칭 등)를 포함하도록 생성될 수 있다.
상기 공간 데이터베이스를 기반으로 하는 룸 또는 섹션 판단에 대한 일례를 들면, 전자 장치(100)는 임의의 화자로부터 태스크 명령 발화(예: “유진이 방에 가서 밥 먹으라고 전해줘”)를 수신하고, 이에 대응하여 인텔리전트 서버(200)의 NLU 모듈(212)로부터 전자 장치(100)의 동작에 관한 시퀀스를 수신할 수 있다. 일 실시 예에서, 상기 태스크 명령 발화는 태스크 수행과 관련하여 전자 장치(100)가 이동할 룸 또는 섹션을 지칭하는 적어도 하나의 단어(예: 유진이 방)를 포함함에 따라, 인텔리전트 서버(200)로부터 제공되는 시퀀스는 상기 룸 또는 섹션 지칭의 단어와 대응하는 파라미터(예: room_유진이 방)를 포함할 수 있다. 일 실시 예에 따르면, 전자 장치(100)의 프로세서(140)(또는, 공간 인식 모듈(135))는 상기 전자 장치(100)가 배치된 특정 공간(10) 내의 적어도 하나의 룸 또는 섹션 각각에 대한 공간 데이터베이스를 참조하여, 상기 시퀀스의 파라미터에 대응하는 룸 또는 섹션을 판단할 수 있다. 예를 들어, 프로세서(140)는 상기 파라미터에 대응하는 룸 또는 섹션 호칭 정보(예: 유진이 방, 큰애 방, 첫째 방, 공주 방 또는 컴퓨터 방 등)를 포함하는 공간 데이터베이스를 확인하고, 확인된 공간 데이터베이스에 관계되는 룸 또는 섹션을 전자 장치(100)가 이동할 공간으로 판단할 수 있다.
다양한 실시 예에 따르면, 전자 장치(100)는 태스크 명령 발화를 수신하는 동작에서, 상기 태스크 명령 발화를 수행한 사용자의 제스처를 인식할 수 있다. 예를 들어, 전자 장치(100)는 지시대명사(예: 저기 또는 저 곳 등)를 포함하는 태스크 명령 발화를 수신하는 동시에, 특정 룸 또는 섹션을 가리키는 사용자 제스처를 인식할 수 있다. 이 경우, 전자 장치(100)의 프로세서(140)는 센서 모듈(도 4의 160)이 포함하는 이미지 센서 및 뎁스 센서를 이용하여 상기 사용자 제스처의 방향을 판단하고, 판단된 방향에 존재하는 룸 또는 섹션을 상기 지시대명사에 대응하는 전자 장치(100)가 이동할 공간으로 판단할 수 있다.
도 8은 일 실시 예에 따른 전자 장치의 이동 형태를 도시한 도면이다.
도 8을 참조하면, 전자 장치(100)는 태스크 명령 발화 수신에 따른 태스크(예: 메시지 전달) 수행과 관련하여, 상기 전자 장치(100)가 배치된 특정 공간(10) 내부를 이동(또는, 주행)할 수 있다. 일 실시 예에서, 상기 태스크 명령 발화는 상기 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어 및 태스크 수행 시 전자 장치(100)가 이동할 공간을 지칭하는 적어도 하나의 단어를 포함할 수 있다. 이 경우, 전자 장치(100)의 프로세서(도 4의 140)는 메모리(도 4의 130)가 포함하는 타겟 데이터베이스 및 공간 데이터베이스를 참조하여 상기 태스크 수행의 타겟에 해당하는 사용자 및 전자 장치(100)가 이동할 룸 또는 섹션을 판단할 수 있다. 예를 들어, 프로세서(140)는 상기 타겟 데이터베이스 및 공간 데이터베이스가 포함하는 정보들 상에서 인텔리전트 서버(도 3의 200)로부터 제공되는 시퀀스 내의 적어도 하나의 파라미터(예: target person 및/또는 room)와 대응하는 정보를 식별함으로써, 상기 타겟 사용자 및 전자 장치(100)가 이동할 룸 또는 섹션을 판단할 수 있다. 프로세서(140)는 전자 장치(100)를 상기 판단된 타겟 사용자가 위치한 룸 또는 섹션에 진입시키기 위하여 구동 모듈(도 4의 150)을 제어할 수 있으며, 상기 룸 또는 섹션은 전자 장치(100)가 이동할 제1 위치로 이해될 수 있다.
다른 실시 예에 따르면, 상기 태스크 명령 발화는 상기 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어를 포함하지 않고, 태스크 수행 시 전자 장치(100)가 이동할 공간을 지칭하는 적어도 하나의 단어를 포함 또는 포함하지 않을 수 있다. 이 경우, 프로세서(140)는 상기 태스크 명령 발화를 수행한 사용자(예: 화자)에게 태스크의 타겟에 해당하는 정보의 입력을 요청할 수 있다. 예를 들어, 프로세서(140)는 스피커(도 4의 170)를 제어하여 상기 정보의 입력을 요청하는 지정된 음성을 출력할 수 있다. 또는, 프로세서(140)는 디스플레이(도 4의 180)를 제어하여 상기 정보의 입력 요청과 관계된 텍스트를 포함하는 그래픽 사용자 인터페이스를 출력할 수 있다.
또 다른 실시 예에 따르면, 상기 태스크 명령 발화는 상기 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어는 포함하고, 태스크 수행 시 전자 장치(100)가 이동할 공간을 지칭하는 적어도 하나의 단어는 포함하지 않을 수 있다. 이 경우, 프로세서(140)는 메모리(130)가 포함하는 타겟 데이터베이스를 참조하여 인텔리전트 서버(200)로부터 제공되는 시퀀스 내의 적어도 하나의 파라미터(예: target person)에 대응하는 타겟 사용자를 식별할 수 있다. 또한, 프로세서(140)는 메모리(130)(또는, 메모리(130) 내의 공간 인식 모델)가 포함하는 상기 타겟 사용자와 매핑된 공간 정보에 근거하여 타겟 사용자의 위치를 추론할 수 있다. 예를 들어, 프로세서(140)는 상기 타겟 사용자와 매핑된 공간 정보에 기초하여 타겟 사용자의 존재가 예상되는 룸 또는 섹션을 추론하고, 상기 추론된 룸 또는 섹션을 태스크 수행과 관련하여 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 타겟 사용자의 위치 추론과 관련하여, 메모리(130)가 포함하는 적어도 하나의 정보를 지정된 우선순위에 따라 참조할 수 있다. 예를 들어, 프로세서(130)는 제1 순위로 상기 메모리(130)가 포함하는 타겟 사용자 관련의 공간 인식 모델에 대한 업데이트 이력을 참조할 수 있다. 이와 관련하여, 상기 공간 인식 모델의 업데이트는 전자 장치(100)의 이동 시 촬영을 통해 임의의 사용자가 인식되면, 인식된 사용자가 위치한 룸 또는 섹션에 대한 정보 및 상기 촬영의 타임 스탬프 정보를 상기 인식된 사용자와 매핑하여 등록하는 프로세스를 포함할 수 있다. 일 실시 예에서, 프로세서(140)는 식별된 타겟 사용자에 대응하는 공간 인식 모델이 업데이트된 것으로 판단되면, 상기 업데이트에 따라 타겟 사용자와 매핑된 타임 스탬프 정보를 확인할 수 있다. 프로세서(140)는 확인되는 타임 스탬프 정보가 상기 타겟 사용자의 위치를 추론하는 시점(time)을 기준하여 지정된 임계 시간 범위 내에 포함되는 경우, 상기 타임 스탬프 정보와 매핑된 룸 또는 섹션을 식별된 타겟 사용자의 위치로 추론하고, 해당 룸 또는 섹션을 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 타겟 사용자의 위치 추론과 관련하여, 제2 순위로 상기 메모리(130)가 포함하는 타겟 사용자와 매핑된 시간대 별 공간 정보를 참조할 수 있다. 이와 관련하여, 프로세서(140)는 상기 식별된 타겟 사용자와 관계되는 공간 인식 모델 상에서 현재 시각을 포함하는 시간대로 타겟 사용자와 매핑된 룸 정보 또는 섹션 정보의 유무를 확인할 수 있다. 일 실시 예에 따르면, 상기 타겟 사용자와 관계되는 공간 인식 모델에 현재 시각을 포함하는 시간대의 룸 정보 또는 섹션 정보가 존재하는 경우, 프로세서(140)는 해당 시간대의 룸 또는 섹션을 식별된 타겟 사용자의 현 시각 위치로 추론하고, 추론된 룸 또는 섹션을 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 타겟 사용자의 위치 추론과 관련하여, 제3 순위로 상기 메모리(130)가 포함하는 타겟 사용자와 매핑된 공간 정보(예: 시간대 별 공간 정보 이외의 공간 정보)를 참조할 수 있다. 프로세서(140)는 상기 식별된 타겟 사용자에 대응하는 공간 인식 모델 상에서 타겟 사용자와 매핑된 룸 정보 또는 섹션 정보를 확인하여, 해당 룸 또는 섹션을 식별된 타겟 사용자의 위치로 추론하고, 추론된 룸 또는 섹션을 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다. 다양한 실시 예에서, 상기 공간 인식 모델 상에 타겟 사용자와 매핑된 룸 정보 또는 섹션 정보가 복수로 존재하는 경우, 프로세서(140)는 복수의 룸 또는 섹션 중 임의의 룸 또는 섹션을 랜덤으로 선택하고, 선택된 룸 또는 섹션을 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 타겟 사용자의 위치 추론과 관련하여, 제4 순위로 전자 장치(100)와 사물인터넷 환경(또는, 사물인터넷 시스템)을 구축하는 적어도 하나의 사물인터넷 장치(예: 컴퓨터, TV 또는 센싱 장치)로부터 수신한 알림 정보를 참조할 수 있다. 일 실시 예에 따르면, 상기 알림 정보는 사물인터넷 장치에 사용자 개인 정보 또는 생체 정보가 입력되는 경우, 전자 장치(100)로 전송될 수 있으며, 예컨대 사용자 개인 정보의 일부(예: 이름) 및 해당 사물인터넷 장치의 위치 정보를 포함할 수 있다. 프로세서(140)는 상기 타겟 사용자의 위치 추론 시점을 기준하여 지정된 임계 시간 범위 내에 적어도 하나의 사물인터넷 장치로부터 수신한 알림 정보가 존재하는 경우, 상기 알림 정보가 포함하는 사물인터넷 장치의 위치를 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다.
다양한 실시 예에 따르면, 상기 메모리(130)에 식별된 타겟 사용자와 관계되는 공간 인식 모델이 부재한 경우(예: 타겟 사용자에 대응하는 공간 인식 모델이 생성되지 않은 경우), 프로세서(140)는 태스크 수행과 관련하여 전자 장치(100)를 지정된 위치로 이동시킬 수 있다. 예를 들어, 프로세서(140)는 상기 전자 장치(100)가 배치되는 특정 공간(10)에 대한 맵 정보 및 전자 장치(100)의 실시간 위치 정보를 이용하여 상기 특정 공간(10)의 센터(center)(예: 특정 공간(10)이 가정인 경우 거실 등)를 확인하고, 상기 센터에 해당하는 룸 또는 섹션을 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다.
일 실시 예에서, 프로세서(140)는 구동 모듈(도 4의 150)을 제어하여 상기 판단된 제1 위치로 전자 장치(100)를 이동시킬 수 있다. 상기 제1 위치로의 전자 장치(100) 이동이 완료되면, 프로세서(140)는 식별된 타겟 사용자를 탐색하기 위한 동작을 수행할 수 있다. 이와 관련하여, 프로세서(140)는 전자 장치(100)가 상기 제1 위치에서 지정된 각도(예: 360도)로 회전하도록 구동 모듈(150)을 제어하고, 상기 회전하는 동작에서 제1 위치에서의 주변 환경에 대한 적어도 하나의 정보를 수집할 수 있다. 예를 들어, 프로세서(140)는 센서 모듈(도 4의 160)이 포함하는 이미지 센서를 제어하여 상기 제1 위치에서의 주변 환경에 대한 영상 정보를 수집할 수 있다. 또는, 프로세서(140)는 마이크(도 4의 110)를 제어하여 상기 제1 위치에서의 주변 환경에 대한 음성 정보를 수집할 수 있다. 일 실시 예에서, 프로세서(140)는 수집된 영상 정보 또는 음성 정보를 메모리(130)에 저장된 타겟 사용자 관련 정보와 비교할 수 있다. 예를 들어, 프로세서(140)는 상기 이미지 센서를 통하여 촬영된 영상(예: 얼굴 영상 또는 신체 영상)에서 지정된 오브젝트(예: 사람)가 검출되는 경우, 상기 오브젝트와 타겟 사용자에 대응하는 타겟 인식 모델을 비교하여 대응 여부를 판단할 수 있다. 상기 판단 결과, 오브젝트와 타겟 사용자의 타겟 인식 모델에 포함된 얼굴 영상 또는 신체 영상이 지정된 비율 이상으로 일치하는 경우, 프로세서(140)는 상기 오브젝트와 관계되는 사용자를 식별된 타겟 사용자로 인식할 수 있다. 또는, 프로세서(140)는 마이크(110)를 통하여 수신하는 음성을 타겟 사용자에 대응하는 타겟 인식 모델과 비교하여 대응 여부를 판단할 수 있다. 상기 판단 결과, 수신한 음성과 타겟 사용자의 타겟 인식 모델에 포함된 발화 데이터가 지정된 비율 이상으로 일치하는 경우, 프로세서(140)는 상기 수신한 음성과 관계되는 사용자를 식별된 타겟 사용자로 인식할 수 있다. 또는, 프로세서(140)는 이미지 센서를 통하여 촬영된 오브젝트(예: 의류 또는 액세서리)에 대응하는 오브젝트 인식 모델 내에서 사용자 정보(예: 의류 또는 액세서리 소유자)를 확인하고, 확인된 사용자 정보와 상기 식별된 타겟 사용자의 타겟 인식 모델에 포함된 사용자 정보가 지정된 비율 이상으로 일치하는 경우, 상기 오브젝트(예: 의류 또는 액세서리)와 관계된(예: 착용) 사용자를 식별된 타겟 사용자로 인식할 수 있다. 다양한 실시 예에 따르면, 프로세서(140)는 상술된 비교 동작을 상기 전자 장치(100)의 지정된 각도 회전이 완료되는 경우 수행하거나, 또는 상기 지정된 각도 회전 중에 실시간으로 수행할 수 있다. 만일, 상기 지정된 각도 회전 중에 식별된 타겟 사용자가 인식되는 경우, 프로세서(140)는 전자 장치(100)의 회전 제어를 중단할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 제1 위치에서 타겟 사용자가 인식되지 않는 경우, 태스크 명령 발화를 수신한 위치로 복귀하여 상기 태스크 명령 발화를 수행한 사용자(예: 화자)에게 타겟 사용자가 인식되지 않았음을(또는, 태스크 수행을 완료하지 못하였음을) 나타내는 음성 데이터 또는 시각적 콘텐츠를 출력할 수 있다. 또는, 프로세서(140)는 상기 이미지 센서를 통하여 촬영된 영상 내의 오브젝트(예: 타겟 사용자 이외의 사용자)에 근접되도록 전자 장치(100)를 이동시켜, 상기 타겟 사용자의 위치를 문의하는 음성 데이터 또는 시각적 콘텐츠를 출력할 수 있다. 또는, 프로세서(140)는 타겟 사용자 소유의 이동 통신 단말(예: 스마트폰)과 통신하여 태스크 수행과 관계되는 정보(예: 메시지)를 전송할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 제1 위치에서 타겟 사용자가 인식된 경우, 구동 모듈(150)을 제어하여 상기 타겟 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 전자 장치(100)를 이동시킬 수 있다. 이와 관련하여, 센서 모듈(160)은 뎁스(depth) 센서를 더 포함할 수 있으며, 프로세서(140)는 상기 뎁스 센서를 기반으로 산출되는 타겟 사용자와 전자 장치(100) 간의 거리 정보에 기초하여 상기 임계 거리 범위 내로 전자 장치(100)를 이동시킬 수 있다. 일 실시 예에 따르면, 프로세서(140)는 전자 장치(100)가 상기 임계 거리 범위 내로 이동하는 상태에서 센서 모듈(150)의 이미지 센서를 이용하여 타겟 사용자를 촬영할 수 있다. 이 동작에서, 프로세서(140)는 촬영되는 영상과 타겟 사용자에 대응하는 타겟 인식 모델에 포함된 얼굴 영상을 비교할 수 있다. 예를 들어, 프로세서(140)는 상기 얼굴 영상이 포함하는 타겟 사용자의 좌측 얼굴 영상, 우측 얼굴 영상 및 정면 얼굴 영상을 촬영되는 영상과 비교할 수 있다. 프로세서(140)는 타겟 사용자에 대응하는 타겟 인식 모델 내의 정면 얼굴 영상과 지정된 비율 이상으로 일치하는 촬영 영상이 획득되는 지정된 임계 거리 범위 내의 위치를 상기 제2 위치로 결정하고, 전자 장치(100)를 제2 위치로 이동시켜 인식된 타겟 사용자와 전자 장치(100)를 근접시킬 수 있다. 다양한 실시 예에 따르면, 프로세서(140)는 상기 타겟 사용자를 촬영하는 동작에서, 타겟 사용자로 하여금 전자 장치(100)의 근접을 인지하도록, 스피커(도 4의 170)를 이용하여 지정된 음향을 출력하거나, 디스플레이(도 4의 180)를 이용하여 지정된 시각적 효과(예: 디스플레이(180) 점멸 발광 등)를 출력할 수 있다. 또는 다양한 실시 예에서, 프로세서(140)는 전자 장치(100)가 상기 임계 거리 범위 내로 이동하는 상태에서, 스피커(170) 또는 디스플레이(180)를 이용하여 사용자 인증을 요청하는 데이터를 출력하고, 상기 요청에 대응하여 입력되는 사용자 생체 정보(예: 지문 정보 또는 홍채 정보)를 생체 센서를 이용하여 감지할 수 있다. 프로세서(140)는 감지된 생체 정보를 기반으로 타겟 사용자에 대한 인식을 더 수행하거나, 확정할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 제2 위치로의 전자 장치(100) 이동이 완료되면, 태스크 수행에 따른 시퀀스 내의 일부 동작을 수행할 수 있다. 예를 들어, 프로세서(140)는 스피커(170)를 이용하여 인텔리전트 서버(도 2 또는 도 3의 200)의 TTS 모듈(도 3의 213)로부터 수신한 음성 데이터(예: 태스크 명령 발화에 대응하는 음성 데이터)를 출력할 수 있다. 또는, 프로세서(140)는 전자 장치(100)의 태스크 수행 시각이 지정된 시간대(예: 심야 시간대)에 포함되는 경우, 상기 스피커(170)를 이용한 데이터 출력을 배제하고, 디스플레이(180)를 이용하여 인텔리전트 서버(200)의 ASR 모듈(도 3의 211)로부터 수신한 텍스트 데이터(예: 태스크 명령 발화에 대응하는 텍스트 데이터)를 출력할 수 있다. 다양한 실시 예에서, 프로세서(140)는 스피커(170)를 통한 음성 데이터 출력 또는 디스플레이(180)를 통한 텍스트 데이터 출력 이후, 상기 스피커(170)를 통하여 타겟 사용자의 응답 발화(예: 전자 장치(100)의 태스크 수행에 대한 응답)를 수신할 수 있다. 이 경우, 프로세서(140)는 인텔리전트 서버(200)와 상호작용을 통하여 상기 응답 발화에 대응하는 음성 데이터가 변환된 텍스트 데이터 또는 음성 데이터를 획득하고, 전자 장치(100)를 태스크 명령 발화를 수행한 사용자에게 이동시켜 상기 획득된 텍스트 데이터 또는 음성 데이터를 출력할 수 있다. 다양한 실시 예에서, 프로세서(140)는 상기 태스크 명령 발화를 수행한 사용자가 다른 용무(예: 취침, 샤워 또는 통화 등) 중임이 인식되면, 상기 획득된 텍스트 데이터 또는 음성 데이터의 출력을 보류하고, 상기 태스크 명령 발화를 수행한 사용자를 지정된 주기로 모니터링하여 상기 획득된 텍스트 데이터 또는 음성 데이터의 출력을 결정할 수 있다. 또는, 상기 태스크 명령 발화를 수행한 사용자가 전자 장치(100)가 배치된 특정 공간(예: 가정, 사무실, 교실 또는 작업장 등)에서 인식되지 않는 경우, 프로세서(140)는 태스크 명령 발화를 수행한 사용자 소유의 이동 통신 단말과 통신하여 상기 획득된 텍스트 데이터 또는 음성 데이터를 전송할 수 있다.
도 9는 일 실시 예에 따른 전자 장치의 기능 설정 화면을 도시한 도면이다.
도 9를 참조하면, 전자 장치(100)의 프로세서(도 4의 140)는 상기 전자 장치(100)의 일 영역을 통해 외부로 노출된 디스플레이(180)를 제어하여 지정된 화면을 출력할 수 있다. 예를 들어, 프로세서(140)는 전자 장치(100)의 태스크 수행(예: 메시지 전달)에 따른 정보(예: 메시지) 전달 방식과 관련하여, 상기 전자 장치(100)의 기능을 선택적으로 설정할 수 있는 사용자 인터페이스(181)를 출력할 수 있다. 이와 관련하여, 상기 사용자 인터페이스(181)는 전자 장치(100)의 제1 시간대 동작과 관련한 어터런스 기능의 설정을 지원하는 인터페이스(183) 및 전자 장치(100)의 제2 시간대 동작과 관련한 사일런트 기능의 설정을 지원하는 인터페이스(185)를 포함할 수 있다. 일 실시 예에 따르면, 상기 어터런스 기능 및 사일런트 기능은 동시적으로 설정될 수 있으며, 이 경우 프로세서(140)는 상기 어터런스 기능에 대응하는 제1 시간대에서 전자 장치(100)의 태스크 수행 시 스피커(도 4의 170)를 이용하여 지정된 음성 데이터를 출력하고, 상기 사일런트 기능에 대응하는 제2 시간대에서 전자 장치(100)의 태스크 수행 시 디스플레이(도 4의 180)를 이용하여 지정된 텍스트 데이터를 출력할 수 있다. 다양한 실시 예에서, 상기 사일런트 기능에 대하여 별도의 설정이 배제된 경우, 프로세서(140)는 상기 제1 시간대 및 제2 시간대에서 전자 장치(100)의 태스크 수행 시 스피커(170)만을 운용할 수 있다. 다양한 실시 예에 따르면, 상기 어터런스 기능과 관련한 제1 시간대 또는 상기 사일런트 기능과 관련한 제2 시간대는 사용자 제어에 따라 변경될 수 있다. 다양한 실시 예에 따르면, 상기 사용자 인터페이스(181)는 상술된 어터런스 기능 또는 사일런트 기능 설정 이외에도, 상기 스피커(170)를 통한 전자 장치(100)의 음성 데이터 출력의 크기(예: 음량), 전자 장치(100)의 특정 룸 또는 섹션 진입 시 상기 사일런트 기능으로의 자동 전환 기능 또는 타겟 사용자의 다른 용무(예: 취침, 샤워 또는 통화 등)가 인식되는 경우 상기 사일런트 기능으로의 자동 전환 기능 등에 대한 설정을 더 지원할 수 있다.
도 10은 일 실시 예에 따른 전자 장치의 사용자 입력 처리 방법을 도시한 도면이다.
도 10을 참조하면, 동작 1001에서, 전자 장치(도 1, 도 2, 도 4, 도 5, 도 8 또는 도 9의 100)의 프로세서(도 4의 140)는 복수의 사용자 정보를 수집하여 저장할 수 있다. 예를 들어, 프로세서(140)는 상기 전자 장치(100)에 등록된 복수의 사용자 각각에 관계되는 정보를 수집할 수 있다. 상기 복수의 사용자 정보는 예컨대, 전자 장치(100)가 수신하는 사용자 발화에 대한 화자 인식 또는 전자 장치(100)의 태스크 수행과 관련한 타겟 인식에 참조되는 정보일 수 있다.
일 실시 예에 따르면, 프로세서(140)는 상기 복수의 사용자 정보의 적어도 일부로서, 각각의 사용자에 대응하는 화자 인식 모델 및 타겟 인식 모델을 생성하여 저장할 수 있다. 예를 들어, 프로세서(140)는 마이크(도 4의 110)를 통하여 각각의 사용자로부터 발화를 수신하고, 상기 발화 상에서 추출되는 특징 벡터를 이용하여 상기 화자 인식 모델 및 타겟 인식 모델을 생성할 수 있다. 또는, 프로세서(140)는 이미지 센서를 이용하여 각각의 사용자의 얼굴 영상 또는 신체 영상을 획득(또는, 촬영)하고, 상기 얼굴 영상에 대한 특징점 추출을 기반으로 상기 화자 인식 모델 및 타겟 인식 모델을 생성하거나, 상기 신체 영상으로부터 판단되는 사용자 골격 정보, 키 정보 또는 몸집 정보를 이용하여 상기 화자 인식 모델 및 타겟 인식 모델을 생성할 수 있다. 일 실시 예에 따르면, 프로세서(140)는 상기 복수의 사용자 정보의 적어도 일부로서, 각각의 사용자로부터 특정 공간(예: 전자 장치(100)가 배치된 공간) 내의 룸 정보 또는 섹션 정보를 입력 받고, 상기 룸 정보 또는 섹션 정보를 해당 사용자와 매핑하여 공간 인식 모델을 생성할 수 있다. 또는, 프로세서(140)는 상기 복수의 사용자 정보의 적어도 일부로서, 타겟 데이터베이스 또는 공간 데이터베이스를 생성할 수도 있다. 일 실시 예에서, 상기 타겟 데이터베이스는 사용자 각각에 대하여 생성될 수 있으며, 해당 사용자가 입력하는 사용자 개인 정보(예: 이름, 직책 또는 다른 사람들과의 관계 등) 또는 해당 사용자에 대하여 다른 적어도 한 명의 사용자가 입력하는 정보(예: 해당 사용자의 닉네임 또는 호칭 등)를 포함할 수 있다. 유사하게, 상기 공간 데이터베이스는 상기 전자 장치가 배치되는 공간 내의 룸 또는 섹션 각각에 대하여 생성될 수 있으며, 해당 룸 또는 섹션과 관계된 사용자(예: 해당 룸 또는 섹션을 침실 또는 업무 공간으로 이용하는 사용자)로부터 입력되는 정보(예: 해당 사용자가 지칭하는 룸 또는 섹션의 호칭 등) 또는 해당 룸 또는 섹션과 무관한 다른 적어도 한 명의 사용자가 입력하는 정보(예: 다른 적어도 한 명의 사용자가 지칭하는 룸 또는 섹션의 호칭 등)를 포함할 수 있다.
동작 1003에서, 프로세서(140)는 전자 장치(100)에 탑재된 마이크(도 4의 110)를 통하여 특정 태스크 수행(예: 메시지 전달)과 관계된 명령 또는 의도를 내포하는 태스크 명령 발화를 수신할 수 있다.
동작 1005에서, 프로세서(140)는 통신 회로(도 4의 120)를 이용하여 상기 전자 장치(100)와 네트워크로 연결된 인텔리전트 서버(도 2 또는 도 3의 200)로 상기 태스크 명령 발화에 따른 제1 데이터를 전송하고, 상기 제1 데이터 전송에 대한 응답으로 인텔리전트 서버(200)로부터 제2 데이터를 수신할 수 있다. 일 실시 예에 따르면, 상기 제2 데이터는 태스크 수행과 관계되는 전자 장치(100)의 동작 정보 및 상기 동작 수행에 요구되는 적어도 하나의 파라미터(예: message content, target person 및/또는 room)를 포함할 수 있다.
동작 1007에서, 프로세서(140)는 태스크 수행의 타겟에 해당하는 사용자를 식별할 수 있다. 이와 관련하여, 상기 태스크 명령 발화 상에 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어가 포함된 경우, 프로세서는 사전 생성된 타겟 데이터베이스를 참조하여 상기 태스크 수행의 타겟에 해당하는 사용자를 판단할 수 있다. 예를 들어, 프로세서(140)는 상기 타겟 데이터베이스가 포함하는 정보들 중 상기 제2 데이터에 포함된 파라미터(예: target person)와 대응하는 정보를 식별함으로써, 상기 타겟 사용자를 식별할 수 있다. 또는, 상기 태스크 명령 발화는 태스크 수행의 타겟을 지칭하는 적어도 하나의 단어를 포함하지 않을 수 있다. 이 경우, 프로세서(140)는 상기 태스크 명령 발화를 수행한 사용자에게 스피커(도 4의 170) 또는 디스플레이(도 4의 180)를 제어하여 타겟에 해당하는 정보의 입력을 요청할 수 있다.
동작 1009에서, 프로세서(140)는 상기 태스크 수행의 타겟에 해당하는 사용자의 위치를 추론할 수 있다. 이와 관련하여, 상기 태스크 명령 발화 상에 태스크 수행 시 전자 장치(100)가 이동할 공간을 지칭하는 적어도 하나의 단어가 포함된 경우, 프로세서(140)는 사전 생성된 공간 데이터베이스를 참조하여 상기 전자 장치(100)가 이동할 룸 또는 섹션을 판단할 수 있다. 또는, 상기 태스크 명령 발화 상에 전자 장치(100)가 이동할 공간을 지칭하는 적어도 하나의 단어가 포함되지 않은 경우, 프로세서(140)는 사전 생성된 공간 인식 모델이 포함하는 상기 타겟 사용자와 매핑된 공간 정보에 근거하여 타겟 사용자의 존재가 예상되는 룸 또는 섹션을 추론할 수 있다.
일 실시 예에서, 프로세서(140)는 상기 타겟 사용자의 위치 추론과 관련하여, 사전 수집 및 저장된 적어도 하나의 정보를 지정된 우선순위에 따라 참조할 수 있다. 예를 들어, 프로세서(140)는 제1 순위로 공간 인식 모델의 업데이트 정보(예: 전자 장치(100) 이동 시 인식되는 임의의 사용자가 위치한 룸 또는 섹션에 대한 정보 및 인식 시점의 타임 스탬프 정보에 대한 업데이트)를 참조할 수 있다. 프로세서(140)는 식별된 타겟 사용자에 대응하는 공간 인식 모델이 업데이트된 것으로 판단되면, 해당 업데이트의 타임 스탬프 정보를 확인할 수 있다. 프로세서(140)는 상기 타임 스탬프 정보가 타겟 사용자의 위치 추론 시점(time)을 기준하여 지정된 임계 시간 범위 내에 포함되면, 상기 타임 스탬프 정보와 함께 업데이트된 룸 또는 섹션을 식별된 타겟 사용자의 위치로 추론할 수 있다.
일 실시 예에서, 프로세서(140)는 제2 순위로 상기 타겟 사용자에 대응하는 공간 인식 모델 내의 시간대 별 공간 정보를 참조할 수 있다. 예를 들어, 프로세서(140)는 상기 공간 인식 모델 상에 현재 시각을 포함하는 시간대의 룸 정보 또는 섹션 정보가 존재하는 경우, 해당 시간대의 룸 또는 섹션을 타겟 사용자의 위치로 추론할 수 있다. 일 실시 예에서, 프로세서(140)는 제3 순위로 상기 타겟 사용자에 대응하는 공간 인식 모델에 포함된 공간 정보(예: 시간대 별 공간 정보 이외의 공간 정보)를 참조할 수 있다. 예를 들어, 프로세서(140)는 상기 공간 인식 모델 상에서 타겟 사용자와 매핑된 룸 정보 또는 섹션 정보를 확인하고, 해당 룸 또는 섹션을 타겟 사용자의 위치로 추론할 수 있다. 일 실시 예에서, 프로세서(140)는 제4 순위로 전자 장치(100)와 사물인터넷 환경(또는, 사물인터넷 시스템)을 구축하는 적어도 하나의 사물인터넷 장치(예: 컴퓨터, TV 또는 센싱 장치)로부터 수신한 알림 정보를 참조할 수 있다. 프로세서(140)는 상기 타겟 사용자의 위치 추론 시점을 기준하여 지정된 임계 시간 범위 내에 적어도 하나의 사물인터넷 장치로부터 수신한 알림 정보가 존재하는 경우, 상기 알림 정보가 포함하는 사물인터넷 장치의 위치를 전자 장치(100)를 이동시킬 제1 위치로 판단할 수 있다.
동작 1011에서, 프로세서(140)는 추론된 타겟 사용자의 위치로 전자 장치(100)를 이동시킬 수 있다. 예를 들어, 프로세서(140)는 전자 장치(100)가 포함하는 구동 모듈(도 4의 150)을 제어하여, 타겟 사용자의 위치로 추론된 룸 또는 섹션에 전자 장치(100)를 이동시킬 수 있다.
동작 1013에서, 프로세서(140)는 전자 장치(100)의 이동에 따른 룸 또는 섹션에서 식별된 타겟 사용자를 탐색할 수 있다. 이와 관련하여, 프로세서(140)는 이동한 룸 또는 섹션에서 전자 장치(100)가 지정된 각도(예: 360도)로 회전하도록 구동 모듈(150)을 제어하고, 상기 회전하는 동작에서 주변 환경에 대한 적어도 하나의 정보를 수집할 수 있다. 예를 들어, 프로세서(140)는 이미지 센서 또는 마이크(110)를 제어하여 주변 환경에 대한 영상 정보 또는 음성 정보를 수집하고, 수집된 정보를 타겟 사용자 관련 정보와 비교할 수 있다. 프로세서(140)는 상기 영상 정보가 타겟 사용자와 대응하는 타겟 인식 모델에 포함된 얼굴 영상 또는 신체 영상과 지정된 비율 이상으로 일치하거나, 상기 음성 정보가 타겟 인식 모델에 포함된 타겟 사용자의 발화 데이터와 지정된 비율 이상으로 일치하는 경우, 상기 영상 또는 음성과 관계된 사용자를 타겟 사용자로 인식할 수 있다. 또는, 프로세서(140)는 오젝트 인식 모델을 참조하여, 상기 영상 정보 상에서 인식되는 오브젝트가 특정 사용자 소유의 의류 또는 액세서리로 인식되는 경우, 상기 오브젝트를 착용한 사용자를 타겟 사용자로 인식할 수 있다.
동작 1015에서, 프로세서(140)는 인식된 타겟 사용자에 근접되는 위치로 전자 장치(100)를 이동시킬 수 있다. 예를 들어, 프로세서(140)는 구동 모듈(150)을 제어하여 인식된 타겟 사용자를 기준한 지정된 임계 거리 범위 내로 전자 장치(100)를 이동시킬 수 있다. 이 동작에서, 프로세서(140)는 이미지 센서를 이용하여 타겟 사용자를 촬영하고, 촬영된 영상과 타겟 사용자에 대응하는 타겟 인식 모델에 포함된 얼굴 영상을 비교할 수 있다. 이와 관련하여, 상기 타겟 인식 모델에 포함된 얼굴 영상은 타겟 사용자의 좌측 얼굴 영상, 우측 얼굴 영상 및 정면 얼굴 영상을 포함할 수 있다. 프로세서(140)는 상기 지정된 임계 거리 범위 내에서 상기 정면 얼굴 영상과 지정된 비율 이상으로 일치하는 촬영 영상이 획득되는 위치로 전자 장치(100)를 더 이동시키고, 해당 위치에서 태스크 수행에 따른 일부 동작(예: 인텔리전트 서버(200)로부터 수신한 음성 데이터 또는 텍스트 데이터 출력 등)을 수행할 수 있다. 또는, 프로세서(140)는 상기 지정된 임계 거리 범위 내로 전자 장치(100)가 이동하는 동작에서, 스피커 또는 디스플레이를 통하여 사용자 인증을 요청하는 데이터를 출력하고, 상기 요청에 대응하여 입력되는 사용자 생체 정보를 생체 센서를 이용하여 감지할 수 있다. 프로세서(140)는 상기 사용자 생체 정보에 기초하여 타겟 사용자가 더 인식되는 경우, 상기 태스크 수행에 따른 일부 동작을 수행할 수 있다.
전술한 다양한 실시 예에 따른 전자 장치는, 메모리, 마이크, 통신 회로, 구동 모듈, 센서 모듈, 및 상기 메모리, 상기 마이크, 상기 통신 회로, 상기 구동 모듈 및 상기 센서 모듈과 작동적(operatively)으로 연결되는 프로세서를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 메모리에 복수의 사용자 각각에 관계되는 정보를 저장하고, 상기 마이크를 통하여 상기 전자 장치의 태스크(task) 수행과 관계되는 사용자 발화를 수신하고, 상기 통신 회로를 이용하여 상기 사용자 발화와 관계되는 제1 데이터를 지정된 외부 장치로 전송하고, 상기 통신 회로를 이용하여 상기 태스크 수행과 관련한 상기 전자 장치의 적어도 하나의 동작 정보 및 상기 동작을 수행하는데 요구되는 적어도 하나의 파라미터를 포함하는 제2 데이터를 상기 외부 장치로부터 수신하고, 상기 적어도 하나의 파라미터에 기초하여 상기 복수의 사용자 중 상기 태스크 수행의 타겟과 관계되는 제1 사용자를 식별하고, 상기 복수의 사용자 각각에 관계되는 정보가 포함하는 상기 제1 사용자 관련 정보에 기초하여 상기 타겟의 위치를 추론하고, 상기 구동 모듈을 제어하여 상기 추론에 기반한 제1 위치로 상기 전자 장치를 이동시키고, 상기 제1 위치에서 상기 센서 모듈 또는 상기 마이크를 이용하여 획득되는 정보 및 상기 제1 사용자 관련 정보를 비교하여 상기 제1 사용자를 탐색하고, 상기 탐색에 기반하여 상기 제1 사용자가 인식되면, 상기 센서 모듈을 이용하여 상기 제1 사용자의 지정된 신체 정보가 획득되도록, 상기 구동 모듈을 제어하여 상기 제1 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 상기 전자 장치를 이동시킬 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 복수의 사용자 중 적어도 일부의 사용자 각각으로부터 입력되는 시간대 별 공간 정보를 이용하여 상기 적어도 일부의 사용자 각각에 대응하는 공간 인식 모델을 생성하고, 상기 공간 인식 모델을 상기 적어도 일부의 사용자 각각에 관계되는 정보로서 저장하고, 상기 전자 장치가 상기 태스크를 수행하지 않는 상태에서, 상기 공간 인식 모델에 기초하여 현재 시각에 대응하는 시간대의 공간 정보가 식별되면, 상기 구동 모듈을 제어하여 상기 전자 장치를 상기 식별된 공간 정보에 대응하는 제3 위치로 이동시킬 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 복수의 사용자 각각으로부터 입력되는 사용자 개인 정보를 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고, 상기 제2 데이터 수신 시, 상기 사용자 개인 정보 중 상기 적어도 하나의 파라미터에 대응하는 사용자 개인 정보를 식별하고, 상기 식별된 사용자 개인 정보에 대응하는 사용자를 상기 태스크 수행의 타겟과 관계되는 제1 사용자로 식별할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 복수의 사용자 각각으로부터 입력되는 공간 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 공간 인식 모델을 생성하고, 상기 공간 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고, 상기 타겟의 위치를 추론하는 동작의 적어도 일부로서, 상기 공간 인식 모델을 이용하여 상기 제1 사용자와 관계된 공간 정보에 대응하는 공간을 상기 제1 위치로 판단할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 복수의 사용자 각각으로부터 입력되는 공간 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 공간 인식 모델을 생성하고, 상기 공간 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고, 전자 장치 이동 시, 상기 센서 모듈을 통한 촬영 또는 상기 마이크를 통한 음성 신호 수신을 기반으로 특정 사용자가 인식되면, 상기 특정 사용자가 인식된 공간 정보 및 상기 인식의 타임 스탬프 정보를 매핑하여 상기 특정 사용자에 대응하는 공간 인식 모델에 포함시킬 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 타겟의 위치를 추론하는 동작의 적어도 일부로서, 상기 제1 사용자에 대응하는 공간 인식 모델의 타임 스탬프 정보 포함 여부를 판단하고, 상기 제1 사용자에 대응하는 공간 인식 모델이 상기 타겟의 위치를 추론하는 시각(time)을 기준하여 지정된 임계 시간 범위 내의 타임 스탬프 정보를 포함하면, 상기 임계 시간 범위 내의 타임 스탬프 정보와 매핑된 공간 정보에 대응하는 공간을 상기 제1 위치로 판단할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 복수의 사용자 중 적어도 일부의 사용자 각각으로부터 입력되는 시간대 별 공간 정보를 이용하여 상기 적어도 일부의 사용자 각각에 대응하는 공간 인식 모델을 생성하고, 상기 공간 인식 모델을 상기 적어도 일부의 사용자 각각에 관계되는 정보로서 저장하고, 상기 타겟의 위치를 추론하는 동작의 적어도 일부로서, 상기 제1 사용자에 대응하는 공간 인식 모델의 상기 타겟의 위치를 추론하는 시각(time)을 포함하는 시간대의 공간 정보 포함 여부를 판단하고, 상기 제1 사용자에 대응하는 공간 인식 모델이 상기 타겟의 위치를 추론하는 시각을 포함하는 시간대의 공간 정보를 포함하면, 상기 타겟의 위치를 추론하는 시각을 포함하는 시간대의 공간 정보에 대응하는 공간을 상기 제1 위치로 판단할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 복수의 사용자 각각으로부터 수신하는 발화 정보 또는 상기 복수의 사용자 각각에 대하여 촬영하는 영상 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 화자 인식 모델을 생성하고, 상기 화자 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고, 상기 사용자 발화 수신 시, 상기 화자 인식 모델을 이용하여 상기 사용자 발화를 수행한 제2 사용자를 인식할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 제1 위치로의 상기 전자 장치 이동이 완료되면, 상기 구동 모듈을 제어하여 상기 전자 장치를 지정된 각도로 회전시키고, 상기 센서 모듈 또는 상기 마이크를 이용하여 상기 제1 위치에서의 주변 환경에 대한 정보를 획득할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 복수의 사용자 각각으로부터 수신하는 발화 정보 또는 상기 복수의 사용자 각각에 대하여 촬영하는 영상 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 타겟 인식 모델을 생성하고, 상기 타겟 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고, 상기 제1 위치에서 상기 센서 모듈을 이용하여 획득되는 영상 정보 내의 오브젝트(object) 또는 상기 마이크를 이용하여 획득되는 음성 정보가 상기 제1 사용자에 대응하는 타겟 인식 모델과 지정된 비율 이상으로 일치하면, 상기 오브젝트 또는 상기 음성과 관계되는 사용자를 상기 제1 사용자로 인식할 수 있다.
다양한 실시 예에 따르면, 상기 제1 사용자에 대응하는 타겟 인식 모델은 상기 제1 사용자의 정면 얼굴 정보를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 전자 장치가 상기 지정된 임계 거리 범위 내로 이동하는 상태에서, 상기 센서 모듈을 이용하여 상기 제1 사용자의 지정된 신체 정보를 획득하기 위한 촬영을 수행하고, 상기 제1 사용자의 정면 얼굴 정보와 지정된 비율 이상으로 일치하는 상기 촬영에 의한 영상 정보가 획득되는 상기 지정된 임계 거리 범위 내의 위치를 상기 제2 위치로 결정할 수 있다.
다양한 실시 예에 따르면, 상기 전자 장치는 스피커를 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 제2 데이터는, 상기 제1 데이터에 대응하는 음성 데이터를 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 프로세서는, 상기 전자 장치가 상기 제2 위치로 이동되면, 상기 스피커를 이용하여 상기 음성 데이터를 출력할 수 있다.
전술한 다양한 실시 예에 따른 전자 장치는, 하우징, 유저 인터페이스, 상기 하우징을 이동시키도록 상기 하우징에 배치되거나 상기 하우징에 연결된 구동부, 상기 하우징에 또는 상기 하우징 내부에 위치하는 제1 센서 및 제2 센서, 상기 하우징 내부에 위치하는 무선 통신 회로, 상기 유저 인터페이스, 상기 구동부, 상기 제1 센서, 상기 제2 센서 및 상기 무선 통신 회로와 작동적으로 연결되는 프로세서, 및 상기 프로세서와 작동적으로 연결된 메모리를 포함할 수 있다.
다양한 실시 예에 따르면, 상기 메모리는, 실행 시에, 상기 프로세서가, 상기 유저 인터페이스를 통해 태스크를 수행하기 위한 사용자의 발화를 수신하고, 상기 제1 센서를 이용하여 감지된 제1 정보 및/또는 상기 무선 통신 회로를 통해 외부 장치로부터 수신된 제2 정보에 적어도 일부 기반하여, 상기 태스크를 수행하기 위한 대상의 위치를 파악하고, 상기 구동부를 이용하여 상기 위치로 상기 하우징을 이동하고, 상기 제2 센서를 이용하여 오브젝트를 인식하고, 상기 인식된 오브젝트가 상기 대상과 일치하는지 결정하고, 상기 유저 인터페이스를 통해 상기 오브젝트에 대하여 상기 태스크를 수행하도록 하는 인스트럭션들을 저장할 수 있다.
전술한 다양한 실시 예에 따른 전자 장치의 사용자 입력 처리 방법은, 복수의 사용자 각각에 관계되는 정보를 저장하는 동작, 상기 전자 장치의 태스크(task) 수행과 관계되는 사용자 발화를 수신하는 동작, 상기 사용자 발화와 관계되는 제1 데이터를 지정된 외부 장치로 전송하는 동작, 상기 태스크 수행과 관련한 상기 전자 장치의 적어도 하나의 동작 정보 및 상기 동작을 수행하는데 요구되는 적어도 하나의 파라미터를 포함하는 제2 데이터를 상기 외부 장치로부터 수신하는 동작, 상기 적어도 하나의 파라미터에 기초하여 상기 복수의 사용자 중 상기 태스크 수행의 타겟과 관계되는 제1 사용자를 식별하는 동작, 상기 복수의 사용자 각각에 관계되는 정보가 포함하는 상기 제1 사용자 관련 정보에 기초하여 상기 타겟의 위치를 추론하는 동작, 상기 추론에 기반한 제1 위치로 상기 전자 장치가 이동하는 동작, 상기 제1 위치에서 획득되는 정보 및 상기 제1 사용자 관련 정보를 비교하여 상기 제1 사용자를 탐색하는 동작, 및 상기 탐색에 기반하여 상기 제1 사용자가 인식되면, 상기 제1 사용자의 지정된 신체 정보가 획득되도록, 상기 제1 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 상기 전자 장치가 이동하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 복수의 사용자 각각에 관계되는 정보를 저장하는 동작은, 상기 복수의 사용자 각각으로부터 입력되는 사용자 개인 정보를 상기 복수의 사용자 각각에 관계되는 정보로서 저장하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 제1 사용자를 식별하는 동작은, 상기 제2 데이터 수신 시, 상기 사용자 개인 정보 중 상기 적어도 하나의 파라미터에 대응하는 사용자 개인 정보를 식별하는 동작, 및 상기 식별된 사용자 개인 정보에 대응하는 사용자를 상기 태스크 수행의 타겟과 관계되는 제1 사용자로 식별하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 복수의 사용자 각각에 관계되는 정보를 저장하는 동작은, 상기 복수의 사용자 각각으로부터 입력되는 공간 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 공간 인식 모델을 생성하는 동작, 및 상기 공간 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 타겟의 위치를 추론하는 동작은, 상기 공간 인식 모델을 이용하여 상기 제1 사용자와 관계되는 공간 정보에 대응하는 공간을 상기 제1 위치로 판단하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 복수의 사용자 각각에 관계되는 정보를 저장하는 동작은, 상기 복수의 사용자 중 적어도 일부의 사용자 각각으로부터 입력되는 시간대 별 공간 정보를 이용하여 상기 적어도 일부의 사용자 각각에 대응하는 공간 인식 모델을 생성하는 동작, 및 상기 공간 인식 모델을 상기 적어도 일부의 사용자 각각에 관계되는 정보로서 저장하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 타겟의 위치를 추론하는 동작은, 상기 제1 사용자에 대응하는 공간 인식 모델의 상기 타겟의 위치를 추론하는 시각(time)을 포함하는 시간대의 공간 정보 포함 여부를 판단하는 동작, 및 상기 제1 사용자에 대응하는 공간 인식 모델이 상기 타겟의 위치를 추론하는 시각을 포함하는 시간대의 공간 정보를 포함하면, 상기 타겟의 위치를 추론하는 시각을 포함하는 시간대의 공간 정보에 대응하는 공간을 상기 제1 위치로 판단하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 사용자 입력 처리 방법은, 상기 제1 위치로의 상기 전자 장치 이동이 완료되면, 상기 구동 모듈을 제어하여 상기 전자 장치가 지정된 각도로 회전하는 동작, 및 상기 제1 위치에서의 주변 환경에 대한 정보를 획득하는 동작을 더 포함할 수 있다.
다양한 실시 예에 따르면, 상기 복수의 사용자 각각에 관계되는 정보를 저장하는 동작은, 상기 복수의 사용자 각각으로부터 수신하는 발화 정보 또는 상기 복수의 사용자 각각에 대하여 촬영하는 영상 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 타겟 인식 모델을 생성하는 동작, 및, 상기 타겟 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 제1 사용자를 탐색하는 동작은, 상기 제1 위치에서 획득되는 영상 정보 내의 오브젝트(object) 또는 음성 정보가 상기 제1 사용자에 대응하는 타겟 인식 모델과 지정된 비율 이상으로 일치하면, 상기 오브젝트 또는 상기 음성과 관계되는 사용자를 상기 제1 사용자로 인식하는 동작을 포함할 수 있다.
다양한 실시 예에 따르면, 상기 제1 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 상기 전자 장치가 이동하는 동작은, 상기 전자 장치가 상기 지정된 임계 거리 범위 내로 이동하는 상태에서, 상기 제1 사용자의 지정된 신체 정보를 획득하기 위한 촬영을 수행하는 동작, 및 상기 제1 사용자의 정면 얼굴 정보와 지정된 비율 이상으로 일치하는 상기 촬영에 의한 영상 정보가 획득되는 상기 지정된 임계 거리 범위 내의 위치를 상기 제2 위치로 결정하는 동작을 포함할 수 있다.
도 11은 일 실시 예에 따른 네트워크 환경 내의 전자 장치를 도시한 도면이다.
도 11을 참조하면, 네트워크 환경(1100)에서 전자 장치(1101)는 제 1 네트워크(1198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(1102)와 통신하거나, 또는 제 2 네트워크(1199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(1104) 또는 서버(1108)와 통신할 수 있다. 일 실시 예에 따르면, 전자 장치(1101)는 서버(1108)를 통하여 전자 장치(1104)와 통신할 수 있다. 일 실시 예에 따르면, 전자 장치(1101)는 프로세서(1120), 메모리(1130), 입력 장치(1150), 음향 출력 장치(1155), 표시 장치(1160), 오디오 모듈(1170), 센서 모듈(1176), 인터페이스(1177), 햅틱 모듈(1179), 카메라 모듈(1180), 전력 관리 모듈(1188), 배터리(1189), 통신 모듈(1190), 가입자 식별 모듈(1196), 또는 안테나 모듈(1197)을 포함할 수 있다. 어떤 실시 예에서는, 전자 장치(1101)에는, 이 구성요소들 중 적어도 하나(예: 표시 장치(1160) 또는 카메라 모듈(1180))가 생략되거나, 하나 이상의 다른 구성 요소가 추가될 수 있다. 어떤 실시 예에서는, 이 구성요소들 중 일부들은 하나의 통합된 회로로 구현될 수 있다. 예를 들면, 센서 모듈(1176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)은 표시 장치(1160)(예: 디스플레이)에 임베디드된 채 구현될 수 있다.
프로세서(1120)는, 예를 들면, 소프트웨어(예: 프로그램(1140))를 실행하여 프로세서(1120)에 연결된 전자 장치(1101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시 예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(1120)는 다른 구성요소(예: 센서 모듈(1176) 또는 통신 모듈(1190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(1132)에 로드하고, 휘발성 메모리(1132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(1134)에 저장할 수 있다. 일 실시 예에 따르면, 프로세서(1120)는 메인 프로세서(1121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서), 및 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(1123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 추가적으로 또는 대체적으로, 보조 프로세서(1123)은 메인 프로세서(1121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(1123)는 메인 프로세서(1121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(1123)는, 예를 들면, 메인 프로세서(1121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(1121)를 대신하여, 또는 메인 프로세서(1121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(1121)와 함께, 전자 장치(1101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(1160), 센서 모듈(1176), 또는 통신 모듈(1190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시 예에 따르면, 보조 프로세서(1123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(1180) 또는 통신 모듈(1190))의 일부로서 구현될 수 있다.
메모리(1130)는, 전자 장치(1101)의 적어도 하나의 구성요소(예: 프로세서(1120) 또는 센서 모듈(1176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(1140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(1130)는, 휘발성 메모리(1132) 또는 비휘발성 메모리(1134)를 포함할 수 있다.
프로그램(1140)은 메모리(1130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(1142), 미들 웨어(1144) 또는 어플리케이션(1146)을 포함할 수 있다.
입력 장치(1150)는, 전자 장치(1101)의 구성요소(예: 프로세서(1120))에 사용될 명령 또는 데이터를 전자 장치(1101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 장치(1150)은, 예를 들면, 마이크, 마우스, 키보드, 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
음향 출력 장치(1155)는 음향 신호를 전자 장치(1101)의 외부로 출력할 수 있다. 음향 출력 장치(1155)는, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있고, 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일 실시 예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
표시 장치(1160)는 전자 장치(1101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 표시 장치(1160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시 예에 따르면, 표시 장치(1160)는 터치를 감지하도록 설정된 터치 회로(touch circuitry), 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로(예: 압력 센서)를 포함할 수 있다.
오디오 모듈(1170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시 예에 따르면, 오디오 모듈(1170)은, 입력 장치(1150)를 통해 소리를 획득하거나, 음향 출력 장치(1155), 또는 전자 장치(1101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(1102)) (예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.
센서 모듈(1176)은 전자 장치(1101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일 실시 예에 따르면, 센서 모듈(1176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(1177)는 전자 장치(1101)이 외부 전자 장치(예: 전자 장치(1102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일 실시 예에 따르면, 인터페이스(1177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(1178)는, 그를 통해서 전자 장치(1101)가 외부 전자 장치(예: 전자 장치(1102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시 예에 따르면, 연결 단자(1178)은, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(1179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일 실시 예에 따르면, 햅틱 모듈(1179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(1180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라 모듈(1180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(1188)은 전자 장치(1101)에 공급되는 전력을 관리할 수 있다. 일 실시 예에 따르면, 전력 관리 모듈(1188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(1189)는 전자 장치(1101)의 적어도 하나의 구성 요소에 전력을 공급할 수 있다. 일 실시 예에 따르면, 배터리(1189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(1190)은 전자 장치(1101)와 외부 전자 장치(예: 전자 장치(1102), 전자 장치(1104), 또는 서버(1108))간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(1190)은 프로세서(1120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(1190)은 무선 통신 모듈(1192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(1194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(1198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제 2 네트워크(1199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성 요소(예: 단일 칩)으로 통합되거나, 또는 서로 별도의 복수의 구성 요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(1192)은 가입자 식별 모듈(1196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(1198) 또는 제 2 네트워크(1199)와 같은 통신 네트워크 내에서 전자 장치(1101)를 확인 및 인증할 수 있다.
안테나 모듈(1197)은 신호 또는 전력을 외부(예: 외부 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일 실시 예에 따르면, 안테나 모듈은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 하나의 안테나를 포함할 수 있다. 일 실시 예에 따르면, 안테나 모듈(1197)은 복수의 안테나들을 포함할 수 있다. 이런 경우, 제 1 네트워크(1198) 또는 제 2 네트워크(1199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(1190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(1190)과 외부 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시 예에 따르면, 방사체 이외에 다른 부품(예: RFIC)이 추가로 안테나 모듈(1197)의 일부로 형성될 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들과 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시 예에 따르면, 명령 또는 데이터는 제 2 네트워크(1199)에 연결된 서버(1108)를 통해서 전자 장치(1101)와 외부의 전자 장치(1104)간에 송신 또는 수신될 수 있다. 전자 장치(1102, 1104) 각각은 전자 장치(1101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시 예에 따르면, 전자 장치(1101)에서 실행되는 동작들의 전부 또는 일부는 외부 전자 장치들(1102, 1104, or 1108) 중 하나 이상의 외부 장치에서 실행될 수 있다. 예를 들면, 전자 장치(1101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(1101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부 전자 장치에 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(1101)로 전달할 수 있다. 전자 장치(1101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
본 문서에 개시된 다양한 실시 예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시 예들로 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나",“A 또는 B 중 적어도 하나,”"A, B 또는 C," "A, B 및 C 중 적어도 하나,”및 “A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, “기능적으로” 또는 “통신적으로”라는 용어와 함께 또는 이런 용어 없이, “커플드” 또는 “커넥티드”라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시 예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시 예들은 기기(machine)(예: 전자 장치(1101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(1136) 또는 외장 메모리(1138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(1140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(1101))의 프로세서(예: 프로세서(1120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어™)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시 예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시 예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims (15)

  1. 전자 장치에 있어서,
    메모리;
    마이크;
    통신 회로;
    구동 모듈;
    센서 모듈; 및
    상기 메모리, 상기 마이크, 상기 통신 회로, 상기 구동 모듈 및 상기 센서 모듈과 작동적(operatively)으로 연결되는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 메모리에 복수의 사용자 각각에 관계되는 정보를 저장하고,
    상기 마이크를 통하여 상기 전자 장치의 태스크(task) 수행과 관계되는 사용자 발화를 수신하고,
    상기 통신 회로를 이용하여 상기 사용자 발화와 관계되는 제1 데이터를 지정된 외부 장치로 전송하고,
    상기 통신 회로를 이용하여 상기 태스크 수행과 관련한 상기 전자 장치의 적어도 하나의 동작 정보 및 상기 동작을 수행하는데 요구되는 적어도 하나의 파라미터를 포함하는 제2 데이터를 상기 외부 장치로부터 수신하고,
    상기 적어도 하나의 파라미터에 기초하여 상기 복수의 사용자 중 상기 태스크 수행의 타겟과 관계되는 제1 사용자를 식별하고,
    상기 복수의 사용자 각각에 관계되는 정보가 포함하는 상기 제1 사용자 관련 정보에 기초하여 상기 타겟의 위치를 추론하고,
    상기 구동 모듈을 제어하여 상기 추론에 기반한 제1 위치로 상기 전자 장치를 이동시키고,
    상기 제1 위치에서 상기 센서 모듈 또는 상기 마이크를 이용하여 획득되는 정보 및 상기 제1 사용자 관련 정보를 비교하여 상기 제1 사용자를 탐색하고,
    상기 탐색에 기반하여 상기 제1 사용자가 인식되면, 상기 센서 모듈을 이용하여 상기 제1 사용자의 지정된 신체 정보가 획득되도록, 상기 구동 모듈을 제어하여 상기 제1 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 상기 전자 장치를 이동시키도록 설정된, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 사용자 중 적어도 일부의 사용자 각각으로부터 입력되는 시간대 별 공간 정보를 이용하여 상기 적어도 일부의 사용자 각각에 대응하는 공간 인식 모델을 생성하고,
    상기 공간 인식 모델을 상기 적어도 일부의 사용자 각각에 관계되는 정보로서 저장하고,
    상기 전자 장치가 상기 태스크를 수행하지 않는 상태에서, 상기 공간 인식 모델에 기초하여 현재 시각에 대응하는 시간대의 공간 정보가 식별되면, 상기 구동 모듈을 제어하여 상기 전자 장치를 상기 식별된 공간 정보에 대응하는 제3 위치로 이동시키도록 설정된, 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 사용자 각각으로부터 입력되는 사용자 개인 정보를 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고,
    상기 제2 데이터 수신 시, 상기 사용자 개인 정보 중 상기 적어도 하나의 파라미터에 대응하는 사용자 개인 정보를 식별하고,
    상기 식별된 사용자 개인 정보에 대응하는 사용자를 상기 태스크 수행의 타겟과 관계되는 제1 사용자로 식별하도록 설정된, 전자 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 사용자 각각으로부터 입력되는 공간 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 공간 인식 모델을 생성하고,
    상기 공간 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고,
    상기 타겟의 위치를 추론하는 동작의 적어도 일부로서, 상기 공간 인식 모델을 이용하여 상기 제1 사용자와 관계된 공간 정보에 대응하는 공간을 상기 제1 위치로 판단하도록 설정된, 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 사용자 각각으로부터 입력되는 공간 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 공간 인식 모델을 생성하고,
    상기 공간 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고,
    전자 장치 이동 시, 상기 센서 모듈을 통한 촬영 또는 상기 마이크를 통한 음성 신호 수신을 기반으로 특정 사용자가 인식되면, 상기 특정 사용자가 인식된 공간 정보 및 상기 인식의 타임 스탬프 정보를 매핑하여 상기 특정 사용자에 대응하는 공간 인식 모델에 포함시키도록 설정된, 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 타겟의 위치를 추론하는 동작의 적어도 일부로서, 상기 제1 사용자에 대응하는 공간 인식 모델의 타임 스탬프 정보 포함 여부를 판단하고,
    상기 제1 사용자에 대응하는 공간 인식 모델이 상기 타겟의 위치를 추론하는 시각(time)을 기준하여 지정된 임계 시간 범위 내의 타임 스탬프 정보를 포함하면, 상기 임계 시간 범위 내의 타임 스탬프 정보와 매핑된 공간 정보에 대응하는 공간을 상기 제1 위치로 판단하도록 설정된, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 사용자 중 적어도 일부의 사용자 각각으로부터 입력되는 시간대 별 공간 정보를 이용하여 상기 적어도 일부의 사용자 각각에 대응하는 공간 인식 모델을 생성하고,
    상기 공간 인식 모델을 상기 적어도 일부의 사용자 각각에 관계되는 정보로서 저장하고,
    상기 타겟의 위치를 추론하는 동작의 적어도 일부로서, 상기 제1 사용자에 대응하는 공간 인식 모델의 상기 타겟의 위치를 추론하는 시각(time)을 포함하는 시간대의 공간 정보 포함 여부를 판단하고,
    상기 제1 사용자에 대응하는 공간 인식 모델이 상기 타겟의 위치를 추론하는 시각을 포함하는 시간대의 공간 정보를 포함하면, 상기 타겟의 위치를 추론하는 시각을 포함하는 시간대의 공간 정보에 대응하는 공간을 상기 제1 위치로 판단하도록 설정된, 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 사용자 각각으로부터 수신하는 발화 정보 또는 상기 복수의 사용자 각각에 대하여 촬영하는 영상 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 화자 인식 모델을 생성하고,
    상기 화자 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고,
    상기 사용자 발화 수신 시, 상기 화자 인식 모델을 이용하여 상기 사용자 발화를 수행한 제2 사용자를 인식하도록 설정된, 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 위치로의 상기 전자 장치 이동이 완료되면, 상기 구동 모듈을 제어하여 상기 전자 장치를 지정된 각도로 회전시키고,
    상기 센서 모듈 또는 상기 마이크를 이용하여 상기 제1 위치에서의 주변 환경에 대한 정보를 획득하도록 설정된, 전자 장치.
  10. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 사용자 각각으로부터 수신하는 발화 정보 또는 상기 복수의 사용자 각각에 대하여 촬영하는 영상 정보를 이용하여 상기 복수의 사용자 각각에 대응하는 타겟 인식 모델을 생성하고,
    상기 타겟 인식 모델을 상기 복수의 사용자 각각에 관계되는 정보로서 저장하고,
    상기 제1 위치에서 상기 센서 모듈을 이용하여 획득되는 영상 정보 내의 오브젝트(object) 또는 상기 마이크를 이용하여 획득되는 음성 정보가 상기 제1 사용자에 대응하는 타겟 인식 모델과 지정된 비율 이상으로 일치하면, 상기 오브젝트 또는 상기 음성과 관계되는 사용자를 상기 제1 사용자로 인식하도록 설정된, 전자 장치.
  11. 제10항에 있어서,
    상기 제1 사용자에 대응하는 타겟 인식 모델은 상기 제1 사용자의 정면 얼굴 정보를 포함하고,
    상기 프로세서는,
    상기 전자 장치가 상기 지정된 임계 거리 범위 내로 이동하는 상태에서, 상기 센서 모듈을 이용하여 상기 제1 사용자의 지정된 신체 정보를 획득하기 위한 촬영을 수행하고,
    상기 제1 사용자의 정면 얼굴 정보와 지정된 비율 이상으로 일치하는 상기 촬영에 의한 영상 정보가 획득되는 상기 지정된 임계 거리 범위 내의 위치를 상기 제2 위치로 결정하도록 설정된, 전자 장치.
  12. 제1항에 있어서,
    스피커;를 더 포함하고,
    상기 제2 데이터는,
    상기 제1 데이터에 대응하는 음성 데이터를 더 포함하고,
    상기 프로세서는,
    상기 전자 장치가 상기 제2 위치로 이동되면, 상기 스피커를 이용하여 상기 음성 데이터를 출력하도록 설정된, 전자 장치.
  13. 전자 장치에 있어서,
    하우징;
    유저 인터페이스;
    상기 하우징을 이동시키도록 상기 하우징에 배치되거나, 상기 하우징에 연결된 구동부;
    상기 하우징에 또는 상기 하우징 내부에 위치하는 제1 센서 및 제2 센서;
    상기 하우징 내부에 위치하는 무선 통신 회로;
    상기 유저 인터페이스, 상기 구동부, 상기 제1 센서, 상기 제2 센서 및 상기 무선 통신 회로와 작동적으로 연결되는 프로세서; 및
    상기 프로세서와 작동적으로 연결된 메모리;를 포함하고,
    상기 메모리는, 실행 시에, 상기 프로세서가,
    상기 유저 인터페이스를 통해 태스크를 수행하기 위한 사용자의 발화를 수신하고,
    상기 제1 센서를 이용하여 감지된 제1 정보 및/또는 상기 무선 통신 회로를 통해 외부 장치로부터 수신된 제2 정보에 적어도 일부 기반하여, 상기 태스크를 수행하기 위한 대상의 위치를 파악하고,
    상기 구동부를 이용하여 상기 위치로 상기 하우징을 이동하고,
    상기 제2 센서를 이용하여 오브젝트를 인식하고,
    상기 인식된 오브젝트가 상기 대상과 일치하는지 결정하고,
    상기 유저 인터페이스를 통해 상기 오브젝트에 대하여 상기 태스크를 수행하도록 하는 인스트럭션들을 저장하는, 전자 장치.
  14. 전자 장치의 사용자 입력 처리 방법에 있어서,
    복수의 사용자 각각에 관계되는 정보를 저장하는 동작;
    상기 전자 장치의 태스크(task) 수행과 관계되는 사용자 발화를 수신하는 동작;
    상기 사용자 발화와 관계되는 제1 데이터를 지정된 외부 장치로 전송하는 동작;
    상기 태스크 수행과 관련한 상기 전자 장치의 적어도 하나의 동작 정보 및 상기 동작을 수행하는데 요구되는 적어도 하나의 파라미터를 포함하는 제2 데이터를 상기 외부 장치로부터 수신하는 동작;
    상기 적어도 하나의 파라미터에 기초하여 상기 복수의 사용자 중 상기 태스크 수행의 타겟과 관계되는 제1 사용자를 식별하는 동작;
    상기 복수의 사용자 각각에 관계되는 정보가 포함하는 상기 제1 사용자 관련 정보에 기초하여 상기 타겟의 위치를 추론하는 동작;
    상기 추론에 기반한 제1 위치로 상기 전자 장치가 이동하는 동작;
    상기 제1 위치에서 획득되는 정보 및 상기 제1 사용자 관련 정보를 비교하여 상기 제1 사용자를 탐색하는 동작; 및
    상기 탐색에 기반하여 상기 제1 사용자가 인식되면, 상기 제1 사용자의 지정된 신체 정보가 획득되도록, 상기 제1 사용자를 기준한 지정된 임계 거리 범위 내의 제2 위치로 상기 전자 장치가 이동하는 동작;을 포함하는, 사용자 입력 처리 방법.
  15. 제14항에 있어서,
    상기 복수의 사용자 각각에 관계되는 정보를 저장하는 동작은,
    상기 복수의 사용자 각각으로부터 입력되는 사용자 개인 정보를 상기 복수의 사용자 각각에 관계되는 정보로서 저장하는 동작;을 포함하고,
    상기 제1 사용자를 식별하는 동작은,
    상기 제2 데이터 수신 시, 상기 사용자 개인 정보 중 상기 적어도 하나의 파라미터에 대응하는 사용자 개인 정보를 식별하는 동작; 및
    상기 식별된 사용자 개인 정보에 대응하는 사용자를 상기 태스크 수행의 타겟과 관계되는 제1 사용자로 식별하는 동작;을 포함하는, 사용자 입력 처리 방법.
PCT/KR2020/002327 2019-02-19 2020-02-18 사용자 입력 처리 방법 및 이를 지원하는 전자 장치 WO2020171548A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/406,727 US20210383806A1 (en) 2019-02-19 2021-08-19 User input processing method and electronic device supporting same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0019546 2019-02-19
KR1020190019546A KR20200101221A (ko) 2019-02-19 2019-02-19 사용자 입력 처리 방법 및 이를 지원하는 전자 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/406,727 Continuation US20210383806A1 (en) 2019-02-19 2021-08-19 User input processing method and electronic device supporting same

Publications (1)

Publication Number Publication Date
WO2020171548A1 true WO2020171548A1 (ko) 2020-08-27

Family

ID=72144125

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/002327 WO2020171548A1 (ko) 2019-02-19 2020-02-18 사용자 입력 처리 방법 및 이를 지원하는 전자 장치

Country Status (3)

Country Link
US (1) US20210383806A1 (ko)
KR (1) KR20200101221A (ko)
WO (1) WO2020171548A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3103955A1 (fr) * 2019-11-29 2021-06-04 Orange Dispositif et procédé d’analyse environnementale, et dispositif et procédé d’assistance vocale les implémentant
US12002458B1 (en) * 2020-09-04 2024-06-04 Amazon Technologies, Inc. Autonomously motile device with command processing
KR20240027364A (ko) * 2022-08-23 2024-03-04 삼성전자주식회사 사용자의 위치를 식별하기 위한 전자 장치 및 그 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140106891A (ko) * 2013-02-27 2014-09-04 주식회사 케이티 이동 로봇에서의 퀴즈 게임 서비스 제공 방법 및 이를 위한 이동 로봇
US20160136817A1 (en) * 2011-06-10 2016-05-19 Microsoft Technology Licensing, Llc Interactive robot initialization
KR20180038871A (ko) * 2016-10-07 2018-04-17 엘지전자 주식회사 공항용 로봇 및 그의 동작 방법
KR101919354B1 (ko) * 2018-07-05 2018-11-16 주식회사 스토리안트 기계학습과 음성인식 기반의 스마트폰 착탈식 지능형 이동로봇 시스템
KR20180134628A (ko) * 2017-06-09 2018-12-19 네이버 주식회사 무빙 디바이스를 이용하여 사용자의 위치 및 공간에 알맞은 정보를 제공하는 방법 및 장치

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4026758B2 (ja) * 2002-10-04 2007-12-26 富士通株式会社 ロボット
KR20040042242A (ko) * 2002-11-13 2004-05-20 삼성전자주식회사 홈서버를 이용하는 홈로봇 및 이를 포함하는 홈네트워크시스템
JP4266211B2 (ja) * 2005-03-23 2009-05-20 株式会社東芝 ロボット装置、ロボット装置の移動方法、および、プログラム
JP4455417B2 (ja) * 2005-06-13 2010-04-21 株式会社東芝 移動ロボット、プログラム及びロボット制御方法
KR102071575B1 (ko) * 2013-04-23 2020-01-30 삼성전자 주식회사 이동로봇, 사용자단말장치 및 그들의 제어방법
WO2017218234A1 (en) * 2016-06-15 2017-12-21 Irobot Corporation Systems and methods to control an autonomous mobile robot
US10120386B2 (en) * 2016-11-18 2018-11-06 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
US10754351B2 (en) * 2017-02-28 2020-08-25 Toyota Jidosha Kabushiki Kaisha Observability grid-based autonomous environment search
US11215464B2 (en) * 2017-04-10 2022-01-04 Mitsubishi Electric Corporation Map management device and autonomous mobile body control device
KR102391914B1 (ko) * 2017-06-30 2022-04-27 엘지전자 주식회사 이동 로봇의 동작 방법
JP7363764B2 (ja) * 2018-02-26 2023-10-18 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7102169B2 (ja) * 2018-02-28 2022-07-19 パナソニックホールディングス株式会社 装置、ロボット、方法、及びプログラム
US20190278294A1 (en) * 2018-03-07 2019-09-12 Casio Computer Co., Ltd. Autonomous mobile apparatus, autonomous move method, and recording medium
US20210018912A1 (en) * 2018-04-10 2021-01-21 Fetch Robotics, Inc. Robot Management System
WO2020008755A1 (ja) * 2018-07-06 2020-01-09 ソニー株式会社 情報処理装置、情報処理システム、行動計画方法及びプログラム
US11460849B2 (en) * 2018-08-09 2022-10-04 Cobalt Robotics Inc. Automated route selection by a mobile robot
JP7205148B2 (ja) * 2018-10-04 2023-01-17 カシオ計算機株式会社 ロボット、制御方法、及び、プログラム
US11433546B1 (en) * 2018-10-24 2022-09-06 Amazon Technologies, Inc. Non-verbal cuing by autonomous mobile device
US20220019213A1 (en) * 2018-12-07 2022-01-20 Serve Robotics Inc. Delivery robot
KR20200076438A (ko) * 2018-12-19 2020-06-29 삼성전자주식회사 사용자의 액티비티를 추적하는 전자 장치 및 전자 장치의 동작 방법
US20200201338A1 (en) * 2018-12-24 2020-06-25 Harmonicareu co., Ltd. Hospital Automated Guided Vehicle and Method of Operating the Same
WO2020145189A1 (ja) * 2019-01-12 2020-07-16 株式会社Zmp 自律走行車両、配送システム、及びプログラム
KR20200094396A (ko) * 2019-01-30 2020-08-07 삼성전자주식회사 전자 장치 및 복수의 액션들을 포함하는 태스크를 결정하는 방법
US20230158683A1 (en) * 2021-11-19 2023-05-25 Google Llc Robotic computing device with adaptive user-interaction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160136817A1 (en) * 2011-06-10 2016-05-19 Microsoft Technology Licensing, Llc Interactive robot initialization
KR20140106891A (ko) * 2013-02-27 2014-09-04 주식회사 케이티 이동 로봇에서의 퀴즈 게임 서비스 제공 방법 및 이를 위한 이동 로봇
KR20180038871A (ko) * 2016-10-07 2018-04-17 엘지전자 주식회사 공항용 로봇 및 그의 동작 방법
KR20180134628A (ko) * 2017-06-09 2018-12-19 네이버 주식회사 무빙 디바이스를 이용하여 사용자의 위치 및 공간에 알맞은 정보를 제공하는 방법 및 장치
KR101919354B1 (ko) * 2018-07-05 2018-11-16 주식회사 스토리안트 기계학습과 음성인식 기반의 스마트폰 착탈식 지능형 이동로봇 시스템

Also Published As

Publication number Publication date
KR20200101221A (ko) 2020-08-27
US20210383806A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
WO2020171548A1 (ko) 사용자 입력 처리 방법 및 이를 지원하는 전자 장치
WO2019039915A1 (en) METHOD FOR ACTIVATION OF VOICE RECOGNITION SERVICE AND ELECTRONIC DEVICE IMPLEMENTING THE SAME
EP3900310A1 (en) Method for location inference of iot device, server, and electronic device supporting the same
WO2020017754A1 (ko) 전자 장치 및 그의 동작 방법
WO2020080635A1 (ko) 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법
WO2020122677A1 (en) Method of performing function of electronic device and electronic device using same
WO2020145688A1 (en) Electronic device and controlling method thereof
WO2020022780A1 (en) Method and apparatus for establishing device connection
WO2021187901A1 (en) Method for controlling external device based on voice and electronic device thereof
WO2020159217A1 (en) Electronic device and method for determining task including plural actions
WO2019112373A1 (en) Method for providing artificial intelligence service during phone call and electronic device thereof
EP3808097A1 (en) Method and apparatus for establishing device connection
WO2019209075A1 (ko) 외부 전자 장치를 제어하는 전자 장치 및 방법
WO2020122502A1 (en) Electronic device for supporting audio enhancement and method for the same
KR20200017296A (ko) 개인화된 장치 연결을 지원하는 전자 장치 및 그 방법
WO2021060728A1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
CN112860169A (zh) 交互方法及装置、计算机可读介质和电子设备
WO2021075716A1 (en) Electronic device supporting improved speech recognition
WO2021101276A1 (en) Electronic device for providing intelligent assistance service and operating method thereof
WO2019156412A1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
WO2020180008A1 (en) Method for processing plans having multiple end points and electronic device applying the same method
WO2019172616A1 (ko) 메시지 수신 알림 방법 및 이를 지원하는 전자 장치
WO2020032650A1 (en) Speech recognition method and electronic device for supporting the same
WO2020080771A1 (ko) 변형 발화 텍스트를 제공하는 전자 장치 및 그것의 동작 방법
WO2019151734A1 (ko) 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20759043

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20759043

Country of ref document: EP

Kind code of ref document: A1