WO2022186531A1 - 전자 장치 및 전자 장치의 기기 연결 방법 - Google Patents

전자 장치 및 전자 장치의 기기 연결 방법 Download PDF

Info

Publication number
WO2022186531A1
WO2022186531A1 PCT/KR2022/002504 KR2022002504W WO2022186531A1 WO 2022186531 A1 WO2022186531 A1 WO 2022186531A1 KR 2022002504 W KR2022002504 W KR 2022002504W WO 2022186531 A1 WO2022186531 A1 WO 2022186531A1
Authority
WO
WIPO (PCT)
Prior art keywords
electronic device
connection
string
user
utterance
Prior art date
Application number
PCT/KR2022/002504
Other languages
English (en)
French (fr)
Inventor
권오채
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US17/686,931 priority Critical patent/US20220287110A1/en
Publication of WO2022186531A1 publication Critical patent/WO2022186531A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/382Information transfer, e.g. on bus using universal interface adapter
    • G06F13/385Information transfer, e.g. on bus using universal interface adapter for adaptation of a particular data processing system to different peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72415User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories for remote control of appliances
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • Embodiments of the present disclosure disclose an electronic device capable of performing device connection based on a user's voice and a device connection method of the electronic device.
  • PDA personal digital assistant
  • smart phone smart phone
  • tablet PC personal computer
  • AI artificial intelligence speaker
  • wearable device wearable device
  • digital camera digital camera
  • Various types of electronic devices, such as digital cameras), and/or Internet of things (IoT) devices are widely used.
  • IoT Internet of things
  • the electronic device may implement various functions in addition to the call function, and provides various input interfaces to allow users to use various functions.
  • an input interface of an electronic device provides a voice input method in addition to a button input method or a touch screen-based touch input method.
  • the electronic device may use a voice recognition or speech recognition technology to control execution of an application through a user's voice command and/or perform a function using a web-based service.
  • the voice recognition technology may be a technology in which the electronic device understands a voice uttered by a user (eg, a person) and converts it into code information that the electronic device can handle.
  • the speech recognition technology may include a processing operation of inputting a speech waveform to identify a word or a sequence of words and extracting a meaning.
  • commands with simple computational processing are processed by the electronic device, and commands that cannot be processed by the electronic device (for example, a client) (for example, commands with complex computational processing and requiring a lot of resources) are A method of processing using a server (eg, an intelligent server) is proposed.
  • the electronic device may acquire a user command (eg, an input voice) and transmit the acquired user command to the server to be processed by the server.
  • the electronic device may share various data of the electronic device by connecting with other electronic devices.
  • electronic devices may connect to each other based on a designated communication technology (eg, wireless communication technology such as wireless fidelity (WiFi), Bluetooth and/or infrared data association (IrDA)), and share data between the connected electronic devices can do.
  • a designated communication technology eg, wireless communication technology such as wireless fidelity (WiFi), Bluetooth and/or infrared data association (IrDA)
  • WiFi wireless fidelity
  • IrDA infrared data association
  • a user connects between electronic devices, even if it is premised that the electronic devices to be connected exist on the same network, the user can obtain various information related to the connection of other electronic devices in the electronic device (eg, WiFi information (eg, SSID, service set identifier), terminal code, device name, password, connection code, and/or connection method for each communication technology (eg, menu entry and setting))).
  • WiFi information eg, SSID, service set identifier
  • terminal code eg, device name, password, connection code, and/or connection method for each communication technology (eg, menu entry and setting)
  • connection method e.g, menu entry and setting
  • Various embodiments are disclosed with respect to a method and an apparatus capable of supporting device connection of an electronic device based on a user's voice.
  • Various embodiments are disclosed with respect to a method and an apparatus capable of performing a connection between a plurality of electronic devices through a voice command according to a user's utterance.
  • the first electronic device generates and shares a string and connection information
  • the second electronic device receives a user utterance corresponding to the string generated by the first electronic device and Disclosed are a method and an apparatus capable of performing device connection based on connection information of a first electronic device.
  • An electronic device for supporting device connection based on voice recognition includes a communication module, an output module, a memory, and a processor operatively connected to the communication module, the output module, and the memory, , the processor detects a device connection start based on a specified user input, generates a string and connection information for connection with another electronic device, outputs the string through the output module, and outputs the string and connection information It may be configured to perform a connection with the other electronic device based on external transmission and receiving a connection request from the other electronic device.
  • An electronic device for supporting device connection based on voice recognition includes a communication module, a microphone, a memory, and a processor operatively connected to the communication module, the microphone, and the memory;
  • the processor is configured to receive a user utterance related to device connection with another electronic device, obtain a string related to the other electronic device based on receiving the user utterance, determine whether the user utterance matches the string, and When the user's utterance and the string match, it may be configured to establish a connection with the other electronic device based on connection information related to the other electronic device.
  • An electronic device for supporting device connection based on voice recognition includes a communication module, an input module, an output module, a memory, and a processor, wherein the processor includes an electronic device based on a user input determines the operation mode of , generates and transmits a string and connection information for device connection with another electronic device to the outside based on the first operation determination, and receives a connection request from the other electronic device based on the connection information waiting, performing a connection with the other electronic device based on the reception of the connection request, and receiving a user utterance based on a second action determination, acquiring a string and connection information related to device connection with another electronic device, , when the user's utterance matches the string, it may be configured to perform a connection with the other electronic device based on the connection information.
  • a method of operating an electronic device includes an operation of determining an operation mode of an electronic device based on a user input, and a string and connection information for device connection with another electronic device based on a first operation determination based on the operation of generating and transmitting to the outside, waiting for reception of a connection request from the other electronic device based on the connection information, performing a connection with the other electronic device based on the reception of the connection request, and determining a second operation to receive a user utterance, obtain a string and connection information related to device connection with another electronic device, and perform connection with the other electronic device based on the connection information when the user utterance and the string match It can include actions.
  • a computer-readable recording medium recording a program for executing the method in a processor may be included.
  • an electronic device and an operating method thereof in a process of a user connecting between devices by supporting a voice-based connection between devices, the user does not go through the existing complicated setting process of several steps. , it can be provided so that the desired device can be directly connected easily and quickly through the user's utterance command.
  • a user may receive various information related to device connection between electronic devices (eg, WiFi information (eg, SSID, service set identifier), terminal code, device name, password, connection code, and/or Alternatively, it is possible to connect electronic devices quickly and easily through a user's utterance without needing to know a connection method for each communication technology (eg, entering a menu and setting a menu). Through this, the user's convenience, accessibility, and/or service use satisfaction for device connection using the electronic device may be improved.
  • WiFi information eg, SSID, service set identifier
  • FIG. 1 is a block diagram of an electronic device in a network environment according to various embodiments of the present disclosure
  • FIG. 2 is a block diagram illustrating an integrated intelligence system according to various embodiments of the present disclosure
  • FIG. 3 is a diagram illustrating a form in which relation information between a concept and an action is stored in a database according to various embodiments of the present disclosure
  • FIG. 4 is a diagram illustrating an example of a user interface through which an electronic device processes a voice input received through an intelligent application according to various embodiments of the present disclosure
  • FIG. 5 is a diagram for describing an example of an operation of performing device connection of an electronic device according to an exemplary embodiment.
  • FIG. 6 is a diagram for explaining an example of an operation of providing device connection based on interworking between an electronic device and a server according to an embodiment.
  • FIG. 7 is a diagram schematically illustrating a configuration of an electronic device according to an exemplary embodiment.
  • FIG. 8 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • FIG. 9 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • 10A, 10B, and 10C are diagrams for explaining an example of outputting connection information from an electronic device according to an exemplary embodiment.
  • FIG. 11 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • FIG. 12 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • FIG. 13 is a diagram for describing an example of an operation of providing device connection of an electronic device according to an exemplary embodiment.
  • FIG. 1 is a block diagram of an electronic device 101 in a network environment 100 according to various embodiments of the present disclosure.
  • the electronic device 101 communicates with the electronic device 102 through a first network 198 (eg, a short-range wireless communication network) or a second network 199 . It may communicate with at least one of the electronic device 104 and the server 108 through (eg, a long-distance wireless communication network). According to an embodiment, the electronic device 101 may communicate with the electronic device 104 through the server 108 .
  • the electronic device 101 includes a processor 120 , a memory 130 , an input module 150 , a sound output module 155 , a display module 160 , an audio module 170 , and a sensor module ( 176), interface 177, connection terminal 178, haptic module 179, camera module 180, power management module 188, battery 189, communication module 190, subscriber identification module 196 , or an antenna module 197 .
  • at least one of these components eg, the connection terminal 178
  • some of these components are integrated into one component (eg, display module 160 ). can be
  • the processor 120 for example, executes software (eg, a program 140) to execute at least one other component (eg, a hardware or software component) of the electronic device 101 connected to the processor 120. It can control and perform various data processing or operations. According to one embodiment, as at least part of data processing or operation, the processor 120 converts commands or data received from other components (eg, the sensor module 176 or the communication module 190 ) to the volatile memory 132 . may be stored in , process commands or data stored in the volatile memory 132 , and store the result data in the non-volatile memory 134 .
  • software eg, a program 140
  • the processor 120 converts commands or data received from other components (eg, the sensor module 176 or the communication module 190 ) to the volatile memory 132 .
  • the volatile memory 132 may be stored in , process commands or data stored in the volatile memory 132 , and store the result data in the non-volatile memory 134 .
  • the processor 120 is a main processor 121 (eg, a central processing unit (CPU) or an application processor (AP)) or an auxiliary processor capable of operating independently or together with it ( 123) (eg, graphic processing unit (GPU), neural processing unit (NPU), image signal processor (ISP), sensor hub processor, or communication processor (CP, communication processor)) may be included.
  • main processor 121 eg, a central processing unit (CPU) or an application processor (AP)
  • auxiliary processor capable of operating independently or together with it eg, graphic processing unit (GPU), neural processing unit (NPU), image signal processor (ISP), sensor hub processor, or communication processor (CP, communication processor)
  • the electronic device 101 includes the main processor 121 and the sub-processor 123
  • the sub-processor 123 uses less power than the main processor 121 or is set to be specialized for a specified function.
  • the auxiliary processor 123 may be implemented separately from or as a part of the main processor 121 .
  • the auxiliary processor 123 is, for example, on behalf of the main processor 121 or the main processor 121 while the main processor 121 is in an inactive (eg, sleep) state. At least one of the components of the electronic device 101 (eg, the display module 160 , the sensor module 176 , or At least some of functions or states related to the communication module 190 may be controlled.
  • the coprocessor 123 eg, an image signal processor or a communication processor
  • the auxiliary processor 123 may include a hardware structure specialized for processing an artificial intelligence model. Artificial intelligence models can be created through machine learning.
  • Such learning may be performed, for example, in the electronic device 101 itself on which the artificial intelligence model is performed, or may be performed through a separate server (eg, the server 108).
  • the learning algorithm may include, for example, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but in the above example not limited
  • the artificial intelligence model may include a plurality of artificial neural network layers.
  • Artificial neural networks include deep neural networks (DNNs), convolutional neural networks (CNNs), recurrent neural networks (RNNs), restricted boltzmann machines (RBMs), deep belief networks (DBNs), bidirectional recurrent deep neural networks (BRDNNs), It may be one of deep Q-networks or a combination of two or more of the above, but is not limited to the above example.
  • the artificial intelligence model may include, in addition to, or alternatively, a software structure in addition to the hardware structure.
  • the memory 130 may store various data used by at least one component (eg, the processor 120 or the sensor module 176 ) of the electronic device 101 .
  • the data may include, for example, input data or output data for software (eg, the program 140 ) and instructions related thereto.
  • the memory 130 may include a volatile memory 132 or a non-volatile memory 134 .
  • the program 140 may be stored as software in the memory 130 , and may include, for example, an operating system (OS) 142 , middleware 144 or an application 146 . have.
  • OS operating system
  • middleware middleware
  • application application
  • the input module 150 may receive a command or data to be used by a component (eg, the processor 120 ) of the electronic device 101 from the outside (eg, a user) of the electronic device 101 .
  • the input module 150 may include, for example, a microphone, a mouse, a keyboard, a key (eg, a button), or a digital pen (eg, a stylus pen).
  • the sound output module 155 may output a sound signal to the outside of the electronic device 101 .
  • the sound output module 155 may include, for example, a speaker or a receiver.
  • the speaker can be used for general purposes such as multimedia playback or recording playback.
  • the receiver can be used to receive incoming calls. According to one embodiment, the receiver may be implemented separately from or as part of the speaker.
  • the display module 160 may visually provide information to the outside (eg, a user) of the electronic device 101 .
  • the display module 160 may include, for example, a control circuit for controlling a display, a hologram device, or a projector and a corresponding device.
  • the display module 160 may include a touch sensor configured to sense a touch or a pressure sensor configured to measure the intensity of a force generated by the touch.
  • the audio module 170 may convert a sound into an electric signal or, conversely, convert an electric signal into a sound. According to an embodiment, the audio module 170 acquires a sound through the input module 150 or an external electronic device (eg, a sound output module 155 ) directly or wirelessly connected to the electronic device 101 .
  • the electronic device 102) eg, a speaker or headphones
  • the sensor module 176 detects an operating state (eg, power or temperature) of the electronic device 101 or an external environmental state (eg, a user state), and generates an electrical signal or data value corresponding to the sensed state. can do.
  • the sensor module 176 may include, for example, a gesture sensor, a gyro sensor, a barometric pressure sensor, a magnetic sensor, an acceleration sensor, a grip sensor, a proximity sensor, a color sensor, an IR (infrared) sensor, a biometric sensor, It may include a temperature sensor, a humidity sensor, or an illuminance sensor.
  • the interface 177 may support one or more specified protocols that may be used by the electronic device 101 to directly or wirelessly connect with an external electronic device (eg, the electronic device 102 ).
  • the interface 177 may include, for example, a high definition multimedia interface (HDMI), a universal serial bus (USB) interface, a secure digital (SD) card interface, or an audio interface.
  • HDMI high definition multimedia interface
  • USB universal serial bus
  • SD secure digital
  • the connection terminal 178 may include a connector through which the electronic device 101 can be physically connected to an external electronic device (eg, the electronic device 102 ).
  • the connection terminal 178 may include, for example, an HDMI connector, a USB connector, an SD card connector, or an audio connector (eg, a headphone connector).
  • the haptic module 179 may convert an electrical signal into a mechanical stimulus (eg, vibration or movement) or an electrical stimulus that the user can perceive through tactile or kinesthetic sense.
  • the haptic module 179 may include, for example, a motor, a piezoelectric element, or an electrical stimulation device.
  • the camera module 180 may capture still images and moving images. According to an embodiment, the camera module 180 may include one or more lenses, image sensors, image signal processors, or flashes.
  • the power management module 188 may manage power supplied to the electronic device 101 .
  • the power management module 188 may be implemented as, for example, at least a part of a power management integrated circuit (PMIC).
  • PMIC power management integrated circuit
  • the battery 189 may supply power to at least one component of the electronic device 101 .
  • battery 189 may include, for example, a non-rechargeable primary cell, a rechargeable secondary cell, or a fuel cell.
  • the communication module 190 is a direct (eg, wired) communication channel or a wireless communication channel between the electronic device 101 and an external electronic device (eg, the electronic device 102, the electronic device 104, or the server 108). It can support establishment and communication performance through the established communication channel.
  • the communication module 190 may include one or more communication processors that operate independently of the processor 120 (eg, an application processor) and support direct (eg, wired) communication or wireless communication.
  • the communication module 190 is a wireless communication module 192 (eg, a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module) or a wired communication module 194 (eg, : It may include a local area network (LAN) communication module, or a power line communication module).
  • a wireless communication module 192 eg, a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module
  • GNSS global navigation satellite system
  • wired communication module 194 eg, : It may include a local area network (LAN) communication module, or a power line communication module.
  • a corresponding communication module among these communication modules is a first network 198 (eg, a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct, or infrared data association (IrDA)) or a second network 199 (eg, legacy It may communicate with the external electronic device 104 through a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (eg, a telecommunication network such as a LAN or a wide area network (WAN)).
  • a first network 198 eg, a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct, or infrared data association (IrDA)
  • a second network 199 eg, legacy It may communicate with the external electronic device 104 through a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (eg, a telecommunication network such as a LAN or a wide area network (WAN)).
  • the wireless communication module 192 uses subscriber information (eg, International Mobile Subscriber Identifier (IMSI)) stored in the subscriber identification module 196 within a communication network such as the first network 198 or the second network 199 .
  • subscriber information eg, International Mobile Subscriber Identifier (IMSI)
  • IMSI International Mobile Subscriber Identifier
  • the electronic device 101 may be identified or authenticated.
  • the wireless communication module 192 may support a 5G network after a 4G network and a next-generation communication technology, for example, a new radio access technology (NR).
  • NR access technology includes high-speed transmission of high-capacity data (eMBB, enhanced mobile broadband), minimization of terminal power and massive machine type communications (mMTC), or high reliability and low latency (URLLC, ultra-reliable and low-latency). communications) can be supported.
  • the wireless communication module 192 may support a high frequency band (eg, mmWave band) to achieve a high data rate, for example.
  • the wireless communication module 192 uses various techniques for securing performance in a high-frequency band, for example, beamforming, massive multiple-input and multiple-output (MIMO), all-dimensional multiplexing.
  • MIMO massive multiple-input and multiple-output
  • the wireless communication module 192 may support various requirements defined in the electronic device 101 , an external electronic device (eg, the electronic device 104 ), or a network system (eg, the second network 199 ).
  • the wireless communication module 192 may include a peak data rate (eg, 20 Gbps or more) for realizing eMBB, loss coverage (eg, 164 dB or less) for realizing mMTC, or U-plane latency for realizing URLLC ( Example: Downlink (DL) and uplink (UL) each 0.5 ms or less, or round trip 1 ms or less) can be supported.
  • a peak data rate eg, 20 Gbps or more
  • loss coverage eg, 164 dB or less
  • U-plane latency for realizing URLLC
  • the antenna module 197 may transmit or receive a signal or power to the outside (eg, an external electronic device).
  • the antenna module 197 may include an antenna including a conductor formed on a substrate (eg, a PCB) or a radiator formed of a conductive pattern.
  • the antenna module 197 may include a plurality of antennas (eg, an array antenna). In this case, at least one antenna suitable for a communication method used in a communication network such as the first network 198 or the second network 199 is connected from the plurality of antennas by, for example, the communication module 190 . can be selected. A signal or power may be transmitted or received between the communication module 190 and an external electronic device through the selected at least one antenna.
  • other components eg, a radio frequency integrated circuit (RFIC)
  • RFIC radio frequency integrated circuit
  • the antenna module 197 may form a mmWave antenna module.
  • the mmWave antenna module comprises a printed circuit board, an RFIC disposed on or adjacent to a first side (eg, bottom side) of the printed circuit board and capable of supporting a designated high frequency band (eg, mmWave band); and a plurality of antennas (eg, an array antenna) disposed on or adjacent to a second side (eg, top or side) of the printed circuit board and capable of transmitting or receiving signals of the designated high frequency band. can do.
  • peripheral devices eg, a bus, general purpose input and output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI)
  • GPIO general purpose input and output
  • SPI serial peripheral interface
  • MIPI mobile industry processor interface
  • the command or data may be transmitted or received between the electronic device 101 and the external electronic device 104 through the server 108 connected to the second network 199 .
  • Each of the external electronic devices 102 or 104 may be the same as or different from the electronic device 101 .
  • all or part of the operations performed by the electronic device 101 may be executed by one or more external electronic devices 102 , 104 , or 108 .
  • the electronic device 101 may perform the function or service itself instead of executing the function or service itself.
  • one or more external electronic devices may be requested to perform at least a part of the function or the service.
  • One or more external electronic devices that have received the request may execute at least a part of the requested function or service, or an additional function or service related to the request, and transmit a result of the execution to the electronic device 101 .
  • the electronic device 101 may process the result as it is or additionally and provide it as at least a part of a response to the request.
  • cloud computing, distributed computing, mobile edge computing (MEC), or client-server computing technology may be used.
  • the electronic device 101 may provide an ultra-low latency service using, for example, distributed computing or mobile edge computing.
  • the external electronic device 104 may include an Internet of things (IoT) device.
  • the server 108 may be an intelligent server using machine learning and/or neural networks.
  • the external electronic device 104 or the server 108 may be included in the second network 199 .
  • the electronic device 101 may be applied to an intelligent service (eg, smart home, smart city, smart car, or health care) based on 5G communication technology and IoT-related technology.
  • the electronic device may have various types of devices.
  • the electronic device may include, for example, a portable communication device (eg, a smart phone), a computer device, a portable multimedia device, a portable medical device, a camera, a wearable device, or a home appliance device.
  • a portable communication device eg, a smart phone
  • a computer device e.g., a smart phone
  • a portable multimedia device e.g., a portable medical device
  • a camera e.g., a portable medical device
  • a camera e.g., a portable medical device
  • a camera e.g., a portable medical device
  • a wearable device e.g., a smart bracelet
  • a home appliance device e.g., a home appliance
  • first”, “second”, or “first” or “second” may simply be used to distinguish the component from other such components, and refer to those components in other aspects (e.g., importance or order) is not limited. It is said that one (eg, first) component is “coupled” or “connected” to another (eg, second) component, with or without the terms “functionally” or “communicatively”. When referenced, it means that one component can be connected to the other component directly (eg by wire), wirelessly, or through a third component.
  • module used in various embodiments of this document may include a unit implemented in hardware, software, or firmware, and is interchangeable with terms such as, for example, logic, logic block, component, or circuit.
  • a module may be an integrally formed part or a minimum unit or a part of the part that performs one or more functions.
  • the module may be implemented in the form of an application-specific integrated circuit (ASIC).
  • ASIC application-specific integrated circuit
  • Various embodiments of the present document include one or more instructions stored in a storage medium (eg, internal memory 136 or external memory 138) readable by a machine (eg, electronic device 101).
  • a storage medium eg, internal memory 136 or external memory 138
  • the processor eg, the processor 120
  • the device eg, the electronic device 101
  • the one or more instructions may include code generated by a compiler or code executable by an interpreter.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium is a tangible device and does not contain a signal (eg, electromagnetic wave), and this term is used in cases where data is semi-permanently stored in the storage medium and It does not distinguish between temporary storage cases.
  • a signal eg, electromagnetic wave
  • the method according to various embodiments disclosed in this document may be provided in a computer program product (computer program product).
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a machine-readable storage medium (eg compact disc read only memory (CD-ROM)), or via an application store (eg Play Store TM ) or on two user devices ( It can be distributed (eg downloaded or uploaded) directly, online between smartphones (eg: smartphones).
  • a portion of the computer program product may be temporarily stored or temporarily created in a machine-readable storage medium such as a memory of a server of a manufacturer, a server of an application store, or a relay server.
  • each component eg, a module or a program of the above-described components may include a singular or a plurality of entities, and some of the plurality of entities may be separately disposed in other components. have.
  • one or more components or operations among the above-described corresponding components may be omitted, or one or more other components or operations may be added.
  • a plurality of components eg, a module or a program
  • the integrated component may perform one or more functions of each component of the plurality of components identically or similarly to those performed by the corresponding component among the plurality of components prior to the integration. .
  • operations performed by a module, program, or other component are executed sequentially, in parallel, repetitively, or heuristically, or one or more of the operations are executed in a different order. , may be omitted, or one or more other operations may be added.
  • FIG. 2 is a block diagram illustrating an integrated intelligence system according to an embodiment.
  • the integrated intelligent system 200 may include an electronic device 101 , an intelligent server 201 , and/or a service server 300 .
  • the electronic device 101 of an embodiment may be a terminal device (or electronic device) connectable to the Internet, for example, a mobile phone, a smart phone, a personal digital assistant (PDA), a notebook computer, a TV, a white home appliance, It may be a wearable device, a head mounted display (HMD), or a smart speaker.
  • a terminal device or electronic device connectable to the Internet
  • PDA personal digital assistant
  • HMD head mounted display
  • the electronic device 101 includes a communication module 190 (eg, the wireless communication module 192 of FIG. 1 ), a microphone 151 (eg, the input module 150 of FIG. 1 ), and a speaker. It may include a 155 (eg, the sound output module 155 of FIG. 1 ), a display module 160 , a memory 130 , or a processor 120 .
  • the components listed above may be operatively or electrically connected to each other.
  • the communication module 190 may be configured to transmit/receive data by being connected to an external device.
  • the microphone 151 may receive a sound (eg, a user's utterance) and convert it into an electrical signal.
  • the speaker 155 may output an electrical signal as a sound (eg, voice).
  • the display module 160 of an embodiment may be configured to display an image or a video.
  • the display module 160 according to an embodiment may display a graphic user interface (GUI) of an executed application (or an application program).
  • GUI graphic user interface
  • the memory 130 may store a client module 137 , a software development kit (SDK) 135 , and a plurality of apps 133 .
  • the client module 137 and the SDK 135 may constitute a framework (or a solution program) for performing general functions.
  • the client module 137 or the SDK 135 may configure a framework for processing a voice input.
  • the plurality of apps 133 stored in the memory 130 may be a program for performing a specified function.
  • the plurality of apps 133 may include a first app 130_1 and a second app 130_2.
  • each of the plurality of apps 133 may include a plurality of operations for performing a specified function.
  • the plurality of apps 133 may include an alarm app, a message app, and/or a schedule app.
  • the plurality of apps 133 may be executed by the processor 120 to sequentially execute at least some of the plurality of operations.
  • the processor 120 may control the overall operation of the electronic device 101 .
  • the processor 120 may be operatively or electrically connected to the communication module 190 , the microphone 151 , the speaker 155 , and the display module 160 to perform a specified operation.
  • the processor 120 may execute a program stored in the memory 130 to perform a designated function.
  • the processor 120 may execute at least one of the client module 137 and the SDK 135 to perform the following operations for processing a voice input.
  • the processor 120 may control the operation of the plurality of apps 133 through, for example, the SDK 135 .
  • the following operations described as operations of the client module 137 or the SDK 135 may be operations by the execution of the processor 120 .
  • the client module 137 may receive a voice input.
  • the client module 137 may receive a voice signal corresponding to the user's utterance sensed through the microphone 151 .
  • the client module 137 may transmit the received voice input to the intelligent server 201 .
  • the client module 137 may transmit status information of the electronic device 101 to the intelligent server 201 together with the received voice input.
  • the state information may be, for example, execution state information of an app.
  • the client module 137 may receive a result corresponding to the received voice input from the intelligent server 201 .
  • the client module 137 can calculate a result corresponding to the voice input received from the intelligent server 201 , it can receive a result corresponding to the received voice input from the intelligent server 201 .
  • the client module 137 may display the result received from the intelligent server 201 through the display module 160 .
  • the client module 137 may receive a plan corresponding to the voice input received from the intelligent server 201 .
  • the client module 137 may display a result of executing a plurality of operations of at least one app according to a plan on the display module 160 .
  • the client module 137 may, for example, sequentially display execution results of a plurality of operations on the display module 160 .
  • the client module 137 may display only a partial result of executing a plurality of operations (eg, a result of the last operation) on the display module 160 .
  • the client module 137 may receive a request from the intelligent server 201 to obtain information necessary for calculating a result corresponding to a voice input. According to an embodiment, the client module 137 may transmit the necessary information to the intelligent server 201 in response to the request.
  • the client module 137 of an embodiment may transmit result information of executing a plurality of operations according to the plan to the intelligent server 201 .
  • the intelligent server 201 may confirm that the received voice input has been correctly processed using the result information.
  • the client module 137 may include a voice recognition module. According to an embodiment, the client module 137 may recognize a voice input to perform a limited function through the voice recognition module. For example, the client module 137 may execute an intelligent app for processing a voice input through a specified input (eg, wake up!).
  • a voice recognition module may recognize a voice input to perform a limited function through the voice recognition module. For example, the client module 137 may execute an intelligent app for processing a voice input through a specified input (eg, wake up!).
  • the intelligent server 201 may receive information related to a user's voice input from the electronic device 101 through a communication network. According to an embodiment, the intelligent server 201 may change data related to the received voice input into text data. According to an embodiment, the intelligent server 201 may generate a plan for performing a task corresponding to a user's voice input based on text data.
  • the plan may be generated by an artificial intelligent (AI) system.
  • the artificial intelligence system may be a rule-based system, or a neural network-based system (eg, a feedforward neural network (FNN), a recurrent neural network (RNN)). ) may be Alternatively, the artificial intelligence system may be a combination of the above or other artificial intelligence systems.
  • the plan may be selected from a set of predefined plans, or may be generated in real time in response to a user request. For example, the artificial intelligence system may select at least one plan from among a plurality of predefined plans.
  • the intelligent server 201 may transmit a result according to the generated plan to the electronic device 101 or transmit the generated plan to the electronic device 101 .
  • the electronic device 101 may display a result according to the plan on the display module 160 .
  • the electronic device 101 may display the result of executing the operation according to the plan on the display module 160 .
  • the intelligent server 201 of an embodiment includes a front end 210, a natural language platform 220, a capsule DB 230, an execution engine 240, may include an end user interface 250 , a management platform 260 , a big data platform 270 , and/or an analytics platform 280 . have.
  • the front end 210 may receive a voice input from the electronic device 101 .
  • the front end 210 may transmit a response corresponding to the voice input to the electronic device 101 .
  • the natural language platform 220 includes an automatic speech recognition (ASR) module 221 , a natural language understanding (NLU) module 223 , and a planner module. ) 225 , a natural language generator (NLG) module 227 , and/or a text to speech (TTS) module 229 .
  • ASR automatic speech recognition
  • NLU natural language understanding
  • TTS text to speech
  • the automatic voice recognition module 221 may convert a voice input received from the electronic device 101 into text data.
  • the natural language understanding module 223 may recognize the user's intention by using text data of the voice input. For example, the natural language understanding module 223 may determine the user's intention by performing syntactic analysis and/or semantic analysis.
  • the natural language understanding module 223 recognizes the meaning of a word extracted from a voice input using a linguistic feature (eg, a grammatical element) of a morpheme or phrase, and matches the meaning of the identified word to the intention of the user. can be decided
  • the planner module 225 may generate a plan using the intent and parameters determined by the natural language understanding module 223 .
  • the planner module 225 may determine a plurality of domains required to perform the task based on the determined intention.
  • the planner module 225 may determine a plurality of operations included in each of the plurality of domains determined based on the intention.
  • the planner module 225 may determine a parameter required to execute the determined plurality of operations or a result value output by the execution of the plurality of operations. Parameters and result values can be defined in the concept of a specified type (or class).
  • the plan may include a plurality of actions and a plurality of concepts determined by the user's intention.
  • the planner module 225 may determine the relationship between the plurality of operations and the plurality of concepts in stages (or hierarchically). For example, the planner module 225 may determine the execution order of the plurality of operations determined based on the user's intention based on the plurality of concepts. In other words, the planner module 225 may determine the execution order of the plurality of operations based on parameters necessary for the execution of the plurality of operations and results output by the execution of the plurality of operations. Accordingly, the planner module 225 may generate a plan including related information (eg, ontology) between a plurality of operations and a plurality of concepts. The planner module 225 may generate a plan by using information stored in the capsule database 230 in which a set of relationships between concepts and operations is stored.
  • related information eg, ontology
  • the natural language generation module 227 may change the specified information into text form.
  • the information changed to the text form may be in the form of natural language utterance.
  • the text-to-speech conversion module 229 may change information in a text format into information in a voice format.
  • some or all of the functions of the natural language platform 220 may also be implemented in the electronic device 101 .
  • the capsule database 230 may store information on a relationship between a plurality of concepts and operations corresponding to a plurality of domains.
  • a capsule may include a plurality of action objects (or action information) and a concept object (or concept information) included in the plan.
  • the capsule database 230 may store a plurality of capsules in the form of a concept action network (CAN).
  • the plurality of capsules may be stored in a function registry included in the capsule database 230 .
  • the capsule database 230 may include a strategy registry in which strategy information necessary for determining a plan corresponding to a voice input is stored.
  • the strategy information may include reference information for determining one plan when there are a plurality of plans corresponding to the voice input.
  • the capsule database 230 may include a follow up registry in which information of a subsequent operation for suggesting a subsequent operation to the user in a specified situation is stored.
  • the subsequent operation may include, for example, a subsequent utterance.
  • the capsule database 230 may include a layout registry that stores layout information of information output through the electronic device 101 .
  • the capsule database 230 may include a vocabulary registry in which vocabulary information included in a capsule identifier (capsule ID) is stored.
  • the capsule database 230 may include a dialog registry (dialog registry) in which information about a dialog (or interaction) with a user is stored.
  • the capsule database 230 may update the stored object through a developer tool.
  • the developer tool may include, for example, a function editor for updating an action object or a concept object.
  • the developer tool may include a vocabulary editor for updating the vocabulary.
  • the developer tool may include a strategy editor for creating and registering strategies for determining plans.
  • the developer tool may include a dialog editor that creates a conversation with the user.
  • the developer tool can include a follow up editor that can edit subsequent utterances that activate follow-up goals and provide hints.
  • the subsequent goal may be determined based on a currently set goal, a user's preference, or an environmental condition.
  • the capsule database 230 may be implemented in the electronic device 101 as well.
  • the execution engine 240 of an embodiment may calculate a result using the generated plan.
  • the end user interface 250 may transmit the calculated result to the electronic device 101 . Accordingly, the electronic device 101 may receive the result and provide the received result to the user.
  • the management platform 260 may manage information used in the intelligent server 201 .
  • the big data platform 270 according to an embodiment may collect user data.
  • the analysis platform 280 of an embodiment may manage the quality of service (QoS) of the intelligent server 201 .
  • the analytics platform 280 may manage the components and processing speed (or efficiency) of the intelligent server 201 .
  • the service server 300 may provide a specified service (eg, food order or hotel reservation) to the electronic device 101 .
  • the service server 300 may be a server operated by a third party.
  • the service server 300 may provide information for generating a plan corresponding to the received voice input to the intelligent server 201 .
  • the provided information may be stored in the capsule database 230 .
  • the service server 300 may provide result information according to the plan to the intelligent server 201 .
  • the electronic device 101 may provide various intelligent services to the user in response to a user input.
  • the user input may include, for example, an input through a physical button, a touch input, or a voice input.
  • the electronic device 101 may provide a voice recognition service through an intelligent app (or a voice recognition app) stored therein.
  • the electronic device 101 recognizes a user utterance or a voice input received through the microphone 151 and provides a service corresponding to the recognized voice input to the user.
  • the electronic device 101 may perform a specified operation alone or together with the intelligent server 201 and/or the service server 300 based on the received voice input. For example, the electronic device 101 may execute an app corresponding to the received voice input and perform a specified operation through the executed app.
  • the electronic device 101 when the electronic device 101 provides a service together with the intelligent server 201 and/or the service server 300 , the electronic device 101 detects a user's utterance using the microphone 151 . and a signal (or voice data) corresponding to the sensed user's utterance may be generated. The electronic device 101 may transmit the voice data to the intelligent server 201 using the communication module 190 .
  • the intelligent server 201 In response to the voice input received from the electronic device 101 , the intelligent server 201 according to an exemplary embodiment performs a plan for performing a task corresponding to the voice input, or performs an operation according to the plan. results can be generated.
  • the plan may include, for example, a plurality of actions for performing a task corresponding to a user's voice input, and a plurality of concepts related to the plurality of actions.
  • the concept may define parameters input to the execution of the plurality of operations or result values output by the execution of the plurality of operations.
  • the plan may include a plurality of actions and association information between a plurality of concepts.
  • the electronic device 101 may receive the response using the communication module 190 .
  • the electronic device 101 outputs a voice signal generated inside the electronic device 101 to the outside using the speaker 155 or an image generated inside the electronic device 101 using the display module 160 to the outside. can be output as
  • FIG. 2 an example in which speech recognition of a speech input received by the electronic device 101, natural language understanding and generation, and calculation of a result using a plan are performed on the intelligent server 201 has been described, but various embodiments of the present document are not limited thereto.
  • the intelligent server 201 eg, natural language platform 220, execution engine 240, capsule database 230
  • the intelligent server 201 are embedded in the electronic device 101, so that the operation of the electronic device ( 101) may also be performed.
  • FIG. 3 is a diagram illustrating a form in which relation information between a concept and an operation is stored in a database, according to various embodiments of the present disclosure
  • the capsule database 230 of the intelligent server 201 may store the capsule in the form of a concept action network (CAN).
  • the capsule database 230 may store an operation for processing a task corresponding to a user's voice input and parameters necessary for the operation in a CAN format.
  • the capsule database 230 may store a plurality of capsules (eg, capsule A 401 and capsule B 404 ) corresponding to each of a plurality of domains (eg, applications).
  • one capsule eg, capsule A 401
  • one domain eg, location (geo), application.
  • at least one service provider eg, CP 1 402 or CP 2 403
  • one capsule may include at least one operation 410 and at least one concept 420 for performing a specified function.
  • the natural language platform 220 may generate a plan for performing a task corresponding to the received voice input by using the capsule stored in the capsule database 230 .
  • the planner module 225 of the natural language platform 220 may generate a plan using capsules stored in the capsule database 230 .
  • create plan 407 can do.
  • FIG. 4 is a diagram illustrating an example of a user interface through which an electronic device processes a voice input received through an intelligent application according to various embodiments of the present disclosure
  • the electronic device 101 may execute an intelligent app to process a user command (eg, voice input) through the intelligent server 201 .
  • a user command eg, voice input
  • the electronic device 101 when the electronic device 101 recognizes a specified voice input (eg, wake up!) or receives an input through a hardware key (eg, a dedicated hardware key), It can run intelligent apps to process voice input.
  • the electronic device 101 may, for example, run the intelligent app in a state in which the schedule app is running.
  • the electronic device 101 may display an object 451 (eg, an icon) corresponding to the intelligent app on the display module 160 .
  • the electronic device 101 may receive a voice input by a user's utterance.
  • the electronic device 101 may receive a voice input saying "Tell me about this week's schedule!
  • the electronic device 101 may display a user interface (UI) 313 (eg, an input window) of an intelligent app on which text data of the received voice input is displayed on the display module 160 .
  • UI user interface
  • the electronic device 101 may display a result corresponding to the received voice input on the display module 160 .
  • the electronic device 101 may receive a plan corresponding to a received user command (eg, a received voice input), and may display 'this week's schedule' on the display module 160 according to the plan.
  • FIG. 5 is a diagram for describing an example of an operation of performing device connection of an electronic device according to an exemplary embodiment.
  • an operation example of performing device connection between the first electronic device 510 and the second electronic device 520 using the user 500's voice may be shown.
  • the first electronic device 510 and the second electronic device 520 may be classified according to an operation (or operation mode) for performing device connection.
  • an electronic device 101 that initiates a device connection operation is referred to as a first electronic device 510
  • a target device eg, the first electronic device 510
  • the electronic device 101 performing the connection may be referred to as a second electronic device 520 .
  • the electronic device 101 is a personal digital assistant (PDA), a smart phone, a tablet PC (personal computer), a laptop PC, a smart speaker (eg, an artificial intelligence speaker (AI) artificial intelligent speaker), wearable device, display device (eg TV (television), monitor), digital camera, remote control device, HMD (head mounted) display), and/or various types of electronic devices such as Internet of Things (IoT) devices.
  • PDA personal digital assistant
  • a smart phone eg, a smart phone, a tablet PC (personal computer), a laptop PC, a smart speaker (eg, an artificial intelligence speaker (AI) artificial intelligent speaker), wearable device, display device (eg TV (television), monitor), digital camera, remote control device, HMD (head mounted) display), and/or various types of electronic devices such as Internet of Things (IoT) devices.
  • the electronic device 101 may include all or part of the components illustrated in FIG. 1 .
  • a user 500 initiates a device connection operation in the first electronic device 510 when the first electronic device 510 and the second electronic device 520 are connected to each other. Based on a specified input method among various input methods (eg, voice, button, touch, or gesture), the first electronic device 510 may command to start a device connection operation.
  • a specified input method among various input methods (eg, voice, button, touch, or gesture)
  • the first electronic device 510 may command to start a device connection operation.
  • the user 500 may utter a designated command for initiating a device connection operation, such as “connect me”.
  • the specified command includes not only a voice, but also a button (eg, a hardware button) input set to generate the specified command in the first electronic device 510 , a screen touch input, and a gesture ( or motion) control input, and/or a control signal input using a remote control device.
  • the user 500 uses a component designated for initiating a device connection operation to initiate the first electronic device 510 .
  • a user input for initiating a device connection operation by the device 510 may be performed.
  • the first electronic device 510 may determine a trigger of a device connection operation based on detecting a specified command according to a user input from the user 500 .
  • the first electronic device 510 generates a string related to the connection with the second electronic device 520 based on determining a trigger of the device connection operation (eg, initiation of the device connection operation). can create According to an embodiment, the first electronic device 510 may receive a user utterance from the user 500 and generate a string corresponding to the user utterance. According to another embodiment, the first electronic device 510 may generate a string based on selecting any one string from among at least one string previously stored in the memory 130 . According to another embodiment, the first electronic device 510 generates the string based on obtaining (eg, requesting and receiving) the string from the server 530 (eg, the intelligent server 201 or the string server of FIG. 2 ). can create
  • the first electronic device 510 may generate connection information of the first electronic device 510 .
  • the connection information is to be generated based on a communication module (eg, a Bluetooth module and/or a WiFi module) of the first electronic device 510 and a setting state (eg, activation/deactivation state) of the communication module.
  • a communication module eg, a Bluetooth module and/or a WiFi module
  • a setting state eg, activation/deactivation state
  • the first electronic device 510 may determine a device-to-device connection method type available in the first electronic device 510 and generate corresponding connection information based on the connection method type. have.
  • the connection information may include, based on the type of connection method, WiFi on/off state, Bluetooth on/off state, signal strength, and WiFi connection state information (eg, state information on whether to connect to another electronic device). or network information), Bluetooth connection state information, Bluetooth media access control (MAC) address information, WiFi MAC address information, service set identifier (SSID), password, code, and/or model of a communication module to be connected information (eg, a model name) and/or an identifier (eg, a device identifier and/or a device name) of the first electronic device 510 .
  • the first electronic device 510 transmits the string and connection information to the server 530 (eg, the intelligent server 201 or device information server of FIG. 2 ).
  • the first electronic device 510 may transmit device information (eg, a device identifier and/or a device name) of the first electronic device 510 together with the string and connection information to the server 530 . .
  • the server 530 may match and store (or store) the string and connection information based on receiving the string and connection information from the first electronic device 510 .
  • the first electronic device 510 transmits the string and connection information to the server 530 in parallel, sequentially, in reverse order, or heuristically, in parallel, sequentially, in reverse order, or heuristically, the string and information related to the string. (eg guide information) can be output externally.
  • the first electronic device 510 provides an output method (eg, auditory information (eg, audio ) output and/or visual information (eg, text, image, and/or video) output), a string and information related to the string may be output to the outside and provided to the user 500 .
  • the first electronic device 510 is ⁇ Say this. 'Open sesame'> may be output as auditory information and/or visual information.
  • 'say this' may be information related to a string (eg, guide information for a method of connecting a device to a user), and 'open sesame' may be the device of the first electronic device 510 . It may be a unique string to support a connection.
  • the string may be variously generated according to a user's utterance or random acquisition from an internal (eg, memory 130) or external (eg, server 530).
  • the user 500 may input a user utterance to the second electronic device 520 in operation 507 .
  • the user 500 may check a string (eg, open sesame) output from the first electronic device 510 and perform an utterance (eg, open sesame) corresponding to the checked string.
  • the user 500 uses a designated user input for starting voice recognition in the second electronic device 520 (eg, a designated button for wake-up and/or a designated voice command input).
  • the second electronic device 520 may be woken up, and the string generated in the first electronic device 510 may be uttered.
  • the second electronic device 520 transmits a string (eg, text) according to the received user utterance to the server 530 (eg: 2) to the intelligent server 201).
  • the second electronic device 520 analyzes (or verifies) the user's utterance based on receiving the user's utterance after waking up, and when the user utterance relates to device connection, a string ( For example, a request may be made to the server 530 to provide connection information matching a text) and a string.
  • the second electronic device 520 may also transmit device information (eg, a device identifier and/or a device name) of the second electronic device 520 to the server 530 in a string.
  • the server 530 may receive a string from the second electronic device 520 and match the received string with a stored (or stored) string to determine whether they match. For example, the server 530 compares a first string generated and received by the first electronic device 510 with a second string generated and received by the second electronic device 520 , and the first string It may be determined whether the second string and the second string match. According to an embodiment, when the first string and the second string match, the server 530 may transmit connection information matched to the first string to the second electronic device 520 in operation 511 .
  • the second electronic device 520 may receive connection information from the server 530 and perform a connection with the first electronic device 510 based on the received connection information. According to an embodiment, the second electronic device 520 switches the second electronic device 520 into a state connectable to the first electronic device 510 based on the connection information of the first electronic device 510 (or change), and thereafter, a connection with the first electronic device 510 may be started based on the connection information.
  • the second electronic device 520 determines an optimal connection method based on connection information of the first electronic device 510 , and the device of the second electronic device 520 based on the determined connection method.
  • a state may be changed (eg, a corresponding communication module is activated), and a connection with the first electronic device 510 may be performed based on the connection information.
  • the server 530 compares strings (eg, the first string and the second string) received from the first electronic device 510 and the second electronic device 520 .
  • strings eg, the first string and the second string
  • An example of an operation by interworking with the server 530 may be shown in which a match is determined through , and the result is provided to the second electronic device 520 .
  • the electronic device 101 eg, the second electronic device 520
  • an embedded voice recognition agent eg, ASR/NLU
  • the first electronic device 510 may include a state in which access to the Internet is impossible, or a state in which there is no WiFi module and only Bluetooth is supported. In this case, the first electronic device 510 may provide a pre-stored string to the user and convert a usable protocol (eg, Bluetooth) to an initial state.
  • a device type that transmits the string, a protocol type connectable, and a predefined device for the device Device connection may be performed by receiving (pre-define) default information together and searching for it.
  • both the first electronic device 510 and the second electronic device 520 may include a state in which access to the Internet is impossible, or a state in which there is no WiFi module and only Bluetooth is supported.
  • the first electronic device 510 may provide a previously stored string to the user and convert a usable protocol (eg, Bluetooth) to an initial state.
  • a usable protocol eg, Bluetooth
  • the second electronic device 520 checks whether the string input by the user matches the string stored on the second electronic device 520 , and the type of device that transmits the string, and the protocol type and device connectable It is also possible to check the predefined basic information about , search for it, and then connect the device.
  • the second electronic device 520 includes an embedded ASR (eASR) module and/or an embedded NLU (eNLU)
  • eASR embedded ASR
  • eNLU embedded NLU
  • FIG. 6 is a diagram for explaining an example of an operation of providing device connection based on interworking between an electronic device and a server according to an embodiment.
  • the first electronic device 510 transmits the connection information between the first string generated for the user's utterance and the first electronic device 510 to the server 530 (eg, the intelligent server 201 of FIG. 2 ). ) can be provided.
  • the second electronic device 520 may provide the server 530 with a request for the second string generated for the user's utterance and connection information matching the second string.
  • the server 530 determines whether the first string matches the second string, and provides connection information of the first electronic device 510 to the second electronic device 520 based on the match. can do.
  • the first electronic device 510 and the second electronic device 520 may connect based on connection information. For example, in FIG. 6 , device connection between the first electronic device 510 and the second electronic device 520 is based on interworking with the first electronic device 510 , the second electronic device 520 , and the server 530 . An example that supports this can be given.
  • the first electronic device 510 may receive a first user input 601 .
  • the first user input 601 is any one of various input methods designated based on the type of the first electronic device 510 among voice-based, button-based, screen touch-based, and/or remote control-based. may include.
  • the first user input 601 is a voice-based input (eg, connect me).
  • the user may initiate device connection through various input methods in the first electronic device 510 .
  • the first user input 601 according to the user's utterance may be, for example, an utterance with a clear intent indicating device connection.
  • the first electronic device 510 performs a first user input 601 through a string generation module 610 based on detecting reception of the first user input 601 . You can create a string related to .
  • the first electronic device 510 may generate a string according to the user's utterance.
  • the first electronic device 510 may activate the string generating module 610 based on the detection of the first user input 601 , and the string generating module 610 may respond to the user's utterance.
  • Strings eg open sesame seeds
  • the string generating module 610 obtains a string from the server 530 (eg, the string DB 630 ), or obtains a string predefined in the memory 130 of the first electronic device 510 . It is also possible to obtain a (pre-defined) string.
  • the first electronic device 510 outputs the generated string as a voice through a speaker (eg, the speaker 155 of FIG. 2 ), and/or a display module (eg, FIG. 1 ) It may be displayed on the screen through the display module 160 of the , and provided to the user.
  • a speaker eg, the speaker 155 of FIG. 2
  • a display module eg, FIG. 1
  • the first electronic device 510 (eg, the string generating module 610 ) includes various communication modules 620 (eg, the communication module 190 of FIG. 1 ) of the first electronic device 510 ). may be identified, and the type of a device-to-device connection method usable (or set) in the first electronic device 510 may be determined. According to an embodiment, the first electronic device 510 may generate connection information of the corresponding first electronic device 510 based on the type of the connection method. According to an embodiment, the connection information may include, for example, WiFi on/off state, Bluetooth on/off state, signal strength, Bluetooth connection state information, Bluetooth MAC address information, WiFi MAC address information, SSID, password, and/or Alternatively, it may include model information.
  • the first electronic device 510 may provide the string and connection information of the first electronic device 510 to the server 530 .
  • the string generated by the first electronic device 510 and connection information of the first electronic device 510 may be stored and managed in the device information DB 640 of the server 530 .
  • the server 530 may match and manage the string of the first electronic device 510 and the connection information to be related to each other.
  • the first electronic device 510 may provide a string and connection information and wait for a call (or a connection request) from an external electronic device (eg, the second electronic device 520 ).
  • the second electronic device 520 may receive the second user input 603 .
  • the second user input 603 may be input based on voice. For example, the user may utter the string identified through the first electronic device 510 in the second electronic device 520 to be connected with the first electronic device 510 .
  • the second electronic device 520 when receiving the second user input 603 (eg, a user utterance corresponding to a string), receives a voice signal according to the user utterance through the voice assistant 650 ( or an audio stream) to a string (e.g. text). For example, the second electronic device 520 searches for and maps an automatic speech recognition (ASR) module 651 that converts user utterance into natural language text and/or a capsule for processing the natural language converted into text. (natural language understanding) module 653 may be included.
  • ASR automatic speech recognition
  • the second electronic device 520 communicates with the voice assistant 650 (eg, the ASR module 651 and/or the NLU module 653 ) through a string verification module 660 . Based on this, it is possible to verify the user's utterance converted into a string (eg text).
  • the string verification module 660 is a unique string (eg, open sesame, AZAAC, or Goodbye) or not.
  • the string verification module 660 may verify a string including a general command for voice recognition and a unique string for device connection.
  • the second electronic device 520 processes the string Through the module (string handler) 670 , the corresponding string may be provided to the server 530 .
  • the string generated by the second electronic device 520 may be provided to the device information DB 640 of the server 530 .
  • the server 530 when the server 530 receives a string (hereinafter, referred to as a 'second string') from the second electronic device 520 , the server 530 currently stores the string in the device information DB 640 . Whether or not they match may be determined by matching the current string (eg, a string generated and received by the first electronic device 510 ) (hereinafter, referred to as a 'first string') with the second string. According to an embodiment, when the first string and the second string match, the server 530 transmits connection information matching the first string (eg, connection information received from the first electronic device 510) to the second string. It may be provided to the electronic device 520 .
  • a string hereinafter, referred to as a 'second string'
  • the server 530 when the first string and the second string match, the server 530 transmits connection information matching the first string (eg, connection information received from the first electronic device 510) to the second string. It may be provided to the electronic device 520 .
  • the server 530 may destroy (or delete) the strings obtained from the first electronic device 510 and the second electronic device 520 in the device information DB 640 for string recycling. .
  • the server 530 retrieves a corresponding string from the device information DB 640 at that time. It may be destroyed immediately.
  • the string parsing module 680 when the second electronic device 520 receives connection information (eg, text or syntax format) related to the first electronic device 510 from the server 530 , the string parsing module ) (680), it is possible to interpret the connection information.
  • the string parsing module 680 may interpret text or a syntax according to the connection information received from the server 530 according to a specified rule (eg, a grammar rule) and understand the meaning of the connection information.
  • the second electronic device 520 performs the various communication modules 690 of the second electronic device 520 (eg, in FIG. 1 ) based on the connection information interpreted by the string parsing module 680 .
  • the communication module 190 may identify the communication module 690 usable for connection with the first electronic device 510 and the state of the communication module 690 .
  • the second electronic device 520 determines an optimal connection method based on connection information of the first electronic device 510 , and the device of the second electronic device 520 based on the determined connection method.
  • a state may be changed (eg, a corresponding communication module is activated), and a connection with the first electronic device 510 may be performed based on the connection information.
  • the first electronic device 510 , the second electronic device 520 , and the server 530 are not limited to the components illustrated in FIG. 6 , and for example, the components illustrated in FIG. 1 or FIG. 2 . As described above, it can be implemented including various modules.
  • the server 530 compares strings (eg, the first string and the second string) received from the first electronic device 510 and the second electronic device 520 .
  • strings eg, the first string and the second string
  • Various embodiments are not limited thereto, and processing in an on-device state in the electronic device 101 (eg, the second electronic device 520 ) is also possible.
  • the second electronic device 520 executes the voice assistant 650 based on the user's wake-up utterance, and then responds to the user's utterance (eg, the second user input 603 ) as a second It may be compared with a string related to the first electronic device 510 pre-registered in the electronic device 520 . According to an embodiment, when the compared result strings match, the second electronic device 520 may obtain connection information related to the string from the server 530 . According to an embodiment, the second electronic device 520 checks the connection state of the second electronic device 520 based on the acquisition of connection information from the server 530 , and connects the first electronic device 510 . After changing the second electronic device 520 to a connectable state based on the information, a connection with the first electronic device 510 may be started based on the connection information.
  • the user when a user connects a device between the first electronic device 510 and the second electronic device 520 , the user performs a complex process by the first electronic device 510 and/or the second electronic device 520 .
  • the user only reads the string displayed on the screen of the first electronic device 510 (eg, TV) through the second electronic device 520 (eg, a smart phone), Device connection between the 510 and the second electronic device 520 may be automatically performed.
  • FIG. 7 is a diagram schematically illustrating a configuration of an electronic device according to an exemplary embodiment.
  • the electronic device 101 may include an audio module 170 , a communication module 190 , a display module 160 , a processor 120 , and/or a memory 130 .
  • an audio module 170 may include an audio module 170 , a communication module 190 , a display module 160 , a processor 120 , and/or a memory 130 .
  • the audio module 170 may correspond to the audio module 170 as described in the description with reference to FIG. 1 .
  • the audio module 170 may convert a sound into an electric signal or, conversely, convert an electric signal into a sound.
  • the audio module 170 acquires sound through the microphone 151 (eg, the input module 150 of FIG. 1 ), or the speaker 155 (eg, the sound output module ( 155)) to output the sound.
  • the microphone 151 may receive a sound (eg, a user's utterance) and convert it into an electrical signal.
  • the speaker 155 according to an exemplary embodiment may output an electrical signal as a sound (eg, voice).
  • a component of the microphone 151 may be omitted depending on the type of the electronic device 101 .
  • the electronic device 101 may be a smart speaker without a microphone 151 , a display device (eg, a TV or monitor), a white home appliance, and/or an IoT device.
  • the electronic device 101 in relation to obtaining (eg, generating or receiving) a string according to device connection, the electronic device 101 is configured with another input device (eg, a button, a touch screen, a remote control device, and/or the input module ( 150)) to initiate a device connection operation.
  • another input device eg, a button, a touch screen, a remote control device, and/or the input module ( 150)
  • the electronic device 101 outputs, through the speaker 155 , the acquired string and string-related information (eg, guide information) as sound (eg, voice) in response to device connection start. can do.
  • the acquired string and string-related information eg, guide information
  • sound eg, voice
  • the communication module 190 is a legacy network (eg, a 3G network and/or a 4G network), a 5G network, an out of band (OOB), and/or a next-generation communication technology (eg, a new radio (NR) technology). ) can be supported.
  • the communication module 190 may correspond to the wireless communication module 192 as illustrated in FIG. 1 .
  • the electronic device 101 uses the communication module 190 to communicate with an external device (eg, the server 108 of FIG. 1 , the intelligent server 201 of FIG. 2 , and/or the It may communicate with other electronic devices 102 and 104).
  • the electronic device 101 transmits a voice signal of a user's utterance input through the microphone 151 to a server (eg, the server of FIG. 5 or FIG. 6 ) through the communication module 190 during intelligent service operation. 530), and may receive a response result processed with respect to the voice signal of the user's utterance from the server.
  • a server eg, the server of FIG. 5 or FIG. 6
  • the communication module 190 during intelligent service operation. 530
  • the electronic device 101 when detecting a device connection start through a corresponding input module (eg, the input module 150 of FIG. 1 ) among various input methods during an intelligent device connection operation, the electronic device 101 , and/or a string obtained from the outside may be transmitted to a server (eg, the server 530 of FIG. 5 or FIG. 6 ) through the communication module 190 .
  • a server eg, the server 530 of FIG. 5 or FIG. 6
  • the electronic device 101 transmits a voice signal (eg, a string) of a user's utterance input through the microphone 151 to a server (eg, a diagram) through the communication module 190 during an intelligent device connection operation. 5 or the server 530 of FIG. 6 ), and connection information corresponding to a voice signal of a user's utterance (eg, connection information related to a target electronic device to which the electronic device 101 can connect) may be received from the server.
  • a voice signal eg, a string
  • a server eg, a diagram
  • connection information corresponding to a voice signal of a user's utterance eg, connection information related to a target electronic device to which the electronic device 101 can connect
  • the display module 160 may correspond to the display module 160 as described in the description with reference to FIG. 1 . According to an embodiment, the display module 160 may visually provide various information to the outside (eg, a user) of the electronic device 101 . According to an embodiment, the display module 160 includes a touch sensing circuit (or a touch sensor) (not shown), a pressure sensor capable of measuring the intensity of a touch, and/or a touch panel (eg, a magnetic field type stylus) detecting a stylus pen. : digitizer).
  • a touch sensing circuit or a touch sensor
  • a pressure sensor capable of measuring the intensity of a touch
  • a touch panel eg, a magnetic field type stylus
  • the display module 160 is a signal (eg, voltage, light quantity, resistance, electromagnetic signal and / Alternatively, a touch input and/or a hovering input (or a proximity input) may be sensed by measuring a change in the amount of electric charge.
  • the display module 160 may include a liquid crystal display (LCD), an organic light emitted diode (OLED), and an active matrix organic light emitted diode (AMOLED).
  • the display module 160 may be configured as a flexible display.
  • the display module 160 may visually provide various information (eg, a user interface) related to performing an intelligent device connection and a response result processed to a user's utterance under the control of the processor 120 .
  • the electronic device 101 in response to initiation of device connection, may display a string and information related to the string (eg, guide information) through the display module 160 .
  • components of the display module 160 may be omitted depending on the type of the electronic device 101 .
  • the electronic device 101 may be a smart speaker, white goods, and/or IoT device without the display module 160 .
  • the electronic device 101 may output the string and information related to the string as a sound (eg, voice) through the speaker 155 in relation to the string output according to the device connection.
  • the memory 130 may correspond to the memory 130 as described in the description with reference to FIG. 1 .
  • the memory 130 may store various data used by the electronic device 101 .
  • the data may include, for example, input data or output data for an application (eg, the program 140 of FIG. 1 ) and a command related thereto.
  • the memory 130 may include an application related to operating an intelligent device connection function (or operation), which may be performed by the processor 120 .
  • the device connection function may be performed by a device connection application.
  • the device connection application may be stored as software (eg, the program 140 of FIG. 1 ) on the memory 130 and may be executable by the processor 120 .
  • the device connection function by the device connection application connects the devices of the electronic device 101 based on a user utterance on the electronic device 101 (eg, the first electronic device 510 and the second electronic device ( 520) may be a function supporting an operation of automatically performing device connection).
  • the memory 130 may store data related to operating a device connection function. According to an embodiment, data is generated based on a string 710 obtained from inside or outside during a device connection operation, and the state of the communication module 190 and the communication module 190 of the electronic device 101 . connection information 720 . According to an embodiment, the memory 130 may store and manage the string 710 and the connection information 720 as a database.
  • the string 710 may be discarded (or deleted) from the memory 130 after a predetermined time for string recycling. According to some embodiments, when the device connection of the electronic device 101 is made within a predetermined time, the string 710 may be immediately destroyed at the corresponding point in time. According to an embodiment, the connection information 720 may be adaptively updated based on an operation state related to the communication module 190 of the electronic device 101 and/or a user's communication method setting.
  • the memory 130 may store at least one module for processing a device connection function, which may be performed by the processor 120 .
  • the memory 130 may include at least a portion of the string generation module 730 , the state identification module 740 , the string verification module 750 , the string processing module 760 , and/or the string parsing module 770 . It may be included in the form of software (or in the form of instructions).
  • the processor 120 may control an operation (or processing) related to performing an intelligent device connection service (eg, a device connection function) in the electronic device 101 .
  • an intelligent device connection service eg, a device connection function
  • the device connection eg, the first electronic device 510 and the second electronic device 520 ) of the electronic device 101 based on a user utterance ) to automatically perform device connection
  • the device connection can be controlled.
  • the processor 120 may detect device connection initiation based on a specified user input. According to an embodiment, the processor 120 may generate a string and connection information for connection with another electronic device based on the detection of device connection initiation. According to an embodiment, the processor 120 outputs the string through a specified output module (eg, the speaker 155 and/or the display module 160), and outputs the string and connection information externally (eg, the server 530). ) can be transmitted. According to an embodiment, the processor 120 may perform a connection with another electronic device based on receiving a connection request from the other electronic device.
  • a specified output module eg, the speaker 155 and/or the display module 160
  • the processor 120 may perform a connection with another electronic device based on receiving a connection request from the other electronic device.
  • the processor 120 when providing an intelligent device connection service, receives a user utterance related to device connection with another electronic device, and acquires a string related to another electronic device based on receiving the user utterance can do. According to an embodiment, the processor 120 determines whether the user utterance and the string match, and when the user utterance and the string match, the processor 120 performs a connection with the other electronic device based on connection information related to the other electronic device. can do.
  • the processor 120 may determine an operation mode of the electronic device based on a user input. According to an embodiment, the processor 120 generates and transmits a string and connection information for device connection with another electronic device to the outside based on the first operation determination, and requests a connection from the other electronic device based on the connection information You can wait for reception. According to an embodiment, the processor 120 may perform a connection with another electronic device based on receiving a connection request from the other electronic device. According to an embodiment, the processor 120 may receive a user's utterance based on the second operation determination, and obtain a string and connection information related to a device connection with another electronic device. According to an embodiment, when the user's utterance and the string match, the processor 120 may perform a connection with another electronic device based on the connection information.
  • the processor 120 may include at least one module for processing a voice-based device connection function.
  • the processor 120 may include a string generation module 730 , a status identification module 740 , a string verification module 750 , a string processing module 760 , and/or a string parsing module 770 . have.
  • the string generation module 730 may generate a unique string. According to an embodiment, the string generating module 730 generates a string corresponding to the user's utterance, obtains the string from the server 530 (eg, the string DB 630 ), or the memory of the electronic device 101 . A pre-defined string may be obtained at 130 .
  • the state identification module 740 may identify a type of a connection method usable in the electronic device 101 . According to an embodiment, the state identification module 740 may generate connection information based on the type of connection method. According to an embodiment, the state identification module 740 may determine a connection method for performing a connection with another electronic device based on the connection information. According to an embodiment, the state identification module 740 may switch the state of the electronic device 101 to a state connectable with another electronic device based on the determined connection method.
  • the string verification module 750 may verify the user's utterance converted into a string (eg, text).
  • the string verification module 750 is a unique string (eg, open sesame, AZAAC, or good bye) that is not defined in a specified format such as a string generated by the electronic device 101 according to a user's utterance. ) can be determined.
  • the string verification module 660 may verify a string including a general command for voice recognition and a unique string for device connection.
  • the string processing module 760 may provide the corresponding string to the server 530 when the user's utterance is verified as a unique string based on the verification result by the string verification module 750 . . According to an embodiment, the string processing module 760 may obtain connection information matched with the string from the server 530 . According to an embodiment, the string processing module 760 may provide the obtained connection information to the string parsing module 770 .
  • the string parsing module 770 may interpret the connection information. According to an embodiment, the string parsing module 770 may interpret text or a syntax according to the connection information received from the server 530 according to a specified rule (eg, a grammar rule) and understand the meaning of the connection information.
  • a specified rule eg, a grammar rule
  • the string generation module 730 , the state identification module 740 , the string verification module 750 , the string processing module 760 , and/or the string parsing module 770 may include a hardware module ( It may be implemented as software including one or more instructions that may be included in the processor 120 , eg, as circuitry, and/or may be executed by the processor 120 . For example, operations performed by the processor 120 may be stored in the memory 130 and executed by instructions that cause the processor 120 to operate when executed.
  • the processor 120 may control various operations related to a normal function of the electronic device 101 in addition to the above functions. For example, the processor 120 may control its operation and screen display when a specified application is executed. As another example, the processor 120 may receive input signals corresponding to various touch events or proximity event inputs supported by a touch-based or proximity-based input interface, and control function operation accordingly.
  • the electronic device 101 is not limited to the components illustrated in FIG. 7 , and at least one component may be omitted or added.
  • the electronic device 101 may include a voice recognition module (not shown) (eg, the voice assistant 650 of FIG. 6 ).
  • the voice recognition module may represent an embedded ASR (eASR) module and/or an embedded NLU (eNLU).
  • eASR embedded ASR
  • eNLU embedded NLU
  • a voice recognition module converts a voice input received through the microphone 151 of the electronic device 101 into text data according to a user's utterance, and internally processes and/or process the converted text data.
  • it may be provided as a server (eg, the server 530 of FIG. 5 or FIG. 7 ).
  • the electronic device 101 may use another input device to receive an input for starting a device connection service and generate a corresponding string.
  • the electronic device 101 when the electronic device 101 is a device without the display module 160 or an operation mode in which the use of the display module 160 is restricted (eg, a mobile driving mode), the TTS (text to speech) may output a string as audio and provide it to the user.
  • the TTS text to speech
  • the electronic device 101 or the server 530 includes a voice recognition device (eg, a voice assistant) for supporting a voice-based device connection service according to various embodiments of the present disclosure.
  • a voice recognition device eg, a voice assistant
  • a single entity in 101 or server 530 may process various embodiments of the present disclosure.
  • the electronic device 101 includes, for example, a component for voice recognition processing of the server 530 as illustrated in FIGS. 2, 5 or 6 , and includes a voice recognition device (eg, : voice assistant) and may operate in a manner of performing voice recognition processing standalone without interaction with the server 530 .
  • a voice recognition device eg, : voice assistant
  • the server 530 includes, for example, a string generation module 730, a state identification module 740, a string verification module 750, a string processing module 760, as illustrated in FIG.
  • a voice recognition device eg, voice assistant
  • a voice signal related to an utterance transmitted from the electronic device 101 may be exclusively processed and , and providing a response result thereto to the electronic device 101 .
  • At least some components of the voice recognition device eg, voice assistant
  • various modules for device connection processing are implemented as a hardware module or a software module, and the electronic device 101 or the server ( It is implemented in a form mounted on the 530 , and operations according to various embodiments may be processed by any one component (eg, the electronic device 101 or the server 530 ) including the voice recognition device.
  • the device for generating the string, the device for comparing the string, and/or the device for storing the string are respectively included in the server 530 or the electronic device 101 according to a condition of the corresponding electronic device. Also, a device for recognizing a user's utterance and converting it into a string may also be included in the server 530 or the electronic device 101 .
  • Various embodiments described in the present disclosure may be implemented in a recording medium readable by a computer or a similar device using software, hardware, or a combination thereof.
  • the recording medium generates a string and connection information for device connection with another electronic device based on an operation of determining an operation mode of the electronic device based on a user input and a determination of the first operation and transmitting the generated string and connection information to the outside.
  • a program for executing an operation to perform an operation an operation of acquiring a string and connection information related to device connection with another electronic device, and an operation of performing connection with another electronic device based on the connection information when the user's utterance and the string match It may include a computer-readable recording medium.
  • the electronic device 101 for supporting device connection based on voice recognition includes a communication module 190, an output module (eg, a speaker 155 and/or a display module 160); a memory (130) and a processor (120) operatively coupled to the communication module (190), the output module, and the memory (130), wherein the processor (120) is configured to connect a device based on a specified user input Detect an initiation, generate a string and connection information for connection with another electronic device, output the string through the output module, transmit the string and connection information to the outside, and connect from the other electronic device It may be configured to establish a connection with the other electronic device based on receiving the request.
  • an output module eg, a speaker 155 and/or a display module 160
  • a memory (130) and a processor (120) operatively coupled to the communication module (190), the output module, and the memory (130), wherein the processor (120) is configured to connect a device based on a specified user input Detect an initiation, generate a string
  • the designated user input may include a user speech input, a button input configured to generate a designated command in the electronic device 101 , a screen touch input, a gesture control input of the electronic device 101 , and/or It may include an input method for starting a device connection operation based on the control signal input using the remote control device.
  • the processor 120 may be configured to detect a device connection start based on the user's first utterance, and to generate a string related to connection with the other electronic device based on the user's second utterance.
  • the processor 120 may be configured to generate the string based on a user utterance input, selection of at least one string previously stored in the memory, or obtaining a string from a server.
  • the processor 120 may be configured to output the string and information related to the string as auditory information and/or visual information through the output module.
  • the processor 120 may be configured to identify the state of the electronic device 101 and generate the connection information based on the state identification.
  • the processor 120 may be configured to determine a type of a device-to-device connection method usable in the electronic device 101 and to generate corresponding connection information based on the type of the connection method.
  • the electronic device 101 for supporting device connection based on voice recognition includes a communication module 190 , a microphone 151 , a memory 130 , and the communication module 190 , the a microphone 151 and a processor 120 operatively connected to the memory 130, wherein the processor 120 receives a user utterance related to device connection with another electronic device, and receives the user utterance based on obtaining a string related to the other electronic device, determining whether the user utterance matches the string, and when the user utterance and the string match, based on connection information related to the other electronic device, It may be configured to perform a connection with the other electronic device.
  • the processor 120 obtains a string and connection information related to a device connection with the other electronic device based on the user's utterance, and matches the user's utterance with the string based on the matching. It may be configured to determine a connection method for performing connection with the other electronic device based on the connection information.
  • the processor 120 may be configured to change the state of the electronic device 101 to a state connectable to the other electronic device based on the determined connection method.
  • the processor 120 may be configured to obtain a string related to the other electronic device from the other electronic device, the server 530 or the memory 130 .
  • the processor 120 obtains a string related to the other electronic device from the server 530 , and matches the string from the server 530 when the user utterance and the string match. It may be configured to obtain the connected information.
  • the processor 120 receives the user utterance, transmits the user utterance to the server 530 , and based on that the user utterance matches a specified string by the server 530 .
  • the processor 120 may be configured to obtain the connection information matched to the user's utterance from the server 530 .
  • the processor 120 is configured to wake up based on a specified user input for initiating voice recognition, receive a user utterance related to a string generated by another electronic device, and verify the user utterance. can be set.
  • the processor 120 may be configured to verify whether the string according to the user's utterance is a unique string that is not defined in a specified format.
  • the electronic device 101 for supporting device connection based on voice recognition includes a communication module 190 , an input module 150 , an output module (eg, a speaker 155 ) and/or a display. module 160 ), memory 130 , and processor 120 .
  • the processor 120 determines an operation mode of the electronic device 101 based on a user input, and based on the first operation determination, a string and connection information for device connection with another electronic device may be configured to generate and transmit to the outside, wait for reception of a connection request from the other electronic device based on the connection information, and perform a connection with the other electronic device based on the reception of the connection request.
  • the processor 120 receives a user utterance based on the second operation determination, obtains a string and connection information related to a device connection with another electronic device, and sets the string between the user utterance and the string Upon matching, it may be configured to establish a connection with the other electronic device based on the connection information.
  • operations performed by the electronic device 101 are performed by a processor (eg, the processor 120 of FIG. 1 or FIG. 7 ) including at least one processing circuitry of the electronic device 101 . ) can be executed by According to an embodiment, the operations performed by the electronic device 101 may be stored in the memory 130 and, when executed, may be executed by instructions that cause the processor 120 to operate.
  • a processor eg, the processor 120 of FIG. 1 or FIG. 7
  • the operations performed by the electronic device 101 may be stored in the memory 130 and, when executed, may be executed by instructions that cause the processor 120 to operate.
  • FIG. 8 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • the electronic device 101 operates as the first electronic device 510 in FIG. 5 or 6 , and according to the operation of the first electronic device 510 , the device An example of an operation supporting a connection service may be shown.
  • the electronic device 101 determines a first operation mode among operation modes (eg, a first operation mode and a second operation mode) of the electronic device 101 based on a user input, and 1 Example of generating a string and connection information to support a connection with another electronic device based on an operation mode and transmitting it to the outside, and connecting with another electronic device based on receiving a connection request from another electronic device based on the connection information can represent
  • operation modes eg, a first operation mode and a second operation mode
  • the processor 120 of the electronic device 101 may detect a voice-based device connection start.
  • a voice-based device connection start when a user initiates a device connection service, a designated input method among various input methods (eg, voice, button, touch, or gesture) for initiating a device connection operation in the electronic device 101 . Based on the , it is possible to command to start the device connection operation.
  • various input methods eg, voice, button, touch, or gesture
  • the user utters a designated command for initiating a device connection operation, a designated button (eg, a hardware button) input, a screen touch input, a gesture (or motion) control input of the electronic device 101 , and/or a remote control input.
  • a user input such as a control signal input using a control device may be performed.
  • the processor 120 may detect the initiation of a device connection operation based on detecting a specified command according to a user input.
  • the processor 120 may generate a string and connection information based on detection of the initiation of a device connection operation.
  • the processor 120 may generate a string for device connection between the electronic device 101 and another electronic device. According to an embodiment, the processor 120 selects any one of a string corresponding to the user's utterance received from the user, at least one string previously stored in the memory 130 , and obtains from the server 530 (eg, a request). and a string received) may generate a string related to device connection.
  • the processor 120 may generate connection information based on a setting state of the communication module 190 and/or the communication module 190 of the electronic device 101 .
  • the processor 120 may determine a device-to-device connection method type usable in the electronic device 101 , and generate corresponding connection information based on the connection method type.
  • connection information may include, based on the type of connection method, WiFi on/off state, Bluetooth on/off state, signal strength, and WiFi connection state information (eg, state information on whether to connect to another electronic device). or network information), Bluetooth connection state information, Bluetooth media access control (MAC) address information, WiFi MAC address information, service set identifier (SSID), password, code, and/or model of a communication module to be connected information (eg, a model name) and/or an identifier of the electronic device 101 (eg, a device identifier and/or a device name).
  • WiFi connection state information eg, state information on whether to connect to another electronic device. or network information
  • Bluetooth connection state information e.g, Bluetooth media access control (MAC) address information, WiFi MAC address information, service set identifier (SSID), password, code, and/or model of a communication module to be connected information (eg, a model name) and/or an identifier of the electronic device 101 (eg, a device identifier and/or a device name
  • the processor 120 may output a string.
  • the processor 120 outputs a string and information related to the string to the user in an output method specified according to the type of the electronic device 101 (eg, presence or absence of a speaker and/or a display module) to the outside.
  • the specified output method may include output of auditory information (eg, audio) and/or output of visual information (eg, text, image, and/or video).
  • the string may be a unique string for supporting device connection of the electronic device 101 .
  • the processor 120 may control the communication module 190 to transmit the string and connection information to the outside (eg, the server 530 ).
  • the output operation of operation 805 and the transmission operation of operation 807 are not limited to the illustrated order, and may be performed in parallel, sequentially, in reverse order, or heuristically.
  • the processor 120 may transmit a string and connection information and wait for a connection request from another electronic device.
  • the processor 120 may initiate a connection between the electronic device 101 and the other electronic device based on receiving a connection request from the other electronic device.
  • the processor 120 receives a connection request from another electronic device based on connection information, and communicates with another electronic device through a specified communication module (or communication method) based on the connection request according to the specified connection information. connection can be performed directly.
  • FIG. 9 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • the electronic device 101 operates as the first electronic device 510 in FIG. 5 or 6 , and according to the operation of the first electronic device 510 , the device An example of an operation supporting a connection service may be shown.
  • the electronic device 101 determines a first operation mode among operation modes (eg, a first operation mode and a second operation mode) of the electronic device 101 based on a user input, 1
  • a first operation mode among operation modes (eg, a first operation mode and a second operation mode) of the electronic device 101 based on a user input
  • 1 Example of generating a string and connection information to support a connection with another electronic device based on an operation mode and transmitting it to the outside, and connecting with another electronic device based on receiving a connection request from another electronic device based on the connection information can represent
  • the processor 120 of the electronic device 101 may detect a voice-based device connection start.
  • the user utters a designated command for initiating a device connection operation, a designated button (eg, a hardware button) input, a screen touch input, a gesture (or motion) control input of the electronic device 101 , and/or A user input such as a control signal input using a remote control device may be performed.
  • the processor 120 may detect the initiation of a device connection operation based on detecting a specified command according to a user input.
  • the processor 120 may receive the user's utterance based on detection of the initiation of the device connection operation. According to an embodiment, the processor 120 recognizes a wake-up based on detecting the initiation of a device connection operation, executes a voice assistant based on the wake-up, and when the user inputs a utterance through the voice assistant , an audio stream (or a voice signal) according to the user's utterance may be obtained.
  • the processor 120 may generate a string based on reception of the user's utterance.
  • the processor 120 may convert an audio stream according to the user's utterance into text, and use the converted text as a string.
  • the processor 120 may operate to detect wake-up and device connection start based on the user's first utterance, and generate a string related to connection with another electronic device based on the user's second utterance. may be
  • the processor 120 may output string information.
  • the processor 120 externally outputs string information including strings and information related to strings in an output method specified according to the type of the electronic device 101 (eg, presence or absence of a speaker and/or a display module). It can be printed out and provided to the user.
  • the specified output method may include output of auditory information (eg, audio) and/or output of visual information (eg, text, image, and/or video).
  • the processor 120 displays the converted text and guide information through the display module 160, and/or converts the converted text and guide information into a playable audio stream (eg, TTS) It may output through the speaker 155 .
  • a playable audio stream eg, TTS
  • the processor 120 may generate connection information based on identification of the connection method of the electronic device 101 .
  • the processor 120 may generate connection information based on a setting state of the communication module 190 and/or the communication module 190 of the electronic device 101 .
  • the processor 120 may determine a device-to-device connection method type usable in the electronic device 101 , and generate corresponding connection information based on the connection method type.
  • connection information may include, based on the type of connection method, WiFi on/off state, Bluetooth on/off state, signal strength, and WiFi connection state information (eg, state information on whether to connect to another electronic device). or network information), Bluetooth connection status information, Bluetooth MAC address information, WiFi MAC address information, SSID, password, code, and/or model information (eg, model name) of the communication module to be connected to, and/or the electronic device 101 . of an identifier (eg, a device identifier and/or a device name).
  • the output operation of operation 907 and the generation operation of operation 909 are not limited to the illustrated order, and may be performed in parallel, sequentially, in reverse order, or heuristically.
  • the processor 120 may control the communication module 190 to transmit the string and connection information to the outside (eg, the server 530 ).
  • the processor 120 may transmit a string and connection information, and detect reception of a connection request from another electronic device. According to an embodiment, the processor 120 may transmit a string and connection information, and wait for reception of a connection request from another electronic device for a predetermined time.
  • the processor 120 may perform a connection between the electronic device 101 and the other electronic device based on detecting reception of a connection request from the other electronic device.
  • the processor 120 receives a connection request from another electronic device based on connection information, and communicates with another electronic device through a specified communication module (or communication method) based on the connection request according to the specified connection information. connection can be performed directly.
  • the user performs device connection based on voice or the user performs device connection using a designated button or menu of the electronic device 101 .
  • the electronic device 101 may identify another electronic device to be connected by analyzing the user's utterance.
  • the user may input a utterance including a connection target device, such as “send a video file to my tablet”.
  • the electronic device 101 may convert the user's utterance into natural language text independently or based on server interworking.
  • the electronic device 101 may process and predict the natural language converted into text.
  • the electronic device 101 processes and predicts the converted natural language, so that the user's utterance is the device connection, the connection target device (eg, another electronic device) is the user's tablet PC, and the device is connected to the tablet PC
  • the electronic device 101 may predict the user's intention to transmit a video file to the tablet PC by connecting the electronic device 101 and the tablet PC.
  • the electronic device 101 generates information (eg, guide information) related to a specified string (eg, open sesame) and a string including information on a connection target device according to the initiation of device connection,
  • a string may be output through an output module (eg, the speaker 155 and/or the display module 160 ) of the electronic device 101 .
  • the electronic device 101 may output string information such as "Please say sesame to open on the tablet PC!”
  • the electronic device 101 transmits the generated string to the server 530 and/or transmits the generated string to other nearby electronic devices through broadcasting, so that the electronic device ( 101) can be registered externally.
  • a user may input a utterance without including a connection target device, such as “Send a video file”.
  • the electronic device 101 may convert the user's utterance into natural language text independently or based on server interworking.
  • the electronic device 101 may process and predict the natural language converted into text. For example, through processing and prediction of the converted natural language, the electronic device 101 may identify that the user's utterance is a device connection and an intention to transmit a video file to a connection target device through device connection.
  • the electronic device 101 may predict the user's intention to transmit a video file to the other electronic device by connecting the electronic device 101 and any other electronic device.
  • the electronic device 101 generates information (eg, guide information) related to a specified string (eg, open sesame) and a string that does not include information on a connection target device according to the initiation of device connection.
  • a string may be output through an output module (eg, the speaker 155 and/or the display module 160 ) of the electronic device 101 .
  • the electronic device 101 may output string information such as “Please say sesame to open in the device to be connected!”.
  • the electronic device 101 transmits the generated string to the server 530 and/or transmits the generated string to other nearby electronic devices through broadcasting, Strings can also be registered externally.
  • the electronic device 101 may select one of a plurality of electronic devices (eg, electronic devices grouped based on a user account) pre-registered by a user inputting a utterance. Any one may be preselected as a target electronic device to be connected.
  • the device connection information generated by the first electronic device 510 includes a corresponding voice identifier (voice ID) to compare the voice identifier according to the user's utterance input from the second electronic device 520 .
  • voice ID voice corresponding voice identifier
  • 10A, 10B, and 10C are diagrams for explaining an example of outputting connection information from an electronic device according to an exemplary embodiment.
  • 10A, 10B, and 10C show various examples of outputting string information 1000 based on the type of the electronic device 101 in the electronic device 101 according to various embodiments.
  • the string information 1000 may include a string 1010 and information 1020 related to the string 1010 .
  • the string information 1000 is ⁇ Say this in the device to be connected. Assuming that 'open sesame'>, 'say this on the device you want to connect' may be information 1020 related to the string (eg, guide information for how to connect a device to the user), and 'open sesame (open sesame)' )' may be a unique string 1010 for supporting device connection of the electronic device 101 .
  • the type of the electronic device 101 is the first electronic device 1001 (eg, a smart phone) including the speaker 155 and the display module 160
  • the electronic device 101 is an electronic device.
  • a type of the device 101 is a second electronic device 1002 (eg, a display device (eg, a TV or monitor)) having a speaker 155 and a display module 160
  • the electronic device 101 is An example in which the type is the third electronic device 1003 (eg, a smart speaker) having no display module 160 and only a speaker 155 may be shown.
  • the electronic device 101 having the speaker 155 and the display module 160 (eg, the first electronic device 1001 and the second electronic device ( 1003)), the string information 1000 may be output through the speaker 155 and/or the display module 160 .
  • the electronic device 101 outputs the string information 1000 as sound (eg, voice) through the speaker 155 and/or displays it on the screen through the display module 160 .
  • the electronic device 101 may ⁇ say this from the device to be connected. 'Open sesame'> may be output as auditory information and/or visual information.
  • the string information 1000 is transmitted through the speaker 155 .
  • the electronic device 101 may output the string information 1000 as a sound (eg, voice) through the speaker 155 .
  • the electronic device 101 may ⁇ say this from the device to be connected. ‘Open Sesame’> can be output as auditory information.
  • the string information 1000 may be outputted as audio in text to speech (TTS) and provided to the user.
  • TTS text to speech
  • the electronic device 101 is a device including an output module (eg, the speaker 155 and the display module 160 ), and any one module (eg, the speaker 155 or the display module 160 ) ) in an environment where the use of string information 1000 is limited, an output method capable of outputting the string information 1000 may be determined, and the string information 1000 may be provided to the user based on the determined output method.
  • an output module eg, the speaker 155 and the display module 160
  • any one module eg, the speaker 155 or the display module 160
  • the string information 1000 may be provided to the user based on the determined output method.
  • the electronic device 101 is in an environment in which the use of the speaker 155 is restricted (eg, the volume level of the speaker 155 is below a specified level (eg, 'about 0 level')), and the display module ( If the use of 160) is possible, the string information 1000 may be displayed on the screen to provide it to the user.
  • the use of the speaker 155 is restricted (eg, the volume level of the speaker 155 is below a specified level (eg, 'about 0 level'))
  • the display module If the use of 160) is possible
  • the string information 1000 may be displayed on the screen to provide it to the user.
  • the string information 1000 as TTS can be provided to the user by outputting it as audio.
  • the electronic device 101 when both the output module (eg, the speaker 155 and the display module 160) can be used, the electronic device 101 simultaneously displays the string information 1000 on the screen and outputs the audio. It may be provided or may be output in any one method according to priority designation.
  • the electronic device 101 when the use of the output module (eg, the speaker 155 and the display module 160) is both restricted, the electronic device 101 sends an alarm (eg, vibration, flashing lamp) specified to the user. You can also notify the user of an error condition.
  • an alarm eg, vibration, flashing lamp
  • FIG. 11 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • the electronic device 101 operates as the second electronic device 520 in FIG. 5 or 6 , and according to the operation of the second electronic device 520 , the device An example of an operation supporting a connection service may be shown.
  • the electronic device 101 determines a second operation mode among operation modes (eg, a first operation mode and a second operation mode) of the electronic device 101 based on a user input, 2 Based on the operation mode, a string and connection information related to a connection with another electronic device are obtained, and a string is matched based on the user's utterance.
  • FIG. 11 may show an example in which the electronic device 101 processes device connection in an on-device state.
  • the processor 120 of the electronic device 101 may receive a user utterance.
  • the processor 120 may receive a voice signal (or an audio stream) related to a user's utterance through the microphone 151 .
  • the processor 120 may recognize a wake-up based on a specified user utterance, and execute the voice assistant based on the wake-up.
  • the processor 120 may acquire a voice signal according to the user utterance.
  • the user may input a user's utterance through the microphone 151 of the electronic device 101 .
  • the user may check a string (eg, open sesame) output from another electronic device and perform an utterance (eg, open sesame) corresponding to the checked string.
  • the user may wake up the electronic device 101 with a specified user input for initiating voice recognition in the electronic device 101 , and may utter a string to the electronic device 101 .
  • the user input may include an input via a designated button for wake-up and/or an input via a designated voice command.
  • the processor 120 may acquire a string based on receiving the user's utterance. According to an embodiment, the processor 120 acquires a string based on a request and reception of a string registered internally (eg, the memory 130) or a string registered externally (eg, the server 530). can
  • the processor 120 may compare the user utterance with the string.
  • the processor 120 converts an audio stream according to the user's utterance into text, matches the converted text (eg, a first string) and an obtained string (eg, a second string) to determine whether they match can be judged
  • the processor 120 compares the first string generated by the electronic device 101 with a second string generated and obtained by another electronic device, and whether the first string and the second string match can be judged
  • the processor 120 may transmit a string (eg, text) according to the received user utterance to the server 530 based on the reception of the user utterance, and to the server 530 . can be used to compare strings.
  • the electronic device 101 analyzes (or verifies) the user's utterance based on receiving the user's utterance after waking up, and when the user utterance relates to device connection, a string according to the user's utterance (eg: text) and a request to the server 530 to provide connection information matching the string.
  • connection information related to another electronic device e.g., the first string
  • the processor 120 returns to connection information related to another electronic device. Based on this, a connection with another electronic device may be performed.
  • the processor 120 calls connection information matched to a second string registered internally (eg, memory 130) or matches a second string registered externally (eg, server 530) Connection information may be acquired based on the request and reception of the connected connection information.
  • the processor 120 switches (or changes) the electronic device 101 to a state capable of being connected to another electronic device based on the connection information of the other electronic device, and thereafter, the other electronic device based on the connection information. You can start connecting with .
  • the processor 120 determines an optimal connection method based on connection information of another electronic device, and changes the device state of the electronic device 101 based on the determined connection method (eg, corresponding communication). module activation), and a connection with another electronic device may be performed based on the connection information.
  • FIG. 12 is a flowchart illustrating a method of operating an electronic device according to an exemplary embodiment.
  • the electronic device 101 operates as the second electronic device 520 in FIG. 5 or 6 , and according to the operation of the second electronic device 520 , the device An example of an operation supporting a connection service may be shown.
  • the electronic device 101 determines a second operation mode among operation modes (eg, a first operation mode and a second operation mode) of the electronic device 101 based on a user input, and 2 Based on the operation mode, a string and connection information related to a connection with another electronic device are obtained, and a string is matched based on the user's utterance.
  • FIG. 12 may show an example in which the electronic device 101 processes device connection in an on-device state.
  • the processor 120 of the electronic device 101 may wake up based on reception of a user utterance for waking up (eg, a first utterance according to a wakeup command).
  • the processor 120 may receive a voice signal (or an audio stream) related to a user's utterance through the microphone 151 .
  • the processor 120 may recognize a wake-up based on a specified user utterance, and execute the voice assistant based on the wake-up.
  • the designated user input for waking up (or starting voice recognition) of the electronic device 101 may include a designated voice command input (eg, user utterance) and/or the electronic device 101 for waking up. ) can also be performed by a button designated in
  • the processor 120 may receive a user utterance (eg, a second utterance according to a unique string designated for device connection).
  • a user utterance designated by the user when a user utterance designated by the user is input through the voice assistant, the processor 120 may acquire a voice signal according to the user utterance.
  • the user may check a string (eg, open sesame) output from another electronic device and perform an utterance (eg, open sesame) corresponding to the checked string.
  • the processor 120 may obtain a string and connection information based on receiving a user utterance (eg, a second utterance).
  • the processor 120 may request and receive a string and connection information registered in the internal (eg, the memory 130) or a string and connection information registered in the external (eg, the server 530).
  • String and connection information can be obtained based on the
  • the processor 120 transmits a string (eg, converted text) corresponding to the user's utterance to the server 530 . and may obtain connection information matching the string from the server 530 .
  • the processor 120 may match the user utterance with the string.
  • the processor 120 converts an audio stream according to the user's utterance into text, matches the converted text (eg, a first string) and an obtained string (eg, a second string) to determine whether they match can be compared.
  • the processor 120 may compare the first string generated by the electronic device 101 with the second string generated and obtained by another electronic device.
  • the processor 120 may determine whether the user utterance and the string match. For example, the processor 120 may determine whether the first string related to the electronic device 101 matches the second string related to another electronic device based on a result of comparing the first string related to the electronic device 101 .
  • the processor 120 may perform a voice recognition operation.
  • the processor 120 recognizes the user's speech when the first string and the second string do not match, for example, when the user's speech is not verified as a unique string related to device connection. It can perform an action and provide a corresponding response result.
  • the processor 120 may identify connection information.
  • the processor 120 may interpret text or a syntax according to the connection information according to a specified rule (eg, a grammar rule) and understand the meaning of the connection information.
  • the processor 120 may determine a connection method with another electronic device based on the connection information. According to an embodiment, the processor 120 may determine an optimal connection method with another electronic device based on the analyzed connection information.
  • the processor 120 may check or change the state of the electronic device 101 based on the determined connection method.
  • the processor 120 includes a communication module usable for connection with other electronic devices in various communication modules of the electronic device 101 (eg, the communication module 190 of FIG. 1 ) based on the determined connection method, and The status of the corresponding communication module can be identified.
  • the processor 120 may determine an optimal connection method based on connection information of another electronic device.
  • the processor 120 may check the state of the corresponding communication module of the electronic device 101 based on the determined connection method, and may change the state as necessary. For example, the processor 120 may change the device state of the electronic device 101 (eg, activate a corresponding communication module).
  • the processor 120 may determine the WiFi connection by the other electronic device based on the on state of the WiFi module based on the connection information. According to an embodiment, when determining to perform WiFi connection as a connection method with another electronic device, the processor 120 identifies a state (eg, on/off state) of the WiFi module of the electronic device 101, and an off state , the WiFi module may be switched to an on state. According to another embodiment, the processor 120 may determine the Bluetooth connection by the other electronic device based on the on state of the Bluetooth module based on the connection information.
  • a state eg, on/off state
  • the processor 120 when determining to perform a Bluetooth connection as a connection method with another electronic device, the processor 120 identifies a state (eg, an on/off state) of the Bluetooth module of the electronic device 101 and an off state , the Bluetooth module may be switched to an on state.
  • a state eg, an on/off state
  • the processor 120 may connect to another electronic device.
  • the processor 120 may start a connection with another electronic device based on the connection information by using a communication method and a communication module corresponding to the determined connection method.
  • WiFi information related to WiFi communication among connection information eg, WiFi MAC address information, SSID, password, code, and/or other electronic device
  • a connection with another electronic device may be established based on an identifier (eg, a device identifier and/or a device name) of .
  • FIG. 13 is a diagram for describing an example of an operation of providing device connection of an electronic device according to an exemplary embodiment.
  • FIG. 13 may show an operation example of performing device connection between the first electronic device 510 and the second electronic device 520 using the user 500's voice.
  • the first electronic device 510 and the second electronic device 520 may be classified according to an operation (or operation mode) for performing device connection.
  • the first electronic device 510 may be the electronic device 101 that initiates the device connection operation
  • the second electronic device 520 is the target device (eg, the first electronic device). 510 ) and the electronic device 101 performing device connection.
  • the first electronic device 101 may receive a user utterance.
  • the user may perform an utterance (eg, open sesame) corresponding to the unique string in the first electronic device 510 .
  • the user uses the first electronic device 510 with a designated user input for starting voice recognition (eg, a designated button and/or a designated voice command input for wake-up) in the first electronic device 510 .
  • voice recognition eg, a designated button and/or a designated voice command input for wake-up
  • the first electronic device 510 may utter a string related to device connection.
  • the first electronic device 510 may transmit the user's utterance to the server 530 based on the reception of the user's utterance.
  • the first electronic device 510 may convert a voice signal according to the user's utterance into an audio stream and transmit it to the server 530 .
  • the server 530 may receive a user utterance from the first electronic device 510 and analyze the received user utterance. According to an embodiment, the server 530 converts the audio stream received from the first electronic device 510 in response to the user's utterance into natural language text and processes the natural language converted into text to determine the user's intention. can According to an embodiment, the server 530 may determine the user's intention by performing syntactic analysis and/or semantic analysis. For example, the server 530 identifies the meaning of a word extracted from the converted text using a linguistic feature (eg, a grammatical element) of a morpheme or phrase, and matches the meaning of the grasped word to the intention of the user. can be decided
  • the server 530 may determine device connection using voice based on the analysis of the user's utterance. According to an embodiment, the server 530 may determine that the user's utterance received from the first electronic device 101 is an intention of device connection with another electronic device (eg, the second electronic device 520 ).
  • the server 530 may generate the first string based on the user's utterance. According to an embodiment, the server 530 may generate a first string related to device connection based on the user's utterance received from the first electronic device 510 .
  • the second electronic device 520 may receive a user utterance.
  • the user utterance when the user connects the device between the first electronic device 510 and the second electronic device 520 , the user utterance is the same as the user utterance (eg, the first user utterance) input by the first electronic device 510 .
  • the user's utterance may be input by the second electronic device 520 .
  • the second electronic device 520 may transmit the user's utterance to the server 530 based on the reception of the user's utterance.
  • the second electronic device 520 may convert a voice signal according to the user's utterance into an audio stream and transmit it to the server 530 .
  • the server 530 may generate the second string based on the user's utterance.
  • the server 530 may generate a second string related to device connection based on the user's utterance received from the second electronic device 520 .
  • the server 530 converts an audio stream according to the user's utterance received from the second electronic device 520 into text, and the converted Text can be used as the second string.
  • the server 530 may compare the first string related to the first electronic device 510 with the second string related to the second electronic device 520 to determine whether they match.
  • the server 530 may request connection information of the second electronic device 520 from the second electronic device 520 .
  • the second electronic device 520 may transmit the connection information of the second electronic device 520 to the server 530 based on the reception of the connection information request from the server 530 .
  • the second electronic device 520 determines the type of the device-to-device connection method usable in the second electronic device 520 , and generates corresponding connection information based on the connection method type, thereby generating the server 530 . ) can be transmitted.
  • the server 530 may receive connection information from the second electronic device 520 and transmit connection information of the second electronic device 520 to the first electronic device 510 .
  • the first electronic device 510 may perform a connection information-based connection with the second electronic device 520 based on receiving connection information from the server 530 .
  • the first electronic device 510 switches (or changes) the first electronic device 510 to a state connectable to the second electronic device 520 based on the connection information of the second electronic device, and , and thereafter, a connection with the second electronic device 520 may be started based on the connection information.
  • the first electronic device 510 determines an optimal connection method based on connection information of the second electronic device 520 , and the device of the first electronic device 510 based on the determined connection method.
  • a state may be changed (eg, a corresponding communication module is activated), and a connection with the second electronic device 520 may be performed based on the connection information.
  • any one electronic device (For example, the second electronic device 520 requests and obtains connection information of the corresponding electronic device, and transmits the obtained connection information to another electronic device (eg, the first electronic device 510) to the first electronic device
  • the connection between the 510 and the second electronic device 520 may be automatically performed based on connection information.
  • An operation method performed by the electronic device 101 includes an operation of determining an operation mode of the electronic device based on a user input, and an operation of determining an operation mode of the electronic device based on a first operation determination for device connection with another electronic device. generating and transmitting a string and connection information to the outside, waiting for reception of a connection request from the other electronic device based on the connection information, and performing a connection with the other electronic device based on the reception of the connection request; and 2 Receive a user utterance based on the action determination, obtain a string and connection information related to device connection with another electronic device, and when the user utterance and the string match, the other electronic device based on the connection information It may include an operation of performing a connection with the .
  • the first operation may include detecting a device connection start based on a specified user input and outputting the string in a specified manner through an output module.
  • the string and connection information related to the device connection with the other electronic device are obtained based on the user's utterance, and the user's utterance matches the string based on the matching and determining a connection method for performing connection with the other electronic device based on the connection information.
  • the second operation may include switching the state of the electronic device to a state connectable with the other electronic device based on the determined connection method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Coupling Device And Connection With Printed Circuit (AREA)
  • Telephone Function (AREA)

Abstract

본 개시의 실시예는 사용자 음성 기반으로 기기 연결을 실행할 수 있는 전자 장치 및 그 전자 장치의 기기 연결 방법에 관하여 제공한다. 다양한 실시예들에 따른 전자 장치는 제1 동작 모드에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 상기 연결 정보에 기반한 상기 다른 전자 장치로부터의 연결 요청 수신을 대기하고, 상기 연결 요청 수신에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 할 수 있다. 다양한 실시예들에 따른 전자 장치는 제2 동작 모드에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 상기 스트링의 일치 시에, 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 할 수 있다. 다양한 실시예들이 가능하다.

Description

전자 장치 및 전자 장치의 기기 연결 방법
본 개시의 실시예는 사용자 음성 기반으로 기기 연결을 실행할 수 있는 전자 장치 및 그 전자 장치의 기기 연결 방법에 관하여 개시한다.
디지털 기술의 발달과 함께, PDA(personal digital assistant), 스마트 폰(smart phone), 태블릿 PC(personal computer), 인공 지능 스피커(AI(artificial intelligent) speaker), 웨어러블 장치(wearable device), 디지털 카메라(digital camera), 및/또는 IoT(internet of things) 장치와 같은 다양한 유형의 전자 장치가 널리 사용되고 있다. 이러한 전자 장치는 기능 지지 및 증대를 위해, 전자 장치의 하드웨어적인 부분 및/또는 소프트웨어적인 부분이 지속적으로 개발되고 있다.
전자 장치는 통화 기능에서 나아가 다양한 기능들을 구현할 수 있으며, 다양한 기능들을 사용자가 이용하도록 하기 위해 다양한 입력 인터페이스를 제공하고 있다. 예를 들면, 전자 장치의 입력 인터페이스는 버튼 입력 방식 또는 터치스크린 기반의 터치 입력 방식에서 나아가, 음성 입력 방식을 제공하고 있다. 일 예로, 전자 장치는 음성 인식(voice recognition or speech recognition) 기술을 이용하여 사용자의 음성 명령을 통해 어플리케이션의 실행을 제어하거나, 및/또는 웹 기반 서비스를 이용한 기능을 수행할 수 있다. 음성 인식 기술은 전자 장치가 사용자(예: 사람)가 발화하는 음성을 이해하여 전자 장치가 다룰 수 있는 코드 정보로 변환하는 기술일 수 있다. 예를 들면, 음성 인식 기술은 음성 파형을 입력하여 단어나 단어 열을 식별하고, 의미를 추출하는 처리 동작을 포함할 수 있다.
현재 음성 인식 기술의 경우, 연산 처리가 간단한 명령은 전자 장치에서 처리하고, 전자 장치(예: 클라이언트(client))에서 처리하지 못하는 명령(예: 연산 처리가 복잡하고 많은 자원이 요구되는 명령)은 서버(예: 지능형 서버)를 이용하여 처리하는 방식을 제안하고 있다. 예를 들면, 전자 장치에서 사용자 명령(예: 입력된 음성)을 획득하고, 획득된 사용자 명령을 서버로 전달하여 서버에 의해 처리하도록 할 수 있다.
한편, 전자 장치는 다른 전자 장치와 서로 연결하여 전자 장치의 다양한 데이터를 공유할 수 있다. 예를 들면, 전자 장치는 지정된 통신 기술(예: WiFi(wireless fidelity), 블루투스 및/또는 IrDA(infrared data association)와 같은 무선 통신 기술)에 기반하여 서로 연결할 수 있고, 연결된 전자 장치 간에 데이터를 공유할 수 있다.
하지만, 사용자는 전자 장치 간에 연결 시에, 연결하고자 하는 전자 장치들이 동일 네트워크 상에 존재하는 것을 전제로 하더라도, 사용자는 전자 장치에서 다른 전자 장치의 연결에 관련된 다양한 정보(예: WiFi 정보(예: SSID, service set identifier), 단말 코드, 디바이스 이름, 패스워드, 연결 코드(code), 및/또는 통신 기술 별 연결 방법(예: 메뉴 진입 및 설정))를 인지하는 경우에 연결이 가능하다. 또한, 사용자는 전자 장치 간에 연결을 위한 다양한 정보를 인지하더라도, 여러 단계의 복잡한 조작(또는 설정) 과정을 수행해야 하는 불편함이 있다.
다양한 실시예들에서는, 사용자의 음성 기반으로 전자 장치의 기기 연결을 지원할 수 있는 방법 및 장치에 관하여 개시한다.
다양한 실시예들에서는, 사용자 발화에 따른 음성 커맨드(voice command)를 통해 복수의 전자 장치 간에 연결을 수행할 수 있는 방법 및 장치에 관하여 개시한다.
다양한 실시예들에서는, 제1 전자 장치에서 스트링(string) 및 연결 정보(connection information)를 생성하여 공유하고, 제2 전자 장치가 제1 전자 장치에 의해 생성된 스트링에 대응하게 수신된 사용자 발화 및 제1 전자 장치의 연결 정보에 기반하여, 기기 연결을 수행할 수 있는 방법 및 장치에 관하여 개시한다.
본 개시의 실시예에 따른 음성 인식에 기반하여 기기 연결을 지원하기 위한 전자 장치는, 통신 모듈, 출력 모듈, 메모리, 및 상기 통신 모듈, 상기 출력 모듈 및 상기 메모리와 작동적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 지정된 사용자 입력에 기반하여 기기 연결 개시를 감지하고, 다른 전자 장치와 연결을 위한 스트링 및 연결 정보를 생성하고, 상기 스트링을 상기 출력 모듈을 통해 출력하고, 상기 스트링 및 연결 정보를 외부로 전송하고, 및 상기 다른 전자 장치로부터의 연결 요청을 수신하는 것에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 설정될 수 있다.
본 개시의 실시예에 따른 음성 인식에 기반하여 기기 연결을 지원하기 위한 전자 장치는, 통신 모듈, 마이크, 메모리, 및 상기 통신 모듈, 상기 마이크 및 상기 메모리와 작동적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 다른 전자 장치와 기기 연결에 관련된 사용자 발화를 수신하고, 사용자 발화를 수신하는 것에 기반하여 상기 다른 전자 장치와 관련된 스트링을 획득하고, 상기 사용자 발화와 상기 스트링의 일치 여부를 판단하고, 및 상기 사용자 발화와 상기 스트링이 일치하는 경우, 상기 다른 전자 장치에 관련된 연결 정보에 기반하여, 상기 다른 전자 장치와 연결을 수행하도록 설정될 수 있다.
본 개시의 실시예에 따른 음성 인식에 기반하여 기기 연결을 지원하기 위한 전자 장치는, 통신 모듈, 입력 모듈, 출력 모듈, 메모리, 및 프로세서를 포함하고, 상기 프로세서는, 사용자 입력에 기반하여 전자 장치의 동작 모드를 결정하고, 제1 동작 결정에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 상기 연결 정보에 기반한 상기 다른 전자 장치로부터의 연결 요청 수신을 대기하고, 상기 연결 요청 수신에 기반하여 상기 다른 전자 장치와 연결을 수행하고, 및 제2 동작 결정에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 상기 스트링의 일치 시에, 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 설정될 수 있다.
본 개시의 실시예에 따른 전자 장치의 동작 방법은, 사용자 입력에 기반하여 전자 장치의 동작 모드를 결정하는 동작, 제1 동작 결정에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 상기 연결 정보에 기반한 상기 다른 전자 장치로부터의 연결 요청 수신을 대기하고, 상기 연결 요청 수신에 기반하여 상기 다른 전자 장치와 연결을 수행하는 동작, 및 제2 동작 결정에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 상기 스트링의 일치 시에, 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하는 동작을 포함할 수 있다.
상기와 같은 과제를 해결하기 위하여 본 개시의 다양한 실시예들에서는, 상기 방법을 프로세서에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체를 포함할 수 있다.
본 개시의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 개시의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 개시의 바람직한 실시예와 같은 특정 실시예는 단지 예시로 주어진 것으로 이해되어야 한다.
본 개시의 실시예에 따른 전자 장치 및 그의 동작 방법에 따르면, 음성 기반으로 기기들 간 연결을 지원하여, 사용자가 기기 간에 연결하는 과정에 있어서, 사용자가 기존의 여러 단계의 복잡한 설정 과정을 거치지 않고, 사용자의 발화 커맨드를 통해 쉽고 빠르게 원하는 기기를 바로 연결할 수 있도록 제공할 수 있다.
본 개시의 실시예에 따르면, 사용자는 전자 장치 간의 기기 연결에 관련된 다양한 정보(예: WiFi 정보(예: SSID, service set identifier), 단말 코드, 디바이스 이름, 패스워드, 연결 코드(code), 및/또는 통신 기술 별 연결 방법(예: 메뉴 진입 및 설정))를 숙지할 필요 없이, 사용자 발화를 통해 쉽고 빠르게 전자 장치들을 연결할 수 있다. 이를 통해, 사용자의 전자 장치를 이용한 기기 연결에 대한 편의성, 접근성 및/또는 서비스 사용 만족도를 향상할 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도면 설명과 관련하여, 동일 또는 유사한 구성 요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
도 1은 다양한 실시예들에 따른 네트워크 환경 내의 전자 장치의 블록도이다.
도 2는 다양한 실시예들에 따른 통합 지능화(integrated intelligence) 시스템을 나타낸 블록도이다.
도 3은 다양한 실시예들에 따른 컨셉과 액션의 관계 정보가 데이터베이스에 저장된 형태를 나타낸 도면이다.
도 4는 다양한 실시예들에 따른 전자 장치가 지능형 어플리케이션을 통해 수신된 음성 입력을 처리하는 사용자 인터페이스의 일 예를 도시하는 도면이다.
도 5는 일 실시예에 따른 전자 장치의 기기 연결을 수행하는 동작 예를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 전자 장치와 서버의 연동에 기반하여 기기 연결을 제공하는 동작 예를 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 전자 장치의 구성을 개략적으로 도시하는 도면이다.
도 8은 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
도 9는 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
도 10a, 도 10b 및 도 10c는 일 실시예에 따른 전자 장치에서 연결 정보를 출력하는 예를 설명하기 위한 도면들이다.
도 11은 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
도 12는 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
도 13은 일 실시예에 따른 전자 장치의 기기 연결을 제공하는 동작 예를 설명하기 위한 도면이다.
도 1은 다양한 실시예들에 따른 네트워크 환경(100) 내의 전자 장치(101)의 블록도이다.
도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치(CPU, central processing unit) 또는 어플리케이션 프로세서(AP, application processor)) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치(GPU, graphic processing unit), 신경망 처리 장치(NPU, neural processing unit), 이미지 시그널 프로세서(ISP, image signal processor), 센서 허브 프로세서(sensor hub processor), 또는 커뮤니케이션 프로세서(CP, communication processor))를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(inactive)(예: 슬립(sleep)) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(OS, operating system)(142), 미들 웨어(middleware)(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일 실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.
오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일 실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD(secure digital) 카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일 실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일 실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일 실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제1 네트워크(198)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN(wide area network))와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다.
무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB, enhanced mobile broadband), 단말 전력 최소화와 다수 단말의 접속(mMTC, massive machine type communications), 또는 고신뢰도와 저지연(URLLC, ultra-reliable and low-latency communications)을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO, full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일 실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.
다양한 실시예들에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일 실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시예에 따르면, 명령 또는 데이터는 제2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC, mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일 실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱(heuristic)하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
도 2는 일 실시예에 따른 통합 지능화(integrated intelligence) 시스템을 나타낸 블록도이다.
도 2를 참조하면, 일 실시예의 통합 지능화 시스템(200)은 전자 장치(101), 지능형 서버(201), 및/또는 서비스 서버(300)를 포함할 수 있다.
일 실시예의 전자 장치(101)는, 인터넷에 연결 가능한 단말 장치(또는, 전자 장치)일 수 있으며, 예를 들어, 휴대폰, 스마트폰, PDA(personal digital assistant), 노트북 컴퓨터, TV, 백색 가전, 웨어러블 장치, HMD(head mounted display), 또는 스마트 스피커일 수 있다.
도시된 실시예에 따르면, 전자 장치(101)는 통신 모듈(190)(예: 도 1의 무선 통신 모듈(192)), 마이크(151)(예: 도 1의 입력 모듈(150)), 스피커(155)(예: 도 1의 음향 출력 모듈(155)), 디스플레이 모듈(160), 메모리(130), 또는 프로세서(120)를 포함할 수 있다. 상기 열거된 구성요소들은 서로 작동적으로 또는 전기적으로 연결될 수 있다.
일 실시예의 통신 모듈(190)은 외부 장치와 연결되어 데이터를 송수신하도록 구성될 수 있다. 일 실시예의 마이크(151)는 소리(예: 사용자 발화)를 수신하여, 전기적 신호로 변환할 수 있다. 일 실시예의 스피커(155)는 전기적 신호를 소리(예: 음성)로 출력할 수 있다. 일 실시예의 디스플레이 모듈(160)은 이미지 또는 비디오를 표시하도록 구성될 수 있다. 일 실시예의 디스플레이 모듈(160)은 실행되는 어플리케이션(또는, 어플리케이션 프로그램(application program))의 그래픽 사용자 인터페이스(GUI, graphic user interface)를 표시할 수 있다.
일 실시예의 메모리(130)는 클라이언트 모듈(137), SDK(software development kit)(135) 및 복수의 앱들(133)을 저장할 수 있다. 클라이언트 모듈(137) 및 SDK(135)는 범용적인 기능을 수행하기 위한 프레임워크(framework)(또는, 솔루션 프로그램)를 구성할 수 있다. 또한, 클라이언트 모듈(137) 또는 SDK(135)는 음성 입력을 처리하기 위한 프레임워크를 구성할 수 있다.
일 실시예의 메모리(130)에 저장된 복수의 앱들(133)은 지정된 기능을 수행하기 위한 프로그램일 수 있다. 일 실시예에 따르면, 복수의 앱들(133)은 제1 앱(130_1), 제2 앱(130_2)을 포함할 수 있다. 일 실시예에 따르면, 복수의 앱들(133) 각각은 지정된 기능을 수행하기 위한 복수의 동작들을 포함할 수 있다. 예를 들어, 복수의 앱들(133)은, 알람 앱, 메시지 앱, 및/또는 스케줄 앱을 포함할 수 있다. 일 실시예에 따르면, 복수의 앱들(133)은 프로세서(120)에 의해 실행되어 상기 복수의 동작들 중 적어도 일부를 순차적으로 실행할 수 있다.
일 실시예의 프로세서(120)는 전자 장치(101)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(120)는 통신 모듈(190), 마이크(151), 스피커(155), 및 디스플레이 모듈(160)과 작동적으로 또는 전기적으로 연결되어 지정된 동작을 수행할 수 있다.
일 실시예의 프로세서(120)는 메모리(130)에 저장된 프로그램을 실행시켜 지정된 기능을 수행할 수 있다. 예를 들어, 프로세서(120)는 클라이언트 모듈(137) 또는 SDK(135) 중 적어도 하나를 실행하여, 음성 입력을 처리하기 위한 이하의 동작을 수행할 수 있다. 프로세서(120)는, 예를 들어, SDK(135)를 통해 복수의 앱들(133)의 동작을 제어할 수 있다. 클라이언트 모듈(137) 또는 SDK(135)의 동작으로 설명된 이하의 동작은 프로세서(120)의 실행에 의한 동작일 수 있다.
일 실시예의 클라이언트 모듈(137)은 음성 입력을 수신할 수 있다. 예를 들어, 클라이언트 모듈(137)은 마이크(151)를 통해 감지된 사용자 발화에 대응되는 음성 신호를 수신할 수 있다. 클라이언트 모듈(137)은 수신된 음성 입력을 지능형 서버(201)로 송신할 수 있다. 클라이언트 모듈(137)은 수신된 음성 입력과 함께, 전자 장치(101)의 상태 정보를 지능형 서버(201)로 송신할 수도 있다. 상태 정보는, 예를 들어, 앱의 실행 상태 정보일 수 있다.
일 실시예의 클라이언트 모듈(137)은 수신된 음성 입력에 대응되는 결과를 지능형 서버(201)로부터 수신할 수 있다. 예를 들어, 클라이언트 모듈(137)은 지능형 서버(201)에서 수신된 음성 입력에 대응되는 결과를 산출할 수 있는 경우, 수신된 음성 입력에 대응되는 결과를 지능형 서버(201)로부터 수신할 수 있다. 클라이언트 모듈(137)은 지능형 서버(201)로부터 수신된 결과를 디스플레이 모듈(160)을 통해 표시할 수 있다.
일 실시예의 클라이언트 모듈(137)은 지능형 서버(201)로부터 수신된 음성 입력에 대응되는 플랜(plan)을 수신할 수 있다. 클라이언트 모듈(137)은 플랜에 따라 적어도 하나의 앱의 복수의 동작을 실행한 결과를 디스플레이 모듈(160)에 표시할 수 있다. 클라이언트 모듈(137)은, 예를 들어, 복수의 동작의 실행 결과를 순차적으로 디스플레이 모듈(160)에 표시할 수 있다. 클라이언트 모듈(137)은, 다른 예를 들어, 복수의 동작을 실행한 일부 결과(예: 마지막 동작의 결과)만을 디스플레이 모듈(160)에 표시할 수 있다.
일 실시예에 따르면, 클라이언트 모듈(137)은 지능형 서버(201)로부터 음성 입력에 대응되는 결과를 산출하기 위해 필요한 정보를 획득하기 위한 요청을 수신할 수 있다. 일 실시예에 따르면, 클라이언트 모듈(137)은 상기 요청에 대응하여 상기 필요한 정보를 지능형 서버(201)로 송신할 수 있다.
일 실시예의 클라이언트 모듈(137)은 플랜에 따라 복수의 동작을 실행한 결과 정보를 지능형 서버(201)로 송신할 수 있다. 지능형 서버(201)는 상기 결과 정보를 이용하여 수신된 음성 입력이 올바르게 처리된 것을 확인할 수 있다.
일 실시예의 클라이언트 모듈(137)은 음성 인식 모듈을 포함할 수 있다. 일 실시예에 따르면, 클라이언트 모듈(137)은 음성 인식 모듈을 통해 제한된 기능을 수행하기 위해 음성 입력을 인식할 수 있다. 예를 들어, 클라이언트 모듈(137)은 지정된 입력(예: 웨이크 업!)을 통해 음성 입력을 처리하기 위한 지능형 앱을 실행할 수 있다.
일 실시예의 지능형 서버(201)는 통신 네트워크를 통해 전자 장치(101)로부터 사용자 음성 입력과 관련된 정보를 수신할 수 있다. 일 실시예에 따르면, 지능형 서버(201)는 수신된 음성 입력과 관련된 데이터를 텍스트 데이터(text data)로 변경할 수 있다. 일 실시예에 따르면, 지능형 서버(201)는 텍스트 데이터에 기반하여 사용자 음성 입력에 대응되는 태스크(task)를 수행하기 위한 플랜을 생성할 수 있다.
일 실시예에 따르면, 플랜은 인공 지능(AI, artificial intelligent) 시스템에 의해 생성될 수 있다. 인공 지능 시스템은 룰 베이스 시스템(rule-based system)일 수도 있고, 신경망 베이스 시스템(neural network-based system)(예: 피드포워드 신경망(FNN, feedforward neural network), 순환 신경망(RNN, recurrent neural network))일 수도 있다. 또는, 인공 지능 시스템은 전술한 것의 조합 또는 이와 다른 인공 지능 시스템일 수도 있다. 일 실시예에 따르면, 플랜은 미리 정의된 플랜의 집합에서 선택될 수 있거나, 사용자 요청에 응답하여 실시간으로 생성될 수 있다. 예를 들어, 인공 지능 시스템은 미리 정의된 복수의 플랜 중 적어도 하나의 플랜을 선택할 수 있다.
일 실시예의 지능형 서버(201)는 생성된 플랜에 따른 결과를 전자 장치(101)로 송신하거나, 생성된 플랜을 전자 장치(101)로 송신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 플랜에 따른 결과를 디스플레이 모듈(160)에 표시할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 플랜에 따른 동작을 실행한 결과를 디스플레이 모듈(160)에 표시할 수 있다.
일 실시예의 지능형 서버(201)는 프론트 엔드(front end)(210), 자연어 플랫폼(natural language platform)(220), 캡슐 데이터베이스(capsule DB)(230), 실행 엔진(execution engine)(240), 엔드 유저 인터페이스(end user interface)(250), 매니지먼트 플랫폼(management platform)(260), 빅 데이터 플랫폼(big data platform)(270), 및/또는 분석 플랫폼(analytic platform)(280)을 포함할 수 있다.
일 실시예의 프론트 엔드(210)는 전자 장치(101)로부터 음성 입력을 수신할 수 있다. 프론트 엔드(210)는 음성 입력에 대응되는 응답을 전자 장치(101)에 송신할 수 있다.
일 실시예에 따르면, 자연어 플랫폼(220)은 자동 음성 인식 모듈(ASR(automatic speech recognition) module)(221), 자연어 이해 모듈(NLU(natural language understanding) module)(223), 플래너 모듈(planner module)(225), 자연어 생성 모듈(NLG(natural language generator) module)(227), 및/또는 텍스트 음성 변환 모듈(TTS(text to speech) module)(229)을 포함할 수 있다.
일 실시예의 자동 음성 인식 모듈(221)은 전자 장치(101)로부터 수신된 음성 입력을 텍스트 데이터로 변환할 수 있다. 일 실시 예의 자연어 이해 모듈(223)은 음성 입력의 텍스트 데이터를 이용하여 사용자의 의도를 파악할 수 있다. 예를 들어, 자연어 이해 모듈(223)은 문법적 분석(syntactic analyze) 및/또는 의미적 분석(semantic analyze)을 수행하여 사용자의 의도를 파악할 수 있다. 일 실시예의 자연어 이해 모듈(223)은 형태소 또는 구의 언어적 특징(예: 문법적 요소)을 이용하여 음성 입력으로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 의도에 매칭시켜 사용자의 의도를 결정할 수 있다.
일 실시예의 플래너 모듈(225)은 자연어 이해 모듈(223)에서 결정된 의도 및 파라미터를 이용하여 플랜을 생성할 수 있다. 일 실시예에 따르면, 플래너 모듈(225)은 상기 결정된 의도에 기반하여 태스크를 수행하기 위해 필요한 복수의 도메인(domain)을 결정할 수 있다. 플래너 모듈(225)은 상기 의도에 기반하여 결정된 복수의 도메인 각각에 포함된 복수의 동작을 결정할 수 있다. 일 실시예에 따르면, 플래너 모듈(225)은 상기 결정된 복수의 동작을 실행하는데 필요한 파라미터(parameter)나, 상기 복수의 동작의 실행에 의해 출력되는 결과 값을 결정할 수 있다. 파라미터 및 결과 값은 지정된 형식(또는, 클래스)의 컨셉으로 정의될 수 있다. 이에 따라, 플랜은 사용자의 의도에 의해 결정된 복수의 동작, 및 복수의 컨셉을 포함할 수 있다.
일 실시예의 플래너 모듈(225)은 상기 복수의 동작, 및 상기 복수의 컨셉 사이의 관계를 단계적(또는, 계층적)으로 결정할 수 있다. 예를 들어, 플래너 모듈(225)은 복수의 컨셉에 기반하여, 사용자의 의도에 기반하여 결정된 복수의 동작의 실행 순서를 결정할 수 있다. 다시 말해, 플래너 모듈(225)은 복수의 동작의 실행에 필요한 파라미터 및 복수의 동작의 실행에 의해 출력되는 결과에 기반하여, 복수의 동작의 실행 순서를 결정할 수 있다. 이에 따라, 플래너 모듈(225)은 복수의 동작 및 복수의 컨셉 사이의 연관 정보(예: 온톨로지(ontology))가 포함된 플랜을 생성할 수 있다. 플래너 모듈(225)은 컨셉과 동작의 관계들의 집합이 저장된 캡슐 데이터베이스(230)에 저장된 정보를 이용하여 플랜을 생성할 수 있다.
일 실시예의 자연어 생성 모듈(227)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 일 실시예의 텍스트 음성 변환 모듈(229)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다.
일 실시예에 따르면, 자연어 플랫폼(220)의 기능의 일부 기능 또는 전체 기능은 전자 장치(101)에서도 구현가능 할 수 있다.
일 실시예에 따르면, 캡슐 데이터베이스(230)는 복수의 도메인에 대응되는 복수의 컨셉과 동작들의 관계에 대한 정보를 저장할 수 있다. 일 실시예에 따른 캡슐은 플랜에 포함된 복수의 동작 오브젝트(action object)(또는 동작 정보) 및 컨셉 오브젝트(concept object)(또는 컨셉 정보)를 포함할 수 있다. 일 실시예에 따르면, 캡슐 데이터베이스(230)는 CAN(concept action network)의 형태로 복수의 캡슐을 저장할 수 있다. 일 실시예에 따르면, 복수의 캡슐은 캡슐 데이터베이스(230)에 포함된 기능 저장소(function registry)에 저장될 수 있다.
일 실시예에 따르면, 캡슐 데이터베이스(230)는 음성 입력에 대응되는 플랜을 결정할 때 필요한 전략 정보가 저장된 전략 레지스트리(strategy registry)를 포함할 수 있다. 상기 전략 정보는 음성 입력에 대응되는 복수의 플랜이 있는 경우, 하나의 플랜을 결정하기 위한 기준 정보를 포함할 수 있다. 일 실시예에 따르면, 캡슐 데이터베이스(230)는 지정된 상황에서 사용자에게 후속 동작을 제안하기 위한 후속 동작의 정보가 저장된 후속 동작 레지스트리(follow up registry)를 포함할 수 있다. 상기 후속 동작은, 예를 들어, 후속 발화를 포함할 수 있다. 일 실시예에 따르면, 캡슐 데이터베이스(230)는 전자 장치(101)를 통해 출력되는 정보의 레이아웃(layout) 정보를 저장하는 레이아웃 레지스트리(layout registry)를 포함할 수 있다.
일 실시예에 따르면, 캡슐 데이터베이스(230)는 캡슐 식별자(캡슐 ID)에 포함된 어휘(vocabulary) 정보가 저장된 어휘 레지스트리(vocabulary registry)를 포함할 수 있다. 일 실시예에 따르면, 캡슐 데이터베이스(230)는 사용자와의 대화(dialog)(또는, 인터렉션(interaction)) 정보가 저장된 대화 레지스트리(dialog registry)를 포함할 수 있다. 캡슐 데이터베이스(230)는 개발자 툴(developer tool)을 통해 저장된 오브젝트를 업데이트(update)할 수 있다. 상기 개발자 툴은, 예를 들어, 동작 오브젝트 또는 컨셉 오브젝트를 업데이트하기 위한 기능 에디터(function editor)를 포함할 수 있다. 상기 개발자 툴은 어휘를 업데이트하기 위한 어휘 에디터(vocabulary editor)를 포함할 수 있다.
상기 개발자 툴은 플랜을 결정하는 전략을 생성 및 등록하는 전략 에디터(strategy editor)를 포함할 수 있다. 상기 개발자 툴은 사용자와의 대화를 생성하는 대화 에디터(dialog editor)를 포함할 수 있다. 상기 개발자 툴은 후속 목표를 활성화하고, 힌트를 제공하는 후속 발화를 편집할 수 있는 후속 동작 에디터(follow up editor)를 포함할 수 있다. 상기 후속 목표는 현재 설정된 목표, 사용자의 선호도 또는 환경 조건에 기초하여 결정될 수 있다. 일 실시예에서는 캡슐 데이터베이스(230)는 전자 장치(101) 내에도 구현이 가능할 수 있다.
일 실시예의 실행 엔진(240)은 상기 생성된 플랜을 이용하여 결과를 산출할 수 있다. 일 실시예의 엔드 유저 인터페이스(250)는 산출된 결과를 전자 장치(101)로 송신할 수 있다. 이에 따라, 전자 장치(101)는 상기 결과를 수신하고, 상기 수신된 결과를 사용자에게 제공할 수 있다. 일 실시예의 매니지먼트 플랫폼(260)은 지능형 서버(201)에서 이용되는 정보를 관리할 수 있다. 일 실시예의 빅 데이터 플랫폼(270)은 사용자의 데이터를 수집할 수 있다. 일 실시예의 분석 플랫폼(280)은 지능형 서버(201)의 QoS(quality of service)를 관리할 수 있다. 예를 들어, 분석 플랫폼(280)은 지능형 서버(201)의 구성 요소 및 처리 속도(또는 효율성)를 관리할 수 있다.
일 실시예의 서비스 서버(300)는 전자 장치(101)에 지정된 서비스(예: 음식 주문 또는 호텔 예약)를 제공할 수 있다. 일 실시예에 따르면, 서비스 서버(300)는 제3 자에 의해 운영되는 서버일 수 있다. 일 실시예의 서비스 서버(300)는 수신된 음성 입력에 대응되는 플랜을 생성하기 위한 정보를 지능형 서버(201)에 제공할 수 있다. 상기 제공된 정보는 캡슐 데이터베이스(230)에 저장될 수 있다. 또한, 서비스 서버(300)는 플랜에 따른 결과 정보를 지능형 서버(201)에 제공할 수 있다.
위에 기술된 통합 지능화 시스템(200)에서, 전자 장치(101)는, 사용자 입력에 응답하여 사용자에게 다양한 인텔리전트 서비스를 제공할 수 있다. 상기 사용자 입력은, 예를 들어, 물리적 버튼을 통한 입력, 터치 입력 또는 음성 입력을 포함할 수 있다.
일 실시예에서, 전자 장치(101)는 내부에 저장된 지능형 앱(또는, 음성 인식 앱)을 통해 음성 인식 서비스를 제공할 수 있다. 이 경우, 예를 들어, 전자 장치(101)는 마이크(151)를 통해 수신된 사용자 발화(utterance) 또는 음성 입력(voice input)을 인식하고, 인식된 음성 입력에 대응되는 서비스를 사용자에게 제공할 수 있다.
일 실시예에서, 전자 장치(101)는 수신된 음성 입력에 기초하여, 단독으로 또는 지능형 서버(201) 및/또는 서비스 서버(300)와 함께 지정된 동작을 수행할 수 있다. 예를 들어, 전자 장치(101)는 수신된 음성 입력에 대응되는 앱을 실행시키고, 실행된 앱을 통해 지정된 동작을 수행할 수 있다.
일 실시예에서, 전자 장치(101)가 지능형 서버(201) 및/또는 서비스 서버(300)와 함께 서비스를 제공하는 경우에는, 전자 장치(101)는 마이크(151)를 이용하여 사용자 발화를 감지하고, 상기 감지된 사용자 발화에 대응되는 신호(또는 음성 데이터)를 생성할 수 있다. 전자 장치(101)는 상기 음성 데이터를 통신 모듈(190)을 이용하여 지능형 서버(201)로 송신할 수 있다.
일 실시예에 따른 지능형 서버(201)는 전자 장치(101)로부터 수신된 음성 입력에 대한 응답으로써, 음성 입력에 대응되는 태스크(task)를 수행하기 위한 플랜, 또는 상기 플랜에 따라 동작을 수행한 결과를 생성할 수 있다. 상기 플랜은, 예를 들어, 사용자의 음성 입력에 대응되는 태스크(task)를 수행하기 위한 복수의 동작, 및 상기 복수의 동작과 관련된 복수의 컨셉을 포함할 수 있다. 상기 컨셉은 상기 복수의 동작의 실행에 입력되는 파라미터나, 복수의 동작의 실행에 의해 출력되는 결과 값을 정의한 것일 수 있다. 상기 플랜은 복수의 동작, 및 복수의 컨셉 사이의 연관 정보를 포함할 수 있다.
일 실시예의 전자 장치(101)는, 통신 모듈(190)을 이용하여 상기 응답을 수신할 수 있다. 전자 장치(101)는 스피커(155)를 이용하여 전자 장치(101) 내부에서 생성된 음성 신호를 외부로 출력하거나, 디스플레이 모듈(160)을 이용하여 전자 장치(101) 내부에서 생성된 이미지를 외부로 출력할 수 있다.
도 2에서는 전자 장치(101)에서 수신한 음성 입력의 음성 인식, 자연어 이해 및 생성, 플랜을 이용한 결과의 산출 동작이 지능형 서버(201) 상에서 수행되는 예에 대해서 설명하였으나, 본 문서의 다양한 실시예들이 이에 한정되지 않는다. 예를 들어, 지능형 서버(201)의 적어도 일부 구성(예: 자연어 플랫폼(220), 실행 엔진(240), 캡슐 데이터베이스(230))은 전자 장치(101)에 임베디드되어, 그 동작이 전자 장치(101)에 의해 수행될 수도 있다.
도 3은 다양한 실시예에 따른, 컨셉과 동작의 관계 정보가 데이터베이스에 저장된 형태를 나타낸 도면이다.
지능형 서버(201)의 캡슐 데이터베이스(230)는 CAN(concept action network) 형태로 캡슐을 저장할 수 있다. 캡슐 데이터베이스(230)는 사용자의 음성 입력에 대응되는 태스크를 처리하기 위한 동작, 및 상기 동작을 위해 필요한 파라미터를 CAN 형태로 저장할 수 있다.
캡슐 데이터베이스(230)는 복수의 도메인(예: 어플리케이션) 각각에 대응되는 복수의 캡슐(예: capsule A(401), capsule B(404))을 저장할 수 있다. 일 실시예에 따르면, 하나의 캡슐(예: capsule A(401))은 하나의 도메인(예: 위치(geo), 어플리케이션)에 대응될 수 있다. 또한, 하나의 캡슐에는 캡슐과 관련된 도메인에 대한 기능을 수행하기 위한 적어도 하나의 서비스 제공자(예: CP 1(402) 또는 CP 2 (403))가 대응될 수 있다. 일 실시예에 따르면, 하나의 캡슐은 지정된 기능을 수행하기 위한 적어도 하나 이상의 동작(410) 및 적어도 하나 이상의 컨셉(420)을 포함할 수 있다.
자연어 플랫폼(220)은 캡슐 데이터베이스(230)에 저장된 캡슐을 이용하여 수신된 음성 입력에 대응하는 태스크를 수행하기 위한 플랜을 생성할 수 있다. 예를 들어, 자연어 플랫폼(220)의 플래너 모듈(225)은 캡슐 데이터베이스(230)에 저장된 캡슐을 이용하여 플랜을 생성할 수 있다. 예를 들어, 캡슐 A(401)의 동작들(4011, 4013)과 컨셉들(4012, 4014) 및 캡슐 B(404)의 동작(4041)과 컨셉(4042)을 이용하여 플랜(407)을 생성할 수 있다.
도 4는 다양한 실시예들에 따른 전자 장치가 지능형 어플리케이션을 통해 수신된 음성 입력을 처리하는 사용자 인터페이스의 일 예를 도시하는 도면이다.
일 실시예에 따르면, 전자 장치(101)는 지능형 서버(201)를 통해 사용자 명령(예: 음성 입력)을 처리하기 위해 지능형 앱을 실행할 수 있다.
일 실시예에 따르면, 제1 사용자 인터페이스(450)에서, 전자 장치(101)는 지정된 음성 입력(예: 웨이크 업!)을 인식하거나 하드웨어 키(예: 전용 하드웨어 키)를 통한 입력을 수신하면, 음성 입력을 처리하기 위한 지능형 앱을 실행할 수 있다. 전자 장치(101)는, 예를 들어, 스케줄 앱을 실행한 상태에서 지능형 앱을 실행할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 지능형 앱에 대응되는 오브젝트(451)(예: 아이콘)를 디스플레이 모듈(160)에 표시할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 사용자 발화에 의한 음성 입력을 수신할 수 있다. 예를 들어, 전자 장치(101)는 "이번주 일정 알려줘!"라는 음성 입력을 수신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 수신된 음성 입력의 텍스트 데이터가 표시된 지능형 앱의 사용자 인터페이스(UI, user interface)(313)(예: 입력창)를 디스플레이 모듈(160)에 표시할 수 있다.
일 실시예에 따르면, 제2 사용자 인터페이스(470)에서, 전자 장치(101)는 수신된 음성 입력에 대응되는 결과를 디스플레이 모듈(160)에 표시할 수 있다. 예를 들어, 전자 장치(101)는 수신된 사용자 명령(예: 수신된 음성 입력)에 대응되는 플랜을 수신하고, 플랜에 따라 ‘이번주 일정’을 디스플레이 모듈(160)에 표시할 수 있다.
도 5는 일 실시예에 따른 전자 장치의 기기 연결을 수행하는 동작 예를 설명하기 위한 도면이다.
일 실시예에 따라, 도 5에서는 사용자(500)의 음성을 이용하여, 제1 전자 장치(510)와 제2 전자 장치(520) 간의 기기 연결을 수행하는 동작 예를 나타낼 수 있다. 다양한 실시예들에서, 제1 전자 장치(510)와 제2 전자 장치(520)는 기기 연결을 수행하는 동작(또는 동작 모드)에 따라 구분될 수 있다. 일 실시예에 따라, 도 5에서, 기기 연결 동작을 개시(initiate)하는 전자 장치(101)를 제1 전자 장치(510)라 하고, 대상 기기(예: 제1 전자 장치(510))와 기기 연결을 수행하는 전자 장치(101)를 제2 전자 장치(520)라 할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 PDA(personal digital assistant), 스마트 폰(smart phone), 태블릿 PC(personal computer), 랩탑(laptop) PC, 스마트 스피커(예: 인공 지능 스피커(AI(artificial intelligent) speaker)), 웨어러블 장치(wearable device), 디스플레이 장치(예: TV(television), 모니터(monitor)), 디지털 카메라(digital camera), 원격 제어 장치(remote control device), HMD(head mounted display), 및/또는 IoT(internet of things) 장치와 같은 다양한 유형의 전자 장치를 포함할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 도 1에 도시된 구성 요소의 전부 또는 일부를 포함할 수 있다.
도 5를 참조하면, 일 실시예에 따라, 사용자(500)는 제1 전자 장치(510)와 제2 전자 장치(520)의 기기 연결 시, 제1 전자 장치(510)에서 기기 연결 동작 개시를 위한 다양한 입력 방법(input method)(예: 음성, 버튼, 터치 또는 제스처) 중 지정된 입력 방법에 기반하여, 제1 전자 장치(510)에서 기기 연결 동작을 개시하도록 명령할 수 있다.
일 실시예에 따르면, 동작 501에서, 사용자(500)는 “연결 해줘”와 같이 기기 연결 동작 개시를 위한 지정된 명령을 발화할 수 있다. 일 실시예에 따라, 지정된 명령은 음성뿐만 아니라, 제1 전자 장치(510)에서 지정된 명령을 발생하도록 설정된 버튼(예: 하드웨어 버튼) 입력, 화면 터치 입력, 제1 전자 장치(510)의 제스처(또는 모션) 제어 입력, 및/또는 원격 제어 장치를 이용한 제어 신호 입력에 의해 생성될 수 있다.
예를 들면, 사용자(500)는 제1 전자 장치(510)의 종류(예: 마이크 및/또는 디스플레이 모듈의 유무)에 기반하여, 기기 연결 동작 개시를 위해 지정된 구성 요소를 이용하여, 제1 전자 장치(510)에 의한 기기 연결 동작을 개시하기 위한 사용자 입력을 수행할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)는 사용자(500)로부터 사용자 입력에 따른 지정된 명령을 감지하는 것에 기반하여, 기기 연결 동작의 트리거(trigger)를 결정할 수 있다.
일 실시예에 따라, 제1 전자 장치(510)는 기기 연결 동작의 트리거(예: 기기 연결 동작 개시)를 결정하는 것에 기반하여, 제2 전자 장치(520)와 연결과 관련된 스트링(string)을 생성할 수 있다. 일 실시예에 따라, 제1 전자 장치(510)는, 사용자(500)로부터 사용자 발화를 수신하고, 사용자 발화에 대응하는 스트링을 생성할 수 있다. 다른 실시예에 따라, 제1 전자 장치(510)는 메모리(130)에 미리 저장된 적어도 하나의 스트링 중 어느 하나의 스트링을 선택하는 것에 기반하여 스트링을 생성할 수 있다. 다른 실시예에 따라, 제1 전자 장치(510)는 서버(530)(예: 도 2의 지능형 서버(201) 또는 스트링 서버)로부터 스트링을 획득(예: 요청 및 수신)하는 것에 기반하여 스트링을 생성할 수 있다.
일 실시예에 따라, 제1 전자 장치(510)는 제1 전자 장치(510)의 연결 정보를 생성할 수 있다. 일 실시예에 따라, 연결 정보는, 제1 전자 장치(510)의 통신 모듈(예: 블루투스 모듈 및/또는 WiFi 모듈) 및 통신 모듈의 설정 상태(예: 활성화/비활성화 상태)에 기반하여 생성될 수 있다. 예를 들면, 제1 전자 장치(510)는 제1 전자 장치(510)에서 사용 가능한 기기 간(device to device) 연결 방법 종류를 판단하고, 연결 방법 종류에 기반하여 대응하는 연결 정보를 생성할 수 있다.
일 실시예에 따라, 연결 정보는, 연결 방법 종류에 기반하여, WiFi on/off 상태, 블루투스 on/off 상태, 신호 세기, WiFi 연결 상태 정보(예: 다른 전자 장치와의 연결 여부에 대한 상태 정보 또는 네트워크 정보), 블루투스 연결 상태 정보 블루투스 MAC(media access control) 주소(address) 정보, WiFi MAC 주소 정보, SSID(service set identifier), 패스워드(password), 코드, 및/또는 연결 대상 통신 모듈의 모델 정보(예: 모델 이름(model name)), 및/또는 제1 전자 장치(510)의 식별자(예: 디바이스 식별자 및/또는 디바이스 이름)를 포함할 수 있다.
일 실시예에 따라, 제1 전자 장치(510)는, 동작 503에서, 스트링 및 연결 정보를 서버(530)(예: 도 2의 지능형 서버(201) 또는 디바이스 정보(device information) 서버)로 전송할 수 있다. 어떤 실시예에 따르면, 제1 전자 장치(510)는 스트링 및 연결 정보에 제1 전자 장치(510)의 장치 정보(예: 디바이스 식별자 및/또는 디바이스 이름)를 함께 서버(530)에 전송할 수도 있다.
일 실시예에 따라, 서버(530)는 제1 전자 장치(510)로부터 스트링 및 연결 정보를 수신하는 것에 기반하여, 스트링 및 연결 정보를 매칭(matching)하여 저장(또는 보관)할 수 있다.
일 실시예에 따라, 제1 전자 장치(510)는, 스트링 및 연결 정보를 서버(530)에 전송하는 동작에 병렬적으로, 순차적으로, 역순차적으로, 또는 휴리스틱 하게, 스트링 및 스트링에 관련된 정보(예: 가이드 정보)를 외부로 출력할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)는 제1 전자 장치(510)의 종류(예: 스피커 및/또는 디스플레이 모듈의 유무)에 따라 지정된 출력 방식(예: 청각적 정보(예: 오디오) 출력 및/또는 시각적 정보(예: 텍스트, 이미지, 및/또는 동영상) 출력)으로, 스트링 및 스트링에 관련된 정보를 외부로 출력하여 사용자(500)에게 제공할 수 있다.
일 실시예에 따르면, 제1 전자 장치(510)는 <이렇게 말하세요. ‘열려라 참깨’>를 청각적 정보 및/또는 시각적 정보로 출력할 수 있다. 일 실시예에서, ‘이렇게 말하세요’가 스트링에 관련된 정보(예: 사용자에게 기기 연결 방법을 위한 가이드 정보)일 수 있고, ‘열려라 참깨(open sesame)’가 제1 전자 장치(510)의 기기 연결을 지원하기 위한 유니크한(unique) 스트링일 수 있다. 일 실시예에 따르면, 스트링은 사용자 발화 또는 내부(예: 메모리(130)) 또는 외부(예: 서버(530))로부터 랜덤 획득에 따라 다양하게 생성될 수 있다.
일 실시예에 따라, 사용자(500)는, 동작 507에서, 제2 전자 장치(520)에 사용자 발화를 입력할 수 있다. 일 실시예에 따르면, 사용자(500)는 제1 전자 장치(510)에서 출력된 스트링(예: 열려라 참깨)을 확인하고, 확인된 스트링에 대응하는 발화(예: 열려라 참깨)를 수행할 수 있다. 일 실시예에 따르면, 사용자(500)는 제2 전자 장치(520)에서 음성 인식 개시를 위한 지정된 사용자 입력(예: 웨이크 업(wake-up)을 위한 지정된 버튼 및/또는 지정된 음성 명령 입력)으로 제2 전자 장치(520)를 웨이크 업 하고, 제1 전자 장치(510)에 생성된 스트링에 대한 발화를 수행할 수 있다.
일 실시예에 따라, 제2 전자 장치(520)는 사용자 발화를 수신하는 것에 기반하여, 동작 509에서, 수신된 사용자 발화에 따른 스트링(예: 텍스트(text))을 서버(530)(예: 도 2의 지능형 서버(201))로 전송할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 웨이크 업 후 사용자 발화를 수신하는 것에 기반하여 사용자 발화를 분석(또는 검증)하고, 사용자 발화가 기기 연결에 관련된 경우, 사용자 발화에 따른 스트링(예: 텍스트)과 스트링에 매칭되는 연결 정보를 제공하도록 서버(530)에 요청할 수 있다. 어떤 실시예에 따르면, 제2 전자 장치(520)는 스트링에, 제2 전자 장치(520)의 장치 정보(예: 디바이스 식별자 및/또는 디바이스 이름)를 함께 서버(530)에 전송할 수도 있다.
일 실시예에 따라, 서버(530)는, 제2 전자 장치(520)로부터 스트링을 수신하고, 수신된 스트링과 저장(또는 보관)된 스트링을 매칭시켜 일치 여부를 판단할 수 있다. 예를 들면, 서버(530)는 제1 전자 장치(510)에 의해 생성되어 수신된 제1 스트링과, 제2 전자 장치(520)에 의해 생성되어 수신된 제2 스트링을 비교하고, 제1 스트링과 제2 스트링의 일치 여부를 판단할 수 있다. 일 실시예에 따라, 서버(530)는 제1 스트링과 제2 스트링이 일치하는 경우, 동작 511에서, 제1 스트링에 매칭된 연결 정보를 제2 전자 장치(520)로 전송할 수 있다.
일 실시예에 따라, 제2 전자 장치(520)는 서버(530)로부터 연결 정보를 수신하고, 수신된 연결 정보에 기반하여 제1 전자 장치(510)와 연결을 수행할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 제1 전자 장치(510)의 연결 정보에 기반하여 제2 전자 장치(520)를 제1 전자 장치(510)와 연결 가능한 상태로 전환(또는 변경)하고, 이후 연결 정보에 기반하여 제1 전자 장치(510)와 연결을 시작할 수 있다.
일 실시예에 따르면, 제2 전자 장치(520)는 제1 전자 장치(510)의 연결 정보에 기반하여 최적의 연결 방법을 결정하고, 결정된 연결 방법에 기반하여 제2 전자 장치(520)의 기기 상태를 변경(예: 대응되는 통신 모듈 활성화)하고, 연결 정보에 기반하여 제1 전자 장치(510)와 연결을 수행할 수 있다.
일 실시예에 따르면, 도 5의 예시에서는, 서버(530)에서 제1 전자 장치(510)와 제2 전자 장치(520)로부터 각각 수신된 스트링(예: 제1 스트링 및 제2 스트링)의 비교를 통해 일치 여부를 판단하고, 그 결과를 제2 전자 장치(520)에 제공하는, 서버(530) 연동에 의한 동작 예를 나타낼 수 있다. 다양한 실시예들이 이에 제한하는 것은 아니며, 전자 장치(101)(예: 제2 전자 장치(520))가 임베디드 음성 인식 에이전트(agent)(예: ASR/NLU)를 포함하는 경우, 전자 장치(101)에서 온-디바이스(on-device) 상태로 처리할 수도 있다. 일 실시예에 따른, 온-디바이스 상태로 처리하는 예와 관련하여 후술된다.
일 실시예에 따르면, 제1 전자 장치(510)가 인터넷에 접속이 불가능한 상태이거나, 또는 WiFi 모듈이 없고, 블루투스만 지원 가능한 상태를 포함할 수 있다. 이러한 경우, 제1 전자 장치(510)에서는 미리 저장하고 있던 스트링을 사용자에게 제공하고, 활용 가능한 프로토콜(예: Bluetooth)을 초기(initiate) 상태로 전환할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)에서는 사용자가 입력한 스트링을 서버(530)를 통해 확인할 때, 해당 스트링을 보내는 기기 종류(type)와 연결 가능한 프로토콜 타입 및 기기에 대한 사전 정의된(pre-define)된 기본 정보(default information)를 함께 수신하고, 이를 검색하여 기기 연결을 수행할 수도 있다.
일 실시예에 따르면, 제1 전자 장치(510)와 제2 전자 장치(520)가 모두 인터넷에 접속이 불가능한 상태이거나, 또는 WiFi 모듈이 없고, 블루투스만 지원 가능한 상태를 포함할 수 있다. 이러한 경우, 제1 전자 장치(510)에서는 미리 저장하고 있던 스트링을 사용자에게 제공하고, 활용 가능한 프로토콜(예: Bluetooth)을 초기 상태로 전환할 수 있다.
일 실시예에 따르면, 제2 전자 장치(520)에서는 사용자가 입력한 스트링을 제2 전자 장치(520) 상에 저장된 스트링과 일치하는지를 확인하고, 해당 스트링을 보내는 기기 종류와 연결 가능한 프로토콜 타입 및 기기에 대한 사전 정의된 기본 정보를 확인하여, 이를 검색 후 기기 연결을 수행할 수도 있다. 일 실시예에 따르면, 제2 전자 장치(520)가 eASR(embedded ASR) 모듈 및/또는 eNLU(embedded NLU)를 포함하는 경우, 사용자로부터 발화된 문장의 스트링 변환을 서버(530)를 통하지 않고, 온-디바이스(on-device) 상태로 처리할 수도 있다.
도 6은 일 실시예에 따른 전자 장치와 서버의 연동에 기반하여 기기 연결을 제공하는 동작 예를 설명하기 위한 도면이다.
일 실시예에 따르면, 제1 전자 장치(510)는 사용자 발화에 대해 생성된 제1 스트링과 제1 전자 장치(510)의 연결 정보를 서버(530)(예: 도 2의 지능형 서버(201))로 제공할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 사용자 발화에 대해 생성된 제2 스트링과 그에 매칭되는 연결 정보의 요청을 서버(530)로 제공할 수 있다.
일 실시예에 따르면, 서버(530)는 제1 스트링과 제2 스트링의 일치 여부를 판단하고, 일치 여부에 기반하여 제1 전자 장치(510)의 연결 정보를 제2 전자 장치(520)로 제공할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)와 제2 전자 장치(520)는 연결 정보에 기반하여 연결할 수 있다. 예를 들면, 도 6에서는 제1 전자 장치(510), 제2 전자 장치(520) 및 서버(530)와 연동에 기반하여 제1 전자 장치(510)와 제2 전자 장치(520) 간의 기기 연결을 지원하는 예를 나타낼 수 있다.
도 6을 참조하면, 일 실시예에 따라, 제1 전자 장치(510)는 제1 사용자 입력(601)을 수신할 수 있다. 일 실시예에 따라, 제1 사용자 입력(601)은 음성 기반, 버튼 기반, 화면 터치 기반, 및/또는 원격 제어 기반 중 제1 전자 장치(510)의 종류에 기반하여 지정된 다양한 입력 방법 중 어느 하나를 포함할 수 있다. 일 실시예에 따라, 도 6에서는 제1 사용자 입력(601)이 음성 기반의 입력(예: 연결 해줘)인 것을 예시로 설명한다. 일 실시예에 따르면, 사용자는 제1 전자 장치(510)에서 다양한 입력 방법을 통해서, 기기 연결을 개시할 수 있다. 일 실시예에 따라, 사용자 발화에 따른 제1 사용자 입력(601)은, 예를 들면, 기기 연결을 의미하는 명확한 의도(intent)를 가진 발화일 수 있다.
일 실시예에 따라, 제1 전자 장치(510)는 제1 사용자 입력(601)의 수신을 감지하는 것에 기반하여, 스트링 생성 모듈(string generation module)(610)을 통해 제1 사용자 입력(601)에 관련된 스트링을 생성할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)는 음성 어시스턴트를 통해 사용자가 발화(예: 제1 사용자 입력(601))를 입력하면, 사용자 발화에 따른 스트링을 생성할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)는 제1 사용자 입력(601) 감지에 기반하여 스트링 생성 모듈(610)을 활성화(activation)할 수 있고, 스트링 생성 모듈(610)에서 사용자 발화에 따른 스트링(예: 열려라 참깨)을 생성할 수 있다.
어떤 실시예에 따르면, 스트링 생성 모듈(610)은, 서버(530)(예: 스트링 DB(630))로부터 스트링을 획득하거나, 또는 제1 전자 장치(510)의 메모리(130)에 미리 정의된(pre-defined) 스트링을 획득할 수도 있다.
일 실시예에 따르면, 제1 전자 장치(510)는 생성된 스트링을 스피커(예: 도 2의 스피커(155))를 통해 음성(voice)으로 출력하거나, 및/또는 디스플레이 모듈(예: 도 1의 디스플레이 모듈(160))을 통해 화면에 표시하여 사용자에게 제공할 수 있다.
일 실시예에 따르면, 제1 전자 장치(510)(예: 스트링 생성 모듈(610))는 제1 전자 장치(510)의 다양한 통신 모듈(620)(예: 도 1의 통신 모듈(190))의 상태를 식별하고, 제1 전자 장치(510)에서 사용 가능한(또는 설정되어 있는) 기기 간(device to device) 연결 방법 종류를 판단할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)는 연결 방법 종류에 기반하여 대응되는 제1 전자 장치(510)의 연결 정보를 생성할 수 있다. 일 실시예에 따라, 연결 정보는, 예를 들면, WiFi on/off 상태, 블루투스 on/off 상태, 신호 세기, 블루투스 연결 상태 정보, 블루투스 MAC 주소 정보, WiFi MAC 주소 정보, SSID, 패스워드, 및/또는 모델 정보를 포함할 수 있다.
일 실시예에 따르면, 제1 전자 장치(510)는 제1 전자 장치(510)의 스트링 및 연결 정보를 서버(530)로 제공할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)에 의해 생성된 스트링 및 제1 전자 장치(510)의 연결 정보는 서버(530)의 디바이스 정보 DB(640)에 저장되어 관리될 수 있다.
일 실시예에 따르면, 서버(530)는 제1 전자 장치(510)의 스트링과 연결 정보를 서로 연관되도록 매칭하여 관리할 수 있다. 일 실시예에 따라, 제1 전자 장치(510)는 스트링 및 연결 정보를 제공하고, 외부 전자 장치(예: 제2 전자 장치(520))로부터의 호출(또는 연결 요청)을 대기할 수 있다.
일 실시예에 따라, 제2 전자 장치(520)는 제2 사용자 입력(603)을 수신할 수 있다. 일 실시예에 따라, 제2 사용자 입력(603)은 음성 기반으로 입력될 수 있다. 예를 들면, 사용자는 제1 전자 장치(510)를 통해 확인된 스트링을 제1 전자 장치(510)와 연결하려는 제2 전자 장치(520)에서 발화할 수 있다.
일 실시예에 따르면, 제2 전자 장치(520)는 제2 사용자 입력(603)(예: 스트링에 대응하는 사용자 발화)을 수신하는 경우, 음성 어시스턴트(650)를 통해 사용자 발화에 따른 음성 신호(또는 오디오 스트림)를 스트링(예: 텍스트)로 변환할 수 있다. 예를 들면, 제2 전자 장치(520)는 사용자 발화를 자연어 텍스트로 변환하는 ASR(automatic speech recognition) 모듈(651) 및/또는 텍스트로 변환된 자연어를 처리할 캡슐(capsule)을 찾아 맵핑하는 NLU(natural language understanding) 모듈(653)을 포함할 수 있다.
일 실시예에 따르면, 제2 전자 장치(520)는 스트링 검증 모듈(string verification module)(660)을 통해 음성 어시스턴트(650)(예: ASR 모듈(651) 및/또는 NLU 모듈(653))에 기반하여 스트링(예: 텍스트)으로 변환된 사용자 발화를 검증할 수 있다.
일 실시예에 따르면, 스트링 검증 모듈(660)은 사용자 발화에 따른 스트링이 제1 전자 장치(510)에서 생성되는 스트링과 같이 지정된 형식으로 정의되지 않는 유니크한 스트링(예: 열려라 참깨, AZAAC, 또는 잘가 가지마)인지 여부를 판단할 수 있다. 예를 들면, 스트링 검증 모듈(660)은 음성 인식을 위한 일반적인 명령어 포함 스트링과 기기 연결을 위한 유니크한 스트링을 검증할 수 있다.
일 실시예에 따르면, 제2 전자 장치(520)는 스트링 검증 모듈(660)에 의한 검증 결과에 기반하여, 제2 사용자 입력(603)에 따른 사용자 발화가 유니크한 스트링으로 검증되는 경우, 스트링 처리 모듈(string handler)(670)을 통해, 해당 스트링을 서버(530)로 제공할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)에 의해 생성된 스트링은 서버(530)의 디바이스 정보 DB(640)에 제공될 수 있다.
일 실시예에 따라, 서버(530)는 제2 전자 장치(520)로부터 스트링(이하, ‘제2 스트링’이라 한다)을 수신하는 경우, 서버(530)에서 디바이스 정보 DB(640)에 현재 보관 중인 스트링(예: 제1 전자 장치(510)에 의해 생성되어 수신된 스트링)(이하, ‘제1 스트링’이라 한다)과 제2 스트링을 매칭하여, 일치 여부를 판단할 수 있다. 일 실시예에 따르면, 서버(530)는 제1 스트링과 제2 스트링이 일치하는 경우, 제1 스트링과 매칭된 연결 정보(예: 제1 전자 장치(510)로부터 수신된 연결 정보)를 제2 전자 장치(520)로 제공할 수 있다.
일 실시예에 따르면, 서버(530)는 스트링 재활용을 위해 제1 전자 장치(510) 및 제2 전자 장치(520)로부터 획득된 스트링을 디바이스 정보 DB(640)에서 파기(또는 삭제)할 수 있다. 어떤 실시예에 따르면, 서버(530)는 제1 전자 장치(510)와 제2 전자 장치(520)의 기기 연결이 일정 시간 내에 이루어지는 경우, 해당 시점에 디바이스 정보 DB(640)에서 대응하는 스트링을 즉시 파기할 수도 있다.
일 실시예에 따르면, 제2 전자 장치(520)는 서버(530)로부터 제1 전자 장치(510)에 관련된 연결 정보(예: 텍스트 또는 구문 형식)를 수신하는 경우, 스트링 파싱 모듈(string parsing module)(680)을 통해, 연결 정보를 해석할 수 있다. 일 실시예에 따르면, 스트링 파싱 모듈(680)은 서버(530)로부터 수신된 연결 정보에 따른 텍스트 또는 구문을 지정된 규칙(예: 문법 규칙)에 따라 해석하고, 연결 정보의 의미를 이해할 수 있다.
일 실시예에 따르면, 제2 전자 장치(520)는 스트링 파싱 모듈(680)에 의해 해석된 연결 정보에 기반하여, 제2 전자 장치(520)의 다양한 통신 모듈(690)(예: 도 1의 통신 모듈(190))에서 제1 전자 장치(510)와 연결에 사용 가능한 통신 모듈(690) 및 해당 통신 모듈(690)의 상태를 식별할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 제1 전자 장치(510)의 연결 정보에 기반하여 최적의 연결 방법을 결정하고, 결정된 연결 방법에 기반하여 제2 전자 장치(520)의 기기 상태를 변경(예: 대응되는 통신 모듈 활성화)하고, 연결 정보에 기반하여 제1 전자 장치(510)와 연결을 수행할 수 있다.
일 실시예에 따라, 제1 전자 장치(510), 제2 전자 장치(520) 및 서버(530)는 도 6에 개시된 구성 요소에 제한하지 않으며, 예를 들면, 도 1 또는 도 2에 예시한 바와 같이 다양한 모듈을 포함하여 구현될 수 있다.
일 실시예에 따르면, 도 6의 예시에서는, 서버(530)에서 제1 전자 장치(510)와 제2 전자 장치(520)로부터 각각 수신된 스트링(예: 제1 스트링 및 제2 스트링)의 비교를 통해 일치 여부를 판단하고, 그 결과를 제2 전자 장치(520)에 제공하는 동작 예를 나타낼 수 있다. 다양한 실시예들이 이에 제한하는 것은 아니며, 전자 장치(101)(예: 제2 전자 장치(520))에서 온-디바이스(on-device) 상태로 처리하는 것도 가능하다.
일 실시예에 따르면, 제2 전자 장치(520)는 사용자의 웨이크 업 발화에 기반하여 음성 어시스턴트(650)를 실행하고, 이후 사용자 발화(예: 제2 사용자 입력(603))에 대해, 제2 전자 장치(520)에 사전 등록된 제1 전자 장치(510)에 관련된 스트링과 비교할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 비교하는 결과 스트링이 일치하는 경우, 스트링과 관련된 연결 정보를 서버(530)로부터 획득할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 서버(530)로부터 연결 정보의 획득에 기반하여, 제2 전자 장치(520)의 연결 상태를 확인하고, 제1 전자 장치(510)의 연결 정보에 기반하여 제2 전자 장치(520)를 연결 가능한 상태로 변경한 후, 연결 정보에 기반하여 제1 전자 장치(510)와 연결을 시작할 수도 있다.
다양한 실시예들에 따르면, 사용자는 제1 전자 장치(510)와 제2 전자 장치(520)의 기기 연결 시에, 제1 전자 장치(510) 및/또는 제2 전자 장치(520)에 의한 복잡한 메뉴 진입 및/또는 설정 동작 없이, 음성을 통해 간편하고 빠르게 연결할 수 있다. 일 실시예에 따르면, 사용자는 제1 전자 장치(510)(예: TV)의 화면에 표시된 스트링을 제2 전자 장치(520)(예: 스마트 폰)를 통해 읽는 동작만으로, 제1 전자 장치(510)와 제2 전자 장치(520) 간의 기기 연결을 자동으로 수행될 수 있다.
도 7은 일 실시예에 따른 전자 장치의 구성을 개략적으로 도시하는 도면이다.
도 7을 참조하면, 일 실시예에 따른 전자 장치(101)는 오디오 모듈(170), 통신 모듈(190), 디스플레이 모듈(160), 프로세서(120), 및/또는 메모리(130)를 포함할 수 있다.
일 실시예에 따라, 오디오 모듈(170)은 도 1을 참조한 설명 부분에서 설명한 바와 같은 오디오 모듈(170)에 대응할 수 있다. 일 실시예에 따르면, 오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(170)은, 마이크(151)(예: 도 1의 입력 모듈(150))를 통해 소리를 획득하거나, 스피커(155)(예: 도 1의 음향 출력 모듈(155))를 통해 소리를 출력할 수 있다. 일 실시예의 마이크(151)는 소리(예: 사용자 발화)를 수신하여, 전기적 신호로 변환할 수 있다. 일 실시예의 스피커(155)는 전기적 신호를 소리(예: 음성)로 출력할 수 있다.
어떤 실시예에 따르면, 전자 장치(101)는 기기 연결 동작 중, 기기 연결을 개시하는 장치로 동작 시에, 전자 장치(101)의 종류에 따라 마이크(151)의 구성 요소는 생략될 수도 있다. 예를 들면, 전자 장치(101)는 마이크(151)가 없는 스마트 스피커, 디스플레이 장치(예: TV 또는 모니터), 백색 가전 및/또는 IoT 장치일 수 있다. 이러한 경우, 전자 장치(101)는 기기 연결에 따른 스트링 획득(예: 생성 또는 수신)과 관련하여, 다른 입력 장치(예: 버튼, 터치스크린, 원격 제어 장치, 및/또는 도 1의 입력 모듈(150))에 의해 기기 연결 동작을 개시할 수 있다.
일 실시예에 따르면, 전자 장치(101)는, 기기 연결 개시에 응답하여, 스피커(155)를 통해, 획득된 스트링 및 스트링에 관련된 정보(예: 가이드 정보)를 소리(예: 음성)로 출력할 수 있다.
일 실시예에 따라, 통신 모듈(190)은 레거시 네트워크(예: 3G 네트워크 및/또는 4G 네트워크), 5G 네트워크, OOB(out of band) 및/또는 차세대 통신 기술(예: NR(new radio) 기술)을 지원할 수 있다. 일 실시예에 따르면, 통신 모듈(190)은 도 1에 예시한 바와 같은 무선 통신 모듈(192)에 대응할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 통신 모듈(190)을 이용하여 네트워크를 통해 외부 장치(예: 도 1의 서버(108), 도 2의 지능형 서버(201) 및/또는 도 1의 다른 전자 장치(102, 104))와 통신을 수행할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 지능형 서비스 동작 시에, 마이크(151)를 통해 입력된 사용자 발화의 음성 신호를 통신 모듈(190)을 통해 서버(예: 도 5 또는 도 6의 서버(530))로 전송할 수 있고, 서버로부터 사용자 발화의 음성 신호에 대해 처리된 응답 결과를 수신할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 지능형 기기 연결 동작 시에, 다양한 입력 방법 중 대응하는 입력 모듈(예: 도 1의 입력 모듈(150))을 통해 기기 연결 개시를 감지하는 경우, 내부 및/또는 외부로부터 획득된 스트링을 통신 모듈(190)을 통해 서버(예: 도 5 또는 도 6의 서버(530))로 전송할 수 있다.
어떤 실시예에 따르면, 전자 장치(101)는 지능형 기기 연결 동작 시에, 마이크(151)를 통해 입력된 사용자 발화의 음성 신호(예: 스트링)를 통신 모듈(190)을 통해 서버(예: 도 5 또는 도 6의 서버(530))로 전송할 수 있고, 서버로부터 사용자 발화의 음성 신호에 대응하는 연결 정보(예: 전자 장치(101)가 연결 가능한 대상 전자 장치에 관련된 연결 정보)를 수신할 수 있다.
일 실시예에 따라, 디스플레이 모듈(160)는 도 1을 참조한 설명 부분에서 설명한 바와 같은 디스플레이 모듈(160)에 대응할 수 있다. 일 실시예에 따라, 디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 다양한 정보를 시각적으로 제공할 수 있다. 일 실시예에 따라, 디스플레이 모듈(160)은 터치 감지 회로(또는 터치 센서)(미도시), 터치의 세기를 측정할 수 있는 압력 센서 및/또는 자기장 방식의 스타일러스 펜을 검출하는 터치 패널(예: 디지타이저)을 포함할 수 있다.
일 실시예에 따르면, 디스플레이 모듈(160)은 터치 감지 회로, 압력 센서 및/또는 터치 패널에 기반하여 디스플레이 모듈(160)의 특정 위치에 대한 신호(예: 전압, 광량, 저항, 전자기 신호 및/또는 전하량)의 변화를 측정함으로써 터치 입력 및/또는 호버링 입력(또는 근접 입력)을 감지할 수 있다. 일 실시예에 따르면, 디스플레이 모듈(160)은 액정 표시 장치(LCD, liquid crystal display), OLED(organic light emitted diode), AMOLED(active matrix organic light emitted diode)로 구성될 수 있다. 어떤 실시예에 따르면, 디스플레이 모듈(160)은 플렉서블 디스플레이(flexible display)로 구성될 수 있다.
일 실시예에 따르면, 디스플레이 모듈(160)은 프로세서(120)의 제어 하에, 지능형 기기 연결 수행과 관련된 다양한 정보(예: 사용자 인터페이스) 및 사용자 발화에 대해 처리된 응답 결과를 시각적으로 제공할 수 있다. 일 실시예에 따르면, 전자 장치(101)는, 기기 연결 개시에 응답하여, 디스플레이 모듈(160)을 통해, 스트링 및 스트링에 관련된 정보(예: 가이드 정보)를 표시할 수 있다.
어떤 실시예에 따르면, 전자 장치(101)는 기기 연결 동작 중, 기기 연결을 개시하는 장치로 동작 시에, 전자 장치(101)의 종류에 따라 디스플레이 모듈(160)의 구성 요소는 생략될 수도 있다. 예를 들면, 전자 장치(101)는 디스플레이 모듈(160)이 없는 스마트 스피커, 백색 가전 및/또는 IoT 장치일 수 있다. 이러한 경우, 전자 장치(101)는 기기 연결에 따른 스트링 출력과 관련하여, 스피커(155)를 통해, 스트링 및 스트링에 관련된 정보를 소리(예: 음성)로 출력할 수 있다.
일 실시예에 따라, 메모리(130)는 도 1을 참조한 설명 부분에서 설명한 바와 같은 메모리(130)에 대응할 수 있다. 일 실시예에 따르면, 메모리(130)는 전자 장치(101)에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 어플리케이션(예: 도 1의 프로그램(140)), 및 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다.
일 실시예에 따르면, 메모리(130)는 프로세서(120)에 의하여 수행될 수 있는, 지능형 기기 연결 기능(또는 동작)을 운영하는 것과 관련된 어플리케이션을 포함할 수 있다. 예를 들면, 기기 연결 기능은 기기 연결 어플리케이션에 의해 수행될 수 있다. 일 실시예에 따르면, 기기 연결 어플리케이션은 메모리(130) 상에 소프트웨어(예: 도 1의 프로그램(140))로서 저장될 수 있고, 프로세서(120)에 의해 실행 가능할 수 있다. 일 실시예에 따라, 기기 연결 어플리케이션에 의한 기기 연결 기능은 전자 장치(101) 상에서 사용자 발화에 기반하여 전자 장치(101)의 기기 연결(예: 제1 전자 장치(510)와 제2 전자 장치(520) 간의 기기 연결)을 자동으로 수행하는 동작을 지원하는 기능일 수 있다.
일 실시예에 따라, 메모리(130)는 기기 연결 기능을 운영하는 것과 관련된 데이터를 저장할 수 있다. 일 실시예에 따라, 데이터는, 기기 연결 동작 시에, 내부 또는 외부로부터 획득하는 스트링(710)과, 전자 장치(101)의 통신 모듈(190) 및 통신 모듈(190)의 상태에 기반하여 생성되는 연결 정보(720)를 포함할 수 있다. 일 실시예에 따라, 메모리(130)는 스트링(710)과 연결 정보(720)를 데이터베이스로 저장 및 관리할 수 있다.
일 실시예에 따르면, 스트링(710)은 스트링 재활용을 위해 일정 시간 후에 메모리(130)에서 파기(또는 삭제)될 수 있다. 어떤 실시예에 따르면, 스트링(710)은 전자 장치(101)의 기기 연결이 일정 시간 내에 이루어지는 경우, 해당 시점에 즉시 파기될 수도 있다. 일 실시예에 따르면, 연결 정보(720)는 전자 장치(101)의 통신 모듈(190)과 관련된 동작 상태 및/또는 사용자의 통신 방식 설정에 기반하여 적응적으로 업데이트될 수 있다.
일 실시예에 따르면, 메모리(130)는 프로세서(120)에 의하여 수행될 수 있는, 기기 연결 기능을 처리하기 위한 적어도 하나의 모듈을 저장할 수 있다. 예를 들면, 메모리(130)는 스트링 생성 모듈(730), 상태 식별 모듈(740), 스트링 검증 모듈(750), 스트링 처리 모듈(760), 및/또는 스트링 파싱 모듈(770) 중 적어도 일부를 소프트웨어 형태(또는 인스트럭션(instructions) 형태)로 포함할 수 있다.
일 실시예에 따라, 프로세서(120)는 전자 장치(101)에서 지능형 기기 연결 서비스(예: 기기 연결 기능)를 수행하는 것과 관련된 동작(또는 처리)을 제어할 수 있다. 일 실시예에 따르면, 프로세서(120)는 지능형 기기 연결 서비스를 제공할 때, 사용자 발화에 기반하여 전자 장치(101)의 기기 연결(예: 제1 전자 장치(510)와 제2 전자 장치(520) 간의 기기 연결)을 자동으로 수행하는 것과 관련된 동작을 제어할 수 있다.
일 실시예에 따르면, 프로세서(120)는 지능형 기기 연결 서비스를 제공할 때, 지정된 사용자 입력에 기반하여 기기 연결 개시를 감지할 수 있다. 일 실시예에 따라, 프로세서(120)는 기기 연결 개시에 감지에 기반하여 다른 전자 장치와 연결을 위한 스트링 및 연결 정보를 생성할 수 있다. 일 실시예에 따라, 프로세서(120)는 스트링을 지정된 출력 모듈(예: 스피커(155) 및/또는 디스플레이 모듈(160))을 통해 출력하고, 스트링 및 연결 정보를 외부(예: 서버(530))로 전송할 수 있다. 일 실시예에 따라, 프로세서(120)는 다른 전자 장치로부터의 연결 요청을 수신하는 것에 기반하여 다른 전자 장치와 연결을 수행하도록 할 수 있다.
일 실시예에 따르면, 프로세서(120)는 지능형 기기 연결 서비스를 제공할 때, 다른 전자 장치와 기기 연결에 관련된 사용자 발화를 수신하고, 사용자 발화를 수신하는 것에 기반하여 다른 전자 장치와 관련된 스트링을 획득할 수 있다. 일 실시예에 따라, 프로세서(120)는 사용자 발화와 스트링의 일치 여부를 판단하고, 사용자 발화와 스트링이 일치하는 경우, 다른 전자 장치에 관련된 연결 정보에 기반하여, 다른 전자 장치와 연결을 수행하도록 할 수 있다.
일 실시예에 따르면, 프로세서(120)는 지능형 기기 연결 서비스를 제공할 때, 사용자 입력에 기반하여 전자 장치의 동작 모드를 결정할 수 있다. 일 실시예에 따라, 프로세서(120)는 제1 동작 결정에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 연결 정보에 기반한 다른 전자 장치로부터의 연결 요청 수신을 대기할 수 있다. 일 실시예에 따르면, 프로세서(120)는 다른 전자 장치로부터 연결 요청을 수신하는 것에 기반하여 다른 전자 장치와 연결을 수행하도록 할 수 있다. 일 실시예에 따라, 프로세서(120)는 제2 동작 결정에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득할 수 있다. 일 실시예에 따라, 프로세서(120)는 사용자 발화와 스트링의 일치 시에, 연결 정보에 기반하여 다른 전자 장치와 연결을 수행하도록 할 수 있다.
일 실시예에 따르면, 프로세서(120)는 음성 기반 기기 연결 기능을 처리하기 위한 적어도 하나의 모듈을 포함할 수 있다. 예를 들면, 프로세서(120)는 스트링 생성 모듈(730), 상태 식별 모듈(740), 스트링 검증 모듈(750), 스트링 처리 모듈(760), 및/또는 스트링 파싱 모듈(770)을 포함할 수 있다.
일 실시예에 따라, 스트링 생성 모듈(730)은 유니크한 스트링을 생성할 수 있다. 일 실시예에 따르면, 스트링 생성 모듈(730)은 사용자 발화에 대응하는 스트링을 생성하거나, 서버(530)(예: 스트링 DB(630))로부터 스트링을 획득하거나, 또는 전자 장치(101)의 메모리(130)에 미리 정의된(pre-defined) 스트링을 획득할 수 있다.
일 실시예에 따라, 상태 식별 모듈(740)은 전자 장치(101)에서 사용 가능한 연결 방법 종류를 식별할 수 있다. 일 실시예에 따라, 상태 식별 모듈(740)은 연결 방법 종류에 기반하여 연결 정보를 생성할 수 있다. 일 실시예에 따라, 상태 식별 모듈(740)은 연결 정보에 기반하여 다른 전자 장치와 연결을 수행하기 위한 연결 방법을 결정할 수 있다. 일 실시예에 따라, 상태 식별 모듈(740)은 결정된 연결 방법에 기반하여 전자 장치(101)의 상태를 다른 전자 장치와 연결 가능한 상태로 전환할 수 있다.
일 실시예에 따라, 스트링 검증 모듈(750)은 스트링(예: 텍스트)으로 변환된 사용자 발화를 검증할 수 있다. 일 실시예에 따르면, 스트링 검증 모듈(750)은 사용자 발화에 따른 스트링이 전자 장치(101)에서 생성되는 스트링과 같이 지정된 형식으로 정의되지 않는 유니크한 스트링(예: 열려라 참깨, AZAAC, 또는 잘가 가지마)인지 여부를 판단할 수 있다. 예를 들면, 스트링 검증 모듈(660)은 음성 인식을 위한 일반적인 명령어 포함 스트링과 기기 연결을 위한 유니크한 스트링을 검증할 수 있다.
일 실시예에 따라, 스트링 처리 모듈(760)은 스트링 검증 모듈(750)에 의한 검증 결과에 기반하여, 사용자 발화가 유니크한 스트링으로 검증되는 경우, 해당 스트링을 서버(530)로 제공할 수 있다. 일 실시예에 따라, 스트링 처리 모듈(760)은 서버(530)로부터 스트링과 매칭된 연결 정보를 획득할 수 있다. 일 실시예에 따라, 스트링 처리 모듈(760)은 획득된 연결 정보를 스트링 파싱 모듈(770)로 제공할 수 있다.
일 실시예에 따라, 스트링 파싱 모듈(770)은 연결 정보를 해석할 수 있다. 일 실시예에 따라, 스트링 파싱 모듈(770)은 서버(530)로부터 수신된 연결 정보에 따른 텍스트 또는 구문을 지정된 규칙(예: 문법 규칙)에 따라 해석하고, 연결 정보의 의미를 이해할 수 있다.
일 실시예에 따라, 스트링 생성 모듈(730), 상태 식별 모듈(740), 스트링 검증 모듈(750), 스트링 처리 모듈(760), 및/또는 스트링 파싱 모듈(770) 중 적어도 일부는 하드웨어 모듈(예: 회로(circuitry))로 프로세서(120)에 포함되거나, 및/또는 프로세서(120)에 의해 실행될 수 있는 하나 이상의 인스트럭션들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 프로세서(120)에서 수행하는 동작들은, 메모리(130)에 저장되고, 실행 시에, 프로세서(120)가 동작하도록 하는 인스트럭션들에 의해 실행될 수 있다.
다양한 실시예들에 따른, 프로세서(120)는 상기의 기능 외에 전자 장치(101)의 통상적인 기능과 관련된 각종 동작을 제어할 수 있다. 예를 들면, 프로세서(120)는 지정된 어플리케이션 실행 시 그의 운영 및 화면 표시를 제어할 수 있다. 다른 예를 들면, 프로세서(120)는 터치 기반 또는 근접 기반의 입력 인터페이스에서 지원하는 다양한 터치 이벤트 또는 근접 이벤트 입력에 대응하는 입력 신호를 수신하고, 그에 따른 기능 운영을 제어할 수 있다.
다양한 실시예들에 따르면, 전자 장치(101)는 도 7에 도시된 구성 요소에 제한되지 않으며, 적어도 하나의 구성 요소가 생략되거나, 추가될 수 있다. 일 실시예에 따르면, 전자 장치(101)는 음성 인식 모듈(미도시)(예: 도 6의 음성 어시스턴트(650))을 포함할 수 있다. 예를 들면, 음성 인식 모듈(미도시)은, eASR(embedded ASR) 모듈 및/또는 eNLU(embedded NLU)을 나타낼 수 있다. 일 실시예에 따른, 음성 인식 모듈(미도시)은 사용자 발화에 따라 전자 장치(101)의 마이크(151)를 통해 수신된 음성 입력을 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 내부 처리 및/또는 서버(예: 도 5 또는 도 7의 서버(530))로 제공할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 마이크(151)가 없는 장치인 경우에는, 다른 입력 장치를 이용하여 기기 연결 서비스의 시작을 위한 입력을 수신하고, 대응하는 스트링을 생성하도록 할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 디스플레이 모듈(160)이 없는 장치, 또는 디스플레이 모듈(160)의 사용이 제한된 동작 모드(예: 모바일 드라이빙 모드(mobile driving mode))인 경우에는, TTS(text to speech)로 스트링을 오디오로 출력하여 사용자에게 제공하도록 할 수 있다.
일 실시예에 따르면, 전자 장치(101) 또는 서버(530)는 본 개시의 다양한 실시예들에 따른 음성 기반 기기 연결 서비스를 지원하기 위한 음성 인식 장치(예: 음성 어시스턴트)를 포함하여, 전자 장치(101) 또는 서버(530)의 단일 주체에서 본 개시의 다양한 실시예들을 처리할 수도 있다.
일 실시예에 따르면, 전자 장치(101)는, 예를 들면, 도 2, 도 5 또는 도 6에 예시한 바와 같은 서버(530)의 음성 인식 처리를 위한 구성 요소를 포함하여 음성 인식 장치(예: 음성 어시스턴트)를 구현할 수 있고, 서버(530)와 상호작용 없이 음성 인식 처리를 단독(standalone)으로 수행하는 방식으로 동작할 수 있다.
다른 실시예에 따르면, 서버(530)는 예를 들면, 도 7에 예시한 바와 같은 스트링 생성 모듈(730), 상태 식별 모듈(740), 스트링 검증 모듈(750), 스트링 처리 모듈(760), 및/또는 스트링 파싱 모듈(770) 중 적어도 일부 구성 요소를 포함하여 음성 인식 장치(예: 음성 어시스턴트)를 구현할 수 있고, 전자 장치(101)로부터 전달된 발화에 관련된 음성 신호에 대해 단독으로 처리하고, 그에 대한 응답 결과를 전자 장치(101)에 제공하는 방식으로 동작할 수 있다.
다양한 실시예들에 따른 기기 연결 처리를 위한 음성 인식 장치(예: 음성 어시스턴트) 및/또는 다양한 모듈들 중 적어도 일부 구성 요소는, 하드웨어 모듈 또는 소프트웨어 모듈로 구현되어, 전자 장치(101) 또는 서버(530)에 탑재되는 형태로 구현하고, 음성 인식 장치를 포함하는 어느 하나의 구성 요소(예: 전자 장치(101) 또는 서버(530))에 의해 다양한 실시예들에 따른 동작을 처리할 수도 있다.
일 실시예에 따르면, 스트링을 생성하는 장치, 스트링을 비교하는 장치, 및/또는 스트링을 저장하는 장치는, 해당 전자 장치의 조건에 따라, 각각, 서버(530) 또는 전자 장치(101) 내에 포함할 수 있으며, 사용자 발화를 인식하고, 스트링으로 변환하는 장치 역시, 서버(530) 또는 전자 장치(101) 내에 포함할 수 있다.
본 개시에서 설명되는 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.
다양한 실시예들에서, 기록 매체는 사용자 입력에 기반하여 전자 장치의 동작 모드를 결정하는 동작, 제1 동작 결정에 기반하여 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하는 동작, 연결 정보에 기반한 다른 전자 장치로부터의 연결 요청 수신을 대기하는 동작, 다른 전자 장치로부터 연결 요청 수신에 기반하여 다른 전자 장치와 연결을 수행하는 동작, 제2 동작 결정에 기반하여 사용자 발화를 수신하는 동작, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하는 동작, 및 사용자 발화와 스트링의 일치 시에 연결 정보에 기반하여 다른 전자 장치와 연결을 수행하는 동작을 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체를 포함할 수 있다.
본 개시의 실시예에 따른 음성 인식에 기반하여 기기 연결을 지원하기 위한 전자 장치(101)는, 통신 모듈(190), 출력 모듈(예: 스피커(155) 및/또는 디스플레이 모듈(160)), 메모리(130), 및 상기 통신 모듈(190), 상기 출력 모듈 및 상기 메모리(130)와 작동적으로 연결된 프로세서(120)를 포함하고, 상기 프로세서(120)는, 지정된 사용자 입력에 기반하여 기기 연결 개시를 감지하고, 다른 전자 장치와 연결을 위한 스트링 및 연결 정보를 생성하고, 상기 스트링을 상기 출력 모듈을 통해 출력하고, 상기 스트링 및 연결 정보를 외부로 전송하고, 및 상기 다른 전자 장치로부터의 연결 요청을 수신하는 것에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 설정될 수 있다.
일 실시예에 따르면, 상기 지정된 사용자 입력은, 사용자 발화 입력, 상기 전자 장치(101)에서 지정된 명령을 발생하도록 설정된 버튼 입력, 화면 터치 입력, 상기 전자 장치(101)의 제스처 제어 입력, 및/또는 원격 제어 장치를 이용한 제어 신호 입력에 기반하여, 기기 연결 동작을 개시하기 위한 입력 방법(input method)을 포함할 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 사용자의 제1 발화에 기반하여 기기 연결 개시를 감지하고, 사용자의 제2 발화에 기반하여 상기 다른 전자 장치와 연결에 관련된 스트링을 생성하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 사용자 발화 입력, 상기 메모리에 미리 저장된 적어도 하나의 스트링 중 선택, 또는 서버로부터 스트링 획득에 기반하여, 상기 스트링을 생성하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 스트링 및 상기 스트링에 관련된 정보를 상기 출력 모듈을 통해 청각적 정보 및/또는 시가적 정보로 출력하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 전자 장치(101)의 상태를 식별하고, 상기 상태 식별에 기반하여 상기 연결 정보를 생성하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 전자 장치(101)에서 사용 가능한 기기 간 연결 방법 종류를 판단하고, 상기 연결 방법 종류에 기반하여 대응하는 연결 정보를 생성하도록 설정될 수 있다.
본 개시의 실시예에 따른 음성 인식에 기반하여 기기 연결을 지원하기 위한 전자 장치(101)는, 통신 모듈(190), 마이크(151), 메모리(130), 및 상기 통신 모듈(190), 상기 마이크(151) 및 상기 메모리(130)와 작동적으로 연결된 프로세서(120)를 포함하고, 상기 프로세서(120)는, 다른 전자 장치와 기기 연결에 관련된 사용자 발화를 수신하고, 사용자 발화를 수신하는 것에 기반하여 상기 다른 전자 장치와 관련된 스트링을 획득하고, 상기 사용자 발화와 상기 스트링의 일치 여부를 판단하고, 및 상기 사용자 발화와 상기 스트링이 일치하는 경우, 상기 다른 전자 장치에 관련된 연결 정보에 기반하여, 상기 다른 전자 장치와 연결을 수행하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 사용자 발화에 기반하여 상기 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 스트링의 매칭에 기반하여, 일치하는 경우 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하기 위한 연결 방법을 결정하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 결정된 연결 방법에 기반하여 상기 전자 장치(101)의 상태를 상기 다른 전자 장치와 연결 가능한 상태로 전환하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 다른 전자 장치, 서버(530) 또는 상기 메모리(130)로부터, 상기 다른 전자 장치와 관련된 스트링을 획득하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 다른 전자 장치와 관련된 스트링을 서버(530)로부터 획득하고, 상기 사용자 발화와 상기 스트링이 일치하는 경우, 상기 서버(530)로부터 상기 스트링에 매칭된 상기 연결 정보를 획득하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 상기 사용자 발화를 수신하고, 상기 사용자 발화를 서버(530)로 전송하고, 상기 서버(530)에 의해 상기 사용자 발화가 지정된 스트링과 일치하는 것에 기반하여, 상기 서버(530)로부터 상기 사용자 발화에 매칭된 상기 연결 정보를 획득하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 음성 인식 개시를 위한 지정된 사용자 입력에 기반하여 웨이크 업 하고, 다른 전자 장치에 의해 생성된 스트링에 관련된 사용자 발화를 수신하고, 상기 사용자 발화를 검증하도록 설정될 수 있다.
일 실시예에 따르면, 상기 프로세서(120)는, 사용자 발화에 따른 스트링이 지정된 형식으로 정의되지 않는 유니크한 스트링인지 여부를 검증하도록 설정될 수 있다.
본 개시의 실시예에 따른 음성 인식에 기반하여 기기 연결을 지원하기 위한 전자 장치(101)는, 통신 모듈(190), 입력 모듈(150), 출력 모듈(예: 스피커(155) 및/또는 디스플레이 모듈(160)), 메모리(130), 및 프로세서(120)를 포함할 수 있다. 일 실시예에 따라, 상기 프로세서(120)는, 사용자 입력에 기반하여 전자 장치(101)의 동작 모드를 결정하고, 제1 동작 결정에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 상기 연결 정보에 기반한 상기 다른 전자 장치로부터의 연결 요청 수신을 대기하고, 상기 연결 요청 수신에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 설정될 수 있다. 일 실시예에 따라, 상기 프로세서(120)는, 제2 동작 결정에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 상기 스트링의 일치 시에, 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 설정될 수 있다.
이하에서는 다양한 실시예들의 전자 장치(101)의 동작 방법에 대해서 상세하게 설명한다. 다양한 실시예들에 따라, 전자 장치(101)에서 수행하는 동작들은, 전자 장치(101)의 적어도 하나의 프로세싱 회로(processing circuitry)를 포함하는 프로세서(예: 도 1 또는 도 7의 프로세서(120))에 의해 실행될 수 있다. 일 실시예에 따라, 전자 장치(101)에서 수행하는 동작들은, 메모리(130)에 저장되고, 실행 시에, 프로세서(120)가 동작하도록 하는 인스트럭션들(instructions)에 의해 실행될 수 있다.
도 8은 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
일 실시예에 따라, 도 8에서는, 전자 장치(101)가, 예를 들면, 도 5 또는 도 6에서 제1 전자 장치(510)로 동작하고, 제1 전자 장치(510)의 동작에 따라 기기 연결 서비스를 지원하는 동작 예를 나타낼 수 있다. 예를 들면, 도 8에서는, 전자 장치(101)가 사용자 입력에 기반하여 전자 장치(101)의 동작 모드(예: 제1 동작 모드 및 제2 동작 모드) 중 제1 동작 모드를 결정하고, 제1 동작 모드에 기반하여, 다른 전자 장치와 연결을 지원하기 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 연결 정보에 기반하여 다른 전자 장치의 연결 요청 수신에 기반하여 다른 전자 장치와 연결하는 예를 나타낼 수 있다.
도 8을 참조하면, 동작 801에서, 전자 장치(101)의 프로세서(120)는 음성 기반의 기기 연결 개시를 감지할 수 있다. 일 실시예에 따르면, 사용자는 기기 연결 서비스를 개시할 시, 전자 장치(101)에서 기기 연결 동작 개시를 위한 다양한 입력 방법(input method)(예: 음성, 버튼, 터치 또는 제스처) 중 지정된 입력 방법에 기반하여, 기기 연결 동작을 개시하도록 명령할 수 있다.
일 실시예에 따르면, 사용자는 기기 연결 동작 개시를 위한 지정된 명령 발화, 지정된 버튼(예: 하드웨어 버튼) 입력, 화면 터치 입력, 전자 장치(101)의 제스처(또는 모션) 제어 입력, 및/또는 원격 제어 장치를 이용한 제어 신호 입력과 같은 사용자 입력을 수행할 수 있다. 일 실시예에 따라, 프로세서(120)는 사용자 입력에 따른 지정된 명령을 감지하는 것에 기반하여, 기기 연결 동작의 개시를 감지할 수 있다.
동작 803에서, 프로세서(120)는 기기 연결 동작의 개시 감지에 기반하여 스트링 및 연결 정보를 생성할 수 있다.
일 실시예에 따르면, 프로세서(120)는 전자 장치(101)와 다른 전자 장치의 기기 연결을 위한 스트링을 생성할 수 있다. 일 실시예에 따라, 프로세서(120)는 사용자로부터 수신된 사용자 발화에 대응하는 스트링, 메모리(130)에 미리 저장된 적어도 하나의 스트링 중 어느 하나의 스트링 선택, 서버(530)로부터 획득(예: 요청 및 수신)하는 스트링에 기반하여 기기 연결과 관련된 스트링을 생성할 수 있다.
일 실시예에 따르면, 프로세서(120)는 전자 장치(101)의 통신 모듈(190) 및/또는 통신 모듈(190)의 설정 상태에 기반하여 연결 정보를 생성할 수 있다. 예를 들면, 프로세서(120)는 전자 장치(101)에서 사용 가능한 기기 간(device to device) 연결 방법 종류를 판단하고, 연결 방법 종류에 기반하여 대응하는 연결 정보를 생성할 수 있다.
일 실시예에 따라, 연결 정보는, 연결 방법 종류에 기반하여, WiFi on/off 상태, 블루투스 on/off 상태, 신호 세기, WiFi 연결 상태 정보(예: 다른 전자 장치와의 연결 여부에 대한 상태 정보 또는 네트워크 정보), 블루투스 연결 상태 정보 블루투스 MAC(media access control) 주소(address) 정보, WiFi MAC 주소 정보, SSID(service set identifier), 패스워드(password), 코드, 및/또는 연결 대상 통신 모듈의 모델 정보(예: 모델 이름(model name)), 및/또는 전자 장치(101)의 식별자(예: 디바이스 식별자 및/또는 디바이스 이름)를 포함할 수 있다.
동작 805에서, 프로세서(120)는 스트링을 출력할 수 있다. 일 실시예에 따르면, 프로세서(120)는 전자 장치(101)의 종류(예: 스피커 및/또는 디스플레이 모듈의 유무)에 따라 지정된 출력 방식으로, 스트링 및 스트링에 관련된 정보를 외부로 출력하여 사용자에게 제공할 수 있다. 일 실시예에 따라, 지정된 출력 방식은, 청각적 정보(예: 오디오) 출력 및/또는 시각적 정보(예: 텍스트, 이미지, 및/또는 동영상) 출력을 포함할 수 있다. 일 실시예에 따라, 스트링은 전자 장치(101)의 기기 연결을 지원하기 위한 유니크한(unique) 스트링일 수 있다.
동작 807에서, 프로세서(120)는 스트링 및 연결 정보를 외부(예: 서버(530))로 전송하도록 통신 모듈(190)을 제어할 수 있다. 일 실시예에 따르면, 동작 805의 출력 동작과 동작 807의 전송 동작은, 도시된 순서에 제한되지 않으며, 병렬적으로, 순차적으로, 역순차적으로, 또는 휴리스틱 하게, 수행될 수 있다.
동작 809에서, 프로세서(120)는 스트링 및 연결 정보를 전송하고, 다른 전자 장치로부터의 연결 요청을 대기할 수 있다. 일 실시예에 따르면, 프로세서(120)는 다른 전자 장치로부터의 연결 요청을 수신하는 것에 기반하여 전자 장치(101)와 다른 전자 장치 간의 연결을 시작할 수 있다. 일 실시예에 따르면, 프로세서(120)는 다른 전자 장치로부터 연결 정보를 기반으로 연결 요청을 수신하고, 지정된 연결 정보에 따른 연결 요청에 기반하여 지정된 통신 모듈(또는 통신 방식)을 통해 다른 전자 장치와의 연결을 바로 수행할 수 있다.
도 9는 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
일 실시예에 따라, 도 9에서는, 전자 장치(101)가, 예를 들면, 도 5 또는 도 6에서 제1 전자 장치(510)로 동작하고, 제1 전자 장치(510)의 동작에 따라 기기 연결 서비스를 지원하는 동작 예를 나타낼 수 있다. 예를 들면, 도 9에서는, 전자 장치(101)가 사용자 입력에 기반하여 전자 장치(101)의 동작 모드(예: 제1 동작 모드 및 제2 동작 모드) 중 제1 동작 모드를 결정하고, 제1 동작 모드에 기반하여, 다른 전자 장치와 연결을 지원하기 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 연결 정보에 기반하여 다른 전자 장치의 연결 요청 수신에 기반하여 다른 전자 장치와 연결하는 예를 나타낼 수 있다.
도 9를 참조하면, 동작 901에서, 전자 장치(101)의 프로세서(120)는 음성 기반의 기기 연결 개시를 감지할 수 있다. 일 실시예에 따르면, 사용자는 기기 연결 동작을 개시하기 위한 지정된 명령 발화, 지정된 버튼(예: 하드웨어 버튼) 입력, 화면 터치 입력, 전자 장치(101)의 제스처(또는 모션) 제어 입력, 및/또는 원격 제어 장치를 이용한 제어 신호 입력과 같은 사용자 입력을 수행할 수 있다. 일 실시예에 따라, 프로세서(120)는 사용자 입력에 따른 지정된 명령을 감지하는 것에 기반하여, 기기 연결 동작의 개시를 감지할 수 있다.
동작 903에서, 프로세서(120)는 기기 연결 동작의 개시 감지에 기반하여 사용자 발화를 수신할 수 있다. 일 실시예에 따르면, 프로세서(120)는 기기 연결 동작의 개시를 감지하는 것에 기반하여, 웨이크 업을 인식하고, 웨이크 업에 기반하여 음성 어시스턴트를 실행하고, 음성 어시스턴트를 통해 사용자가 발화를 입력하면, 사용자 발화에 따른 오디오 스트림(또는 음성 신호)을 획득할 수 있다.
동작 905에서, 프로세서(120)는 사용자 발화 수신에 기반하여 스트링을 생성할 수 있다. 일 실시예에 따르면, 프로세서(120)는 사용자 발화에 따른 오디오 스트림을 텍스트로 변환하고, 변환된 텍스트를 스트링으로 사용할 수 있다. 어떤 실시예에 따르면, 프로세서(120)는 사용자의 제1 발화에 기반하여 웨이크 업 및 기기 연결 개시를 감지하고, 사용자의 제2 발화에 기반하여 다른 전자 장치와 연결에 관련된 스트링을 생성하도록 동작할 수도 있다.
동작 907에서, 프로세서(120)는 스트링 정보를 출력할 수 있다. 일 실시예에 따르면, 프로세서(120)는 전자 장치(101)의 종류(예: 스피커 및/또는 디스플레이 모듈의 유무)에 따라 지정된 출력 방식으로, 스트링 및 스트링에 관련된 정보를 포함하는 스트링 정보를 외부로 출력하여 사용자에게 제공할 수 있다. 일 실시예에 따라, 지정된 출력 방식은 청각적 정보(예: 오디오) 출력 및/또는 시각적 정보(예: 텍스트, 이미지, 및/또는 동영상) 출력을 포함할 수 있다. 일 실시예에 따르면, 프로세서(120)는 변환된 텍스트 및 가이드 정보를 디스플레이 모듈(160)를 통해 표시하거나, 및/또는 변환된 텍스트 및 가이드 정보를 재생 가능한 오디오 스트림으로 변환(예: TTS)하여 스피커(155)를 통해 출력할 수 있다.
동작 909에서, 프로세서(120)는 전자 장치(101)의 연결 방법 식별에 기반하여 연결 정보를 생성할 수 있다. 일 실시예에 따르면, 프로세서(120)는 전자 장치(101)의 통신 모듈(190) 및/또는 통신 모듈(190)의 설정 상태에 기반하여 연결 정보를 생성할 수 있다. 예를 들면, 프로세서(120)는 전자 장치(101)에서 사용 가능한 기기 간(device to device) 연결 방법 종류를 판단하고, 연결 방법 종류에 기반하여 대응하는 연결 정보를 생성할 수 있다.
일 실시예에 따라, 연결 정보는, 연결 방법 종류에 기반하여, WiFi on/off 상태, 블루투스 on/off 상태, 신호 세기, WiFi 연결 상태 정보(예: 다른 전자 장치와의 연결 여부에 대한 상태 정보 또는 네트워크 정보), 블루투스 연결 상태 정보 블루투스 MAC 주소 정보, WiFi MAC 주소 정보, SSID, 패스워드, 코드, 및/또는 연결 대상 통신 모듈의 모델 정보(예: 모델 이름), 및/또는 전자 장치(101)의 식별자(예: 디바이스 식별자 및/또는 디바이스 이름)를 포함할 수 있다.
일 실시예에 따르면, 동작 907의 출력 동작과 동작 909의 생성 동작은, 도시된 순서에 제한되지 않으며, 병렬적으로, 순차적으로, 역순차적으로, 또는 휴리스틱 하게, 수행될 수 있다.
동작 911에서, 프로세서(120)는 스트링 및 연결 정보를 외부(예: 서버(530))로 전송하도록 통신 모듈(190)을 제어할 수 있다.
동작 913에서, 프로세서(120)는 스트링 및 연결 정보를 전송하고, 다른 전자 장치로부터의 연결 요청 수신을 감지할 수 있다. 일 실시예에 따르면, 프로세서(120)는 스트링 및 연결 정보를 전송하고, 일정 시간 동안 다른 전자 장치로부터의 연결 요청 수신을 대기할 수 있다.
동작 915에서, 프로세서(120)는 다른 전자 장치로부터의 연결 요청 수신을 감지하는 것에 기반하여 전자 장치(101)와 다른 전자 장치 간의 연결을 수행할 수 있다. 일 실시예에 따르면, 프로세서(120)는 다른 전자 장치로부터 연결 정보를 기반으로 연결 요청을 수신하고, 지정된 연결 정보에 따른 연결 요청에 기반하여 지정된 통신 모듈(또는 통신 방식)을 통해 다른 전자 장치와의 연결을 바로 수행할 수 있다.
다양한 실시예들에 따르면, 도 8 및 도 9에 예시한 바와 같이, 사용자는 음성 기반으로 기기 연결을 수행하거나, 또는 사용자는 전자 장치(101)의 지정된 버튼이나 메뉴를 이용하여 기기 연결을 수행할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 사용자가 음성 기반으로 기기 연결을 수행하는 경우, 사용자 발화를 분석하여 연결 대상의 다른 전자 장치를 식별할 수도 있다.
일 실시예에 따라, 사용자가 “동영상 파일을 나의 태블릿에 전송해줘”와 같이 연결 대상 기기를 포함하여 발화를 입력할 수 있다. 전자 장치(101)는 사용자의 발화를 감지하는 경우 독립적으로 또는 서버 연동에 기반하여 사용자의 발화를 자연어 텍스트로 변환할 수 있다. 전자 장치(101)는 텍스트로 변환된 자연어를 처리 및 예측할 수 있다. 예를 들면, 전자 장치(101)는 변환된 자연어의 처리 및 예측을 통해, 사용자 발화가 기기 연결 수행이고, 연결 대상 기기(예: 다른 전자 장치)가 사용자의 태블릿 PC이고, 태블릿 PC에 기기 연결을 통해 동영상 파일을 전송하는 의도인 것을 식별할 수 있다. 예를 들면, 전자 장치(101)는 사용자가 전자 장치(101)와 태블릿 PC를 기기 연결하여 태블릿 PC에 동영상 파일을 전송하는 의도를 예측할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 기기 연결의 개시에 따라 지정된 스트링(예: 열려라 참깨) 및 연결 대상 기기에 대한 정보를 포함하는 스트링에 관련된 정보(예: 가이드 정보)를 생성하여, 전자 장치(101)의 출력 모듈(예: 스피커(155) 및/또는 디스플레이 모듈(160))을 통해 스트링을 출력할 수 있다. 예를 들면, 전자 장치(101)는 “태블릿 PC에서 열려라 참깨를 말하세요!”와 같은 스트링 정보를 출력할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 생성된 스트링을 서버(530)로 전송하거나, 및/또는 생성된 스트링을 주변의 다른 전자 장치에게 브로드캐스팅(broadcasting)을 통해 전달하여, 전자 장치(101)의 스트링을 외부에 등록할 수도 있다.
다른 실시예에 따라, 사용자가 “동영상 파일을 전송해줘”와 같이 연결 대상 기기를 포함하지 않고 발화를 입력 할 수 있다. 전자 장치(101)는 사용자의 발화를 감지하는 경우 독립적으로 또는 서버 연동에 기반하여 사용자의 발화를 자연어 텍스트로 변환할 수 있다. 전자 장치(101)는 텍스트로 변환된 자연어를 처리 및 예측할 수 있다. 예를 들면, 전자 장치(101)는 변환된 자연어의 처리 및 예측을 통해, 사용자 발화가 기기 연결 수행이고, 연결 대상 기기에 기기 연결을 통해 동영상 파일을 전송하는 의도인 것을 식별할 수 있다. 예를 들면, 전자 장치(101)는 사용자가 전자 장치(101)와 임의의 다른 전자 장치를 기기 연결하여 다른 전자 장치에 동영상 파일을 전송하는 의도를 예측할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 기기 연결의 개시에 따라 지정된 스트링(예: 열려라 참깨) 및 연결 대상 기기에 대한 정보를 포함하지 않는 스트링에 관련된 정보(예: 가이드 정보)를 생성하여, 전자 장치(101)의 출력 모듈(예: 스피커(155) 및/또는 디스플레이 모듈(160))을 통해 스트링을 출력할 수 있다. 예를 들면, 전자 장치(101)는 “연결하려는 기기에서 열려라 참깨를 말하세요!”와 같은 스트링 정보를 출력할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 생성된 스트링을 서버(530)로 전송하거나, 및/또는 생성된 스트링을 주변의 다른 전자 장치에게 브로드캐스팅을 통해 전달하여, 전자 장치(101)의 스트링을 외부에 등록할 수도 있다.
다른 실시예에 따라, 전자 장치(101)는 화자 인식(예: identification 및 verification)이 가능한 경우, 발화를 입력하는 사용자가 사전 등록한 복수의 전자 장치(예: 사용자 계정 기반으로 그룹화된 전자 장치) 중에서 어느 하나를, 연결할 대상 전자 장치로 미리 선별할 수도 있다. 일 실시예에 따르면, 제1 전자 장치(510)에서 생성하는 기기 연결 정보에 해당 음성 식별자(voice ID)를 포함하여, 제2 전자 장치(520)에서 입력된 사용자 발화에 따른 음성 식별자를 비교하는 방법을 통해, 동일한 스트링에 대해서도 화자에 따라, 다른 전자 장치로 기기 연결을 제공할 수도 있다.
도 10a, 도 10b 및 도 10c는 일 실시예에 따른 전자 장치에서 연결 정보를 출력하는 예를 설명하기 위한 도면들이다.
일 실시예에 따라, 도 10a, 도 10b 및 도 10c에서는 다양한 실시예들에 따른 전자 장치(101)에서, 전자 장치(101)의 종류에 기반하여 스트링 정보(1000)를 출력하는 다양한 예를 나타낼 수 있다.
일 실시예에 따라, 스트링 정보(1000)는 스트링(1010) 및 스트링(1010)에 관련된 정보(1020)를 포함할 수 있다. 일 실시예엥 따라, 스트링 정보(1000)가 <연결하려는 기기에서 이렇게 말하세요. ‘열려라 참깨’>인 것을 가정하면, ‘연결하려는 기기에서 이렇게 말하세요’가 스트링에 관련된 정보(1020)(예: 사용자에게 기기 연결 방법을 위한 가이드 정보)일 수 있고, ‘열려라 참깨(open sesame)’가 전자 장치(101)의 기기 연결을 지원하기 위한 유니크한(unique) 스트링(1010)일 수 있다.
일 실시예에 따라, 도 10a에서는, 전자 장치(101)의 종류가 스피커(155) 및 디스플레이 모듈(160)이 있는 제1 전자 장치(1001)(예: 스마트 폰)이고, 도 10b에서는, 전자 장치(101)의 종류가 스피커(155) 및 디스플레이 모듈(160)이 있는 제2 전자 장치(1002)(예: 디스플레이 장치(예: TV 또는 모니터))이고, 도 10c에서는 전자 장치(101)의 종류가 디스플레이 모듈(160)이 없고 스피커(155)만 있는 제3 전자 장치(1003)(예: 스마트 스피커)인 예를 나타낼 수 있다.
일 실시예에 따라, 도 10a 및 도 10b에 예시한 바와 같이, 스피커(155) 및 디스플레이 모듈(160)이 있는 전자 장치(101)(예: 제1 전자 장치(1001) 및 제2 전자 장치(1003))에서는, 스트링 정보(1000)를 스피커(155) 및/또는 디스플레이 모듈(160)을 통해 출력할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 스트링 정보(1000)를 스피커(155)를 통해 소리(예: 음성(voice))로 출력하거나, 및/또는 디스플레이 모듈(160)을 통해 화면에 표시하여 사용자에게 제공할 수 있다. 예를 들면, 전자 장치(101)는 <연결하려는 기기에서 이렇게 말하세요. ‘열려라 참깨’>를 청각적 정보 및/또는 시각적 정보로 출력할 수 있다.
일 실시예에 따라, 도 10c에 예시한 바와 같이, 디스플레이 모듈(160)이 없는 전자 장치(101)(예: 제3 전자 장치(1003))에서는, 스트링 정보(1000)를 스피커(155)를 통해 출력할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 스트링 정보(1000)를 스피커(155)를 통해 소리(예: 음성)로 출력할 수 있다. 예를 들면, 전자 장치(101)는 <연결하려는 기기에서 이렇게 말하세요. ‘열려라 참깨’>를 청각적 정보로 출력할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 전자 장치(101)는 디스플레이 모듈(160)이 없는 장치, 또는 디스플레이 모듈(160)의 사용이 제한된 동작 모드(예: 모바일 드라이빙 모드)인 경우에는, TTS(text to speech)로 스트링 정보(1000)를 오디오로 출력하여 사용자에게 제공하도록 할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 출력 모듈(예: 스피커(155) 및 디스플레이 모듈(160))이 있는 장치이고, 어느 하나의 모듈(예: 스피커(155) 또는 디스플레이 모듈(160))의 사용이 제한된 환경에서 스트링 정보(1000)를 출력 가능한 출력 방식을 결정하고, 결정된 출력 방식에 기반하여 스트링 정보(1000)를 사용자에게 제공하도록 할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 스피커(155)의 사용이 제한된 환경(예: 스피커(155)의 볼륨 레벨이 지정된 레벨 이하(예: ‘약 0 레벨’))이고, 디스플레이 모듈(160)의 사용이 가능한 경우에는, 스트링 정보(1000)를 화면에 표시하여 사용자에게 제공하도록 할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 디스플레이 모듈(160)의 사용이 제한된 동작 모드(예: 모바일 드라이빙 모드)이고, 스피커(155)의 사용이 가능한 경우에는, TTS로 스트링 정보(1000)를 오디오로 출력하여 사용자에게 제공하도록 할 수 있다.
일 실시예에 따르면, 전자 장치(101)는 출력 모듈(예: 스피커(155) 및 디스플레이 모듈(160))의 사용이 모두 가능한 경우에는, 스트링 정보(1000)를 화면 표시 및 오디오로 출력을 동시에 제공하거나, 우선 순위 지정에 따라 어느 하나의 방식으로 출력할 수도 있다.
일 실시예를 따르면, 전자 장치(101)는 출력 모듈(예: 스피커(155) 및 디스플레이 모듈(160))의 사용이 모두 제한된 경우에는, 사용자에게 지정된 알람(예: 진동, 램프 깜박임)을 통해 에러 상황을 사용자에게 알릴 수도 있다.
도 11은 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
일 실시예에 따라, 도 11에서는, 전자 장치(101)가, 예를 들면, 도 5 또는 도 6에서 제2 전자 장치(520)로 동작하고, 제2 전자 장치(520)의 동작에 따라 기기 연결 서비스를 지원하는 동작 예를 나타낼 수 있다. 예를 들면, 도 11에서는, 전자 장치(101)가 사용자 입력에 기반하여 전자 장치(101)의 동작 모드(예: 제1 동작 모드 및 제2 동작 모드) 중 제2 동작 모드를 결정하고, 제2 동작 모드에 기반하여, 다른 전자 장치와 연결에 관련된 스트링 및 연결 정보를 획득하고, 사용자 발화에 기반하여 스트링을 매칭하여, 사용자 발화와 스트링의 일치 시에, 연결 정보에 기반하여 다른 전자 장치와 연결을 수행하는 예를 나타낼 수 있다. 일 실시예에 따라, 도 11에서는 전자 장치(101)가 온-디바이스(on-device) 상태로 기기 연결을 처리하는 예를 나타낼 수 있다.
도 11을 참조하면, 동작 1101에서, 전자 장치(101)의 프로세서(120)는 사용자 발화를 수신할 수 있다. 일 실시예에 따르면, 프로세서(120)는 마이크(151)를 통해 사용자 발화에 관련된 음성 신호(또는 오디오 스트림)를 입력 받을 수 있다. 일 실시예에 따르면, 프로세서(120)는 지정된 사용자 발화에 기반하여 웨이크 업을 인식하고, 웨이크 업에 기반하여 음성 어시스턴트를 실행할 수 있다. 일 실시예에 따르면, 프로세서(120)는 사용자가 음성 어시스턴트를 통해 지정된 사용자 발화를 입력하면, 사용자 발화에 따른 음성 신호를 획득할 수 있다.
일 실시예에 따라, 사용자는 전자 장치(101)의 마이크(151)를 통해 사용자 발화를 입력할 수 있다. 일 실시예에 따르면, 사용자는 다른 전자 장치에서 출력된 스트링(예: 열려라 참깨)을 확인하고, 확인된 스트링에 대응하는 발화(예: 열려라 참깨)를 수행할 수 있다. 일 실시예에 따르면, 사용자는 전자 장치(101)에서 음성 인식 개시를 위한 지정된 사용자 입력으로 전자 장치(101)를 웨이크 업 하고, 전자 장치(101)에 스트링에 대한 발화를 수행할 수 있다. 일 실시예에서, 사용자 입력은 웨이크 업을 위한 지정된 버튼을 통한 입력 및/또는 지정된 음성 명령을 통한 입력을 포함할 수 있다.
동작 1103에서, 프로세서(120)는 사용자 발화를 수신하는 것에 기반하여, 스트링을 획득할 수 있다. 일 실시예에 따르면, 프로세서(120)는 내부(예: 메모리(130))에 등록된 스트링 호출 또는 외부(예: 서버(530))에 등록된 스트링의 요청 및 수신에 기반하여 스트링을 획득할 수 있다.
동작 1105에서, 프로세서(120)는 사용자 발화와 스트링을 비교할 수 있다. 일 실시예에 따르면, 프로세서(120)는 사용자 발화에 따른 오디오 스트림을 텍스트로 변환하고, 변환된 텍스트(예: 제1 스트링)와 획득된 스트링(예: 제2 스트링)을 매칭하여, 일치 여부를 판단할 수 있다. 일 실시예에 따르면, 프로세서(120)는 전자 장치(101)에 의해 생성된 제1 스트링과 다른 전자 장치에 의해 생성되어 획득된 제2 스트링을 비교하고, 제1 스트링과 제2 스트링의 일치 여부를 판단할 수 있다.
어떤 실시예에 따르면, 프로세서(120)는 사용자 발화를 수신하는 것에 기반하여, 수신된 사용자 발화에 따른 스트링(예: 텍스트(text))을 서버(530)로 전송할 수 있고, 서버(530)에 의해 스트링을 비교하도록 할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 웨이크 업 후 사용자 발화를 수신하는 것에 기반하여 사용자 발화를 분석(또는 검증)하고, 사용자 발화가 기기 연결에 관련된 경우, 사용자 발화에 따른 스트링(예: 텍스트)과 스트링에 매칭되는 연결 정보를 제공하도록 서버(530)에 요청할 수도 있다.
동작 1107에서, 프로세서(120)는 사용자 발화(예: 제1 스트링)과 획득된 스트링(예: 제2 스트링)의 비교하는 결과에 기반하여 일치를 판단하는 경우, 다른 전자 장치에 관련된 연결 정보에 기반하여, 다른 전자 장치와 연결을 수행할 수 있다. 일 실시예에 따르면, 프로세서(120)는 내부(예: 메모리(130))에 등록된 제2 스트링에 매칭된 연결 정보 호출 또는 외부(예: 서버(530))에 등록된 제2 스트링에 매칭된 연결 정보의 요청 및 수신에 기반하여 연결 정보를 획득할 수 있다.
일 실시예에 따르면, 프로세서(120)는 다른 전자 장치의 연결 정보에 기반하여 전자 장치(101)를 다른 전자 장치와 연결 가능한 상태로 전환(또는 변경)하고, 이후 연결 정보에 기반하여 다른 전자 장치와 연결을 시작할 수 있다. 일 실시예에 따르면, 프로세서(120)는 다른 전자 장치의 연결 정보에 기반하여 최적의 연결 방법을 결정하고, 결정된 연결 방법에 기반하여 전자 장치(101)의 기기 상태를 변경(예: 대응되는 통신 모듈 활성화)하고, 연결 정보에 기반하여 다른 전자 장치와 연결을 수행할 수 있다.
도 12는 일 실시예에 따른 전자 장치의 동작 방법을 도시하는 흐름도이다.
일 실시예에 따라, 도 12에서는, 전자 장치(101)가, 예를 들면, 도 5 또는 도 6에서 제2 전자 장치(520)로 동작하고, 제2 전자 장치(520)의 동작에 따라 기기 연결 서비스를 지원하는 동작 예를 나타낼 수 있다. 예를 들면, 도 12에서는, 전자 장치(101)가 사용자 입력에 기반하여 전자 장치(101)의 동작 모드(예: 제1 동작 모드 및 제2 동작 모드) 중 제2 동작 모드를 결정하고, 제2 동작 모드에 기반하여, 다른 전자 장치와 연결에 관련된 스트링 및 연결 정보를 획득하고, 사용자 발화에 기반하여 스트링을 매칭하여, 사용자 발화와 스트링의 일치 시에, 연결 정보에 기반하여 다른 전자 장치와 연결을 수행하는 예를 나타낼 수 있다. 일 실시예에 따라, 도 12에서는 전자 장치(101)가 온-디바이스(on-device) 상태로 기기 연결을 처리하는 예를 나타낼 수 있다.
도 12를 참조하면, 동작 1201에서, 전자 장치(101)의 프로세서(120)는 웨이크 업을 위한 사용자 발화(예: 웨이크 업 명령에 따른 제1 발화) 수신에 기반하여 웨이크 업 할 수 있다. 일 실시예에 따르면, 프로세서(120)는 마이크(151)를 통해 사용자 발화에 관련된 음성 신호(또는 오디오 스트림)를 입력 받을 수 있다.
일 실시예에 따르면, 프로세서(120)는 지정된 사용자 발화에 기반하여 웨이크 업을 인식하고, 웨이크 업에 기반하여 음성 어시스턴트를 실행할 수 있다. 일 실시예에 따라, 전자 장치(101)의 웨이크 업을 위한(또는 음성 인식 개시를 위한) 지정된 사용자 입력은, 지정된 음성 명령 입력(예: 사용자 발화) 및/또는 웨이크 업을 위한 전자 장치(101)에 지정된 버튼에 의해 수행될 수도 있다.
동작 1203에서, 프로세서(120)는 사용자 발화(예: 기기 연결을 위해 지정된 유니크한 스트링에 따른 제2 발화)를 수신할 수 있다. 일 실시예에 따르면, 프로세서(120)는 음성 어시스턴트를 통해 사용자로부터 지정된 사용자 발화가 입력되면, 사용자 발화에 따른 음성 신호를 획득할 수 있다. 일 실시예에 따르면, 사용자는 다른 전자 장치에서 출력된 스트링(예: 열려라 참깨)을 확인하고, 확인된 스트링에 대응하는 발화(예: 열려라 참깨)를 수행할 수 있다.
동작 1205에서, 프로세서(120)는 사용자 발화(예: 제2 발화)를 수신하는 것에 기반하여, 스트링 및 연결 정보를 획득할 수 있다. 일 실시예에 따르면, 프로세서(120)는 내부(예: 메모리(130))에 등록된 스트링 및 연결 정보 호출 또는 외부(예: 서버(530))에 등록된 스트링 및 연결 정보의 요청 및 수신에 기반하여 스트링 및 연결 정보를 획득할 수 있다. 어떤 실시예에 따르면, 프로세서(120)는 전자 장치(101)가 서버(530)와 연동하여 기기 연결을 지원하는 경우, 사용자 발화에 대응하는 스트링(예: 변환된 텍스트)을 서버(530)로 전송하고, 서버(530)로부터 스트링에 매칭된 연결 정보를 획득할 수도 있다.
동작 1207에서, 프로세서(120)는 사용자 발화와 스트링을 매칭할 수 있다. 일 실시예에 따르면, 프로세서(120)는 사용자 발화에 따른 오디오 스트림을 텍스트로 변환하고, 변환된 텍스트(예: 제1 스트링)와 획득된 스트링(예: 제2 스트링)을 매칭하여, 일치 여부를 비교할 수 있다. 일 실시예에 따르면, 프로세서(120)는 전자 장치(101)에 의해 생성된 제1 스트링과 다른 전자 장치에 의해 생성되어 획득된 제2 스트링을 비교할 수 있다.
동작 1209에서, 프로세서(120)는 사용자 발화와 스트링의 일치 여부를 판단할 수 있다. 예를 들면, 프로세서(120)는 전자 장치(101)에 관련된 제1 스트링과 다른 전자 장치에 관련된 제2 스트링을 비교하는 결과에 기반하여 일치 여부를 판단할 수 있다.
동작 1209에서, 프로세서(120)는 사용자 발화와 스트링이 일치하지 않는 경우(예: 동작 1209의 ‘아니오’), 동작 1211에서, 음성 인식 동작을 수행할 수 있다. 일 실시예에 따르면, 프로세서(120)는 제1 스트링과 제2 스트링이 일치하지 않는 경우, 예를 들면, 사용자 발화가 기기 연결에 관련된 유니크한 스트링으로 검증되지 않는 경우, 사용자 발화에 대해 음성 인식 동작을 수행하고, 그에 대응하는 응답 결과를 제공하도록 할 수 있다.
동작 1209에서, 프로세서(120)는 사용자 발화와 스트링이 일치하는 경우(예: 동작 1209의 ‘예’), 동작 1213에서, 연결 정보를 식별할 수 있다. 일 실시예에 따르면, 프로세서(120)는 제1 스트링과 제2 스트링이 일치하는 경우, 예를 들면, 사용자 발화가 기기 연결에 관련된 유니크한 스트링으로 검증되는 경우, 제2 스트링에 매칭된 연결 정보를 식별할 수 있다. 일 실시예에 따르면, 프로세서(120)는 연결 정보에 따른 텍스트 또는 구문을 지정된 규칙(예: 문법 규칙)에 따라 해석하고, 연결 정보의 의미를 이해할 수 있다.
동작 1215에서, 프로세서(120)는 연결 정보에 기반하여 다른 전자 장치와의 연결 방법을 결정할 수 있다. 일 실시예에 따르면, 프로세서(120)는 해석된 연결 정보에 기반하여, 다른 전자 장치와의 최적의 연결 방법을 결정할 수 있다.
동작 1217에서, 프로세서(120)는 결정된 연결 방법에 기반하여 전자 장치(101)의 상태를 확인 또는 변경할 수 있다. 일 실시예에 따르면, 프로세서(120)는 결정된 연결 방법에 기반하여 전자 장치(101)의 다양한 통신 모듈(예: 도 1의 통신 모듈(190))에서 다른 전자 장치와 연결에 사용 가능한 통신 모듈 및 해당 통신 모듈의 상태를 식별할 수 있다. 일 실시예에 따르면, 프로세서(120)는 다른 전자 장치의 연결 정보에 기반하여 최적의 연결 방법을 결정할 수 있다. 프로세서(120)는 결정된 연결 방법에 기반하여 전자 장치(101)의 대응하는 통신 모듈의 상태를 확인하고, 필요에 따라 상태를 변경할 수 있다. 예를 들면, 프로세서(120)는 전자 장치(101)의 기기 상태를 변경(예: 대응되는 통신 모듈 활성화)할 수 있다.
일 실시예에 따르면, 프로세서(120)는 연결 정보에 기반하여 다른 전자 장치가 WiFi 모듈의 온 상태에 기반하여 WiFi 연결을 결정할 수 다. 일 실시예에 따라, 프로세서(120)는 다른 전자 장치와 연결 방법으로 WiFi 연결 수행을 결정하는 경우, 전자 장치(101)의 WiFi 모듈의 상태(예: on/off 상태)를 식별하고, 오프 상태인 경우, WiFi 모듈을 온 상태로 전환할 수 있다. 다른 실시예에 따르면, 프로세서(120)는 연결 정보에 기반하여 다른 전자 장치가 블루투스 모듈의 온 상태에 기반하여 블루투스 연결을 결정할 수 있다. 일 실시예에 따라, 프로세서(120)는 다른 전자 장치와 연결 방법으로 블루투스 연결 수행을 결정하는 경우, 전자 장치(101)의 블루투스 모듈의 상태(예: on/off 상태)를 식별하고, 오프 상태인 경우, 블루투스 모듈을 온 상태로 전환할 수 있다.
동작 1219에서, 프로세서(120)는 다른 전자 장치와 연결을 수행할 수 있다. 일 실시예에 따르면, 프로세서(120)는 결정된 연결 방법에 대응하는 통신 방식 및 통신 모듈을 이용하여, 연결 정보에 기반하여 다른 전자 장치와 연결을 시작할 수 있다. 일 실시예에 따르면, 프로세서(120)는 WiFi 모듈을 연결 가능한 상태로 변경한 후, 연결 정보 중 WiFi 통신과 관련된 WiFi 정보(예: WiFi MAC 주소 정보, SSID, 패스워드, 코드 및/또는 다른 전자 장치의 식별자(예: 디바이스 식별자 및/또는 디바이스 이름))에 기반하여 다른 전자 장치와의 연결을 설정할 수 있다.
도 13은 일 실시예에 따른 전자 장치의 기기 연결을 제공하는 동작 예를 설명하기 위한 도면이다.
일 실시예에 따라, 도 13에서는 사용자(500)의 음성을 이용하여, 제1 전자 장치(510)와 제2 전자 장치(520) 간의 기기 연결을 수행하는 동작 예를 나타낼 수 있다. 다양한 실시예들에서, 제1 전자 장치(510)와 제2 전자 장치(520)는 기기 연결을 수행하는 동작(또는 동작 모드)에 따라 구분될 수 있다. 일 실시예에 따라, 도 13에서, 제1 전자 장치(510)는 기기 연결 동작을 개시하는 전자 장치(101)일 수 있고, 제2 전자 장치(520)는 대상 기기(예: 제1 전자 장치(510))와 기기 연결을 수행하는 전자 장치(101)일 수 있다.
도 13을 참조하면, 동작 1301에서, 제1 전자 장치(101)는 사용자 발화를 수신할 수 있다. 일 실시예에 따르면, 사용자는 제1 전자 장치(510)에서 유니크한 스트링에 대응하는 발화(예: 열려라 참깨)를 수행할 수 있다. 일 실시예에 따르면, 사용자는 제1 전자 장치(510)에서 음성 인식 개시를 위한 지정된 사용자 입력(예: 웨이크 업(wake-up)을 위한 지정된 버튼 및/또는 지정된 음성 명령 입력)으로 제1 전자 장치(510)를 웨이크 업 하고, 제1 전자 장치(510)의 기기 연결과 관련된 스트링에 대한 발화를 수행할 수 있다.
동작 1303에서, 제1 전자 장치(510)는 사용자 발화 수신에 기반하여, 사용자 발화를 서버(530)로 전송할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)는 사용자가 발화를 입력하는 경우, 사용자 발화에 따른 음성 신호를 오디오 스트림(audio stream)으로 변환하여 서버(530)로 전송할 수 있다.
동작 1305에서, 서버(530)는 제1 전자 장치(510)로부터 사용자 발화를 수신하고, 수신된 사용자 발화를 분석할 수 있다. 일 실시예에 따르면, 서버(530)는 제1 전자 장치(510)로부터 사용자 발화에 대응하여 수신된 오디오 스트림을 자연어 텍스트로 변환하고, 텍스트로 변환된 자연어를 처리하여, 사용자의 의도를 판단할 수 있다. 일 실시예에 따르면, 서버(530)는 문법적 분석(syntactic analyze) 및/또는 의미적 분석(semantic analyze)을 수행하여 사용자의 의도를 파악할 수 있다. 예를 들면, 서버(530)는 형태소 또는 구의 언어적 특징(예: 문법적 요소)을 이용하여 변환된 텍스트로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 의도에 매칭시켜 사용자의 의도를 결정할 수 있다.
동작 1307에서, 서버(530)는 사용자 발화 분석에 기반하여 음성을 이용한 기기 연결을 결정할 수 있다. 일 실시예에 따르면, 서버(530)는 제1 전자 장치(101)로부터 수신된 사용자 발화가, 다른 전자 장치(예: 제2 전자 장치(520))와 기기 연결하는 의도로 판단할 수 있다.
동작 1309에서, 서버(530)는 사용자 발화에 기반하여 제1 스트링을 생성할 수 있다. 일 실시예에 따르면, 서버(530)는 제1 전자 장치(510)로부터 수신된 사용자 발화에 기반하여 기기 연결과 관련된 제1 스트링을 생성할 수 있다.
동작 1311에서, 제2 전자 장치(520)는 사용자 발화를 수신할 수 있다. 일 실시예에 따르면, 사용자는 제1 전자 장치(510)와 제2 전자 장치(520)의 기기 연결 시, 제1 전자 장치(510)에서 입력한 사용자 발화(예: 제1 사용자 발화)와 동일한 사용자 발화를 제2 전자 장치(520)에서 입력할 수 있다.
동작 1313에서, 제2 전자 장치(520)는 사용자 발화 수신에 기반하여, 사용자 발화를 서버(530)로 전송할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 사용자가 발화를 입력하는 경우, 사용자 발화에 따른 음성 신호를 오디오 스트림으로 변환하여 서버(530)로 전송할 수 있다.
동작 1315에서, 서버(530)는 사용자 발화에 기반하여 제2 스트링을 생성할 수 있다. 일 실시예에 따르면, 서버(530)는 제2 전자 장치(520)로부터 수신된 사용자 발화에 기반하여 기기 연결과 관련된 제2 스트링을 생성할 수 있다. 일 실시예에 따르면, 서버(530)는 제2 전자 장치(520)로부터 사용자 발화를 수신하는 경우, 제2 전자 장치(520)로부터 수신된 사용자 발화에 따른 오디오 스트림을 텍스트로 변환하고, 변환된 텍스트를 제2 스트링으로 사용할 수 있다.
동작 1317에서, 서버(530)는 제1 전자 장치(510)에 관련된 제1 스트링과 제2 전자 장치(520)에 관련된 제2 스트링을 비교하여, 일치 여부를 판단할 수 있다.
동작 1319에서, 서버(530)는 제1 스트링과 제2 스트링이 일치하는 경우, 제2 전자 장치(520)에게 제2 전자 장치(520)의 연결 정보를 요청할 수 있다.
동작 1321에서, 제2 전자 장치(520)는 서버(530)로부터 연결 정보 요청 수신에 기반하여, 제2 전자 장치(520)의 연결 정보를 서버(530)로 전송할 수 있다. 일 실시예에 따르면, 제2 전자 장치(520)는 제2 전자 장치(520)에서 사용 가능한 기기 간 연결 방법 종류를 판단하고, 연결 방법 종류에 기반하여 대응하는 연결 정보를 생성하여, 서버(530)로 전송할 수 있다.
동작 1323에서, 서버(530)는 제2 전자 장치(520)로부터 연결 정보를 수신하고, 제2 전자 장치(520)의 연결 정보를 제1 전자 장치(510)로 전송할 수 있다.
동작 1325에서, 제1 전자 장치(510)는 서버(530)로부터 연결 정보를 수신하는 것에 기반하여, 제2 전자 장치(520)와 연결 정보 기반 연결을 수행할 수 있다. 일 실시예에 따르면, 제1 전자 장치(510)는 제2 전자 장치의 연결 정보에 기반하여 제1 전자 장치(510)를 제2 전자 장치(520)와 연결 가능한 상태로 전환(또는 변경)하고, 이후 연결 정보에 기반하여 제2 전자 장치(520)와 연결을 시작할 수 있다.
일 실시예에 따르면, 제1 전자 장치(510)는 제2 전자 장치(520)의 연결 정보에 기반하여 최적의 연결 방법을 결정하고, 결정된 연결 방법에 기반하여 제1 전자 장치(510)의 기기 상태를 변경(예: 대응되는 통신 모듈 활성화)하고, 연결 정보에 기반하여 제2 전자 장치(520)와 연결을 수행할 수 있다.
일 실시예에 따라, 도 13에 예시한 바와 같이, 서버(530)에 의해, 제1 전자 장치(510)와 제2 전자 장치(520)로부터 각각 획득된 스트링이 일치하는 경우, 어느 일 전자 장치(예: 제2 전자 장치(520)에 해당 전자 장치의 연결 정보를 요청하여 획득하고, 획득된 연결 정보를 다른 전자 장치(예: 제1 전자 장치(510))에 전달하여, 제1 전자 장치(510)와 제2 전자 장치(520)가 연결 정보에 기반하여 자동적으로 연결을 수행하도록 할 수 있다.
본 개시의 실시예에 따른 전자 장치(101)에서 수행하는 동작 방법은, 사용자 입력에 기반하여 전자 장치의 동작 모드를 결정하는 동작, 제1 동작 결정에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 상기 연결 정보에 기반한 상기 다른 전자 장치로부터의 연결 요청 수신을 대기하고, 상기 연결 요청 수신에 기반하여 상기 다른 전자 장치와 연결을 수행하는 동작, 및 제2 동작 결정에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 상기 스트링의 일치 시에, 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하는 동작을 포함할 수 있다.
일 실시예에 따르면, 상기 제1 동작에서, 지정된 사용자 입력에 기반하여 기기 연결 개시를 감지하는 동작, 상기 스트링을 출력 모듈을 통해 지정된 방식으로 출력하는 동작을 포함할 수 있다.
일 실시예에 따르면, 상기 제2 동작에서, 상기 사용자 발화에 기반하여 상기 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하는 동작, 상기 사용자 발화와 스트링의 매칭에 기반하여, 일치하는 경우 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하기 위한 연결 방법을 결정하는 동작을 포함할 수 있다.
일 실시예에 따르면, 상기 제2 동작에서, 상기 결정된 연결 방법에 기반하여 상기 전자 장치의 상태를 상기 다른 전자 장치와 연결 가능한 상태로 전환하는 동작을 포함할 수 있다.
본 명세서와 도면에 개시된 본 개시의 다양한 실시예들은 본 개시의 기술 내용을 쉽게 설명하고 본 개시의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 개시의 범위를 한정하고자 하는 것은 아니다. 따라서 본 개시의 범위는 여기에 개시된 실시예들 이외에도 본 개시의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 음성 인식에 기반하여 기기 연결을 지원하기 위한 전자 장치에 있어서,
    통신 모듈;
    출력 모듈;
    메모리; 및
    상기 통신 모듈, 상기 출력 모듈 및 상기 메모리와 작동적으로 연결된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는,
    지정된 사용자 입력에 기반하여 기기 연결 개시를 감지하고,
    다른 전자 장치와 연결을 위한 스트링 및 연결 정보를 생성하고,
    상기 스트링을 상기 출력 모듈을 통해 출력하고,
    상기 스트링 및 연결 정보를 외부로 전송하고, 및
    상기 다른 전자 장치로부터의 연결 요청을 수신하는 것에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 설정된 전자 장치.
  2. 제1항에 있어서, 상기 지정된 사용자 입력은,
    사용자 발화 입력, 상기 전자 장치에서 지정된 명령을 발생하도록 설정된 버튼 입력, 화면 터치 입력, 상기 전자 장치의 제스처 제어 입력, 및/또는 원격 제어 장치를 이용한 제어 신호 입력에 기반하여, 기기 연결 동작을 개시하기 위한 입력 방법(input method)을 포함하는 전자 장치.
  3. 제1항에 있어서, 상기 적어도 하나의 프로세서는,
    사용자의 제1 발화에 기반하여 기기 연결 개시를 감지하고,
    사용자의 제2 발화에 기반하여 상기 다른 전자 장치와 연결에 관련된 스트링을 생성하도록 설정된 전자 장치.
  4. 제1항에 있어서, 상기 적어도 하나의 프로세서는,
    사용자 발화 입력, 상기 메모리에 미리 저장된 적어도 하나의 스트링 중 선택, 또는 서버로부터 스트링 획득에 기반하여, 상기 스트링을 생성하도록 설정된 전자 장치.
  5. 제1항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 스트링 및 상기 스트링에 관련된 정보를 상기 출력 모듈을 통해 청각적 정보 및/또는 시가적 정보로 출력하도록 설정된 전자 장치.
  6. 제1항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 전자 장치의 상태를 식별하고,
    상기 상태 식별에 기반하여 상기 연결 정보를 생성하도록 설정된 전자 장치.
  7. 제6항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 전자 장치에서 사용 가능한 기기 간 연결 방법 종류를 판단하고,
    상기 연결 방법 종류에 기반하여 대응하는 연결 정보를 생성하도록 설정된 전자 장치.
  8. 제1항에 있어서, 상기 적어도 하나의 프로세서는,
    다른 전자 장치와 기기 연결에 관련된 사용자 발화를 수신하고,
    사용자 발화를 수신하는 것에 기반하여 상기 다른 전자 장치와 관련된 스트링을 획득하고,
    상기 사용자 발화와 상기 스트링의 일치 여부를 판단하고, 및
    상기 사용자 발화와 상기 스트링이 일치하는 경우, 상기 다른 전자 장치에 관련된 연결 정보에 기반하여, 상기 다른 전자 장치와 연결을 수행하도록 설정된 전자 장치.
  9. 제8항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 사용자 발화에 기반하여 상기 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고,
    상기 사용자 발화와 스트링의 매칭에 기반하여, 일치하는 경우 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하기 위한 연결 방법을 결정하고,
    상기 결정된 연결 방법에 기반하여 상기 전자 장치의 상태를 상기 다른 전자 장치와 연결 가능한 상태로 전환하도록 설정된 전자 장치.
  10. 제8항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 다른 전자 장치, 서버 또는 상기 메모리로부터, 상기 다른 전자 장치와 관련된 스트링을 획득하도록 설정된 전자 장치.
  11. 제8항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 다른 전자 장치와 관련된 스트링을 서버로부터 획득하고,
    상기 사용자 발화와 상기 스트링이 일치하는 경우, 상기 서버로부터 상기 스트링에 매칭된 상기 연결 정보를 획득하도록 설정된 전자 장치.
  12. 제8항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 사용자 발화를 수신하고,
    상기 사용자 발화를 서버로 전송하고,
    상기 서버에 의해 상기 사용자 발화가 지정된 스트링과 일치하는 것에 기반하여, 상기 서버로부터 상기 사용자 발화에 매칭된 상기 연결 정보를 획득하도록 설정된 전자 장치.
  13. 제8항에 있어서, 상기 적어도 하나의 프로세서는,
    음성 인식 개시를 위한 지정된 사용자 입력에 기반하여 웨이크 업 하고,
    다른 전자 장치에 의해 생성된 스트링에 관련된 사용자 발화를 수신하고,
    상기 사용자 발화에 따른 스트링이 지정된 형식으로 정의되지 않는 유니크한 스트링인지 여부를 검증하도록 설정된 전자 장치.
  14. 제1항에 있어서, 상기 적어도 하나의 프로세서는,
    사용자 입력에 기반하여 전자 장치의 동작 모드를 결정하고,
    제1 동작 결정에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 상기 연결 정보에 기반한 상기 다른 전자 장치로부터의 연결 요청 수신을 대기하고, 상기 연결 요청 수신에 기반하여 상기 다른 전자 장치와 연결을 수행하고, 및
    제2 동작 결정에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 상기 스트링의 일치 시에, 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하도록 설정된 전자 장치.
  15. 전자 장치의 동작 방법에 있어서,
    사용자 입력에 기반하여 전자 장치의 동작 모드를 결정하는 동작;
    제1 동작 결정에 기반하여, 다른 전자 장치와 기기 연결을 위한 스트링 및 연결 정보를 생성하여 외부로 전송하고, 상기 연결 정보에 기반한 상기 다른 전자 장치로부터의 연결 요청 수신을 대기하고, 상기 연결 요청 수신에 기반하여 상기 다른 전자 장치와 연결을 수행하는 동작; 및
    제2 동작 결정에 기반하여, 사용자 발화를 수신하고, 다른 전자 장치와 기기 연결에 관련된 스트링 및 연결 정보를 획득하고, 상기 사용자 발화와 상기 스트링의 일치 시에, 상기 연결 정보에 기반하여 상기 다른 전자 장치와 연결을 수행하는 동작을 포함하는 방법.
PCT/KR2022/002504 2021-03-05 2022-02-21 전자 장치 및 전자 장치의 기기 연결 방법 WO2022186531A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/686,931 US20220287110A1 (en) 2021-03-05 2022-03-04 Electronic device and method for connecting device thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210029562A KR20220125566A (ko) 2021-03-05 2021-03-05 전자 장치 및 전자 장치의 기기 연결 방법
KR10-2021-0029562 2021-03-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/686,931 Continuation US20220287110A1 (en) 2021-03-05 2022-03-04 Electronic device and method for connecting device thereof

Publications (1)

Publication Number Publication Date
WO2022186531A1 true WO2022186531A1 (ko) 2022-09-09

Family

ID=83154196

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/002504 WO2022186531A1 (ko) 2021-03-05 2022-02-21 전자 장치 및 전자 장치의 기기 연결 방법

Country Status (2)

Country Link
KR (1) KR20220125566A (ko)
WO (1) WO2022186531A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120054743A (ko) * 2010-11-22 2012-05-31 엘지전자 주식회사 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치
KR20130042397A (ko) * 2011-10-18 2013-04-26 삼성전자주식회사 Nfc를 이용한 이동 단말의 데이터 송수신 장치 및 방법
KR20150010517A (ko) * 2013-07-19 2015-01-28 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
KR20180122106A (ko) * 2017-05-02 2018-11-12 네이버 주식회사 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
KR102088322B1 (ko) * 2018-11-16 2020-03-12 엘지전자 주식회사 인공지능 기반의 어플라이언스 제어 장치 및 그를 포함하는 어플라이언스 제어 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120054743A (ko) * 2010-11-22 2012-05-31 엘지전자 주식회사 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치
KR20130042397A (ko) * 2011-10-18 2013-04-26 삼성전자주식회사 Nfc를 이용한 이동 단말의 데이터 송수신 장치 및 방법
KR20150010517A (ko) * 2013-07-19 2015-01-28 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
KR20180122106A (ko) * 2017-05-02 2018-11-12 네이버 주식회사 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
KR102088322B1 (ko) * 2018-11-16 2020-03-12 엘지전자 주식회사 인공지능 기반의 어플라이언스 제어 장치 및 그를 포함하는 어플라이언스 제어 시스템

Also Published As

Publication number Publication date
KR20220125566A (ko) 2022-09-14

Similar Documents

Publication Publication Date Title
WO2019039834A1 (en) METHOD FOR PROCESSING VOICE DATA AND ELECTRONIC DEVICE SUPPORTING SAID METHOD
WO2021025350A1 (en) Electronic device managing plurality of intelligent agents and operation method thereof
WO2020032563A1 (en) System for processing user voice utterance and method for operating same
WO2019172627A1 (en) System for processing user utterance and controlling method thereof
WO2020167006A1 (en) Method of providing speech recognition service and electronic device for same
WO2022010157A1 (ko) 인공지능 가상 비서 서비스에서의 화면 제공 방법 및 이를 지원하는 사용자 단말 장치 및 서버
AU2019319322B2 (en) Electronic device for performing task including call in response to user utterance and operation method thereof
WO2020050475A1 (ko) 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법
WO2019235878A1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
WO2020263016A1 (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
WO2021210795A1 (ko) 전자 장치들의 무선 연결 방법 및 장치
WO2023113502A1 (ko) 전자 장치 및 전자 장치의 음성 명령어 추천 방법
WO2022177224A1 (ko) 전자 장치 및 전자 장치의 동작 방법
WO2022092796A1 (ko) 전자 장치 및 전자 장치의 음성 인식 수행 방법
WO2022010187A1 (ko) 전자 장치 및 전자 장치의 인증 동작 수행 방법
WO2022163963A1 (ko) 전자 장치 및 전자 장치의 단축 명령어 수행 방법
WO2022186531A1 (ko) 전자 장치 및 전자 장치의 기기 연결 방법
WO2022177264A1 (ko) 전자 장치 및 전자 장치의 음성 인식 처리 방법
WO2024085592A1 (ko) 전자 장치 및 전자 장치의 음성 어시스턴트 서비스 제공 방법
WO2024080729A1 (ko) 전자 장치 및 상기 전자 장치에서 위치 기반 컨텍스트를 이용하여 사용자의 발화를 처리하는 방법
WO2024010284A1 (ko) 끝점 검출 시간 결정 방법 및 상기 방법을 수행하는 전자 장치
WO2023080574A1 (ko) 음성 인식 서비스를 제공하는 전자 장치 및 이의 동작 방법
WO2023106649A1 (ko) 추천 명령어를 이용하여 음성 인식을 수행하는 전자 장치
WO2022220559A1 (en) Electronic device for processing user utterance and control method thereof
WO2022075751A1 (ko) 전자 장치 및 자연어 이해를 위한 파라미터의 획득 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22763515

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22763515

Country of ref document: EP

Kind code of ref document: A1