WO2021107308A1 - 전자 장치 및 이의 제어 방법 - Google Patents
전자 장치 및 이의 제어 방법 Download PDFInfo
- Publication number
- WO2021107308A1 WO2021107308A1 PCT/KR2020/008123 KR2020008123W WO2021107308A1 WO 2021107308 A1 WO2021107308 A1 WO 2021107308A1 KR 2020008123 W KR2020008123 W KR 2020008123W WO 2021107308 A1 WO2021107308 A1 WO 2021107308A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- external device
- solution information
- image
- information
- electronic device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004891 communication Methods 0.000 claims abstract description 32
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
- G06F9/453—Help systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47202—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6581—Reference data, e.g. a movie identifier for ordering a movie or a product identifier in a home shopping application
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Definitions
- the present disclosure relates to an electronic device and a control method therefor, and more particularly, to an electronic device that provides solution information for solving a problem with an external device based on a user's voice and an image of the external device, and a control method thereof will be.
- the present disclosure has been devised to solve the above-described problems, and an object of the present disclosure is to provide content related to solution information based on a user's voice requesting solution information for solving a problem of an external device and an image of an external device To provide an electronic device and a method for controlling the same.
- an electronic device captures an image of the external device through a camera, a microphone, a display, a communication unit including a circuit, a memory, and the camera to obtain information on the external device
- a user voice requesting solution information for solving a problem with respect to the external device is input through the microphone while acquiring information on the external device
- the inputted user voice and the information about the external device are inputted.
- control the communication unit to transmit information to a server, receive contents related to the solution information among contents of the device related to the external device from the server through the communication unit, and receive the contents related to the solution information from the captured image
- It may include a processor for controlling the display to provide with.
- the server sends a user voice requesting solution information for solving a problem with an external device from a communication unit including a circuit, a memory, and an electronic device to the external device and the external device.
- information about the device is received through the communication unit, a device related to the external device is identified based on the information on the external device, and contents related to the solution information are obtained from among contents related to the identified device related to the external device, , a processor for controlling the communication unit to transmit the content related to the solution information to the electronic device.
- a method of controlling an electronic device includes: acquiring information about the external device by photographing an image of the external device through the camera; When a user voice requesting solution information for solving a problem with the external device is input through the microphone while acquiring information on the external device, the inputted user voice and information on the external device are transmitted to the server transmitting; receiving, from the server, content related to the solution information among the content for the device related to the external device; and providing content related to the solution information together with the captured image.
- a control method of a server includes: receiving a user's voice requesting solution information for solving a problem with respect to an external device and information on the external device from an electronic device; identifying a device related to the external device based on the information on the external device; obtaining content related to the resolution information from among the content for the device related to the identified external device; and transmitting the content related to the solution information to the electronic device.
- the electronic device provides content related to the solution information based on the user's voice requesting solution information for solving the problem of the external device and the image of the external device, so that the user can utilize content related to more accurate and various problem-solving information.
- FIG. 1 is a view for explaining operations of an electronic device and a server according to an embodiment of the present disclosure
- FIG. 2 is a block diagram illustrating the configuration of an electronic device in detail according to an embodiment of the present disclosure
- FIG. 3 is a block diagram schematically illustrating the configuration of a server according to an embodiment of the present disclosure
- FIG. 4 is a view for explaining a process in which a server or an electronic device acquires solution information content of a device related to an external device, according to an embodiment of the present disclosure
- 5A, 5B, and 5C are diagrams for explaining a method in which an electronic device provides content related to solution information together with an image of an external device, according to an embodiment of the present disclosure
- 6A and 6B are diagrams for explaining a process in which an electronic device provides image content related to solution information according to an embodiment of the present disclosure
- FIG. 7 is a sequence diagram illustrating an operation between an electronic device and a server according to an embodiment of the present disclosure
- FIG. 8 is a view for explaining a method of controlling an electronic device according to an embodiment of the present disclosure.
- FIG. 9 is a diagram for explaining a method of controlling a server according to an embodiment of the present disclosure.
- the electronic device 100 may acquire information on the external device 10 by photographing an image of the external device 10 through the camera 110 .
- Information on the external device 10 includes the image of the external device 10 (or feature data (eg, feature) of the external device 10 obtained by inputting the image into an artificial intelligence model such as a convolutional neural network (CNN).
- information on the external device 10 may include identification data (eg, product name, product name, product name) in the external device 10 obtained through the image of the external device 10. number, manufacturer, year, etc.)
- the electronic device 100 may obtain identification data of the external device 10 through a barcode, a QR code, etc. included in the image of the external device 10 .
- the external device 10 is implemented as an air conditioner in FIG. 1 , this is only an exemplary embodiment, and the external device 10 may be implemented with various devices.
- the electronic device 100 may transmit the input user voice 20 and information on the external device 10 to the server 200 .
- the server 200 may identify a device related to the external device based on the information on the external device.
- the server 200 inputs an image of the external device 10 or feature data of the external device 10 to the external appearance recognition model received from the electronic device 100 to provide a pre-stored device and an external device. Appearance similarity values between the devices 10 may be obtained.
- the appearance similarity value is a value obtained by numerically outputting the similarity between the feature data of the external device 10 and the feature data of the pre-stored device.
- the server 200 may identify a device having an appearance similarity value exceeding a threshold as a device related to the external device 10 .
- the server 200 may identify and obtain content for a device related to the identified external device 10 from among pre-stored content.
- the server 200 may identify a device having the highest appearance similarity value with the external device 10 as a device related to the external device 10 .
- the server 200 may identify a device related to the external device 10 by using the identification data for the external device 10 received from the electronic device 100 . That is, the server 200 may identify a device related to the external device 10 by sequentially comparing or matching at least one of a product name, a product number, a manufacturer, and a model year among the identification data of the external device 10 . For example, if the year of the external device 10 is 2018, the manufacturer is S, and the product name is air conditioner, the server 200 is an air conditioner with the year 2018 among the pre-stored devices, the manufacturer is S, and the product name is air conditioner. The device may be identified as a device related to the external device 10 . As another example, the server 200 may identify a device having the smallest error from the product number of the external device 10 as a device related to the external device 10 .
- the server 200 may acquire contents related to resolution information among contents for devices related to the identified external device. Specifically, while identifying the device related to the external device, the server 200 inputs the user's voice requesting solution information for solving the problem with the external device 10 into the second conversation system to understand the meaning of the user's voice. can figure out
- the server 200 may search for and obtain content related to solution information capable of solving a problem with respect to the external device among the obtained content for the device related to the external device 10 .
- the contents related to the solution information are related to the solution information among the manual of the device related to the external device 10 and the guide image contents for the device related to the external device 10 .
- the server 200 may transmit the content related to the solution information to the electronic device 100 .
- the manual (or user manual) may be text including specifications, usage methods, etc. of the device related to the external device 10 , but this is only an example, and information about the device related to the external device 10 is provided. Images, images, etc. may be further included.
- the electronic device 100 may provide the content related to the solution information together with the captured image. For example, as shown in FIG. 1 , the electronic device 100 may view the text 30 corresponding to the solution information in the manual or the video content related to the solution information on the photographed image of the external device 10 . It is possible to display a hyperlink (Hyper Link) (40).
- a hyperlink “Hyper Link) (40).
- the electronic device 100 may input the user's voice into the first conversation system to determine the intention of the user's voice. Meanwhile, the electronic device 100 may recognize the intention of the user's voice when receiving the content related to the solution information from the server 200 , but this is only an example and when the user's voice is input through the microphone 120 , or After a threshold time after being input, the intention of the user's voice may be recognized through the first conversation system.
- the electronic device 100 may obtain a text corresponding to the solution information from the manual of the device related to the external device. For example, when a user's voice 20 requesting information on how to replace the air conditioner filter is input, the electronic device 100 inputs the user's voice into the first conversation system to request information on how to replace the air conditioner filter, and It can be identified that there is In addition, the electronic device 100 may search for and obtain a text related to replacement of the air conditioner filter in the manual.
- the electronic device 100 may identify whether a region corresponding to the solution information exists on the image of the external device 10 based on the acquired text. Specifically, the electronic device 100 may analyze the acquired text to identify a region or location corresponding to the solution information among devices related to the external device. For example, the electronic device 100 linguistically analyzes the text about the position of the air conditioner filter (eg, 'take out the filter located at the lower right side') among the acquired texts through the first conversation system, so that the filter is applied to the external device. A region or location located on the device associated with (10) may be identified.
- the air conditioner filter eg, 'take out the filter located at the lower right side'
- the electronic device 100 may estimate that the filter is present in the lower right region of the external device 10 .
- the electronic device 100 may identify whether the lower right region of the external device 10 is displayed on the image of the external device 10 acquired through the camera 110 .
- the electronic device 100 selects the area corresponding to the solution information among the external devices 10 . You can provide a message to take a picture. For example, if it is identified that the lower right region of the external device 10 is not displayed on the image of the external device 10 acquired through the camera 110 , the electronic device 100 may display the external device 10 . You can provide a message to shoot the lower-right area of the middle.
- the electronic device 100 may display the text 30 corresponding to the solution information on the identified region. For example, as shown in FIG. 1 , the electronic device 100 may display text related to replacement of the air conditioner filter in the manual on the lower right side of the image of the air conditioner.
- the electronic device 100 acquires a caption related to text corresponding to the solution information among the captions of the image content related to the solution information can do. For example, the electronic device 100 may obtain a caption related to replacement of an air conditioner filter among captions of image content. In addition, the electronic device 100 may identify a time point at which the acquired caption is displayed on the image content (eg, from 1 minute 20 seconds to 2 minutes 30 seconds based on the image reproduction start time, etc.). And, according to an embodiment, the electronic device 100 may extract and obtain image content corresponding to the identified viewpoint from among the image content. In another embodiment, the electronic device 100 controls the status progress bar of the image content so that the image content can be reproduced from a start time (eg, 1 minute and 20 seconds based on the image reproduction start time) among the identified time points. can do.
- a start time eg, 1 minute and 20 seconds based on the image reproduction start time
- the electronic device 100 provides a graphical user interface (GUI) for viewing the extracted image content from among the image content or the image content reproduced from the identified time point on an area corresponding to the solution information in the image for the external device 10 .
- GUI graphical user interface
- the electronic device 100 may display a hyperlink 40 implemented as a text 'solution video' in order to view image content corresponding to the identified viewpoint. Then, when at least one of the GUI or the hyperlink is selected (eg, selected through a user touch or a user voice), the electronic device 100 displays the image content corresponding to the identified time point on an area of the image of the external device.
- the electronic device 100 may display the image content corresponding to the identified time point on the area corresponding to the solution information in the image of the external device 10 (eg, the lower right corner), but this is only an example. It may be displayed on the background screen or the entire area of the display 170 .
- the electronic device 100 includes a camera 110 , a microphone 120 , a communication unit 130 , a processor 140 , a display 150 , a memory 160 , an input unit 170 , and a speaker. (180).
- the configuration shown in FIG. 2 is an exemplary diagram for implementing embodiments of the present disclosure, and appropriate hardware and software configurations at a level obvious to those skilled in the art may be additionally included in the electronic device 100 .
- the camera 110 is configured to photograph the surroundings of the electronic device 100 .
- the camera 110 may acquire an image of the external device by photographing an external device located in the vicinity of the electronic device 100 .
- the camera 110 may be implemented in various ways according to the type of the electronic device 100 , such as an RGB-D camera, a 3D-camera, and an infrared camera.
- the microphone 120 may receive a user's voice.
- the microphone 120 may receive a user voice requesting solution information for solving a problem with the external device.
- the microphone 120 may receive various user queries as well as solution information.
- the microphone 120 may be provided inside the electronic device 100 , but may be provided outside and electrically connected to the electronic device 100 . Also, when the microphone 120 is provided outside, the microphone 120 may transmit a user voice signal generated through a wired/wireless interface (eg, Wi-Fi, Bluetooth) to the processor 140 .
- a wired/wireless interface eg, Wi-Fi, Bluetooth
- the communication unit 130 may include various communication modules to communicate with an external device or server.
- communication unit 170 may include a wireless communication module, for example, LTE, LTE-A (LTE Advance), 5G (5 th Generation) CDMA (code division multiple access), WCDMA (wideband CDMA) , a cellular communication module using at least one of universal mobile telecommunications system (UMTS), wireless broadband (WiBro), and global system for mobile communications (GSM).
- the wireless communication module for example, WiFi (wireless fidelity), Bluetooth, Bluetooth low energy (BLE), Zigbee (Zigbee), near field communication (NFC), magnetic secure transmission (Magnetic Secure Transmission), radio frequency (RF) or a body area network (BAN).
- the user's voice and information on the external device may be transmitted to the server through the communication unit 130 .
- the communication unit 130 may receive content related to solution information among the content for the device related to the external device.
- the processor 140 may be electrically connected to the memory 160 to control overall operations and functions of the electronic device 100 .
- the processor 140 may acquire information on the external device by photographing an image of the external device through the camera 110 .
- the information on the external device may include an image of the external device or feature data obtained through an image of the external device.
- the information on the external device may include identification data of the external device (eg, manufacturer, product name, year, year number, etc.) of the external device obtained through the image of the external device.
- the electronic device 100 may acquire identification data of the external device through a barcode, a QR code, a manufacturer's trademark, etc. of the external device included in the image of the external device.
- the processor 140 transmits the input user voice and information on the external device to the server 200 ) may control the communication unit 130 to transmit.
- the processor 140 may receive, from the server 200 , content related to solution information among the content for the device related to the external device through the communication unit 130 .
- the content related to the solution information may include at least one of a manual of a device related to the external device, video content related to the solution information among guide video contents for the device related to the external device, and captions of the video content related to the solution information.
- the processor 140 may obtain a text corresponding to the solution information in the manual, and identify whether a region corresponding to the solution information exists on the image of the external device based on the obtained text. Specifically, the processor 140 may input the user's voice input through the microphone 120 into the first conversation system stored in the memory 160 to determine the intention of the user's voice. In addition, the processor 140 may search for and obtain text related to solution information among manuals related to the external device 10 .
- the processor 140 may analyze the acquired text to identify a region or location corresponding to the solution information among devices related to the external device.
- the processor 140 may identify the area or location identified through the device related to the external device as the area or location corresponding to the solution information among the external devices. For example, if the area related to the solution information among the devices related to the external device is identified as the lower right area of the device related to the external device, the processor 140 refers to the area related to the solution information among the external devices as the lower right area of the external device. can be identified.
- the processor 140 may identify whether a region corresponding to the solution information exists on the image of the external device obtained through the camera 110 .
- the processor 140 may provide a message to photograph the area corresponding to the solution information among the external devices. Specifically, the processor 140 may control the display 150 to display a message or control the speaker 180 to output the message in the form of voice. Meanwhile, if it is identified that a region corresponding to the solution information exists on the image of the external device, the processor 140 may control the display 150 to display text related to the solution information on the region.
- the processor 140 may obtain a caption related to the acquired text from among the captions of the image content related to the solution information.
- the processor 140 may identify a time point at which the obtained caption is displayed on the image content, and extract image content corresponding to the identified time point from among the image content.
- the processor 140 controls the display 150 to display at least one of a GUI or a hyperlink for viewing image content corresponding to the identified viewpoint on the region corresponding to the solution information among the images for the external device. can When at least one of the GUI and the hyperlink is selected, the processor 140 may control the display 150 to display image content corresponding to the viewpoint on one region of the image of the external device.
- functions related to artificial intelligence according to the present disclosure are operated through the processor 140 and the memory 160 .
- the processor 140 may include one or a plurality of processors.
- one or a plurality of processors 140 is a general-purpose processor such as a CPU (Central Processing Unit), an AP (Application Processor), etc., a graphics-only processor such as a GPU (graphics-processing unit), a VPU (Visual Processing Unit), or an NPU ( It may be a processor dedicated to artificial intelligence, such as a Neural Processing Unit).
- One or more processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory 160 .
- a predefined action rule or artificial intelligence model is characterized by being created through learning.
- a predefined operation rule or artificial intelligence model of a desired characteristic is created by applying a learning algorithm to a plurality of learning data.
- Such learning may be performed in the device itself on which the artificial intelligence according to the present disclosure is performed, or may be performed through a separate server/system.
- the artificial intelligence model may be composed of a plurality of neural network layers. Each layer has a plurality of weight values, and the calculation of the layer is performed through the operation of the previous layer and the operation of the plurality of weights.
- Examples of neural networks include Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) and deep There is a Q-network (Deep Q-Networks), and the neural network in the present disclosure is not limited to the above-described example except as otherwise specified.
- the learning algorithm is a method of training a predetermined target device (eg, a robot) using a plurality of learning data so that the predetermined target device can make a decision or make a prediction by itself.
- Examples of the learning algorithm include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, and the learning algorithm in the present disclosure is specified It is not limited to the above-described example except for.
- the display 150 may display various information according to the control of the processor 140 .
- the display 150 may display an image of an external device captured by the camera 110 .
- the processor 150 may display content related to the solution information on the image of the external device under the control of the processor 140 .
- the processor 150 may display a message to photograph a region corresponding to the solution information among external devices.
- the display 150 may be implemented as a touch screen together with the touch panel, but this is only an example and may be implemented in various ways according to the type of the electronic device 100 .
- the memory 160 may store commands or data related to at least one other component of the electronic device 100 .
- the memory 160 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), or a solid state drive (SSD).
- the memory 160 is accessed by the processor 140 , and reading/writing/modification/deletion/update of data by the processor 130 may be performed.
- the term "memory” refers to a memory 160, a ROM (not shown) in the processor 140, a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (eg, micro SD). card, memory stick).
- the memory 160 may store programs and data for configuring various screens to be displayed in the display area of the display.
- the memory 160 may store a first dialogue system.
- the dialog system may include an artificial intelligence model that provides a response by performing speech recognition and language analysis on the user's voice input through the microphone 110 .
- the first dialog system may include various software modules, and each software module may be controlled by the processor 140 .
- the first dialogue system includes an Automatic Speech Recognition (ASR) module, a Natural Language Understanding (NLU) module, a Dialogue Manager) module, a Natural Language Generator (NLG) module, a Text-to-Speech (TTS) module, and a Knowledge Base. database) may be included.
- ASR Automatic Speech Recognition
- NLU Natural Language Understanding
- NLU Natural Language Understanding
- NGL Natural Language Generator
- TTS Text-to-Speech
- Knowledge Base. database a Knowledge Base. database
- the memory 160 may store a first appearance recognition model that is an artificial intelligence model that outputs feature data of an external device using an image of the external device.
- the first appearance recognition model may output feature data of an external device implemented in a vector or matrix form.
- the input unit 170 may receive a user input for controlling the electronic device 100 .
- the input unit 170 may include a touch panel for receiving a user touch input using a user's hand or a stylus pen, a button for receiving a user manipulation, and the like.
- the input unit 170 may be implemented as another input device (eg, a keyboard, a mouse, a motion input unit, etc.).
- the input unit 170 may receive a user touch for selecting at least one of a hyperlink or a GUI for displaying image content.
- the speaker 180 is configured to output not only various audio data on which various processing operations such as decoding, amplification, and noise filtering have been performed by the audio processing unit, but also various notification sounds or voice messages.
- the speaker 180 may output a response to the user's voice obtained through the first conversation system as a voice message in the form of a natural language.
- the speaker 180 may output a message in the form of a voice to photograph a region corresponding to the solution information among external devices.
- a configuration for outputting audio may be implemented as a speaker, but this is only an exemplary embodiment and may be implemented as an output terminal capable of outputting audio data.
- the server 200 may include a communication unit 210 , a memory 220 , and a processor 230 .
- the communication unit 210 is configured to communicate with the electronic device 100 or an external device and may include various communication modules. Since various communication modules have been described with reference to FIG. 2 , redundant descriptions will be omitted.
- the memory 220 may store commands or data related to at least one other component of the server 200 .
- the memory 220 may be implemented in various ways, such as a flash memory, and since a specific embodiment has been described with reference to FIG. 2 , a redundant description will be omitted.
- the memory 220 may store the second conversation system.
- the second conversation system may include various software modules (eg, ASR module, NLU module, DM module, TTS module, etc.) controlled by the processor 230 like the first conversation system.
- the amount of learning data stored in the second conversation system may be greater than the amount of learning data stored in the first conversation system.
- An artificial intelligence model trained using a large amount of training data outputs speech recognition results and language analysis results with high reliability for the same input voice, compared to an artificial intelligence model trained using a relatively small amount of training data. can do.
- the memory 220 may store a second appearance recognition model, which is an artificial intelligence model that outputs an appearance similarity value between a pre-stored device and an external device.
- the second appearance recognition model may extract feature data of an image for an external device.
- the second appearance recognition model may output an appearance similarity value by comparing the extracted feature data with the feature data of an image of a pre-stored device. Since the second appearance recognition model may have a larger amount of training data than the first appearance recognition model, a more accurate appearance similarity value may be output.
- the memory 220 may store a frequently asked question (FAQ) database including pre-stored questions about the device and contents corresponding to each question.
- FAQ frequently asked question
- content related to FAQs for various devices and solution information for solving each FAQ may be pre-stored.
- the processor 230 may be electrically connected to the memory 220 to control overall operations and functions of the server 200 .
- the processor 230 may receive a user voice requesting solution information for solving a problem with the external device 100 from the electronic device and information on the external device through the communication unit 210 .
- the processor 230 may identify a device related to the external device based on the information on the external device. As an embodiment, the processor 230 may obtain an appearance similarity value between the pre-stored device and the external device by inputting an image of the external device or feature data of the external device into the external appearance recognition model. In addition, the processor 230 may identify an external device having an appearance similarity value exceeding a threshold as a device related to the external device. Also, the processor 230 may identify an external device having the largest external similarity value as a device related to the external device.
- the processor 230 may identify a device related to the external device based on identification data of the external device (eg, a product name, manufacturing number, year of manufacture, manufacturer, etc. of the external device). For example, the processor 230 may identify a device having the same product name, manufacturing year, and manufacturer of the external device among pre-stored devices as a device related to the external device. As another example, the processor 230 may identify the device having the smallest error when comparing the serial number of the pre-stored device with the product number of the external device as a device related to the external device.
- identification data of the external device eg, a product name, manufacturing number, year of manufacture, manufacturer, etc. of the external device.
- the processor 230 may identify a device having the same product name, manufacturing year, and manufacturer of the external device among pre-stored devices as a device related to the external device.
- the processor 230 may identify the device having the smallest error when comparing the serial number of the pre-stored device with the product number of the external device as a device
- the processor 230 may acquire content related to resolution information from among pre-stored content for a device related to the identified external device. Specifically, the processor 230 may input the user's voice into the second conversation system to determine the intention of the user's voice. In addition, the processor 230 may acquire content related to solution information from among pre-stored content for a device related to an external device. In addition, the processor 230 may control the communication unit 210 to transmit content related to the obtained solution information to the electronic device 100 . A related embodiment will be described in detail with reference to FIG. 4 .
- FIG. 4 is a diagram for explaining a process in which the server 200 or the electronic device 100 acquires solution information content of a device related to an external device, according to an embodiment of the present disclosure.
- the server 200 may input the user's voice received from the electronic device 100 into the second conversation system 420 to determine the intention of the user's voice. Then, the server 200 may acquire the content related to the solution information among the content stored in the FAQ DB 430 based on the identified user's intention. Specifically, the FAQ DB 430 stores FAQs for various devices and content related to solution information for solving each FAQ, and each content may be added/deleted/changed by a user command. Accordingly, the server 200 may identify a FAQ related to solution information in the FAQ DB 430 , and obtain content related to solution information for resolving the identified FAQ.
- the server 200 may identify a device having a similar appearance to the external device based on the information 440 about the external device. Specifically, the server 200 may obtain an appearance similarity value between the external device and a pre-stored device by inputting the information 440 about the external device into the external appearance recognition model 450 . Specifically, the appearance recognition model 450 may output feature data of the external device based on the image of the external device. In addition, the appearance recognition model 450 may output a similarity value by matching the feature data of the external device with the feature data of the pre-stored device. In addition, the server 200 may identify a device having a similarity value exceeding a threshold as a device related to an external device.
- the server 200 may identify a device related to an external device among pre-stored devices based on the identification data of the external device.
- the server 200 may acquire the solution information content 460 of the device related to the external device among the contents related to the solution information obtained through the FAQ DB 430 .
- the server 200 may obtain the solution information content 460 of the device related to the external device by identifying the content related to the solution information among the identified contents for the device related to the external device. In addition, the server 200 may transmit the solution information content 460 of the device related to the external device to the electronic device 100 .
- the electronic device 100 may acquire the solution information content 460 of the device related to the external device through the first dialog system and the first appearance recognition model stored in the memory 160 . have. That is, with reference to FIG. 4 , the electronic device 100 transmits a user voice requesting solution information for solving a problem with respect to the external device and information on the external device to the server 200 , thereby providing solution information content related to the external device.
- 460 is obtained has been described, this is only an embodiment. That is, the electronic device 100 may acquire the solution information content 460 of the device related to the external device without transmitting the user's voice and information on the external device to the server 200 .
- the electronic device 100 since the electronic device 100 includes the second dialog system and the first appearance recognition model that perform the same or similar functions as the second dialog system and the second appearance recognition model included in the server 200, FIG. 4 .
- the electronic device 100 may acquire the solution information content 460 of the device related to the external device.
- a FAQ database may also be stored in the memory of the electronic device 100 , and data updated on the server 200 may be received from the server 200 in the FAQ database.
- 5A to 5C are diagrams for explaining a process in which an electronic device provides content related to an external device and an image of the external device, according to an embodiment of the present disclosure
- the electronic device 100 may acquire texts 520 and 530 corresponding to the solution information from the manual 500 of the device related to the external device.
- the electronic device 100 may input the user's voice (eg, 'Tell me how to filter the air conditioner') into the first conversation system to determine the intention of the user's voice.
- the electronic device 100 may acquire texts 520 and 530 corresponding to the solution information among the texts included in the manual 500 .
- the electronic device 100 may identify a region corresponding to the solution information among devices related to the external device based on the acquired texts 520 and 530 . For example, as shown in FIG.
- the electronic device 100 analyzes the acquired texts 520 and 530 and, among devices related to the external device, the region corresponding to the solution information, that is, the region where the air conditioner filter exists, is that of the external device. It can be identified that it is the lower right area. Accordingly, the electronic device 100 may identify a region or location corresponding to the solution information among external devices as a lower right region of the external device.
- the electronic device 100 analyzes the text 540 of the manual 510 including information on the specification of the device related to the external device, and provides solution information among devices related to the external device. It is possible to identify a region or location corresponding to .
- the electronic device 100 may identify whether a region corresponding to the solution information exists on the image of the external device acquired through the camera 110 . For example, as shown in FIG. 5B , the electronic device 100 displays an area corresponding to the solution information on the image of the external device acquired through the camera 110 (eg, the right side where the air conditioner filter is present). bottom area) can be identified. If it is identified that the lower right area of the external device does not exist on the image for the external device, the electronic device 100 prompts the user to photograph the area corresponding to the solution information among the external devices (eg, 'Please take a picture of the lower right corner) ') 550 may be displayed.
- the electronic device 100 may prompts the user to photograph the area corresponding to the solution information among the external devices (eg, 'Please take a picture of the lower right corner) ') 550 may be displayed.
- the electronic device 100 displays the manual 500 on the area corresponding to the solution information as shown in FIG. 5C . It is possible to display the text 560 obtained through the Meanwhile, as another embodiment, the electronic device 100 may display at least one of an icon, a GUI, or a hyperlink capable of displaying text acquired through the manual 500 on an area corresponding to the solution information. . Accordingly, when at least one of an icon, a GUI, or a hyperlink is selected, the electronic device 100 may display the acquired text on one area of the display 150 .
- 6A and 6B are diagrams for explaining a process in which the electronic device 100 provides content related to an external device and an image of the external device according to an embodiment of the present disclosure.
- the electronic device 100 may acquire a caption related to the text acquired through the manual 500 among captions 600-1.600-2.600-3 ... of the image content related to the solution information. For example, as shown in FIG. 6A , the electronic device 100 may identify and obtain a caption 610 related to an air conditioner filter that is solution information among captions of content related to solution information. Then, the electronic device 100 may identify a time point (eg, from 0:50 to 1:20 based on the playback start time) 620 at which the acquired caption is displayed on the image content. In addition, the electronic device 100 may extract only the image content 630 corresponding to the identified time point from among the image content. As another embodiment, the electronic device 100 may control the image content to be played back from a start time among the identified time points.
- a time point eg, from 0:50 to 1:20 based on the playback start time
- the electronic device 100 may extract only the image content 630 corresponding to the identified time point from among the image content.
- the electronic device 100 may control the
- the electronic device 100 may display at least one of a GUI or a hyperlink 640 for viewing the image content corresponding to the identified viewpoint among the image content on the area corresponding to the solution information on the image of the external device.
- a hyperlink eg, a hyperlink for viewing video content corresponding to the identified viewpoint among the video content on the lower right region of the image for the external device.
- a hyperlink implemented as the text 'providing a solution image' may be displayed. Accordingly, when the hyperlink 640 is selected, the electronic device 100 may display the extracted image content on one area 650 of the display 150 .
- the electronic device 100 may control the display 150 to be reproduced from the start point of the identified point of view among the image content on one area 650 of the display 150 .
- FIG. 6B shows that the extracted image content is displayed on the lower right region of the display 150 , this is only an example, and the electronic device 100 displays the image content on the entire display 150 . Also, the area displaying the image content may be freely changed according to a user command.
- FIG. 7 is a sequence diagram illustrating operations of the electronic device 100 and the server 200 according to an embodiment of the present disclosure.
- the electronic device 100 may acquire information on the external device by photographing an image of the external device ( S710 ).
- the information on the external device may include an image of the external device or feature data on the external device.
- the feature data of the external device may be implemented in the form of a vector or a matrix as feature data obtained by inputting an image of the external device into the appearance recognition model.
- a user's voice requesting information for solving a problem with respect to the external device may be input to the electronic device 100 (S720).
- the electronic device 100 may input the user's voice into the first conversation system to determine the meaning of the solution information included in the user's voice.
- the step ( S710 ) of the electronic device 100 acquiring information on the external device and the step ( S720 ) of receiving a user voice may occur simultaneously or within a critical error range time.
- the electronic device 100 may transmit the user's voice and information on the external device to the server 200 (S730).
- the server 200 may identify a device related to the external device based on the information on the external device (S740). Specifically, the server 200 inputs information about the external device into the second appearance recognition model to acquire feature data for the external device, compares the acquired feature data of the external device with the feature data of the pre-stored device, and A similarity value can be obtained. In addition, the server 200 may identify a device having an appearance similarity value exceeding a threshold as a device related to the external device.
- the server 200 may acquire content related to solution information from among pre-stored devices related to external devices (S750). Then, the server 200 may transmit the content related to the solution information to the electronic device 100 (S760). Then, the electronic device 100 may provide the content related to the solution information together with the image of the external device acquired through the camera 110 (S770).
- FIG. 8 is a flowchart illustrating a method of controlling the electronic device 100 according to an embodiment of the present disclosure.
- the electronic device 100 may acquire information on the external device by photographing an image of the external device ( S810 ).
- the electronic device 100 transmits the input user voice and information on the external device to the server ( 200) (S820). Meanwhile, when a user's voice is input, the electronic device 100 may determine the meaning of the solution information included in the user's voice.
- the electronic device 100 may receive, from the server 200, content related to solution information among the content for the device related to the external device (S830).
- the content related to the solution information may include at least one of a manual of a device related to the external device, video content related to the solution information among guide video contents for the device related to the external device, and captions of the video content related to the solution information.
- the electronic device 100 may acquire content related to resolution information among the content for the device related to the external device on the on-device rather than the server. Since the embodiment of acquiring content from the on-device has been described in detail with reference to FIG. 4 , a redundant description will be omitted.
- the electronic device 100 may provide the content related to the solution information together with the captured image of the external device (S840).
- the electronic device 100 may obtain a text corresponding to the solution information in a manual related to the external device. Then, the electronic device 100 may analyze the text to identify whether a region corresponding to the solution information exists on the image of the external device. Meanwhile, if it is identified that an area corresponding to the solution information does not exist on the image of the external device, the electronic device 100 may provide a message to photograph the area corresponding to the solution information among the external devices. When it is identified that a region corresponding to the solution information exists on the image for the external device, the electronic device 100 may display the obtained text on the region corresponding to the solution information among the image for the external device.
- the electronic device 100 may acquire a subtitle related to the acquired text from among the subtitles of the image content.
- the electronic device 100 may identify a time point at which the acquired caption is displayed on the image content, and may extract image content corresponding to the identified time point from among the image content.
- the electronic device 100 may display at least one of a GUI or a hyperlink for viewing the extracted image content on an area corresponding to the solution information among the images of the external device. Accordingly, when at least one of the GUI and the hyperlink is selected, the electronic device 100 may display the extracted image content on one region of the image of the external device.
- FIG. 9 is a flowchart illustrating a method of controlling a server according to an embodiment of the present disclosure.
- the server 200 may receive a user's voice requesting solution information for solving a problem with the external device and information on the external device from the electronic device (S910). Then, the server 200 may identify a device related to the external device based on the information on the external device ( S920 ). Specifically, the server 200 may acquire the feature data of the external device by inputting an image of the external device to the external recognition model. In addition, the server 200 may identify a device related to the external device based on an appearance similarity value between the feature data of the external device acquired through the external recognition model and the feature data of the pre-stored device. As another example, the server 200 may identify a device related to the external device by comparing or matching the identification data of the external device and the previously stored identification data of the device.
- the server 200 may acquire content related to the identified external device.
- the server 200 may input the user's voice into the second conversation system while identifying the device related to the external device to determine the meaning of the solution information included in the user's voice. Then, the server 200 may acquire content related to the solution information among the identified content related to the external device (S930).
- the server 200 may acquire the content related to the solution information among the contents stored in the FAQ DB based on the meaning of the solution information identified through the second conversation system.
- the FAQ DB pre-stores content related to FAQs for various devices and solution information for resolving each FAQ. Accordingly, the server 200 may identify a FAQ related to the meaning of the identified solution information among the FAQs pre-stored in the FAQ DB. Then, the server 200 may acquire content related to solution information corresponding to the identified FAQ. Then, the server 200 may acquire the content of the device related to the identified external device among the content related to the obtained solution information.
- the server 200 may transmit the content related to the solution information to the electronic device 100 (S940).
- the electronic device 100 is a device related to an external device through the image content related to solution information among the manual and guide image contents for the device related to the external device received from the server 200 . It is possible to identify an area or a location corresponding to the solution information. In addition, the electronic device 100 may identify a region or location corresponding to the solution information among external devices based on the area or location corresponding to the solution information among the identified devices related to the external device. For example, an area corresponding to the solution information (eg, when a user voice requesting a filter replacement method is inputted, the solution information may be a filter replacement method) among devices related to the external device is the lower right area. Upon identification, the electronic device 100 may identify the area corresponding to the solution information among the external devices as the lower right area as well.
- the electronic device 100 may identify the area corresponding to the solution information among the external devices as the lower right area as well.
- the electronic device 100 may identify a difference by comparing the device related to the external device and the identified region or location of the external device.
- the electronic device 100 identifies a difference by comparing each region corresponding to the solution information among the device related to the external device and the external device based on the text or image corresponding to the solution information in the manual of the device related to the external device. can do. For example, when the region corresponding to the solution information among the devices related to the external device is the lower right corner, the electronic device 100 determines the appearance of the device related to the external device and the part (or component) in the lower right region of the external device. A difference may be identified by comparison through the first appearance recognition model.
- the electronic device 100 may acquire the image content related to the solution information through a generative model stored in the memory 160 based on the identified difference. That is, the electronic device 100 may acquire image content related to resolution information of a device related to an external device to which the identified difference is reflected. Specifically, when a difference in appearance is identified between the device related to the external device and the parts in the lower region of each of the external devices, the electronic device 100 identifies the external appearance of the parts in the lower region of the device related to the external device among the image contents related to the solution information. The video content can be changed to reflect the differences.
- the electronic device 100 may display the changed image content on one area or the entire area of the display 150 .
- expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
- expressions such as “A or B,” “at least one of A and/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
- “A or B,” “at least one of A and B,” or “at least one of A or B” means (1) includes at least one A, (2) includes at least one B; Or (3) it may refer to all cases including both at least one A and at least one B.
- a component eg, a first component is "coupled with/to (operatively or communicatively)" to another component (eg, a second component)
- another component eg, a second component
- the certain element may be directly connected to the other element or may be connected through another element (eg, a third element).
- a component eg, a first component
- another component eg, a second component
- a device configured to may mean that the device is “capable of” with other devices or parts.
- a coprocessor configured (or configured to perform) A, B, and C may refer to a dedicated processor (eg, an embedded processor), or one or more software programs stored in a memory device, to perform the corresponding operations. By doing so, it may mean a generic-purpose processor (eg, a CPU or an application processor) capable of performing corresponding operations.
- the electronic device may include, for example, at least one of a smartphone, a tablet PC, a desktop PC, a laptop PC, a netbook computer, a server, a PDA, a medical device, and a wearable device.
- the electronic device may include, for example, at least one of a television, a refrigerator, an air conditioner, an air purifier, a set-top box, and a media box (eg, Samsung HomeSyncTM, Apple TVTM, or Google TVTM).
- the term user may refer to a person who uses an electronic device or a device (eg, an artificial intelligence electronic device) using the electronic device.
- a device eg, an artificial intelligence electronic device
- Various embodiments of the present disclosure may be implemented as software including instructions stored in a machine-readable storage media readable by a machine (eg, a computer).
- a machine eg, a computer
- a device capable of calling and operating according to the called command it may include an electronic device (eg, the electronic device 100) according to the disclosed embodiments.
- the processor directly or A function corresponding to the instruction may be performed using other components under the control of the processor.
- the instruction may include code generated or executed by a compiler or an interpreter.
- a device-readable storage medium includes: It may be provided in the form of a non-transitory storage medium, where the 'non-transitory storage medium' does not include a signal and means that it is tangible and that data is stored in the storage medium semi-permanently or Temporarily stored is not distinguished, for example, a 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
- the method according to various embodiments disclosed in the present disclosure may be provided by being included in a computer program product.
- Computer program products may be traded between sellers and buyers as commodities.
- the computer program product may be distributed in the form of a machine-readable storage medium (eg, compact disc read only memory (CD-ROM)) or online through an application store (eg, Play StoreTM).
- an application store eg, Play StoreTM
- at least a portion of a computer program product eg, a downloadable app
- a storage medium such as a memory of a server of a manufacturer, a server of an application store, or a relay server, or , can be created temporarily.
- Each of the components may be composed of a singular or a plurality of entities, and some sub-components of the aforementioned sub-components may be omitted, or other sub-components may be various. It may be further included in the embodiment.
- some components eg, a module or a program
- operations performed by a module, program, or other component may be sequentially, parallelly, repetitively or heuristically executed, or at least some operations may be executed in a different order, omitted, or other operations may be added.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
전자 장치 및 이의 제어 방법이 개시된다. 본 전자 장치는 카메라, 마이크, 디스플레이, 회로를 포함하는 통신부, 메모리 및 상기 카메라를 통해 외부 장치의 이미지를 촬영하여 상기 외부 장치에 대한 정보를 획득하고, 상기 외부 장치에 대한 정보를 획득하는 동안 상기 마이크를 통해 상기 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력되면, 상기 입력된 사용자 음성 및 상기 외부 장치에 대한 정보를 서버에 전송하도록 상기 통신부를 제어하며, 상기 서버로부터 상기 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 상기 통신부를 통해 수신하고, 상기 해결 정보와 관련된 컨텐츠를 상기 촬영된 이미지와 함께 제공하도록 상기 디스플레이를 제어할 수 있다.
Description
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로서, 더욱 상세하게는 사용자 음성 및 외부 장치에 대한 이미지를 바탕으로 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 제공하는 전자 장치 및 이의 제어 방법에 관한 것이다.
기계학습(예로, 딥러닝)을 이용한 음성 인식 기술이 개발됨에 따라 특정 기기의 문제에 대한 해결을 요청하는 사용자 음성이 입력되면, 문제의 해결 방법에 대한 정보를 제공하는 기술이 활용되고 있다.
다만, 기존의 기술의 경우, 사용자가 특정 기기에 대한 문제의 해결 방법을 요청할 경우, 특정 기기를 기반으로 제작된 솔루션 영상이 기저장되어 있어야만 사용자에게 솔루션 영상을 제공할 수 있다는 한계가 존재하였다. 따라서, 특정 기기의 과거 모델에 대한 솔루션 영상 등이 기저장되어 있지 않은 경우, 사용자는 음성 인식 기술을 활용하여 해결 방법에 대한 컨텐츠를 제공받지 못한다는 한계가 존재하였다.
또한, 특정 기기의 신규 모델이 출시될 때마다 기존의 모델과 비교할 때 변경된 스펙에 대응되도록 기존의 해결 방법에 대한 컨텐츠를 변경해야 한다는 한계가 존재하였다.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 외부 장치의 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 외부 장치에 대한 이미지를 바탕으로 해결 정보와 관련된 컨텐츠를 제공하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 개시의 일 실시예에 따른, 전자 장치는 카메라, 마이크, 디스플레이, 회로를 포함하는 통신부, 메모리 및 상기 카메라를 통해 외부 장치의 이미지를 촬영하여 상기 외부 장치에 대한 정보를 획득하고, 상기 외부 장치에 대한 정보를 획득하는 동안 상기 마이크를 통해 상기 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력되면, 상기 입력된 사용자 음성 및 상기 외부 장치에 대한 정보를 서버에 전송하도록 상기 통신부를 제어하며, 상기 서버로부터 상기 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 상기 통신부를 통해 수신하고, 상기 해결 정보와 관련된 컨텐츠를 상기 촬영된 이미지와 함께 제공하도록 상기 디스플레이를 제어하는 프로세서를 포함할 수 있다.
상술한 목적을 달성하기 위한 본 개시의 일 실시예에 따른, 서버는 회로를 포함하는 통신부, 메모리 및 전자 장치로부터 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 상기 외부 장치에 대한 정보를 상기 통신부를 통해 수신하고, 상기 외부 장치에 대한 정보를 바탕으로 상기 외부 장치와 관련된 장치를 식별하고, 상기 식별된 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 획득하고, 상기 해결 정보와 관련된 컨텐츠를 상기 전자 장치에 전송하도록 상기 통신부를 제어하는 프로세서를 포함할 수 있다.
한편, 상술한 목적을 달성하기 위한 실시예에 따른, 전자 장치의 제어 방법은 상기 카메라를 통해 외부 장치의 이미지를 촬영하여 상기 외부 장치에 대한 정보를 획득하는 단계; 상기 외부 장치에 대한 정보를 획득하는 동안 상기 마이크를 통해 상기 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력되면, 상기 입력된 사용자 음성 및 상기 외부 장치에 대한 정보를 서버에 전송하는 단계; 상기 서버로부터 상기 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 수신하는 단계; 및 상기 해결 정보와 관련된 컨텐츠를 상기 촬영된 이미지와 함께 제공하는 단계;를 포함할 수 있다.
한편, 상술한 목적을 달성하기 위한 실시예에 따른, 서버의 제어 방법은 전자 장치로부터 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 상기 외부 장치에 대한 정보를 수신하는 단계; 상기 외부 장치에 대한 정보를 바탕으로 상기 외부 장치와 관련된 장치를 식별하는 단계; 상기 식별된 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 획득하는 단계; 및 상기 해결 정보와 관련된 컨텐츠를 상기 전자 장치에 전송하는 단계;를 포함할 수 있다.
상술한 바와 같이 본 개시의 다양한 실시예에 의해, 전자 장치는 외부 장치의 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 외부 장치에 대한 이미지를 바탕으로 해결 정보와 관련된 컨텐츠를 제공함으로써, 사용자는 보다 정확하고 다양한 문제의 해결 정보와 관련된 컨텐츠를 활용할 수 있다.
도 1은 본 개시의 일 실시예에 따른, 전자 장치 및 서버의 동작을 설명하기 위한 도면,
도 2는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 상세히 도시한 블록도,
도 3은 본 개시의 일 실시예에 따른, 서버의 구성을 간략히 도시한 블록도,
도 4는 본 개시의 일 실시예에 따른, 서버 또는 전자 장치가 외부 장치와 관련된 장치의 해결 정보 컨텐츠를 획득하는 과정을 설명하기 위한 도면,
도 5a, 도 5b 및 도 5c는 본 개시의 일 실시예에 따른, 전자 장치가 해결 정보와 관련된 컨텐츠를 외부 장치의 이미지와 함께 제공하는 방법을 설명하기 위한 도면,
도 6a 및 도 6b는 본 개시의 일 실시예에 따른, 전자 장치가 해결 정보와 관련된 영상 컨텐츠를 제공하는 과정을 설명하기 위한 도면,
도 7은 본 개시의 일 실시예에 따른, 전자 장치와 서버간의 동작을 설명하기 위한 시퀀스도,
도 8은 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 도면,
도 9는 본 개시의 일 실시예에 따른, 서버의 제어 방법을 설명하기 위한 도면이다.
이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 개시의 일 실시예에 따른, 전자 장치(100) 및 서버(200)의 동작을 설명하기 위한 도면이다. 전자 장치(100)는 카메라(110)를 통해 외부 장치(10)의 이미지를 촬영하여 외부 장치(10)에 대한 정보를 획득할 수 있다.
외부 장치(10)에 대한 정보는 외부 장치(10)의 이미지(또는, 이미지를 CNN(Convolutional Neural Network) 등 인공 지능 모델에 입력하여 획득된 외부 장치(10)의 특징 데이터(예를 들어, 특징 맵(feature map))를 포함할 수 있다. 또한, 외부 장치(10)에 대한 정보는 외부 장치(10)의 이미지를 통해 획득된 외부 장치(10)에 식별 데이터(예를 들어, 제품명, 제품 번호, 제조사, 연식 등)를 포함할 수 있다. 구체적으로, 전자 장치(100)는 외부 장치(10)의 이미지에 포함된 바코드, QR 코드 등을 통해 외부 장치(10)의 식별 데이터를 획득할 수 있다. 한편, 도 1에는 외부 장치(10)가 에어컨으로 구현되어 있으나 이는 일 실시예에 불과하며, 외부 장치(10)는 다양한 기기로 구현될 수 있다.
한편, 외부 장치(10)에 대한 정보를 획득하는 동안 마이크(120)를 통해 외부 장치(10)에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성(예를 들어, '에어컨 필터 교체 방법 알려줘')(20)이 입력되면, 전자 장치(100)는 입력된 사용자 음성(20) 및 외부 장치(10)에 대한 정보를 서버(200)에 전송할 수 있다.
사용자 음성과 외부 장치(10)에 대한 정보를 수신하면, 서버(200)는 외부 장치에 대한 정보를 바탕으로 외부 장치와 관련된 장치를 식별할 수 있다.
본 개시의 일 실시예로, 서버(200)는 전자 장치(100)로부터 수신된 외형 인식 모델에 외부 장치(10)에 대한 이미지 또는 외부 장치(10)의 특징 데이터를 입력하여 기저장된 장치와 외부 장치(10)간의 외형 유사도 값을 획득할 수 있다. 외형 유사도 값은 외부 장치(10)의 특징 데이터와 기저장된 장치의 특징 데이터 간의 유사도를 수치로 출력한 값이다. 서버(200)는 외형 유사도 값이 임계값을 초과하는 장치를 외부 장치(10)와 관련된 장치로 식별할 수 있다. 그리고, 서버(200)는 기저장된 컨텐츠 중 식별된 외부 장치(10)와 관련된 장치에 대한 컨텐츠를 식별하여 획득할 수 있다. 외부 장치(10)와 외형 유사도 값이 임계값을 초과하는 외부 장치(10)와 관련된 장치는 복수 개일 수 있다. 다만, 이는 실시예에 불과하며, 서버(200)는 외부 장치(10)와 외형 유사도 값이 가장 높은 장치를 외부 장치(10)와 관련된 장치로 식별할 수 있다.
한편, 본 개시의 또 다른 실시예로, 서버(200)는 전자 장치(100)로부터 수신된 외부 장치(10)에 대한 식별 데이터를 이용하여 외부 장치(10)와 관련된 장치를 식별할 수 있다. 즉, 서버(200)는 외부 장치(10)의 식별 데이터 중 제품명, 제품 번호, 제조사, 연식 중 적어도 하나 또는 순차적으로 비교 또는 매칭하여 외부 장치(10)와 관련된 장치를 식별할 수 있다. 예를 들면, 외부 장치(10)의 연식이 2018년 식이고, 제조사가 S사이고, 제품명이 에어컨인 경우, 서버(200)는 기저장된 장치 중 연식이 2018년식이고 제조사가 S사이고 제품명인 에어컨인 장치를 외부 장치(10)와 관련된 장치로 식별할 수 있다. 또 다른 예로, 서버(200)는 외부 장치(10)의 제품 번호와 가장 오차가 적은 번호를 가진 장치를 외부 장치(10)와 관련된 장치로 식별할 수 있다.
한편, 서버(200)는 식별된 외부 장치와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다. 구체적으로, 외부 장치와 관련된 장치를 식별하는 동안, 서버(200)는 외부 장치(10)에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성을 제2 대화 시스템에 입력하여 사용자 음성의 의미를 파악할 수 있다. 그리고, 서버(200)는 획득된 외부 장치(10)와 관련된 장치에 대한 컨텐츠 중 외부 장치에 대한 문제를 해결할 수 있는 해결 정보와 관련된 컨텐츠를 검색하여 획득할 수 있다. 외부 장치(10)와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠는 외부 장치(10)와 관련된 장치의 매뉴얼(Manual), 외부 장치(10)와 관련된 장치에 대한 가이드 영상 컨텐츠 중 해결 정보와 관련된 영상 컨텐츠 및 해결 정보와 관련된 영상 컨텐츠의 자막 중 적어도 하나를 포함할 수 있다. 그리고, 서버(200)는 해결 정보와 관련된 컨텐츠를 전자 장치(100)에 전송할 수 있다. 매뉴얼(또는, 사용 설명서)은 외부 장치(10)와 관련된 장치의 스펙(specification), 사용 방법 등이 포함된 텍스트일 수 있으나 이는 일 실시예에 불과하며, 외부 장치(10)와 관련된 장치에 대한 영상, 이미지 등이 더 포함될 수 있다.
서버(200)로부터 해결 정보와 관련된 컨텐츠를 수신하면, 전자 장치(100)는 촬영된 이미지와 함께 해결 정보와 관련된 컨텐츠를 제공할 수 있다. 예를 들면, 도 1에 도시된 바와 같이, 전자 장치(100)는 외부 장치(10)의 촬영된 이미지 상에 매뉴얼 중 해결 정보에 대응되는 텍스트(30) 또는 해결 정보와 관련된 영상 컨텐츠를 시청할 수 있는 하이퍼 링크(Hyper Link)(40)를 표시할 수 있다.
구체적으로, 전자 장치(100)는 사용자 음성을 제1 대화 시스템에 입력하여 사용자 음성의 의도를 파악할 수 있다. 한편, 전자 장치(100)는 서버(200)로부터 해결 정보와 관련된 컨텐츠를 수신하였을 때 사용자 음성의 의도를 파악할 수 있으나 이는 일 실시예에 불과하며 사용자 음성이 마이크(120)를 통해 입력될 때 또는 입력되고 나서 임계 시간 후에 제1 대화 시스템을 통해 사용자 음성의 의도를 파악할 수 있다.
그리고, 전자 장치(100)는 외부 장치와 관련된 장치의 매뉴얼 중 해결 정보에 대응되는 텍스트를 획득할 수 있다. 예를 들어, 에어컨 필터 교체 방법을 알려달라는 사용자 음성(20)이 입력된 경우, 전자 장치(100)는 사용자 음성을 제1 대화 시스템에 입력하여 사용자가 에어컨 필터의 교체 방법에 대한 정보를 요청하고 있음을 식별할 수 있다. 그리고, 전자 장치(100)는 매뉴얼 중 에어컨 필터의 교체와 관련된 텍스트를 검색하여 획득할 수 있다.
그리고, 전자 장치(100)는 획득된 텍스트를 바탕으로 외부 장치(10)에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하는지 여부를 식별할 수 있다. 구체적으로, 전자 장치(100)는 획득된 텍스트를 분석하여 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역 또는 위치를 식별할 수 있다. 예를 들어, 전자 장치(100)는 획득된 텍스트 중 에어컨 필터의 위치에 대한 텍스트(예를 들어, '우측 하단에 위치한 필터를 꺼낸다')를 제1 대화 시스템을 통해 언어 분석하여 필터가 외부 장치(10)와 관련된 장치 상에 위치하는 영역 또는 위치를 식별할 수 있다.
그리고, 필터가 외부 장치(10)와 관련된 장치 중 우측 하단 영역에 위치한다고 식별된 경우, 전자 장치(100)는 외부 장치(10)의 우측 하단 영역에 필터가 존재한다고 추정할 수 있다. 그리고, 전자 장치(100)는 카메라(110)를 통해 획득된 외부 장치(10)에 대한 이미지 상에 외부 장치(10)의 우측 하단 영역이 표시되는지 여부를 식별할 수 있다.
카메라(110)를 통해 획득된 외부 장치(10)에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하지 않는다고 식별되면, 전자 장치(100)는 외부 장치(10) 중 해결 정보에 대응되는 영역을 촬영하라는 메시지를 제공할 수 있다. 예를 들어, 카메라(110)를 통해 획득된 외부 장치(10)에 대한 이미지 상에 외부 장치(10)의 우측 하단 영역이 표시되어 있지 않다고 식별되면, 전자 장치(100)는 외부 장치(10) 중 우측 하단 영역을 촬영하라는 메시지를 제공할 수 있다.
한편, 외부 장치(10)에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재한다고 식별되면, 전자 장치(100)는 식별된 영역 상에 해결 정보에 대응되는 텍스트(30)를 표시할 수 있다. 예를 들면, 도 1에 도시된 바와 같이, 전자 장치(100)는 매뉴얼 중 에어컨 필터의 교체와 관련된 텍스트를 에어컨의 이미지의 우측 하단 상에 표시할 수 있다.
그리고, 외부 장치(10)에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재한다고 식별되면, 전자 장치(100)는 해결 정보와 관련된 영상 컨텐츠의 자막 중 해결 정보에 대응되는 텍스트와 관련된 자막을 획득할 수 있다. 예를 들어, 전자 장치(100)는 영상 컨텐츠의 자막 중 에어컨 필터의 교체와 관련된 자막을 획득할 수 있다. 그리고, 전자 장치(100)는 획득된 자막이 영상 컨텐츠 상에서 표시되는 시점(예를 들어, 영상 재생 시작 시점을 기준으로 1분 20초부터 2분 30초까지 등)을 식별할 수 있다. 그리고, 일 실시예로, 전자 장치(100)는 영상 컨텐츠 중 식별된 시점에 대응되는 영상 컨텐츠를 추출하여 획득할 수 있다. 또 다른 실시예로, 전자 장치(100)는 식별된 시점 중 시작 시점(예를 들어, 영상 재생 시작 시점을 기준으로 1분 20초)부터 영상 컨텐츠가 재생될 수 있도록 영상 컨텐츠의 상황 진행 바를 제어할 수 있다.
그리고, 전자 장치(100)는 외부 장치(10)에 대한 이미지 중 해결 정보에 대응되는 영역 상에 영상 컨텐츠 중 추출된 영상 컨텐츠 또는 식별된 시점부터 재생되는 영상 컨텐츠를 시청할 수 있는 GUI(Graphic User Interface) 또는 하이퍼 링크(Hyper Link) 중 적어도 하나를 표시할 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 전자 장치(100)는 식별된 시점에 대응되는 영상 컨텐츠를 시청하기 위하여 '솔루션 비디오'라는 텍스트로 구현된 하이퍼 링크(40)를 표시할 수 있다. 그리고, GUI 또는 하이퍼 링크 중 적어도 하나가 선택(예를 들어, 사용자 터치 또는 사용자 음성을 통해 선택)되면, 전자 장치(100)는 식별된 시점에 대응되는 영상 컨텐츠를 외부 장치의 이미지의 일 영역 상에 표시할 수 있다. 전자 장치(100)는 식별된 시점에 대응되는 영상 컨텐츠를 외부 장치(10)의 이미지 중 해결 정보에 대응되는 영역 상(예를 들어, 우측 하단)에 표시할 수 있으나 이는 일 실시예에 불과하며 배경 화면 또는 디스플레이(170) 전체 영역에 표시될 수 있다.
도 2는 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 상세히 도시한 블록도이다. 도 2에 도시된 바와 같이, 전자 장치(100)는 카메라(110), 마이크(120), 통신부(130), 프로세서(140), 디스플레이(150), 메모리(160), 입력부(170) 및 스피커(180)를 포함할 수 있다. 다만, 도 2에 도시된 구성은 본 개시의 실시예들을 구현하기 위한 예시도이며, 통상의 기술자에게 자명한 수준의 적절한 하드웨어 및 소프트웨어 구성들이 전자 장치(100)에 추가적으로 포함될 수 있다.
카메라(110)는 전자 장치(100)의 주변을 촬영하기 위한 구성이다. 특히, 카메라(110)는 전자 장치(100)의 주변에 위치한 외부 장치를 촬영하여 외부 장치의 이미지를 획득할 수 있다. 카메라(110)는 RGB-D 카메라, 3D-카메라, 적외선 카메라 등 전자 장치(100)의 유형에 따라 다양하게 구현될 수 있다.
마이크(120)는 사용자 음성을 입력받을 수 있다. 특히, 마이크(120)는 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력받을 수 있다. 또한, 마이크(120)는 해결 정보뿐만 아니라 다양한 사용자 질의를 입력받을 수 있다.
한편, 마이크(120)는 전자 장치(100) 내부에 구비될 수 있으나, 외부에 구비되어 전자 장치(100)와 전기적으로 연결될 수 있다. 또한, 마이크(120)가 외부에 구비된 경우, 마이크(120)는 유/무선 인터페이스(예를 들어, Wi-Fi, 블루투스)을 통해 생성된 사용자 음성 신호를 프로세서(140)에 전송할 수 있다.
통신부(130)는 외부 장치 또는 서버와 통신을 수행하기 위해 다양한 통신 모듈을 포함할 수 있다. 일 예로, 통신부(170)는 무선 통신 모듈을 포함할 수 있으며, 예를 들면, LTE, LTE-A(LTE Advance), 5G(5
th Generation) CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신 모듈을 포함할 수 있다. 또 다른 예로, 무선 통신 모듈은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다.
특히, 통신부(130)를 통해 사용자 음성 및 외부 장치에 대한 정보를 서버에 전송할 수 있다. 또한, 통신부(130)는 외부 장치와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠를 수신할 수 있다.
프로세서(140)는 메모리(160)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(140)는 카메라(110)를 통해 외부 장치의 이미지를 촬영하여 외부 장치에 대한 정보를 획득할 수 있다. 외부 장치에 대한 정보는 외부 장치의 이미지 또는 외부 장치의 이미지를 통해 획득된 특징 데이터를 포함할 수 있다. 또한, 외부 장치에 대한 정보는 외부 장치의 이미지를 통해 획득된 외부 장치의 식별 데이터(예를 들어, 외부 장치의 제조사, 제품명, 연식, 제조 번호 등)를 포함할 수 있다. 구체적으로, 전자 장치(100)는 외부 장치에 대한 이미지 상에 포함된 외부 장치의 바코드, QR 코드, 제조사 상표 등을 통해 외부 장치의 식별 데이터를 획득할 수 있다.
그리고, 외부 장치에 대한 정보를 획득하는 동안 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력되면, 프로세서(140)는 입력된 사용자 음성 및 외부 장치에 대한 정보를 서버(200)에 전송하도록 통신부(130)를 제어할 수 있다.
그리고, 프로세서(140)는 서버(200)로부터 외부 장치와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠를 통신부(130)를 통해 수신할 수 있다. 해결 정보와 관련된 컨텐츠는 외부 장치와 관련된 장치의 매뉴얼, 외부 장치와 관련된 장치에 대한 가이드 영상 컨텐츠 중 해결 정보와 관련된 영상 컨텐츠 및 해결 정보와 관련된 영상 컨텐츠의 자막 중 적어도 하나를 포함할 수 있다.
한편, 프로세서(140)는 매뉴얼 중 해결 정보에 대응되는 텍스트를 획득하고, 획득된 텍스트를 바탕으로 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하는지 여부를 식별할 수 있다. 구체적으로, 프로세서(140)는 마이크(120)를 통해 입력된 사용자 음성을 메모리(160)에 저장된 제1 대화 시스템에 입력하여 사용자 음성의 의도를 파악할 수 있다. 그리고, 프로세서(140)는 외부 장치(10)와 관련된 매뉴얼 중 해결 정보와 관련된 텍스트를 검색하여 획득할 수 있다.
그리고, 프로세서(140)는 획득된 텍스트를 분석하여 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역 또는 위치를 식별할 수 있다. 그리고, 프로세서(140)는 외부 장치와 관련된 장치를 통해 식별된 영역 또는 위치를 외부 장치 중 해결 정보에 대응되는 영역 또는 위치로 식별할 수 있다. 예를 들어, 외부 장치와 관련된 장치 중 해결 정보와 관련된 영역이 외부 장치와 관련된 장치의 우측 하단 영역이라고 식별되면, 프로세서(140)는 외부 장치 중 해결 정보와 관련된 영역을 외부 장치의 우측 하단 영역이라고 식별할 수 있다. 그리고, 프로세서(140)는 카메라(110)를 통해 획득된 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하는지 여부를 식별할 수 있다.
그리고, 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하지 않는다고 식별되면, 프로세서(140)는 외부 장치 중 해결 정보에 대응되는 영역을 촬영하라는 메시지를 제공할 수 있다. 구체적으로, 프로세서(140)는 메시지를 표시하도록 디스플레이(150)를 제어하거나, 메시지를 음성 형태로 출력하도록 스피커(180)를 제어할 수 있다. 한편, 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재한다고 식별되면, 프로세서(140)는 영역 상에 해결 정보와 관련된 텍스트를 표시하도록 디스플레이(150)를 제어할 수 있다.
한편, 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재한다고 식별되면, 프로세서(140)는 해결 정보와 관련된 영상 컨텐츠의 자막 중 획득된 텍스트와 관련된 자막을 획득할 수 있다. 그리고, 프로세서(140)는 획득된 자막이 영상 컨텐츠에 상에 표시되는 시점을 식별하고, 영상 컨텐츠 중 식별된 시점에 대응되는 영상 컨텐츠를 추출할 수 있다. 그리고, 프로세서(140)는 외부 장치에 대한 이미지 중 해결 정보에 대응되는 영역 상에 식별된 시점에 대응되는 영상 컨텐츠를 시청하기 위한 GUI 또는 하이퍼 링크 중 적어도 하나를 표시하도록 디스플레이(150)를 제어할 수 있다. GUI 또는 하이퍼 링크 중 적어도 하나가 선택되면, 프로세서(140)는 시점에 대응되는 영상 컨텐츠를 외부 장치의 이미지의 일 영역 상에 표시하도록 디스플레이(150)를 제어할 수 있다.
한편, 본 개시에 따른 인공지능과 관련된 기능은 프로세서(140)와 메모리(160)를 통해 동작된다.
프로세서(140)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서(140)는 CPU(Central Processing Unit), AP(Application Processor) 등과 같은 범용 프로세서, GPU(graphics-processing Unit), VPU (Visual Processing Unit) 등과 같은 그래픽 전용 프로세서 또는 NPU(Neural Processing Unit)와 같은 인공지능 전용 프로세서일 수 있다.
하나 또는 복수의 프로세서는, 메모리(160)에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.
여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks)이 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
디스플레이(150)는 프로세서(140) 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(150)는 카메라(110)를 통해 촬영된 외부 장치에 대한 이미지를 표시할 수 있다. 또한, 프로세서(150)는 프로세서(140) 제어에 의해 외부 장치에 대한 이미지 상에 해결 정보와 관련된 컨텐츠를 표시할 수 있다. 그리고, 프로세서(150)는 외부 장치 중 해결 정보에 대응되는 영역을 촬영하라는 메시지를 표시할 수 있다.
그리고, 디스플레이(150)는 터치 패널과 함께 터치 스크린으로 구현될 수 있으나 이는 일 실시예에 불과하며 전자 장치(100)의 유형에 따라 다양하게 구현될 수 있다.
메모리(160)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 특히, 메모리(160)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(160)는 프로세서(140)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(160), 프로세서(140) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(160)에는 디스플레이의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.
특히, 메모리(160)는 제1 대화 시스템(Dialogue System)을 저장할 수 있다. 대화 시스템(Dialogue system)은 마이크(110)를 통해 입력된 사용자 음성에 대해 음성 인식 및 언어 분석을 수행하여 응답을 제공하는 인공 지능 모델(Artificial Intelligence Model)을 포함할 수 있다. 제1 대화 시스템은 다양한 소프트웨어 모듈을 포함할 수 있으며 각 소프트웨어 모듈은 프로세서(140)에 의해 제어될 수 있다. 제1 대화 시스템에는 ASR(Automatic Speech Recognition) 모듈, NLU(Natural Language Understanding) 모듈, DM(Dialogue Manager) 모듈, NLG(Natural Language Generator) 모듈, TTS(Text-to-Speech) 모듈 및 지식 베이스(Knowledge Database)를 포함할 수 있다.
한편, 메모리(160)는 외부 장치에 대한 이미지를 이용하여 외부 장치의 특징 데이터를 출력하는 인공 지능 모델인 제1 외형 인식 모델을 저장할 수 있다. 제1 외형 인식 모델은 벡터 또는 행렬 형태로 구현된 외부 장치의 특징 데이터를 출력할 수 있다.
입력부(170)는 전자 장치(100)를 제어하기 위한 사용자 입력을 수신할 수 있다. 특히, 입력부(170)는 사용자 손 또는 스타일러스 펜 등을 이용한 사용자 터치를 입력받기 위한 터치 패널, 사용자 조작을 입력받기 위한 버튼 등이 포함될 수 있다. 그 밖에, 입력부(170)는 다른 입력 장치(예로, 키보드, 마우스, 모션 입력부 등)로 구현될 수 있다. 특히, 입력부(170)는 영상 컨텐츠를 표시하기 위한 하이퍼 링크 또는 GUI 중 적어도 하나를 선택하는 사용자 터치를 입력받을 수 있다.
스피커(180)는 오디오 처리부에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 스피커(180)는 제1 대화 시스템을 통해 획득된 사용자 음성에 대한 응답을 자연어 형태의 음성 메시지로 출력할 수 있다. 그리고, 스피커(180)는 외부 장치 중 해결 정보에 대응되는 영역을 촬영하라는 메시지를 음성 형태로 출력할 수 있다. 한편, 오디오를 출력하기 위한 구성은 스피커로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.
도 3은 본 개시의 일 실시예예 따른, 서버(200)의 구성을 간략히 도시한 블록도이다. 도 3에 도시된 바와 같이, 서버(200)는 통신부(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다.
통신부(210)는 전자 장치(100) 또는 외부 장치와 통신을 수행할 수 있는 구성으로 다양한 통신 모듈을 포함할 수 있다. 다양한 통신 모듈은 도 2를 참조하여 설명하였으므로 중복되는 설명은 생략하도록 한다.
메모리(220)는 서버(200)의 적어도 하나의 다른 구성 요소에 관계된 명령 또는 데이터를 저장할 수 있다. 그리고, 메모리(220)는 플래시 메모리 등 다양하게 구현될 수 있으며 구체적인 실시예는 도 2를 참조하여 설명하였으므로 중복되는 설명은 생략하도록 한다.
그리고, 메모리(220)는 제2 대화 시스템을 저장할 수 있다. 제2 대화 시스템은 제1 대화 시스템과 같이 프로세서(230)에 의해 제어되는 다양한 소프트웨어 모듈(예를 들어, ASR 모듈, NLU 모듈, DM 모듈, TTS 모듈 등)을 포함할 수 있다. 다만, 제2 대화 시스템에 저장된 학습 데이터 량은 제1 대화 시스템에 저장된 학습 데이터량보다 많을 수 있다. 많은 양의 학습 데이터를 사용하여 학습된 인공지능 모델은 상대적으로 적은 양의 학습 데이터를 사용하여 학습된 인공지능 모델에 비해, 동일한 입력 음성에 대해 높은 신뢰도를 갖는 음성 인식 결과 및 언어 분석 결과를 출력할 수 있다.
그리고, 메모리(220)는 기저장된 장치와 외부 장치간에 외형 유사도 값을 출력하는 인공 지능 모델인 제2 외형 인식 모델을 저장할 수 있다. 제2 외형 인식 모델은 외부 장치에 대한 이미지의 특징 데이터를 추출할 수 있다. 그리고, 제2 외형 인식 모델은 추출한 특징 데이터와 기저장된 장치에 대한 이미지의 특징 데이터를 비교하여 외형 유사도 값을 출력할 수 있다. 제2 외형 인식 모델은 제1 외형 인식 모델보다 학습 데이터량이 많을 수 있으므로 보다 정확한 외형 유사도 값을 출력할 수 있다.
그리고, 메모리(220)는 기저장된 장치에 대한 질문 및 각 질문에 대응되는 컨텐츠를 포함된 FAQ(Frequently Asked Question) 데이터 베이스를 저장할 수 있다. FAQ 데이터 베이스에는 각종 장치에 대한 FAQ 및 각 FAQ를 해결하기 위한 해결 정보와 관련된 컨텐츠가 기저장될 수 있다.
프로세서(230)는 메모리(220)와 전기적으로 연결되어 서버(200)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(230)는 전자 장치로부터 외부 장치(100)에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 외부 장치에 대한 정보를 통신부(210)를 통해 수신할 수 있다.
그리고, 프로세서(230)는 외부 장치에 대한 정보를 바탕으로 외부 장치와 관련된 장치를 식별할 수 있다. 일 실시예로, 프로세서(230)는 외부 장치에 대한 이미지 또는 외부 장치의 특징 데이터를 외형 인식 모델에 입력하여 기저장된 장치와 외부 장치의 외형 유사도 값을 획득할 수 있다. 그리고, 프로세서(230)는 외형 유사도 값이 임계값을 초과하는 외부 장치를 외부 장치와 관련된 장치로 식별할 수 있다. 또한, 프로세서(230)는 외형 유사도 값이 가장 큰 외부 장치를 외부 장치와 관련된 장치로 식별할 수 있다.
또 다른 실시예로, 프로세서(230)는 외부 장치의 식별 데이터(예를 들어, 외부 장치의 제품명, 제조 번호, 제조 연식, 제조사 등)를 바탕으로 외부 장치와 관련된 장치를 식별할 수 있다. 예를 들면, 프로세서(230)는 기저장된 장치 중 외부 장치의 제품명, 제조 연식, 제조사가 동일한 장치를 외부 장치와 관련된 장치로 식별할 수 있다. 또 다른 예로, 프로세서(230)는 기저장된 장치의 제조 번호와 외부 장치의 제품 번호를 비교할 때 가장 오차가 작은 제품 번호를 가진 장치를 외부 장치와 관련된 장치로 식별할 수 있다.
그리고, 프로세서(230)는 식별된 외부 장치와 관련된 장치에 대한 기저장된 컨텐츠 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다. 구체적으로, 프로세서(230)는 사용자 음성을 제2 대화 시스템에 입력하여 사용자 음성의 의도를 파악할 수 있다. 그리고, 프로세서(230)는 기저장된 외부 장치와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다. 그리고, 프로세서(230)는 획득된 해결 정보와 관련된 컨텐츠를 전자 장치(100)에 전송하도록 통신부(210)를 제어할 수 있다. 이와 관련된 실시예는 도 4를 참조하여 구체적으로 설명하도록 한다.
도 4는 본 개시의 일 실시예에 따른, 서버(200) 또는 전자 장치(100)가 외부 장치와 관련된 장치의 해결 정보 컨텐츠를 획득하는 과정을 설명하기 위한 도면이다.
도 4에 도시된 바와 같이, 서버(200)는 전자 장치(100)로부터 수신된 사용자 음성을 제2 대화 시스템(420)에 입력하여 사용자 음성의 의도를 파악할 수 있다. 그리고, 서버(200)는 파악한 사용자의 의도를 바탕으로 FAQ DB(430)에 저장된 컨텐츠 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다. 구체적으로, FAQ DB(430)에는 각종 장치에 대한 FAQ 및 각 FAQ를 해결하기 위한 해결 정보와 관련된 컨텐츠가 기저장되어 있으며, 각 컨텐츠는 사용자 명령에 의해 추가/삭제/변경될 수 있다. 따라서, 서버(200)는 FAQ DB(430) 중 해결 정보와 관련된 FAQ를 식별하고, 식별된 FAQ를 해결하기 위한 해결 정보와 관련된 컨텐츠를 획득할 수 있다.
해결 정보와 관련된 컨텐츠를 획득하는 동안, 서버(200)는 외부 장치에 대한 정보(440)를 바탕으로 외부 장치와 외형이 유사한 장치를 식별할 수 있다. 구체적으로, 서버(200)는 외부 장치에 대한 정보(440)를 외형 인식 모델(450)에 입력하여 외부 장치와 기저장된 장치와의 외형 유사도 값을 획득할 수 있다. 구체적으로, 외형 인식 모델(450)은 외부 장치에 대한 이미지를 바탕으로 외부 장치의 특징 데이터를 출력할 수 있다. 그리고, 외형 인식 모델(450)은 외부 장치의 특징 데이터와 기저장된 장치의 특징 데이터를 매칭하여 유사도 값을 출력할 수 있다. 그리고, 서버(200)는 유사도 값이 임계값을 초과하는 장치를 외부 장치와 관련된 장치로 식별할 수 있다.
한편, 이는 일 실시예에 불과하며, 서버(200)는 외부 장치의 식별 데이터를 바탕으로 기저장된 장치 중 외부 장치와 관련된 장치를 식별할 수 있다.
그리고, 일 실시예로, 서버(200)는 FAQ DB(430)를 통해 획득된 해결 정보와 관련된 컨텐츠 중 외부 장치와 관련된 장치의 해결 정보 컨텐츠(460)를 획득할 수 있다.
한편, 또 다른 실시예로, 서버(200)는 식별된 외부 장치와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠를 식별하여 외부 장치와 관련된 장치의 해결 정보 컨텐츠(460)를 획득할 수 있다. 그리고, 서버(200)는 외부 장치와 관련된 장치의 해결 정보 컨텐츠(460)를 전자 장치(100)에 전송할 수 있다.
한편, 본 개시의 다른 실시예로, 전자 장치(100)는 메모리(160)에 저장된 제1 대화 시스템 및 제1 외형 인식 모델을 통해 외부 장치와 관련된 장치의 해결 정보 컨텐츠(460)를 획득할 수 있다. 즉, 도 4를 참조하여 전자 장치(100)는 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 외부 장치에 대한 정보를 서버(200)에 전송하므로써 외부 장치와 관련된 해결 정보 컨텐츠(460)를 획득하는 실시예를 기재하였으나 이는 일 실시예에 불과하다. 즉, 전자 장치(100)는 서버(200)에 사용자 음성 및 외부 장치에 대한 정보를 전송하지 않고 외부 장치와 관련된 장치의 해결 정보 컨텐츠(460)를 획득할 수 있다. 구체적으로, 전자 장치(100)는 서버(200)에 포함된 제2 대화 시스템 및 제2 외형 인식 모델과 동일 또는 유사한 기능을 수행하는 제1 대화 시스템 및 제1 외형 인식 모델을 포함하고 있으므로 도 4에 도시된 방식에 따라 전자 장치(100)는 외부 장치와 관련된 장치의 해결 정보 컨텐츠(460)를 획득할 수 있다. 전자 장치(100)의 메모리에도 FAQ 데이터 베이스가 저장될 수 있으며, FAQ 데이터 베이스는 서버(200) 상에 업데이트 된 데이터는 서버(200)로부터 수신될 수 있다.
도 5a 내지 도 5c는 본 개시의 일 실시예에 따른, 전자 장치가 외부 장치와 관련된 컨텐츠와 외부 장치의 이미지와 함께 제공하는 과정을 설명하기 위한 도면이다.
구체적으로, 전자 장치(100)는 외부 장치와 관련된 장치의 매뉴얼(500) 중 해결 정보에 대응되는 텍스트(520, 530)를 획득할 수 있다. 구체적으로, 전자 장치(100)는 사용자 음성(예를 들어, '에어컨 필터 방법 알려줘')을 제1 대화 시스템에 입력하여 사용자 음성의 의도를 파악할 수 있다. 그리고, 전자 장치(100)는 매뉴얼(500)에 포함된 텍스트 중 해결 정보에 대응되는 텍스트(520, 530)를 획득할 수 있다. 그리고, 전자 장치(100)는 획득된 텍스트(520,530)를 바탕으로 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역을 식별할 수 있다. 예를 들어, 도 5a에 도시된 바와 같이, 전자 장치(100)는 획득된 텍스트(520,530)를 분석하여 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역인 에어컨 필터가 존재하는 영역은 외부 장치의 우측 하단 영역임을 식별할 수 있다. 따라서, 전자 장치(100)는 외부 장치 중 해결 정보에 대응되는 영역 또는 위치를 외부 장치의 우측 하단 영역으로 식별할 수 있다.
한편, 또 다른 실시예로, 전자 장치(100)는 외부 장치와 관련된 장치의 스펙(specification)에 대한 정보를 포함하는 매뉴얼(510)의 텍스트(540)를 분석하여 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역 또는 위치를 식별할 수 있다.
그리고, 전자 장치(100)는 카메라(110)를 통해 획득된 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하는지 여부를 식별할 수 있다. 예를 들면, 도 5b에 도시된 바와 같이, 전자 장치(100)는 카메라(110)를 통해 획득된 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역(예를 들어, 에어컨 필터가 존재하는 우측 하단 영역)이 존재하는지 여부를 식별할 수 있다. 외부 장치에 대한 이미지 상에 외부 장치의 우측 하단 영역이 존재하지 않다고 식별되면, 전자 장치(100)는 외부 장치 중 해결 정보에 대응되는 영역을 촬영하라는 메시지(예를 들어, '우측 하단을 촬영해주세요')(550)를 표시할 수 있다.
일 실시예로, 전자 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재한다고 식별되면, 도 5c에 도시된 바와 같이 전자 장치(100)는 해결 정보에 대응되는 영역 상에 매뉴얼(500)을 통해 획득된 텍스트(560)를 표시할 수 있다. 한편, 또 다른 실시예로, 전자 장치(100)는 해결 정보에 대응되는 영역 상에 매뉴얼(500)을 통해 획득된 텍스트를 표시할 수 있는 아이콘, GUI 또는 하이퍼 링크 중 적어도 하나를 표시할 수 있다. 따라서, 아이콘, GUI 또는 하이퍼 링크 중 적어도 하나가 선택되면, 전자 장치(100)는 획득된 텍스트를 디스플레이(150)의 일 영역 상에 표시할 수 있다.
도 6a 및 도 6b는 본 개시의 일 실시예예 따른, 전자 장치(100)가 외부 장치와 관련된 컨텐츠와 외부 장치의 이미지와 함께 제공하는 과정을 설명하기 위한 도면이다.
전자 장치(100)는 해결 정보와 관련된 영상 컨텐츠의 자막(600-1.600-2.600-3 …) 중 매뉴얼(500)을 통해 획득된 텍스트와 관련된 자막을 획득할 수 있다. 예를 들면, 도 6a에 도시된 바와 같이, 전자 장치(100)는 해결 정보와 관련된 컨텐츠의 자막 중 해결 정보인 에어컨 필터와 관련된 자막(610)을 식별하여 획득할 수 있다. 그리고, 전자 장치(100)는 획득된 자막이 영상 컨텐츠 상에 표시되는 시점(예를 들어, 재생 시작 시점을 기준으로 0:50부터 1:20 까지)(620)을 식별할 수 있다. 그리고, 전자 장치(100)는 영상 컨텐츠 중 식별된 시점에 대응되는 영상 컨텐츠(630)만을 추출할 수 있다. 또 다른 실시예로, 전자 장치(100)는 영상 컨텐츠가 식별된 시점 중 시작 시점부터 재생되도록 영상 컨텐츠를 제어할 수 있다.
그리고, 전자 장치(100)는 외부 장치의 이미지 상에 해결 정보에 대응되는 영역 상에 영상 컨텐츠 중 식별된 시점에 대응되는 영상 컨텐츠를 시청하기 위한 GUI 또는 하이퍼 링크(640) 중 적어도 하나를 표시할 수 있다. 예를 들어, 도 6b에 도시된 바와 같이, 전자 장치(100)는 외부 장치에 대한 이미지 중 우측 하단 영역 상에 영상 컨텐츠 중 식별된 시점에 대응되는 영상 컨텐츠를 시청할 수 있는 하이퍼 링크(예를 들어, '솔루션 영상 제공'이라는 텍스트로 구현된 하이퍼 링크)(640)를 표시할 수 있다. 따라서, 하이퍼 링크(640)가 선택되면, 전자 장치(100)는 디스플레이(150)의 일 영역(650) 상에 추출된 영상 컨텐츠를 표시할 수 있다. 또 다른 예로, 전자 장치(100)는 디스플레이(150)의 일 영역(650) 상에 영상 컨텐츠 중 식별된 시점의 시작 시점부터 재생되도록 디스플레이(150)를 제어할 수 있다. 한편, 도 6b에는 추출된 영상 컨텐츠를 디스플레이(150)의 우측 하단 영역 상에 표시하는 것으로 도시되어 있으나 이는 일 실시예에 불과하며, 전자 장치(100)는 영상 컨텐츠를 디스플레이(150) 전체에 표시할 수도 있으며 영상 컨텐츠를 표시하는 영역은 사용자 명령에 의해 자유롭게 변경될 수도 있다.
도 7은 본 개시의 일 실시예에 따른, 전자 장치(100) 및 서버(200)의 동작을 설명하기 위한 시퀀스도이다.
우선, 전자 장치(100)는 외부 장치의 이미지를 촬영하여 외부 장치에 대한 정보를 획득할 수 있다(S710). 외부 장치에 대한 정보는 외부 장치에 대한 이미지 또는 외부 장치에 대한 특징 데이터를 포함할 수 있다. 외부 장치에 대한 특징 데이터는 외부 장치에 대한 이미지를 외형 인식 모델에 입력하여 획득된 특징 데이터로 벡터 또는 행렬의 형태로 구현될 수 있다.
그리고, 전자 장치(100)에 외부 장치에 대한 문제를 해결하기 위한 정보를 요청하는 사용자 음성이 입력될 수 있다(S720). 그리고, 전자 장치(100)는 사용자 음성을 제1 대화 시스템에 입력하여 사용자 음성에 포함된 해결 정보의 의미를 파악할 수 있다. 한편, 전자 장치(100)가 외부 장치에 대한 정보를 획득하는 단계(S710)와 사용자 음성을 입력받는 단계(S720)는 동시 또는 임계 오차 범위 시간 내에서 발생할 수 있다.
그리고, 전자 장치(100)는 서버(200)에 사용자 음성 및 외부 장치에 대한 정보를 전송할 수 있다(S730). 그리고, 서버(200)는 외부 장치에 대한 정보를 바탕으로 외부 장치와 관련된 장치를 식별할 수 있다(S740). 구체적으로, 서버(200)는 외부 장치에 대한 정보를 제2 외형 인식 모델에 입력하여 외부 장치에 대한 특징 데이터를 획득하고, 획득된 외부 장치의 특징 데이터와 기저장된 장치의 특징 데이터를 비교하여 외형 유사도 값을 획득할 수 있다. 그리고, 서버(200)는 외형 유사도 값이 임계값이 초과하는 장치를 외부 장치와 관련된 장치로 식별할 수 있다.
그리고, 서버(200)는 기저장된 외부 장치와 관련된 장치 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다(S750). 그리고, 서버(200)는 해결 정보와 관련된 컨텐츠를 전자 장치(100)에 전송할 수 있다(S760). 그리고, 전자 장치(100)는 해결 정보와 관련된 컨텐츠를 카메라(110)을 통해 획득된 외부 장치에 대한 이미지와 함께 제공할 수 있다(S770).
도 8은 본 개시의 일 실시예에 따른, 전자 장치(100)의 제어 방법을 설명하기 위한 순서도이다.
우선, 전자 장치(100)는 외부 장치의 이미지를 촬영하여 외부 장치에 대한 정보를 획득할 수 있다(S810). 그리고, 외부 장치에 대한 정보를 획득하는 동안 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력되면, 전자 장치(100)는 입력된 사용자 음성 및 외부 장치에 대한 정보를 서버(200)에 전송할 수 있다(S820). 한편, 사용자 음성이 입력되면, 전자 장치(100)는 사용자 음성에 포함된 해결 정보의 의미를 파악할 수 있다.
그리고, 전자 장치(100)는 서버(200)로부터 외부 장치와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠를 수신할 수 있다(S830). 해결 정보와 관련된 컨텐츠는 외부 장치와 관련된 장치의 매뉴얼, 외부 장치와 관련된 장치에 대한 가이드 영상 컨텐츠 중 해결 정보와 관련된 영상 컨텐츠 및 해결 정보와 관련된 영상 컨텐츠의 자막 중 적어도 하나를 포함할 수 있다. 한편, 또 다른 실시예로, 전자 장치(100)는 서버가 아닌 온 디바이스 상에서 외부 장치와 관련된 장치에 대한 컨텐츠 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다. 온 디바이스에서 컨텐츠를 획득하는 실시예는 도 4를 참조하여 구체적으로 설명하였으므로 중복되는 설명은 생략하도록 한다.
그리고, 전자 장치(100)는 해결 정보와 관련된 컨텐츠를 촬영된 외부 장치의 이미지와 함께 제공할 수 있다(S840).
구체적으로, 전자 장치(100)는 외부 장치와 관련된 매뉴얼 중 해결 정보에 대응되는 텍스트를 획득할 수 있다. 그리고, 전자 장치(100)는 텍스트를 분석하여 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하는지 여부를 식별할 수 있다. 한편, 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재하지 않는다고 식별되면, 전자 장치(100)는 외부 장치 중 해결 정보에 대응되는 영역을 촬영하라는 메시지 제공할 수 있다. 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재한다고 식별되면, 전자 장치(100)는 획득된 텍스트를 외부 장치에 대한 이미지 중 해결 정보에 대응되는 영역 상에 표시할 수 있다.
한편, 외부 장치에 대한 이미지 상에 해결 정보에 대응되는 영역이 존재한다고 식별되면, 전자 장치(100)는 영상 컨텐츠의 자막 중 획득된 텍스트와 관련된 자막을 획득할 수 있다. 그리고, 전자 장치(100)는 획득된 자막이 영상 컨텐츠 상에서 표시되는 시점을 식별하고, 영상 컨텐츠 중 식별된 시점에 대응되는 영상 컨텐츠를 추출할 수 있다. 그리고, 전자 장치(100)는 외부 장치에 대한 이미지 중 해결 정보에 대응되는 영역 상에 추출된 영상 컨텐츠를 시청하기 위한 GUI 또는 하이퍼 링크 중 적어도 하나를 표시할 수 있다. 따라서, GUI 또는 하이퍼 링크 중 적어도 하나가 선택되면, 전자 장치(100)는 추출된 영상 컨텐츠를 상기 외부 장치의 이미지의 일 영역 상에 표시할 수 있다.
도 9는 본 개시의 일 실시예에 따른, 서버의 제어 방법을 설명하기 위한 순서도이다.
우선, 서버(200)는 전자 장치로부터 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 외부 장치에 대한 정보를 수신할 수 있다(S910). 그리고, 서버(200)는 외부 장치에 대한 정보를 바탕으로 외부 장치와 관련된 장치를 식별할 수 있다(S920). 구체적으로, 서버(200)는 외부 장치에 대한 이미지를 외형 인식 모델이 입력하여 외부 장치의 특징 데이터를 획득할 수 있다. 그리고, 서버(200)는 외부 인식 모델을 통해 획득된 외부 장치의 특징 데이터와 기저장된 장치의 특징 데이터 간의 외형 유사도 값을 바탕으로 외부 장치와 관련된 장치를 식별할 수 있다. 또 다른 예로, 서버(200)는 외부 장치의 식별 데이터와 기저장된 장치의 식별 데이터를 비교 또는 매칭하여 외부 장치와 관련된 장치를 식별할 수 있다.
한편, 일 실시예로, 서버(200)는 식별된 외부 장치와 관련된 컨텐츠를 획득할 수 있다. 그리고, 서버(200)는 외부 장치와 관련된 장치를 식별하는 동안 사용자 음성을 제2 대화 시스템에 입력하여 사용자 음성에 포함된 해결 정보의 의미를 파악할 수 있다. 그리고, 서버(200)는 식별된 외부 장치와 관련된 컨텐츠 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다(S930).
한편, 또 다른 실시예로, 서버(200)는 제2 대화 시스템을 통해 파악한 해결 정보의 의미를 바탕으로 FAQ DB에 저장된 컨텐츠 중 해결 정보와 관련된 컨텐츠를 획득할 수 있다. 구체적으로, FAQ DB에는 각종 장치에 대한 FAQ 및 각 FAQ를 해결하기 위한 해결 정보와 관련된 컨텐츠가 기저장되어 있다. 따라서, 서버(200)는 FAQ DB에 기저장된 FAQ 중 파악한 해결 정보의 의미와 관련된 FAQ를 식별할 수 있다. 그리고, 서버(200)는 식별된 FAQ 에 대응되는 해결 정보와 관련된 컨텐츠를 획득할 수 있다. 그리고, 서버(200)는 획득된 해결 정보와 관련된 컨텐츠 중 식별된 외부 장치와 관련된 장치의 컨텐츠를 획득할 수 있다.
그리고, 서버(200)는 해결 정보와 관련된 컨텐츠를 전자 장치(100)에 전송할 수 있다(S940).
한편, 본 개시의 다른 실시예에 따른, 전자 장치(100)는 서버(200)로부터 수신된 외부 장치와 관련된 장치에 대한 매뉴얼 및 가이드 영상 컨텐츠 중 해결 정보와 관련된 영상 컨텐츠를 통해 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역 또는 위치를 식별할 수 있다. 그리고, 전자 장치(100)는 식별된 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역 또는 위치를 바탕으로 외부 장치 중 해결 정보에 대응되는 영역 또는 위치를 식별할 수 있다. 예를 들어, 외부 장치와 관련된 장치 중 해결 정보(예를 들어, 필터 교체 방법을 요청하는 사용자 음성이 입력되면, 해결 정보는 필터 교체하는 방법일 수 있다.)에 대응되는 영역이 우측 하단 영역이라고 식별하면, 전자 장치(100)는 외부 장치 중 해결 정보에 대응되는 영역 역시 우측 하단 영역이라고 식별할 수 있다.
그리고, 전자 장치(100)는 외부 장치와 관련된 장치 및 외부 장치의 식별된 영역 또는 위치를 비교하여 차이점을 식별할 수 있다. 또는, 전자 장치(100)는 외부 장치와 관련된 장치의 매뉴얼 중 해결 정보에 대응되는 텍스트 또는 이미지를 바탕으로 외부 장치와 관련된 장치 및 외부 장치 중 해결 정보에 대응되는 각각의 영역을 비교하여 차이점을 식별할 수 있다. 예를 들어, 외부 장치와 관련된 장치 중 해결 정보에 대응되는 영역이 우측 하단인 경우, 전자 장치(100)는 외부 장치와 관련된 장치 및 외부 장치의 우측 하단 영역의 부품(또는, component)의 외형을 제1 외형 인식 모델을 통해 비교하여 차이점을 식별할 수 있다.
그리고, 전자 장치(100)는 식별된 차이점을 바탕으로 메모리(160)에 저장된 생성 모델(Generative Model)을 통해 해결 정보와 관련된 영상 컨텐츠를 획득할 수 있다. 즉, 전자 장치(100)는 식별된 차이점이 반영된 외부 장치와 관련된 장치의 해결 정보와 관련된 영상 컨텐츠를 획득할 수 있다. 구체적으로, 외부 장치와 관련된 장치와 외부 장치 각각의 하단 영역의 부품간에 외형 차이가 식별되면, 전자 장치(100)는 해결 정보와 관련된 영상 컨텐츠 중 외부 장치와 관련된 장치의 하단 영역의 부품 외형을 식별된 차이점이 반영되도록 영상 컨텐츠를 변경할 수 있다.
따라서, 해결 정보와 관련된 영상 컨텐츠를 시청할 수 있는 GUI 또는 하이퍼 링크가 선택되면, 전자 장치(100)는 변경된 변경된 영상 컨텐츠를 디스플레이(150)의 일 영역 상 또는 전체 영역에 표시할 수 있다.
한편, 본 개시에 첨부된 도면은 본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 개시의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 서버, PDA, 의료기기, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 어떤 실시 예들에서, 전자 장치는, 예를 들면, 텔레비전, 냉장고, 에어컨, 공기 청정기, 셋톱 박스, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM) 중 적어도 하나를 포함할 수 있다.
한편, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다
본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시 예에 따르면, 본 개시에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예를 들어, 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
Claims (15)
- 전자 장치에 있어서,카메라;마이크;디스플레이;회로를 포함하는 통신부;메모리; 및상기 카메라를 통해 외부 장치의 이미지를 촬영하여 상기 외부 장치에 대한 정보를 획득하고,상기 외부 장치에 대한 정보를 획득하는 동안 상기 마이크를 통해 상기 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력되면, 상기 입력된 사용자 음성 및 상기 외부 장치에 대한 정보를 서버에 전송하도록 상기 통신부를 제어하며,상기 서버로부터 상기 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 상기 통신부를 통해 수신하고,상기 해결 정보와 관련된 컨텐츠를 상기 촬영된 이미지와 함께 제공하도록 상기 디스플레이를 제어하는 프로세서;를 포함하는 전자 장치.
- 제1항에 있어서,상기 해결 정보와 관련된 컨텐츠는,상기 외부 장치와 관련된 장치의 매뉴얼, 상기 외부 장치와 관련된 장치에 대한 가이드 영상 컨텐츠 중 상기 해결 정보와 관련된 영상 컨텐츠 및 상기 해결 정보와 관련된 영상 컨텐츠의 자막 중 적어도 하나를 포함하는 것을 특징으로 하는 전자 장치.
- 제2항에 있어서,상기 프로세서는,상기 매뉴얼 중 상기 해결 정보에 대응되는 텍스트를 획득하고,상기 획득된 텍스트를 바탕으로 상기 외부 장치에 대한 이미지 상에 상기 해결 정보에 대응되는 영역이 존재하는지 여부를 식별하는 전자 장치.
- 제3항에 있어서,상기 프로세서는,상기 전자 장치에 대한 이미지 상에 상기 해결 정보에 대응되는 영역이 존재한다고 식별되면, 상기 영역 상에 상기 해결 정보에 대응되는 텍스트를 표시하도록 상기 디스플레이를 제어하는 전자 장치.
- 제3항에 있어서,상기 프로세서는,상기 외부 장치에 대한 이미지 상에 상기 해결 정보에 대응되는 영역이 존재한다고 식별되면, 상기 영상 컨텐츠의 자막 중 상기 획득된 텍스트와 관련된 자막을 획득하고,상기 획득된 자막이 상기 영상 컨텐츠 상에서 표시되는 시점을 식별하는 전자 장치.
- 제5항에 있어서,상기 프로세서는,상기 영역 상에 상기 영상 컨텐츠 중 상기 시점에 대응되는 영상 컨텐츠를 시청하기 위한 GUI(Graphic User Interface) 또는 하이퍼 링크(Hyper Link) 중 적어도 하나를 표시하도록 상기 디스플레이를 제어하는 전자 장치.
- 제6항에 있어서,상기 프로세서는,상기 GUI 또는 상기 하이퍼 링크 중 적어도 하나가 선택되면, 상기 시점에 대응되는 영상 컨텐츠를 상기 외부 장치의 이미지의 일 영역 상에 표시하도록 상기 디스플레이를 제어하는 전자 장치.
- 제3항에 있어서,상기 프로세서는,상기 외부 장치에 대한 이미지 상에 상기 해결 정보에 대응되는 영역이 존재하지 않는다고 식별되면, 상기 외부 장치 중 상기 해결 정보에 대응되는 영역을 촬영하라는 메시지 제공하는 전자 장치.
- 서버에 있어서,회로를 포함하는 통신부;메모리; 및전자 장치로부터 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성 및 상기 외부 장치에 대한 정보를 상기 통신부를 통해 수신하고,상기 외부 장치에 대한 정보를 바탕으로 상기 외부 장치와 관련된 장치를 식별하고,상기 식별된 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 획득하고,상기 해결 정보와 관련된 컨텐츠를 상기 전자 장치에 전송하도록 상기 통신부를 제어하는 프로세서;를 포함하는 전자 장치.
- 전자 장치의 제어 방법에 있어서,카메라를 통해 외부 장치의 이미지를 촬영하여 상기 외부 장치에 대한 정보를 획득하는 단계;상기 외부 장치에 대한 정보를 획득하는 동안 상기 마이크를 통해 상기 외부 장치에 대한 문제를 해결하기 위한 해결 정보를 요청하는 사용자 음성이 입력되면, 상기 입력된 사용자 음성 및 상기 외부 장치에 대한 정보를 서버에 전송하는 단계;상기 서버로부터 상기 외부 장치와 관련된 장치에 대한 컨텐츠 중 상기 해결 정보와 관련된 컨텐츠를 수신하는 단계; 및상기 해결 정보와 관련된 컨텐츠를 상기 촬영된 이미지와 함께 제공하는 단계;를 포함하는 전자 장치의 제어 방법.
- 제10항에 있어서,상기 해결 정보와 관련된 컨텐츠는,상기 외부 장치와 관련된 장치의 매뉴얼, 상기 외부 장치와 관련된 장치에 대한 가이드 영상 컨텐츠 중 상기 해결 정보와 관련된 영상 컨텐츠 및 상기 해결 정보와 관련된 영상 컨텐츠의 자막 중 적어도 하나를 포함하는 것을 특징으로 하는 전자 장치의 제어 방법.
- 제11항에 있어서,상기 제공하는 단계는,상기 매뉴얼 중 상기 해결 정보에 대응되는 텍스트를 획득하는 단계; 및상기 획득된 텍스트를 바탕으로 상기 외부 장치에 대한 이미지 상에 상기 해결 정보에 대응되는 영역이 존재하는지 여부를 식별하는 단계;를 포함하는 전자 장치의 제어 방법.
- 제12항에 있어서,상기 제공하는 단계는,상기 전자 장치에 대한 이미지 상에 상기 해결 정보에 대응되는 영역이 존재한다고 식별되면, 상기 영역 상에 상기 해결 정보에 대응되는 텍스트를 표시하는 단계;를 포함하는 전자 장치의 제어 방법.
- 제12항에 있어서,상기 제공하는 단계는,상기 외부 장치에 대한 이미지 상에 상기 해결 정보에 대응되는 영역이 존재한다고 식별되면, 상기 영상 컨텐츠의 자막 중 상기 획득된 텍스트와 관련된 자막을 획득하는 단계; 및상기 획득된 자막이 상기 영상 컨텐츠 상에서 표시되는 시점을 식별하는 단계;를 포함하는 전자 장치의 제어 방법.
- 제14항에 있어서,상기 제공하는 단계는,상기 영역 상에 상기 영상 컨텐츠 중 상기 시점에 대응되는 영상 컨텐츠를 시청하기 위한 GUI(Graphic User Interface) 또는 하이퍼 링크(Hyper Link) 중 적어도 하나를 표시하는 단계;를 포함하는 전자 장치의 제어 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/609,669 US11889152B2 (en) | 2019-11-27 | 2020-06-24 | Electronic device and control method thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190154750A KR20210065698A (ko) | 2019-11-27 | 2019-11-27 | 전자 장치 및 이의 제어 방법 |
KR10-2019-0154750 | 2019-11-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021107308A1 true WO2021107308A1 (ko) | 2021-06-03 |
Family
ID=76130295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2020/008123 WO2021107308A1 (ko) | 2019-11-27 | 2020-06-24 | 전자 장치 및 이의 제어 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11889152B2 (ko) |
KR (1) | KR20210065698A (ko) |
WO (1) | WO2021107308A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220394348A1 (en) * | 2021-06-02 | 2022-12-08 | Universal Electronics Inc. | System and method for using a virtual agent to provide consumer electronic device related technical support |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007286569A (ja) * | 2006-03-24 | 2007-11-01 | Fujifilm Corp | 情報提供装置、情報提供システムおよび情報提供方法 |
JP2010165321A (ja) * | 2009-01-19 | 2010-07-29 | Toshiba Corp | 配電盤点検システム |
JP2013088906A (ja) * | 2011-10-14 | 2013-05-13 | Cyber Ai Entertainment Inc | 画像認識システムを備えた知識情報処理サーバシステム |
KR101714983B1 (ko) * | 2016-08-25 | 2017-03-22 | 한상선 | 제품을 활용한 증강 현실을 구현하기 위한 서버 및 사용자 장치 및 제품 |
JP2019032685A (ja) * | 2017-08-08 | 2019-02-28 | 中国電力株式会社 | 配電設備点検システム |
JP2019194853A (ja) * | 2018-05-01 | 2019-11-07 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置、情報処理プログラム及び情報処理システム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6950782B2 (en) | 2003-07-28 | 2005-09-27 | Toyota Technical Center Usa, Inc. | Model-based intelligent diagnostic agent |
US9866697B2 (en) | 2005-08-19 | 2018-01-09 | Nexstep, Inc. | Consumer electronic registration, control and support concierge device and method |
US9009593B2 (en) * | 2007-08-31 | 2015-04-14 | At&T Intellectual Property I, Lp | Apparatus and method for providing set top box assistance |
US20130304897A1 (en) * | 2012-05-08 | 2013-11-14 | Verizon Patent And Licensing Inc. | Method and system for proactively providing troubleshooting information |
US10210217B2 (en) | 2013-05-30 | 2019-02-19 | Panasonic Intellectual Property Corporation Of America | Advice provision method for user using household appliance while viewing terminal screen |
KR101828869B1 (ko) | 2013-06-20 | 2018-02-14 | 주식회사 골프존뉴딘 | 모바일 단말기를 이용한 골프 정보 제공 방법 및 모바일 단말기에서 구동되는 어플리케이션의 골프 정보 제공을 위한 정보 처리 방법 |
US9684903B2 (en) * | 2013-09-05 | 2017-06-20 | General Electric Company | Expert collaboration system and method |
US9740935B2 (en) * | 2013-11-26 | 2017-08-22 | Honeywell International Inc. | Maintenance assistant system |
KR20170040492A (ko) | 2015-10-05 | 2017-04-13 | 한국전자통신연구원 | 스마트 서비스 환경에서 디바이스 등록 방법 및 장치 |
KR101760871B1 (ko) | 2016-07-25 | 2017-07-31 | 리모트솔루션주식회사 | 음성 인식을 기반으로 한 리모컨 설정 방법 |
KR102449630B1 (ko) | 2017-12-26 | 2022-09-30 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US20200184963A1 (en) * | 2018-12-07 | 2020-06-11 | At&T Intellectual Property I, L.P. | Virtual assistant augmentation system |
KR20190104282A (ko) | 2019-08-20 | 2019-09-09 | 엘지전자 주식회사 | 영상 기반으로 정보를 제공하는 방법 및 이를 위한 이동 단말 |
-
2019
- 2019-11-27 KR KR1020190154750A patent/KR20210065698A/ko active Search and Examination
-
2020
- 2020-06-24 US US17/609,669 patent/US11889152B2/en active Active
- 2020-06-24 WO PCT/KR2020/008123 patent/WO2021107308A1/ko active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007286569A (ja) * | 2006-03-24 | 2007-11-01 | Fujifilm Corp | 情報提供装置、情報提供システムおよび情報提供方法 |
JP2010165321A (ja) * | 2009-01-19 | 2010-07-29 | Toshiba Corp | 配電盤点検システム |
JP2013088906A (ja) * | 2011-10-14 | 2013-05-13 | Cyber Ai Entertainment Inc | 画像認識システムを備えた知識情報処理サーバシステム |
KR101714983B1 (ko) * | 2016-08-25 | 2017-03-22 | 한상선 | 제품을 활용한 증강 현실을 구현하기 위한 서버 및 사용자 장치 및 제품 |
JP2019032685A (ja) * | 2017-08-08 | 2019-02-28 | 中国電力株式会社 | 配電設備点検システム |
JP2019194853A (ja) * | 2018-05-01 | 2019-11-07 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置、情報処理プログラム及び情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
KR20210065698A (ko) | 2021-06-04 |
US11889152B2 (en) | 2024-01-30 |
US20220232290A1 (en) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3817395A1 (en) | Video recording method and apparatus, device, and readable storage medium | |
US11861264B2 (en) | Portable terminal device and information processing system | |
WO2018070780A1 (en) | Electronic device and method for controlling the same | |
WO2017142278A1 (en) | Apparatus and method for providing dynamic panorama function | |
WO2020159288A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2020204655A1 (en) | System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection | |
US20210142796A1 (en) | Information processing apparatus, information processing method, and program | |
WO2015111850A1 (en) | Interactive system, display apparatus, and controlling method thereof | |
WO2016036143A1 (ko) | 전자 장치의 멀티미디어 데이터 처리 방법 및 그 전자 장치 | |
WO2020122653A1 (en) | Electronic apparatus and controlling method thereof | |
WO2020091503A1 (en) | Electronic apparatus and control method thereof | |
CN105828101A (zh) | 生成字幕文件的方法及装置 | |
WO2020159140A1 (ko) | 전자 장치 및 이의 제어 방법 | |
WO2020071854A1 (en) | Electronic apparatus and control method thereof | |
WO2021071271A1 (en) | Electronic apparatus and controlling method thereof | |
WO2021251539A1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
WO2015199430A1 (en) | Method and apparatus for managing data | |
CN110349577B (zh) | 人机交互方法、装置、存储介质及电子设备 | |
WO2021107308A1 (ko) | 전자 장치 및 이의 제어 방법 | |
CN110767229B (zh) | 基于声纹的音频输出方法、装置、设备及可读存储介质 | |
WO2022124476A1 (ko) | 전자 장치 및 이의 제어 방법 | |
WO2021154018A1 (en) | Electronic device and method for controlling the electronic device thereof | |
WO2021256760A1 (ko) | 이동 가능한 전자장치 및 그 제어방법 | |
WO2021045434A1 (ko) | 전자 장치 및 이의 제어 방법 | |
WO2020204357A1 (ko) | 전자 장치 및 이의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20893724 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20893724 Country of ref document: EP Kind code of ref document: A1 |