WO2022149687A1 - 전자 장치 및 이의 제어 방법 - Google Patents
전자 장치 및 이의 제어 방법 Download PDFInfo
- Publication number
- WO2022149687A1 WO2022149687A1 PCT/KR2021/012764 KR2021012764W WO2022149687A1 WO 2022149687 A1 WO2022149687 A1 WO 2022149687A1 KR 2021012764 W KR2021012764 W KR 2021012764W WO 2022149687 A1 WO2022149687 A1 WO 2022149687A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- text
- video
- section
- task
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003709 image segmentation Methods 0.000 claims description 3
- 239000000047 product Substances 0.000 description 35
- 244000061456 Solanum tuberosum Species 0.000 description 23
- 235000002595 Solanum tuberosum Nutrition 0.000 description 23
- 241000287828 Gallus gallus Species 0.000 description 22
- 238000010586 diagram Methods 0.000 description 22
- 238000012937 correction Methods 0.000 description 19
- 238000005259 measurement Methods 0.000 description 18
- 235000002566 Capsicum Nutrition 0.000 description 16
- 239000006002 Pepper Substances 0.000 description 16
- 241000722363 Piper Species 0.000 description 16
- 235000016761 Piper aduncum Nutrition 0.000 description 16
- 235000017804 Piper guineense Nutrition 0.000 description 16
- 235000008184 Piper nigrum Nutrition 0.000 description 16
- 238000004891 communication Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 241000207961 Sesamum Species 0.000 description 8
- 235000003434 Sesamum indicum Nutrition 0.000 description 8
- 235000012015 potatoes Nutrition 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 7
- 238000010411 cooking Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 4
- 244000000626 Daucus carota Species 0.000 description 4
- 235000002767 Daucus carota Nutrition 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 235000013305 food Nutrition 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 240000004160 Capsicum annuum Species 0.000 description 2
- 235000008534 Capsicum annuum var annuum Nutrition 0.000 description 2
- 235000007862 Capsicum baccatum Nutrition 0.000 description 2
- 244000017020 Ipomoea batatas Species 0.000 description 2
- 235000002678 Ipomoea batatas Nutrition 0.000 description 2
- 239000001728 capsicum frutescens Substances 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 235000021186 dishes Nutrition 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000007921 spray Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 235000013527 bean curd Nutrition 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 229910021420 polycrystalline silicon Inorganic materials 0.000 description 1
- 229920005591 polysilicon Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Definitions
- the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device that provides information for performing a specific task included in a video, and a control method thereof.
- the specific task may mean a task for performing a series of actions, such as a task for cooking and a task for performing makeup.
- the present disclosure provides an electronic device that provides information for performing a specific task based on a video including content for performing a specific test, and a method for controlling the same.
- a method of controlling an electronic device includes: acquiring a video including content for performing a task; identifying an object within a first section of the video and motion information corresponding to the object; obtaining a first text for describing the first section based on the information corresponding to the object and the motion information; obtaining a second text based on voice information obtained from the first section of the video; and providing information for performing the task based on the first text and the second text.
- the acquiring of the second text may include: converting voice information acquired from the first section of the video into text; and selecting a text related to the first text from among the converted texts based on the similarity between the first text and the converted text to describe the first section of the video. have.
- the acquiring of the second text includes: analyzing an image corresponding to voice information and acquiring a text related to the first text as a second text for describing the first section of the video; may include more.
- the information for performing the specific task is obtained based on category information obtained from the first text and the second text, and the category information is one of object information, quantity information, unit information, tool information, and operation information. may include more than one.
- the providing information for performing the task may include: obtaining first category information from the first text; obtaining second category information from the second text; and determining whether a combination of the first category information and the second category information is sufficient to obtain information for performing a sub-task corresponding to the first section of the video. .
- third category information is obtained by analyzing the image within the first section of the video, and corresponds to the first section of the video. obtaining information for performing a sub-task; and obtaining information for performing a sub-task corresponding to the first section of the video based on the first category information, the second category information, and the third category information.
- the obtaining of the third category information may include: obtaining product information corresponding to the object; and obtaining at least one of quantity information and unit information based on the product information and the operation information corresponding to the object.
- the obtaining of the third category information may include: performing image segmentation on the object to obtain volume information corresponding to the object; and obtaining at least one of quantity information and unit information based on the volume information.
- the moving picture is received in a streaming manner, and the object and the motion information can be identified while the video is being played.
- an electronic device includes a memory for storing at least one instruction; and at least one processor executing at least one instruction stored in the memory, wherein the at least one processor acquires a video including content for performing a task, and Identifies an object in a first section and motion information corresponding to the object, and obtains a first text for describing a first section of the video based on the information corresponding to the object and the motion information, and the video A second text is obtained based on the voice information obtained from the first section of , and information for performing the task is provided based on the first text and the second text.
- the at least one processor executes the at least one instruction, converts the voice information obtained from the first section of the video into text, and converts it based on the similarity between the first text and the converted text.
- a second text for describing the first section of the video may be selected as a text related to the first text among the selected texts.
- the at least one processor executes the at least one instruction, analyzes an image corresponding to the voice information, and converts the text related to the first text into a second text for describing the first section of the video. can be obtained
- the information for performing the specific task is obtained based on category information obtained from the first text and the second text, and the category information includes object information, quantity information, unit information, tool information, and operation information.
- category information includes object information, quantity information, unit information, tool information, and operation information.
- the at least one processor executes the at least one instruction to obtain first category information from the first text, obtain second category information from the second text, and obtain the first category information and the It may be determined whether the combination of the second category information is sufficient to obtain information for performing a sub-task corresponding to the first section of the video.
- the electronic device may provide information for performing a specific task included in the video by further using not only image information of the video but also voice information.
- FIG. 1 is a block diagram illustrating a configuration of an electronic device, according to an embodiment.
- 2A is a diagram for explaining an object recognition model according to an embodiment
- 2B is a diagram for describing a motion recognition model according to an exemplary embodiment.
- 2C is a diagram for describing a category classification model 3000 according to an exemplary embodiment.
- FIG. 3 is a diagram illustrating a process of obtaining a first text for describing a plurality of image sections of a video, respectively, according to an exemplary embodiment.
- FIG. 4 is a diagram illustrating a process of identifying a first text and voice information corresponding thereto for each of a plurality of video sections of a video according to an exemplary embodiment
- FIG. 5 is a diagram illustrating a process of generating task information corresponding to a video section based on a first text and a second text corresponding to an image section of a video according to an embodiment.
- FIG. 6 is a diagram illustrating a process of additionally acquiring category information by further using a product recognition model when the category information obtained based on the first text and the second text corresponding to the voice information is insufficient, according to an exemplary embodiment; to be.
- FIG. 7A is a diagram for describing a region recognition model according to an exemplary embodiment.
- FIG. 7B is a view for explaining a volume measurement model according to an embodiment.
- FIG. 8 is a process of additionally acquiring category information by further using a region recognition model and a volume measurement model when the category information obtained based on the second text corresponding to the first text and the voice information is insufficient, according to an exemplary embodiment; is a diagram showing
- FIG. 9 is a flowchart illustrating a specific method of acquiring task information according to an embodiment.
- FIG. 10 is a flowchart illustrating a method for acquiring additional category information, according to an embodiment.
- FIG. 11 is a flowchart illustrating an operation of an electronic device according to an exemplary embodiment.
- FIG. 12 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
- expressions such as “has,” “may have,” “includes,” or “may include” refer to the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
- expressions such as “A or B,” “at least one of A and/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
- “A or B,” “at least one of A and B,” or “at least one of A or B” means (1) includes at least one A, (2) includes at least one B; Or (3) it may refer to all cases including both at least one A and at least one B.
- expressions such as “first,” “second,” “first,” or “second,” may modify various elements, regardless of order and/or importance, and refer to one element. It is used only to distinguish it from other components, and does not limit the components.
- a component eg, a first component is "coupled with/to (operatively or communicatively)" to another component (eg, a second component)
- another component eg, a second component
- the certain element may be directly connected to the other element or may be connected through another element (eg, a third element).
- a component eg, a first component
- another component eg, a second component
- the expression “configured to (or configured to)” depends on the context, for example, “suitable for,” “having the capacity to ,” “designed to,” “adapted to,” “made to,” or “capable of.”
- the term “configured (or configured to)” may not necessarily mean only “specifically designed to” in hardware. Instead, in some circumstances, the expression “a device configured to” may mean that the device is “capable of” with other devices or parts.
- the phrase “a coprocessor configured (or configured to perform) A, B, and C” may refer to a dedicated processor (eg, an embedded processor), or one or more software programs stored in a memory device, to perform the corresponding operations. By doing so, it may mean a generic-purpose processor (eg, a CPU or an application processor) capable of performing corresponding operations.
- unit or “module” used in the present disclosure includes a unit composed of hardware, software, or firmware, and may be used interchangeably with terms such as, for example, logic, logic block, component, or circuit.
- a “unit” or “module” may be an integrally constituted part or a minimum unit or a part thereof that performs one or more functions.
- the module may be configured as an application-specific integrated circuit (ASIC).
- ASIC application-specific integrated circuit
- FIG. 1 is a block diagram illustrating a configuration of an electronic device, according to an embodiment.
- the electronic device 100 may include a communication interface 110 , a memory 120 , and a processor 130 .
- the electronic device 100 includes various types of electronic devices such as a smart phone, AR glasses, a tablet PC, a mobile phone, a video phone, an e-book reader, a TV, a desktop PC, a laptop PC, a netbook computer, a workstation, a camera, and a smart watch. can be implemented as
- the communication interface 110 is configured to communicate with various types of external devices according to various types of communication methods.
- the communication interface 110 may include a Wi-Fi chip, a Bluetooth chip, a wireless communication chip, and an NFC chip.
- the processor 130 may communicate with various external devices using the communication interface 110 .
- the electronic device 100 may receive a video including content for performing a specific task.
- the electronic device 100 may receive a video in real time in a streaming manner through the communication interface 110 .
- the streaming method is a method of receiving and providing data in real time from an external server or an external device through a wired or wireless communication method.
- the present disclosure is not limited thereto, and the electronic device 100 may download a video through the communication interface 110 and store it in the memory 120 .
- the memory 120 may store various programs and data necessary for the operation of the electronic device 100 . Specifically, at least one instruction may be stored in the memory 120 .
- the processor 130 may perform the operation of the electronic device 100 by executing a command stored in the memory 120 .
- the processor 130 may be electrically connected to the memory 120 to control overall operations and functions of the electronic device 100 .
- the processor 130 may be electrically connected to the memory 120 to control overall operations and functions of the electronic device 100 .
- the processor 130 may provide a task information providing function for describing a video including content for performing a specific task acquired through the communication interface 110 .
- the task information providing function includes a video processing module 131 , an image recognition module 132 , a voice recognition module 133 , a task information acquisition module 134 , and a task information correction module 135 and a task information providing module 136 , each module may be stored in the memory 120 .
- the plurality of modules 131 to 136 may be loaded into a memory (eg, a volatile memory) included in the processor 130 in order to perform the task information providing function. That is, when the task information providing function is executed, the processor 130 may load the plurality of modules 131 to 136 from the nonvolatile memory to the volatile memory to execute the respective possibilities of the plurality of modules 131 to 136 .
- Loading refers to an operation of loading and storing data stored in the non-volatile memory into the volatile memory so that the processor 130 can access it.
- the task information providing function may be implemented through the plurality of modules 131 to 136 stored in the memory 120 , but the present disclosure is not limited thereto. It can be implemented through an external server.
- the plurality of modules 131 to 136 may be implemented by respective software, but is not limited thereto, and some modules may be implemented by a combination of hardware and software. In another embodiment, the plurality of modules 131 to 136 may be implemented as one software. Also, some modules may be implemented in the electronic device 100 , and some modules may be implemented in an external server.
- the video processing module 131 may process a video received from the communication interface 110 . Specifically, the video video processing module 131 may obtain a video including content for performing a specific task from the communication interface 110 . For example, the video processing module 131 may acquire a video for performing a cooking task according to a series of processes, a video for performing a makeup task according to a series of processes, and the like.
- the video processing module 131 may transmit information about the acquired video image to the image recognition module 132 , and transmit information about the voice of the video to the voice recognition module 133 .
- the image recognition module 132 may obtain a first text for describing a specific task through image information of a video received from the communication interface 110 .
- the image recognition module 132 may obtain the first text for describing the specific section of the video, based on image frames of the specific section of the video included in the video. For example, the image recognition module 132 may identify an object included in the video section and motion information corresponding to the object through the image frame within the first section of the video.
- the image recognition module 132 may identify an object included in the video through the object recognition model 1000 illustrated in FIG. 2A .
- the object recognition model 1000 may be implemented as a convolution artificial neural network model, and may receive an image frame and output information on an object included in the image.
- the object recognition model 1000 may be learned based on an image frame of an object that can be used in a specific task. Accordingly, the object recognition model 1000 may receive a video and detect an object for each frame of the received image.
- the image recognition module 132 may identify motion information included in the video through the motion recognition model 2000 illustrated in FIG. 2B .
- the motion recognition model 2000 may receive an image frame and output information about a motion included in the image.
- the gesture recognition model 2000 may be trained based on a plurality of videos for performing a specific task.
- the motion recognition model 2000 may include a Convolutional Neural Networks (CNN) layer and a Long-Short Term Memory (LSTM) layer. That is, the motion recognition model 2000 extracts a feature vector of each frame of a plurality of videos through the CNN layer, provides the extracted feature vectors as input data of the LSTM layer, and finally a comprehensive feature vector of consecutive frames of the video. can be extracted. And, by labeling what kind of motion the extracted comprehensive feature vector means, learning of the motion recognition model 2000 may be performed. Accordingly, the motion recognition model 2000 may receive a video input and obtain information on a motion included in the image.
- CNN Convolutional Neural Networks
- LSTM Long-Short Term Memory
- the image recognition module 132 identifies a first section of the video in which the identified motion information is performed based on the identified object among a plurality of image frames included in the video, based on the identified object and motion information, A first text for describing the first section of the video may be obtained.
- the image recognition module 132 performs an operation of washing a chicken in frames in which object information of 'chicken' and motion information of 'wash' among a plurality of frames included in a video for providing a recipe for chicken dishes. It can be identified as the first section of the video to be performed. Then, the image recognition module 132 may obtain the text of 'wash the chicken' as the first text for describing the first section of the video.
- the image recognition module 132 recognizes the frames in which object information of 'potato' and 'knife' and motion information of 'cut' among a plurality of frames included in a video for providing a recipe for chicken dishes. It can be identified as the second section of the video in which the potato cutting operation is performed. In addition, the image recognition module 132 may obtain the text 'cut the potato with a knife' as the first text for describing the second section of the video.
- the voice recognition module 133 may convert voice information included in a video received from the communication interface 110 into text data.
- the voice recognition module 133 may convert the corresponding voice information into text data.
- the voice recognition module 133 may include an acoustic model and a language model.
- the acoustic model may include information related to vocalization
- the language model may include information about unit phoneme information and a combination of unit phoneme information.
- the speech recognition module may convert speech information into text data by using information related to speech and information on unit phoneme information.
- the task information obtaining module 134 may obtain a second text corresponding to each of the first texts by matching the first text obtained through the image information with the audio information included in the video.
- the task information obtaining module 134 matches the text data obtained through the voice recognition module 133 with the first text for describing the first section of the video obtained through the image recognition module 132, Text data related to the first text among the plurality of text data may be identified as the second text.
- the task information obtaining module 134 may obtain a similarity by comparing the text data with the first text, and may identify text data related to the first text as the second text based on the obtained similarity.
- the task information acquisition module 134 uses the text data of 'Please wash the chicken well in water' obtained through the voice recognition module 133 of 'Wash the chicken' for explaining the first section of the video. By matching the first text, the corresponding text data may be identified as the second text for describing the first section of the video.
- the task information acquisition module 134 uses the text data of 'Cut about one potato to be easy to eat' acquired through the voice recognition module 133 as 'Potatoes to describe the second section of the video'.
- the corresponding text data may be identified as the second text for describing the second section of the video.
- the task information acquisition module 134 uses the corresponding text data as 'potatoes to describe the second section of the video.' can be identified as the second text for describing the second section of the video by matching it with the first text of 'cut with a knife'.
- the task information obtaining module 134 may identify whether information for performing a task corresponding to each image section included in the video can be generated based on the obtained first text and second text. .
- the task information obtaining module 134 may obtain at least one category information based on the first text and the second text corresponding to a specific section of the video.
- the category information may include object information, quantity information, unit information, tool information, and operation information.
- the object information is information about a subject performing a specific task in the corresponding video section, and may be information about an object obtained by the voice recognition module 133 .
- the quantity information may be information about a quantity corresponding to a corresponding object
- the unit information may mean information about a unit corresponding to the corresponding object.
- the tool information may mean information about an item used when performing a specific operation on a corresponding object.
- the task information obtaining module 134 may identify a category included in the first text or the second text through the category classification model 3000 illustrated in FIG. 2C .
- FIG. 2C is a diagram for describing a category classification model 3000 according to an exemplary embodiment.
- the category classification model 3000 may be learned based on training data in which category information is labeled in text that can be used when performing a specific task.
- a category classification model (3000) for a cooking task through the learning data in which the word 'sundubu' is labeled 'object information' among category information, and category information 'action information' is labeled with the word 'cut' can learn And, when the text 'sundubu' is input to the learned category classification model 3000, the category classification model 3000 identifies that 'object information' among a plurality of category information is category information corresponding to the 'sundum tofu' text.
- the task information acquisition module 134 identifies whether the acquired category information is sufficient to generate information (task information) for performing a task based on the first text and the second text corresponding to the video section. can do.
- the task information acquisition module 134 can identify object information of the second section of the video as 'potatoes', quantity information as 'one', unit information as 'dogs', tool information as 'knife', and motion information as 'cut'. . And, since all category information corresponding to the second section of the video has been acquired, the task information obtaining module 134 uses the first text and the second text corresponding to the second section of the video to correspond to the second section of the video. It can be identified as sufficient to generate task information.
- the task information obtaining module 134 determines that the category information obtained based on the first text and the second text obtains at least four pieces of information among object information, quantity information, unit information, tool information, and operation information. Even if it is included, it may be determined that it is sufficient to generate task information. That is, even when object information, quantity information, unit information, and operation information are identified based on the first text and the second text, but tool information is not identified, the task information obtaining module 134 is sufficient to generate the task information. can be identified as
- the task information acquisition module may be identified as sufficient to generate task information corresponding to the first section of the video.
- the task information providing module 136 If it is determined that it is sufficient to generate task information corresponding to the first section of the video through the first text and the second text corresponding to the first section of the video, through the task information providing module 136, the first section of the video It is possible to obtain task information corresponding to .
- the task information obtaining module 134 corresponds to the first section of the video It may be determined that it is insufficient to generate task information.
- the present invention is not limited thereto, and when at least one of quantity information and unit information among a plurality of category information is not obtained through the first text and the second text corresponding to the first section of the video, the task information obtaining module 134 ) may be determined to be insufficient to generate task information corresponding to the first section of the video.
- the task information obtaining module 134 is the object of the third video section. Information can be identified as 'sesame' and motion information as 'put.' And, since the quantity information, unit information, and tool information of the third video section could not be obtained through the first text and the second text, the task The information obtaining module 134 may determine that it is insufficient to generate task information corresponding to the third video section through the first text and the second text corresponding to the third video section.
- the first section of the video Category information corresponding to the section may be further acquired.
- the task information correction module 135 may analyze the video to obtain category information corresponding to a corresponding section of the video. That is, if it is insufficient to generate task information corresponding to the first section of the video through the first text and the second text corresponding to the first section of the video, the task information correction module 135 is configured to By analyzing the image, category information may be additionally obtained.
- the task information correction module 135 may acquire at least one of quantity information and unit information of the first section of the video by using the product recognition model.
- the product recognition model may recognize product information for an object.
- learning may be performed through image data of a product required to perform a specific task.
- the object recognition model 1000 identifies that the object corresponding to a specific section of the video is 'pepper', at least one of quantity information and unit information among category information of the corresponding video section through the task information acquisition module 134 If one is not identified, the task information correction module 135 may identify product information of the object identified as 'pepper' using the product recognition model, ie, manufacturer information, container capacity information, and the like. And, when the motion information corresponding to the pepper container from the motion recognition model 2000 is identified as "insert three times into the upper right outlet", the task information correction module 135 sets the quantity information of the corresponding image section to '3'.
- the unit information can be identified as 'times.
- the task information correction module 135 may further acquire operation information of 'Three times input through the upper right outlet based on 50G of 000 product pure pepper'.
- the task information providing module 136 may generate task information of the corresponding video section by further using the category information obtained from the task information modifying module 135 .
- the task information correction module 135 may obtain at least one of quantity information and unit information of the first section of the video by using the volume measurement model.
- the volume measurement model is a model for acquiring volume information of an object, and may be implemented through a deep learning artificial intelligence model that predicts a volume corresponding to an object corresponding to a specific task.
- the task information correction module 135 may detect an object portion within a specific section of the video using the volume measurement model, divide the entire area and the corresponding object area, and calculate a ratio of each. In addition, the task information correction module 135 may measure the volume of the corresponding object by applying the calculated ratio to the volume recognition result corresponding to the entire area using the volume measurement model. For example, when the object corresponding to a specific section of the video is 'pepper' and the action is 'put', the volumetric model may calculate the ratio of the volume of the entire container area to the area corresponding to pepper as 0.6.
- the volume measurement model may measure the volume of the entire container area as 100 ml, and measure the volume information of the area corresponding to 'pepper' as 60 ml by applying a ratio calculated from the total volume of the container area.
- the task information correction module 135 may identify quantity information corresponding to the corresponding image section as '60' and unit information as 'ml' based on the measured volume information.
- the task information providing module 136 may generate task information of the corresponding video section by further using the category information obtained from the task information modifying module 135 .
- the task information correction module 135 may match the first text with the image using the image corresponding to the voice information.
- the task information acquisition module 134 identifies text data that does not match the first text among the plurality of text data acquired by the voice recognition module 133, and the task information correction module 135 matches the first text
- Object information corresponding to the text data may be obtained by analyzing the image section corresponding to the text data that is not text data using the object recognition model 1000 . Then, based on the obtained object information, the voice information may be matched with the first text.
- the task information correction module 135 performs the object recognition model An object of 'red pepper' may be recognized from an image of a section in which voice information corresponding to the text data is uttered by using 1000 . In addition, the task information correction module 135 may match the corresponding text data with the first text of the image section corresponding to the object of 'red pepper'.
- the task information providing module 136 is configured to acquire task information of each of the video sections included in the video by using the category information obtained by the task information obtaining module 134 and the task information modifying module 135 .
- the task information providing module may generate task information of the corresponding image section by using the first text and the second text.
- the task information providing module At 136 the first text and the second text and the category information obtained from the task information correction module 135 may be further used to generate task information of the corresponding video section.
- the task information obtaining module 134 may provide task information corresponding to the video by synthesizing information for performing a task of each image section included in the video. For example, through a video of performing a cooking test, the task information obtaining module 134 may generate and provide recipe information summarizing a series of processes performed in the corresponding video. That is, the task information acquisition module 134 receives the recipe information 'wash the chicken' through the first text (wash the chicken) and the second text (please wash the chicken well in water) of the first section of the video. can be obtained. based on the second text, additional information on the recipe information may be obtained and provided together with the recipe information, which will be described with reference to the following drawings.
- the electronic device may provide information on the video by further using not only image information included in the video, but also audio information.
- information for performing a specific task corresponding to a video may be provided using the various artificial intelligence models described above.
- FIG. 3 is a diagram illustrating a process of obtaining a first text for describing a plurality of image sections of a video, respectively, according to an exemplary embodiment.
- the electronic device 100 may acquire a video including chicken dish content.
- the electronic device 100 may obtain an object and motion information corresponding to the object by using image information of each image frame of the obtained video.
- the electronic device 100 may identify a plurality of image sections included in the video based on the obtained object and motion information. As an example, referring to FIG. 3 , the electronic device 100 displays image frames in which the object of 'chicken' and motion information of 'wash' among a plurality of image frames included in the video are obtained in the first section 10 of the video.
- the electronic device 100 may identify the object of 'potato' and the image frames from which motion information of 'cut' is obtained among a plurality of image frames included in the video as the second section 20 of the video.
- the electronic device 100 uses the third image frames obtained by obtaining the object of 'chicken pieces', 'carrot', and 'mushroom' and motion information of 'boil' and 'cook' among the plurality of image frames included in the video. It can be identified by the image section 30 .
- the electronic device 100 may obtain the first text for describing the task of each of the image sections based on the object and motion information corresponding to each of the identified image sections.
- the electronic device 100 acquires the text 10-1 of 'wash the chicken' based on the object (chicken) and motion information (wash) corresponding to the first section 10 of the video, and uses the video It can be identified as the first text for describing the first section of . Also, the electronic device 100 obtains the text 20-1 of 'cut a potato' based on the object (potato) and motion information (cut) corresponding to the second section 20 of the video, and converts it into a video It can be identified as the first text for describing the second section of .
- the electronic device 100 performs 'based on the object ('chicken piece', 'carrot', 'mushroom') corresponding to the third image section 30 and operation information ('boil' and 'cook').
- the text 30-1 of 'Boiling (cooking) chicken pieces, carrots, mushrooms, etc.' can be obtained and identified as the first text for describing the third video section.
- FIG. 4 is a diagram illustrating a process of identifying a first text and voice information corresponding thereto for each of a plurality of video sections of a video according to the present disclosure.
- the electronic device 100 may match each of the voice information included in the video to a plurality of image sections.
- the electronic device 100 may convert voice information included in a video into text data through the voice recognition module 133 .
- the electronic device 100 may obtain the converted text data through the task information obtaining module 134 and a degree of similarity to the plurality of first texts in each of the plurality of image sections.
- the electronic device 100 may match the plurality of converted text data with each of the plurality of image sections based on the obtained similarity.
- the electronic device 100 converts the voice information of “You can wash the chicken well in water” into text data, and converts the voice information to “chicken” based on the similarity to each of the plurality of first texts. It can be matched with the first section of the video corresponding to the text (10-1) of "to wash”. Then, the electronic device 100 may identify the corresponding text data as the second text for describing the first section of the video.
- the electronic device 100 converts the voice information of “If you don’t have potatoes, you can put sweet potatoes” and “You can cut one potato to make it easy to eat” into text data, the degree of similarity to each of the plurality of first texts Based on , the corresponding voice information may be matched with the second section of the video corresponding to the text 10-2 of “cut potatoes”. Then, the electronic device 100 may identify the corresponding text data as the second text for describing the second section of the video.
- the electronic device 100 says, "I'm going to cook chicken in a big pot.” converts the voice information of ' into text data, and converts the voice information into text data (10-3) of 'Boil (cook) chicken, carrots, mushrooms, etc. in pieces based on the similarity to each of the plurality of first texts' It can be matched with the third video section. Then, the electronic device 100 may identify the corresponding text data as the second text for describing the third image section.
- FIG. 5 is a diagram illustrating a process of generating task information corresponding to a video section based on a first text and a second text corresponding to an image section of a video according to an embodiment.
- the electronic device 100 obtains task information for performing a specific task based on the first text and the second text. can do.
- the electronic device 100 may obtain task information corresponding to the second section 20 of the video among a plurality of image sections of the video. Specifically, the electronic device 100 may identify category information through the first text and the second text of the second section 20 of the video. That is, the electronic device 100 may obtain object information of 'potato' and object information of 'cut' from the first text of the second section 20 of the video. Also, the electronic device 100 may acquire quantity information of 'one' and unit information of 'dogs' through the second text of "You can roughly cut one potato to be easy to eat".
- the electronic device 100 may further acquire tool information by analyzing image frames of the second section 20 of the video. That is, the electronic device 100 may further acquire tool information of the 'sword' from the image frame of the second section 20 of the video.
- the electronic device 100 may obtain tool information of the 'sword' by using the object recognition model 1000 . That is, the object recognition model 1000 corresponding to the cooking task may be an artificial intelligence model for acquiring food material information and tool information.
- the electronic device 100 when obtaining task information corresponding to the cooking task, the electronic device 100 obtains object information using a first object recognition model for obtaining food material information, and a second object for obtaining tool material information Tool information may be obtained for each recognition model. That is, the first object recognition model may be an artificial intelligence model learned based on only ingredients, and the second object recognition model may be an artificial intelligence model learned based on only tool materials.
- the electronic device 100 may generate task information corresponding to the second section 20 of the video based on the obtained category information. That is, the electronic device 100 may generate task information of 'Please cut one potato with a knife' through the acquired object information, motion information, tool information, unit information, and quantity information. In addition, the electronic device 100 may also identify the text of “You can use sweet potatoes if there are no potatoes” among the second texts corresponding to the second section 20 of the video as task information of the second section 20 of the video. have. That is, the electronic device 100 may identify and provide additional task information to supplement the task information in the second text together with the task information generated through the category information of the first text and the second text.
- FIG. 6 is a diagram illustrating a process of additionally acquiring category information by further using a product recognition model when the category information obtained based on the first text and the second text corresponding to the voice information is insufficient, according to an exemplary embodiment; to be.
- the electronic device 100 may identify the object of the video section as 'pepper' and the motion information as 'spray' by using image information corresponding to the video section. In addition, the electronic device 100 may generate a text of 'spray pepper' as the first text of the corresponding image section.
- the voice information of 'Sprinkle pepper lightly' corresponding to the corresponding video section among the voice information can be converted into text and identified as the second text corresponding to the corresponding video section.
- the electronic device 100 may identify category information through the first text and the second text.
- the electronic device 100 may identify that quantity information, unit information, and tool information have not been obtained through the first text and the second text.
- the electronic device 100 may identify product information on 'pepper' corresponding to the object of the corresponding image section through the product recognition model.
- the product recognition model according to the present disclosure is a model for recognizing product information on an object, and learning may be performed through image data of the product. That is, the product recognition model may receive an image of a product and output product information on manufacturer information, container capacity information, and the like. That is, by inputting the image information corresponding to the image section of FIG. 6 to the product recognition model, the electronic device 100 may obtain product information (50g of pure pepper from company A) corresponding to the 'pepper' object.
- the electronic device 100 may further use the motion recognition model 2000 to identify that the motion information corresponding to the 'pepper' object is “insert 3 times through the upper right outlet.” And, the electronic device 100 may obtain category information corresponding to the corresponding video section by using the obtained product information and operation information, and the electronic device 100 determines, based on the category information, "Right side based on 50g of company A's pure pepper. You can create task information of "Put pepper 3 times using the top spout.”
- 7A is a diagram for describing a region recognition model according to an exemplary embodiment.
- 7B is a view for explaining a volume measurement model according to an embodiment.
- the electronic device 100 may obtain category information based on the first text and the second text. However, when the category information obtained based on the first text and the second text is insufficient to generate the task information, the electronic device 100 uses the area recognition model and the volume measurement model to obtain quantity information and unit information. can be obtained
- the region recognition model may receive an image frame, recognize a region corresponding to each object in the image frame, recognize an object in the image frame, and identify a region corresponding to the recognized object among image regions.
- the region recognition model may be implemented as a deep learning model that performs segmentation.
- the region recognition model may receive an image frame and distinguish a region corresponding to a bowl and a region corresponding to an object (food).
- the volume measurement model may receive an image frame and measure the volume of an object in the image frame. That is, the volume measurement model may recognize a region corresponding to the object in the image frame as shown in FIG. 7B and measure the volume of the object through the corresponding region. As an example, the volume measurement model may be implemented as a deep learning model for predicting the volume of a region corresponding to an object.
- FIG. 8 is a process of additionally acquiring category information by further using a region recognition model and a volume measurement model when the category information obtained based on the second text corresponding to the first text and the voice information is insufficient, according to an exemplary embodiment; is a diagram showing
- the electronic device 100 may identify volume information of a container containing an object in one image frame through a volume measurement model.
- the electronic device 100 may identify a region of each object in the container using the region recognition model. For example, referring to FIG. 8 , in order to obtain category information of an image section corresponding to the first text of “put sesame seeds”, the electronic device 100 performs a volume measurement model in an image frame corresponding to the corresponding image section. An area 800 corresponding to the container may be identified, and volume information of the container may be identified as 100 ml through the corresponding area. In addition, the electronic device 100 may recognize the region 810 corresponding to all objects in the container and the region 820 corresponding to the sesame seed in the image frame corresponding to the corresponding image section by using the region recognition model.
- FIG. 9 is a flowchart illustrating a specific method of acquiring task information according to the present disclosure.
- the electronic device 100 may acquire a video (S905).
- the video may include content for performing a specific task, such as content for making a dish.
- the electronic device 100 may obtain a video from an external server in a streaming manner or may obtain it by downloading it.
- the electronic device 100 may acquire object and motion information based on image information included in the video. That is, the electronic device 100 may obtain an object (eg, potato) included in one image section of a video and motion information (eg, cut) on the object. That is, the electronic device 100 may obtain object and motion information from each image frame included in the video, and identify image frames having the same object and motion information as one image section. That is, the electronic device 100 may identify the entire image frame for cutting potatoes with a knife as one image section.
- object eg, potato
- motion information eg, cut
- the electronic device 100 may acquire the first text (eg, cut potatoes) based on the object and motion information.
- the electronic device 100 may convert voice information included in the video into text.
- the electronic device 100 may match the converted text with the first text. That is, the electronic device 100 may match the plurality of texts converted through voice information with the first text of each of the plurality of image sections.
- the electronic device 100 may identify whether a converted text matching the first text exists.
- the electronic device 100 may identify the converted text as the second text with respect to the matched first text (S945). In operation S950 , the electronic device 100 may acquire category information based on the first text and the second text.
- the electronic device 100 may acquire the first text for the first section of the video by acquiring object and motion information for the first section of the video among a plurality of image sections included in the video. Then, the electronic device 100 compares the similarity with each of the plurality of texts converted in step S920 to identify a text matching the first text of the first section of the video as the second text, and Category information for the first section of the video may be obtained using the first text.
- the electronic device 100 may obtain object information by analyzing image information corresponding to the converted text (S935). That is, it is possible to identify a text that does not match the first text among the plurality of texts converted in step S920 , and analyze image information corresponding to voice information of the identified converted text to obtain object information.
- the image information corresponding to the identified voice information of the converted text may be an image frame of an image section corresponding to a time point at which the corresponding voice information is output.
- the electronic device 100 may identify the first text matching the converted text through the object information obtained by analyzing the image information. That is, the electronic device 100 may identify the first text including the object information obtained by analyzing the image information.
- the electronic device 100 identifies the converted text as the second text corresponding to the matched first text, and in operation S950 , obtains category information based on the first text and the second text.
- the electronic device 100 may identify whether the acquired category information is sufficient to acquire task information. For example, when the electronic device 100 fails to acquire category information of at least one of object information, quantity information, unit information, tool information, and operation information, it may be identified as insufficient to acquire task information.
- the present invention is not limited thereto, and when at least one of quantity information and unit information is not obtained through the first text and the second text among the plurality of category information, the electronic device 100 identifies that the task information is insufficient to generate the task information. can do.
- the electronic device 100 may obtain additional category information by analyzing the image information corresponding to the second text (S960). As an example, the electronic device 100 may acquire additional category information by further using the product recognition model, the volume measurement model, and the area recognition model, which will be described later with reference to FIG. 10 .
- the electronic device 100 may generate task information (S965). That is, the electronic device 100 may generate task information corresponding to one image section by using category information and additional category information obtained through the first text and second text corresponding to one image section.
- the electronic device 100 may generate the task information (S965). That is, the electronic device 100 may generate task information corresponding to one image section by using category information obtained through the first text and the second text corresponding to the one image section.
- the electronic device 100 may provide information for performing a specific task included in the video by synthesizing task information generated for each image section.
- FIG. 10 is a flowchart illustrating a method for acquiring additional category information according to an embodiment of the present disclosure.
- the electronic device 100 may determine that the category information acquired in step S950 is insufficient to acquire task information ( S955 ). Specifically, in step S1005 , the electronic device 100 may identify that at least one of quantity information and unit information has not been obtained through the first text and the second text.
- the electronic device 100 may identify whether product information is obtained through image information of the first section of the video corresponding to the first text. Specifically, the electronic device may acquire product information of the object in the first section of the video through the product recognition model described with reference to FIG. 6 .
- the electronic device 100 may obtain operation information corresponding to the identified product information. For example, as described with reference to FIG. 6 , the electronic device 100 may obtain motion information on the object by analyzing the corresponding image section.
- the electronic device 100 may acquire quantity information and unit information corresponding to the object based on the identified product information and operation information (S1020). Then, the electronic device 100 may obtain task information by further using the obtained quantity information and unit information (S1035).
- the electronic device 100 may identify the volume information of the object through the image information of the first section of the video (S1025). That is, as described with reference to FIG. 8 , the electronic device 100 may identify volume information of an object in an image frame using the region recognition model and the volume measurement model.
- the electronic device 100 may acquire quantity information and unit information corresponding to the object based on the identified volume information (S1030). In operation S1035, the electronic device 100 may acquire task information by further using the obtained quantity information and unit information (S1035).
- FIG. 11 is a flowchart illustrating an operation of an electronic device, according to an embodiment.
- the electronic device 100 may acquire a video including content for performing a specific task.
- the electronic device 100 may receive content for performing a specific task from an external device or an external server in a streaming manner.
- the present invention is not limited thereto, and the video may be obtained by various methods.
- the electronic device 100 may identify an object included in the image within the first section of the video included in the video and motion information corresponding to the object. For example, the electronic device 100 identifies an object and motion information corresponding to the object in each of the image frames included in the video, and selects a first object and a plurality of image frames in which the first motion information is identified as the first object of the video. segment can be identified. Also, according to an embodiment, while receiving and playing a video in a streaming manner, the electronic device 100 may identify an object and motion information corresponding to the object in a reproduced image frame.
- the electronic device 100 may obtain a first text for describing the first section of the video based on the object and motion information (.
- the electronic device 100 may acquire the second text based on voice information matching the first section of the video.
- the electronic device 100 may convert voice information included in a video into text. Then, the electronic device 100 acquires a similarity between the first text and the converted text, and uses a text related to the first text among the converted texts based on the obtained similarity to describe the first section of the video as a second text. can be identified as
- the electronic device 100 may analyze an image corresponding to voice information and identify a text matched with the first text as the second text for describing the first section of the video. That is, it is possible to obtain object information by analyzing an image frame corresponding to the time when the voice information is output, and to identify voice information matching the first text of the first section of the video as the second text based on the object information. .
- the electronic device 100 may provide information for performing a specific task based on the first text and the second text.
- the electronic device 100 may provide information for performing a specific task through category information identified from the first text and the second text, wherein the category information includes object information, quantity information, unit information, It may include tool information and operation information.
- category information includes object information, quantity information, unit information, It may include tool information and operation information.
- other category information in the present disclosure is not limited thereto, and other category information may be added or at least one category information may be omitted according to an implementation aspect of the present disclosure.
- the electronic device 100 may obtain first category information from the first text and may obtain second category information from the second text. That is, the electronic device 100 may obtain first category information on object information and motion information from the first text. Then, the electronic device 100 may obtain at least one of object information, quantity information, unit information, tool information, and operation information from the second text.
- the electronic device 100 may identify whether the combination of the first category information and the second category information is sufficient to obtain information for performing a task corresponding to the first section of the video.
- the electronic device 100 may obtain third category information by analyzing an image within the first section of the video. That is, the electronic device 100 may obtain the third category information through the task information correction module 135 .
- the electronic device 100 may obtain product information on an object by analyzing an image within the first section of the video through a product recognition model. Then, the electronic device 100 may acquire motion information corresponding to the product information through the motion recognition model. In addition, the electronic device 100 may acquire at least one of quantity information and unit information based on product information and operation information.
- the electronic device 100 may perform image segmentation on an image within the first section of the video to obtain volume information corresponding to the object. That is, the electronic device 100 analyzes the image in the first section of the video through the volume measurement model and the region recognition model to obtain volume information of the object, and obtains quantity information and unit information corresponding to the object through the volume information. can be obtained
- the electronic device 100 may obtain information for performing a task corresponding to the first section of the video by using the first category information, the second category information, and the third category information.
- the electronic device 100 corresponds to the first section of the video using the first category information and the second category information It is possible to obtain information for performing a task to be performed (S1150).
- FIG. 12 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment.
- the electronic device 100 may include a communication interface 110 , a memory 120 , a processor 130 , a display 140 , a speaker 150 , and an input interface 160 .
- a communication interface 110 may include a communication interface 110 , a memory 120 , a processor 130 , a display 140 , a speaker 150 , and an input interface 160 .
- some components may be added or omitted depending on the type of the electronic device 100 .
- the memory 120 may store at least one instruction or data related to at least one other component of the electronic device 100 .
- the memory 120 may be implemented as a non-volatile memory, a volatile memory, a flash memory, a hard disk drive (HDD) or a solid state drive (SDD), etc. .
- the memory 120 is accessed by the processor 130 , and reading/writing/modification/deletion/update of data by the processor 130 may be performed.
- the term memory may include a memory 120 , a ROM in the processor 130 , a RAM, or a memory card (eg, a micro SD card, a memory stick) mounted in the electronic device 100 .
- the memory 120 may store programs and data for configuring various screens to be displayed in the display area of the display.
- the memory 120 may store at least one instruction.
- the instruction may be for controlling the electronic device 100 .
- instructions related to an artificial intelligence model for analyzing an image may be stored in the memory 120 .
- One or a plurality of processors may control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory 120 .
- the predefined action rule or artificial intelligence model is characterized in that it is created through learning.
- being made through learning means that a predefined operation rule or artificial intelligence model with desired characteristics is created by applying a learning algorithm to a plurality of learning data.
- Such learning may be performed in the device itself on which the artificial intelligence according to the present disclosure is performed, or may be performed through a separate server/system.
- the artificial intelligence model may be composed of a plurality of neural network layers. Each layer has a plurality of weight values, and the layer operation is performed through the operation of the previous layer and the operation of the plurality of weights.
- Examples of neural networks include Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) and deep There is a Q-network (Deep Q-Networks), and the neural network in the present disclosure is not limited to the above-described example, except as otherwise specified.
- the processor 130 may control hardware or software components connected to the processor 130 by driving an operating system or an application program, and may perform various data processing and operations.
- the processor 130 may load and process commands or data received from at least one of the other components into the volatile memory, and store various data in the non-volatile memory.
- the display 140 may display various information under the control of the processor 130 .
- the display 140 may display a screen provided by at least one application executed in the foreground in the electronic device 100 .
- the display 140 may display the acquired video. That is, the processor 130 may identify the object and motion information from the displayed image frame while displaying the video on the display.
- the display 140 includes a liquid crystal display panel (LCD), a light emitting diode (LED), an organic light emitting diode (OLED), a liquid crystal on silicon (LCoS), a digital light processing (DLP), and the like. It can be implemented as a display of the form.
- the display 140 may include a driving circuit, a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT).
- the display 140 may be implemented as various displays such as a foldable display and a rollable display.
- the display 140 may be implemented as a touch screen in combination with a touch sensing unit.
- the speaker 150 may be a component that outputs various types of audio data received externally, as well as various notification sounds or voice messages.
- the electronic device 100 may include an audio output device such as the speaker 150 , but may include an output device such as an audio output terminal.
- the speaker 150 may output voice information included in the video.
- the input interface 160 may be implemented as a device such as a button, a touch pad, a mouse, and a keyboard, or may be implemented as a touch screen capable of performing the above-described display function and manipulation input function together.
- the button may be various types of buttons such as a mechanical button, a touch pad, a wheel, etc. formed in an arbitrary area such as the front, side, or rear of the exterior of the main body of the electronic device 100 .
- Various embodiments of the present disclosure may be implemented as software including instructions stored in a machine-readable storage media readable by a machine (eg, a computer).
- a machine eg, a computer
- a device that can be called and operated according to the called command, it may include the stacked display device according to the disclosed embodiments.
- the processor directly or other components under the control of the processor
- a function corresponding to the command may be performed using It may be provided in the form of a medium, where 'non-transitory' means that the storage medium does not include a signal and is tangible, but does not distinguish that data is semi-permanently or temporarily stored in the storage medium .
- the method according to various embodiments may be included and provided in a computer program product.
- Computer program products may be traded between sellers and buyers as commodities.
- the computer program product may be distributed in the form of a machine-readable storage medium (eg, compact disc read only memory (CD-ROM)) or online through an application store (eg, Play StoreTM).
- an application store eg, Play StoreTM
- at least a portion of the computer program product may be temporarily stored or temporarily generated in a storage medium such as a memory of a server of a manufacturer, a server of an application store, or a relay server.
- Each of the components may be composed of a singular or a plurality of entities, and some sub-components of the aforementioned sub-components may be omitted, or other sub-components may be various. It may be further included in the embodiment.
- some components eg, a module or a program
- operations performed by a module, program, or other component may be sequentially, parallel, repetitively or heuristically executed, or at least some operations may be executed in a different order, omitted, or other operations may be added.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
전자 장치 및 이의 제어 방법이 개시된다. 본 개시에 따른 전자 장치의 제어 방법은 태스크(task)를 수행하는 컨텐츠를 포함하는 비디오를 획득하는 단계; 비디오의 제1 구간 내의 오브젝트 및 오브젝트에 대응되는 동작 정보를 식별하는 단계; 오브젝트에 대응되는 정보 및 동작 정보를 바탕으로, 제1 구간을 설명하기 위한 제1 텍스트를 획득하는 단계; 비디오의 제1 구간으로부터 획득된 음성 정보를 바탕으로 제2 텍스트를 획득하는 단계; 및 제1 텍스트 및 상기 제2 텍스트를 바탕으로, 태스크를 수행하기 위한 정보를 제공하는 단계;를 포함한다.
Description
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 비디오에 포함된 특정 태스크를 수행하기 위한 정보를 제공하는 전자 장치 및 이의 제어 방법에 관한 것이다.
최근 기술의 발전으로 특정 태스크(task)를 수행하는 컨텐츠를 포함하는 비디오(비디오)에 대한 정보가 많아지고 있다. 여기서 특정 태스크(task)란 요리를 수행하기 위한 태스크, 화장을 수행하기 위한 태스크 등 일련의 행위를 수행하는 태스크를 의미할 수 있다.
이에, 특정 태스크를 수행하는 컨텐츠를 포함하는 비디오비디오을 바탕으로, 특정 태스크를 수행하기 위한 정보를 요약하여 제공하기 위한 필요성이 대두되고 있다.
이에, 본 개시는 상술한 필요성에 따라 안출된 것으로, 구체적으로 특정 테스트를 수행하는 컨텐츠를 포함하는 비디오를 바탕으로 특정 태스크를 수행하기 위한 정보를 제공하는 전자 장치 및 이의 제어 방법을 제공한다.
본 개시의 일 실시 예에 따른, 전자 장치의 제어 방법은, 태스크(task)를 수행하는 컨텐츠를 포함하는 비디오를 획득하는 단계; 상기 비디오의 제1 구간 내의 오브젝트 및 상기 오브젝트에 대응되는 동작 정보를 식별하는 단계; 상기 오브젝트에 대응되는 정보 및 상기 동작 정보를 바탕으로, 상기 제1 구간을 설명하기 위한 제1 텍스트를 획득하는 단계; 상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 바탕으로 제2 텍스트를 획득하는 단계; 및 상기 제1 텍스트 및 상기 제2 텍스트를 바탕으로, 상기 태스크를 수행하기 위한 정보를 제공하는 단계;를 포함한다.
그리고, 상기 제2 텍스트를 획득하는 단계는, 상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 텍스트로 변환하는 단계; 및 상기 제1 텍스트와 상기 변환된 텍스트 간의 유사도를 바탕으로 변환된 텍스트 중 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트를 선택하는 단계;를 포함할 수 있다.
그리고, 상기 제2 텍스트를 획득하는 단계는, 음성 정보에 대응되는 영상을 분석하여, 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트로 획득하는 단계;를 더 포함할 수 있다.
그리고. 상기 특정 태스크를 수행하기 위한 정보는 상기 제1 텍스트 및 상기 제2 텍스트로부터 획득된 카테고리 정보를 바탕으로 획득되며, 상기 카테고리 정보는, 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보 중 하나 이상을 포함할 수 있다.
그리고, 상기 태스크를 수행하기 위한 정보를 제공하는 단계는, 상기 제1 텍스트에서 제1 카테고리 정보를 획득하는 단계; 상기 제2 텍스트에서 제2 카테고리 정보를 획득하는 단계; 및 상기 제1 카테고리 정보 및 상기 제2 카테고리 정보의 조합이 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하기에 충분한지 여부를 결정하는 단계;를 포함할 수 있다.
그리고, 상기 제1 카테고리 정보와 상기 제2 카테고리 정보의 조합이 불충분한 것으로 결정되면, 상기 비디오의 상기 제1 구간 내의 영상을 분석함으로 인해 제3 카테고리 정보를 획득하여 상기 비디오의 제1 구간에 해당하는 서브-태스크를 수행하기 위한 정보를 획득하는 단계; 및 상기 제1 카테고리 정보, 상기 제2 카테고리 정보 및 상기 제3 카테고리 정보를 바탕으로 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하는 단계;를 더 포함할 수 있다.
그리고, 상기 제3 카테고리 정보를 획득하는 단계는, 상기 오브젝트에 대응되는 상품 정보를 획득하는 단계; 및 상기 상품 정보 및 상기 오브젝트에 대응되는 상기 동작 정보를 바탕으로 수량 정보 및 단위 정보 중 적어도 하나를 획득하는 단계;를 포함할 수 있다.
그리고, 상기 제3 카테고리 정보를 획득하는 단계는, 상기 오브젝트에 대해 이미지 segmentation을 수행하여, 상기 오브젝트에 대응되는 부피 정보를 획득하는 단계; 및 상기 부피 정보를 바탕으로, 수량 정보 및 단위 정보 중 적어도 하나를 획득하는 단계;를 포함할 수 있다.
그리고, 상기 제1 카테고리 정보와 상기 제2 카테고리 정보의 조합이 충분한 것으로 결정되면, 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하는 단계; 및 복수의 구간 중 상기 비디오의 구간 각각에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하여 상기 태스크를 수행하기 위한 정보를 제공하는 단계;를 포함할 수 있다.
그리고, 상기 동영상은 스트리밍 방식으로 수신되며, 상기 오브젝트 및 상기 동작 정보는 상기 비디오가 재생되는 동안 식별될 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치는 적어도 하나의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 적어도 하나의 인스트럭션을 실행하는 적어도 하나의 프로세서;를 포함하고, 상기 적어도 하나의 프로세서는, 태스크(task)를 수행하는 컨텐츠를 포함하는 비디오를 획득하고, 상기 비디오비디오의 비디오의 제1 구간 내의 오브젝트 및 상기 오브젝트에 대응되는 동작 정보를 식별하고, 상기 오브젝트에 대응되는 정보 및 상기 동작 정보를 바탕으로, 상기 비디오의 제1 구간을 설명하기 위한 제1 텍스트를 획득하고, 상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 바탕으로 제2 텍스트를 획득하고, 상기 제1 텍스트 및 상기 제2 텍스트를 바탕으로, 상기 태스크를 수행하기 위한 정보를 제공한다.
그리고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 텍스트로 변환하고, 상기 제1 텍스트와 상기 변환된 텍스트 간의 유사도를 바탕으로 변환된 텍스트 중 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트를 선택할 수 있다.
그리고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 음성 정보에 대응되는 영상을 분석하여, 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트로 획득할 수 있다.
그리고, 상기 특정 태스크를 수행하기 위한 정보는 상기 제1 텍스트 및 상기 제2 텍스트로부터 획득된 카테고리 정보를 바탕으로 획득되며, 상기 카테고리 정보는, 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보 중 하나 이상을 포함할 수 있다.
그리고, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 제1 텍스트에서 제1 카테고리 정보를 획득하고, 상기 제2 텍스트에서 제2 카테고리 정보를 획득하고, 상기 제1 카테고리 정보 및 상기 제2 카테고리 정보의 조합이 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하기에 충분한지 여부를 결정할 수 있다.
상술한 바와 같은 다양한 실시 예들을 통해, 전자 장치는 비디오의 영상 정보뿐만 아니라, 음성 정보를 더 이용하여 비디오에 포함된 특정 태스크를 수행하기 위한 정보를 제공할 수 있다.
본 개시의 특정 실시 예의 상기 측면, 다른 측면, 특징 및 이점은 첨부 도면과 함께 기재되는 다음의 설명으로부터 더 명백해질 것이다.
도 1은 일 실시 예에 따른, 전자 장치의 구성을 도시한 블록도이다.
도 2a는 일 실시 예에 따른 오브젝트 인식 모델을 설명하기 위한 도면이다
도 2b는 일 실시 예에 따른 동작 인식 모델을 설명하기 위한 도면이다.
도 2c는 일 실시 예에 따른 카테고리 분류 모델(3000)을 설명하기 위한 도면이다.
도 3은 일 실시 예에 따른 비디오의 복수의 영상 구간을 각각 설명하기 위한 제1 텍스트를 획득하는 과정을 도시한 도면이다.
도 4는 일 실시 예에 따른 비디오의 복수의 영상 구간 별 제1 텍스트와 이에 대응되는 음성 정보를 식별하는 과정을 도시한 도면이다
도 5는 일 실시 예에 따른 비디오의 일 영상 구간에 대응되는 제1 텍스트 및 제2 텍스트를 바탕으로 해당 영상 구간에 대응되는 태스크 정보를 생성하는 과정을 도시한 도면이다.
도 6은 일 실시 예에 따른 제1 텍스트 및 음성 정보에 대응되는 제2 텍스트를 바탕으로 획득된 카테고리 정보가 불충분한 경우, 상품 인식 모델을 더 이용하여 카테고리 정보를 추가적으로 획득하는 과정을 도시한 도면이다.
도 7a은 일 실시 예에 따른 영역 인식 모델을 설명하기 위한 도면이다.
도 7b는 일 실시 예에 따른 부피 측정 모델을 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른 제1 텍스트 및 음성 정보에 대응되는 제2 텍스트를 바탕으로 획득된 카테고리 정보가 불충분한 경우, 영역 인식 모델 및 부피 측정 모델을 더 이용하여 카테고리 정보를 추가적으로 획득하는 과정을 도시한 도면이다.
도 9는 일 실시 예에 따른 태스크 정보를 획득하는 구체적인 방법을 도시한 흐름도이다.
도 10은 일 실시 예에 따른, 추가 카테고리 정보를 획득하기 위한 방법을 도시한 흐름도이다.
도 11은 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 12은 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 도시한 블록도이다.
이하에서는 도면들을 통해 본 개시를 상세히 설명하도록 한다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다. 본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
도 1은 일 실시 예에 따른, 전자 장치의 구성을 도시한 블록도이다.
도 1을 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다. 전자 장치(100)는 스마트 폰, AR 글래스, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, TV, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 카메라, 스마트 워치 등과 같은 다양한 형태의 전자 장치로 구현될 수 있다.
통신 인터페이스(110)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성이다. 통신 인터페이스(110)는 와이파이칩, 블루투스 칩, 무선 통신 칩, NFC 칩을 포함할 수 있다. 프로세서(130)는 통신 인터페이스(110)를 이용하여 각종 외부 장치와 통신을 수행할 수 있다. 구체적으로, 통신 인터페이스(110)를 통해 전자 장치(100)는 특정 태스크를 수행하는 컨텐츠를 포함하는 비디오를 수신할 수 있다. 일 예로, 전자 장치(100)는 통신 인터페이스(110)를 통해 스트리밍 방식으로 실시간으로 비디오를 수신할 수 있다. 스트리밍 방식이란, 유선 또는 무선 통신 방식을 통해 외부 서버 또는 외부 장치로부터 데이터를 실시간으로 수신하여 제공하는 방식이다. 다만 본 개시는 이에 한정되지 않고, 전자 장치(100)는 통신 인터페이스(110)를 통해 비디오를 다운 받아 메모리(120)에 저장할 수도 있다.
메모리(120)는 전자 장치(100)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 구체적으로, 메모리(120)에는 적어도 하나의 명령어가 저장될 수 있다. 프로세서(130)는 메모리(120)에 저장된 명령어를 실행함으로써 전자 장치(100)의 동작을 수행할 수 있다.
프로세서(130)는 메모리(120)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(130)는 메모리(120)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(130)는 통신 인터페이스(110)를 통해 획득한 특정 태스크(task)를 수행하는 컨텐츠를 포함하는 비디오를 설명하기 위한 태스크 정보 제공 기능을 제공할 수 있다. 본 개시에 따른 태스크 정보 제공 기능은 도 1에 도시된 바와 같이, 비디오 처리 모듈(131), 영상 인식 모듈(132), 음성 인식 모듈(133), 태스크 정보 획득 모듈(134), 태스크 정보 수정 모듈(135) 및 태스크 정보 제공 모듈(136)을 포함할 수 있으며, 각각의 모듈은 메모리(120)에 저장될 수 있다.
그리고, 태스크 정보 제공 기능이 수행되기 위해 복수의 모듈(131 내지 136)들이 프로세서(130)에 포함된 메모리(예로, 휘발성 메모리)에 로딩될 수 있다. 즉, 태스크 정보 제공 기능이 실행되면, 프로세서(130)는 복수의 모듈(131 내지 136)들을 비휘발성 메모리에서 휘발성 메모리로 로딩하여 복수의 모듈(131 내지 136)의 각 가능들을 실행할 수 있다. 로딩(loading)이란, 프로세서(130)가 액세스할 수 있도록 비휘발성 메모리에 저장된 데이터를 휘발성 메모리에 불러들여 저장하는 동작을 의미한다.
본 개시에 따른 일 실시 예로, 도 1에 도시된 바와 같이 메모리(120)에 저장된 복수의 모듈(131 내지 136)을 통해 태스크 정보 제공 기능이 구현될 수 있으나, 이에 한정되지 않고 태스크 정보 제공 기능이 외부 서버를 통해 구현될 수 있다.
복수의 모듈(131 내지 136)은 각각의 소프트웨어로 구현될 수 있으나, 이에 한정되지 않고 일부 모듈은 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또 다른 실시 예로, 복수의 모듈(131 내지 136)은 하나의 소프트웨어로 구현될 수 있다. 또한, 일부 모듈은 전자 장치(100) 내에서 구현되고, 다른 일부 모듈은 외부 서버에서 구현될 수 있다.
비디오 처리 모듈(131)은 통신 인터페이스(110)로부터 수신되는 비디오를 처리할 수 있다. 구체적으로, 비디오비디오 처리 모듈(131)은 통신 인터페이스(110)로부터 특정 태스크를 수행하는 컨텐츠를 포함하는 비디오를 획득할 수 있다. 일 예로, 비디오 처리 모듈(131)은 일련의 과정에 따라 요리 태스크를 수행하기 위한 비디오, 일련의 과정에 따라 화장 태스크를 수행하기 위한 비디오 등을 획득할 수 있다.
그리고, 비디오 처리 모듈(131)은 획득한 비디오의 영상에 대한 정보를 영상 인식 모듈(132)로 전송하고, 비디오의 음성에 대한 정보를 음성 인식 모듈(133)로 전송할 수 있다.
영상 인식 모듈(132)은 통신 인터페이스(110)로부터 수신되는 비디오의 영상 정보를 통해 특정 태스크를 설명하기 위한 제1 텍스트를 획득할 수 있다.
구체적으로, 영상 인식 모듈(132)은 비디오에 포함된 비디오의 특정 구간의 영상 프레임들을 바탕으로, 비디오의 비디오의 특정 구간을 설명하기 위한 제1 텍스트를 획득할 수 있다. 예로, 영상 인식 모듈(132)은 비디오의 제1 구간 내 영상 프레임을 통해 해당 영상 구간에 포함된 오브젝트 및 오브젝트에 대응되는 동작 정보를 식별할 수 있다.
일 실시 예로, 영상 인식 모듈(132)은 도 2a에 도시된 오브젝트 인식 모델(1000)을 통해 비디오에 포함된 오브젝트를 식별할 수 있다.
도 2a는 본 개시에 따른 오브젝트 인식 모델(1000)을 설명하기 위한 도면이다. 도 2a를 참조하면, 오브젝트 인식 모델(1000)은 convolution 인공 신경망 모델로 구현될 수 있으며, 영상 프레임을 입력 받아 영상에 포함된 오브젝트에 대한 정보를 출력할 수 있다. 그리고, 오브젝트 인식 모델(1000)은 특정 태스크에서 사용될 수 있는 오브젝트에 대한 이미지 프레임을 바탕으로 학습될 수 있다. 이에 따라, 오브젝트 인식 모델(1000)은 비디오를 입력 받아, 입력 받은 영상 각각의 프레임 별로 오브젝트를 검출할 수 있다.
일 실시 예로, 영상 인식 모듈(132)은 도 2b에 도시된 동작 인식 모델(2000)을 통해 비디오에 포함된 동작 정보를 식별할 수 있다.
도 2b는 본 개시에 따른 동작 인식 모델을 설명하기 위한 도면이다. 도 2b를 참조하면, 동작 인식 모델(2000)은 영상 프레임을 입력 받아, 영상에 포함된 동작에 대한 정보를 출력할 수 있다. 일 예로, 동작 인식 모델(2000)은 특정 태스크를 수행하기 위한 복수의 비디오들을 바탕으로 학습될 수 있다. 일 예로, 동작 인식 모델(2000)은 CNN(Convolutional Neural Networks) 레이어 및 LSTM(Long-Short term Memory) 레이어를 포함할 수 있다. 즉, 동작 인식 모델(2000)은 CNN 레이어를 통해 복수의 비디오 각각의 프레임들의 특징 벡터를 추출하고, 추출된 특징 벡터들을 LSTM 레이어의 입력 데이터로 제공하여, 최종적으로 비디오의 연속 프레임들의 종합 특징 벡터를 추출할 수 있다. 그리고, 추출된 종합 특징 벡터가 어떤 동작을 의미하는지를 라벨링 시킴으로 동작 인식 모델(2000)에 대한 학습이 수행될 수 있다. 이에 따라, 동작 인식 모델(2000)은 비디오를 입력 받아, 영상에 포함된 동작에 대한 정보를 획득할 수 있다.
그리고, 영상 인식 모듈(132)은 식별된 오브젝트 및 동작 정보를 바탕으로, 비디오에 포함된 복수의 영상 프레임 중 식별된 오브젝트를 바탕으로 식별된 동작 정보를 수행하는 비디오의 제1 구간을 식별하고, 비디오의 제1 구간을 설명하기 위한 제1 텍스트를 획득할 수 있다.
예를 들어, 영상 인식 모듈(132)은 닭요리를 레시피를 제공하기 위한 비디오에 포함된 복수의 프레임 중 '닭'의 오브젝트 정보와 '씻는다'의 동작 정보가 검출된 프레임들을 닭을 씻는 동작을 수행하는 비디오의 제1 구간으로 식별할 수 있다. 그리고, 영상 인식 모듈(132)은 비디오의 제1 구간을 설명하기 위한 제1 텍스트로 '닭을 씻는다'의 텍스트를 획득할 수 있다.
예를 들어, 영상 인식 모듈(132)은 닭요리를 레시피를 제공하기 위한 비디오에 포함된 복수의 프레임 중 '감자' 및 '칼'의 오브젝트 정보와, '자르다'의 동작 정보가 검출된 프레임들을 감자를 자르는 동작을 수행하는 비디오의 제2 구간으로 식별할 수 있다. 그리고, 영상 인식 모듈(132)은 비디오의 제2 구간을 설명하기 위한 제1 텍스트로 '감자를 칼로 자르다'라는 텍스트를 획득할 수 있다.
음성 인식 모듈(133)은 통신 인터페이스(110)로부터 수신되는 비디오에 포함된 음성 정보를 텍스트 데이터로 변환할 수 있다.
일 예로, 비디오에 '닭은 물에다가 잘 씻어 주세요'의 음성 정보가 포함되어 있는 경우, 음성 인식 모듈(133)은 해당 음성 정보를 텍스트 데이터로 변환할 수 있다.
일 예로, 음성 인식 모듈(133)은 음향(acoustic) 모델 및 언어(language)모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 발화 인식 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 음성 정보를 텍스트 데이터로 변환할 수 있다.
태스크 정보 획득 모듈(134)은 영상 정보를 통해 획득된 제1 텍스트와 비디오에 포함된 음성 정보를 매칭하여, 제1 텍스트 각각에 대응되는 제2 텍스트를 획득할 수 있다.
구체적으로, 태스크 정보 획득 모듈(134)은 영상 인식 모듈(132)을 통해 획득된 비디오의 제1 구간을 설명하기 위한 제1 텍스트와 음성 인식 모듈(133)을 통해 획득된 텍스트 데이터를 매칭하여, 복수의 텍스트 데이터 중 제1 텍스트와 관련된 텍스트 데이터를 제2 텍스트로 식별할 수 있다. 일 예로, 태스크 정보 획득 모듈(134)은 텍스트 데이터를 제1 텍스트와 비교하여 유사도를 획득하고, 획득된 유사도를 바탕으로 제1 텍스트와 관련된 텍스트 데이터를 제2 텍스트로 식별할 수 있다.
예를 들어, 태스크 정보 획득 모듈(134)은 음성 인식 모듈(133)을 통해 획득된 '닭은 물에다가 잘 씻어 주세요'의 텍스트 데이터를 비디오의 제1 구간을 설명하기 위한 '닭을 씻는다'의 제1 텍스트와 매칭시켜, 해당 텍스트 데이터를 비디오의 제1 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다.
예를 들어, 태스크 정보 획득 모듈(134)은 음성 인식 모듈(133)을 통해 획득된 '감자는 1개 정도 대충 먹기 좋게 잘라주세요'의 텍스트 데이터를 비디오의 제2 구간을 설명하기 위한 '감자를 칼로 자르다'의 제1 텍스트와 매칭시켜, 해당 텍스트 데이터를 비디오의 제2 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다. 또한, 음성 인식 모듈(133)을 통해 '감자는 1개 정도 먹기 좋게 자르면 됩니다.'가 획득되는 경우, 태스크 정보 획득 모듈(134)은 해당 텍스트 데이터를 비디오의 제2 구간을 설명하기 위한 '감자를 칼로 자르다'의 제1 텍스트와 매칭시켜 비디오의 제2 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다.
그리고, 태스크 정보 획득 모듈(134)은 획득된 제1 텍스트 및 제2 텍스트를 바탕으로, 비디오에 포함된 영상 구간 각각에 대응되는 태스크를 수행하기 위한 정보를 생성할 수 있는지 여부를 식별할 수 있다.
즉, 태스크 정보 획득 모듈(134)은 비디오의 특정 구간에 대응되는 제1 텍스트 및 제2 텍스트를 바탕으로 적어도 하나의 카테고리 정보를 획득할 수 있다. 일 예로, 카테고리 정보는, 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보를 포함할 수 있다. 여기서 오브젝트 정보는 해당 영상 구간에서 특정 태스크를 수행하는 주체에 대한 정보이며, 음성 인식 모듈(133)에서 획득한 오브젝트에 대한 정보일 수 있다. 그리고, 수량 정보는 해당 오브젝트에 대응되는 수량에 대한 정보이며, 단위 정보는 해당 오브젝트에 대응되는 단위에 대한 정보를 의미할 수 있다. 그리고, 도구 정보는 해당 오브젝트에 특정 동작을 수행할 때 이용되는 아이템에 대한 정보를 의미할 수 있다.
본 개시에 따르면, 태스크 정보 획득 모듈(134)은 도 2c에 도시된 카테고리 분류 모델(3000)을 통해, 제1 텍스트 또는 제2 텍스트에 포함된 카테고리를 식별할 수 있다.
도 2c는 일 실시 예에 따른 카테고리 분류 모델(3000)을 설명하기 위한 도면이다. 도 2c를 참조하면, 카테고리 분류 모델(3000)은 특정 태스크를 수행할 때 사용될 수 있는 텍스트에 카테고리 정보를 라벨링 시킨 학습 데이터를 바탕으로 학습될 수 있다. 일 예로, '순두부'라는 단어에 카테고리 정보 중 '오브젝트 정보'를 라벨링 시키고, '자르다'라는 단어에 카테고리 정보 '동작 정보'를 라벨링 시킨 학습 데이터를 통해 요리 태스크를 위한 카테고리 분류 모델(3000)을 학습시킬 수 있다. 그리고, 학습된 카테고리 분류 모델(3000)에 '순두부'라는 텍스트가 입력되면, 카테고리 분류 모델(3000)은 복수의 카테고리 정보 중 '오브젝트 정보'가 '순두부' 텍스트에 대응되는 카테고리 정보인 것으로 식별할 수 있다.
그리고, 태스크 정보 획득 모듈(134)은 해당 영상 구간에 대응되는 제1 텍스트 및 제2 텍스트를 바탕으로 태스크를 수행하기 위한 정보(태스크 정보)를 생성하기에 획득된 카테고리 정보가 충분한지 여부를 식별할 수 있다.
예를 들어, 비디오의 제2 구간에 대응되는 '감자를 칼로 자르다'의 제1 텍스트 및 ''감자는 1개 정도 먹기 좋게 자르면 됩니다.'의 제2 텍스트를 통해, 태스크 정보 획득 모듈(134)은 비디오의 제2 구간의 오브젝트 정보를 '감자'로, 수량 정보를 '하나'로, 단위 정보를 '개'로, 도구 정보를 '칼'로, 동작 정보를 '자르다'로 식별할 수 있다. 그리고, 비디오의 제2 구간에 대응되는 카테고리 정보를 모두 획득하였으므로, 태스크 정보 획득 모듈(134)은 비디오의 제2 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 비디오의 제2 구간에 대응되는 태스크 정보를 생성하기 충분한 것으로 식별할 수 있다.
다만, 이에 한정되지 않고, 태스크 정보 획득 모듈(134)은 제1 텍스트 및 제2 텍스트를 바탕으로 획득된 카테고리 정보가 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보 중 적어도 4개의 정보를 포함하는 경우에도 태스크 정보를 생성하기에 충분한 것으로 결정할 수 있다. 즉, 제1 텍스트 및 제2 텍스트를 바탕으로 오브젝트 정보, 수량 정보, 단위 정보, 동작 정보가 식별되었으나, 도구 정보가 식별되지 않은 경우에도 태스크 정보 획득 모듈(134)은 태스크 정보를 생성하기에 충분한 것으로 식별할 수 있다.
일 예로, 비디오의 제1 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보에 대응되는 카테고리 정보를 모두 획득한 경우, 태스크 정보 획득 모듈(134)은 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 충분한 것으로 식별할 수 있다.
비디오의 제1 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 충분한 것으로 결정되면, 태스크 정보 제공 모듈(136)을 통해, 비디오의 제1 구간에 대응되는 태스크 정보를 획득할 수 있다.
반면, 비디오의 제1 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 복수의 카테고리 정보 중 적어도 하나의 카테고리 정보를 획득하지 못한 경우, 태스크 정보 획득 모듈(134)은 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 불충분한 것으로 결정할 수 있다. 다만, 이에 한정되지 않고, 비디오의 제1 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 복수의 카테고리 정보 중 수량 정보 및 단위 정보 중 적어도 하나를 획득하지 못한 경우에 태스크 정보 획득 모듈(134)은 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 불충분한 것으로 결정할 수 있다.
예를 들어, 제3 영상 구간에 대응되는 '통깨를 넣다'의 제1 텍스트 및 "마지막으로 통깨를 넣어주세요'의 제2 텍스트를 통해, 태스크 정보 획득 모듈(134)은 제3 영상 구간의 오브젝트 정보를 '통깨'로, 동작 정보를 '넣다'로 식별할 수 있다. 그리고, 제1 텍스트 및 제2 텍스트를 통해 제3 영상 구간의 수량 정보, 단위 정보 및 도구 정보를 획득하지 못하였으므로, 태스크 정보 획득 모듈(134)은 제3 영상 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 제3 영상 구간에 대응되는 태스크 정보를 생성하기 불충분한 것으로 결정할 수 있다.
비디오의 제1 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 불충분한 것으로 결정되면, 태스크 정보 수정 모듈(135)을 통해, 비디오의 제1 구간에 대응되는 카테고리 정보를 더 획득할 수 있다.
태스크 정보 수정 모듈(135)은 비디오를 분석하여 비디오의 해당 구간에 대응되는 카테고리 정보를 획득할 수 있다. 즉, 비디오의 제1 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 불충분한 경우, 태스크 정보 수정 모듈(135)은 비디오의 제1 구간의 영상을 분석하여 카테고리 정보를 추가로 획득할 수 있다.
본 개시에 따르면, 태스크 정보 수정 모듈(135)은 상품 인식 모델을 이용하여 비디오의 제1 구간의 수량 정보 및 단위 정보 중 적어도 하나를 획득할 수 있다.
상품 인식 모델은오브젝트에 대한 상품 정보를 인식할 수 있다. 상품 인식 모델은 특정 태스크를 수행할 때 필요한 상품의 이미지 데이터를 통해 학습이 수행될 수 있다.
일 예로, 오브젝트 인식 모델(1000)로부터 비디오의 특정 구간에 대응되는 오브젝트가 '후추'인 것으로 식별되었으나, 태스크 정보 획득 모듈(134)을 통해 해당 영상 구간의 카테고리 정보 중 수량 정보 및 단위 정보 중 적어도 하나가 식별되지 않으면, 태스크 정보 수정 모듈(135)은 상품 인식 모델을 이용하여 '후추'로 식별된 오브젝트의 상품 정보, 즉, 제조사 정보, 용기 용량 정보 등을 식별할 수 있다. 그리고, 동작 인식 모델(2000)로부터 후추 용기에 대응되는 동작 정보가 "우측 상단 투출구로 3회 투입'인 것으로 식별되면, 태스크 정보 수정 모듈(135)은 해당 영상 구간의 수량 정보를 '3'으로, 단위 정보를 '회'로 식별할 수 있다. 또한, 태스크 정보 수정 모듈(135)은 '000제품 순후추 50G 기준 우측 상단 투출구로 3회 투입'의 동작 정보를 더 획득할 수 있다. 그리고, 태스크 정보 수정 모듈(135)에서 획득한 카테고리 정보를 더 이용하여 태스크 정보 제공 모듈(136)은 해당 영상 구간의 태스크 정보를 생성할 수 있다.
일 예로, 태스크 정보 수정 모듈(135)은 부피 측정 모델을 이용하여 비디오의 제1 구간의 수량 정보 및 단위 정보 중 적어도 하나를 획득할 수 있다.
부피 측정 모델이란, 오브젝트의 부피 정보를 획득하기 위한 모델로, 특정 태스크에 대응되는 오브젝트에 해당되는 부피를 예측하는 딥러닝 인공지능 모델을 통해 구현될 수 있다.
태스크 정보 수정 모듈(135)은 부피 측정 모델을 이용하여, 비디오의 특정 구간 내에서 오브젝트 부분을 검출하고, 전체 영역과 해당 오브젝트 영역을 분할하여 각각의 비율을 계산할 수 있다. 그리고, 태스크 정보 수정 모듈(135)은 부피 측정 모델을 이용하여 전체 영역에 대응되는 부피 인식 결과에 계산된 비율을 적용하여 해당 오브젝트의 부피를 측정할 수 있다. 일 예로, 비디오의 특정 구간에 대응되는 오브젝트가 '후추'이며, 동작이 '넣는다'인 경우, 부피 측정 모델은 전체 용기 영역의 부피와 후추에 해당되는 영역의 비율을 0.6으로 계산할 수 있다. 그리고, 부피 측정 모델은 전체 용기 영역의 부피를 100ml로 측정하고, 전체 용기 영역 부피에서 계산된 비율을 적용하여 '후추' 해당하는 영역의 부피 정보를 60ml로 측정할 수 있다. 그리고, 태스크 정보 수정 모듈(135)은 측정된 부피 정보를 바탕으로, 해당 영상 구간에 대응되는 수량 정보를'60'으로, 단위 정보를 'ml'로 식별할 수 있다. 그리고, 태스크 정보 수정 모듈(135)에서 획득한 카테고리 정보를 더 이용하여 태스크 정보 제공 모듈(136)은 해당 영상 구간의 태스크 정보를 생성할 수 있다.
상술한 실시 예에서는 비디오의 특정 구간에 대응되는 제1 및 제2 텍스트를 통해 태스크 정보를 생성하기 불충분한 경우에 태스크 정보 수정 모듈(135)을 이용하여 카테고리 정보를 추가로 획득하는 것으로 설명하였으나, 본 개시는 이에 한정되지 않는다. 일 실시 예로, 비디오의 음성 정보 중 제1 텍스트와 매칭되지 않는 음성 정보가 있는 경우, 태스크 정보 수정 모듈(135)은 해당 음성 정보에 대응되는 영상을 이용하여 제1 텍스트와 매칭시킬 수 있다. 즉, 태스크 정보 획득 모듈(134)에서 음성 인식 모듈(133)에서 획득된 복수의 텍스트 데이터 중 제1 텍스트와 매칭되지 않은 텍스트 데이터를 식별하고, 태스크 정보 수정 모듈(135)은 제1 텍스트와 매칭되지 않은 텍스트 데이터에 대응되는 영상 구간을 오브젝트 인식 모델(1000)을 이용하여 분석하여 텍스트 데이터에 대응되는 오브젝트 정보를 획득할 수 있다. 그리고, 획득된 오브젝트 정보를 바탕으로, 음성 정보를 제1 텍스트와 매칭시킬 수 있다.
예로, 태스크 정보 획득 모듈(134)에서 '이거 3개 넣을게요'라는 음성 정보에 대응되는 텍스트 데이터를 제1 텍스트와 매칭되지 않은 텍스트 데이터로 식별되면, 태스크 정보 수정 모듈(135)은 오브젝트 인식 모델(1000)을 이용하여 해당 텍스트 데이터에 대응되는 음성 정보가 발화된 구간의 영상에서 '홍고추'의 오브젝트를 인식할 수 있다. 그리고, 태스크 정보 수정 모듈(135)은 해당 텍스트 데이터를 '홍고추'의 오브젝트에 대응되는 영상 구간의 제1 텍스트와 매칭시킬 수 있다.
태스크 정보 제공 모듈(136)은 태스크 정보 획득 모듈(134) 및 태스크 정보 수정 모듈(135)에서 획득한 카테고리 정보를 이용하여 비디오에 포함된 영상 구간 각각의 태스크 정보를 획득하기 위한 구성이다.
즉, 태스크 정보 획득 모듈(134)을 통해 비디오의 특정 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 충분한 것으로 결정되면, 태스크 정보 제공 모듈(136)은 제1 텍스트 및 제2 텍스트를 이용하여 해당 영상 구간의 태스크 정보를 생성할 수 있다.
반면, 태스크 정보 획득 모듈(134)을 통해 비디오의 특정 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 비디오의 제1 구간에 대응되는 태스크 정보를 생성하기 불충분한 것으로 결정되면, 태스크 정보 제공 모듈(136)은 제1 텍스트 및 제2 텍스트 및 태스크 정보 수정 모듈(135)에서 획득한 카테고리 정보를 더 이용하여, 해당 영상 구간의 태스크 정보를 생성할 수 있다.
그리고, 태스크 정보 획득 모듈(134)은 비디오에 포함된 영상 구간 각각의 태스크를 수행하기 위한 정보를 종합하여, 비디오에 대응되는 태스크 정보를 제공할 수 있다. 예로, 요리 테스트를 수행하는 비디오를 통해, 태스크 정보 획득 모듈(134)은 해당 비디오에서 수행한 일련의 과정을 요약한 레시피 정보를 생성하여 제공할 수 있다. 즉, 태스크 정보 획득 모듈(134)은 비디오의 제1 구간의 제1 텍스트(닭을 씻는다) 및 제2 텍스트(닭은 물에다가 잘 씻어 주세요)를 통해 '닭을 물에 씻는다'라는 레시피 정보를 획득할 수 있다. 또한, 제2 텍스트를 바탕으로, 레시피 정보에 대한 추가 정보를 더 획득하여 레시피 정보와 함께 제공할 수 있으며, 이에 대해서는 이하의 도면을 통해 설명하도록 한다.
상술한 실시 예들을 통해, 본 개시에 따른 전자 장치는 비디오에 포함된 영상 정보뿐만 아니라, 음성 정보를 더 이용하여 비디오에 대한 정보를 제공할 수 있다. 또한, 상술한 다양한 인공지능 모델들을 이용하여, 비디오에 대응되는 특정 태스크를 수행하기 위한 정보를 제공할 수 있다.
도 3은 일 실시 예에 따른 비디오의 복수의 영상 구간을 각각 설명하기 위한 제1 텍스트를 획득하는 과정을 도시한 도면이다.
일 실시 예에 따른, 전자 장치(100)는 닭요리 컨텐츠를 포함하는 비디오를 획득할 수 있다. 그리고, 전자 장치(100)는 획득한 비디오의 영상 프레임 각각의 영상 정보를 이용하여 오브젝트 및 오브젝트에 대응되는 동작 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 획득된 오브젝트 및 동작 정보를 바탕으로, 비디오에 포함된 복수의 영상 구간을 식별할 수 있다. 일 예로, 도 3을 참조하면, 전자 장치(100)는 비디오에 포함된 복수의 영상 프레임 중 '닭'의 오브젝트와 '씻는다'의 동작정보가 획득된 영상 프레임들을 비디오의 제1 구간(10)으로 식별할 수 있다. 그리고, 전자 장치(100)는 비디오에 포함된 복수의 영상 프레임 중 '감자'의 오브젝트와 '자른다'의 동작정보가 획득된 영상 프레임들을 비디오의 제2 구간(20)으로 식별할 수 있다. 그리고, 전자 장치(100)는 비디오에 포함된 복수의 영상 프레임 중 '토막 닭', '당근', '버섯'의 오브젝트와 '끓인다' 및 '익힌다'의 동작정보가 획득된 영상 프레임들을 제3 영상 구간(30)으로 식별할 수 있다.
그리고, 전자 장치(100)는 식별된 영상 구간 각각에 대응되는 오브젝트 및 동작 정보를 바탕으로, 영상 구간 각각의 태스크를 설명하기 위한 제1 텍스트를 획득할 수 있다.
즉, 전자 장치(100)는 비디오의 제1 구간(10)에 대응되는 오브젝트(닭) 및 동작 정보(씻는다)를 바탕으로, '닭을 씻는다'의 텍스트(10-1)를 획득하여 이를 비디오의 제1 구간을 설명하기 위한 제1 텍스트로 식별할 수 있다. 또한, 전자 장치(100)는 비디오의 제2 구간(20)에 대응되는 오브젝트(감자) 및 동작 정보(자르다)를 바탕으로, '감자를 자른다'의 텍스트(20-1)를 획득하여 이를 비디오의 제2 구간을 설명하기 위한 제1 텍스트로 식별할 수 있다. 그리고, 전자 장치(100)는 제3 영상 구간(30)에 대응되는 오브젝트('토막 닭', '당근', '버섯') 및 동작 정보('끓인다', '익힌다')를 바탕으로, '토막 닭, 당근, 버섯 등을 끓인다(익힌다)'의 텍스트(30-1)를 획득하여 이를 제3 영상 구간을 설명하기 위한 제1 텍스트로 식별할 수 있다.
도 4는 본 개시에 따른 비디오의 복수의 영상 구간 별 제1 텍스트와 이에 대응되는 음성 정보를 식별하는 과정을 도시한 도면이다.
도 3을 통해 영상 구간 각각을 설명하기 위한 제1 텍스트가 획득되면, 전자 장치(100)는 비디오에 포함된 음성 정보 각각을 복수의 영상 구간에 매칭시킬 수 있다. 일 예로, 전자 장치(100)는 비디오에 포함된 음성 정보를 음성 인식 모듈(133)을 통해 텍스트 데이터로 변환할 수 있다. 그리고, 전자 장치(100)는 태스크 정보 획득 모듈(134)을 통해 변환된 텍스트 데이터와 복수의 영상 구간 각각의 복수의 제1 텍스트와 유사도를 획득할 수 있다. 그리고, 전자 장치(100)는 획득된 유사도를 바탕으로 복수의 변환된 텍스트 데이터를 복수의 영상 구간 각각과 매칭할 수 있다.
도 4를 참조하면, 전자 장치(100)는 "닭은 물에다가 잘 씻어 주면 돼요"의 음성 정보를 텍스트 데이터로 변환하고, 복수의 제1 텍스트 각각에 대한 유사도를 바탕으로 해당 음성 정보를 "닭을 씻는다"의 텍스트(10-1)에 대응되는 비디오의 제1 구간과 매칭시킬 수 있다. 그리고, 전자 장치(100)는 해당 텍스트 데이터를 비디오의 제1 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다.
그리고, 전자 장치(100)는 "감자가 없으면 고구마 넣으셔도 됩니다."및 "감자는 1개정도 대충 먹기 좋게 자르면 돼요"의 음성 정보를 텍스트 데이터로 변환하고, 복수의 제1 텍스트 각각에 대한 유사도를 바탕으로 해당 음성 정보를 "감자를 자른다"의 텍스트(10-2)에 대응되는 비디오의 제2 구간과 매칭시킬 수 있다. 그리고, 전자 장치(100)는 해당 텍스트 데이터들을 비디오의 제2 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다.
그리고, 전자 장치(100)는 "냄비 큰 거 에다가 이제 닭을 익힐 거에요." 의 음성 정보를 텍스트 데이터로 변환하고, 복수의 제1 텍스트 각각에 대한 유사도를 바탕으로 해당 음성 정보를 '토막 닭, 당근, 버섯 등을 끓인다(익힌다)'의 텍스트(10-3)에 대응되는 제3 영상 구간과 매칭시킬 수 있다. 그리고, 전자 장치(100)는 해당 텍스트 데이터를 제3 영상 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다.
도 5는 일 실시 예에 따른 비디오의 일 영상 구간에 대응되는 제1 텍스트 및 제2 텍스트를 바탕으로 해당 영상 구간에 대응되는 태스크 정보를 생성하는 과정을 도시한 도면이다.
도 4에 도시된 바와 같이 영상 구간 각각에 대응되는 제1 텍스트 및 제2 텍스트가 획득되면, 전자 장치(100)는 제1 텍스트 및 제2 텍스트를 바탕으로 특정 태스크를 수행하기 위한 태스크 정보를 획득할 수 있다.
도 5를 참조하면, 전자 장치(100)는 비디오의 복수의 영상 구간 중 비디오의 제2 구간(20)에 대응되는 태스크 정보를 획득할 수 있다. 구체적으로, 전자 장치(100)는 비디오의 제2 구간(20)의 제1 텍스트 및 제2 텍스트를 통해 카테고리 정보를 식별할 수 있다. 즉, 전자 장치(100)는 비디오의 제2 구간(20)의 제1 텍스트로부터 '감자'의 오브젝트 정보 및 '자른다'의 오브젝트 정보를 획득할 수 있다. 그리고, 전자 장치(100)는"감자는 1개정도 대충 먹기 좋게 자르면 돼요"의 제2 텍스트를 통해 '하나'의 수량 정보 및 '개'의 단위 정보를 획득할 수 있다.
그리고, 일 예로, 전자 장치(100)는 비디오의 제2 구간(20)의 영상 프레임들을 분석하여 도구 정보를 더 획득할 수 있다. 즉, 전자 장치(100)는 비디오의 제2 구간(20)의 영상 프레임에서 '칼'의 도구 정보를 더 획득할 수 있다. 여기서, 전자 장치(100)는 오브젝트 인식 모델(1000)을 이용하여 '칼'의 도구 정보를 획득할 수 있다. 즉, 요리 태스크에 대응되는 오브젝트 인식 모델(1000)은 식재료 정보 및 도구 정보를 획득하기 위한 인공지능 모델일 수 있다.
다만, 본 개시는 이에 한정되지 않는다. 즉, 요리 태스크에 대응되는 태스크 정보를 획득하는 경우, 전자 장치(100)는 식재료 정보를 획득하기 위한 제1 오브젝트 인식 모델을 이용하여 오브젝트 정보를 획득하고, 도구 재료 정보를 획득하기 위한 제2 오브젝트 인식 모델 각각을 도구 정보를 획득할 수 있다. 즉, 제1 오브젝트 인식 모델은 식재료 만을 바탕으로 학습된 인공지능 모델이며, 제2 오브젝트 인식 모델은 도구 재료 만을 바탕으로 학습된 인공지능 모델일 수 있다.
그리고, 전자 장치(100)는 획득된 카테고리 정보를 바탕으로, 비디오의 제2 구간(20)에 대응되는 태스크 정보를 생성할 수 있다. 즉, 전자 장치(100)는 획득된 오브젝트 정보, 동작 정보, 도구 정보, 단위 정보 및 수량 정보를 통해, '감자 1개를 칼로 잘라주세요'의 태스크 정보를 생성할 수 있다. 또한, 전자 장치(100)는 비디오의 제2 구간(20)에 대응되는 제2 텍스트 중 "감자가 없으면 고구마 사용해도 됩니다"의 텍스트 또한 비디오의 제2 구간(20)의 태스크 정보로 식별할 수 있다. 즉, 전자 장치(100)는 제1 텍스트 및 제2 텍스트의 카테고리 정보를 통해 생성된 태스크 정보와 함께 제2 텍스트에서 태스크 정보를 보충할 추가 태스크 정보를 식별하여 제공할 수 있다.
도 6은 일 실시 예에 따른 제1 텍스트 및 음성 정보에 대응되는 제2 텍스트를 바탕으로 획득된 카테고리 정보가 불충분한 경우, 상품 인식 모델을 더 이용하여 카테고리 정보를 추가적으로 획득하는 과정을 도시한 도면이다.
일 실시 예로, 전자 장치(100)는 일 영상 구간에 대응되는 영상 정보를 이용하여 해당 영상 구간의 오브젝트를 '후추'로, 동작 정보를 '뿌리다'로 식별할 수 있다. 그리고, 전자 장치(100)는 해당 영상 구간의 제1 텍스트로 '후추를 뿌리다'의 텍스트를 생성할 수 있다.
그리고, 음성 정보 중 해당 영상 구간에 대응되는 '후추를 솔솔솔 뿌려줍니다"의 음성 정보를 텍스트로 변환하여 해당 영상 구간에 대응되는 제2 텍스트로 식별할 수 있다.
그리고, 전자 장치(100)는 제1 텍스트 및 제2 텍스트를 통해 카테고리 정보를 식별할 수 있다.
전자 장치(100)는 제1 텍스트 및 제2 텍스트를 통해 수량 정보, 단위 정보 및 도구 정보가 획득되지 않은 것으로 식별할 수 있다. 그리고, 전자 장치(100)는 상품 인식 모델을 통해 해당 영상 구간의 오브젝트에 대응되는 '후추'에 대한 상품 정보를 식별할 수 있다. 본 개시에 따른 상품 인식 모델은 오브젝트에 대한 상품 정보를 인식하기 위한 모델로, 상품의 이미지 데이터를 통해 학습이 수행될 수 있다. 즉, 상품 인식 모델은 상품에 대한 이미지를 입력 받아, 제조사 정보, 용기 용량 정보 등에 대한 상품 정보를 출력할 수 있다. 즉, 도 6의 영상 구간에 대응되는 영상 정보를 상품 인식 모델에 입력하여, 전자 장치(100)는 '후추' 오브젝트에 대응되는 상품 정보(A사 순후추 50g)를 획득할 수 있다.
그리고, 전자 장치(100)는 동작 인식 모델(2000)을 더 이용하여, '후추' 오브젝트에 대응되는 동작 정보가 "우측 상단 투출구로 3회 투입'인 것으로 식별할 수 있다. 그리고, 전자 장치(100)는 획득한 상품 정보 및 동작 정보를 이용하여 해당 영상 구간에 대응되는 카테고리 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 카테고리 정보를 바탕으로 "A사 순후추 50g 기준으로 우측 상단 투출구를 이용하여 후추를 3회 넣어주세요"의 태스크 정보를 생성할 수 있다.
도 7a은 일 실시 예에 따른 영역 인식 모델을 설명하기 위한 도면이다. 도 7b는 일 실시 예에 따른 부피 측정 모델을 설명하기 위한 도면이다.
전자 장치(100)는 제1 텍스트 및 제2 텍스트를 바탕으로 카테고리 정보를 획득할 수 있다. 다만, 제1 텍스트 및 제2 텍스트를 바탕으로 획득된 카테고리 정보가 태스크 정보를 생성하기에 불충분할 경우, 전자 장치(100)는 영역 인식 모델 및 부피 측정 모델을 이용하여, 수량 정보 및 단위 정보를 획득할 수 있다.
영역 인식 모델은 영상 프레임을 수신 받아, 영상 프레임에서 오브젝트 각각에 해당되는 영역을 인식하고, 영상 프레임에서 오브젝트를 인식하고, 영상 영역 중 인식된 오브젝트에 대응되는 영역을 식별할 수 있다. 일 예로, 영역 인식 모델은 segmentation을 수행하는 딥러닝 모델로 구현될 수 있다.
즉, 도 7a와 같이 영역 인식 모델은 영상 프레임을 입력 받아 그릇에 대응되는 영역 및 오브젝트(음식)에 대응되는 영역을 구분할 수 있다.
부피 측정 모델은 영상 프레임을 입력 받아, 영상 프레임에서 오브젝트의 부피를 측정할 수 있다. 즉, 부피 측정 모델은 도 7b와 같이 영상 프레임에서 오브젝트에 대응되는 영역을 인식하여, 해당 영역을 통해 오브젝트의 부피를 측정할 수 있다. 일 예로, 부피 측정 모델은 오브젝트에 대응되는 영역의 부피를 예측하는 딥러닝 모델로 구현될 수 있다.
도 8은 일 실시 예에 따른 제1 텍스트 및 음성 정보에 대응되는 제2 텍스트를 바탕으로 획득된 카테고리 정보가 불충분한 경우, 영역 인식 모델 및 부피 측정 모델을 더 이용하여 카테고리 정보를 추가적으로 획득하는 과정을 도시한 도면이다.
도 8을 참조하면, 전자 장치(100)는 부피 측정 모델을 통해 일 영상 프레임에서 오브젝트가 담긴 용기의 부피 정보를 식별할 수 있다.
그리고, 전자 장치(100)는 영역 인식 모델을 이용하여, 용기 내의 오브젝트 각각의 영역을 식별할 수 있다. 일 예로, 도 8을 참조하면, "통깨를 넣다"의 제1 텍스트에 대응되는 영상 구간의 카테고리 정보를 획득하기 위해 전자 장치(100)는 부피 측정 모델을 통해 해당 영상 구간에 대응되는 영상 프레임에서 용기에 대응되는 영역(800)을 식별하고, 해당 영역을 통해 용기의 부피 정보를 100ml로 식별할 수 있다. 그리고, 전자 장치(100)는 영역 인식 모델을 이용하여 해당 영상 구간에 대응되는 영상 프레임에서 용기 내 모든 오브젝트에 해당되는 영역(810)과 통깨에 해당되는 영역(820)을 인식할 수 있다. 그리고, 전자 장치(100)는 인식 결과를 바탕으로 '통깨' 오브젝트에 대응되는 수량 정보 및 단위 정보를 식별할 수 있다. 즉, 도 8을 참조하면, 모든 오브젝트에 해당되는 영역(810)이 500 픽셀 이며, 통깨에 해당되는 영역(820)이 300 픽셀이며, 용기의 부피 정보가 100ml로 식별되었으므로, 전자 장치(100)는 통깨의 부피 정보를 '60'으로 식별하고 (100 x (300 픽셀 / 500 픽셀) = 60) 단위 정보를 'ml'로 식별할 수 있다. 그리고, 전자 장치(100)는 획득된 부피 정보를 단위 정보를 더 이용하여, "통깨를 60ml 넣어주세요"의 태스크 정보를 획득할 수 있다.
도 9는 본 개시에 따른 태스크 정보를 획득하는 구체적인 방법을 도시한 흐름도이다.
우선, 전자 장치(100)는 비디오를 획득할 수 있다(S905). 비디오는 요리를 만드는 컨텐츠 등과 같이 특정 태스크를 수행하는 컨텐츠를 포함할 수 있다. 일 예로, 전자 장치(100)는 외부 서버로부터 비디오를 스트리밍 방식으로 획득하거나, 다운 받아 획득할 수 있다.
S910 단계에서, 비디오가 획득되면, 전자 장치(100)는 비디오에 포함된 영상 정보를 바탕으로 오브젝트 및 동작 정보를 획득할 수 있다. 즉, 전자 장치(100)는 비디오의 일 영상 구간에 포함된 오브젝트(예로, 감자) 및 오브젝트에 대한 동작 정보(예로, 자르다)를 획득할 수 있다. 즉, 전자 장치(100)는 비디오에 포함된 영상 프레임 각각에서 오브젝트 및 동작 정보를 획득하고, 획득된 오브젝트 및 동작 정보가 동일한 영상 프레임들을 하나의 영상 구간으로 식별할 수 있다. 즉, 전자 장치(100)는 감자를 칼로 자르는 영상 프레임 전체를 하나의 영상 구간으로 식별할 수 있다.
S915 단계에서, 전자 장치(100)는 오브젝트 및 동작 정보를 바탕으로 제1 텍스트(예로, 감자를 자르다)를 획득할 수 있다.
S920 단계에서, 전자 장치(100)는 비디오에 포함된 음성 정보를 텍스트로 변환할 수 있다. S925 단계에서, 전자 장치(100)는 변환된 텍스트와 제1 텍스트를 매칭할 수 있다. 즉, 전자 장치(100)는 음성 정보를 통해 변환된 복수의 텍스트를 복수의 영상 구간 각각의 제1 텍스트와 매칭할 수 있다.
S930 단계에서, 전자 장치(100)는 제1 텍스트와 매칭되는 변환된 텍스트가 존재하는지 여부를 식별할 수 있다.
변환된 텍스트 중 제1 텍스트와 매칭되는 텍스트가 존재하면(S930-Y), 전자 장치(100)는 변환된 텍스트를 매칭된 제1 텍스트에 대한 제2 텍스트로 식별할 수 있다(S945). S950 단계에서, 전자 장치(100)는 제1 텍스트 및 제2 텍스트를 바탕으로 카테고리 정보를 획득할 수 있다.
일 예로, 전자 장치(100)는 비디오에 포함된 복수의 영상 구간 중 비디오의 제1 구간에 대한 오브젝트 및 동작 정보를 획득함으로, 비디오의 제1 구간에 대한 제1 텍스트를 획득할 수 있다. 그리고, 전자 장치(100)는 S920 단계를 통해 변환된 복수의 텍스트 각각과 유사도를 비교하여 비디오의 제1 구간의 제1 텍스트와 매칭되는 텍스트를 제2 텍스트로 식별하고, 식별된 제2 텍스트와 제1 텍스트를 이용하여 비디오의 제1 구간에 대한 카테고리 정보를 획득할 수 있다.
변환된 텍스트 중 제1 텍스트와 매칭되는 텍스트가 존재하지 않으면(S930-N), 전자 장치(100)는 변환된 텍스트에 대응되는 영상 정보를 분석하여 오브젝트 정보를 획득할 수 있다(S935). 즉, S920 과정에서 변환된 복수의 텍스트 중 제1 텍스트와 매칭되지 않는 텍스트를 식별하고, 식별된 변환된 텍스트의 음성 정보에 대응되는 영상 정보를 분석하여 오브젝트 정보를 획득할 수 있다. 일 예로, 식별된 변환된 텍스트의 음성 정보에 대응되는 영상 정보는 해당 음성 정보가 출력된 시점에 대응되는 영상 구간의 영상 프레임일 수 있다.
S940 단계에서, 전자 장치(100)는 영상 정보를 분석하여 획득된 오브젝트 정보를 통해 변환된 텍스트와 매칭되는 제1 텍스트를 식별할 수 있다. 즉, 전자 장치(100)는 영상 정보를 분석하여 획득된 오브젝트 정보를 포함하고 있는 제1 텍스트를 식별할 수 있다. S945 단계에서, 전자 장치(100)는 변환된 텍스트를 매칭된 제1 텍스트에 대한 제2 텍스트로 식별하고, S950 단계에서, 제1 텍스트 및 제2 텍스트를 바탕으로 카테고리 정보를 획득할 수 있다.
S955 단계에서, 전자 장치(100)는 획득된 카테고리 정보가 태스크 정보를 획득하기 충분한지 여부를 식별할 수 있다. 일 예로, 전자 장치(100)는 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보 중 적어도 하나의 카테고리 정보를 획득하지 못한 경우, 태스크 정보를 획득하기 불충분한 것으로 식별할 수 있다. 다만, 이에 한정되지 않고, 복수의 카테고리 정보 중 제1 텍스트 및 제2 텍스트를 통해 수량 정보 및 단위 정보 중 적어도 하나를 획득하지 못한 경우에 전자 장치(100)는 태스크 정보를 생성하기 불충분한 것으로 식별할 수 있다.
카테고리 정보가 태스크 정보를 획득하기 불충분한 것으로 식별되면(S955-N), 전자 장치(100)는 제2 텍스트에 대응되는 영상 정보를 분석하여 추가 카테고리 정보를 획득할 수 있다(S960). 일 예로, 전자 장치(100)는 상품 인식 모델, 부피 측정 모델 및 영역 인식 모델을 더 이용하여, 추가 카테고리 정보를 획득할 수 있으며, 이에 대해서는 도 10을 통해 후술하도록 한다.
S965 단계에서, 추가 카테고리 정보가 획득되면, 전자 장치(100)는 태스크 정보를 생성할 수 있다(S965). 즉, 전자 장치(100)는 일 영상 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 획득된 카테고리 정보와 추가 카테고리 정보를 이용하여 일 영상 구간에 대응되는 태스크 정보를 생성할 수 있다.
카테고리 정보가 태스크 정보를 획득하기 충분한 것으로 식별되면(S955-Y), 전자 장치(100)는 태스크 정보를 생성할 수 있다(S965). 즉, 전자 장치(100)는 일 영상 구간에 대응되는 제1 텍스트 및 제2 텍스트를 통해 획득된 카테고리 정보를 이용하여 일 영상 구간에 대응되는 태스크 정보를 생성할 수 있다.
그리고, 전자 장치(100)는 영상 구간 각각에 대해 생성된 태스크 정보를 종합하여, 비디오에 포함된 특정 태스크를 수행하기 위한 정보를 제공할 수 있다.
도 10은 본 개시의 일 실시 예에 따른, 추가 카테고리 정보를 획득하기 위한 방법을 도시한 흐름도이다.
전자 장치(100)는 도 9를 참조하면, S950 단계에서 획득된 카테고리 정보가 태스크 정보를 획득하기 불충분한 것으로 결정할 수 있다(S955). 구체적으로, S1005 단계에서, 전자 장치(100)는 제1 텍스트 및 제2 텍스트를 통해 수량 정보 및 단위 정보 중 적어도 하나를 획득하지 못한 것으로 식별할 수 있다.
S1010 단계에서, 전자 장치(100)는 제1 텍스트에 대응되는 비디오의 제1 구간의 영상 정보를 통해 상품 정보가 획득되는지 여부를 식별할 수 있다. 구체적으로, 전자 장치는 도 6에서 설명한 상품 인식 모델을 통해 비디오의 제1 구간에서 오브젝트의 상품 정보를 획득할 수 있다.
영상 정보를 통해 상품 정보가 획득되면(S1010-Y), 전자 장치(100)는 식별된 상품 정보에 대응되는 동작 정보를 획득할 수 있다. 일 예로, 전자 장치(100)는 도 6에서 설명한 바와 같이 해당 영상 구간을 분석하여, 오브젝트에 대한 동작 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 식별된 상품 정보 및 동작 정보를 바탕으로, 오브젝트에 대응되는 수량 정보 및 단위 정보를 획득할 수 있다(S1020). 그리고, 전자 장치(100)는 획득된 수량 정보 및 단위 정보를 더 이용하여 태스크 정보를 획득할 수 있다(S1035).
영상 정보를 통해 상품 정보가 획득되지 않으면(S1010-N), 전자 장치(100)는 비디오의 제1 구간의 영상 정보를 통해 오브젝트의 부피 정보를 식별할 수 있다(S1025). 즉 도 8에서 설명한 바와 같이, 전자 장치(100)는 영역 인식 모델 및 부피 측정 모델을 이용하여 영상 프레임에서 오브젝트의 부피 정보를 식별할 수 있다.
S1030 단계에서, 전자 장치(100)는 식별된 부피 정보를 바탕으로 오브젝트에 대응되는 수량 정보 및 단위 정보를 획득할 수 있다(S1030). S1035 단계에서, 전자 장치(100)는 획득된 수량 정보 및 단위 정보를 더 이용하여 태스크 정보를 획득할 수 있다(S1035).
도 11은 일 실시 예에 따른, 전자 장치의 동작을 설명하기 위한 흐름도이다.
S1110 단계에서, 전자 장치(100)는 특정 태스크를 수행하는 컨텐츠를 포함하는 비디오를 획득할 수 있다. 일 예로, 전자 장치(100)는 외부 장치 또는 외부 서버로부터 특정 태스크를 수행하는 컨텐츠를 스트리밍 방식으로 수신할 수 있다. 다만, 이에 한정되지 않으며, 비디오를 다양한 방법에 의해 획득될 수 있다.
S1120 단계에서, 전자 장치(100)는 비디오에 포함된 비디오의 제1 구간 내의 영상에 포함된 오브젝트 및 오브젝트에 대응되는 동작 정보를 식별할 수 있다. 예로, 전자 장치(100)는 비디오에 포함된 영상 프레임 각각에서 오브젝트 및 오브젝트에 대응되는 동작 정보를 식별하고, 그 중 제1 오브젝트 및 제1 동작 정보가 식별된 복수의 영상 프레임을 비디오의 제1 구간으로 식별할 수 있다. 또한, 일 실시 예로, 전자 장치(100)는 비디오를 스트리밍 방식으로 수신하여 재생하는 동안, 재생되는 영상 프레임에서 오브젝트 및 오브젝트에 대응되는 동작 정보를 식별할 수 있다.
S1130 단계에서, 전자 장치(100)는 오브젝트 및 동작 정보를 바탕으로, 비디오의 제1 구간을 설명하기 위한 제1 텍스트를 획득할 수 있다(.
S1140 단계에서, 전자 장치(100)는 비디오의 제1 구간과 매칭되는 음성 정보를 바탕으로 제2 텍스트를 획득할 수 있다.
일 실시 예로, 전자 장치(100)는 비디오에 포함된 음성 정보를 텍스트로 변환할 수 있다. 그리고, 전자 장치(100)는 제1 텍스트와 변환된 텍스트 간의 유사도를 획득하고, 획득된 유사도를 바탕으로 변환된 텍스트 중 제1 텍스트와 관련된 텍스트를 비디오의 제1 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다.
일 실시 예로, 전자 장치(100)는 음성 정보에 대응되는 영상을 분석하여, 제1 텍스트와 매칭된 텍스트를 비디오의 제1 구간을 설명하기 위한 제2 텍스트로 식별할 수 있다. 즉, 음성 정보가 출력된 시점에 대응되는 영상 프레임을 분석하여 오브젝트 정보를 획득하고, 오브젝트 정보를 바탕으로 비디오의 제1 구간의 제1 텍스트와 매칭되는 음성 정보를 제2 텍스트로 식별할 수 있다.
S1150 단계에서, 전자 장치(100)는 제1 텍스트 및 제2 텍스트를 바탕으로 특정 태스크를 수행하기 위한 정보를 제공할 수 있다.
일 실시 예로, 전자 장치(100)는 제1 텍스트 및 제2 텍스트로부터 식별된 카테고리 정보를 통해 특정 태스크를 수행하기 위한 정보를 제공할 수 있으며, 여기서 카테고리 정보는 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보를 포함할 수 있다. 다만, 본 개시에 다른 카테고리 정보는 이에 한정되지 않으며, 본 개시의 구현 양태에 따라 다른 카테고리 정보가 추가되거나, 적어도 하나의 카테고리 정보가 생략될 수 있다.
그리고, 전자 장치(100)는 제1 텍스트에서 제1 카테고리 정보를 획득하고, 제2 텍스트에서 제2 카테고리 정보를 획득할 수 있다. 즉, 전자 장치(100)는 제1 텍스트에서 오브젝트 정보 및 동작 정보에 대한 제1 카테고리 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 제2 텍스트에서 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보 중 적어도 하나를 획득할 수 있다.
그리고, 전자 장치(100)는 제1 카테고리 정보 및 제2 카테고리 정보의 조합이 비디오의 제1 구간에 대응되는 태스크를 수행하기 위한 정보를 획득하기에 충분한지 여부를 식별할 수 있다.
식별결과 비디오의 제1 구간에 대응되는 태스크를 수행하기 위한 정보를 획득하기에 불충분한 경우, 전자 장치(100)는 비디오의 제1 구간 내의 영상을 분석하여 제3 카테고리 정보를 획득할 수 있다. 즉, 전자 장치(100)는 태스크 정보 수정 모듈(135)을 통해 제3 카테고리 정보를 획득할 수 있다.
일 실시 예로, 전자 장치(100)는 비디오의 제1 구간 내의 영상을 상품 인식 모델을 통해 분석하여, 오브젝트에 대한 상품 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 동작 인식 모델을 통해 상품 정보에 대응되는 동작 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 상품 정보 및 동작 정보를 바탕으로 수량 정보 및 단위 정보 중 적어도 하나를 획득할 수 있다.
일 실시 예로, 전자 장치(100)는 비디오의 제1 구간 내의 영상에 대해 이미지 segmentation을 수행하여, 오브젝트에 대응되는 부피 정보를 획득할 수 있다. 즉, 전자 장치는(100)는 비디오의 제1 구간 내의 영상을 부피 측정 모델 및 영역 인식 모델을 통해 분석하여 오브젝트의 부피 정보를 획득하고, 부피정보를 통해 오브젝트에 대응되는 수량 정보 및 단위 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 제1 카테고리 정보, 제2 카테고리 정보 및 제3 카테고리 정보를 이용하여 비디오의 제1 구간에 대응되는 태스크를 수행하기 위한 정보를 획득할 수 있다.
식별결과 비디오의 제1 구간에 대응되는 태스크를 수행하기 위한 정보를 획득하기에 충분한 경우, 전자 장치(100)는 제1 카테고리 정보 및 상기 제2 카테고리 정보를 이용하여 상기 비디오의 제1 구간에 대응되는 태스크를 수행하기 위한 정보를 획득할 수 있다(S1150).
도 12은 일 실시 예에 따른 전자 장치의 구체적인 구성을 도시한 블록도이다.
도 12에 도시된 바와 같이, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130), 디스플레이(140), 스피커(150) 및 입력 인터페이스(160)를 포함할 수 있다. 도 12에 도시된 전자 장치(100)의 구성은 전자 장치(100)의 유형에 따라 일부 구성이 추가되거나 생략될 수 있음은 물론이다.
메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 적어도 하나의 인스트럭션(instruction) 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(Hard-Disk Drive, HDD) 또는 솔리드 스테이트 드라이브 (Solid State Drive, SDD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스(access)되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다.
본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내의 롬, 램 또는 전자 장치(100)에 장착되는 메모리 카드 (예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.
상술한 바와 같이, 메모리(120)는 적어도 하나의 인스트럭션을 저장할 수 있다. 여기에서, 인스트럭션은 전자 장치(100)를 제어하기 위한 것일 수 있다. 가령, 메모리(120)에는 영상을 분석하기 위한 인공지능 모델과 관련된 인스트럭션이 저장될 수 있다.
하나 또는 복수의 프로세서는, 메모리(120)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks)이 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
프로세서(130)(또는 복수의 프로세서들)는 운영 체제 또는 응용 프로그램을 구동하여 프로세서(130)에 연결된 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 또한, 프로세서(130)는 다른 구성요소들 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다.
디스플레이(140)는 프로세서(130)의 제어에 따라 다양한 정보를 표시할 수 있다. 디스플레이(140)는 전자 장치(100)에서 포 그라운드로 실행되는 적어도 하나의 어플리케이션에서 제공하는 화면을 표시할 수 있다.
또한, 디스플레이(140)는 획득된 비디오를 표시할 수 있다. 즉, 프로세서(130)는 비디오를 디스플레이에 표시하는 동안, 표시되는 영상 프레임에서 오브젝트 및 동작 정보를 식별할 수 있다.
그리고, 이와 같은, 디스플레이(140)는 LCD(Liquid Crystal Display Panel), LED(light emitting diode), OLED(Organic Light Emitting Diodes), LCoS(Liquid Crystal on Silicon), DLP(Digital Light Processing) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 또한, 디스플레이(140) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 또한, 디스플레이(140)는 폴더블 디스플레이, 롤러블 디스플레이 등 다양한 디스플레이로 구현될 수 있다. 또한, 디스플레이(140)는 터치 감지부와 결합되어 터치 스크린으로 구현될 수도 있다.
스피커(150)는 외부로 수신된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지 등을 출력하는 구성요소일 수 있다. 이때, 전자 장치(100)는 스피커(150)와 같은 오디오 출력 장치를 포함할 수 있으나, 오디오 출력 단자와 같은 출력 장치를 포함할 수 있다. 특히, 스피커(150)는 비디오에 포함된 음성 정보를 출력할 수 있다.
그리고, 전자 장치(100)를 제어하기 위한 사용자 명령을 입력 받는 입력 인터페이스(160)를 포함할 수 있다. 이때, 입력 인터페이스(160)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린으로도 구현될 수 있다. 여기서, 버튼은 전자 장치(100)의 본체 외관의 전면부나 측면부, 배면부 등의 임의의 영역에 형성된 기계적 버튼, 터치 패드, 휠 등과 같은 다양한 유형의 버튼이 될 수 있다.
본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 적층형 디스플레이 장치를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일 실시 예에 따르면, 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
Claims (15)
- 전자 장치의 제어 방법에 있어서,태스크(task)를 수행하는 컨텐츠를 포함하는 비디오를 획득하는 단계;상기 비디오의 제1 구간 내의 오브젝트 및 상기 오브젝트에 대응되는 동작 정보를 식별하는 단계;상기 오브젝트에 대응되는 정보 및 상기 동작 정보를 바탕으로, 상기 제1 구간을 설명하기 위한 제1 텍스트를 획득하는 단계;상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 바탕으로 제2 텍스트를 획득하는 단계; 및상기 제1 텍스트 및 상기 제2 텍스트를 바탕으로, 상기 태스크를 수행하기 위한 정보를 제공하는 단계;를 포함하는 제어 방법.
- 제1항에 있어서,상기 제2 텍스트를 획득하는 단계는,상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 텍스트로 변환하는 단계; 및상기 제1 텍스트와 상기 변환된 텍스트 간의 유사도를 바탕으로 변환된 텍스트 중 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트를 선택하는 단계;를 포함하는 제어 방법.
- 제2항에 있어서,상기 제2 텍스트를 획득하는 단계는,음성 정보에 대응되는 영상을 분석하여, 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트로 획득하는 단계;를 더 포함하는 제어 방법.
- 제1항에 있어서,상기 특정 태스크를 수행하기 위한 정보는 상기 제1 텍스트 및 상기 제2 텍스트로부터 획득된 카테고리 정보를 바탕으로 획득되며,상기 카테고리 정보는, 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보 중 하나 이상을 포함하는 제어 방법.
- 제4항에 있어서,상기 태스크를 수행하기 위한 정보를 제공하는 단계는,상기 제1 텍스트에서 제1 카테고리 정보를 획득하는 단계;상기 제2 텍스트에서 제2 카테고리 정보를 획득하는 단계; 및상기 제1 카테고리 정보 및 상기 제2 카테고리 정보의 조합이 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하기에 충분한지 여부를 결정하는 단계;를 포함하는 제어 방법.
- 제5항에 있어서,상기 제1 카테고리 정보와 상기 제2 카테고리 정보의 조합이 불충분한 것으로 결정되면, 상기 비디오의 상기 제1 구간 내의 영상을 분석함으로 인해 제3 카테고리 정보를 획득하여 상기 비디오의 제1 구간에 해당하는 서브-태스크를 수행하기 위한 정보를 획득하는 단계; 및상기 제1 카테고리 정보, 상기 제2 카테고리 정보 및 상기 제3 카테고리 정보를 바탕으로 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하는 단계;를 더 포함하는 제어 방법.
- 제6항에 있어서,상기 제3 카테고리 정보를 획득하는 단계는,상기 오브젝트에 대응되는 상품 정보를 획득하는 단계; 및상기 상품 정보 및 상기 오브젝트에 대응되는 상기 동작 정보를 바탕으로 수량 정보 및 단위 정보 중 적어도 하나를 획득하는 단계;를 포함하는 제어 방법.
- 제6항에 있어서,상기 제3 카테고리 정보를 획득하는 단계는,상기 오브젝트에 대해 이미지 segmentation을 수행하여, 상기 오브젝트에 대응되는 부피 정보를 획득하는 단계; 및상기 부피 정보를 바탕으로, 수량 정보 및 단위 정보 중 적어도 하나를 획득하는 단계;를 포함하는 제어 방법.
- 제5항에 있어서,상기 제1 카테고리 정보와 상기 제2 카테고리 정보의 조합이 충분한 것으로 결정되면, 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하는 단계; 및복수의 구간 중 상기 비디오의 구간 각각에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하여 상기 태스크를 수행하기 위한 정보를 제공하는 단계;를 포함하는 제어 방법.
- 제1항에 있어서,상기 동영상은 스트리밍 방식으로 수신되며,상기 오브젝트 및 상기 동작 정보는 상기 비디오가 재생되는 동안 식별되는 제어 방법.
- 전자 장치에 있어서,적어도 하나의 인스트럭션을 저장하는 메모리; 및상기 메모리에 저장된 적어도 하나의 인스트럭션을 실행하는 적어도 하나의 프로세서;를 포함하고,상기 적어도 하나의 프로세서는,태스크(task)를 수행하는 컨텐츠를 포함하는 비디오비디오를 획득하고,상기 비디오비디오의 비디오의 제1 구간 내의 오브젝트 및 상기 오브젝트에 대응되는 동작 정보를 식별하고,상기 오브젝트에 대응되는 정보 및 상기 동작 정보를 바탕으로, 상기 비디오의 제1 구간을 설명하기 위한 제1 텍스트를 획득하고,상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 바탕으로 제2 텍스트를 획득하고,상기 제1 텍스트 및 상기 제2 텍스트를 바탕으로, 상기 태스크를 수행하기 위한 정보를 제공하는 전자 장치.
- 제11항에 있어서,상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여,상기 비디오의 상기 제1 구간으로부터 획득된 음성 정보를 텍스트로 변환하고,상기 제1 텍스트와 상기 변환된 텍스트 간의 유사도를 바탕으로 변환된 텍스트 중 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트를 선택하는 전자 장치.
- 제12항에 있어서,상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여,음성 정보에 대응되는 영상을 분석하여, 상기 제1 텍스트와 관련된 텍스트를 상기 비디오의 상기 제1 구간을 설명하기 위한 제2 텍스트로 획득하는 전자 장치.
- 제11항에 있어서,상기 특정 태스크를 수행하기 위한 정보는 상기 제1 텍스트 및 상기 제2 텍스트로부터 획득된 카테고리 정보를 바탕으로 획득되며,상기 카테고리 정보는, 오브젝트 정보, 수량 정보, 단위 정보, 도구 정보, 동작 정보 중 하나 이상을 포함하는 전자 장치.
- 제14항에 있어서,상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여,상기 제1 텍스트에서 제1 카테고리 정보를 획득하고,상기 제2 텍스트에서 제2 카테고리 정보를 획득하고,상기 제1 카테고리 정보 및 상기 제2 카테고리 정보의 조합이 상기 비디오의 상기 제1 구간에 대응되는 서브-태스크를 수행하기 위한 정보를 획득하기에 충분한지 여부를 결정하는 전자 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/585,149 US20220217453A1 (en) | 2021-01-07 | 2022-01-26 | Electronic apparatus and method for controlling thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210002171A KR20220099830A (ko) | 2021-01-07 | 2021-01-07 | 전자 장치 및 이의 제어 방법 |
KR10-2021-0002171 | 2021-01-07 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/585,149 Continuation US20220217453A1 (en) | 2021-01-07 | 2022-01-26 | Electronic apparatus and method for controlling thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022149687A1 true WO2022149687A1 (ko) | 2022-07-14 |
Family
ID=82357931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2021/012764 WO2022149687A1 (ko) | 2021-01-07 | 2021-09-17 | 전자 장치 및 이의 제어 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20220099830A (ko) |
WO (1) | WO2022149687A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101914661B1 (ko) * | 2017-09-29 | 2018-11-06 | 주식회사 포렉스랩 | 영상물의 피사체 자동 인식기능을 통한 실시간 방송 서비스용 부가정보 표시 시스템 |
US20190220668A1 (en) * | 2016-06-06 | 2019-07-18 | Purdue Research Foundation | System and method for sentence directed video object codetection |
KR20190095620A (ko) * | 2018-01-26 | 2019-08-16 | 삼성전자주식회사 | 전자 장치 및 그의 제어방법 |
KR20200040097A (ko) * | 2018-10-08 | 2020-04-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US20200302177A1 (en) * | 2019-03-19 | 2020-09-24 | The Boeing Company | Intelligent video analysis |
-
2021
- 2021-01-07 KR KR1020210002171A patent/KR20220099830A/ko unknown
- 2021-09-17 WO PCT/KR2021/012764 patent/WO2022149687A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190220668A1 (en) * | 2016-06-06 | 2019-07-18 | Purdue Research Foundation | System and method for sentence directed video object codetection |
KR101914661B1 (ko) * | 2017-09-29 | 2018-11-06 | 주식회사 포렉스랩 | 영상물의 피사체 자동 인식기능을 통한 실시간 방송 서비스용 부가정보 표시 시스템 |
KR20190095620A (ko) * | 2018-01-26 | 2019-08-16 | 삼성전자주식회사 | 전자 장치 및 그의 제어방법 |
KR20200040097A (ko) * | 2018-10-08 | 2020-04-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US20200302177A1 (en) * | 2019-03-19 | 2020-09-24 | The Boeing Company | Intelligent video analysis |
Also Published As
Publication number | Publication date |
---|---|
KR20220099830A (ko) | 2022-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019098573A1 (en) | Electronic device and method for changing chatbot | |
WO2020091350A1 (en) | Electronic device and control method thereof | |
WO2021225256A1 (ko) | 전자 장치 및 이의 제어 방법 | |
WO2019143227A1 (en) | Electronic device providing text-related image and method for operating the same | |
WO2019027258A1 (en) | ELECTRONIC DEVICE AND METHOD FOR CONTROLLING THE ELECTRONIC DEVICE | |
WO2020017898A1 (en) | Electronic apparatus and control method thereof | |
EP3908961A1 (en) | Electronic device and method for controlling the electronic device thereof | |
WO2018164378A1 (en) | Electronic apparatus for compressing language model, electronic apparatus for providing recommendation word and operation methods thereof | |
WO2019203488A1 (en) | Electronic device and method for controlling the electronic device thereof | |
WO2019194451A1 (ko) | 인공지능을 이용한 음성 대화 분석 방법 및 장치 | |
WO2019177344A1 (en) | Electronic apparatus and controlling method thereof | |
WO2019182252A1 (en) | Electronic device and server for processing data received from electronic device | |
EP3523710A1 (en) | Apparatus and method for providing sentence based on user input | |
WO2018174397A1 (ko) | 전자 장치 및 제어 방법 | |
WO2019231130A1 (ko) | 전자 장치 및 그의 제어방법 | |
WO2018101671A1 (en) | Apparatus and method for providing sentence based on user input | |
WO2020045794A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2018074895A1 (en) | Device and method for providing recommended words for character input | |
WO2020071858A1 (en) | Electronic apparatus and assistant service providing method thereof | |
WO2020091183A1 (ko) | 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법 | |
WO2020091519A1 (en) | Electronic apparatus and controlling method thereof | |
EP3698258A1 (en) | Electronic apparatus and controlling method thereof | |
EP3596667A1 (en) | Electronic device and method for controlling the electronic device | |
EP3577571A1 (en) | Electronic apparatus for compressing language model, electronic apparatus for providing recommendation word and operation methods thereof | |
WO2022139122A1 (ko) | 전자 장치 및 이의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21917849 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21917849 Country of ref document: EP Kind code of ref document: A1 |