WO2019231093A1 - 전자 장치 및 그 제어방법 - Google Patents

전자 장치 및 그 제어방법 Download PDF

Info

Publication number
WO2019231093A1
WO2019231093A1 PCT/KR2019/003512 KR2019003512W WO2019231093A1 WO 2019231093 A1 WO2019231093 A1 WO 2019231093A1 KR 2019003512 W KR2019003512 W KR 2019003512W WO 2019231093 A1 WO2019231093 A1 WO 2019231093A1
Authority
WO
WIPO (PCT)
Prior art keywords
group
objects
electronic device
value
frames
Prior art date
Application number
PCT/KR2019/003512
Other languages
English (en)
French (fr)
Inventor
김동현
이주형
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/058,913 priority Critical patent/US11908192B2/en
Publication of WO2019231093A1 publication Critical patent/WO2019231093A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Definitions

  • the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device providing a summary content by analyzing a type of a mark included in video content and a control method thereof.
  • a video service provider edits important or interesting scenes in a video into short video clips and summarizes the video contents by previewing or replaying the video content.
  • the conventional audio and video information-based video summarization method may show a scene in which a specific person appears, but it is difficult to convey the overall content of the video only with limited information of the character.
  • the narrative structure-oriented video summarization method is capable of delivering an approximate content of the video being watched, but has a problem in that scenes that the user wants to watch with interest may be excluded.
  • the present disclosure is designed to improve the above-described problem, and an object of the present disclosure is to group objects based on relationships between objects identified in a frame, and to obtain summary content based on grouping information, and a control method thereof. In providing.
  • an electronic device obtains a probability value for each of a plurality of objects included in a memory storing content and a plurality of frames constituting the stored content, and obtains the obtained probability value. Grouping the plurality of objects into at least one group according to a correlation value between the plurality of objects based on the counting, counting each of the plurality of frames for each group when the obtained probability value is equal to or greater than a predetermined threshold value, and counting And a processor for obtaining summary content based on the result.
  • the processor compares the difference of probability values between the plurality of objects for each of the plurality of frames to obtain correlation values between the plurality of objects, and sets the objects having the obtained correlation value equal to or greater than a predetermined threshold value as one group.
  • a predetermined threshold value can be grouped
  • the processor may acquire the core frame for each group based on the counting result, and obtain the summary content based on the core frame included in a preset group.
  • the electronic device of the present disclosure further includes a display, wherein the processor identifies a representative object among the objects belonging to each of the groups, provides information on the identified representative object, and selects information on a specific object by the user.
  • the display may be controlled to provide the summary content acquired based on the core frame of the group to which the specific object belongs.
  • the processor may count the plurality of frames for each object when the acquired probability value is greater than or equal to a preset threshold value, and identify an object whose counting count for each object is greater than or equal to a preset threshold value to obtain the summary content. Can be.
  • the processor may normalize the counting result for each group based on the number of objects in each group.
  • the processor may apply the weight for each group to the group normalization value for each of the plurality of frames, and obtain the summary content based on the weighted value.
  • the processor may adjust the size of the preset threshold based on a playback time of the summary content input according to a user command.
  • the processor adds a frame within a preset playing time range based on the playing time of the summary content, and the summary is added. You can update the content.
  • control method for storing the content obtaining a probability value for each of the plurality of objects included in each of the plurality of frames constituting the stored content, based on the obtained probability value Grouping the plurality of objects into at least one group according to the correlation values between the plurality of objects, counting each of the plurality of frames for each of the groups when the obtained probability value is greater than or equal to a preset threshold value; and Acquiring the summary content based on the counting result.
  • the obtaining of the correlation value may include comparing the difference of probability values between the plurality of objects for each of the plurality of frames to obtain a correlation value between the plurality of objects, and the grouping may include the obtained correlation value.
  • Objects greater than or equal to the set threshold may be grouped into one group.
  • the acquiring of the summary content may include acquiring the core frame for each group based on the counting result and acquiring the summary content based on the core frame included in a preset group.
  • the control method of the present disclosure may further include identifying a representative object among the objects belonging to each of the groups and providing information on the identified representative object, wherein the obtaining of the summary content may be performed on a specific object.
  • the obtained summary content may be obtained based on the core frame of the group to which the specific object belongs.
  • the control method may further include counting the plurality of frames for each object when the obtained probability value is greater than or equal to a preset threshold value.
  • the acquiring of the summary content may include counting counts for each object.
  • the summary content may be obtained by identifying an object that is greater than or equal to a set threshold value.
  • the control method of the present application may further include normalizing the counting result for each group based on the number of objects belonging to each of the groups.
  • the control method may further include applying a weight for each group to the normalization value for each group for each of the plurality of frames, and obtaining the summary content may be based on the weighted value. Content can be obtained.
  • the acquiring of the summary content may adjust the size of the preset threshold value based on a playing time of the summary content input according to a user command.
  • the summary content is updated by adding a frame within a preset playing time range based on the playing time of the summary content. It may further comprise the step.
  • a non-transitory computer readable medium storing computer instructions for causing the electronic device to perform an operation
  • the operation may be performed.
  • FIG. 1 is a block diagram illustrating an electronic device according to an embodiment of the present disclosure
  • FIG. 2 is a block diagram illustrating a detailed configuration of the electronic device of FIG. 1;
  • 3 is a view for explaining an operation of obtaining a probability value in a frame
  • 5 is a diagram for explaining a distribution of probability values for each object during an entire reproduction time
  • 6 is a view for explaining an operation of grouping and counting frames
  • FIG. 7 to 11 are views for explaining a frame extraction process according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram for grouping a plurality of objects and describing a representative object of a group
  • FIG. 13 is a diagram for explaining a user interface displayed on a display
  • FIG. 14 is a flowchart illustrating a control method of an electronic device according to an embodiment of the present disclosure.
  • ordinal numbers such as “first”, “second”, and the like may be used to distinguish between components. These ordinal numbers are used to distinguish the same or similar components from each other, and the meaning of the terms should not be construed as limited by the use of these ordinal numbers. For example, the components combined with these ordinal numbers should not be limited in order of use or arrangement by the number. If necessary, the ordinal numbers may be used interchangeably.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are only used to distinguish one component from another.
  • modules such as “module”, “unit”, “part”, and the like are terms for referring to a component that performs at least one function or operation, and such components are referred to as hardware or software. It may be implemented or a combination of hardware and software.
  • a plurality of "modules”, “units”, “parts”, etc. are integrated into at least one module or chip, except that each needs to be implemented with a particular specific hardware, and is at least one processor. It can be implemented as.
  • a part when a part is connected to another part, this includes not only a direct connection but also an indirect connection through another medium.
  • the meaning that a part includes a certain component means that it may further include other components, without excluding other components, unless specifically stated otherwise.
  • FIG. 1 is a block diagram illustrating an electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 may include a memory 110 and a processor 120.
  • the memory 110 may store content.
  • the content may include a video and audio signal, and may be composed of a plurality of frames.
  • the memory 110 may store various information related to the content.
  • the memory 110 may be implemented as a nonvolatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), or a solid state drive (SSD).
  • the memory 110 may be implemented not only as a storage medium in the electronic device 100 but also as an external storage medium, for example, a micro SD card, a USB memory, or a web server through a network.
  • the processor 120 may perform an overall control operation of the electronic device 100.
  • the processor may include a digital signal processor (DSP), a microprocessor, a time controller (TCON), a central processing unit (CPU), a micro controller unit (MCU), and an MPU. It may include one or more of a micro processing unit, a controller, an application processor (AP), a communication processor (CP), an ARM processor, or may be defined in the corresponding terms.
  • the processor may be implemented as a system on chip (SoC), a large scale integration (LSI), or a field programmable gate array (FPGA) in which processing algorithms are embedded.
  • SoC system on chip
  • LSI large scale integration
  • FPGA field programmable gate array
  • the processor 120 may obtain a plurality of frames from the content, and obtain a probability value for each of the plurality of objects in each of the plurality of frames.
  • the object may mean anything that can be visually represented in the frame.
  • objects may include objects such as desks, chairs, telephones, as well as concepts such as lectures and course registration.
  • an object may be a specific concept as well as a thing.
  • the object will be described as an object for convenience of description, but is not necessarily limited thereto.
  • the object can be a specific person.
  • Superman can be defined as an object.
  • the object may be a main character.
  • the electronic device 100 may recognize the feature of the female hero based on the shape of the face and set the hero as an object.
  • the probability value for the object may mean a probability that the corresponding object is included in the frame.
  • Various objects may exist in a frame, and the electronic device 100 may acquire whether a predetermined specific object is included in each frame as a probability value. For example, if the probability value of the car object is 0.7 for a specific frame, it may mean that the probability of including the car object in the frame is 0.7.
  • the processor 120 may obtain a correlation value between the plurality of objects based on the obtained probability value.
  • the correlation value may be a value obtained by quantifying a relationship between a plurality of objects. If the correlation is high, the correlation value is high, and if the correlation is low, the correlation value may be low.
  • the image and the value may mean the degree to which two objects can be included in one frame at the same time. For example, if the correlation value of the A and B objects corresponds to 0.8, it may mean that the probability that the A and B objects are simultaneously included in one frame is relatively high.
  • the reason why the correlation between the plurality of objects can be obtained based on the probability value of the object is that when the plurality of different objects have a high probability of being present in the plurality of frames, the objects may be related to each other in the corresponding content. Because there is.
  • the association between the plurality of objects may be obtained in various ways, and the correlation value may be obtained by obtaining a correlation coefficient using one of them.
  • the correlation coefficient may be positive or negative, but the processor 120 according to an embodiment of the present disclosure may acquire an absolute value by taking an absolute value and converting all numbers into positive numbers.
  • the processor 120 may analyze that there is a high correlation, and 0.3 or less may analyze that it has a low correlation.
  • it can be analyzed that it has a moderate correlation.
  • 0.3 or 0.7 can be changed by the user and is only a value derived through iterative simulation. Accordingly, the value can be changed at any time through the intention or analysis of the user.
  • the processor 120 may acquire a correlation coefficient without taking an absolute value in the correlation coefficient.
  • the correlation value may be positive or negative.
  • the user may analyze only positive correlations as high correlations except negative correlations. For example, assume that correlation coefficients were obtained as 0.8, 0.3, -0.3, and -0.8.
  • the processor 120 may analyze that only a relationship corresponding to a value of 0.8 has a high correlation.
  • this is only one of various embodiments, and not necessarily only one analysis method is applied.
  • the processor 120 may group the plurality of objects into at least one group based on the obtained correlation value.
  • the processor 120 may bundle the correlated objects through the grouping operation to obtain the summary content, thereby facilitating analysis. Specifically, since the operation of identifying the object in the frame is to analyze the probability value, generating the summary content with only one object may reduce the accuracy. However, when identifying objects in groups, other objects that are highly related to a specific object desired by a user may be targets of summary content, thereby increasing accuracy.
  • the processor 120 may count the plurality of frames for each group when the acquired probability value is equal to or greater than a preset threshold value and obtain summary content based on a counting result.
  • the processor 120 obtains a correlation value between the plurality of objects by comparing the difference between the plurality of object probability values for each of the plurality of frames, and groups the objects whose acquired correlation value is greater than or equal to a predetermined threshold value into one group. Can be.
  • the processor 120 may obtain the core frame for each group based on the counting result, and may obtain the summary content based on the core frame included in the preset group. For example, the processor 120 may count the case where the probability value is 0.7 or more for each group. In addition, the processor 120 may perform a counting unit for each frame. For example, the processor 120 may count a case where a probability value corresponding to Group 1 is 0.7 or more in one frame. In addition, the processor 120 may count a case where a probability value corresponding to Group 2 is 0.7 or more in one frame. In this way, the counting value of each group in one frame may be (2,0,0).
  • the probability value is described as being 0.7 or more
  • the number 0.7 is a preset threshold value and the value 0.7 may be changed by a user's manipulation. That is, the user may change the preset threshold value. Increasing the preset threshold value will reduce the number of counts, and decreasing the preset threshold value will increase the number of counts. The user may increase the accuracy and satisfaction for identifying the desired object by adjusting the preset threshold. The counting operation will be described later in detail with reference to FIG. 9.
  • the processor 120 may count each object when the probability value obtained for each of the plurality of frames is greater than or equal to a preset threshold value, and identify an object whose counting count for each object is greater than or equal to the preset threshold value to obtain a summary content. have. If an object having a counting number per object is greater than or equal to a predetermined threshold value, an exceptionally identified object may be excluded from the content target. For example, suppose you have a car object found in 200 frames out of a total of 1000 frames, and a rabbit object found in three frames. In general, an exceptionally discovered object, such as a rabbit object, is less likely to be the basis for a summary. In addition, when all the objects are targeted for the summary content, there may be a problem in that the processing speed becomes long.
  • the electronic device 100 may target only summary objects that are identified by a predetermined ratio or more in the total number of frames in order to improve processing speed, and the counting number of each object is greater than or equal to a preset threshold value. Objects can be targeted for summary content.
  • the processor 120 may normalize the counting result for each group based on the number of objects belonging to each group.
  • the reason for normalization is to reflect the difference in the number of objects per group. For example, if there are 10 objects in a specific group and 2 objects in another group, the group with 10 objects may have a higher counting value. Therefore, in order to accurately compare counting values for each group, a normalization process is required. In an embodiment of the present disclosure, the range of normalization is 1 to 10, but this can be changed by user setting. The normalization operation will be described later with reference to FIG. 9.
  • the processor 120 may analyze to target the summary content using the normalized value.
  • the processor 120 may set the group having the maximum value as a representative group of the corresponding frame by comparing the normalized values obtained for each group. There may be a plurality of normalized values in one frame, and the method having the largest value among them may be defined as a representative group of one frame.
  • the processor 120 may set a representative group in each of the plurality of frames.
  • the electronic device 100 may set a frame corresponding to the selected representative group as a target of the summary content.
  • the processor 120 may apply the group weight to the group normalization value for each of the plurality of frames, and obtain the summary content based on the weighted value.
  • the electronic device 100 may extract a frame by applying different weights for each group. For example, suppose a user prefers group 1 most and group 2 next. The electronic device 100 may set a weight of 0.7 for group 1, 0.2 for group 2, and 0.1 for group 3. The electronic device 100 may apply a weight corresponding to each group for each frame. For convenience, the value after weighting is assumed to be called the final value.
  • the electronic device 100 may apply weights for each group to the normalized counting value and obtain a final value for each frame.
  • the final value obtained for each frame may be a value reflecting a user's preference group.
  • the electronic device 100 may extract a frame having a value greater than or equal to a preset threshold value using the final value.
  • the electronic device 100 may reflect the user's preference in more detail. In addition, the electronic device 100 may reflect the importance of not only any one group but various groups, thereby increasing satisfaction with the summary content.
  • the electronic device 100 may generate the summary content based on a preset time. Depending on the user's settings, all summary content can be summarized at the same time. For example, the electronic device 100 may generate 5 minutes of summary content for all images of 10 minutes, 100 minutes, and 500 minutes.
  • the electronic device 100 may generate the summary content based on the total playing time of the summary content selected by the user. For example, the electronic device 100 may generate summary content as 1 minute of content for 10 minutes, 10 minutes for content for 100 minutes, and 50 minutes for content for 500 minutes.
  • the electronic device 100 may set the user to directly select a playing time of the summary content.
  • the electronic device 100 needs to generate the summary content so as to correspond to the time desired by the user.
  • the electronic device 100 (a) needs to increase a frame that may be the target of the summary content.
  • the electronic device 100 may adjust the above-described various threshold values.
  • the electronic device 100 may update the summary content by adding a frame within a preset play time range based on the playback time of the summary content.
  • a method of arbitrarily adding a frame (frame within a preset playback time range based on a playback time of the summary content) of a frame that is a target of summary content Assume that 20 to 40 frames are generated as summary contents from 1 to 100 frames. If the electronic device 100 determines that there is no object of the summary content desired by the user even when the above-described threshold value is adjusted, a frame adjacent to a frame that is already the object of the summary content (playback range preset based on the playback time point of the summary content) Frame within). In the above-described example, the electronic device 100 may add the adjacent frames (frames within a preset playback time range based on the playback time of the summary content) to make frames 15 to 45 as the targets of the summary content.
  • the processor 120 identifies the representative object among the objects belonging to each group, displays information about the identified representative object on the display, and based on the core frame of the group to which the specific object belongs when information about the specific object is selected by the user.
  • the display 130 may be controlled to provide the obtained summary content.
  • the electronic device 100 may further include a display 130, where the display 130 may be a hardware component of the electronic device 100 and may be connected to a separate display device connected to the electronic device 100. This may be the case.
  • the electronic device 100 may directly control the display included in the electronic device 100.
  • the electronic device 100 may determine the content displayed on the display and display the content on the display.
  • the electronic device 100 may be implemented in a form of generating a video signal and transferring the generated video signal to an external display device.
  • the electronic device 100 may output a video signal and transmit the video signal to an external display device, and the external display device may receive the video signal output from the electronic device 100 and display the corresponding content on the display.
  • f_i represents the set of the objects l_ (i_ (1 ... n)) and the matching probabilities p_ (i_ (1 ... n)) extracted in the i-th frame.
  • N may represent the total number of frames, and n may represent the number of objects extracted in the i-th frame.
  • a pre-processing filtration step of removing unnecessary objects in advance is performed before measuring the correlation between objects of each frame.
  • the threshold is set to 0.4.
  • f_i ⁇ ' represents the result of filtering the i th frame based on the matching probability.
  • the extraction frequency o_ij of the j-th object may be obtained by counting the number n ( ⁇ ) of extracting a specific object from all frames. For example, if an object called 'Vehicle' is extracted with a probability of 0.4 or more between frames 1-100, 150-230, and 500-700 of 1000 frames, a total of 380 times are extracted, and thus a probability of about 38% is obtained. It can be said that it is extracted. In this way, the extraction frequency of all objects is measured and an object extracted below the threshold t_o may be regarded as an outlier and excluded.
  • the threshold may be set to 0.1. (See Equation 3)
  • the correlation between the objects can be obtained by calculating the correlation of the distribution of the object results based on the entire video playback time as the axis.
  • the similarity between 'Vehicle' and 'Gadget' is about 8%
  • 'Gadget' and 'Nature' is about 0.1%
  • 'Nature' and 'Vehicle' are about 0.4%.
  • the processor 120 may perform a grouping operation, and may use the following equation.
  • G_j may represent a group of objects associated with the j th object. That is, when the degree of association between each object is greater than or equal to a certain threshold t_c, the object may be regarded as having an association and may be grouped.
  • the electronic device 100 that performs the above-described content summary operation may correspond to a TV or STB device.
  • the electronic device 100 may directly generate the summary content by using an internal component.
  • the electronic device 100 may request a summary of content from a separate server.
  • the electronic device 100 may receive a user command so that the user generates the summary content, and the electronic device 100 may transmit the user command to an external server.
  • the summary content may be generated by an external server and transmitted to the electronic device 100 again.
  • the electronic device 100 may perform all operations by itself.
  • the electronic device 100 merely receives or outputs related information, and the actual operation may be performed by an external server.
  • the electronic device 100 may perform some operations among the entire operations, and other operations may be performed by an external server.
  • the electronic device 100 may include a memory 110 and a processor 120.
  • the electronic device 100 may include a display 130, a communication unit 140, a user interface unit 150, an audio processing unit 160, a video processing unit 170, a speaker 180, and a button 181. May further include a microphone 182.
  • a microphone 182 May further include a microphone 182.
  • the processor 120 controls the overall operation of the electronic device 100 using various programs stored in the memory 110.
  • the processor 120 may access the RAM 121, the ROM 122, the main CPU 123, the graphics processor 124, the first to n interfaces 125-1 to 125-n, and the bus 126. Include.
  • the RAM 121, the ROM 122, the main CPU 123, the graphics processor 124, and the first to n-interfaces 125-1 to 125-n may be connected to each other through the bus 126.
  • the first to n interfaces 125-1 to 125-n are connected to the aforementioned various components.
  • One of the interfaces may be a network interface connected to an external device via a network.
  • the main CPU 123 accesses the memory 110 and performs booting using an operating system stored in the memory 110. In addition, various operations are performed using various programs stored in the memory 110.
  • the ROM 122 stores a command set for system booting.
  • the main CPU 123 copies the O / S stored in the memory 110 to the RAM 121 according to the command stored in the ROM 122, and executes the O / S.
  • Boot up When the booting is completed, the main CPU 123 copies various application programs stored in the memory 110 to the RAM 121 and executes the application programs copied to the RAM 121 to perform various operations.
  • the graphic processor 124 generates a screen including various objects such as an icon, an image, and a text by using a calculator (not shown) and a renderer (not shown).
  • An operation unit (not shown) calculates attribute values such as coordinate values, shapes, sizes, colors, and the like in which objects are displayed according to the layout of the screen based on the received control command.
  • the renderer generates a screen having various layouts including objects based on the attribute values calculated by the calculator.
  • the screen generated by the renderer (not shown) is displayed in the display area of the display 130.
  • the above-described operation of the processor 120 may be performed by a program stored in the memory 110.
  • the memory 110 stores various data such as an operating system (O / S) software module, an audio signal analysis module, a video frame editing module, etc. for driving the electronic device 100.
  • O / S operating system
  • audio signal analysis module audio signal analysis module
  • video frame editing module etc. for driving the electronic device 100.
  • the display 130 may be implemented as various types of displays such as a liquid crystal display (LCD), an organic light emitting diodes (OLED) display, a plasma display panel (PDP), and the like.
  • the display 130 may also include a driving circuit, a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, an organic TFT (OTFT), or the like.
  • the display 130 may be implemented as a touch screen in combination with the touch sensing unit.
  • the communication unit 140 is a component that performs communication with various types of external devices according to various types of communication methods.
  • the communication unit 140 includes a Wi-Fi chip 141, a Bluetooth chip 142, a wireless communication chip 143, an NFC chip 144, and the like.
  • the processor 120 communicates with various external devices using the communication unit 140.
  • the Wi-Fi chip 141 and the Bluetooth chip 142 communicate with each other by WiFi or Bluetooth.
  • various connection information such as SSID and session key may be transmitted and received first, and then communication information may be transmitted and received by using the same.
  • the wireless communication chip 143 refers to a chip that performs communication according to various communication standards such as IEEE, Zigbee, 3G (3rd Generation), 3G Generation (3GPP), Long Term Evoloution (LTE), and the like.
  • the NFC chip 144 refers to a chip operating in a near field communication (NFC) method using a 13.56 MHz band among various RF-ID frequency bands such as 135 kHz, 13.56 MHz, 433 MHz, 860-960 MHz, 2.45 GHz, and the like.
  • NFC near field communication
  • the communication unit 140 may further include a wired communication interface such as HDMI, MHL, USB, DP, Thunderbolt, RGB, D-SUB, DVI, or the like.
  • the processor 120 may be connected to the display device through a wired communication interface of the communicator 140. In this case, the processor 120 may transmit the summary content obtained through the wired communication interface to the display device.
  • the user interface unit 150 receives various user interactions.
  • the user interface 150 may be implemented in various forms according to the implementation example of the electronic device 100.
  • the user interface 150 may be a button provided in the electronic device 100, a microphone for receiving a user voice, a camera for detecting a user motion, or the like.
  • the user interface 150 may be implemented in the form of a touch screen that forms a mutual layer structure with the touch pad. In this case, the user interface 150 may be used as the display 130 described above.
  • the audio processor 160 is a component that performs processing on audio data.
  • the audio processor 160 may perform various processing such as decoding, amplification, noise filtering, and the like on the audio data.
  • the video processor 170 is a component that performs processing on video data.
  • the video processor 170 may perform various image processing such as decoding, scaling, noise filtering, frame rate conversion, resolution conversion, and the like on the video data.
  • the speaker 180 is a component that outputs not only various audio data processed by the audio processor 160 but also various notification sounds or voice messages.
  • the button 181 may be various types of buttons such as a mechanical button, a touch pad, a wheel, and the like formed on an arbitrary area such as a front portion, a side portion, a rear portion, or the like of the main body of the electronic device 100.
  • the microphone 182 is a component for receiving a user voice or other sound and converting it into audio data.
  • the microphone may receive the user's voice in the activated state.
  • the microphone 182 may be integrally formed with an upper side, a front side, a side, or the like of the electronic device 100.
  • the microphone 182 may be a component for receiving a voice input.
  • the microphone 182 includes a microphone for collecting user voice in an analog form, an amplifier circuit for amplifying the collected user voice, an A / D conversion circuit for sampling and converting the amplified user voice into a digital signal, and noise components from the converted digital signal. It may include various configurations such as a filter circuit for removing the.
  • the type, size, arrangement position, etc. of the microphone 182 may vary depending on the type of operation to be implemented by using the remote control device, the external shape of the remote control device, the use mode of the remote control device, and the like.
  • the remote control device is implemented as a cube having a rectangular front face
  • the microphone 182 may be disposed on the front of the remote control device.
  • the user may perform voice recognition through the microphone 182 of the electronic device 100. Therefore, all operations of the present specification may be performed only by the microphone of the electronic device 100 without the microphone included in the external device.
  • the electronic device 100 includes a microphone directly, but in actual implementation, the microphone may be a component included in an external device.
  • the analog voice signal received from the external device may be converted into a digital signal.
  • the external device may transmit the converted digital signal to the electronic device 100.
  • the external device may use a wireless communication method to transmit the converted digital signal to the electronic device 100, and the wireless communication method may be Bluetooth or Wi-Fi.
  • the wireless communication method has been described as Bluetooth or Wi-Fi, various wireless communication methods other than Bluetooth or Wi-Fi may be used in actual implementation.
  • the external device may be a remote control device.
  • the remote control device corresponds to a device for controlling a specific device, and may correspond to a remote control, and a user may perform a voice recognition operation through a microphone attached to the remote control.
  • the external device may correspond to a terminal device such as a smartphone.
  • the user may perform a voice recognition operation through a microphone included in the smartphone.
  • the user may install a specific application to perform a voice recognition operation and transmit the same to the electronic device 100.
  • the user may control the electronic device 100 using a specific application.
  • the smart phone including the microphone may include a communication unit using Bluetooth, Wi-Fi, or infrared rays for data transmission and reception and control of the electronic device 100.
  • the communication unit of the external device may be formed of a plurality of components according to a communication scheme.
  • the external device including the microphone may include a communication unit using Bluetooth, Wi-Fi, or infrared rays for data transmission and reception and control of the electronic device 100.
  • the communication unit of the external device may be formed of a plurality of components according to a communication scheme.
  • the electronic device 100 receiving data transmission and control commands from an external device may include a communication unit using Bluetooth, Wi-Fi, or infrared light.
  • the communication unit of the electronic device 100 may be formed of a plurality of components according to a communication method.
  • the electronic device 100 may communicate with an external server.
  • the electronic device 100 may transmit data to or receive data from an external server.
  • the electronic device 100 may use a wireless or wired communication method.
  • the electronic device 100 may simultaneously communicate with an external server and an external device.
  • the electronic device 100 may receive data from the external device and transmit the data to the external server.
  • the communication unit of the electronic device 100 that communicates with the external device and the external server may be configured as one module.
  • One module may be Wi-Fi.
  • the communication unit of the electronic device 100 may be configured as a plurality of modules to communicate with an external device or an external server using a different communication unit.
  • an external device may communicate with a Bluetooth module and an external server may communicate with an Ethernet modem or a Wi-Fi module.
  • the electronic device 100 may transmit a digital voice signal received to a voice recognition external server.
  • the voice recognition external server may perform a speech to text (STT) function that converts a digital voice signal into text information.
  • the voice recognition external server may perform the STT function to convert the digital voice signal into text information and search for information corresponding to the converted text information.
  • the voice recognition external server may transmit information corresponding to the converted text information to the electronic device 100.
  • the above-described voice recognition external server may simultaneously perform a speech to text (STT) function and a search function.
  • the voice recognition external server may perform only a speech to text (STT) function and the search function may be performed in a separate external server.
  • an external server performing a speech to text (STT) function may convert the digital voice signal into text information and transmit the converted text information to a separate external server performing a search function.
  • the electronic device 100 may directly perform a speech to text (STT) function.
  • the electronic device 100 may convert the digital voice signal into text information and transmit the converted text information to a voice recognition external server.
  • the voice recognition external server may perform only a search function.
  • the voice recognition external server may search for information corresponding to the converted text information and transmit the information to the electronic device 100.
  • 3 is a diagram for describing an operation of obtaining a probability value in a frame.
  • the electronic device 100 may obtain a plurality of frames from content.
  • the electronic device 100 may identify an object included in each of the plurality of frames.
  • the higher the probability value for the identified object may mean that it is related to the identified object.
  • the electronic device 100 may identify (object, probability value). Specifically, probability values for (Nature, 0.974), (Plant, 0.788), (Animal, 0.711), (Wildlife, 0.66), and (Hunting, 0.595) may be identified.
  • the electronic device 100 may obtain which object the object included in frame 41 corresponds to and whether the object corresponds to the probability value.
  • frame 1799 is assumed to contain a man using a smartphone and laptop.
  • the electronic device 100 may obtain an object and a probability value related thereto.
  • frame 2154 is assumed to contain a moving car.
  • the electronic device 100 may obtain an object and a probability value related thereto.
  • the number of objects identified for each frame may vary depending on the applied program.
  • 4 is a diagram for describing correlation values between a plurality of objects.
  • the electronic device 100 may obtain a probability value for each object of each frame.
  • a plurality of objects may be included in each frame, and whether or not they are included may be represented by probability values.
  • the electronic device 100 may analyze correlations between the plurality of objects with respect to the total reproduction time.
  • the correlation between a Vehicle object and a Car object may be represented by a number of 0.801.
  • a method of obtaining a correlation coefficient was used.
  • various statistical techniques can be applied to correlation analysis.
  • 5 is a diagram for describing a distribution of probability values for each object during an entire reproduction time.
  • the electronic device 100 may identify a distribution of probability values according to the objects.
  • the distribution of probability values corresponding to each object may be identified in units of frames. It is assumed that the entire frame is 3600, and the electronic device 100 may analyze each frame of the 3600 to identify a probability value that an object included in each frame corresponds to a specific object.
  • 6 is a diagram for describing an operation of grouping and counting frames.
  • Both objects correspond to objects related to vehicles, and the electronic device 100 may analyze the object groups to extract summary contents. For example, after obtaining probability distributions for a plurality of objects in FIG. 5, a frame having a probability value greater than or equal to a predetermined threshold value may be detected. If the electronic device 100 has a probability value greater than a preset threshold value, the electronic device 100 may identify that the corresponding object is included in the frame.
  • the electronic device 100 may count an object having a probability value greater than a preset threshold value for each frame. The counting process for each frame will be described later with reference to FIG. 9.
  • the electronic device 100 may group the frames by a certain unit.
  • the grouping of the frames is different from the grouping of the objects, and the summary group content may be generated by the scene grouping operation. Therefore, the user's satisfaction can be increased.
  • the calculation process of the processor may be reduced, and thus, the generation speed of the summary content may be shortened.
  • the electronic device 100 may determine a representative object among the vehicle, car, motor cycle, racing, rad, and driving objects.
  • the criterion for selecting the representative object may determine the object having the highest average of probability values in the same group.
  • the electronic device 100 may select the object having the most probability value equal to or greater than a preset threshold value as the representative object.
  • the representative object is a Vehicle object.
  • the frames may be grouped into specific sections based on the representative object.
  • the electronic device 100 may correspond to another grouping operation separately from grouping the objects, and may group the frames according to time intervals.
  • the electronic device 100 may group the frames based on the representative object.
  • frames may be grouped by analyzing a probability value of a representative object for each frame.
  • One way to group frames is to consider the density by analyzing the distribution of probability values.
  • a frame having probability values greater than or equal to a predetermined threshold may be found in a specific time zone. If it is determined that the frames having a probability value equal to or greater than the preset threshold value are concentrated, the electronic device 100 may group the corresponding frames into one group.
  • the electronic device 100 may identify nine frame groups based on a vehicle object that is a representative group. Portions other than the nine frame groups may mean that frames having probability values greater than or equal to a predetermined threshold value are not continuously identified. In contrast, any one frame belonging to nine frame groups may mean that the frame belongs to frames having a high probability of including a Vehicle object.
  • the electronic device 100 may determine whether the frames having a probability value greater than or equal to a predetermined threshold value are continuous. For example, in order to identify a frame including a vehicle object, the electronic device 100 may check whether each frame has a probability value equal to or greater than a preset threshold value. It is assumed that the electronic device 100 finds a frame having a probability value greater than or equal to a preset threshold value in frame 5. Further, it is again assumed that frames 7, 9 and 10 have probability values greater than or equal to a preset threshold. After that, it is assumed that the frame has a probability value greater than or equal to a preset threshold value.
  • the electronic device 100 may determine whether the frames are continuous based on 20 frames.
  • the electronic device 100 may determine that frames 5, 7, 9, and 10 are frames having probability values greater than or equal to a preset threshold value, and may group frames 5 to 10.
  • the electronic device 100 may analyze 20 frames having a probability value greater than or equal to a preset threshold value after the 10th frame. If all 20 frames after frame 10 do not have a probability value greater than or equal to a preset threshold value, the electronic device 100 may determine frame 10 as the end frame of the grouping.
  • the electronic device 100 groups the frames, only the frames having a probability value greater than or equal to a predetermined threshold value may be selected and grouped. In the above-described example, the electronic device 100 may group the frames 5, 7, 9, and 10 into one group.
  • the electronic devices 100 may include the frames that do not have a probability value greater than or equal to a preset threshold.
  • the electronic device 100 may group the frames 5, 6, 7, 8, 9, and 10 into one group.
  • the electronic device 100 may set all the frames between the grouping start frame and the end frame into one group, and the summary content may have an effect of naturally continuing.
  • the preset threshold may be changed according to the user's intention, and may be automatically changed to an appropriate value.
  • the 20 frames which are the criteria for determining whether the frames are continuous, may be changed in the same manner.
  • the electronic device 100 may create a group only when the number of frames of consecutive groups is greater than or equal to a threshold value. For example, a group may be grouped only when the number of consecutive frames is five or more, and a group may not be created when fewer than five frames are continuous.
  • the five criteria may be changed by the user's setting.
  • the electronic device 100 may perform a counting operation for each grouped frame group.
  • the electronic device 100 may perform a counting operation for each grouped object group.
  • the electronic device 100 performs two grouping operations. The first grouping operation was to group related objects into one group, and the second grouping operation was to group frames with continuity into one group. The electronic device 100 may perform two grouping operations by using a probability value of the object.
  • a Vehicle object is a representative object and that Car, Motor cycle, Racing, Rad, and Driving objects are one group.
  • the electronic device 100 may perform a counting operation on one group frame.
  • the counting operation may count a frame having a probability value equal to or greater than a predetermined threshold value among frames corresponding to one group.
  • the electronic device 100 may identify the importance of the frame group based on the counted frames. In order to determine the importance, the electronic device 100 may identify how many groups have a pattern similar to the representative group. For example, in the case of the frames 1, 5, and 6 group, it can be seen that a similar pattern appears in all of the Vehicle, Car, Motor cycle, Racing, Rad, and Driving objects.
  • the similar pattern may mean that the distribution of probability values for individual objects is similar.
  • the probability values for the Vehicle, Car, Motor cycle, Racing, Rad, and Driving objects may be different. Can be determined.
  • the electronic device 100 may perform a counting operation for each object in a frame of a predetermined range (time). In detail, the electronic device 100 may perform an operation of counting whether an object is included in a frame of a predetermined range (time). The electronic device 100 may count the number of times having a probability value equal to or greater than a predetermined threshold value for each object. Similar counts can be identified by comparing the counted values. For example, assume that frames 5 to 10 are a group. The electronic device 100 may count the number of frames having a value equal to or greater than a preset threshold value by analyzing a probability value for the Vehicle object in frames 5 to 10. FIG.
  • the electronic device 100 may count the number of frames having a value greater than or equal to a preset threshold value for other objects. If the number of frames is within a certain range, the electronic device 100 may identify that the distribution of probability values of the objects shows a similar pattern.
  • the electronic device 100 may identify that a distribution of probability values for each object corresponding to one frame group has a similar pattern.
  • the vehicle, car and motor cycle objects have a similar pattern.
  • the frames 2, 3, 4, 6, 8, and 9 groups the Vehicle and Car objects have a similar pattern.
  • the electronic device 100 may identify a frame group having many similar patterns as having high importance. The electronic device 100 may identify that there are similar patterns in five object types in the frames 1, 5, and 6 groups, and may determine that the electronic device 100 is more important than other frame groups. In addition, the electronic device 100 may determine that the frame 7 group is more important than the frame 2, 3, 4, 6, 8, 9 group, and the reason is that the group 7 includes more object types having similar patterns in the frame 7 group. Because it is.
  • the electronic device may identify whether the pattern has similar probability values for the object and determine the importance.
  • the criterion for determining importance may be the number of objects having a similar pattern. For example, the frame 1, 5, 6 group can see the importance as 5, the frame 7 group can see the importance as 3, the frame 2, 3, 4, 8, 9 group can see the importance as 2.
  • the electronic device 100 may relatively classify importance for each frame group, and the electronic device 100 may determine whether to extract the summary content according to the importance value.
  • the electronic device 100 may apply various analysis methods.
  • the importance may be determined for each frame without grouping the frames.
  • a counting operation for each frame will be described later with reference to FIG. 9.
  • the electronic device 100 may analyze a plurality of objects included in each frame, and may acquire a probability that a predetermined object (a object, b object, c object, d object, e object) is included in each frame. Referring to FIG. 7, the electronic device 100 may have a probability that one object included in one frame corresponds to a object. Then, the probability corresponding to the b object is 0.8, the probability corresponding to the c object is 0.1, the probability corresponding to the d object is 0.1, and the probability corresponding to the e object may be 0.1.
  • a relationship value of each object (a object, b object, c object, d object, e object) may be obtained.
  • FIG. 8 is a diagram for describing an operation of obtaining a relationship value between a plurality of objects and grouping using the relationship value.
  • Fig. 8A is a table showing the relationship values for each object (a object, b object, c object, d object, e object).
  • the electronic device 100 may obtain a relationship value using the probability value shown in FIG. 7.
  • a correlation value may be obtained by obtaining a correlation coefficient between probability values (0.9, 0.8, 0.5, 0.7, 0.2) of object a and probability values (0.8, 0.7, 0.5, 0.3, 0.1) of object b.
  • the correlation coefficient may be positive or negative, but the electronic device 100 according to an embodiment of the present disclosure may acquire an absolute value by converting all numbers into positive numbers.
  • the electronic device 100 may analyze that there is a high correlation, and 0.3 or less may analyze that it has a low correlation.
  • it can be analyzed that it has a moderate correlation.
  • 0.3 or 0.7 can be changed by the user and is only a value derived through iterative simulation. Accordingly, the value can be changed at any time through the intention or analysis of the user.
  • the electronic device 100 may obtain a correlation coefficient without taking an absolute value in the correlation coefficient.
  • the correlation value may be positive or negative.
  • the user may analyze only positive correlations as high correlations except negative correlations.
  • correlation coefficients were obtained as 0.8, 0.3, -0.3, and -0.8.
  • the electronic device 100 may analyze that only a relationship corresponding to a value of 0.8 has a high correlation.
  • this is only one of various embodiments, and not necessarily only one analysis method is applied.
  • the contents of analyzing only positive correlations as high correlations are not shown in the drawings.
  • the electronic device 100 may group objects using the relationship value obtained in FIG. 8A.
  • objects having a relationship value of 0.7 or more may be grouped into one group.
  • a-b and c-d when the relationship value is 0.7 or more, a-b and c-d are used. Therefore, a and b can be set to group 1, and c and d can be set to group 2. And e object that is analyzed as not related to other object can be set as group 3.
  • the reason for grouping is to bundle the correlated objects to obtain summary content. Since the operation of identifying the object in the frame is to analyze the probability value, generating the summary content with only one object may reduce the accuracy. However, when identifying objects in groups, other objects that are highly related to a specific object desired by a user may be targets of summary content, thereby increasing accuracy.
  • FIG. 9 illustrates the probability values shown in FIG. 7 for each group.
  • FIG. 7 illustrates probability values according to objects, and
  • FIG. 9 illustrates probability values for groups.
  • the hatched area means the probability value is 0.7 or more.
  • the electronic device 100 may count the case where the probability value is 0.7 or more for each group.
  • the electronic device 100 may perform a counting unit for each frame. For example, the electronic device 100 may count a case in which a probability value corresponding to Group 1 is 0.7 or more in one frame. In addition, the electronic device 100 may count a case in which a probability value corresponding to Group 2 is 0.7 or more in one frame. In this way, the counting value of each group in one frame may be (2,0,0).
  • FIG. 9B The counting value of each frame is summarized in FIG. 9B. This is the number of times the hatched area in Fig. 9A is counted.
  • the probability value is shown as 0.7 or more
  • the number 0.7 is a predetermined threshold value and the value 0.7 may be changed by a user's manipulation. That is, the user may change the preset threshold value. Increasing the preset threshold value will reduce the number of counts, and decreasing the preset threshold value will increase the number of counts. The user may increase the accuracy and satisfaction for identifying the desired object by adjusting the preset threshold.
  • the electronic device 100 may normalize based on the counting values obtained in FIG. 9B.
  • the values obtained in FIG. 9B may be normalized to a range of 1 to 10.
  • the reason for normalization is to reflect the difference in the number of objects per group. For example, if there are 10 objects in a specific group and 2 objects in another group, the group with 10 objects may have a higher counting value. Therefore, in order to accurately compare counting values for each group, a normalization process is required.
  • the range of normalization is 1 to 10, but this can be changed by user setting.
  • the normalized counting value for each group obtained in FIG. 9 may be used to extract the contents of the frame. For example, among the normalized counting values for each group obtained in FIG. 9 (c), a value of 1 frame, a group 2 of 0, a group 3 of 0, and a value of 10 (0, 0) of group 3 are obtained. It became. Since the normalization range is from 1 to 10, it can be assumed that one frame includes only objects for group 1. As for the value for 2 frames, a value for (10, 5, 0) was obtained for each group, and it can be assumed that the 2 frames include objects for Group 1 and Group 2. In addition, it can be estimated that two frames contain more objects for Group 1 than for Group 2. By the above-described method, it is possible to easily analyze the inclusion and specific gravity of the object for each group of frames.
  • FIG. 10 is a view for explaining a frame extraction operation according to an embodiment of the present disclosure.
  • the normalized counting value for each group obtained in FIG. 9 (c) may be obtained for each frame.
  • both group 1 and group 2 may have normalized counting values.
  • the electronic device 100 may determine one representative group for each frame. For example, in Frame 1, the representative group can be set as Group 1 without having to worry about it. In Frame 2, since Group 1 has a value of 10 and Group 2 has a value of 5, Group 1 can be designated as a representative group.
  • This method may be a method of selecting a maximum value among the values of each group.
  • the electronic device 100 may identify the highest value among the normalized counting values of each group and determine a group having the highest value as the representative group of the corresponding frame.
  • the electronic device 100 may determine a representative group of each frame based on the normalized counting value, and may store in the memory which representative group all frames have. If a representative group is set for each frame, the user can select a frame for each group, thereby facilitating analysis by frame.
  • the electronic device 100 may extract a frame corresponding to group 1 of the representative group. Referring to FIG. 10, when the user selects group 1, the electronic device 100 may extract one frame and two frames having group 1 as a representative group. In addition, the electronic device 100 may connect one frame and two frames to generate a summary content.
  • FIG. 11 is a view for explaining a frame extraction method according to another embodiment of the present disclosure.
  • the normalized counting value for each group obtained in FIG. 9 (c) may be obtained for each frame. There can be a normalized counting value only in group 1, such as one frame (10, 0, 0). However, like frame 2 (10, 5, 0), both group 1 and group 2 may have normalized counting values.
  • the electronic device 100 may extract a frame by applying different weights for each group. For example, suppose a user prefers group 1 most and group 2 next. The electronic device 100 may set a weight of 0.7 for group 1, 0.2 for group 2, and 0.1 for group 3. The electronic device 100 may apply a weight corresponding to each group for each frame. For convenience, the value after weighting is assumed to be called the final value.
  • the electronic device 100 may apply weights for each group to the normalized counting value and obtain a final value for each frame.
  • the final value obtained for each frame may be a value reflecting a user's preference group.
  • the electronic device 100 may extract a frame having a value greater than or equal to a preset threshold value using the final value. For example, the electronic device 100 may extract a frame having a final value of 6 or more. Referring to FIG. 11, the electronic device 100 may extract 1 frame, 2 frames, and 4 frames, which are frames having a final value of 6 or more. The electronic device 100 may generate one summary content by connecting one frame, two frames, and four frames.
  • the preset threshold value 6 may vary according to a user's setting or selection. Assume that the preset threshold is set to 6.
  • Electronic device 100 The electronic device 100 may adjust a preset threshold value corresponding to the summary content time desired by the user. For example, if the time of the summary content desired by the user is 10 minutes and the time of connecting the extracted frames is 5 minutes, the electronic device 100 may increase the number of extraction of the frames by lowering a preset threshold value. On the contrary, if the summary content time desired by the user is 10 minutes and the time for connecting the extracted frames is 15 minutes, the electronic device 100 may increase the preset threshold to decrease the number of extraction of the frames.
  • the electronic device 100 may automatically identify an operation of extracting the number of frames corresponding to the summary content time desired by the user.
  • the most suitable preset threshold value may be identified by analyzing the number of frames obtained by changing the preset threshold value, and the electronic device 100 may extract the frame using the most suitable preset threshold value.
  • the electronic device 100 may generate summary content according to a summary content time desired by the user.
  • the electronic device 100 may reflect the user's preference in more detail. In addition, the electronic device 100 may reflect the importance of not only any one group but various groups, thereby increasing satisfaction with the summary content.
  • FIG. 12 is a diagram for grouping a plurality of objects and describing representative objects of a group.
  • the electronic device 100 may identify one group using the relationship value between the objects. For example, the relationship between the Vehicle, Car, Motor cycle, Racing, Rad, and Driving objects can be analyzed and set as a group. The method of setting a group has been described above with reference to FIG. 8. Referring to FIG. 12, the electronic device 100 may group Vehicle, Car, Motor cycle, Racing, Rad, and Driving objects into one group by grouping a case where the relationship value is greater than or equal to a preset threshold. .
  • the electronic device 100 may determine a representative object among the vehicle, car, motor cycle, racing, rad, and driving objects.
  • the criterion for selecting the representative object may determine the object having the highest average of probability values in the same group.
  • the electronic device 100 may select the object having the most probability value equal to or greater than a preset threshold value as the representative object.
  • the electronic device 100 may determine a vehicle object as a representative object.
  • the electronic device 100 may analyze the relationship values between Gadget, Mobile phone, Smart phone, Personal computer, and Video game objects and set them as one group. Referring to FIG. 12, the electronic device 100 may group Gadget, Mobile phone, Smart phone, Personal computer, and Video game objects into one group by grouping the case where the relationship value is greater than or equal to a preset threshold. have.
  • the electronic device 100 may determine a representative object among Gadget, Mobile phone, Smart phone, Personal computer, and Video game objects.
  • the criterion for selecting the representative object may determine the object having the highest average of probability values in the same group.
  • the electronic device 100 may select the object having the most probability value equal to or greater than a preset threshold value as the representative object.
  • the electronic device 100 may determine the Gadget object as the representative object.
  • the method of determining the representative object is not limited to the above-described method, and various methods of selecting an object capable of representing the same group may be applied.
  • FIG. 13 is a diagram for describing a user interface displayed on a display.
  • the electronic device 100 may display a user interface on the display.
  • the display may be a hardware component included in the electronic device 100, or may be a display device connected separately.
  • the electronic device 100 may display a user interface for generating summary content to the user, and the user interface may display a group object that is a reference of the summary content. As described above, the electronic device 100 may group the plurality of objects into one group based on the association.
  • the electronic device 100 may display on the display a user interface inquiring which group the user selects. For example, the number of the group or the name or representative object of the group may be displayed in the user interface. Referring to FIG. 13, a representative object is displayed and vehicles, gadgets, nature, cosmetics, etc. may be representative objects.
  • the electronic device 100 may select a group through voice recognition. For example, show the scene of a vehicle! When the user speaks a voice, the electronic device 100 may select a vehicle group. In addition, the user can directly select a group using a remote control device (remote control).
  • remote control device remote control
  • the electronic device 100 may generate summary content based on a frame associated with the group. Even if the user selects a specific group, the group may already include various related objects. Therefore, when the user selects the representative object, the electronic device 100 may use frames of various related objects as targets of the summary content.
  • FIG. 14 is a flowchart illustrating a control method of the electronic device 100 according to an embodiment of the present disclosure.
  • a plurality of frames are obtained from the content (S1405).
  • a probability value for each of the plurality of objects is obtained in each of the plurality of frames.
  • a correlation value between a plurality of objects is obtained based on the obtained probability value.
  • the plurality of objects are grouped into at least one group based on the obtained correlation value.
  • the acquired probability value is greater than or equal to a predetermined threshold value for each group of frames.
  • the summary content is acquired based on the counting result.
  • the correlation value between the plurality of objects is obtained by comparing the difference between the probability values of the plurality of objects for each of the plurality of frames, and in the grouping operation (S1420), the obtained correlation value is preliminary.
  • Objects greater than or equal to the set threshold may be grouped into one group.
  • the summary content may be acquired based on the core frame included in the predetermined group, based on the counting result.
  • the control method may further include identifying a representative object among the objects belonging to each of the groups and providing information on the identified representative object.
  • the information on the specific object may be used by the user.
  • the summary content obtained based on the core frame of the group to which the specific object belongs may be obtained.
  • the control method may further include counting, for each object, a case in which a probability value obtained for each of the plurality of frames is greater than or equal to a preset threshold value, and in the obtaining of the summary content, the counting count for each object is a preset threshold value.
  • the summary content may be obtained by identifying an object having a value or more.
  • the control method may further include normalizing the counting result for each group based on the number of objects belonging to each group.
  • control method may further include applying a weight for each group to a normalization value for each group for each of the plurality of frames, and in the obtaining of the summary content, the summary content may be obtained based on the weighted value. have.
  • the size of the summary content may be adjusted based on a playing time of the input summary content according to a user command.
  • updating the summary content by adding a frame within a preset playing time range based on the playing time of the summary content. It may further include.
  • An electronic device control method as shown in FIG. 14 may be executed on an electronic device having the configuration of FIG. 1 or 2, or may be executed on an electronic device having other configurations.
  • the electronic device control method according to the above-described embodiment may be implemented as a program and provided to the electronic device.
  • the program including the electronic device control method may be stored and provided in a non-transitory computer readable medium.
  • the operation may include obtaining a plurality of frames from the content. Obtaining a probability value for each of the plurality of objects in each of the plurality of frames, obtaining a correlation value between the plurality of objects based on the obtained probability value, and obtaining a plurality of objects based on the obtained correlation value. Grouping into at least one group, counting a case in which the obtained probability value is equal to or greater than a preset threshold value for each of a plurality of frames per group and acquiring summary content based on a counting result.
  • the electronic device control method according to the above-described embodiment may be implemented as a program and provided to the electronic device.
  • the program including the electronic device control method may be stored and provided in a non-transitory computer readable medium.
  • the various embodiments described above may be implemented in a recording medium readable by a computer or a similar device using software, hardware, or a combination thereof.
  • the embodiments described in the present disclosure may include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), and field programmable gate arrays (FPGAs). ), Processors, controllers, micro-controllers, microprocessors, and other electrical units for performing other functions.
  • the embodiments described herein may be implemented in the processor 120 itself.
  • embodiments such as the procedures and functions described herein may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.
  • computer instructions for performing a processing operation in the electronic device may be stored in a non-transitory computer-readable medium.
  • the computer instructions stored in the non-transitory computer readable medium allow the specific device to perform processing operations in the electronic device according to the above-described various embodiments when executed by the processor of the specific device.
  • a non-transitory computer readable medium refers to a medium that stores data semi-permanently and is readable by a device, not a medium storing data for a short time such as a register, a cache, a memory, and the like.
  • Specific examples of non-transitory computer readable media may include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 컨텐츠가 저장된 메모리 및 저장된 컨텐츠를 구성하는 복수의 프레임 각각에 포함된 복수의 오브젝트 각각에 대한 확률 값을 획득하고, 획득된 확률 값에 기초한 복수의 오브젝트 간 상관 값에 따라 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하고, 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 그룹 별로 복수의 프레임마다 카운팅하고, 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 프로세서를 포함한다.

Description

전자 장치 및 그 제어방법
본 개시는 전자 장치 및 그 제어방법에 관한 것으로, 더욱 상세하게는 비디오 컨텐츠에 포함된 표식의 종류를 분석하여 요약 컨텐츠를 제공하는 전자 장치 및 그 제어방법에 대한 것이다.
종래에는 주로 방송 콘텐츠 중심의 비디오를 시청하였지만, 최근에는 인터넷이나 모바일 등을 이용해 다양한 VOD 및 스트리밍 비디오 서비스를 쉽게 접할 수 있게 되었다. 또한, 최근 비디오 콘텐츠의 양과 시청 방식이 다양해지면서 사용자들은 일방적으로 비디오 콘텐츠를 제공받는 기존의 방식에서 벗어나 점점 개인의 흥미나 관심도에 따라 비디오를 선택적으로 시청하고자 하는 요구가 커지고 있다.
이에 따라 사용자가 보고 싶어하는 비디오에 관한 정보를 간략하고 빠르게 전달할 수 있는 비디오 요약 기술 개발에 대한 관심이 최근 급속하게 증가하고 있다. 그리고, 동영상 서비스 제공자가 비디오에서 중요하거나 재미있는 장면들을 짧은 동영상 클립으로 편집하여 미리보기 혹은 다시보기 등으로 비디오 컨텐츠를 요약하여 제공하고 있다.
원본 영상의 재생 시간보다 짧은 시간으로 요약하여 컨텐츠를 제공하기 위하여 다양한 방법이 사용되고 있다. 구체적으로, 실제 사람에 의한 비디오 편집 방식을 이용하여, 편집자가 원본 영상을 주관적으로 편집하여 요약 컨텐츠를 제공하는 방법이 있다. 또한, 사람에 의한 주관적인 편집이 아닌 프로세서에 의해 자동으로 비디오를 요약하는 방법이 있으며, 오디오 및 비디오의 특징 정보를 이용하는 방법과, 내용의 서사 구조 및 단위 별 전개 정도를 분석하는 방법이 있다.
한편, 서비스 제공자가 비디오에서 직접 비디오를 편집하여 비디오 요약 클립을 제공하는 방식은 내용 전개의 흐름이 자연스러우나, 편집 과정에 매우 많은 시간과 노력이 필요로 하고 편집자의 주관적 견해를 기반으로 작업되기 때문에 사용자의 기호에 맞는 정보를 제공할 수 없다는 문제점이 있다.
또한, 종래의 오디오 및 비디오의 정보 기반의 비디오 요약 방법은 특정 인물이 등장하는 장면을 보여줄 수 있지만, 등장인물이라는 제한적 정보만으로는 비디오의 전반적인 내용을 전달하기 어렵다.
또한, 서사 구조 중심의 비디오 요약 방법은 시청하는 비디오의 대략적인 내용 전달은 가능하지만, 사용자가 관심을 가지고 보고 싶어하는 장면들이 제외될 수 있다는 문제점이 있다.
본 개시는 상술한 문제를 개선하기 위해 고안된 것으로, 본 개시의 목적은 프레임에서 식별된 오브젝트들 간 관계에 기초하여 오브젝트들을 그룹핑하고, 그룹핑 정보에 기초하여 요약 컨텐츠를 획득하는 전자 장치 및 그의 제어방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 실시예에 따른 전자 장치는 컨텐츠가 저장된 메모리 및 상기 저장된 컨텐츠를 구성하는 복수의 프레임 각각에 포함된 복수의 오브젝트 각각에 대한 확률 값을 획득하고, 상기 획득된 확률 값에 기초한 상기 복수의 오브젝트 간 상관 값에 따라 상기 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하고, 상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 그룹 별로 상기 복수의 프레임마다 카운팅하고, 상기 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 프로세서를 포함한다.
여기서, 상기 프로세서는 상기 복수의 오브젝트 간 확률 값의 차이를 상기 복수의 프레임마다 비교하여 상기 복수의 오브젝트 간 상관 값을 획득하고, 상기 획득된 상관 값이 기 설정된 임계 값 이상인 오브젝트들을 하나의 그룹으로 그룹핑할 수 있다.
또한, 상기 프로세서는 상기 카운팅 결과에 기초하여 상기 그룹 별 핵심 프레임을 획득하고 기 설정된 그룹에 포함된 핵심 프레임에 기초하여 상기 요약 컨텐츠를 획득할 수 있다.
한편, 본원 전자 장치는 디스플레이를 더 포함하고, 상기 프로세서는 상기 그룹 각각에 속한 오브젝트 중 대표 오브젝트를 식별하고, 상기 식별된 대표 오브젝트에 대한 정보를 제공하고 특정 오브젝트에 대한 정보가 사용자에 의해 선택되면 상기 특정 오브젝트가 속한 그룹의 핵심 프레임에 기초하여 획득된 요약 컨텐츠를 제공하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는 상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 오브젝트 별로 상기 복수의 프레임마다 카운팅하고, 상기 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 식별하여 상기 요약 컨텐츠를 획득할 수 있다.
또한, 상기 프로세서는 상기 그룹 별 카운팅 결과를 상기 그룹 각각에 속한 오브젝트의 개수에 기초하여 정규화시킬 수 있다.
또한, 상기 프로세서는 상기 복수의 프레임 각각에 대한 상기 그룹 별 정규화 값에 상기 그룹별 가중치를 적용하고, 상기 가중치가 적용된 값에 기초하여 상기 요약 컨텐츠를 획득할 수 있다.
또한, 상기 프로세서는 사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간에 기초하여 상기 기 설정된 임계 값의 크기를 조정할 수 있다.
또한, 상기 프로세서는 사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간이 상기 획득된 요약 컨텐츠의 재생 시간보다 긴 경우, 상기 요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임을 추가하여 상기 요약 컨텐츠를 업데이트할 수 있다.
한편, 본 개시의 일 실시 예에 따른 컨텐츠를 저장하는 제어 방법은 상기 저장된 컨텐츠를 구성하는 복수의 프레임 각각에 포함된 복수의 오브젝트 각각에 대한 확률 값을 획득하는 단계, 상기 획득된 확률 값에 기초하여 상기 복수의 오브젝트 간 상관 값에 따라 상기 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하는 단계, 상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 그룹 별로 상기 복수의 프레임마다 카운팅하는 단계 및 상기 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 단계를 포함한다.
여기서, 상기 상관 값을 획득하는 단계는 상기 복수의 오브젝트 간 확률 값의 차이를 상기 복수의 프레임마다 비교하여 상기 복수의 오브젝트 간 상관 값을 획득하고, 상기 그룹핑하는 단계는 상기 획득된 상관 값이 기 설정된 임계 값 이상인 오브젝트들을 하나의 그룹으로 그룹핑할 수 있다.
또한, 상기 요약 컨텐츠를 획득하는 단계는 상기 카운팅 결과에 기초하여 상기 그룹 별 핵심 프레임을 획득하고 기 설정된 그룹에 포함된 핵심 프레임에 기초하여 상기 요약 컨텐츠를 획득할 수 있다.
또한, 본 개시의 제어 방법은 상기 그룹 각각에 속한 오브젝트 중 대표 오브젝트를 식별하는 단계 및 상기 식별된 대표 오브젝트에 대한 정보를 제공하는 단계를 더 포함하고, 상기 요약 컨텐츠를 획득하는 단계는 특정 오브젝트에 대한 정보가 사용자에 의해 선택되면 상기 특정 오브젝트가 속한 그룹의 핵심 프레임에 기초하여 획득된 요약 컨텐츠를 획득할 수 있다.
또한, 본원 제어 방법은 상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 오브젝트 별로 상기 복수의 프레임마다 카운팅하는 단계를 더 포함하고, 상기 요약 컨텐츠를 획득하는 단계는 상기 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 식별하여 상기 요약 컨텐츠를 획득할 수 있다.
또한, 본원 제어 방법은 상기 그룹 별 카운팅 결과를 상기 그룹 각각에 속한 오브젝트의 개수에 기초하여 정규화시키는 단계를 더 포함할 수 있다.
또한, 본원 제어 방법은 상기 복수의 프레임 각각에 대한 상기 그룹 별 정규화 값에 상기 그룹별 가중치를 적용하는 단계를 더 포함하고, 상기 요약 컨텐츠를 획득하는 단계는 상기 가중치가 적용된 값에 기초하여 상기 요약 컨텐츠를 획득할 수 있다.
여기서, 상기 요약 컨텐츠를 획득하는 단계는 사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간에 기초하여 상기 기 설정된 임계 값의 크기를 조정할 수 있다.
또한, 사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간이 상기 획득된 요약 컨텐츠의 재생 시간보다 긴 경우, 상기 요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임을 추가하여 상기 요약 컨텐츠를 업데이트하는 단계를 더 포함할 수 있다.
한편, 본 개시의 일 실시 예에 따른 컨텐츠를 저장하는 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은 상기 컨텐츠로부터 복수의 프레임을 획득하는 단계, 상기 저장된 컨텐츠를 구성하는 복수의 프레임 각각에 포함된 복수의 오브젝트 각각에 대한 확률 값을 획득하는 단계, 상기 획득된 확률 값에 기초하여 상기 복수의 오브젝트 간 상관 값에 따라 상기 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하는 단계, 상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 그룹 별로 상기 복수의 프레임마다 카운팅하는 단계 및 상기 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 단계를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 도시한 블록도,
도 2는 도 1의 전자 장치의 구체적인 구성을 설명하기 위한 블록도,
도 3은 프레임에서 확률 값을 획득하는 동작을 설명하기 위한 도면,
도 4는 복수의 오브젝트 간 상관 값을 설명하기 위한 도면,
도 5는 전체 재생 시간 동안 오브젝트별 확률 값의 분포를 설명하기 위한 도면,
도 6은 프레임을 그룹화하고 카운팅하는 동작을 설명하기 위한 도면,
도 7 내지 도 11은 본 개시의 일 실시 예에 따른 프레임 추출 과정을 설명하기 위한 도면,
도 12는 복수의 오브젝트들을 그룹핑하고 그룹의 대표 오브젝트를 설명하기 위한 도면,
도 13은 디스플레이에 표시된 사용자 인터페이스를 설명하기 위한 도면 그리고
도 14는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치(100)를 도시한 블록도이다.
도 1을 참조하면, 전자 장치(100)는 메모리(110) 및 프로세서(120)로 구성될 수 있다.
메모리(110)는 컨텐츠를 저장할 수 있다. 컨텐츠는 비디오 및 오디오 신호를 포함할 수 있으며, 복수개의 프레임으로 구성될 수 있다. 또한, 메모리(110)는 컨텐츠와 관련된 다양한 정보를 저장할 수 있다.
메모리(110)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 한편, 메모리(110)는 전자 장치(100)내의 저장 매체뿐만 아니라, 외부 저장 매체, 예를 들어, micro SD 카드, USB 메모리 또는 네트워크를 통한 웹 서버(Web server) 등으로 구현될 수 있다.
프로세서(120)는 전자 장치(100)의 전반적인 제어 동작을 수행할 수 있다.
일 실시 예에 따라 프로세서는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller), 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있
프로세서(120)는 컨텐츠로부터 복수의 프레임을 획득하고, 복수의 프레임 각각에서 복수의 오브젝트 각각에 대한 확률 값을 획득할 수 있다.
여기서, 오브젝트란 프레임에 포함된 시각적으로 표현 가능한 모든 것을 의미할 수 있다. 또한, 오브젝트는 책상, 의자, 전화기와 같은 사물은 물론이고 강의, 수강 신청 같은 개념으로 존재하는 것을 포함할 수 있다. 따라서, 오브젝트는 사물뿐만이 아니라 특정 개념일 수 있다.
한편, 오브젝트는 설명의 편의를 위해 사물을 대상으로 설명하겠지만, 반드시 이에 한정되는 것은 아니다. 오브젝트는 특정 인물이 될 수 있다. 예를 들어, 슈퍼맨을 하나의 오브젝트로 정할 수 있다. 또한, 오브젝트는 주인공일 수 있다. 전자 장치(100)는 여자 주인공의 특징을 얼굴 형태를 기초로 인식하여 주인공을 오브젝트로 설정할 수 있다.
여기서, 오브젝트에 대한 확률 값이란 프레임에 해당 오브젝트가 포함될 확률을 의미할 수 있다. 프레임 안에는 다양한 오브젝트가 존재할 수 있으며, 전자 장치(100)는 각각의 프레임에 기 설정된 특정 오브젝트가 포함되는지 여부를 확률 값으로 획득할 수 있다. 예를 들어, 특정 프레임에 대하여 car 오브젝트의 확률 값이 0.7이라면, 해당 프레임에 car 오브젝트를 포함할 확률이 0.7이라는 것을 의미할 수 있다.
그리고, 프로세서(120)는 획득된 확률 값에 기초하여 복수의 오브젝트 간 상관 값을 획득할 수 있다. 상관 값이란 복수의 오브젝트 사이의 관계를 수치화 시킨 값일 수 있다. 연관성이 높은 경우 상관 값이 높고, 연관성이 낮은 경우 상관 값이 낮을 수 있다. 그리고, 구체적으로 상과 값은 하나의 프레임에서 두 개의 오브젝트가 동시에 포함될 수 있는 정도를 의미할 수 있다. 예를 들어, A와 B 오브젝트의 상관 값이 0.8에 해당한다면, A와 B 오브젝트가 동시에 하나의 프레임에 포함될 확률이 상대적으로 높다는 의미일 수 있다.
이와 같이 오브젝트의 확률 값에 기초하여 복수의 오브젝트 간 연관성을 획득할 수 있는 이유는, 상이한 복수의 오브젝트가 복수의 프레임에 함께 존재할 확률이 높은 경우 해당 오브젝트들이 해당 컨텐츠 내에서 서로 연관성이 있다고 볼 수 있기 때문이다.
복수의 오브젝트 사이에 연관성은 다양한 방법으로 획득될 수 있으며, 그 중 하나의 방법으로 상관 계수를 구하여 상관 값을 획득할 수 있다.
상관 계수는 양수 또는 음수가 나올 수 있지만, 본 개시의 일 실시 예에 따른 프로세서(120)는 절대 값을 취해 모든 수를 양수로 변환하여 관계 값을 획득할 수 있다. 프로세서(120)는 절대 값을 취해 획득한 관계 값이 0.7 이상인 경우 높은 상관 관계를 갖는다고 분석할 수 있으며, 0.3 이하는 낮은 상관 관계를 갖는다고 분석할 수 있다. 또한, 0.3부터 0.7 사이의 관계 값을 갖는 경우, 중간 정도의 상관 관계를 갖는다고 분석할 수 있다. 여기서, 0.3 또는 0.7은 사용자가 변경할 수 있으며, 반복적인 시뮬레이션을 통해 도출된 값에 불과하다 .따라서, 사용자의 의도 또는 분석을 통해 상기 값은 언제든 변경될 수 있다.
한편, 본 개시의 또 다른 실시 예에 따른 프로세서(120)는 상관 계수에 절대 값을 취하지 않고 상관 계수를 획득할 수 있다. 이 경우, 상관 값은 양수 또는 음수 일 수 있다. 이 경우, 사용자는 음수가 나오는 상관 관계를 제외하고 양수의 상관 관계만을 높은 상관 관계로 분석할 수 있다. 예를 들어, 상관 계수가 0.8,0.3,-0.3,-0.8로 획득되었다고 가정한다. 프로세서(120)는 0.8의 값에 해당하는 관계만 높은 상관 관계를 갖는다고 분석할 수 있다. 하지만, 이는 다양한 실시 예 중 하나일 뿐이며 반드시 하나의 분석 방법만이 적용되는 것은 아니다.
또한, 프로세서(120)는 획득된 상관 값에 기초하여 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑할 수 있다. 프로세서(120)가 그룹핑 동작을 통해서 상호 연관이 있는 오브젝트를 묶어 요약 컨텐츠를 획득할 수 있어 분석이 용이해질 수 있다. 구체적으로, 프레임에서 오브젝트를 식별하는 동작이 확률 값을 분석하는 것이기 때문에, 하나의 오브젝트만으로 요약 컨텐츠를 생성하면 정확성이 떨어질 수 있다. 하지만, 그룹으로 묶어서 오브젝트를 식별하면, 사용자가 원하는 특정 오브젝트와 관련성이 높은 다른 오브젝트도 요약 컨텐츠의 대상이 될 수 있어 정확성이 높을 수 있다.
또한, 프로세서(120)는 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 그룹 별로 상기 복수의 프레임마다 카운팅하고, 카운팅 결과에 기초하여 요약 컨텐츠를 획득할 수 있다.
여기서, 프로세서(120)는 복수의 오브젝트 간확률 값의 차이를 복수의 프레임마다 비교하여 복수의 오브젝트 간 상관 값을 획득하고, 획득된 상관 값이 기 설정된 임계 값 이상인 오브젝트들을 하나의 그룹으로 그룹핑할 수 있다.
또한, 프로세서(120)는 카운팅 결과에 기초하여 그룹 별 핵심 프레임을 획득하고 기 설정된 그룹에 포함된 핵심 프레임에 기초하여 요약 컨텐츠를 획득할 수 있다. 예를 들어, 프로세서(120)는 확률 값이 0.7 이상인 경우를 그룹별로 카운팅할 수 있다. 그리고, 프로세서(120)는 카운팅 단위를 프레임별로 할 수 있다. 예를 들어, 프로세서(120)는 1프레임에서 그룹1에 해당하는 확률 값이 0.7 이상인 경우를 카운팅 할 수 있다. 그리고, 프로세서(120)는 1프레임에서 그룹2에 해당하는 확률 값이 0.7이상인 경우를 카운팅 할 수 있다. 이렇게 1프레임에서 그룹별 카운팅 값은 (2,0,0) 이 될 수 있다.
여기서, 확률 값이 0.7 이상인 경우로 설명 하였지만, 0.7이라는 숫자는 기 설정된 임계 값이며 0.7 값은 사용자의 조작에 의해 변경될 수 있다. 즉, 기 설정된 임계 값은 사용자가 변경할 수 있다. 기 설정된 임계 값을 올리면 카운팅 되는 횟수가 작아질 것이고, 기 설정된 임계 값을 내리면 카운팅 되는 횟수가 증가할 것이다. 사용자는 기 설정된 임계 값을 조절하여 원하는 오브젝트 식별에 대한 정확성 및 만족도를 높일 수 있다. 그리고, 카운팅 동작에 대해서는 도 9에서 구체적으로 후술한다.
한편, 프로세서(120)는 복수의 프레임 각각에 대해 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 오브젝트 별로 카운팅하고, 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 식별하여 요약 컨텐츠를 획득할 수 있다. 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 식별하면, 예외적으로 식별되는 오브젝트에 대해서 컨텐츠의 대상에서 제외시킬 수 있다. 예를 들어, 총 1000개의 프레임 중 200개 프레임에서 발견된 car 오브젝트와 3개 프레임에서 발견된 rabbit 오브젝트가 있다고 가정한다. 일반적으로 rabbit 오브젝트와 같이 예외적으로 발견되는 오브젝트가 요약의 기준이 될 가능성이 적다고 볼 수 있다. 그리고, 모든 오브젝트를 요약 컨텐츠의 대상으로 하는 경우, 처리 속도가 길어지는 문제점이 있을 수 있다. 이러한 문제점을 해결하기 위하여, 전자 장치(100)는 처리 속도의 향상을 위해 총 프레임의 개수에서 일정 비율 이상 식별되는 오브젝트만을 요약 컨텐츠의 대상으로 할 수 있으며, 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 요약 컨텐츠의 대상으로 할 수 있다.
또한, 프로세서(120)는 그룹 별 카운팅 결과를 그룹 각각에 속한 오브젝트의 개수에 기초하여 정규화시킬 수 있다.
정규화를 하는 이유는 그룹별 오브젝트의 수가 다름을 반영하기 위함이다. 예를 들어, 특정 그룹의 오브젝트가 10개이고 다른 그룹의 오브젝트가 2개인 경우, 카운팅 값이 오브젝트가 10개인 그룹이 높게 나올 수 있다. 따라서, 그룹별 카운팅 값을 정확하게 비교하기 위해선, 정규화 과정이 필요하다. 본 개시의 일 실시 예에선 정규화의 범위를 1~10으로 하였지만 이는 사용자의 설정에 의해 변경 가능하다. 정규화 동작과 관련해서 구체적으로 도 9에서 후술한다.
프로세서(120)는 정규화된 값을 이용하여 요약 컨텐츠의 대상을 정하도록 분석할 수 있다.
프로세서(120)는 그룹별로 획득된 정규화된 값을 비교하여 최대값을 갖는 그룹을 해당 프레임의 대표 그룹으로 설정할 수 있다. 1프레임에 복수개의 정규화된 값들이 있을 수 있으며, 그 중 가장 큰 값을 갖는 그룹을 1프레임의 대표 그룹으로 정하는 방식일 수 있다.
그리고, 프로세서(120)는 복수개의 프레임에 각각 대표 그룹을 설정할 수 있다. 사용자가 특정 대표 그룹을 선택하면, 전자 장치(100)는 선택된 대표 그룹과 대응되는 프레임을 요약 컨텐츠의 대상으로 설정할 수 있다.
최대 값을 이용하는 자세한 설명은 도 10에서 후술한다.
한편, 상술한 최대값을 이용하는 방법과 달리, 프로세서(120)는 복수의 프레임 각각에 대한 그룹 별 정규화 값에 그룹별 가중치를 적용하고, 가중치가 적용된 값에 기초하여 요약 컨텐츠를 획득할 수 있다.
여기서, 전자 장치(100)는 그룹별로 다른 가중치를 적용하여 프레임을 추출할 수 있다. 예를 들어, 사용자가 그룹1을 가장 선호하고 그룹2를 다음으로 선호하는 것으로 가정한다. 전자 장치(100)는 그룹1에 대하여 가중치를 0.7, 그룹2에 대해서 0.2, 그룹3에 대해서 0.1로 설정할 수 있다. 그리고, 전자 장치(100)는 각 그룹에 대응되는 가중치를 프레임마다 적용할 수 있다. 가중치가 적용된 이후의 값을 편의상 최종 값으로 부르기로 가정한다.
전자 장치(100)는 정규화된 카운팅 값에 그룹별 가중치를 적용할 수 있고, 프레임마다 최종 값을 획득할 수 있다. 여기서, 프레임마다 획득된 최종 값은 사용자의 선호 그룹을 반영한 수치가 될 수 있다.
전자 장치(100)는 최종 값을 이용하여 기 설정된 임계 값 이상의 값을 갖는 프레임을 추출할 수 있다.
전자 장치(100)가 그룹별 가중치를 적용한다면, 사용자의 선호도를 더욱 상세하게 반영할 수 있다. 그리고 전자 장치(100)는 어느 하나의 그룹만이 아니라 다양한 그룹의 중요도를 반영할 수 있어 요약 컨텐츠에 대한 만족도를 높일 수 있다.
한편, 사용자의 요약 컨텐츠 요청이 있는 경우, 전자 장치(100)는 기 설정된 시간에 기초하여 요약 컨텐츠를 생성할 수 있다. 사용자의 설정에 따라, 모든 요약 컨텐츠를 동일한 시간으로 요약할 수 있다. 예를 들어, 전자 장치(100)는10분, 100분, 500분의 영상 모두에 대하여 5분의 요약 컨텐츠를 생성할 수 있다.
또한, 전자 장치(100)는 사용자가 선택한 요약 컨텐츠의 전체 재생 시간에 기초하여 요약 컨텐츠를 생성할 수 있다. 예를 들어, 전자 장치(100)는 10분에 대한 컨텐츠는 1분, 100분에 대한 컨텐츠는 10분, 500분에 대한 컨텐츠는 50분으로 요약컨텐츠를 생성할 수 있다.
한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 사용자가 직접 요약 컨텐츠의 재생 시간을 선택하도록 설정할 수 있다.
구체적으로, 사용자가 요약 컨텐츠의 재생 시간을 선택하면, 전자 장치(100)는 최대한 사용자가 원하는 시간에 대응되도록 요약 컨텐츠를 생성해야 할 필요가 있다.
사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간이 획득된 요약 컨텐츠의 재생 시간보다 긴 경우, 전자 장치(100) (a)는 요약 컨텐츠의 대상이 될 수 있는 프레임을 늘려야 한다.
대상이 되는 프레임을 늘리기 위해, 전자 장치(100)는 상술한 다양한 임계 값을 조절할 수 있다. 또한, 전자 장치(100)는 요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임을 추가하여 요약 컨텐츠를 업데이트할 수 있다.
예를 들어, 요약 컨텐츠의 대상이 되는 프레임의 근처 프레임(요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임)을 임의로 추가하는 방법이다. 1~100개의 프레임 중에서 20~40번의 프레임을 요약 컨텐츠로 생성하였다고 가정한다. 전자 장치(100)는 상술한 임계 값의 조절에도 사용자가 원하는 요약 컨텐츠의 대상이 없다고 판단되면, 이미 요약 컨텐츠의 대상이 되는 프레임의 근처 프레임(요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임)을 추가할 수 있다. 상술한 예시에서는, 전자 장치(100)는 근처 프레임(요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임)을 추가하여 15~45번 프레임을 요약 컨텐츠의 대상으로 삼을 수 있다.
프로세서(120)는 그룹 각각에 속한 오브젝트 중 대표 오브젝트를 식별하고, 식별된 대표 오브젝트에 대한 정보를 디스플레이에 표시하고 특정 오브젝트에 대한 정보가 사용자에 의해 선택되면 특정 오브젝트가 속한 그룹의 핵심 프레임에 기초하여 획득된 요약 컨텐츠를 제공하도록 디스플레이(130)를 제어할 수 있다.
한편, 전자 장치(100)는 디스플레이(130)를 더 포함할 수 있으며, 여기서 디스플레이(130)는 전자 장치(100)의 하드웨어 구성요소일 수 있으며, 전자 장치(100)와 연결된 별도의 디스플레이 장치에 해당될 수 있다.
여기서, 전자 장치(100)는 전자 장치(100)에 포함된 디스플레이를 직접 제어 할 수 있다. 전자 장치(100)는 디스플레이에 표시되는 내용을 결정하여 디스플레이를 통해 표시할 수 있다.
한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 비디오 신호를 생성하여 외부의 디스플레이 장치에 생성된 비디오 신호를 전달하는 형태로 구현될 수 있다. 전자 장치(100)는 비디오 신호를 출력하여 외부의 디스플레이 장치에 전송하고, 외부의 디스플레이 장치는 전자 장치(100)에서 출력된 비디오 신호를 수신하여 해당 내용을 디스플레이에 표시할 수 있다.
한편, 프레임마다 추출되는 오브젝트의 종류와 전체 재생 시간에 분포 된 정도를 다음의 수학식 1을 이용하여 표현할 수 있다.
Figure PCTKR2019003512-appb-M000001
이 식에서 f_i는 i번째 프레임에서 추출된 오브젝트 l_(i_(1…n) )과 매칭 확률 p_(i_(1…n) )의 집합을 나타낸다. N은 전체 프레임의 개수를, n은 i번째 프레임에서 추출된 오브젝트의 개수를 표현할 수 있다.
또한, 비디오의 각 프레임은 각기 다른 수 많은 오브젝트들이 추출되는데, 이 오브젝트 중에는 매우 낮은 확률 혹은 매우 적은 빈도로 추출되는 오브젝트들이 존재한다. 본 발명에서는 각 프레임의 오브젝트 간 연관도를 측정하기에 앞서 위와 같이 불필요한 오브젝트들을 사전에 제거하는 전 처리 여과 단계를 수행한다. 우선, 각 프레임에서 오브젝트의 매칭 확률(p_(i_j))이 임계값(t_p) 미만인 경우는 그만큼 오브젝트와의 매칭 정확도가 낮다고 판단하고 제외하는 작업을 수행한다. 본 발명에서는 해당 임계값을 0.4로 설정한다. (수학식 2 참고) 이 식에서 f_i^'는 i번째 프레임을 매칭 확률을 기준으로 여과한 결과를 나타낸다.
Figure PCTKR2019003512-appb-M000002
추가로, 전체 재생 시간 대비 추출되는 오브젝트의 빈도가 적은 경우도 정확도가 낮은 오브젝트로 판단하여 제외하는 작업을 수행할 수 있다. 전체 재생 시간은 전체 프레임의 개수(N)로 간주할 수 있다. j번째 오브젝트의 추출 빈도(o_ij)는 전체 프레임에서 특정 오브젝트가 추출되는 개수(n(·))를 세어 구할 수 있다. 예를 들어, 'Vehicle'이라는 오브젝트가 전체 1000개의 프레임 중에 1~100번 프레임과 150~230번 프레임, 500~700번 프레임 사이에서 0.4 이상의 확률로 추출되었다면 총 380번 추출되었으므로 약 38%의 확률로 추출된다고 할 수 있다. 이러한 방식으로 모든 오브젝트의 추출 빈도를 측정하여 임계값(t_o) 미만으로 추출되는 오브젝트는 이상점(Outlier)으로 간주하여 제외하는 작업을 수행할 수 있다. 본 발명에서는 해당 임계값을 0.1로 설정할 수 있다. (수학식 3 참고)
Figure PCTKR2019003512-appb-M000003
f_ij^'는 i번째 프레임, j번째 오브젝트의 최종 여과 결과이다. 상기 과정을 통해 이상점으로 분류된 오브젝트의 경우 p_(i_j )=0이 된다.
본 발명에서는 이러한 오브젝트 결과를 비디오 전체 재생 시간을 축으로 하여 그 분포의 상관관계를 계산하여 오브젝트 간 연관도를 구할 수 있다. 도면 4를 통해 알 수 있듯이, 'Vehicle'과 'Car' 오브젝트는 약 80%, 'Gadget'과 'Smart Phone' 오브젝트는 약 79%, 'Nature'와 'Plant' 오브젝트는 약 66% 가량 시간 축 상으로 분포가 유사하여 상당한 연관성을 가지고 있다. 반면에, 'Vehicle'과 'Gadget’은 약 8%, 'Gadget'과 'Nature'는 약 0.1%, 'Nature'와 'Vehicle'은 약 0.4%의 유사도로 오브젝트 간 연관성이 거의 없음을 알 수 있다.
한편, 프로세서(120)는 그룹화 동작을 수행할 수 있는데, 아래와 같은 수학식을 이용할 수 있다.
Figure PCTKR2019003512-appb-M000004
G_j는 j번째 오브젝트와 연관된 오브젝트들의 그룹을 표현할 수 있다. 즉, 각 오브젝트 간 연관도가 특정 임계값(t_c) 이상인 경우 해당 오브젝트와 연관이 있다 간주하고 그룹화 할 수 있다.
한편, 상술한 컨텐츠 요약 동작을 실시하는 전자 장치(100)는 TV 또는 STB장치에 해당할 수 있다. 이 경우, 전자 장치(100)는 내부 구성요소를 이용하여 요약 컨텐츠를 직접 생성할 수 있다.
한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 별도의 서버에 컨텐츠 요약을 요청할 수 있다. 예를 들어, 사용자가 요약 컨텐츠를 생성하도록 사용자 명령을 전자 장치(100)가 수신하고, 전자 장치(100)는 사용자 명령을 외부 서버로 전송할 수 있다. 그리고, 외부 서버에서 요약 컨텐츠를 생성하여 다시 전자 장치(100)에 전송하는 형태로 구현될 수 있다.
즉, 본 개시의 일 실시 예에 따른 전자 장치(100)는 자체적으로 모든 동작을 수행할 수 있다.
또한, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 관련된 정보를 수신 또는 출력하는 것일 뿐 실제 동작은 외부 서버에서 수행될 수 있다.
또한, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 전체 동작 중 일부 동작을 수행하고 이외의 동작은 외부 서버에서 이루어 질 수 도 있다.
한편, 이상에서는 전자 장치(100)를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현 시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 2를 참조하여 이하에서 설명한다.
도 2는 전자 장치(100)의 세부 구성의 일 예를 나타내는 블럭도이다. 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다. 또한, 도 2에 따르면, 전자 장치(100)는 디스플레이(130), 통신부(140), 사용자 인터페이스부(150), 오디오 처리부(160), 비디오 처리부(170), 스피커(180), 버튼(181), 마이크(182)를 더 포함할 수도 있다. 도 2에 도시된 구성요소들 중 도 1에 도시된 구성 요소와 중복되는 부분에 대해서는 자세한 설명을 생략하도록 한다.
프로세서(120)는 메모리(110)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 동작을 전반적으로 제어한다.
구체적으로, 프로세서(120)는 RAM(121), ROM(122), 메인 CPU(123), 그래픽 처리부(124), 제1 내지 n 인터페이스(125-1 ~ 125-n), 버스(126)를 포함한다.
RAM(121), ROM(122), 메인 CPU(123), 그래픽 처리부(124), 제1 내지 n 인터페이스(125-1 ~ 125-n) 등은 버스(126)를 통해 서로 연결될 수 있다.
제1 내지 n 인터페이스(125-1 내지 125-n)는 상술한 각종 구성 요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
메인 CPU(123)는 메모리(110)에 액세스하여, 메모리(110)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메모리(110)에 저장된 각종 프로그램 등을 이용하여 다양한 동작을 수행한다.
ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, 메인 CPU(123)는 ROM(122)에 저장된 명령어에 따라 메모리(110)에 저장된 O/S를 RAM(121)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(123)는 메모리(110)에 저장된 각종 어플리케이션 프로그램을 RAM(121)에 복사하고, RAM(121)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
그래픽 처리부(124)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부(미도시)는 수신된 제어 명령에 기초하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부(미도시)는 연산부(미도시)에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부(미도시)에서 생성된 화면은 디스플레이(130)의 디스플레이 영역 내에 표시된다.
한편, 상술한 프로세서(120)의 동작은 메모리(110)에 저장된 프로그램에 의해 이루어질 수 있다.
메모리(110)는 전자 장치(100)를 구동시키기 위한 O/S(Operating System) 소프트웨어 모듈, 오디오 신호 분석 모듈 및 비디오 프레임 편집 모듈 등과 같이 다양한 데이터를 저장한다.
디스플레이(130)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(130) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(130)는 터치 감지부와 결합하여 터치 스크린으로 구현될 수 있다.
통신부(140)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성이다. 통신부(140)는 와이파이 칩(141), 블루투스 칩(142), 무선 통신 칩(143), NFC 칩(144) 등을 포함한다. 프로세서(120)는 통신부(140)를 이용하여 각종 외부 장치와 통신을 수행한다.
와이파이 칩(141), 블루투스 칩(142)은 각각 WiFi 방식, 블루투스 방식으로 통신을 수행한다. 와이파이 칩(141)이나 블루투스 칩(142)을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩(143)은 IEEE, 지그비(zigbee), 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다. NFC 칩(144)은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다.
또한, 통신부(140)는 HDMI, MHL, USB, DP, 썬더볼트, RGB, D-SUB, DVI 등과 같은 유선 통신 인터페이스를 더 포함할 수 있다. 프로세서(120)는 통신부(140)의 유선 통신 인터페이스를 통해 디스플레이 장치와 연결될 수 있다. 이 경우, 프로세서(120)는 유선 통신 인터페이스를 통해 획득된 요약 컨텐츠를 디스플레이 장치로 전송할 수 있다.
사용자 인터페이스부(150)는 다양한 사용자 인터랙션(interaction)을 수신한다. 여기서, 사용자 인터페이스부(150)는 전자 장치(100)의 구현 예에 따라 다양한 형태로 구현 가능하다. 예를 들어, 사용자 인터페이스부(150)는 전자 장치(100)에 구비된 버튼, 사용자 음성을 수신하는 마이크, 사용자 모션을 감지하는 카메라 등일 수 있다. 또는, 전자 장치(100)가 터치 기반의 단말 장치로 구현되는 경우 사용자 인터페이스부(150)는 터치패드와 상호 레이어 구조를 이루는 터치 스크린 형태로 구현될 수도 있다. 이 경우, 사용자 인터페이스부(150)는 상술한 디스플레이(130)로 사용될 수 있게 된다.
오디오 처리부(160)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다. 오디오 처리부(160)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.
비디오 처리부(170)는 비디오 데이터에 대한 처리를 수행하는 구성요소이다. 비디오 처리부(170)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.
스피커(180)는 오디오 처리부(160)에서 처리된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지 등을 출력하는 구성요소이다.
버튼(181)은 전자 장치(100)의 본체 외관의 전면부나 측면부, 배면부 등의 임의의 영역에 형성된 기계적 버튼, 터치 패드, 휠 등과 같은 다양한 유형의 버튼이 될 수 있다.
마이크(182)는 사용자 음성이나 기타 소리를 입력받아 오디오 데이터로 변환하기 위한 구성이다.
마이크는 활성화 상태에서 사용자의 음성을 수신할 수 있다. 예를 들어, 마이크(182)는 전자 장치(100)의 상측이나 전면 방향, 측면 방향 등에 일체화된 일체형으로 형성될 수 있다. 마이크(182)는 음성 입력을 받기 위한 구성일 수 있다. 마이크(182)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.
여기서, 마이크(182)의 종류, 크기, 배치 위치 등은 원격 제어 장치를 이용하여 구현하고자 하는 동작의 종류나, 원격 제어 장치의 외관 형상, 원격 제어 장치의 사용 양태 등에 따라 달라질 수 있다. 가령, 원격 제어 장치가 직사각 형태의 앞면을 가지는 육면체로 구현된 경우, 마이크(182)는 원격 제어 장치의 앞면에 배치될 수 있다.
사용자는 전자 장치(100)의 마이크(182)를 통하여 음성 인식을 수행할 수 있다. 따라서, 본 명세서의 모든 동작은 외부 장치에 포함된 마이크 없이 전자 장치(100)의 마이크만으로도 수행될 수 있다.
한편, 상술한 설명에서는 전자 장치(100)가 마이크를 직접 포함하는 것으로 설명하였지만, 실제 구현 시 마이크는 외부 장치에 포함된 구성요소일 수 있다.
이 경우, 외부 장치에 포함된 마이크에서 사용자의 아날로그 음성 신호를 수신하면, 외부 장치에서 수신된 아날로그 음성 신호를 디지털 신호로 변환할 수 있다. 그리고, 외부 장치는 변환된 디지털 신호를 전자 장치(100)에 전송할 수 있다. 그리고 외부 장치는 변환된 디지털 신호를 전자 장치(100)에 전송하기 위하여 무선 통신 방법을 이용할 수 있으며, 무선 통신 방법은 Bluetooth 또는 Wi-Fi 일 수 있다. 또한, 무선 통신 방법을 Bluetooth 또는 Wi-Fi 로 설명하였지만, 실제 구현 시 Bluetooth 또는 Wi-Fi 이외에 다양한 무선 통신 방법이 이용될 수 있다.
외부 장치는 원격 제어 장치일 수 있다. 원격 제어 장치는 특정한 장치를 제어하기 위한 장치에 해당하며, 리모컨에 해당할 수 있고, 사용자는 리모컨에 부착되어 있는 마이크를 통하여 음성 인식 동작을 수행할 수 있다.
한편, 외부 장치는 스마트폰과 같은 단말 장치에 해당할 수 있다. 사용자는 스마트폰에 포함되어 있는 마이크를 통하여 음성 인식 동작을 수행할 수 있다. 이 경우, 사용자는 특정 어플리케이션을 설치하여 음성 인식 동작을 수행하여 전자 장치(100)에 전송할 수 있다. 또한, 사용자는 특정 어플리케이션을 이용하여 전자 장치(100)를 제어 할 수 있다.
이 경우, 마이크를 포함하는 스마트폰은 데이터 송수신 및 전자 장치(100)의 제어를 위해 Bluetooth, Wi-Fi 또는 적외선 등을 이용하는 통신부를 포함할 수 있다. 이 경우, 외부 장치의 통신부는 통신 방식에 따라 복수의 구성요소로 이루어질 수 있다.
한편, 마이크를 포함하는 외부 장치는 데이터 송수신 및 전자 장치(100)의 제어를 위해 Bluetooth, Wi-Fi 또는 적외선 등을 이용하는 통신부를 포함할 수 있다. 이 경우, 외부 장치의 통신부는 통신 방식에 따라 복수의 구성요소로 이루어질 수 있다.
또한, 외부 장치로부터 데이터 송수신 및 제어 명령을 수신하는 전자 장치(100)는 Bluetooth, Wi-Fi 또는 적외선 등을 이용하는 통신부를 포함할 수 있다. 이 경우, 전자 장치(100)의 통신부는 통신 방식에 따라 복수의 구성요소로 이루어질 수 있다.
한편, 전자 장치(100)는 외부 서버와 통신할 수 있다. 구체적으로, 전자 장치(100)는 데이터를 외부 서버에 전송하거나 외부 서버로부터 데이터를 수신할 수 있다. 이 경우, 외부 서버와 통신하기 위하여, 전자 장치(100)는 무선 또는 유선 통신 방법을 이용할 수 있다.
한편, 전자 장치(100)는 외부 서버와 외부 장치와 동시에 통신할 수 있다. 구체적으로, 전자 장치(100)는 외부 장치로부터 데이터를 수신하여 외부 서버에 전송할 수 있다. 이 경우, 외부 장치 및 외부 서버와 통신하는 전자 장치(100)의 통신부가 하나의 모듈로서 구성 될 수 있다. 하나의 모듈은 Wi-Fi 일 수 있다.
한편, 전자 장치(100)의 통신부가 복수의 모듈로서 구성되어 외부 장치 또는 외부 서버와 각각 다른 통신부를 이용하여 통신할 수 있다. 예를 들어, 외부 장치와는 Bluetooth 모듈을 이용하여 통신하고, 외부 서버와는 이더넷 모뎀 또는 Wi-Fi모듈을 이용하여 통신할 수 있다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 음성 인식 외부 서버로 수신된 디지털 음성 신호를 전송할 수 있다. 그리고 음성 인식 외부 서버는 디지털 음성 신호를 텍스트 정보로 변환하는 STT(Speech To Text)기능을 수행할 수 있다. 음성 인식 외부 서버는 STT기능을 수행하여 디지털 음성 신호를 텍스트 정보로 변환하고 변환된 텍스트 정보에 대응되는 정보를 검색할 수 있다. 그리고 음성 인식 외부 서버는 변환된 텍스트 정보에 대응되는 정보를 전자 장치(100)에 전송할 수 있다. 상술한 음성 인식 외부 서버는 STT(Speech To Text) 기능 및 검색 기능을 동시에 수행할 수 있다.
한편, 음성 인식 외부 서버에서는 STT(Speech To Text) 기능만을 수행하고 검색 기능은 별도의 외부 서버에서 수행할 수 있다. 이 경우, STT(Speech To Text) 기능을 수행하는 외부 서버에서 디지털 음성 신호를 텍스트 정보로 변환하고 변환된 텍스트 정보를 검색 기능을 수행하는 별도의 외부 서버에 전송할 수 있다.
한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 직접 STT(Speech To Text) 기능을 수행할 수 있다. 전자 장치(100)는 디지털 음성 신호를 텍스트 정보로 변환하고 변환된 텍스트 정보를 음성 인식 외부 서버에 전송할 수 있다. 이 경우 음성 인식 외부 서버는 검색 기능만을 수행할 수 있다. 그리고 음성 인식 외부 서버는 변환된 텍스트 정보에 대응되는 정보를 검색하고 전자 장치(100)에 전송할 수 있다.
이하에서는 도면을 통해 전자 장치(100)의 동작을 구체적으로 설명한다.
도 3은 프레임에서 확률 값을 획득하는 동작을 설명하기 위한 도면이다.
도 3을 참조하면, 전자 장치(100)는 컨텐츠에서 복수개의 프레임을 획득할 수 있다. 그리고, 전자 장치(100)는 복수개의 프레임 각각에 포함된 오브젝트를 식별할 수 있다. 여기서, 식별되는 오브젝트에 대한 확률 값이 높을수록 식별된 오브젝트와 관련이 높다는 의미일 수 있다.
예를 들어, 41번 프레임은 야생에서 사람이 동물을 사냥하는 장면을 포함하고 있다고 가정한다. 여기서, 전자 장치(100)는 (오브젝트, 확률 값)을 식별할 수 있다. 구체적으로, (Nature, 0.974), (Plant, 0.788), (Animal, 0.711), (Wildlife, 0.66), (Hunting, 0.595) 에 대한 확률 값을 식별할 수 있다.
전자 장치(100)는 41번 프레임에 포함된 오브젝트가 어떤 오브젝트에 해당하는지 및 해당 여부를 확률 값으로 획득할 수 있다.
마찬가지로, 1799번 프레임은 스마트폰 및 노트북을 사용하는 남자가 포함되어 있다고 가정한다. 전자 장치(100)는 이와 관련된 오브젝트 및 확률 값을 획득할 수 있다.
또한, 2154번 프레임은 움직이는 자동차가 포함되어 있다고 가정한다. 전자 장치(100)는 이와 관련된 오브젝트 및 확률 값을 획득할 수 있다.
여기서, 프레임별로 식별되는 오브젝트의 개수는 적용되는 프로그램에 따라 상이할 수 있다.
도 4는 복수의 오브젝트 간 상관 값을 설명하기 위한 도면이다.
도 4를 참고하면, 전자 장치(100)는 각 프레임에 대한 오브젝트마다의 확률 값을 획득할 수 있다. 각 프레임마다 복수 개의 오브젝트가 포함될 수 있으며, 포함 여부는 확률 값으로 표시될 수 있다.
그리고, 전자 장치(100)는 전체 재생 시간에 대하여 복수의 오브젝트간의 상관 관계를 분석할 수 있다. 예를 들어, Vehicle 오브젝트와 Car 오브젝트의 상관 관계는 0.801의 숫자로 표시될 수 있다. 본 개시의 일 실시 예에 따른 계산 과정에는 상관 계수(correlation coefficient)를 구하는 방법을 이용하였다. 하지만, 상관 관계 분석에는 다양한 통계적 기법이 적용될 수 있다.
도 5는 전체 재생 시간 동안 오브젝트별 확률 값의 분포를 설명하기 위한 도면이다.
도 5를 참고하면, 특정 오브젝트에 해당할 확률 값이 프레임 순서에 따라 어떻게 변하는지 확인할 수 있다. 그리고, 전자 장치(100)는 오브젝트에 따른 확률 값의 분포를 식별할 수 있다. 각각의 오브젝트에 해당할 확률 값의 분포를 프레임 단위로 식별할 수 있다. 전체 프레임은 3600개를 가정하였으며, 전자 장치(100)는 3600개 중 각각의 프레임을 분석하여 각각의 프레임에 포함된 오브젝트가 특정 오브젝트에 해당할 확률 값을 식별할 수 있다.
도 6은 프레임을 그룹화하고 카운팅하는 동작을 설명하기 위한 도면이다.
도 6을 참고하면, Vehicle, Car, Motor cycle, Racing, Rad 및 Driving 오브젝트 모두가 같은 그룹으로 가정한다. 모두 Vehicle과 관련된 오브젝트에 해당하며, 전자 장치(100)는 요약 컨텐츠를 추출하기 위해 오브젝트 그룹별로 분석할 수 있다. 예를 들어, 도 5에서 복수의 오브젝트에 대한 확률 분포를 획득한 이후, 기 설정된 임계 값 이상의 확률 값을 갖는 프레임을 검출할 수 있다. 전자 장치(100)는 기 설정된 임계 값보다 큰 확률 값을 갖는 경우, 해당 오브젝트가 프레임에 포함된다고 식별할 수 있다.
전자 장치(100)는 기 설정된 임계 값보다 큰 확률 값을 갖는 오브젝트를 프레임마다 카운팅할 수 있다. 프레임마다 카운팅하는 과정은 도 9에서 후술한다.
한편, 전자 장치(100)는 프레임을 일정 단위로 그룹핑할 수 있다. 프레임을 그룹핑하는 동작은 오브젝트를 그룹핑하는 동작과 상이하며, 프레임 그룹핑 동작으로 장면 단위의 요약 컨텐츠 생성이 가능할 수 있다. 따라서 사용자의 만족감이 높아질 수 있다. 그리고, 프로세서의 계산 과정을 줄일 수 있어, 요약 컨텐츠의 생성 속도를 단축시킬 수 있다.
구체적으로, 전자 장치(100)는 Vehicle, Car, Motor cycle, Racing, Rad 및 Driving 오브젝트 중 대표 오브젝트를 정할 수 있다. 대표 오브젝트를 정하는 기준은 동일한 그룹 내에서 확률 값의 평균이 가장 높은 오브젝트를 정할 수 있다. 또한, 전자 장치(100)는 기 설정된 임계 값 이상의 확률 값이 가장 많은 오브젝트를 대표 오브젝트로 정할 수 있다. 특정 방법을 설명하였지만, 대표 오브젝트를 정하는 방법이 상술한 방법에 제한되지 않으며 동일한 그룹을 대표할 수 있는 오브젝트를 선정하는 다양한 방법이 적용될 수 있다.
도 6을 참고하면, 대표 오브젝트는 Vehicle오브젝트라고 가정한다. 대표 오브젝트를 선정한 이후, 대표 오브젝트를 기준으로 프레임을 특정 구간으로 그룹화할 수 있다. 전자 장치(100)는 오브젝트를 그룹화하는 것과 별개로 또 다른 그룹화 동작에 해당하며, 프레임을 시간 구간에 따라 그룹화를 할 수 있다.
전자 장치(100)는 대표 오브젝트를 기준으로 프레임을 그룹화 할 수 있다. 도 6을 참고하면, 대표 오브젝트의 확률 값을 프레임별로 분석하여, 프레임을 그룹화 할 수 있다.
프레임을 그룹화 하는 방법 중 하나는, 확률 값의 분포를 분석하여 밀집도를 고려하는 것이다. 구체적으로 기 설정된 임계 값 이상의 확률 값을 갖는 프레임을 시간 순서로 배열하였을 때, 특정 시간대에서 기 설정된 임계 값 이상의 확률 값을 갖는 프레임을 찾을 수 있다. 기 설정된 임계 값 이상의 확률 값을 갖는 프레임이 밀집되어 있다고 판단하면, 전자 장치(100)는 해당 프레임들을 하나의 그룹으로 그룹핑할 수 있다.
도 6을 참고하면, 전자 장치(100)는 대표 그룹인 Vehicle 오브젝트를 기준으로, 9개의 프레임 그룹을 식별할 수 있다. 9개의 프레임 그룹 이외의 부분은 기 설정된 임계 값 이상의 확률 값을 갖는 프레임이 연속적으로 식별되지 않았음을 의미할 수 있다. 반대로, 9개의 프레임 그룹에 속하는 어느 하나의 프레임은 Vehicle 오브젝트가 포함될 확률이 높은 프레임들 사이에 속한다는 것을 의미할 수 있다.
전자 장치(100)는 프레임 그룹의 시작과 끝을 식별하기 위하여, 기 설정된 임계 값 이상의 확률 값을 갖는 프레임이 연속적인지 여부를 판단할 수 있다. 예를 들어, 전자 장치(100)는 Vehicle 오브젝트를 포함하는 프레임을 식별하기 위해, 기 설정된 임계 값 이상의 확률 값을 갖는지 여부를 프레임마다 확인할 수 있다. 전자 장치(100)가 기 설정된 임계 값 이상의 확률 값을 갖는 프레임을 5번 프레임에서 찾았다고 가정한다. 그리고, 다시 7번, 9번, 10번프레임이 기 설정된 임계 값 이상의 확률 값을 갖는다고 가정한다. 그 이후 100번 프레임에서 기 설정된 임계 값 이상의 확률 값을 갖는다고 가정한다.
그리고, 전자 장치(100)는 20개의 프레임을 기준으로 프레임이 연속적인지 여부를 판단할 수 있다. 전자 장치(100)는 5,7,9,10번 프레임이 기 설정된 임계 값 이상의 확률 값을 갖는 프레임임을 확인하고, 5번에서 10번 프레임을 그룹핑할 수 있다. 전자 장치(100)는 10번 프레임 이후에 기 설정된 임계 값 이상의 확률 값을 갖는 프레임을 20개 분석할 수 있다. 만약 10번 프레임 이후 20개의 프레임 모두가 기 설정된 임계 값 이상의 확률 값을 갖지 않는 경우, 전자 장치(100)는 10번 프레임을 그룹핑의 끝 프레임으로 정할 수 있다.
전자 장치(100)가 프레임을 그룹핑하는 경우, 기 설정된 임계 값 이상의 확률 값을 갖는 프레임만을 골라서 그룹핑할 수 있다. 상술한 예시에서 전자 장치(100)는 5,7,9,10번 프레임을 하나의 그룹으로 그룹핑할 수 있다.
한편, 전자 장치(100)가 프레임을 그룹핑하는 경우, 기 설정된 임계 값 이상의 확률 값을 갖지 않는 프레임을 포함하여 그룹핑할 수 있다. 상술한 예시에서 전자 장치(100)는 5,6,7,8,9,10번 프레임을 하나의 그룹으로 그룹핑할 수 있다. 이 경우, 전자 장치(100)는 그룹핑 시작 프레임과 끝 프레임 사이의 모든 프레임을 하나의 그룹으로 설정할 수 있으며, 요약 컨텐츠가 자연스럽게 이어지는 효과가 있을 수 있다.
도 6을 설명함에 있어, 기 설정된 임계 값은 사용자의 의도에 따라 변경될 수 있으며, 자동으로 적절한 값으로 변경될 수 있다. 또한, 프레임이 연속적인지 여부를 판단하는 기준인 20개의 프레임도 마찬가지로 변경될 수 있다.
한편, 전자 장치(100)는 연속하는 그룹의 프레임의 수가 임계 값 이상인 경우에만 그룹을 생성할 수 있다. 예를 들어 연속하는 프레임 개수가 5개 이상인 경우에만 그룹으로 묶고, 5개 미만의 프레임이 연속하는 경우에는 그룹을 생성하지 않을 수 있다. 여기서, 5개 기준은 사용자의 설정에 의해 변경될 수 있다.
그리고, 전자 장치(100)는 그룹핑된 프레임 그룹별로 카운팅 동작을 수행할 수 있다. 여기서 전자 장치(100)는 그룹핑된 오브젝트 그룹별로 카운팅 동작을 수행될 수 있다. 도 6을 설명함에 있어, 전자 장치(100)는 2개의 그룹핑 동작을 수행하였다. 첫 번째 그룹핑 동작은 관련성이 높은 오브젝트를 하나의 그룹으로 묶는 것이었으며, 두 번째 그룹핑 동작은 연속성이 있는 프레임을 하나의 그룹으로 묶는 것이었다. 전자 장치(100)는 오브젝트의 확률 값을 이용하여 2가지 그룹핑 동작을 수행할 수 있다.
도 6을 설명함에 있어, Vehicle 오브젝트가 대표 오브젝트이며 Car, Motor cycle, Racing, Rad 및 Driving 오브젝트를 하나의 그룹이라고 가정한다. 또한, 연속성이 있는 프레임을 1그룹부터 9그룹까지 있다고 가정한다.
전자 장치(100)는 1그룹 프레임에 대하여 카운팅 동작을 수행할 수 있다. 여기서, 카운팅 동작은 1그룹에 해당하는 프레임들 중 기 설정된 임계 값 이상의 확률 값을 갖는 프레임을 카운팅하는 것일 수 있다. 전자 장치(100)는 카운팅 된 프레임을 기초로, 프레임 그룹에 대한 중요도를 식별할 수 있다. 전자 장치(100)는 중요도를 판단하기 위해, 대표 그룹과 유사한 패턴의 그룹이 몇 개인지를 식별할 수 있다. 예를 들어, 프레임1, 5, 6 그룹의 경우 유사한 패턴이 Vehicle, Car, Motor cycle, Racing, Rad 및 Driving 오브젝트 모두에 나타나고 있음을 알 수 있다.
여기서, 유사한 패턴이란 개별적인 오브젝트에 대한 확률 값의 분포가 유사한 것을 의미할 수 있다. 예를 들어, 1번 프레임에서 Vehicle, Car, Motor cycle, Racing, Rad 및 Driving 오브젝트에 대한 확률 값이 서로 다를 수 있고, 일정 범위(시간)에 대한 확률 값의 분포가 오브젝트 별로 비교하여 유사한 패턴여부를 판단할 수 있다.
유사한 패턴인지 여부를 판단하기 위하여, 전자 장치(100)는 일정 범위(시간)의 프레임안에 오브젝트 별로 카운팅 동작을 수행할 수 있다. 구체적으로, 전자 장치(100)는 일정 범위(시간)의 프레임에 대한 오브젝트 포함 여부를 카운트하는 동작을 수행할 수 있다. 전자 장치(100)는 기 설정된 임계 값 이상의 확률 값을 갖는 횟수를 오브젝트별로 카운팅 할 수 있다. 그리고 카운팅 된 값을 비교하여 유사한 패턴을 식별할 수 있다. 예를 들어, 5번에서 10번까지의 프레임을 하나의 그룹으로 가정한다. 전자 장치(100)는 5번에서 10번까지의 프레임에서 Vehicle 오브젝트에 대한 확률 값을 분석하여, 기 설정된 임계 값 이상의 값을 갖는 프레임의 개수를 카운팅할 수 있다. 마찬가지로 전자 장치(100)는 다른 오브젝트에 대해서 기 설정된 임계 값 이상의 값을 갖는 프레임의 개수를 카운팅할 수 있다. 그리고, 전자 장치(100)는 프레임의 개수가 일정 범위내이면 오브젝트의 확률 값 분포가 유사한 패턴을 보인다고 식별할 수 있다.
도 6을 참고하면, 전자 장치(100)는 프레임 1그룹에 해당하는 오브젝트 별 확률 값의 분포가 유사한 패턴을 갖는다고 식별할 수 있다.
또한, 프레임 7그룹에서는 Vehicle, Car, Motor cycle 오브젝트가 유사한 패턴을 가진다. 그리고, 프레임 2,3,4,6,8,9그룹에서는 Vehicle, Car 오브젝트가 유사한 패턴을 가진다. 여기서, 전자 장치(100)는 유사한 패턴이 많은 프레임 그룹을 중요도가 높다고 식별할 수 있다. 전자 장치(100)는 프레임 1,5,6 그룹에서 5개의 오브젝트 종류에서 유사한 패턴이 있음을 식별할 수 있고, 다른 프레임 그룹보다 더 중요한 부분이라고 판단할 수 있다. 그리고 전자 장치(100)는 프레임 2,3,4,6,8,9그룹보다 프레임 7그룹이 더 중요하다고 판단할 수 있으며, 그 이유는 프레임 7그룹에서 유사한 패턴을 갖는 오브젝트 종류를 더 많이 포함하고 있기 때문이다.
전자 장치는 오브젝트에 관한 확률 값이 유사한 패턴 여부를 식별하여, 중요도를 판단할 수 있다. 여기서 중요도를 판단하는 기준은 유사한 패턴을 갖는 오브젝트의 수가 될 수 있다. 예를 들어, 프레임 1,5,6 그룹은 중요도를 5로 볼 수 있고, 프레임 7그룹은 중요도를 3으로, 프레임 2,3,4,8,9 그룹은 중요도를 2로 볼 수 있다. 전자 장치(100)는 프레임 그룹마다 중요도를 상대적으로 구분할 수 있으며, 전자 장치(100)는 중요도 값에 따라 요약 컨텐츠의 대상으로 추출할지 여부를 결정할 수 있다.
한편, 상술한 중요도 값을 설명의 편의를 위해 임의의 방법을 기술한 것이며, 전자 장치(100)는 다양한 분석 방법을 적용할 수 있다. 예를 들어, 프레임을 그룹화 하지 않고 개별적인 프레임 별로 중요도를 판단할 수 있다. 프레임별로 카운팅하는 동작과 관련해서는 도 9에서 자세하게 후술한다.
도 7 내지 도 11은 본 개시의 일 실시 예에 따른 프레임 추출 과정을 설명하기 위한 도면이다.
도 7내지 도 11을 설명함에 있어 설명의 편의를 위해, 오브젝트의 종류는 a~e 총 5가지로 한정하고, 프레임도 1~5 총 5개의 프레임으로 가정한다.
도 7은 오브젝트와 프레임의 관계를 나타낸 표이다. 구체적으로, 프레임별로 특정 오브젝트일 확률 값이 도시되어 있다. 1프레임에는 복수개의 오브젝트가 포함되어 있을 수 있다. 전자 장치(100)는 각 프레임에 포함된 복수개의 오브젝트들을 분석하고, 각 프레임에 기 설정된 오브젝트(a 오브젝트, b 오브젝트, c 오브젝트, d 오브젝트, e 오브젝트)가 포함될 확률을 획득할 수 있다. 도 7을 참고하면, 전자 장치(100)는 1프레임에 포함된 어느 하나의 오브젝트가 a 오브젝트에 해당할 확률이 0.9일 수 있다. 그리고, b 오브젝트에 해당할 확률이 0.8, c 오브젝트에 해당할 확률이 0.1, d 오브젝트에 해당할 확률이 0.1, e 오브젝트에 해당할 확률이 0.1일 수 있다.
도 7에서 획득된 1프레임부터 5프레임까지의 특정 오브젝트 확률 값을 이용하면 오브젝트 별(a 오브젝트, b 오브젝트, c 오브젝트, d 오브젝트, e 오브젝트) 관계 값을 구할 수 있다.
도 8은, 복수의 오브젝트 사이의 관계 값을 구하고, 관계 값을 이용하여 그룹핑하는 동작을 설명하기 위한 도면이다.
도 8의 (a)는 오브젝트 별(a 오브젝트, b 오브젝트, c 오브젝트, d 오브젝트, e 오브젝트) 관계 값을 나타낸 표이다. 전자 장치(100)는 도 7에서 도시한 확률 값을 이용하여 관계 값을 획득할 수 있다. 예를 들어, a오브젝트의 확률 값들(0.9,0.8,0.5,0.7,0.2)와 b 오브젝트의 확률 값들(0.8,0.7,0.5,0.3,0.1)의 상관 계수를 구하여 관계 값을 획득할 수 있다.
상관 계수는 양수 또는 음수가 나올 수 있지만, 본 개시의 일 실시 예에 따른 전자 장치(100)는 절대 값을 취해 모든 수를 양수로 변환하여 관계 값을 획득할 수 있다. 전자 장치(100)는 절대 값을 취해 획득한 관계 값이 0.7 이상인 경우 높은 상관 관계를 갖는다고 분석할 수 있으며, 0.3 이하는 낮은 상관 관계를 갖는다고 분석할 수 있다. 또한, 0.3부터 0.7 사이의 관계 값을 갖는 경우, 중간 정도의 상관 관계를 갖는다고 분석할 수 있다. 여기서, 0.3 또는 0.7은 사용자가 변경할 수 있으며, 반복적인 시뮬레이션을 통해 도출된 값에 불과하다 .따라서, 사용자의 의도 또는 분석을 통해 상기 값은 언제든 변경될 수 있다.
한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 상관 계수에 절대 값을 취하지 않고 상관 계수를 획득할 수 있다. 이 경우, 상관 값은 양수 또는 음수 일 수 있다. 이 경우, 사용자는 음수가 나오는 상관 관계를 제외하고 양수의 상관 관계만을 높은 상관 관계로 분석할 수 있다. 예를 들어, 상관 계수가 0.8,0.3,-0.3,-0.8로 획득되었다고 가정한다. 전자 장치(100)는 0.8의 값에 해당하는 관계만 높은 상관 관계를 갖는다고 분석할 수 있다. 하지만, 이는 다양한 실시 예 중 하나일 뿐이며 반드시 하나의 분석 방법만이 적용되는 것은 아니다. 그리고 양의 상관 관계만을 높은 상관 관계로 분석하는 내용은 도면에 도시하지 않았다.
한편, 지금까지 관계 값을 획득하는 과정을 상관 계수를 구하는 방법과 연관시켜 설명하였다. 하지만, 이는 특정 오브젝트와 또 다른 오브젝트를 분석하기 위한 하나의 방법일 뿐이며, 다양한 분석 방법이 적용될 수 있다.
한편, 전자 장치(100)는 도 8 (a)에서 구한 관계 값을 이용하여 오브젝트를 그룹핑할 수 있다. 구체적으로, 관계 값이 0.7 이상인 오브젝트들을 하나의 그룹으로 그룹핑할 수 있다.
도 8 (a)에서 관계 값이 0.7 이상인 경우는 a-b, c-d이다. 따라서 a와 b를 그룹1로 설정할 수 있다, c와 d를 그룹2로 설정할 수 있다. 그리고 다른 오브젝트와 관련이 없다고 분석된 e 오브젝트는 그룹3으로 설정할 수 있다. 그룹핑하는 이유는 상호 연관이 있는 오브젝트를 묶어 요약 컨텐츠를 획득하기 위함이다. 프레임에서 오브젝트를 식별하는 동작이 확률 값을 분석하는 것이기 때문에, 하나의 오브젝트만으로 요약 컨텐츠를 생성하면 정확성이 떨어질 수 있다. 하지만, 그룹으로 묶어서 오브젝트를 식별하면, 사용자가 원하는 특정 오브젝트와 관련성이 높은 다른 오브젝트도 요약 컨텐츠의 대상이 될 수 있어 정확성이 높을 수 있다.
도 9는 도 7에서 도시한 확률 값을 그룹별로 도시한 것이다. 도 7에서는 오브젝트에 따른 확률 값을 도시한 것이고, 도 9는 그룹별로 확률 값을 도시한 것이다. 그리고 빗금친 영역은 확률 값이 0.7 이상인 경우를 의미한다.
전자 장치(100)는 확률 값이 0.7 이상인 경우를 그룹별로 카운팅할 수 있다. 그리고, 전자 장치(100)는 카운팅 단위를 프레임별로 할 수 있다. 예를 들어, 전자 장치(100)는 1프레임에서 그룹1에 해당하는 확률 값이 0.7 이상인 경우를 카운팅 할 수 있다. 그리고, 전자 장치(100)는 1프레임에서 그룹2에 해당하는 확률 값이 0.7이상인 경우를 카운팅 할 수 있다. 이렇게 1프레임에서 그룹별 카운팅 값은 (2,0,0) 이 될 수 있다.
프레임별 카운팅 값을 정리하면 도 9의 (b)가 된다. 이는 도 9의 (a)의 빗금친 영역을 카운팅한 횟수가 된다.
여기서, 확률 값이 0.7 이상인 경우로 도시하였지만, 0.7이라는 숫자는 기 설정된 임계 값이며 0.7 값은 사용자의 조작에 의해 변경될 수 있다. 즉, 기 설정된 임계 값은 사용자가 변경할 수 있다. 기 설정된 임계 값을 올리면 카운팅 되는 횟수가 작아질 것이고, 기 설정된 임계 값을 내리면 카운팅 되는 횟수가 증가할 것이다. 사용자는 기 설정된 임계 값을 조절하여 원하는 오브젝트 식별에 대한 정확성 및 만족도를 높일 수 있다.
한편, 전자 장치(100)는 도 9의 (b)에서 얻어진 카운팅 값들을 기초로, 정규화할 수 있다. 예를 들어, 도 9의 (b)에서 얻어진 값들을 1~10범위로 정규화 시킬 수 있다. 정규화를 하는 이유는 그룹별 오브젝트의 수가 다름을 반영하기 위함이다. 예를 들어, 특정 그룹의 오브젝트가 10개이고 다른 그룹의 오브젝트가 2개인 경우, 카운팅 값이 오브젝트가 10개인 그룹이 높게 나올 수 있다. 따라서, 그룹별 카운팅 값을 정확하게 비교하기 위해선, 정규화 과정이 필요하다. 본 개시의 일 실시 예에선 정규화의 범위를 1~10으로 하였지만 이는 사용자의 설정에 의해 변경 가능하다.
도 9에서 획득한 그룹별 정규화된 카운팅 값은 프레임의 내용을 추출하는데 이용될 수 있다. 예를 들어, 도 9 (c) 에서 획득한 그룹별 정규화된 카운팅 값 중 1프레임에 대한 값이 그룹1이 10, 그룹2가 0, 그룹3이 0의 값(10,0,0)이 획득되었다. 정규화의 범위를 1에서 10으로 하였으므로, 1프레임은 그룹1에 대한 오브젝트만을 포함하고 있다고 추측할 수 있다. 2프레임에 대한 값은 그룹별로 (10,5,0)에 대한 값이 획득되었으며, 2프레임에는 그룹1 및 그룹2에 대한 오브젝트를 포함하고 있다고 추측할 수 있다. 그리고, 2프레임은 그룹2보다 그룹1에 대한 오브젝트가 더 많이 포함되어 있다고 추측할 수 있다. 상술한 방법으로 프레임의 그룹별 오브젝트의 포함여부 및 비중을 쉽게 분석할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 프레임 추출 동작을 설명하기 위한 도면이다.
도 9 (c) 에서 획득한 그룹별 정규화된 카운팅 값은 프레임별로 획득될 수 있다. 1프레임(10,0,0)처럼 그룹1에서만 정규화된 카운팅 값이 있을 수 있다. 하지만 프레임 2(10,5,0)처럼 그룹1 과 그룹2 모두 정규화된 카운팅 값을 가질 수 있다. 여기서, 전자 장치(100)는 프레임마다 하나의 대표 그룹을 정할 수 있다. 예를 들어, 프레임1에서는 고민할 필요 없이 대표 그룹을 그룹1로 정할 수 있다. 그리고 프레임2에서는 그룹1의 값이 10이고 그룹2의 값이 5이므로 그룹1을 대표 그룹으로 정할 수 있다. 이 방법은 각 그룹의 값 중 최대 값을 선택하는 방법일 수 있다. 전자 장치(100)는 각 그룹의 정규화된 카운팅 값 중 가장 높은 값을 식별하고, 가장 높은 값을 갖는 그룹을 해당 프레임의 대표 그룹으로 정할 수 있다.
전자 장치(100)는 정규화된 카운팅 값을 기초로 각 프레임의 대표 그룹을 정할 수 있으며, 모든 프레임이 어떤 대표 그룹을 갖는지 메모리에 저장할 수 있다. 프레임 별로 대표 그룹을 설정하면 사용자는 그룹별로 프레임을 선택할 수 있어 프레임 별 분석이 용이해질 수 있다.
여기서, 사용자가 그룹1을 선택하여 요약 컨텐츠를 생성하는 명령을 입력한다면, 전자 장치(100)는 대표 그룹이 그룹1에 해당하는 프레임을 추출할 수 있다. 도 10을 참고하면, 사용자가 그룹1을 선택하면, 전자 장치(100)는 그룹 1을 대표 그룹으로 갖는 1프레임 및 2프레임을 추출할 수 있다. 그리고, 전자 장치(100)는 1프레임 및 2프레임을 연결하여 요약 컨텐츠를 생성할 수 있다.
도 11은 본 개시의 또 다른 실시 예에 따른 프레임 추출 방법을 설명하기 위한 도면이다.
도 9 (c) 에서 획득한 그룹별 정규화된 카운팅 값은 프레임별로 획득될 수 있다. 1프레임(10,0,0)처럼 그룹1에서만 정규화된 카운팅 값이 있을 수 있다. 하지만 프레임 2(10,5,0)처럼 그룹1 과 그룹2 모두 정규화된 카운팅 값을 가질 수 있다.
여기서, 전자 장치(100)는 그룹별로 다른 가중치를 적용하여 프레임을 추출할 수 있다. 예를 들어, 사용자가 그룹1을 가장 선호하고 그룹2를 다음으로 선호하는 것으로 가정한다. 전자 장치(100)는 그룹1에 대하여 가중치를 0.7, 그룹2에 대해서 0.2, 그룹3에 대해서 0.1로 설정할 수 있다. 그리고, 전자 장치(100)는 각 그룹에 대응되는 가중치를 프레임마다 적용할 수 있다. 가중치가 적용된 이후의 값을 편의상 최종 값으로 부르기로 가정한다.
전자 장치(100)는 정규화된 카운팅 값에 그룹별 가중치를 적용할 수 있고, 프레임마다 최종 값을 획득할 수 있다. 여기서, 프레임마다 획득된 최종 값은 사용자의 선호 그룹을 반영한 수치가 될 수 있다.
전자 장치(100)는 최종 값을 이용하여 기 설정된 임계 값 이상의 값을 갖는 프레임을 추출할 수 있다. 예를 들어, 전자 장치(100)는 최종 값이 6이상인 프레임을 추출할 수 있다. 도 11을 참고하면, 전자 장치(100)는 최종 값이 6이상인 프레임인 1프레임, 2프레임 및 4프레임을 추출할 수 있다. 그리고, 전자 장치(100)는 1프레임, 2프레임 및 4프레임을 연결하여 하나의 요약 컨텐츠를 생성할 수 있다.
상술한 설명에서 기 설정된 임계 값인 6은 사용자의 설정 또는 선택에 따라서 달라질 수 있다. 기 설정된 임계 값을 6으로 설정하였다고 가정한다. 전자 장치(100) 전자 장치(100)는 사용자가 원하는 요약 컨텐츠 시간에 대응하여 기 설정된 임계 값을 조절할 수 있다. 예를 들어, 사용자가 원하는 요약 컨텐츠의 시간이 10분인데 추출된 프레임을 연결한 시간이 5분이라면, 전자 장치(100)는 기 설정된 임계 값을 낮춰 프레임의 추출 개수를 올릴 수 있다. 반대로, 사용자가 원하는 요약 컨텐츠 시간이 10분인데 추출된 프레임을 연결한 시간이 15분이라면, 전자 장치(100)는 기 설정된 임계 값을 높여 프레임의 추출 개수를 낮출 수 있다.
그리고, 전자 장치(100)는 사용자가 원하는 요약 컨텐츠 시간에 대응되는 프레임 개수가 추출되는 동작을 자동으로 식별할 수 있다. 구체적으로, 기 설정된 임계 값을 변경하여 얻는 프레임의 개수를 분석하여 가장 적합한 기 설정된 임계 값을 식별할 수 있으며, 전자 장치(100)는 가장 적합한 기 설정된 임계 값을 이용하여 프레임을 추출할 수 있다. 전자 장치(100)는 사용자가 원하는 요약 컨텐츠 시간에 맞춰 요약 컨텐츠를 생성할 수 있다.
전자 장치(100)가 그룹별 가중치를 적용한다면, 사용자의 선호도를 더욱 상세하게 반영할 수 있다. 그리고 전자 장치(100)는 어느 하나의 그룹만이 아니라 다양한 그룹의 중요도를 반영할 수 있어 요약 컨텐츠에 대한 만족도를 높일 수 있다.
도 12는 복수의 오브젝트들을 그룹핑하고 그룹의 대표 오브젝트를 설명하기 위한 도면이다.
전자 장치(100)는 오브젝트 사이의 관계 값을 이용하여, 하나의 그룹을 식별할 수 있다. 예를 들어, Vehicle, Car, Motor cycle, Racing, Rad 및 Driving 오브젝트 사이의 관계 값을 분석하여, 하나의 그룹으로 설정할 수 있다. 그룹 설정 방법에 관련하여 도 8에서 전술하였다. 도 12를 참고하면, 전자 장치(100)는 관계 값이 기 설정된 임계 값 이상인 경우를 하나의 그룹으로 그룹핑하여 Vehicle, Car, Motor cycle, Racing, Rad 및 Driving 오브젝트를 하나의 그룹으로 그룹핑할 수 있다.
또한, 전자 장치(100)는 Vehicle, Car, Motor cycle, Racing, Rad 및 Driving 오브젝트 중 대표 오브젝트를 정할 수 있다. 대표 오브젝트를 정하는 기준은 동일한 그룹 내에서 확률 값의 평균이 가장 높은 오브젝트를 정할 수 있다. 또한, 전자 장치(100)는 기 설정된 임계 값 이상의 확률 값이 가장 많은 오브젝트를 대표 오브젝트로 정할 수 있다. 여기서 전자 장치(100)는 Vehicle 오브젝트를 대표 오브젝트로 정할 수 있다.
마찬가지로, 전자 장치(100)는 Gadget, Mobile phone, Smart phone, Personal computer 및 Video game 오브젝트 사이의 관계 값을 분석하여, 하나의 그룹으로 설정할 수 있다. 도 12을 참고하면, 전자 장치(100)는 관계 값이 기 설정된 임계 값 이상인 경우를 하나의 그룹으로 그룹핑하여 Gadget, Mobile phone, Smart phone, Personal computer, Video game 오브젝트를 하나의 그룹으로 그룹핑할 수 있다.
또한, 전자 장치(100)는 Gadget, Mobile phone, Smart phone, Personal computer 및 Video game 오브젝트 중 대표 오브젝트를 정할 수 있다. 대표 오브젝트를 정하는 기준은 동일한 그룹 내에서 확률 값의 평균이 가장 높은 오브젝트를 정할 수 있다. 또한, 전자 장치(100)는 기 설정된 임계 값 이상의 확률 값이 가장 많은 오브젝트를 대표 오브젝트로 정할 수 있다. 여기서 전자 장치(100)는 Gadget 오브젝트를 대표 오브젝트로 정할 수 있다.
한편, 도 12에서 대표 오브젝트를 정하는 특정 방법을 설명하였지만, 대표 오브젝트를 정하는 방법이 상술한 방법에 제한되지 않으며 동일한 그룹을 대표할 수 있는 오브젝트를 선정하는 다양한 방법이 적용될 수 있다.
도 13은 디스플레이에 표시된 사용자 인터페이스를 설명하기 위한 도면이다.
전자 장치(100)는 디스플레이에 사용자 인터페이스를 표시할 수 있다. 여기서, 디스플레이는 전자 장치(100)에 포함된 하드웨어 구성요소일 수 있고, 별도로 연결된 디스플레이 장치일 수 있다.
전자 장치(100)는 사용자에게 요약 컨텐츠를 생성하기 위한 사용자 인터페이스를 표시할 수 있고, 사용자 인터페이스는 요약 컨텐츠의 기준이 되는 그룹 오브젝트를 표시할 수 있다. 앞에서 설명한 바와 같이, 전자 장치(100)는 연관성을 기준으로 하여 복수개의 오브젝트를 하나의 그룹으로 그룹핑할 수 있다.
그리고, 전자 장치(100)는 사용자가 어느 그룹을 선택할 것인지를 묻는 사용자 인터페이스를 디스플레이에 표시할 수 있다. 예를 들어, 그룹의 번호 또는 그룹의 이름 또는 대표 오브젝트가 사용자 인터페이스에 표시될 수 있다. 도 13을 참고하면 대표 오브젝트를 표시하였고, Vehicle, Gadget, Nature, Cosmetic 등이 대표 오브젝트가 될 수 있다.
한편, 사용자 인터페이스에 표시된 그룹을 선택하기 위해 다양한 방법이 이용될 수 있다. 전자 장치(100)는 음성 인식을 통해 그룹을 선택할 수 있다. 예를 들어, Vehicle이 나오는 장면을 보여줘! 라는 음성을 사용자가 발화하면, 전자 장치(100)는 Vehicle 그룹을 선택할 수 있다. 또한, 사용자가 직접 원격 제어 장치(리모컨)를 이용하여 그룹을 선택할 수 있다.
사용자에 의해 특정 그룹이 선택되면, 전자 장치(100)는 해당 그룹과 관련된 프레임을 중심으로 요약 컨텐츠를 생성할 수 있다. 사용자가 특정 그룹을 선택하여도, 이미 해당 그룹에는 관련된 오브젝트들이 다양하게 포함되어 있을 수 있다. 따라서, 사용자가 대표 오브젝트를 선택한 경우, 전자 장치(100)는 관련된 다양한 오브젝트에 대한 프레임을 요약 컨텐츠의 대상으로 삼을 수 있다.
도 14는 본 개시의 일 실시 예에 따른 전자 장치(100)의 제어 방법을 설명하기 위한 흐름도이다.
한편, 본 개시의 일 실시 예에 따른 컨텐츠를 저장하는 전자 장치(100)의 제어 방법에 있어서, 컨텐츠로부터 복수의 프레임을 획득한다(S1405). 그리고, 복수의 프레임 각각에서 복수의 오브젝트 각각에 대한 확률 값을 획득한다 (S1410). 그리고, 획득된 확률 값에 기초하여 복수의 오브젝트 간 상관 값을 획득한다 (S1415). 그리고, 획득된 상관 값에 기초하여 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑한다 (S1420). 그리고, 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 그룹 별로 복수의 프레임마다 카운팅한다 (S1425). 그리고, 카운팅 결과에 기초하여 요약 컨텐츠를 획득한다 (S1430).
여기서, 상관 값을 획득하는 단계 (S1415) 에서는 복수의 오브젝트 간 확률 값의 차이를 복수의 프레임마다 비교하여 복수의 오브젝트 간 상관 값을 획득하고, 그룹핑하는 단계 (S1420) 에서는 획득된 상관 값이 기 설정된 임계 값 이상인 오브젝트들을 하나의 그룹으로 그룹핑할 수 있다.
또한, 요약 컨텐츠를 획득하는 단계 (S1430) 에서는 카운팅 결과에 기초하여 그룹 별 핵심 프레임을 획득하고 기 설정된 그룹에 포함된 핵심 프레임에 기초하여 요약 컨텐츠를 획득할 수 있다.
또한, 제어 방법은 그룹 각각에 속한 오브젝트 중 대표 오브젝트를 식별하는 단계 및 식별된 대표 오브젝트에 대한 정보를 제공하는 단계를 더 포함할 수 있고, 요약 컨텐츠를 획득하는 단계에서는 특정 오브젝트에 대한 정보가 사용자에 의해 선택되면 특정 오브젝트가 속한 그룹의 핵심 프레임에 기초하여 획득된 요약 컨텐츠를 획득할 수 있다.
또한, 제어 방법은 복수의 프레임 각각에 대해 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 오브젝트 별로 카운팅하는 단계를 더 포함할 수 있고, 요약 컨텐츠를 획득하는 단계에서는 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 식별하여 요약 컨텐츠를 획득할 수 있다.
한편, 제어 방법은 그룹 별 카운팅 결과를 그룹 각각에 속한 오브젝트의 개수에 기초하여 정규화시키는 단계를 더 포함할 수 있다.
여기서, 제어 방법은 복수의 프레임 각각에 대한 그룹 별 정규화 값에 그룹별 가중치를 적용하는 단계를 더 포함할 수 있고, 요약 컨텐츠를 획득하는 단계에서는 가중치가 적용된 값에 기초하여 요약 컨텐츠를 획득할 수 있다.
또한, 요약 컨텐츠를 획득하는 단계 (S1430) 에서는 사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간에 기초하여 기 설정된 임계 값의 크기를 조정할 수 있다.
또한, 사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간이 획득된 요약 컨텐츠의 재생 시간보다 긴 경우, 요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임을 추가하여 요약 컨텐츠를 업데이트하는 단계를 더 포함할 수 있다.
도 14와 같은 전자 장치 제어 방법은 도 1 또는 도 2의 구성을 가지는 전자 장치 상에서 실행될 수 있으며, 그 밖의 구성을 가지는 전자 장치 상에서도 실행될 수 있다.
한편, 상술한 실시 예에 따른 전자 장치 제어 방법은 프로그램으로 구현되어 전자 장치에 제공될 수 있다. 특히, 전자 장치 제어 방법을 포함하는 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
한편, 컨텐츠를 저장하는 전자 장치의 프로세서(120)에 의해 실행되는 경우 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 동작은, 컨텐츠로부터 복수의 프레임을 획득하는 단계, 복수의 프레임 각각에서 복수의 오브젝트 각각에 대한 확률 값을 획득하는 단계, 획득된 확률 값에 기초하여 복수의 오브젝트 간 상관 값을 획득하는 단계, 획득된 상관 값에 기초하여 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하는 단계, 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 그룹 별로 복수의 프레임마다 카운팅하는 단계 및 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 단계를 포함한다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치 에 설치 가능한 어플리케이션 형태로 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치 에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 상술한 실시 예에 따른 전자 장치 제어 방법은 프로그램으로 구현되어 전자 장치에 제공될 수 있다. 특히, 전자 장치 제어 방법을 포함하는 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
또한, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치 에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치 에서의 처리 동작을 상기 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 컨텐츠가 저장된 메모리; 및
    상기 저장된 컨텐츠를 구성하는 복수의 프레임 각각에 포함된 복수의 오브젝트 각각에 대한 확률 값을 획득하고,
    상기 획득된 확률 값에 기초한 상기 복수의 오브젝트 간 상관 값에 따라 상기 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하고,
    상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 그룹 별로 상기 복수의 프레임마다 카운팅하고, 상기 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 프로세서;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 복수의 오브젝트 간 확률 값의 차이를 상기 복수의 프레임마다 비교하여 상기 복수의 오브젝트 간 상관 값을 획득하고,
    상기 획득된 상관 값이 기 설정된 임계 값 이상인 오브젝트들을 하나의 그룹으로 그룹핑하는, 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 카운팅 결과에 기초하여 상기 그룹 별 핵심 프레임을 획득하고 기 설정된 그룹에 포함된 핵심 프레임에 기초하여 상기 요약 컨텐츠를 획득하는, 전자 장치.
  4. 제3항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 그룹 각각에 속한 오브젝트 중 대표 오브젝트를 식별하고,
    상기 식별된 대표 오브젝트에 대한 정보를 제공하고 특정 오브젝트에 대한 정보가 사용자에 의해 선택되면 상기 특정 오브젝트가 속한 그룹의 핵심 프레임에 기초하여 획득된 요약 컨텐츠를 제공하도록 상기 디스플레이를 제어하는, 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 오브젝트 별로 상기 복수의 프레임마다 카운팅하고, 상기 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 식별하여 상기 요약 컨텐츠를 획득하는, 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 그룹 별 카운팅 결과를 상기 그룹 각각에 속한 오브젝트의 개수에 기초하여 정규화시키는, 전자 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 복수의 프레임 각각에 대한 상기 그룹 별 정규화 값에 상기 그룹별 가중치를 적용하고, 상기 가중치가 적용된 값에 기초하여 상기 요약 컨텐츠를 획득하는, 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간에 기초하여 상기 기 설정된 임계 값의 크기를 조정하는, 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    사용자 명령에 따라 입력된 요약 컨텐츠의 재생 시간이 상기 획득된 요약 컨텐츠의 재생 시간보다 긴 경우, 상기 요약 컨텐츠의 재생 시점을 기준으로 기 설정된 재생시간 범위 내에 프레임을 추가하여 상기 요약 컨텐츠를 업데이트하는, 전자 장치.
  10. 컨텐츠를 저장하는 전자 장치의 제어 방법에 있어서,
    상기 저장된 컨텐츠를 구성하는 복수의 프레임 각각에 포함된 복수의 오브젝트 각각에 대한 확률 값을 획득하는 단계;
    상기 획득된 확률 값에 기초하여 상기 복수의 오브젝트 간 상관 값에 따라 상기 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하는 단계;
    상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 그룹 별로 상기 복수의 프레임마다 카운팅하는 단계; 및
    상기 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 단계;를 포함하는, 전자 장치의 제어 방법.
  11. 제10항에 있어서,
    상기 상관 값을 획득하는 단계는,
    상기 복수의 오브젝트 간 확률 값의 차이를 상기 복수의 프레임마다 비교하여 상기 복수의 오브젝트 간 상관 값을 획득하고,
    상기 그룹핑하는 단계는,
    상기 획득된 상관 값이 기 설정된 임계 값 이상인 오브젝트들을 하나의 그룹으로 그룹핑하는, 전자 장치의 제어 방법.
  12. 제10항에 있어서,
    상기 요약 컨텐츠를 획득하는 단계는,
    상기 카운팅 결과에 기초하여 상기 그룹 별 핵심 프레임을 획득하고 기 설정된 그룹에 포함된 핵심 프레임에 기초하여 상기 요약 컨텐츠를 획득하는, 전자 장치의 제어 방법.
  13. 제12항에 있어서,
    상기 그룹 각각에 속한 오브젝트 중 대표 오브젝트를 식별하는 단계; 및
    상기 식별된 대표 오브젝트에 대한 정보를 제공하는 단계;를 더 포함하고,
    상기 요약 컨텐츠를 획득하는 단계는,
    특정 오브젝트에 대한 정보가 사용자에 의해 선택되면 상기 특정 오브젝트가 속한 그룹의 핵심 프레임에 기초하여 획득된 요약 컨텐츠를 획득하는, 전자 장치의 제어 방법.
  14. 제10항에 있어서,
    상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 오브젝트 별로 상기 복수의 프레임마다 카운팅하는 단계;를 더 포함하고,
    상기 요약 컨텐츠를 획득하는 단계는,
    상기 오브젝트 별 카운팅 횟수가 기 설정된 임계 값 이상인 오브젝트를 식별하여 상기 요약 컨텐츠를 획득하는, 전자 장치의 제어 방법.
  15. 컨텐츠를 저장하는 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은,
    상기 컨텐츠로부터 복수의 프레임을 획득하는 단계;
    상기 저장된 컨텐츠를 구성하는 복수의 프레임 각각에 포함된 복수의 오브젝트 각각에 대한 확률 값을 획득하는 단계;
    상기 획득된 확률 값에 기초하여 상기 복수의 오브젝트 간 상관 값에 따라 상기 복수의 오브젝트를 적어도 하나의 그룹으로 그룹핑하는 단계;
    상기 획득된 확률 값이 기 설정된 임계 값 이상인 경우를 상기 그룹 별로 상기 복수의 프레임마다 카운팅하는 단계; 및상기 카운팅 결과에 기초하여 요약 컨텐츠를 획득하는 단계;를 포함하는, 컴퓨터 판독가능 기록매체.
PCT/KR2019/003512 2018-05-29 2019-03-26 전자 장치 및 그 제어방법 WO2019231093A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/058,913 US11908192B2 (en) 2018-05-29 2019-03-26 Electronic device and control method therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0060967 2018-05-29
KR1020180060967A KR102585777B1 (ko) 2018-05-29 2018-05-29 전자 장치 및 그 제어방법

Publications (1)

Publication Number Publication Date
WO2019231093A1 true WO2019231093A1 (ko) 2019-12-05

Family

ID=68697233

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/003512 WO2019231093A1 (ko) 2018-05-29 2019-03-26 전자 장치 및 그 제어방법

Country Status (3)

Country Link
US (1) US11908192B2 (ko)
KR (1) KR102585777B1 (ko)
WO (1) WO2019231093A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3250467B2 (ja) * 1996-10-04 2002-01-28 松下電器産業株式会社 映像要約方法および映像表示方法
JP2012079354A (ja) * 2012-01-26 2012-04-19 Casio Comput Co Ltd 画像表示制御装置、画像表示制御方法及びプログラム
JP2015032905A (ja) * 2013-07-31 2015-02-16 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
KR20150084567A (ko) * 2014-01-14 2015-07-22 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
JP2016162423A (ja) * 2015-03-05 2016-09-05 オムロン株式会社 物体認識装置、物体認識方法、およびプログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5031312Y2 (ko) 1971-07-21 1975-09-12
US6973663B1 (en) 1999-03-29 2005-12-06 The Directv Group, Inc. Method and apparatus for detecting and viewing similar programs within a video system
JP2001160057A (ja) 1999-12-03 2001-06-12 Nippon Telegr & Teleph Corp <Ntt> 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体
JP2002176613A (ja) 2000-12-06 2002-06-21 Minolta Co Ltd 動画像編集装置、動画像編集方法および記録媒体
KR100642888B1 (ko) 2004-10-19 2006-11-08 한국과학기술원 스토리 이해 가능한 서사 구조 중심의 비디오 요약생성방법 및 그 방법을 구현하기 위한 프로그램이 저장된기록매체
US7555149B2 (en) 2005-10-25 2009-06-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting videos using face detection
US8311394B2 (en) 2006-03-30 2012-11-13 British Telecommunications Plc Video abstraction
KR100792016B1 (ko) 2006-07-25 2008-01-04 한국항공대학교산학협력단 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법
US9535988B2 (en) 2007-12-21 2017-01-03 Yahoo! Inc. Blog-based video summarization
JP5322550B2 (ja) 2008-09-18 2013-10-23 三菱電機株式会社 番組推奨装置
JP2011107997A (ja) 2009-11-18 2011-06-02 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011217197A (ja) 2010-03-31 2011-10-27 Sony Corp 電子機器、再生制御システム、再生制御方法及びプログラム
CN102236899B (zh) * 2010-05-07 2013-12-04 株式会社理光 物体检测方法和装置
KR101956373B1 (ko) 2012-11-12 2019-03-08 한국전자통신연구원 요약 정보 생성 방법, 장치 및 서버
KR101264667B1 (ko) 2012-12-28 2013-05-15 (주)지란지교소프트 비디오 파일의 썸네일 이미지 생성 방법 및 그 방법이 기록된 기록매체
JP2014187687A (ja) 2013-02-21 2014-10-02 Mitsubishi Electric Corp 動画像のハイライトシーン抽出装置及び方法
KR102025362B1 (ko) 2013-11-07 2019-09-25 한화테크윈 주식회사 검색 시스템 및 영상 검색 방법
KR102217186B1 (ko) 2014-04-11 2021-02-19 삼성전자주식회사 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법
US9535990B2 (en) 2014-05-20 2017-01-03 Google Inc. Systems and methods for generating video program extracts based on search queries
KR20160041398A (ko) 2014-10-07 2016-04-18 삼성전자주식회사 컨텐츠 처리 장치 및 그의 컨텐츠 처리 방법
KR20160057864A (ko) 2014-11-14 2016-05-24 삼성전자주식회사 요약 컨텐츠를 생성하는 전자 장치 및 그 방법
KR102375864B1 (ko) 2015-02-10 2022-03-18 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
US20160249116A1 (en) 2015-02-25 2016-08-25 Rovi Guides, Inc. Generating media asset previews based on scene popularity
KR20170009037A (ko) 2015-07-15 2017-01-25 삼성전자주식회사 영상 컨텐츠 제공 장치 및 영상 컨텐츠 제공 방법
US9627004B1 (en) * 2015-10-14 2017-04-18 Google Inc. Video frame annotation
JP6366626B2 (ja) 2016-03-17 2018-08-01 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
CN107273782B (zh) * 2016-04-08 2022-12-16 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
KR102618404B1 (ko) * 2016-06-30 2023-12-26 주식회사 케이티 영상 축약 시스템 및 방법
KR102556393B1 (ko) * 2016-06-30 2023-07-14 주식회사 케이티 영상 축약 시스템 및 방법
US10417499B2 (en) * 2016-09-21 2019-09-17 GumGum, Inc. Machine learning models for identifying sports teams depicted in image or video data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3250467B2 (ja) * 1996-10-04 2002-01-28 松下電器産業株式会社 映像要約方法および映像表示方法
JP2012079354A (ja) * 2012-01-26 2012-04-19 Casio Comput Co Ltd 画像表示制御装置、画像表示制御方法及びプログラム
JP2015032905A (ja) * 2013-07-31 2015-02-16 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
KR20150084567A (ko) * 2014-01-14 2015-07-22 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
JP2016162423A (ja) * 2015-03-05 2016-09-05 オムロン株式会社 物体認識装置、物体認識方法、およびプログラム

Also Published As

Publication number Publication date
KR102585777B1 (ko) 2023-10-10
US20210216781A1 (en) 2021-07-15
KR20190135672A (ko) 2019-12-09
US11908192B2 (en) 2024-02-20

Similar Documents

Publication Publication Date Title
WO2020032661A1 (en) Electronic apparatus, method for controlling thereof, and method for controlling a server
WO2020105948A1 (en) Image processing apparatus and control method thereof
WO2017039142A1 (en) User terminal apparatus, system, and method for controlling the same
WO2018034462A1 (en) Image display apparatus and method of operating the same
WO2016117836A1 (en) Apparatus and method for editing content
WO2016137167A1 (en) Terminal
WO2017164640A1 (en) System and method for editing video contents automatically technical field
WO2017111252A1 (en) Electronic device and method of scanning channels in electronic device
WO2021261836A1 (en) Image detection apparatus and operation method thereof
WO2020235852A1 (ko) 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
WO2020091519A1 (en) Electronic apparatus and controlling method thereof
WO2022005060A1 (ko) 유해 동영상 파일을 필터링 하기 위한 장치 및 방법
WO2016182361A1 (en) Gesture recognition method, computing device, and control device
WO2015178716A1 (en) Search method and device
WO2017146454A1 (ko) 컨텐트를 인식하는 방법 및 장치
WO2021167210A1 (ko) 서버, 전자 장치 및 그들의 제어 방법
WO2019088627A1 (en) Electronic apparatus and controlling method thereof
WO2019231093A1 (ko) 전자 장치 및 그 제어방법
WO2019198951A1 (ko) 전자 장치 및 그 동작 방법
WO2023058835A1 (ko) 전자 장치 및 그 제어 방법
WO2019088592A1 (ko) 전자 장치 및 이의 제어방법
WO2021080154A1 (ko) 전자 장치 및 그 제어 방법
WO2022124679A1 (ko) 복제 비디오를 검출하는 장치 및 방법
WO2020111567A1 (en) Electronic device and operation method thereof
WO2019093763A1 (en) Display apparatus, control system for the same, and method for controlling the same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19811429

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19811429

Country of ref document: EP

Kind code of ref document: A1