WO2019135523A1 - 전자장치, 그 제어방법 및 컴퓨터프로그램제품 - Google Patents

전자장치, 그 제어방법 및 컴퓨터프로그램제품 Download PDF

Info

Publication number
WO2019135523A1
WO2019135523A1 PCT/KR2018/016373 KR2018016373W WO2019135523A1 WO 2019135523 A1 WO2019135523 A1 WO 2019135523A1 KR 2018016373 W KR2018016373 W KR 2018016373W WO 2019135523 A1 WO2019135523 A1 WO 2019135523A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
feature
frame
text
electronic device
Prior art date
Application number
PCT/KR2018/016373
Other languages
English (en)
French (fr)
Inventor
아가르왈비벡
구자윤
산체스어니스토
가르그자틴
Original Assignee
삼성전자(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자(주) filed Critical 삼성전자(주)
Priority to US16/960,666 priority Critical patent/US11386665B2/en
Publication of WO2019135523A1 publication Critical patent/WO2019135523A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3081Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is a video-frame or a video-field (P.I.P)

Definitions

  • the present invention relates to an electronic apparatus, a control method thereof, and a computer program product, and more particularly, to an electronic apparatus for processing video contents, a control method thereof, and a computer program product.
  • AI Artificial intelligence
  • AI is a computer system that implements human-level intelligence. Unlike existing Rule-based smart systems, AI is a system in which machines learn, judge and become smart. Artificial intelligence systems are increasingly recognized and improving their understanding of user preferences as they are used, and existing rule-based smart systems are gradually being replaced by deep-run-based artificial intelligence systems.
  • Artificial intelligence technology consists of element technologies that utilize deep learning and machine learning.
  • Machine learning is an algorithm technology that classifies / learns the characteristics of input data by itself.
  • Element technology is a technology that simulates functions such as recognition and judgment of human brain using machine learning algorithms such as deep learning. Understanding, reasoning / prediction, knowledge representation, and motion control.
  • Linguistic understanding is a technology for recognizing, applying, and processing human language / characters, including natural language processing, machine translation, dialogue system, query response, speech recognition / synthesis, and the like.
  • Visual understanding is a technology for recognizing and processing objects as human vision, including object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image enhancement.
  • Inference prediction is a technique for judging and logically inferring and predicting information, including knowledge / probability based reasoning, optimization prediction, preference base planning, and recommendation.
  • Knowledge representation is a technology for automating human experience information into knowledge data, including knowledge building (data generation / classification) and knowledge management (data utilization).
  • the motion control is a technique for controlling the autonomous travel of the vehicle and the motion of the robot, and includes motion control (navigation, collision, traveling), operation control (behavior control), and the like.
  • the present invention provides an electronic device, a control method thereof, and a computer program product for generating a video summary in consideration of not only video features but also text features by applying a learned learning model to video contents using artificial intelligence algorithms.
  • An electronic device includes: a memory in which instructions are stored; Instructions for extracting video features of each frame from a plurality of frames of video content and extracting text features from description information of video content to determine importance of each frame based on video and text features, And a processor for selecting a key frame of the video content from among the plurality of frames based on the importance. Accordingly, it is possible to provide the user with rich information about the content through the video summary considering the video feature as well as the text feature.
  • the processor can perform the machine learning based on the video feature and the text feature to generate the learned model and predict the importance of each frame using the generated learned model.
  • the processor can perform machine learning using a regression network for time series analysis. Thus, it is possible to provide a gradually improved quality video summary through the iterative learning process.
  • the processor may extract video features using at least one of Histogram of Oriented Gradient (HOG), Scale Invariant Feature Transform (SIFT), color histogram, texture extraction, or machine learning.
  • HOG Histogram of Oriented Gradient
  • SIFT Scale Invariant Feature Transform
  • color histogram e.g., texture extraction
  • machine learning e.g., machine learning
  • the processor can extract text features using at least one of Bow (Bag of words), TF-IDF, word embedding, or machine learning based on a neural network model.
  • the processor may perform a cleaning that removes or steams the stop word from the text that constitutes the descriptive information of the video content, and extracts the text feature from the cleaned text.
  • Bow Bossar of words
  • TF-IDF word embedding
  • machine learning based on a neural network model.
  • the processor may perform a cleaning that removes or steams the stop word from the text that constitutes the descriptive information of the video content, and extracts the text feature from the cleaned text.
  • the processor may generate a video summary configured with the selected key frames. And a display unit for displaying the generated video summaries. Accordingly, a video summary for video content can be automatically generated and presented to the user in various ways.
  • a method of controlling an electronic device includes: extracting video features of each frame from a plurality of frames of video content; Extracting text features from descriptive information of video content; Determining importance of each frame based on video characteristics and text features; And selecting a key frame of video content from among the plurality of frames based on the determined importance.
  • the step of determining importance comprises: performing machine learning based on a video feature and a text feature to generate a learned model; And predicting the importance of each frame using the generated learned model.
  • the step of generating a model includes performing machine learning using a regression network for time series analysis.
  • the step of extracting video features may extract video features using at least one of Histogram of Oriented Gradient (HOG), Scale Invariant Feature Transform (SIFT), color histogram, texture extraction, or machine learning.
  • HOG Histogram of Oriented Gradient
  • SIFT Scale Invariant Feature Transform
  • color histogram e.g., texture extraction
  • machine learning e.g., machine learning
  • the extracting of the text feature may extract text features using at least one of Bow (Bag of words), TF-IDF, word embedding, or machine learning based on a neural network model.
  • the step of extracting the text feature may include performing a cleaning that removes or steams the stop word from the text that constitutes the description information of the video content; And extracting text features from the cleaned text.
  • a video summary for video content can be automatically generated and presented to the user in various ways.
  • a computer program product comprising: a memory for storing instructions; The instruction extracting video features of each frame from a plurality of frames of video content and extracting text features from description information of video content to determine importance of each frame based on video and text features, And selects a key frame of the video content from a plurality of frames based on the determined importance. Accordingly, it is possible to provide the user with rich information about the content through the video summary considering the video feature as well as the text feature.
  • a video feature and a text feature are extracted by applying a learned learning model to video contents using an artificial intelligence algorithm, ,
  • the intuitive information about the video contents can be efficiently provided to the user.
  • FIG. 1 is a diagram showing an example of providing a video summary in an electronic device according to an embodiment of the present invention.
  • FIG. 2 is a view showing a video summarization according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of an electronic device 100 according to an embodiment of the present invention.
  • FIG 4 and 5 are views for explaining video summarization according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present invention.
  • FIG. 7 is a view for explaining the operation of an arrangement for extracting video features in an electronic device according to an embodiment of the present invention.
  • FIG. 8 is a diagram for explaining the operation of the configuration for extracting text features in an electronic device according to an embodiment of the present invention.
  • FIG. 9 is a view for explaining an operation of a configuration for determining frame importance for a plurality of frames in an electronic device according to an embodiment of the present invention.
  • Fig. 10 shows an example of a neural network structure for determining frame importance.
  • FIG. 11 is a view for explaining an operation of a configuration for selecting a key frame in an electronic device according to an embodiment of the present invention.
  • &quot comprising, " " including, " " having ", and the like, Or < / RTI >
  • 'module' or 'sub-module' performs at least one function or operation, and may be implemented in hardware or software, or a combination of hardware and software, .
  • at least one of the plurality of elements refers to not only all of a plurality of elements but also each one or a combination thereof excluding the rest of the plurality of elements.
  • FIG. 1 is a diagram showing an example of providing a video summary in an electronic device according to an embodiment of the present invention.
  • the electronic device 100 includes a video summarization for generating a video summary (also referred to as a video summary) from video content (hereinafter also referred to as video) .
  • a video summary also referred to as a video summary
  • video content hereinafter also referred to as video
  • the electronic device 100 is a device for extracting a video feature and a text feature from video content and extracting a plurality of frames of video content from the video content based on the extracted video feature and text feature, Selects a key frame, and generates a video summary composed of the selected key frame.
  • FIG. 2 is a view showing a video summarization according to an embodiment of the present invention.
  • the video summation 202 includes a process of generating content 203 representing the entire video 201 based on a visual summary of a given video, .
  • the length of the video summary 203 is short compared to the overall video 201 and the ideal video summary is to encapsulate all important events or key frames of video.
  • the electronic device 100 is implemented in various devices capable of performing video summation regardless of the name or the form.
  • electronic device 100 includes a server that provides video summary generated by processing video content, as shown in FIG.
  • a device hereinafter, also referred to as a client
  • a server provides video summary generated by processing video content
  • a device hereinafter, also referred to as a client
  • a device provided with a video summary from a server is not limited in its implementation, and can be implemented as a device capable of displaying a video summary.
  • an optical disc reproducing apparatus such as a television, a Blu-ray or DVD, an audio / video receiver, a set-top box (STB), a streaming apparatus
  • a mobile device such as a content player, a smart pad such as a cell phone, a smart phone, and a tablet, a laptop, a laptop, etc., provided as an apparatus for playing back or relaying contents, Or a computer (PC) including a desktop.
  • the connection method of the server and the client is not limited, and various wired and wireless standard interfaces can be applied.
  • the electronic device 100 may be implemented as an apparatus itself for generating and displaying video summaries from video content.
  • the electronic device 100 may be a display device such as a smart TV for displaying video contents, an image processing device such as a set-top box for receiving video contents as a video-on-demand service, And a terminal device.
  • the display device receives video content from an external content supply source, processes it according to a predetermined video processing process, and displays the video content.
  • the display device may be implemented as a television (TV) that processes broadcast content based on broadcast signal / broadcast information / broadcast data received from an output device of a broadcast station.
  • the broadcast signal received from the display device can be received through a terrestrial wave, a cable, a satellite, etc., and the content supply source in the present invention is not limited to a broadcast station. That is, a device or a station capable of transmitting and receiving information can be included in the content supply source of the present invention.
  • the standard of the signal received at the display device may be configured in various ways corresponding to the implementation of the display device.
  • the display device may wirelessly receive a radio frequency (RF) signal transmitted from a broadcasting station, or may be a composite video, a component video, a super video, a SCART, a high definition multimedia interface ) Standard can be received by wire.
  • RF radio frequency
  • the display device can receive video / audio content from various types of external devices.
  • the display device may include a moving image, a still image, an application, an on-screen display (OSD), a user selectable UI a user interface (hereinafter, also referred to as a graphic user interface (GUI)), and the like.
  • OSD on-screen display
  • GUI graphic user interface
  • the video content may be derived from data stored in a non-volatile storage unit (150 in FIG. 3) such as a flash memory, a hard disk, or the like.
  • the storage unit 150 may be provided inside or outside the display device, and may further include a connection unit to which the storage unit 150 is connected when the storage unit 150 is provided outside.
  • the video content may originate from data received through a network such as the Internet, and in this case, the display device may receive a video signal through a communication unit (110 of FIG. 3) described later.
  • the display device may be implemented as a Smart TV or an IP TV (Internet Protocol TV).
  • Smart TV can receive and display broadcasting signals in real time and has a web browsing function. It can display real time broadcasting signals and can search and consume various contents through the Internet and can provide a convenient user environment to be.
  • Smart TV also includes an open software platform that can provide interactive services for users. Accordingly, the smart TV can provide users with various contents, for example, an application providing a predetermined service through an open software platform.
  • Such an application is an application program capable of providing various kinds of services and includes applications for providing services such as SNS, finance, news, weather, maps, music, movies, games, e-books and the like.
  • the image processing apparatus is connected to a display device and transmits a signal corresponding to an image displayed on the display device.
  • the video processing apparatus processes video contents provided from an external content supply source according to a predetermined video processing process, and outputs the processed video contents to a display device.
  • the processed video contents are displayed as corresponding images in the display device.
  • the video / audio contents received by the image processing apparatus can be received through a terrestrial wave, a cable, or a satellite.
  • the image processing apparatus may display a moving image, a still image, an application, an OSD, a UI selectable by a user, or the like on the screen of the display device based on signals / data received in an internal / external storage medium or received in a stream form The signal can be processed.
  • the image processing apparatus can provide an application providing predetermined services such as SNS, finance, news, weather, map, music, movie, game, electronic book, etc. to a user through a display device.
  • An electronic device 100 implemented by a display device or an image processing device includes a decoder for decoding a video signal corresponding to a video format of a display device, a video decoder for converting a video signal into an output specification of the display unit 130 And an image processing unit including a scaler for adjusting the image.
  • the image processing unit may include a tuner for tuning the broadcast signal on a channel-by-channel basis.
  • the decoder of this embodiment can be implemented by, for example, a Moving Picture Experts Group (MPEG) decoder.
  • MPEG Moving Picture Experts Group
  • the type of the image processing process performed by the image processing unit is not limited. For example, de-interlacing for converting an interlaced broadcast signal into a progressive method, Noise reduction, detail enhancement, frame refresh rate conversion, line scanning, and the like can be performed.
  • the image processing unit may be implemented as a group of individual configurations capable of independently performing each of these processes, or as a form included in a main system-on-chip (SoC) in which various functions are integrated.
  • the main SoC may include at least one microprocessor or CPU, which is an example of implementing the processor (170 of FIG. 3) described below.
  • FIG. 3 is a block diagram showing a configuration of an electronic device 100 according to an embodiment of the present invention.
  • the electronic device 100 includes a communication unit 110, a display unit 130, a storage unit 150, and a processor 170.
  • the configuration of the electronic device 100 shown in FIG. 3 is only one example, and the electronic device 100 according to the embodiment of the present invention may be implemented in other configurations. That is, the electronic device 100 according to the embodiment of the present invention may have a configuration other than the configuration shown in Fig. 3, for example, a user input section for receiving a user input such as a remote control, Or a part of the configuration shown in FIG. 3, for example, a display unit 130 for displaying an image, may be omitted.
  • the communication unit 110 is provided to be capable of communicating with an external device using a wired or wireless communication system.
  • the communication unit 110 includes a wired and / or wireless communication module.
  • the communication unit 110 may be a communication unit such as a Bluetooth, a Bluetooth low energy, an IrDA (infrared data association), a Wi-Fi Direct, a Zigbee, ), And near field communication (NFC) communication modules.
  • the short-range communication module is provided to support direct communication between the electronic device 100 and an external device wirelessly without an access point (AP).
  • the communication unit 110 further includes a wireless LAN unit.
  • the wireless LAN unit can be wirelessly connected to an external device via the AP under the control of the processor 170.
  • the wireless LAN unit may include a Wi-Fi communication module.
  • the communication unit 110 may include a wired communication module such as Ethernet.
  • the communication unit 110 of the electronic device 100 may be formed of one or more of a short range communication module, a wireless LAN unit, and Ethernet according to performance.
  • the communication unit 110 may be implemented as a device, a S / W module, a circuit, a chip, or the like.
  • the communication unit 110 receives video content from outside. In another embodiment, the communication unit 110 may provide the video summary generated for the video content to an external display device.
  • the display unit 130 displays the video content and / or its video summary.
  • the display unit 130 may be implemented by any method including, but not limited to, a liquid crystal, a plasma, a light-emitting diode, an organic light-emitting diode, such as surface-conduction electron-emitter, carbon nano-tube, and nano-crystal.
  • the display unit 130 may further include an additional configuration, for example, a driver according to the implementation method thereof.
  • the storage unit 150 is configured to store various data of the electronic device 100.
  • the storage unit 150 may be provided as a writable ROM that can store data even if the power supplied to the electronic device 100 is disconnected, and may reflect the change. That is, the storage unit 150 may be a flash memory, an EPROM, or an EEPROM.
  • the storage unit 150 may further include a volatile memory such as a DRAM or an SRAM whose read or write speed of the electronic device 100 is faster than that of the non-volatile memory.
  • the data stored in the storage unit 150 includes, for example, an operating system for driving the electronic device 100, various applications that can be executed on the operating system, image data, additional data, and the like.
  • the storage unit 150 may store signals or data input / output corresponding to the operations of the respective components under the control of the processor 170.
  • the storage unit 150 stores a control program for controlling the electronic device 100, UIs related to an application provided by a manufacturer or downloaded from the outside, images for providing a UI, user information, documents, databases, or related data Can be stored.
  • the term storage unit in the embodiment of the present invention includes a storage unit 150, a ROM and a RAM or an electronic device 100 provided as a memory in which a program executed by the processor 170 is stored or loaded, (E. G., A micro SD card, a memory stick) that is mountable to a memory card (not shown).
  • Processor 170 performs control for the various configurations of electronic device 100 to operate.
  • the processor 170 may be a central processing unit (CPU), a microprocessor, or an AP (microprocessor), which executes a control program (or an instruction) an application processor, and the like.
  • the control program is installed in a ROM which is a non-volatile memory, and at least a part of the installed control program is loaded into a RAM which is a volatile memory for execution.
  • the processor, ROM and RAM are interconnected via an internal bus.
  • the processor may include single core, dual core, triple core, quad core and multiples thereof.
  • the processor includes a plurality of processors, for example, a main processor and a sub-processor operating in a sleep mode (e.g., only standby power is supplied and not operating as a display device) processor.
  • a sleep mode e.g., only standby power is supplied and not operating as a display device
  • the processor 170 may further include a graphics processing unit (GPU) for graphics processing.
  • GPU graphics processing unit
  • a single processor may be provided.
  • the processor may be implemented as a System On Chip (SoC) .
  • SoC System On Chip
  • the processor 170 may be embodied as being included in a main SoC that is mounted on a PCB built in the electronic device 100.
  • the control program may include program (s) implemented in the form of at least one of BIOS, device driver, operating system, firmware, platform and application (application).
  • the application program may be installed or stored in the electronic device 100 at the time of manufacture of the electronic device 100, or may receive data of the application program from the outside at a later time, May be installed in the electronic device 100.
  • the data of the application program may be downloaded to the electronic device 100 from an external server, for example, an application market.
  • Such an external server is an example of the computer program product of the present invention, but is not limited thereto.
  • processor 170 may be implemented by a computer program stored in a computer program product (not shown) provided separately from electronic device 100.
  • the computer program product includes a memory in which instructions corresponding to the computer program are stored, and a processor.
  • the instructions when executed by a processor, extract video features of each frame from a plurality of frames of video content, extract text features from the description information of the video content, and determine importance of each frame based on the video feature and the text feature And selecting a key frame of the video content from a plurality of frames based on the determined importance.
  • the electronic device 100 may download and execute a computer program stored in a separate computer program product to the electronic device 100 to perform the operations of the processor 170.
  • FIG 4 and 5 are views for explaining video summarization according to an embodiment of the present invention.
  • an electronic device 100 extracts video features from a video 401 of video content and extracts video features from a description 402 of the video content Extracts text features, and is controlled to perform video summerizing 403 based on the extracted video and text features.
  • the video summaries 404 generated by the video summarizing unit 403 are composed of key frames selected in consideration of not only video features but also text features, and are semantically consistent with the video description information 402 (semantically coherent).
  • the electronic device 100 is provided with a video feature extractor 503, a text feature extractor 504, A frame importance model 505, and a key-frame selection model 506 may be provided.
  • the video feature extraction unit 503, the text feature extraction unit 504, the frame importance determination unit 505, and the key frame selection unit 506 are connected to a control program executed by the processor 170, And may be included in the processor 170.
  • the video feature extraction unit 503 processes the video content 501 composed of a plurality of frames and extracts essential features from each frame.
  • the video feature extraction unit 503 may extract low level features and objects, such as color, texture, and the like, as shown in FIG. 5, ), And story lines (high level features) to extract video features.
  • a text feature extraction unit 504 processes a video transcript 502 provided as an input and extracts text features as semantic features from the video description.
  • the frame importance determination unit 505 generates a model used for assigning an important score to each of a plurality of frames of the video content based on the video feature and the text feature. Here, depending on the importance, it may be determined whether or not a predetermined frame is included in the summary.
  • the key frame selection unit 506 selects a key frame for generating a video summary from among a plurality of frames based on the importance given to each frame by the frame importance determination unit 505. [ In one embodiment, the key frame selector 506 may generate a video summary comprising a list of key-frames selected.
  • the electronic device 100 may be configured such that the frame importance determining unit 505 determines whether or not a semantic characteristic such as a visual characteristic and a text characteristic such as a video characteristic features can be used together to determine frame importance so that video summarization can be generated that generates a summary that is semantically consistent with the description information of the video content so that more robust and high- Quot;) < / RTI >
  • FIG. 6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present invention.
  • the processor 170 of the electronic device 100 extracts the video characteristics of each frame from a plurality of frames of video content (S601).
  • FIG. 7 is a view for explaining the operation of an arrangement for extracting video features in an electronic device according to an embodiment of the present invention.
  • the video feature extraction unit 503 includes a video process 701 for separating the video contents received from the video source into a plurality of frames (fame 1, frame 2, ..., frame n) And extracts video features f1, f2, ..., fn by performing a video feature extraction process 702 for each of a plurality of frames.
  • the video feature extraction unit 503 generates a feature vector for each of a plurality of frames through an image extraction process 702 for a plurality of frames.
  • the image feature extraction process 702 for generating the feature vectors described above may be implemented using a histogram of an Oriented Gradient (HOG), a Scale Invariant Feature Transform (SIFT), a color histogram, a texture extraction, (machine learning or deep learning).
  • HOG Oriented Gradient
  • SIFT Scale Invariant Feature Transform
  • the HOG divides the target region of each frame into cells of a certain size, obtains a histogram of the direction of edge pixels having a gradient magnitude of a certain value or more for each cell, and then connects the histogram bin values in a line And generates a feature vector.
  • HOG can be regarded as a matching method in the middle stage of template matching and histogram matching. In the block unit, geometric information is maintained, but histogram is used in each block. Since HOG uses information on the silhouette (contour) of an object, it can be suitable for identifying an object having inherent unique contour information, such as a person, an automobile, etc., in the frame without complicating the internal pattern.
  • SITF extracts feature vectors for a local patch centered on each feature point after selecting easily identifiable feature points such as corner points in each frame image.
  • SIFT divides the image patches around the minutiae points into a predetermined number of blocks, for example, 4x4 blocks.
  • the histograms of the gradient directions and magnitudes of the pixels belonging to each block are obtained, and the histogram RAM bin values are connected in a line A feature vector can be generated.
  • the SIFT expresses the characteristic of the local gradient distribution around the feature point, that is, the direction of the brightness change and the sharpness of the change in the brightness, and is characterized by being robust against changes in size, shape and direction (rotation)
  • the color histogram may generate a feature vector that represents the distribution of brightness values for the pixels in the image of each frame.
  • the texture extraction may be performed using a feature vector that represents a predetermined texture, e.g., brightness, Lt; / RTI >
  • Machine learning is a field of artificial intelligence (AI) that is used to construct models from large amounts of data based on neural networks, a neural network, in the form of multi-layered structures.
  • AI artificial intelligence
  • the video feature extraction unit 503 may be implemented to generate a feature vector from an image of each frame through a model constructed through repetitive training.
  • the video feature extraction unit 503 performs machine learning based on a model composed of features that are pre-trained based on the ImageNet dataset.
  • the processor 170 extracts the text feature from the transcript of the video content (S603).
  • FIG. 8 is a diagram for explaining the operation of the configuration for extracting text features in an electronic device according to an embodiment of the present invention.
  • the text feature extraction unit 504 performs a text process 801 for allowing the input video description information (video transcript) to be cleaned, and performs a text extraction process (802) to generate a feature vector (t) representing a text feature.
  • the cleaning process includes removing a stop word, which is a common word for the texts that make up the explanation information, or applying stemming to the word.
  • the text extraction process 702 for generating the feature vectors described above may be implemented using a combination of Bow (Bag of words), TF-IDF (feature frequency extraction), feature extraction, word-embedding models, And machine learning based models such as neural networks based on neural networks.
  • the word embedding model may be constructed utilizing a model according to word2vec, one of the neural network language modeling approaches.
  • the processor 170 determines importance of each frame based on the video feature and the text feature extracted in steps S601 and S603 (S605).
  • FIG. 9 is a view for explaining an operation of a configuration for determining frame importance for a plurality of frames in an electronic device according to an embodiment of the present invention
  • FIG. 10 shows an example of a neural network structure for determining frame importance.
  • the frame importance determination unit 505 receives the video feature from the video feature extraction unit 503 and receives the text feature from the text feature extraction unit 504. [ The frame importance determining unit 505 performs a machine learning 901 on the input video feature and the text feature to perform a frame importance prediction process 902 from the learned model, importance score (S1, S2, ..., Sn).
  • the frame importance determination unit 505 creates a model that is used to assign importance to each frame from the video feature and the text feature, and the importance is whether or not each frame is included in the summary (whether to keep a frame in summary or not).
  • the frame importance determination unit 505 may include a machine learning system for training a frame importance prediction model based on a video importance as an input, a text feature, and a frame importance as ground-truth.
  • the frame importance determination unit 505 determines a frame importance based on a processing method of video and text characteristics, a number and type of parameters, internal connections, a method of generating output data, a frame configuration score for the frame importance score is chosen.
  • the model configuration is chosen to allow analysis of the sequential nature of the video in addition to the text features.
  • a model for predicting frame importance is composed of Recurrent Neural Networks for time-series analysis including fully connected layers .
  • the time series analysis is based on a video sequence.
  • the regenerative neural network includes input layers 1001 and 1002, an intermediate layer 903 and an output layer 1004, as shown in Fig.
  • the intermediate layer may be composed of a series of hidden layers that transform the input vector.
  • Each hidden layer consists of neurons.
  • the regenerative neural network structure constituting the frame importance determination unit 505 is a hidden layer, as shown in FIG. 10, in a forward short term memory (LSTM) ) Layer, a backward short and long term memory layer, and a shared multilayer perceptron (MLP) layer as an example.
  • LSTM forward short term memory
  • MLP shared multilayer perceptron
  • the frame importance determination unit 505 may perform a model configuration selection and adjustment process based on the modeling system evaluation results for model construction.
  • the model parameters are initialized with random or non-random data.
  • the model error is calculated by comparing the frame importance prediction scores of the frame with the ground-truth significance scores.
  • the stop condition is checked based on model errors and other evolution metrics. If the stop condition is not met, the training continues, otherwise the final model is saved for further use.
  • the processor 170 selects a key frame from a plurality of frames of the video content based on the importance determined in step S605 (S607).
  • FIG. 11 is a view for explaining an operation of a configuration for selecting a key frame in an electronic device according to an embodiment of the present invention.
  • the key frame selecting unit 506 selects the video features f1, f2, ..., fn of each extracted frame, the text feature t, and the importance s1 , s2, ..., sn) as inputs.
  • the frame-level video features and text features of each frame received by the key frame selector 506 are optional. That is, the key frame selection unit 506 may be configured to receive the importance of each frame from the frame importance determination unit 505.
  • the key frame selection unit 506 performs key-frame selection modeling 1001 to control the video summary to be generated from a list of selected frames.
  • the key frame selection unit 506 can select best key-frames for generating a video summary based on the frame importance and the video and text characteristics that can be optionally input.
  • the key frame selector 506 is a simple heuristic system based on a scheme of selecting n-frames with the highest frame importance scores, for example, Lt; / RTI >
  • the key frame selector 506 may be implemented as a system based on a stochastic scheme such as a DPP (determinant point process). DPP can ensure an appropriate balance between precision and recall by eliminating unnecessary redundant frames and including diverse frames.
  • DPP stochastic scheme
  • the key frame selector 506 may employ more machine learning on top of the DPP to optimize the result of the obtained key frame selection.
  • the machine learning model for key frame selection may be configured in a manner similar to the model construction for determining the frame importance described in the frame importance determination unit 505.
  • the processor 170 generates a video summary composed of the key frames selected in step S607 (S609).
  • the generated video summary is semantically coherent with the video description because it is composed of selected key frames considering not only the video characteristics of the video contents but also the text features.
  • the video summary generated in step S609 is provided to the user (S611).
  • the electronic device 100 includes a display 130 such as a TV or a smart phone, the video summary may be provided to the user by the electronic device 100.
  • the electronic device 100 is a device connected to the display device in a wired or wireless manner, such as a set-top box or a server, the video summary may be delivered to the display device and provided to the user.
  • the processor 170 extracts video features from each of a plurality of frames of video content, extracts text features from the description of the video content Determines the importance of each frame based on the video characteristic and text characteristic of each frame, and controls to generate a video summary composed of key frames selected according to the determined importance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

본 발명은 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 관한 것으로서, 전자장치는, 인스트럭션이 저장되는 메모리와; 인스트럭션을 실행하여, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징을 이용한 뉴럴 네트워크에 의한 학습에 따라 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하는 프로세서를 포함한다 이에 의하여, 비디오특징뿐 아니라 텍스트특징까지 고려한 비디오서머리를 통해 사용자에게 컨텐츠에 대한 충실한 정보를 제공할 수 있다.

Description

전자장치, 그 제어방법 및 컴퓨터프로그램제품
본 발명은 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 관한 것으로서, 보다 상세하게는 비디오컨텐츠를 처리하는 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
본 발명은, 비디오컨텐츠에 대하여 인공지능 알고리즘을 이용하여 학습된 학습모델을 적용하여 비디오특징뿐 아니라 텍스트특징도 고려한 비디오서머리를 생성하는 전자장치, 그 제어방법 및 컴퓨터프로그램제품을 제공한다.
본 발명 일 실시예에 따른 전자장치는, 인스트럭션이 저장되는 메모리와; 인스트럭션을 실행하여, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하는 프로세서를 포함한다. 이에 의하여, 비디오특징뿐 아니라 텍스트특징까지 고려한 비디오서머리를 통해 사용자에게 컨텐츠에 대한 충실한 정보를 제공할 수 있다.
프로세서는, 비디오특징 및 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하고, 생성된 학습된 모델을 이용하여 각 프레임의 중요도를 예측할 수 있다. 프로세서는, 시계열분석을 위한 회기통신망을 이용하여 기계학습을 수행할 수 있다. 이에, 반복적 학습과정을 통해 점차 향상된 품질의 비디오서머리를 제공할 수 있다.
프로세서는, HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 비디오특징을 추출할 수 있다. 이에, 비디오컨텐츠의 특징, 사용자의 선호도 등을 고려한 다양한 알고리즘이 활용 가능하다.
프로세서는, Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 텍스트특징을 추출할 수 있다. 프로세서는, 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하고, 클리닝된 텍스트로부터 텍스트특징을 추출할 수 있다. 이에, 불필요한 텍스트는 제외하고, 컨텐츠특징을 나타내는 텍스트로 구성된 비디오서머리를 제공할 수 있다.
프로세서는, 선택된 키프레임으로 구성된 비디오서머리를 생성할 수 있다. 생성된 비디오서머리를 표시하는 디스플레이부를 더 포함할 수 있다. 이에, 비디오컨텐츠에 대한 비디오서머리를 자동으로 생성하여 다양한 방식으로 사용자에게 제공할 수 있다.
한편, 본 발명 일 실시예에 따른 전자장치의 제어방법은, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하는 단계; 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하는 단계; 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하는 단계; 및 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하는 단계를 포함한다.
중요도를 결정하는 단계는, 비디오특징 및 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하는 단계; 및 생성된 학습된 모델을 이용하여 각 프레임의 중요도를 예측하는 단계를 포함한다. 모델을 생성하는 단계는, 시계열분석을 위한 회기통신망을 이용하여 기계학습을 수행하는 단계를 포함한다. 이에, 반복적 학습과정을 통해 점차 향상된 품질의 비디오서머리를 제공할 수 있다.
비디오특징을 추출하는 단계는, HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 비디오특징을 추출할 수 있다. 이에, 비디오컨텐츠의 특징, 사용자의 선호도 등을 고려한 다양한 알고리즘이 활용 가능하다.
텍스트특징을 추출하는 단계는, Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 텍스트특징을 추출할 수 있다. 텍스트특징을 추출하는 단계는, 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하는 단계; 및 클리닝된 텍스트로부터 텍스트특징을 추출하는 단계를 더 포함할 수 있다. 이에, 불필요한 텍스트는 제외하고, 컨텐츠특징을 나타내는 텍스트로 구성된 비디오서머리를 제공할 수 있다.
선택된 키프레임으로 구성된 비디오서머리를 생성하는 단계를 더 포함할 수 있다. 생성된 비디오서머리를 표시하는 단계를 더 포함할 수 있다. 이에, 비디오컨텐츠에 대한 비디오서머리를 자동으로 생성하여 다양한 방식으로 사용자에게 제공할 수 있다.
한편, 본 발명 일 실시예에 따른 컴퓨터프로그램제품은, 인스트럭션을 저장하는 메모리와; 프로세서를 포함하며, 인스트럭션은, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하도록 한다. 이에 의하여, 비디오특징뿐 아니라 텍스트특징까지 고려한 비디오서머리를 통해 사용자에게 컨텐츠에 대한 충실한 정보를 제공할 수 있다.
상기한 바와 같은 본 발명의 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 따르면, 비디오컨텐츠에 대하여 인공지능 알고리즘을 이용하여 학습된 학습모델을 적용하여 비디오특징과 텍스트특징을 추출하고, 그 추출결과에 따른 키프레임으로 구성된 비디오 요약을 생성함으로써, 비디오컨텐츠에 대한 직관적인 정보를 사용자에게 효율적으로 제공할 수 있다.
도 1은 본 발명 일 실시예에 의한 전자장치에서 비디오서머리를 제공하는 예를 도시한 도면이다.
도 2는 본 발명 일 실시예에 의한 비디오 서머라이제이션을 간략하게 도시한 도면이다.
도 3은 본 발명 일 실시예에 의한 전자장치(100)의 구성을 도시한 블록도이다.
도 4와 도 5는 본 발명 일 실시예에 따른 비디오 서머라이제이션을 설명하기 위한 도면이다.
도 6은 본 발명 일 실시예에 따른 전자장치의 제어방법을 도시한 흐름도이다.
도 7은 본 발명 일 실시예에 따른 전자장치에서 비디오특징을 추출하는 구성의 동작을 설명하는 도면이다.
도 8은 본 발명 일 실시예에 따른 전자장치에서 텍스트특징을 추출하는 구성의 동작을 설명하는 도면이다.
도 9는 본 발명 일 실시예에 따른 전자장치에서 복수의 프레임에 대해 프레임 중요도를 결정하는 구성의 동작을 설명하는 도면이다.
도 10은 프레임 중요도를 결정하는 신경망 구조의 일례를 도시한 것이다.
도 11은 본 발명 일 실시예에 따른 전자장치에서 키프레임을 선택하는 구성의 동작을 설명하는 도면이다.
이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 발명의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.
도 1은 본 발명 일 실시예에 의한 전자장치에서 비디오서머리를 제공하는 예를 도시한 도면이다.
본 발명 일 실시예에 따른 전자장치(100)는 비디오컨텐츠(video content, 이하 비디오 라고도 한다)로부터 비디오 서머리(video summary, 이하, 비디오 요약 이라고도 한다)를 생성하기 위한 비디오 서머라이제이션(video summarization)을 수행한다.
본 발명 실시예에 따른 전자장치(100)는, 도 1에 도시된 바와 같이, 비디오컨텐츠로부터 비디오특징과 텍스트특징을 추출하고, 추출된 비디오특징 및 텍스트특징에 기초하여 비디오컨텐츠의 복수의 프레임으로부터 키프레임을 선택하여, 선택된 키프레임으로 구성된 비디오 서머리를 생성한다.
도 2는 본 발명 일 실시예에 의한 비디오 서머라이제이션을 간략하게 도시한 도면이다.
도 2에 도시된 바와 같이, 비디오 서머라이제이션(202)은 소정 비디오의 시각적 서머리(visual summary)에 기초하여 전체(entire) 비디오(201)를 대표하는 컨텐츠(203)를 생성(producing)하는 프로세스로서 정의된다. 비디오 서머리(203)의 길이는 전체 비디오(201)와 비교하여 짧으며, 이상적인(ideal) 비디오 서머리는 비디오의 모든 중요 이벤트(important events) 또는 키 프레임(key frames)을 요약(encapsulate)하는 것이다.
본 발명 실시예에 따른 전자장치(100)는 그 명칭이나 형태에 관계없이, 비디오 서머라이제이션이 수행 가능한 다양한 장치로 구현된다.
일 실시예에서 전자장치(100)는, 도 1에 도시된 바와 같이, 비디오 컨텐츠를 처리하여 생성된 비디오 서머리를 제공하는 서버를 포함한다. 서버로부터 비디오 서머리를 제공받는 장치(이하, 클라이언트 라고도 한다)는 그 구현형태가 제한되지 않으며, 비디오 서머리를 표시 가능한 장치로서 구현될 수 있다. 클라이언트는, 예를 들면 도 1과 같이, 스마트 TV와 같은 텔레비전, 블루레이 또는 DVD 등의 광학디스크 재생장치, AV 리시버(audio/video receiver), 셋탑박스(set-top box, STB), 스트리밍 장치 등 컨텐츠를 재생하거나 중계하기 위한 제반 장치로서 마련되는 컨텐츠 재생장치(player), 휴대폰, 스마트폰(smart phone), 태블릿(table)과 같은 스마트패드(smart pad) 등의 모바일 디바이스, 랩탑(laptop) 또는 데스크탑(desktop)을 포함하는 컴퓨터(PC) 중 적어도 하나를 포함한다. 서버와 클라이언트의 접속 방식은 한정되지 않으며, 다양한 유무선 규격의 인터페이스가 적용될 수 있다.
다른 실시예에서 전자장치(100)는 비디오컨텐츠로부터 비디오 서머리를 생성 및 표시하는 장치 그 자체로서 구현될 수 있다. 예를 들면, 전자장치(100)는 비디오컨텐츠를 표시하는 스마트 TV와 같은 디스플레이장치, 비디오컨텐츠를 VOD(video-on-demand) 서비스로서 제공받는 셋탑박스와 같은 영상처리장치, 또는 스마트폰과 같은 단말장치를 포함한다.
상기와 같은 본 발명 실시예에 따른 디스플레이장치는 외부의 컨텐츠공급원으로부터 비디오컨텐츠를 제공받아 기 설정된 비디오처리 프로세스에 따라서 처리하여 영상으로 표시한다. 일례로 디스플레이장치는, 방송국의 송출장비로부터 수신되는 방송신호/방송정보/방송데이터에 기초한 방송컨텐츠를 처리하는 텔레비전(TV)으로 구현될 수 있다. 디스플레이장치에서 수신되는 방송신호는 지상파, 케이블, 위성 등을 통해서도 수신 가능하며, 본 발명에서의 컨텐츠공급원은 방송국에 한정되지 않는다. 즉, 정보의 송수신이 가능한 장치 또는 스테이션이라면 본 발명의 컨텐츠공급원에 포함될 수 있다.
디스플레이장치에서 수신되는 신호의 규격은 디스플레이장치의 구현 형태에 대응하여 다양한 방식으로 구성될 수 있다. 예를 들면, 디스플레이장치는 방송국으로부터 송출되는 RF(radio frequency) 신호를 무선으로 수신하거나, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART, HDMI(high definition multimedia interface) 규격 등에 의한 영상신호를 유선으로 수신할 수 있다.
또한, 디스플레이장치는 다양한 형식의 외부장치로부터 비디오/오디오컨텐츠를 수신할 수 있다. 또한, 디스플레이장치는 내부/외부의 저장매체에 저장되거나, 스트림 형태로 수신되는 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션(application), OSD(on-screen display), 사용자에 의해 선택 가능한 UI(user interface, 이하, GUI(graphic user interface) 라고도 함) 등을 화면에 표시하도록 신호를 처리할 수 있다.
또한, 비디오컨텐츠는 플래시메모리, 하드디스크 등과 같은 비휘발성의 저장부(도 3의 150)에 저장된 데이터로부터 기인한 것일 수 있다. 저장부(150)는 디스플레이장치의 내부 또는 외부에 마련될 수 있으며, 외부에 마련되는 경우 저장부(150)가 연결되는 연결부를 더 포함할 수 있다.
또한, 비디오컨텐츠는 인터넷 등과 같은 네트워크를 통해 수신되는 데이터로부터 기인한 것일 수 있으며, 이 경우 디스플레이장치는, 후술하는 통신부(도 3의 110)를 통해 영상신호를 수신할 수 있다.
일 실시예에서, 디스플레이장치는 스마트 TV 또는 IP TV(Internet Protocol TV)로 구현될 수 있다. 스마트 TV는 실시간으로 방송신호를 수신하여 표시할 수 있고, 웹 브라우징 기능을 가지고 있어 실시간 방송신호의 표시와 동시에 인터넷을 통하여 다양한 컨텐츠 검색 및 소비가 가능하고 이를 위하여 편리한 사용자 환경을 제공할 수 있는 TV이다. 또한, 스마트 TV는 개방형 소프트웨어 플랫폼을 포함하고 있어 사용자에게 양방향 서비스를 제공할 수 있다. 따라서, 스마트 TV는 개방형 소프트웨어 플랫폼을 통하여 다양한 컨텐츠, 예를 들어 소정의 서비스를 제공하는 어플리케이션을 사용자에게 제공할 수 있다. 이러한 어플리케이션은 다양한 종류의 서비스를 제공할 수 있는 응용 프로그램으로서, 예를 들어 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등의 서비스를 제공하는 어플리케이션을 포함한다.
상기와 같은 본 발명 실시예에 따른 영상처리장치는 디스플레이장치와 접속되어, 디스플레이장치에서 표시되는 영상에 대응하는 신호를 전달한다. 구체적으로, 영상처리장치는 외부의 컨텐츠공급원으로부터 제공되는 비디오컨텐츠를 기 설정된 영상처리 프로세스에 따라서 처리하여 디스플레이장치로 출력한다. 처리된 비디오컨텐츠는 디스플레이장치에서 대응되는 영상으로 표시된다.
영상처리장치에서 수신되는 비디오/오디오컨텐츠는 지상파, 케이블, 위성 등을 통해서도 수신 가능하다. 또한, 영상처리장치는 내부/외부의 저장매체에 저장되거나, 스트림 형태로 수신되는 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션, OSD, 사용자에 의해 선택 가능한 UI 등을 디스플레이장치의 화면에 표시하도록 신호를 처리할 수 있다. 또한, 영상처리장치는 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등 소정의 서비스를 제공하는 어플리케이션을 디스플레이장치를 통해 사용자에게 제공할 수 있다.
디스플레이장치 또는 영상처리장치로 구현된 전자장치(100)는 영상신호를 디스플레이장치의 영상 포맷에 대응하도록 디코드하는 디코더(decoder), 영상신호를 디스플레이부(도 3의 130)의 출력규격에 맞도록 조절하는 스케일러(scaler)를 포함하는 영상처리부를 포함한다. 일 실시예에서, 영상처리부는 방송신호를 채널 별로 튜닝하기 위한 튜너를 포함할 수 있다.
본 실시예의 디코더는 예를 들어, MPEG (Moving Picture Experts Group) 디코더로 구현될 수 있다. 여기서, 영상처리부가 수행하는 영상처리 프로세스의 종류는 한정되지 않는바, 예를 들면 인터레이스(interlace) 방식의 방송신호를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환, 라인 스캐닝(line scanning) 다양한 프로세스 중 적어도 하나를 수행할 수 있다.
영상처리부는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적 구성의 그룹으로 구현되거나, 또는 여러 기능을 통합시킨 메인 SoC(System-on-Chip)에 포함되는 형태로서 구현 가능하다. 메인 SoC는 후술하는 프로세서(도 3의 170)를 구현하는 일례인 적어도 하나의 마이크로프로세서 또는 CPU를 포함할 수 있다.
이하, 본 발명 일 실시예에 따른 전자장치의 구체적인 구성을 도면을 참조하여 설명한다.
도 3은 본 발명 일 실시예에 의한 전자장치(100)의 구성을 도시한 블록도이다.
도 3에 도시된 바와 같이, 전자장치(100)는 통신부(110), 디스플레이부(130), 저장부(150) 및 프로세서(170)를 포함한다. 다만, 도 3에 도시된 전자장치(100)의 구성은 하나의 예시일 뿐, 본 발명의 실시예에 의한 전자장치(100)는 다른 구성으로도 구현될 수 있다. 즉, 본 발명의 실시예에 의한 전자장치(100)는, 도 3에 도시된 구성 외에 다른 구성, 예를 들면 리모컨(remote control)과 같이 사용자입력을 수신하는 사용자입력부, 영상신호를 처리하는 영상처리부 등이 추가되거나, 혹은 도 3에 도시된 구성 중 일부, 예를 들면 영상을 표시하는 디스플레이부(130)가 배제된 형태로 구현될 수도 있다.
통신부(110)는 외부장치와 유선 혹은 무선 통신방식을 사용하여 통신 가능하게 마련된다. 통신부(110)는 유선 및/또는 무선 통신모듈을 포함한다.
일 실시예에서 통신부(110) 는 블루투스(bluetooth), 블루투스 저에너지(bluetooth low energy), 적외선통신(IrDA, infrared data association), 와이파이 다이렉트(Wi-Fi Direct), 지그비(Zigbee), UWB(Ultra Wideband), NFC(Near Field Communication) 등의 근거리 통신모듈 중 적어도 하나를 포함한다. 근거리 통신모듈은 AP(access point)없이 무선으로 전자장치(100)와 외부장치 사이에 다이렉트로 통신을 지원하도록 마련된다.
일 실시예에서 통신부(110)는 무선랜유닛을 더 포함한다. 무선랜유닛은 프로세서(170)의 제어에 따라 AP를 통해 무선으로 외부기기와 연결될 수 있다. 무선랜유닛은 와이파이(Wi-Fi) 통신모듈을 포함할 수 있다.
일 실시예에서 통신부(110)는 이더넷(Ethernet) 등과 같은 유선 통신모듈을 포함할 수 있다.
본 발명 실시예에 따른 전자장치(100)의 통신부(110)는 성능에 따라 근거리 통신모듈, 무선랜유닛 및 이더넷 중 하나 또는 2 이상의 조합으로 이루어질 수 있다. 통신부(110)는 device, S/W module, circuit, chip 등의 형태로 구현될 수 있다.
본 발명 일 실시예에서 통신부(110)는 외부로부터 비디오컨텐츠를 수신한다. 다른 실시예에서 통신부(110)는 비디오컨텐츠에 대하여 생성된 비디오 서머리를 외부의 디스플레이장치로 제공할 수 있다.
디스플레이부(130)는 비디오컨텐츠 및/또는 그 비디오 서머리를 표시한다.
디스플레이부(130)의 구현 방식은 한정되지 않으며, 예를 들면 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다. 디스플레이부(130)는 그 구현 방식에 따라서 부가적인 구성, 예를 들면 구동부(driver)를 추가적으로 포함할 수 있다.
저장부(150)는 전자장치(100)의 다양한 데이터를 저장하도록 구성된다. 저장부(150)는 전자장치(100)에 공급되는 전원이 차단되더라도 데이터들이 남아있어야 하며, 변동사항을 반영할 수 있도록 쓰기 가능한 비휘발성 메모리(writable ROM)로 구비될 수 있다. 즉, 저장부(150)는 플래쉬 메모리(flash memory), EPROM 또는 EEPROM 중 어느 하나로 구비될 수 있다. 저장부(150)는 전자장치(100)의 읽기 또는 쓰기 속도가 비휘발성 메모리에 비해 빠른 DRAM 또는 SRAM과 같은 휘발성 메모리(volatile memory)를 더 구비할 수 있다.
저장부(150)에 저장되는 데이터는, 예를 들면 전자장치(100)의 구동을 위한 운영체제를 비롯하여, 이 운영체제 상에서 실행 가능한 다양한 어플리케이션, 영상데이터, 부가데이터 등을 포함한다.
구체적으로, 저장부(150)는 프로세서(170)의 제어에 따라 각 구성요소들의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 저장부(150)는 전자장치(100)의 제어를 위한 제어 프로그램, 제조사에서 제공되거나 외부로부터 다운로드 받은 어플리케이션과 관련된 UI, UI를 제공하기 위한 이미지들, 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.
본 발명의 실시예에서 저장부 라는 용어는 저장부(150), 프로세서(170)에 의해 실행되는 프로그램이 저장 또는 로드되는 메모리로서 마련되는 롬(ROM)과 램(RAM) 또는 전자장치(100)에 장착 가능한 메모리 카드(도시되지 아니함)(예를 들어, micro SD 카드, 메모리 스틱)를 포함하는 것으로서 정의된다.
프로세서(170)는 전자장치(100)의 제반 구성들이 동작하기 위한 제어를 수행한다. 프로세서(170)는 이러한 제어 동작을 수행할 수 있도록 하는 제어프로그램(혹은 인스트럭션)과, 로드된 제어프로그램을 실행하는 적어도 하나의 프로세서로서, CPU(Central Processing Unit), 마이크로프로세서(microprocessor) 또는 AP(application processor) 중 적어도 하나를 포함할 수 있다. 제어프로그램은 비휘발성의 메모리인 롬에 설치되고, 설치된 제어프로그램의 적어도 일부는 실행을 위해 휘발성의 메모리인 램에 로드된다. 프로세서, 롬 및 램은 내부 버스(bus)를 통해 상호 연결된다.
프로세서는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다. 일 실시예에서 프로세서는 복수의 프로세서, 예를 들어, 메인 프로세서(main processor) 및 슬립 모드(sleep mode, 예를 들어, 대기 전원만 공급되고 디스플레이장치로서 동작하지 않는)에서 동작하는 서브 프로세서(sub processor)로서 마련될 수 있다.
본 발명 일 실시예에서 전자장치(100)가 컴퓨터인 경우, 프로세서(170)는 그래픽 처리를 위한 GPU(Graphic Processing Unit)를 더 포함할 수 있다.
또한, 다른 실시예에서 전자장치(100)가 디지털 TV로 구현되는 경우, 단일 프로세서가 마련될 수 있으며, 예를 들어 프로세서는 코어(core)와 GPU가 결합된 SoC(System On Chip) 형태로 구현될 수 있다.
본 발명에서 프로세서(170)는 전자장치(100)에 내장되는 PCB 상에 실장되는 메인 SoC(Main SoC)에 포함되는 형태로서 구현 가능하다.
제어프로그램은, BIOS, 디바이스드라이버, 운영체계, 펌웨어, 플랫폼 및 응용프로그램(어플리케이션) 중 적어도 하나의 형태로 구현되는 프로그램(들)을 포함할 수 있다. 일 실시예로서, 응용프로그램은, 전자장치(100)의 제조 시에 전자장치(100)에 미리 설치 또는 저장되거나, 혹은 추후 사용 시에 외부로부터 응용프로그램의 데이터를 수신하여 수신된 데이터에 기초하여 전자장치(100)에 설치될 수 있다. 응용 프로그램의 데이터는, 예컨대, 어플리케이션 마켓과 같은 외부 서버로부터 전자장치(100)로 다운로드될 수도 있다.
이와 같은 외부 서버는, 본 발명의 컴퓨터프로그램제품의 일례이나, 이에 한정되는 것은 아니다.
즉, 다른 실시예로서, 상기와 같은 프로세서(170)의 동작은 전자장치(100)와 별도로 마련되는 컴퓨터프로그램제품(미도시)에 저장된 컴퓨터프로그램으로 구현될 수도 있다. 이 경우, 컴퓨터프로그램제품은 컴퓨터프로그램에 해당하는 인스트럭션이 저장된 메모리와, 프로세서를 포함한다. 인스트럭션은, 프로세서에 의해 실행되면, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택되도록 하는 것을 포함한다.
이에 따라, 전자장치(100)는 별도의 컴퓨터프로그램제품에 저장된 컴퓨터프로그램을 전자장치(100)로 다운로드 및 실행하여, 프로세서(170)의 동작을 수행할 수 있다.
후술하는 비디오컨텐츠의 처리 및 그에 따른 비디오 서머리의 생성과 관련된 동작들은 전자장치(100)의 프로세서(170) 에 의해 수행되는 것으로 이해될 것이다.
이하, 도면을 참조하여 본 발명 실시예에 따라 비디오컨텐츠로부터 비디오 서머리를 생성하기 위해 수행되는 제어동작에 대해서 설명하도록 한다.
도 4와 도 5는 본 발명 일 실시예에 따른 비디오 서머라이제이션을 설명하기 위한 도면이다.
도 4에 도시된 바와 같이, 본 발명 실시예에 따른 전자장치(100)는 비디오컨텐츠의 비디오(401)로부터 비디오특징(video features)을 추출하고, 비디오컨텐츠의 설명정보(transcript)(402)로부터 텍스트특징(text features)를 추출하며, 추출된 비디오특징 및 텍스트특징에 기초하여 비디오 서머라이징(403)을 수행하도록 제어된다. 상기와 같은, 비디오 서머라이징(403)에 의해 생성된 비디오 서머리(404)는 비디오특징뿐 아니라, 텍스트특징까지 고려하여 선택된 키 프레임으로 구성되며, 비디오 설명정보(402)와 의미론적으로 일관성을 갖는다(semantically coherent).
구체적으로, 도 5를 참조하면, 전자장치(100)에는 비디오 서머라이징을 위한 구성으로서, 비디오특징 추출부(Video Feature Extractor)(503), 텍스트특징 추출부(Text Feature Extractor)(504), 프레임 중요도 결정부(Frame importance model)(505), 및 키프레임 선택부(Key-frame selection model)(506)가 마련될 수 있다.
일 실시예에서, 비디오특징 추출부(503), 텍스트특징 추출부(504), 프레임 중요도 결정부(505) 및 키프레임 선택부(506)는 하드웨어인 프로세서(170)에 의해 실행되는 제어프로그램에 의한 소프트웨어적인 구성으로서, 프로세서(170)에 포함될 수 있다.
비디오특징 추출부(503)는 복수의 프레임으로 구성된 비디오컨텐츠(501)를 처리하고, 각 프레임으로부터 주요특징(essential features)을 추출한다. 일 실시예에서, 비디오특징 추출부(503)는, 도 5에 도시된 바와 같이, 컬러(color), 텍스처(texture)와 같은 로 레벨 특징(low level features)과 오브젝트(object), 장면(scene), 스토리라인(story line)과 같은 하이 레벨 특징(high level features)을 함께 사용하여 비디오특징을 추출한다.
텍스트특징 추출부(504)는 입력으로서 제공되는 비디오설명(video transcript)(502)를 처리하고, 그 비디오설명으로부터 의미론적인 특징(semantic features)으로서 텍스트특징을 추출한다.
프레임 중요도 결정부(505)는 비디오특징 및 텍스트특징에 기초하여 비디오컨텐츠의 복수의 프레임 각각에 대해 중요도(important score)를 할당(assign)하기 위해 사용되는 모델을 생성한다. 여기서, 중요도에 따라 소정 프레임이 서머리에 포함될지 여부가 결정될 수 있다.
키프레임 선택부(506)는 프레임 중요도 결정부(505)에서 각 프레임에 대해 부여된 중요도에 기초하여, 복수의 프레임 중 비디오 서머리를 생성하기 위한 키프레임을 선택한다. 일 실시예에서, 키프레임 선택부(506)는 선택된 복수의 키프레임의 리스트(list of key-frames)로 이루어진 비디오서머리를 생성할 수 있다.
본 발명 실시예에 따른 전자장치(100)는, 도 5에 도시된 바와 같이, 프레임 중요도 결정부(505)가, 비디오특징과 같은 시각적 컨텐츠(visual content)와 텍스트특징과 같은 의미론적인 특징(semantic features)을 함께 사용하여 프레임 중요도를 결정함으로써, 비디오컨텐츠의 설명정보와 의미론적으로 일관성을 갖는 서머리를 생성하는 비디오 서머라이제이션이 가능하므로, 보다 로버스트(more robust)하고 높은 품질(high-quality)을 갖는 비디오 서머리를 생성할 수 있게 된다.
이하, 본 발명 실시예에 따른 전자장치에서, 비디오특징과 텍스트특징을 추출하고, 프레임중요도를 결정하여 비디오서머리를 생성하는 구체적인 과정을 설명한다.
도 6은 본 발명 일 실시예에 따른 전자장치의 제어방법을 도시한 흐름도이다.
도 6에 도시된 바와 같이, 전자장치(100)의 프로세서(170)는 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출한다(S601).
도 7은 본 발명 일 실시예에 따른 전자장치에서 비디오특징을 추출하는 구성의 동작을 설명하는 도면이다.
도 7에 도시된 바와 같이, 비디오특징 추출부(503)는 비디오소스로부터 수신된 비디오컨텐츠가 복수의 프레임(fame 1, frame 2, ... , frame n)으로 분리되도록 하는 비디오프로세스(701)를 수행하고, 복수의 프레임 각각에 대하여 영상특징 추출 프로세스(702)를 수행하여 비디오 특징(f1, f2, ... , fn)을 추출한다.
일 실시예에서, 비디오특징 추출부(503)는 복수의 프레임에 대한 영상추출 프로세스(702)를 통해 복수의 프레임 각각에 대하여 특징 벡터(feature vector)를 생성한다.
상기한 특징 벡터를 생성하도록 하는 영상특징 추출 프로세스(702)는, HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램(color histogram), 텍스처 추출(texture extraction), 또는 기계학습(machine learning or deep learning) 중 적어도 하나를 포함할 수 있다.
HOG는 각 프레임의 대상 영역을 일정 크기의 셀로 분할하고, 각 셀마다 기울기등급(gradient magnitude)이 일정값 이상인 에지(edge) 픽셀들의 방향에 대한 히스토그램을 구한 후 이들 히스토그램 bin 값들을 일렬로 연결한 특징 벡터를 생성한다. HOG는 템플릿 매칭과 히스토그램 매칭의 중간 단계에 있느 매칭 방법으로 볼 수 있으며, 블록 단위로는 기하학적 정보를 유지하되, 각 블록 내부에서는 히스토그램을 사용한다. HOG는 물체의 실루엣(윤곽선) 정보를 이용하므로, 프레임 내에서 사람, 자동차 등과 같이 내부 패턴이 복잡하지 않으면서 고유의 독특한 윤곽선 정보를 갖는 물체를 식별하는데 적합할 수 있다.
SITF는 각 프레임의 영상에서 코너점 등 식별이 용이한 특징점들을 선택한 후에 각 특징점들을 중심으로 한 로컬 패치(local patch)에 대하여 특징 벡터를 추출한다. SIFT는 특징점 주변의 영상패치를 소정 개수, 예를 들면 4x4 블록으로 나누고, 각 블록에 속한 픽셀들의 기울기(gradient) 방향과 크기에 대한 히스토램을 구한 후 이 히스토드램 bin 값들을 일렬로 연결하여 특징 벡터를 생성할 수 있다. SIFT는 특징점 주변의 로컬한 기울기 분포 특성 즉, 밝기 변화의 방향 및 밝기 변화의 급격한 정도를 표현하며, 대상의 크기변화, 형태변화, 방향(회전)변화에 강인하면서도 구분력이 뛰어난 특징을 갖는다.
컬러 히스토그램은 각 프레임의 영상 안에서 필셀들에 대한 명암 값의 분포를 나타내도록 하는 특징 벡터를 생성할 수 있으며, 텍스처 추출은 각 프레임의 영상에서 소정 텍츠처, 예를 들면 밝기를 나타내도록 하는 특징 벡터를 생성할 수 있다.
기계학습은 인공지능(AI)의 한 분야로서, 다층구조 형태의 신경망 즉, 뉴럴 네트워크(neural network)를 기반으로 다량의 데이터로부터 모델(model)을 구축하기 위해 사용된다. 본 발명 실시예에 따른 전자장치(100)에서는, 비디오특징 추출부(503)가 반복적인 트레이닝(training)을 통해 구성된 모델을 통해 각 프레임의 영상으로부터 특징 벡터를 생성하도록 구현될 수 있다.
일 실시예에서, 비디오특징 추출부(503)는 ImageNet dataset에 기반하여 프리-트레인된(pre-trained) 특징들로 구성된 모델에 기초하여 기계학습을 수행한다.
프로세서(170)는 비디오컨텐츠의 설명(transcript)으로부터 텍스트특징을 추출한다(S603).
도 8은 본 발명 일 실시예에 따른 전자장치에서 텍스트특징을 추출하는 구성의 동작을 설명하는 도면이다.
도 8에 도시된 바와 같이, 텍스트특징 추출부(504)는 입력된 비디오 설명정보(video transcript)가 클리닝(clean)되도록 하는 텍스트 프로세스(801)를 수행하고, 클리닝처리된 텍스트에 대하여 텍스트추출 프로세스(802)를 수행하여 텍스트특징을 나타내는 특징 벡터(t)를 생성한다.
클리닝처리는 설명정보를 구성하는 텍스트에 대해 일반적인 단어인 스톱워드(stop word)를 제거(removal)하거나, 또는 단어에 스태밍(stemming, 어간추출)을 적용하는 것을 포함한다.
상기한 특징 벡터를 생성하도록 하는 텍스트추출 프로세스(702)는 Bow(Bag of words), TF-IDF(Term frequency-inverse document frequency) 특징 추출(feature extraction), 워드 임베딩 모델(word-embedding models) 또는 신경망 모델에 기초한 기계학습(machine learning based models like neural network) 중 적어도 하나를 포함할 수 있다. 일 실시예에서 워드 임베딩 모델은 신경망 언어 모델링 접근법 중 하나인 word2vec에 따른 모델을 활용하여 구축될 수 있다.
프로세서(170)는 단계 S601과 S603에서 추출된 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정한다(S605).
도 9는 본 발명 일 실시예에 따른 전자장치에서 복수의 프레임에 대해 프레임 중요도를 결정하는 구성의 동작을 설명하는 도면이고, 도 10은 프레임 중요도를 결정하는 신경망 구조의 일례를 도시한 것이다.
도 9에 도시된 바와 같이, 프레임 중요도 결정부(505)는 비디오특징 추출부(503)로부터 비디오특징을 입력받고, 텍스트특징 추출부(504)로부터 텍스트특징을 입력받는다. 프레임 중요도 결정부(505)는 입력된 비디오특징 및 텍스트특징에 대한 기계학습(901)을 수행하여 학습된 모델(learned model)로부터 프레임 중요도 예측 프로세스(902)를 수행함으로써, 각 프레임에 대한 중요도(importance score)(S1, S2, ... , Sn)를 결정한다.
일 실시예에서, 프레임 중요도 결정부(505)는 비디오특징 및 텍스트특징으로부터 각 프레임에 중요도를 할당(assign)하기 위해 사용되는 모델을 생성(create)하며, 중요도는 각 프레임을 서머리에 포함시킬지 여부(whether to keep a frame in summary or not)를 나타낸다. 여기서, 프레임 중요도 결정부(505)는 입력으로서의 비디오특징과 텍스트특징 및 실측정보(ground-truth)로서의 프레임중요도에 기초하여 프레임 중요도 예측 모델을 트레이닝하기 위한 기계학습 시스템을 포함할 수 있다.
프레임 중요도 결정부(505)에서는, 비디오 및 텍스트특징의 처리방법, 파라미터의 수 및 유형(number and type of parameters), 내부 접속(internal connections), 출력데이터의 생성방법 등에 따라, 프레임 중요도 예측(predicting frame importance score)을 위한 모델 구성(model configuration)이 선택된다(chosen). 모델 구성은 텍스트특징에 더하여 비디오의 연속성(sequential nature)을 분석 가능하도록 선택된다.
도 10을 참조하면, 일 실시예에서 프레임 중요도 예측을 위한 모델은 완전 연결된 복수의 레이어(fully connected layers)를 포함하는 시계열분석(time-series analysis)을 위한 회기 신경망(Recurrent Neural Networks)으로 구성될 수 있다. 여기서, 시계열분석은 비디오시퀀스(video sequence)에 따른다.
회기 신경망은, 도 10에 도시된 바와 같이, 입력 레이어(1001, 1002), 중간 레이어(903) 및 출력 레이어(1004)를 포함한다. 여기서, 중간 레이어는 입력받은 벡터를 변형(transform)시키는 일련의 히든 레이어(hidden layer)로 구성될 수 있다. 각 히든 레이어는 뉴런들로 이루어진다.
본 발명 일 실시예의 전자장치(100)에서, 프레임 중요도 결정부(505)를 구성하는 회기신경망 구조는, 히든 레이어로서, 도 10과 같이, 포워드(forward) 장단기 메모리(LSTM, Long-Short term Memory) 레이어와, 백워드(backward) 장단기 메모리 레이어와, 공유된(shared) 다층 퍼셉트론(MLP, Multilayer Perceptron) 레이어를 포함하는 것을 일례로 한다.
일 실시예에서, 프레임 중요도 결정부(505)는 모델 구성을 위해, 모델링 시스템 평가 결과(modelling system evaluation results)에 기초한 모델 구성 선택 및 조정(model configuration selection and adjustment) 과정을 수행할 수 있다.
모델 파라미터(model parameter)는 랜덤(random) 또는 비랜덤(non-random) 데이터로 초기화된다. 모델 에러(model error)는 프레임의 예측 중요도(frame importance prediction scores)와 실측된 중요도(ground-truth importance score)를 비교하여(comparing) 연산된다(calculated).
스톱 조건(stop condition)은 모델 에러 및 다른 평가지표(other evolution metrics)에 기초하여 체크된다(checked). 스톱 조건에 부합되지 않으면, 트레이닝은 계속되고, 그렇지 않으면 최종 모델(final model)이 추가 사용(further use)을 위해 저장된다(saved).
프로세서(170)는 단계 S605에서 결정된 중요도에 기초하여, 비디오컨텐츠의 복수의 프레임 중에서 키프레임을 선택한다(S607).
도 11은 본 발명 일 실시예에 따른 전자장치에서 키프레임을 선택하는 구성의 동작을 설명하는 도면이다.
도 11에 도시된 바와 같이, 키프레임 선택부(506)는 추출된 각 프레임의 비디오특징(f1, f2, ... , fn)과, 텍스트특징(t)과, 각 프레임에 대한 중요도(s1, s2, ..., sn)를 입력으로서 수신한다. 여기서, 키프레임 선택부(506)에 수신되는 입력 중 각 프레임의 비디오특징(frame-level video features)과 텍스트특징은 옵션이 된다(optional). 즉, 키프레임 선택부(506)는 프레임 중요도 결정부(505)로부터 각 프레임의 중요도를 수신하도록 구현될 수 있다.
키프레임 선택부(506)는 키프레임 선택 모델링(key-frame selection modeling)(1001)을 수행하여, 선택된 프레임의 리스트로 이루어진 비디오 서머리가 생성(producing)되도록 제어한다. 여기서, 키프레임 선택부(506)는 프레임 중요도와, 옵션으로서 입력 가능한 비디오 및 텍스트 특징에 기초하여 비디오 서머리를 생성하기 위한 베스트 키프레임들(best key-frames)을 선택할 수 있다.
일 실시예에서, 키프레임 선택부(506)는 예를 들면, 높은 프레임 중요도를 갖는 소정 개수의 프레임을 선택(selecting n-frames with highest frame importance scores)하는 방식에 기초한 간단한 휴리스틱(simple heuristic) 시스템으로 구현될 수 있다.
다른 실시예에서, 키프레임 선택부(506)는 DPP(Determinantal Point process)와 같은 확률적(stochastic) 방식에 기초한 시스템으로 구현될 수 있다. DPP는 불필요한 프레임을 제거(eliminating redundant frames)하고 다양한 프레임을 포함(including diverse frames)시킴으로써, 정확도(precision)와 재현율(recall) 간의 적절한 균형을 보장할 수 있다(ensures a fine balance).
또 다른 실시예에서, 키프레임 선택부(506)는 획득된 키프레임 선택의 결과를 최적화하기 위해, DPP와 같은 방식 외에(on top of) 기계학습을 더 채용(employ)할 수 있다. 여기서, 키프레임 선택을 위한 기계학습 모델은 프레임 중요도 결정부(505)에서 설명한 프레임 중요도 결정을 위한 모델 구성과 유사한 방식에 의해 구성될 수 있다.
프로세서(170)는 단계 S607에서 선택된 키프레임으로 이루어진 비디오서머리를 생성한다(S609). 여기서, 생성된 비디오 서머리는 비디오컨텐츠의 비디오특징뿐 아니라, 텍스트특징까지 고려하여 선택된 키 프레임으로 구성되므로, 비디오 설명과 의미론적으로 일관성을 갖는다(semantically coherent).
그리고, 단계 S609에서 생성된 비디오서머리가 사용자에게 제공된다(S611). 전자장치(100)가 TV나 스마트폰와 같이 디스플레이부(130)를 포함하는 경우, 비디오서머리는 전자장치(100)에 의해 사용자에게 제공될 수 있다. 전자장치(100)가 셋탑박스나 서버와 같이 디스플레이장치와 유선 또는 무선으로 연결된 장치인 경우, 비디오서머리는 디스플레이장치로 전달되어 사용자에게 제공될 수 있다.
상기와 같은 본 발명의 다양한 실시예에 따르면, 본 발명 전자장치(100)에서는, 프로세서(170)가 비디오컨텐츠의 복수의 프레임 각각으로부터 비디오특징을 추출하고, 비디오컨텐츠의 설명으로부터 텍스트특징을 추출하며, 각 프레임별 비디오특징 및 텍스트특징에 기초하여 각 프레임에 대한 중요도를 결정하고, 결정된 중요도에 따라 선택된 키프레임으로 구성된 비디오서머리를 생성하도록 제어된다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.

Claims (15)

  1. 전자장치에 있어서,
    인스트럭션이 저장되는 메모리와;
    상기 인스트럭션을 실행하여,
    비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고,
    상기 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여,
    상기 비디오특징 및 상기 텍스트특징에 기초하여 상기 각 프레임의 중요도를 결정하고,
    상기 결정된 중요도에 기초하여 상기 복수의 프레임 중에서 상기 비디오컨텐츠의 키프레임을 선택하는 프로세서를 포함하는 전자장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 비디오특징 및 상기 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하고, 상기 생성된 학습된 모델을 이용하여 상기 각 프레임의 중요도를 예측하는 전자장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    시계열분석을 위한 회기통신망을 이용하여 상기 기계학습을 수행하는 전자장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 상기 비디오특징을 추출하는 전자장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 상기 텍스트특징을 추출하는 전자장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하고,
    상기 클리닝된 텍스트로부터 상기 텍스트특징을 추출하는 전자장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 선택된 키프레임으로 구성된 비디오서머리를 생성하는 전자장치.
  8. 제7항에 있어서,
    상기 생성된 비디오서머리를 표시하는 디스플레이부를 더 포함하는 전자장치.
  9. 전자장치의 제어방법에 있어서,
    비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하는 단계;
    상기 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하는 단계;
    상기 비디오특징 및 상기 텍스트특징에 기초하여 상기 각 프레임의 중요도를 결정하는 단계; 및
    상기 결정된 중요도에 기초하여 상기 복수의 프레임 중에서 상기 비디오컨텐츠의 키프레임을 선택하는 단계를 포함하는 전자장치의 제어방법.
  10. 제9항에 있어서,
    상기 중요도를 결정하는 단계는,
    상기 비디오특징 및 상기 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하는 단계; 및
    상기 생성된 학습된 모델을 이용하여 상기 각 프레임의 중요도를 예측하는 단계를 포함하는 전자장치의 제어방법.
  11. 제10항에 있어서,
    상기 모델을 생성하는 단계는,
    시계열분석을 위한 회기통신망을 이용하여 상기 기계학습을 수행하는 단계를 포함하는 전자장치의 제어방법.
  12. 제9항에 있어서,
    상기 비디오특징을 추출하는 단계는,
    HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 상기 비디오특징을 추출하는 전자장치의 제어방법.
  13. 제9항에 있어서,
    상기 텍스트특징을 추출하는 단계는,
    Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 상기 텍스트특징을 추출하는 전자장치의 제어방법.
  14. 제13항에 있어서,
    상기 텍스트특징을 추출하는 단계는,
    상기 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하는 단계; 및
    상기 클리닝된 텍스트로부터 상기 텍스트특징을 추출하는 단계를 더 포함하는 전자장치의 제어방법.
  15. 제9항에 있어서,
    상기 선택된 키프레임으로 구성된 비디오서머리를 생성하는 단계; 및
    상기 생성된 비디오서머리를 표시하는 단계를 더 포함하는 전자장치의 제어방법.
PCT/KR2018/016373 2018-01-08 2018-12-20 전자장치, 그 제어방법 및 컴퓨터프로그램제품 WO2019135523A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/960,666 US11386665B2 (en) 2018-01-08 2018-12-20 Display apparatus, server, system and information-providing methods thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0002452 2018-01-08
KR1020180002452A KR102542788B1 (ko) 2018-01-08 2018-01-08 전자장치, 그 제어방법 및 컴퓨터프로그램제품

Publications (1)

Publication Number Publication Date
WO2019135523A1 true WO2019135523A1 (ko) 2019-07-11

Family

ID=67143897

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/016373 WO2019135523A1 (ko) 2018-01-08 2018-12-20 전자장치, 그 제어방법 및 컴퓨터프로그램제품

Country Status (3)

Country Link
US (1) US11386665B2 (ko)
KR (1) KR102542788B1 (ko)
WO (1) WO2019135523A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160191A (zh) * 2019-12-23 2020-05-15 腾讯科技(深圳)有限公司 一种视频关键帧提取方法、装置及存储介质
CN113837310A (zh) * 2021-09-30 2021-12-24 四川新网银行股份有限公司 多尺度融合的证件翻拍识别方法、装置、电子设备和介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565639B1 (en) 2019-05-02 2020-02-18 Capital One Services, Llc Techniques to facilitate online commerce by leveraging user activity
CN112445921A (zh) * 2019-08-28 2021-03-05 华为技术有限公司 摘要生成方法和装置
US11288513B1 (en) * 2019-11-06 2022-03-29 Amazon Technologies, Inc. Predictive image analysis
US10796355B1 (en) * 2019-12-27 2020-10-06 Capital One Services, Llc Personalized car recommendations based on customer web traffic
US11170389B2 (en) * 2020-02-20 2021-11-09 Adobe Inc. Enhancing media content effectiveness using feedback between evaluation and content editing
US11768945B2 (en) * 2020-04-07 2023-09-26 Allstate Insurance Company Machine learning system for determining a security vulnerability in computer software
CN114612826A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN115086472B (zh) * 2022-06-13 2023-04-18 广东天讯达资讯科技股份有限公司 基于关键帧信息的手机app管理系统
KR20240046364A (ko) * 2022-09-30 2024-04-09 주식회사 Lg 경영개발원 사용자 경험 기반 콘텐츠 생성 플랫폼 서버 및 플랫폼 제공 방법
CN116208772A (zh) * 2023-05-05 2023-06-02 浪潮电子信息产业股份有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072111A (ko) * 2001-03-09 2002-09-14 엘지전자 주식회사 비디오 텍스트 합성 키 프레임 추출방법
JP2005309427A (ja) * 2000-12-12 2005-11-04 Nec Corp オーディオビジュアルサマリ作成方法および装置
KR20090009106A (ko) * 2007-07-19 2009-01-22 소니 가부시끼 가이샤 영상 녹화 재생장치 및 영상 녹화 재생 방법
CN105049875A (zh) * 2015-07-24 2015-11-11 上海上大海润信息系统有限公司 一种基于混合特征与突变检测的精确关键帧提取方法
US20170091558A1 (en) * 2015-07-07 2017-03-30 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956026A (en) 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
US6549643B1 (en) 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
US7203620B2 (en) 2001-07-03 2007-04-10 Sharp Laboratories Of America, Inc. Summarization of video content
JP4378988B2 (ja) * 2003-04-01 2009-12-09 株式会社日立製作所 コンテンツ生成システム
US7599554B2 (en) 2003-04-14 2009-10-06 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
DE602004003497T2 (de) 2003-06-30 2007-09-13 Koninklijke Philips Electronics N.V. System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen
US7751592B1 (en) * 2006-01-13 2010-07-06 Google Inc. Scoring items
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
US11164105B2 (en) * 2017-11-13 2021-11-02 International Business Machines Corporation Intelligent recommendations implemented by modelling user profile through deep learning of multimodal user data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309427A (ja) * 2000-12-12 2005-11-04 Nec Corp オーディオビジュアルサマリ作成方法および装置
KR20020072111A (ko) * 2001-03-09 2002-09-14 엘지전자 주식회사 비디오 텍스트 합성 키 프레임 추출방법
KR20090009106A (ko) * 2007-07-19 2009-01-22 소니 가부시끼 가이샤 영상 녹화 재생장치 및 영상 녹화 재생 방법
US20170091558A1 (en) * 2015-07-07 2017-03-30 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
CN105049875A (zh) * 2015-07-24 2015-11-11 上海上大海润信息系统有限公司 一种基于混合特征与突变检测的精确关键帧提取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160191A (zh) * 2019-12-23 2020-05-15 腾讯科技(深圳)有限公司 一种视频关键帧提取方法、装置及存储介质
CN111160191B (zh) * 2019-12-23 2024-05-14 腾讯科技(深圳)有限公司 一种视频关键帧提取方法、装置及存储介质
CN113837310A (zh) * 2021-09-30 2021-12-24 四川新网银行股份有限公司 多尺度融合的证件翻拍识别方法、装置、电子设备和介质

Also Published As

Publication number Publication date
US11386665B2 (en) 2022-07-12
KR20190093722A (ko) 2019-08-12
US20200334468A1 (en) 2020-10-22
KR102542788B1 (ko) 2023-06-14

Similar Documents

Publication Publication Date Title
WO2019135523A1 (ko) 전자장치, 그 제어방법 및 컴퓨터프로그램제품
US9208227B2 (en) Electronic apparatus, reproduction control system, reproduction control method, and program therefor
CN111026914B (zh) 视频摘要模型的训练方法、视频摘要生成方法及装置
US9100701B2 (en) Enhanced video systems and methods
US11514150B2 (en) Video display device and operating method therefor
US11934953B2 (en) Image detection apparatus and operation method thereof
CN112000820A (zh) 一种媒资推荐方法及显示设备
EP3414680A1 (en) Text digest generation for searching multiple video streams
TW202025090A (zh) 顯示器裝置以及控制其的方法
US20220301312A1 (en) Electronic apparatus for identifying content based on an object included in the content and control method thereof
CN114095793A (zh) 一种视频播放方法、装置、计算机设备及存储介质
CN112785669B (zh) 一种虚拟形象合成方法、装置、设备及存储介质
CN113468351A (zh) 一种智能设备及图像处理方法
WO2019107796A1 (ko) 서버 및 그 제어방법
KR102650138B1 (ko) 디스플레이장치, 그 제어방법 및 기록매체
US20220358701A1 (en) Emotion-Based Sign Language Enhancement of Content
CN112261321B (zh) 字幕处理方法、装置及电子设备
US11893980B2 (en) Electronic apparatus and control method thereof
KR102494591B1 (ko) 전자 장치, 그 제어 방법 및 전자 시스템
CN115086710B (zh) 视频播放方法、终端设备、装置、系统及存储介质
WO2023085723A1 (ko) 전자장치 및 그 제어방법
WO2021107371A1 (ko) 전자장치 및 그 제어방법
WO2022235416A1 (en) Emotion-based sign language enhancement of content
CN114442989A (zh) 自然语言的解析方法及装置
CN114464169A (zh) 对话状态追踪方法、智能设备及服务设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18898956

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18898956

Country of ref document: EP

Kind code of ref document: A1