WO2019088592A1 - 전자 장치 및 이의 제어방법 - Google Patents

전자 장치 및 이의 제어방법 Download PDF

Info

Publication number
WO2019088592A1
WO2019088592A1 PCT/KR2018/012827 KR2018012827W WO2019088592A1 WO 2019088592 A1 WO2019088592 A1 WO 2019088592A1 KR 2018012827 W KR2018012827 W KR 2018012827W WO 2019088592 A1 WO2019088592 A1 WO 2019088592A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
metadata
frame
processor
electronic device
Prior art date
Application number
PCT/KR2018/012827
Other languages
English (en)
French (fr)
Inventor
안영춘
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US16/754,962 priority Critical patent/US11367283B2/en
Publication of WO2019088592A1 publication Critical patent/WO2019088592A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • the present invention relates to an electronic device and a control method thereof, and more particularly to an electronic device for sensing a frame having a predetermined object in a received image and extracting information therefrom and a control method thereof.
  • An artificial intelligence system is a computer system that implements human-level intelligence. It is a system in which the machine learns, judges, and uses more and improves the recognition rate.
  • Artificial intelligence technology consists of element technologies that simulate functions such as recognition and judgment of human brain by using machine learning (deep learning) algorithm and machine learning algorithm which use algorithm to classify / learn input data by themselves.
  • Elemental technologies include, for example, linguistic understanding techniques for recognizing human language / characters, visual understanding techniques for recognizing objects as human vision, reasoning / predicting techniques for reasoning and predicting information for reasoning and prediction of information, A knowledge representation technique for processing the robot as knowledge data, an autonomous running of the vehicle, and an operation control technique for controlling the motion of the robot.
  • an electronic device including a communication unit for receiving an image composed of a plurality of frames, a frame detecting unit for detecting a frame having a predetermined object in the received image, A processor for generating metadata using the extracted information, and a memory for storing the generated metadata.
  • the processor may detect an edge region in the frame and determine that the predetermined object is included if the detected edge region is greater than or equal to a predetermined length.
  • the processor may combine information extracted from different frames to generate one metadata.
  • the processor may compare information extracted from different frames to determine that the content has changed if there is no common information.
  • the processor can detect the text included in the frame and extract information.
  • the processor extracts an object image included in the frame and extracts object information on the extracted object image as information.
  • the processor extracts the text itself as information, and if the object included in the frame is an image, the processor extracts the contents of the image as information.
  • the processor may generate metadata including at least one of a business name, time information, and genre information using the extracted information.
  • the processor may detect metadata included in the image, and may compare the detected metadata and the extracted information to modify the detected metadata.
  • the processor can select the preferred content using the stored metadata.
  • a method of controlling an electronic device includes receiving an image composed of a plurality of frames, detecting a frame having a predetermined object in the received image, Extracting the extracted information, generating metadata using the extracted information, and storing the generated metadata.
  • the sensing step may detect an edge region in the frame and determine that the preset object is included if the detected edge region is greater than or equal to a predetermined length.
  • one metadata may be generated by merging information extracted from different frames.
  • control method of the electronic device may further include comparing information extracted from different frames to determine that the content has been changed if there is no common information.
  • the extracting step may extract the information by sensing the text included in the frame.
  • the extracting may extract an object image included in the frame and extract object information on the extracted object image as information.
  • the step of extracting the information may extract the text itself as information if the object included in the frame is text, and extract the contents of the image as information if the object included in the frame is an image.
  • the generating step may generate metadata including at least one of a business name, time information, and genre information using the extracted information.
  • control method of the electronic device may further include detecting metadata included in the image, and the generating may include comparing the detected metadata with the extracted information to modify the detected metadata have.
  • control method of the electronic device may further include the step of selecting the preferred content using the stored metadata.
  • FIG. 1 is a block diagram schematically showing a configuration of an electronic device according to an embodiment of the present disclosure
  • Fig. 2 is a block diagram showing the detailed configuration of an electronic device according to an embodiment of the present disclosure
  • FIGS. 3 to 5 are views for explaining preset objects included in an image
  • FIGS. 6 to 7 are diagrams for explaining the metadata generation operation according to the embodiment of the present disclosure.
  • FIG. 9 is a diagram for explaining a preferred content recommendation method according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram for explaining a learning model according to an embodiment of the present disclosure.
  • FIG. 11 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • ordinal numbers such as “first ", " second ", etc. may be used for distinguishing between elements. These ordinals are used to distinguish between identical or similar components, and the use of such ordinal numbers should not be construed as limiting the meaning of the term. For example, the components associated with such an ordinal number should not be limited in their order of use or placement order by their numbers. If necessary, each ordinal number may be used interchangeably.
  • modules such as "module, “ unit, “ or “ part, “ and the like are terms used to refer to components that perform at least one function or operation, Or may be implemented as a combination of hardware and software. It should also be understood that a plurality of “ modules “, “ units “, “ parts “, etc. may be integrated into at least one module or chip, . ≪ / RTI >
  • a part when a part is connected to another part, this includes not only a direct connection but also an indirect connection through another medium. Also, the meaning that a part includes an element does not exclude other elements, but may include other elements, unless specifically stated otherwise.
  • FIG. 1 is a block diagram briefly showing a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may include a communication unit 110, a processor 120, and a memory 140.
  • the electronic device 100 may be implemented by various devices such as a computer, a TV, a set-top box, a smart phone, and a smart watch.
  • a computer a TV, a set-top box, a smart phone, and a smart watch.
  • the communication unit 110 is configured to perform communication with various types of external devices according to various types of communication methods.
  • the communication unit 110 can receive an image composed of a plurality of frames from the outside.
  • Processor 120 controls the overall operation of electronic device 100.
  • the processor 120 may detect a frame having a predetermined object in the received image.
  • the predetermined object may mean a specific object that can grasp the information of the content.
  • the content may be, for example, a broadcast channel, broadcast content (e.g., VoD, streaming content (video, music, etc.)) or may be a plurality of applications, functions, That is, the history information may include, for example, information on when a particular broadcast channel was viewed, how much was viewed, information on when a particular application was used, how much it was used, It may include information on whether it has been played back or how long it has been played back. Various historical information may be stored in the memory 110 depending on what content the electronic device 100 provides.
  • broadcast content e.g., VoD, streaming content (video, music, etc.)
  • the history information may include, for example, information on when a particular broadcast channel was viewed, how much was viewed, information on when a particular application was used, how much it was used, It may include information on whether it has been played back or how long it has been played back.
  • Various historical information may be stored in the memory 110 depending on what content the electronic device 100 provides.
  • the predetermined object may mean a specific object including information on the above-mentioned contents.
  • the electronic device 100 may store predetermined objects and the storage methods may vary. For example, preset objects can be saved as user settings and automatically saved through AI learning. A detailed description of artificial intelligence learning will be described later with reference to FIG.
  • the processor 120 may store the preset object in advance.
  • the processor 120 may automatically store in a memory certain objects that contain meaningful information, preferably through artificial intelligence learning.
  • the predetermined object means an object including meaningful information as described above, and may be an area including text information in general.
  • An area containing text information generally has the implication of conveying information to the user via text. Therefore, the area including the text information is highly likely to include meaningful information, and the processor 120 can store the area including the text information as the predetermined object.
  • An area including text information means an object that can be predicted to contain text even if the contents of the text are not accurately grasped by using OCR technology or the like. For example, if there is a region in which a pixel value having one color information is repeated a certain number of times, the processor 120 may determine such portion as a region including text information. This is merely an example, and can be stored as a pre-set object if the object containing the text can be specified.
  • the processor 120 may detect an edge region in the frame and determine that the detected object is included if the detected edge region is greater than a predetermined length. A detailed description related to the edge area will be described later with reference to Fig.
  • the processor 120 may sense the text included in the frame and extract information.
  • the processor 120 extracts an object image included in the frame and extracts object information on the extracted object image as information. If the object included in the frame is text, the processor 120 extracts the text itself as information, and if the object included in the frame is an image, the processor 120 can extract the contents of the image as information.
  • a specific method of extracting information on images and text will be described later with reference to FIG.
  • the processor 120 may store an object having the same pixel value for a predetermined period of time as a predetermined object.
  • an object having the same pixel value for a certain period of time may be information indicating a broadcaster. A detailed explanation is given later in Fig.
  • the processor 120 may store an object in which an image and a character are combined as a predetermined object.
  • an object in which an image and a character are combined may correspond to a trademark. Therefore, if the processor 120 stores a specific object representing a trademark as a predetermined object, the possibility of extracting information on the trademark may be high.
  • the processor 120 may compare information extracted from different frames and determine that the content has changed if there is no common information. The concrete operation will be described later in Fig.
  • the processor 120 may extract the information from the detected frame and generate the metadata using the extracted information.
  • the processor 120 may generate metadata including at least one of a business name, time information, and genre information using the extracted information.
  • the processor 120 may combine information extracted from different frames to generate one piece of metadata. A detailed description of the metadata generation will be described later with reference to FIG.
  • the processor 120 may receive the metadata included in the image.
  • the metadata included in the image may include information about the content such as EPG (Electronic Program Guide) metadata.
  • the processor 120 can recognize the start time and the end time of the image received by the electronic device 100 using the information extracted from the received image. Specifically, the processor 120 may detect a frame having a predetermined object in an image received by the electronic device and extract information from the frame. By comparing the extracted information, it is possible to confirm whether or not the content has been changed.
  • the processor 120 may receive It can be determined that the video image is finished.
  • the processor 120 can determine the accurate end time of the image currently received by the electronic device 100, unlike the information included in the general EPG meta data.
  • the processor 120 recognizes an image received by the electronic device 100 as advertisement contents, and a content name is displayed in the upper right corner.
  • the processor 120 can determine that the content starts soon when the content name displayed on the upper right of the advertisement image received by the electronic device 100 disappears.
  • the processor 120 can grasp that the content name displayed on the upper right corner of the advertisement image disappears and new content starts at the end of the advertisement image in order to grasp the accurate start time.
  • the processor 120 can accurately grasp the start time and the end time of the content received in the electronic device 100 by using various objects or extracted information that can grasp the start and end of the content in addition to the above embodiments.
  • the processor 120 can accurately grasp the start time and the end time of the specific content and compare the start time and the end time of the specific content with information included in the previously received EPG meta data. If the time information included in the received EPG meta data is incorrect, the processor 120 may modify the time information of the existing EPG meta data based on the time information obtained by the processor 120.
  • time information is compared and modified, but other information can be compared and modified.
  • the processor 120 may compare the information contained in the EPG metadata. In particular, the processor 120 may compare the information contained in the received metadata with the information extracted from the received image. The processor 120 compares the information included in the received metadata with information extracted from the received image, and if there is a difference, the processor 120 can modify the received metadata based on the information extracted from the received image.
  • the processor 120 may extract information on the content included in the EPG meta data, and the EPG meta data may include time information and content information.
  • the processor 120 may predict contents of contents to be provided to the electronic device 100 based on the information included in the EPG metadata.
  • the information included in the EPG metadata may differ from the content received in the actual electronic device 100.
  • EPG metadata includes information that a news program starts on channel 11 at 8 pm on Saturday.
  • the broadcaster responsible for channel 11 is supposed to start the news program on channel 11 at 8 pm on Saturday, but suppose to extend the news program to 9 pm to broadcast the live sporting event on Saturday at 8 pm.
  • the processor 120 may compare the information included in the EPG metadata with the content provided by the actual electronic device 100. [ Specifically, the processor 120 may detect a frame having a preset object in the received image, extract information from the sensed frame, and compare the information with information of the EPG metadata corresponding to the received image.
  • the electronic device 100 received information included in the EPG metadata that the news program starts at 8 pm on Saturday.
  • the processor 120 can recognize that there is a difference between the information extracted from the received image and the received EPG metadata.
  • the processor 120 may modify information on existing received EPG metadata. Specifically, the processor 120 can modify the information that the news program starts at 8:00 PM on Saturday to the information that the sports game starts at 8:00 PM.
  • the processor 120 may store the modified EPG metadata in the memory 140.
  • processor 120 may select the preferred content using the stored metadata. A detailed explanation will be given later in Fig.
  • the electronic device 100 can extract information only from a frame including a predetermined object among the received frames, and it is possible to reduce the burden on the processor 120 and the memory 140 Can be reduced.
  • the processor 120 may store accurate information in real time through an operation of modifying metadata transmitted from the outside.
  • the memory 140 may store various data, programs, or applications for driving and controlling the remote control apparatus 100 under the control of the control unit. Specifically, the memory 140 may store text information or image information extracted from the frame. The stored text information or image information can be used for metadata generation. Or may be used for comparison with metadata received from outside.
  • the memory 140 may store metadata generated by the processor 120.
  • the memory 140 may store information on preferred contents to be recommended to the user.
  • the processor 120 may provide the user with preferred content, in which case the electronic device 100 may utilize the information about the preferred content stored in the memory 140.
  • the electronic device 100 determines whether or not a predetermined object includes a frame.
  • the determination operation may be implemented in an external server .
  • the operation of extracting text and images in a specific frame may also be performed in an external server.
  • an operation requiring analysis after receiving an image may be implemented by a server. Also, some operations may be performed in the electronic device 100, and some operations may be performed in the server, by separating necessary operations between the electronic device 100 and the server.
  • FIG. 2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure in detail.
  • the electronic device 100 includes a communication unit 110, a processor 120, an output unit 130, a memory 140, a tuner 150, a microphone 160, a port unit 170, And an input unit 180.
  • the electronic device 100 may receive speech through a built-in microphone or a microphone built in an external device and perform voice recognition directly or may receive voice recognition results by transmitting voice input to an external server performing voice recognition .
  • an artificial intelligence system for recognizing speech may be provided.
  • An artificial intelligence system is a computer system that implements human-level intelligence. It is a system in which the machine learns, judges, and uses more and improves the recognition rate.
  • the input speech can be recognized through the linguistic understanding technique which recognizes the human language / character.
  • Linguistic understanding is a technology for recognizing, applying, and processing human language / characters, including natural language processing, machine translation, dialogue system, query response, speech recognition / synthesis, and the like.
  • the external device can perform voice recognition processing on the input voice to provide the voice recognition result to the electronic device 100.
  • the electronic device 100 can be controlled based on the speech recognition result. For example, if the speech recognition result includes " recommend a channel ", information on the selected preferred channel by selecting a preferred channel may be provided through the output unit 130. [ In this case, it may be a specific program or a specific content instead of a channel.
  • the communication unit 110 is configured to perform communication with various types of external devices according to various types of communication methods.
  • the communication unit 110 may receive advertisement information related to content provided by an electronic device from an external server.
  • the communication unit 110 may be connected to an external device through a local area network (LAN) or an Internet network, and may be connected to a wireless communication (e.g., Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, , Wi-Fi Direct, GSM, UMTS, LTE, WiBRO, etc.) to the external device.
  • the communication unit 110 may include various communication chips such as a Wi-Fi chip, a Bluetooth chip, an NFC chip, and a wireless communication chip.
  • the Wi-Fi chip, the Bluetooth chip and the NFC chip communicate by WiFi, Bluetooth and NFC, respectively.
  • the wireless communication chip refers to a chip that performs communication according to various communication standards such as IEEE, ZigBee, 3G (3rd Generation), 3rd Generation Partnership Project (3GPP), LTE (Long Term Evolution)
  • the communication unit 110 may include a light receiving unit capable of receiving a control signal (e.g., an IR pulse) from an external device. It is possible to receive the user command inputted from the external device through the communication unit 110 and to transmit the information about the recommended service selected through the communication unit 110 to the external user terminal, 200 can transmit and receive data.
  • a control signal e.g., an IR pulse
  • the processor 120 includes a RAM 121, a ROM 122, a CPU 123, a GPU 124, and a bus 125.
  • the RAM 121, the ROM 122, the CPU 123, the GPU 124, and the like may be connected to each other via a bus 125.
  • the processor 120 may be implemented as a SoC (System On Chip).
  • the GPU 124 of the processor 120 may analyze the image and the CPU 123 may control the overall operation.
  • the CPU 123 accesses the memory 140 and performs booting using the O / S stored in the memory 140. [ And performs various operations using various programs, contents, data stored in the memory 140, and the like. CPU 123 may perform the operations of processor 120 described with respect to FIG.
  • the GPU 124 may generate a screen including various objects such as an icon, an image, a text, and the like.
  • the GPU configuration may be configured in a separate configuration such as an image processing unit, or may be implemented in a configuration such as SoC combined with a CPU in the processor 120.
  • the ROM 122 stores a command set for booting the system and the like.
  • the CPU 123 copies the O / S stored in the memory 140 to the RAM 121 according to the instruction stored in the ROM 122, executes the O / .
  • the CPU 123 copies various application programs stored in the memory 140 to the RAM 121, executes the application program copied to the RAM 121, and performs various operations.
  • the processor 120 may perform various operations using modules stored in the memory 140.
  • the output unit 130 may include a display 131 for outputting an image and a speaker 132 for outputting audio.
  • the display 131 may display an image so that the user can view the preferred content provided by the processor 120.
  • UI elements can be displayed to the user while displaying images.
  • the UI element may be a phrase requesting the user to make a selection, and may be a menu displaying a plurality of preferred contents.
  • the UI element is not limited to any particular content but may be an interface that can be recognized separately from the content.
  • the display 131 may be implemented as a liquid crystal display (LCD), a plasma display panel (PDP), an organic light emitting diode (OLED), or the like.
  • LCD liquid crystal display
  • PDP plasma display panel
  • OLED organic light emitting diode
  • the speaker 132 is configured to output audio.
  • the speaker 132 is a sound device for converting an electric signal into a vibration of a diaphragm to generate a small-sized wave in air to copy sound waves, and can output voice data.
  • the memory 140 may be implemented as a non-volatile memory, a volatile memory, a flash memory, a hard disk drive (HDD), or a solid state drive (SSD).
  • the memory may be implemented as an external storage medium such as a micro SD card, a USB memory, or a Web server via a network as well as a storage medium in an electronic device.
  • the tuner 150 may receive video, audio, and data in a frequency band corresponding to the channel number corresponding to the user input.
  • the tuner 150 can receive broadcast signals from various sources such as terrestrial broadcast, cable broadcast, or satellite broadcast.
  • the tuner 150 may receive broadcast signals from sources such as analog broadcasts or digital broadcasts from various sources.
  • the tuner 150 may be a separate device (e.g., a set-top box) having an all-in-one with the electronic device 100 or having a tuner unit electrically connected to the electronic device 100, a top box, and a tuner connected to the port unit 170).
  • a separate device e.g., a set-top box having an all-in-one with the electronic device 100 or having a tuner unit electrically connected to the electronic device 100, a top box, and a tuner connected to the port unit 170).
  • the tuner 150 tunes only a frequency of a channel to be received by the electronic device 100 among many radio wave components through amplification, mixing, and resonance of a broadcast signal received by wire or wireless tuning.
  • the broadcast signal may include video, audio, and additional data (e.g., an EPG (Electronic Program Guide).
  • the microphone 160 can directly receive a voice or receive voice recognition results by transmitting voice input to an external server that performs voice recognition.
  • the microphone 160 can receive sound signals as well as human voice. It is possible to receive the sound signal transmitted from the microphone 160 and receive the sound signal in the audible region as well as the sound signal in the non-audible region.
  • the microphone 160 may convert information about the received sound into an electrical signal.
  • the microphone 160 includes a microphone for collecting user's voice in analog form, an amplifier circuit for amplifying the collected user's voice, an A / D conversion circuit for sampling the amplified user's voice and converting the sampled user's voice into a digital signal, A filter circuit that removes the input signal from the input signal, and the like.
  • the port unit 170 is configured to be connected to an external device.
  • the port unit 170 may include at least one of a High-Definition Multimedia Interface port 171, a component input jack 172, and a USB port 173.
  • the port unit 170 may include at least one of ports of RGB, DVI, HDMI, DP, Thunderbolt, and the like. It is possible to transmit information on the recommended service to the external device through the port unit 170.
  • the operation input unit 180 may receive a user's selection of the preferred content displayed on the display 131.
  • the operation input unit 180 may be realized by a device such as a button, a touch pad, a mouse, and a keyboard, or a touch screen capable of performing the above-described display function and operation input function.
  • the electronic device 100 can perform an operation of receiving an image using the above-described configuration, detecting a frame having a predetermined object in the image, and extracting information contained in the detected frame. 3 to 5, a method of detecting a predetermined object will be described.
  • FIGS. 3 to 5 are views for explaining predetermined objects included in an image.
  • FIG. 3 is a view for explaining predetermined objects included in an image according to an embodiment of the present disclosure.
  • a specific frame in the received image may include information such as a business name 310, an edge region 320, an image 330, and texts 340 and 350 for providing contents.
  • the business name 310 providing the content may generally be in the same position and the pixel values may remain the same.
  • the electronic device 100 can judge the portion that is detected in the long time frame with the same pixel value at the same position as the business name 310 that provides the contents.
  • the edge region 320 may be the boundary of an area in which the pixel value indicates a discrete contour line.
  • the discontinuities in the video have step discontinuities and line discontinuities.
  • the step discontinuity point is where the brightness of the image suddenly changes, and the corresponding outline is referred to as a step edge.
  • the line discontinuity point is a place where the brightness of the image suddenly changes but returns after a short time.
  • the corresponding operation is called the line edge.
  • the edge region 320 may be meant to include both the step edge and the line edge described above.
  • the electronic device 100 may utilize Automatic Content Recognition (ACR) techniques to grasp the image 330 and text 340 and 350.
  • ACR Automatic Content Recognition
  • the automatic content recognition function is a technology that enables users to automatically find and purchase product prices and makers when content that interests them is displayed while using smart TV, smart phone, smart PC, or game machine.
  • users can search contents such as video, audio and so on, and it is possible to search based on the pre-input data included in the video.
  • optical character reader can be used to extract text information.
  • OCR optical character reader
  • the OCR function refers to the function of converting information in the form of letters, numbers or other symbols into an encoded electrical signal suitable for a digital computer.
  • visual understanding is a technology for recognizing and processing objects as human vision, and may include object recognition, object tracking, human recognition, scene understanding, spatial understanding, image enhancement, and the like.
  • Neural Net based object detection technology can be utilized to extract image information.
  • Object detection technology can be a computer vision technology to accurately find the object type and its bounding box.
  • the candidate region for the detection target is generally found, and the type and position of the object for the candidate region are predicted through the learned model. For this process, object class and object bounding box information are needed.
  • Deep learning based object detection technology can be widely used for recognition of faces, pedestrians and vehicles on the roads.
  • the electronic device 100 can extract information on an image of a received image using the object detection technique.
  • the electronic device 100 may extract an image 330 to extract image content such as umbrella, excitation, rain, and the like.
  • text such as " BREAKING NEWS " 340 and " POWER POWERFUL TYPHOON THREATENS EAST ASIA " 350 can be extracted for the text information.
  • a portion of " Snews " can be extracted as text information.
  • the electronic device 100 may determine that " Snews " is the vendor name 310.
  • the electronic device 100 can determine the portion of the text information that is displayed in the same text for a predetermined period of time based on the business name.
  • the electronic device 100 can determine the name of the business by comparing the name of the business included in the pre-stored data with the extracted information.
  • the electronic device 100 performs an operation of confirming whether or not a predetermined object is included in the frame before extracting the text and image information.
  • the reason why the electronic device 100 determines the predetermined object is that it is efficient to use the memory to extract image and text information for a specific frame rather than all the frames.
  • the predetermined object may be the edge region 320.
  • text may be added to a particular contour, such as a particular edge region 320, to display text information. Accordingly, if the preset object is set as the edge region 320, the information can be extracted only when the edge region 320 is detected in the received image.
  • information may be extracted only for the frame in which the edge region 320 exists, and frames other than the edge region 320 may not be extracted.
  • a pre-set object may be set to an additional object other than the edge area 320.
  • there may be a plurality of predetermined objects.
  • the predetermined object is expressed as the edge region 320 but the edge region 320 has a predetermined length or more can be further defined, which means that the edge region 320 is formed in a straight line .
  • FIG. 4 is a view for explaining a preset object according to another embodiment of the present disclosure.
  • an image in which an edge region is not detected in a frame may be received. If the preset object is set as an edge area only, the electronic device 100 may not extract any information from the 401 frame.
  • contours expressing edge regions can be displayed in an intersecting manner.
  • the electronic device 100 may set an object displayed with intersections of contour lines as a predetermined object.
  • the electronic device 100 may extract information for that 402 frame.
  • the electronic device 100 can extract information about a frame in which a predetermined object is detected.
  • the electronic device 100 may extract information about a frame in which a predetermined object is detected and store the information in a memory.
  • the electronic device 100 can generate specific metadata by analyzing the information stored in the memory. If the electronic device 100 extracts information for each frame in which the preset object is sensed and generates metadata each time the information is extracted, a large amount of metadata is generated and burdens the processor 120 and the memory 140 .
  • the electronic device 100 can generate metadata by merging the extracted information.
  • a detailed description will be given in Fig. 5 and Fig.
  • 5 and 6 are diagrams for explaining the metadata generation operation according to the embodiment of the present disclosure.
  • 5 is a view for explaining frames 20 seconds after a specific frame of a received image.
  • the electronic device 100 may first determine whether there is an object preset in the received frame. 5 and 6. It is assumed that the predetermined object is set as an edge region. Referring to FIG. 5, since there are edge areas in both the 501 and 502 frames, it can be determined that the preset object is included.
  • the electronic device 100 may extract information for 501 frames.
  • the electronic device 100 can extract image information about the umbrella, the woman, and the rain, and text information about "BREAKING NEWS”, "POWER POWERFUL TYPHOON THREATENS EAST ASIA", and "SNEWS”.
  • the electronic device 100 may extract information for 502 frames 20 seconds after the 501 frame is received.
  • the electronic device 100 can extract image information for umbrella, woman, and rain and text information for "BREAKING NEWS”, "POWER POWERFUL TYPHOON KILL 30 PEOPLE", and "Snews”.
  • FIG. 6 is a diagram for explaining metadata using information extracted from 501 frames and 502 frames shown in FIG.
  • a table 601 may be metadata generated using information extracted from 501 frames.
  • the metadata may include information on the content name 610, the genre 620, the detailed genre 630, the viewing time 640, the text 650, and the image 660.
  • the electronic device 100 may analyze the extracted information to determine the genre 620 and the detail genre 630. [ For example, the electronic device 100 may extract text information " Snews " and use the word news to determine the genre as news.
  • the table 602 may be metadata generated using the information extracted from the 502 frame. Compared with the 601 table, 602 tables can be extracted with different parts of the text. Therefore, the text "KILL 30 PEOPLE" can be newly extracted in the table 602. Also, since 501 frames are received and 502 frames are received after 20 seconds, the time information 640 may be different.
  • Tables 601 and 602 describe the operation of generating individual metadata using information extracted from each frame.
  • the table 603 may be a piece of metadata including information extracted for a predetermined time. Specifically, the table 603 can combine information extracted from 501 frames and 502 frames. For example, "Snews”, “BREAKING NEWS”, and "POWER POWERFUL TYPHOON" may overlap in 501 and 502 frames, respectively.
  • the electronic device 100 can recognize the overlapping text as one piece of information and generate the metadata.
  • the electronic device 100 may synthesize the extracted information for a preset time to generate one piece of metadata. Specifically, the electronic device 100 extracts information on a frame for a preset time without generating metadata directly using information extracted from a specific frame, and generates metadata based on the extracted information.
  • the electronic device 100 can suspend the generation of metadata when extracting information on a frame and extracting information common to the extracted information. If there is no common portion of the newly extracted information with the extracted information, the electronic device 100 can generate the metadata using the extracted information. A specific example will be described together with FIG.
  • FIG. 7 is a view for explaining an operation of the electronic device when the type of the received image is changed.
  • the predetermined object in the electronic device 100 is an area including an edge area and text information.
  • the electronic device 100 can extract information included in 701 frames.
  • the electronic device 100 can suspend the generation of the metadata because no new text is detected.
  • the electronic device 100 may extract information for 703 frames with areas containing text information.
  • the information extracted from the 703 frame may be the text " ABCD ", " Golf is life “, and images “ golf “, “ male “, &
  • the electronic device 100 can compare the extracted information with the newly extracted information to determine whether there is the same information. Since the information extracted from the 701 frame and the information extracted from the 703 frame do not coincide with each other, the electronic device 100 can determine that the type of the received image (or the content) has been changed.
  • the electronic device 100 may generate metadata for the extracted information if it is determined that the type of the received image (or the content) has been changed. For example, if the information extracted for 701 frames is stored in the memory and the information extracted through 703 frames is stored in the memory, the electronic device 100 uses the information about 701 frames to store the metadata 702 Can be generated.
  • the electronic device 100 can store information extracted from 703 frames in the same manner in a memory.
  • the metadata 704 can be generated using the information extracted from the 703 frame.
  • the reason for generating metadata only for a preset period or a specific condition without generating metadata for each frame is to reduce the burden on the processor 120 and the memory 140. [ The ability of the processor 120 and the memory 140 to physically be limited and the performance of the processor 120 and the memory 140 may be degraded if unnecessary information is processed.
  • FIG. 8 is a view for explaining an image in which a specific object is displayed at a fixed position.
  • 802 frames are received 20 seconds after 801 frames are received, and 803 frames and 804 frames are received at 20 second intervals.
  • 801 to 804 frames the text in the " Snews " part can be displayed fixedly. Also, the edge regions 820 and 830 may be repeatedly displayed and then disappear.
  • the predetermined object is an area including an edge area and text.
  • the electronic device 100 can determine the area including the text as a predetermined object and extract the information. In this case, the electronic device 100 can extract the text information 810 " Snews ".
  • the electronic device 100 can determine the region 810 and the edge region 820 including the text as predetermined objects and extract the information. In this case, the electronic device 100 can extract text information about " BREAKING NEWS ", " POWER POWERFUL TYPHOON THREATENS EAST ASIA ", and "
  • the electronic device 100 may continue to extract textual information 810 for " Snews " while the contents of that image are being served.
  • the electronic device 100 can extract information about all the received frames. This can be a significant burden on the processor 120 and the memory 140 and can be an operation in which unnecessary information is continuously extracted.
  • the electronic device 100 may not determine that the specific object to be displayed is a predetermined object. For example, if the electronic device 100 has already extracted text information for an area containing text, then the electronic device 100 may not judge the same area as a predetermined object.
  • the electronic device 100 extracts the text information 810 for the " Snews " in the 801 frame, the same content can be estimated if the pixel value for that part is also detected in 802 frames. The electronic device 100 will not judge an area including " Snews " for the 802 frame as a predetermined object.
  • the electronic device 100 can extract information about the 802 frame. However, since the area including " Snews " is not determined as a predetermined object for the 803 frame, the electronic device 100 may not extract any information.
  • the electronic device 100 does not judge the area including " Snews " for 804 frames as a predetermined object, but can judge the edge area 830 as a predetermined object. Thus, the electronic device 100 can extract information for 804 frames.
  • the edge areas 820 and 830 may not be fixedly included in the frame, so that the edge areas 820 and 830 may continue to be predetermined objects.
  • the text information can be continuously changed, so that the edge information can be set not to be excluded from the object set by the user.
  • FIG. 9 is a diagram for explaining a preferred content recommendation method according to an embodiment of the present disclosure.
  • the electronic device 100 can recommend the user's favorite content when the type of the received image (or the content) is changed.
  • inference prediction is a technique for judging and logically inferring and predicting information, including knowledge / probability based reasoning, optimization prediction, preference base planning, recommendation, and the like.
  • the electronic device 100 may display the UI 910, 920 displaying information on new content, Can be provided.
  • the UI can recommend a particular program 910 and recommend a channel 920 that is currently being broadcast.
  • the predetermined object can be stored by artificial intelligence learning.
  • FIG. 10 is a diagram for explaining a learning model according to another embodiment of the present disclosure.
  • the predefined object settings of the present disclosure may be performed by a machine learning based recognition system, which in this disclosure is a classification system by a series of machine learning algorithms based on neural networks, A learning-based recognition system will be described as an example.
  • the deep learning based recognition system may include at least one classifier, and the classifier may correspond to one or more processors 120.
  • the processor 120 may be implemented as an array of a plurality of logic gates and may be implemented as a combination of a general purpose microprocessor and a memory 130 in which a program executable by the microprocessor is stored.
  • the classifier may be implemented as a Neural Network based classifier, a Support Vector Machine (SVM), an Adaboost Classifier, a Bayesian Classifier, and a Perceptron Classifier.
  • SVM Support Vector Machine
  • Adaboost Classifier Adaboost Classifier
  • Bayesian Classifier a Bayesian Classifier
  • Perceptron Classifier a Perceptron Classifier.
  • the classifier of the present disclosure describes an embodiment implemented with a convolutional neural network (CNN) based classifier.
  • CNN convolutional neural network
  • a neural network-based classifier is a computational model designed to mimic the computational capability of biological systems using a large number of artificial neurons connected by a connection line.
  • the classifier of the present disclosure is not limited thereto, but may be implemented by various classifiers described above.
  • a typical neural network includes an input layer 1010, a hidden layer 1020 and an output layer 1030, and the hidden layer 1020 can be composed of one or more layers as needed have.
  • a Bak propagation algorithm can be used as an algorithm for learning the neural network.
  • the classifier can learn the neural network such that output data for the input learning data is output to the output layer 1030 of the neural network when certain data is input to the input layer 1010 of the neural network.
  • the pattern of the feature information can be classified into any one of the classes using the neural network, and the classification result can be output.
  • the input layer 1010 may be various objects of the received frame.
  • the nodes 1011, 1012, and 1013 of the input layer 1010 may be an object representing an area including text, an object representing an edge area, an object displaying static text or an image, or the like.
  • the above-described example of the input layer 1010 is for the purpose of illustration only and is not meant to be limiting. That is, the number of nodes of the input layer 1010 may be changed according to the setting of the user.
  • the nodes 1011, 1012, and 1013 of the input layer 1010 are shown as three, but this can be changed.
  • the various objects included in the received frame may correspond to the input layer 1010.
  • the output layer 1030 may be whether or not text or image information has been extracted.
  • the electronic device 100 can confirm whether or not an object included in the frame includes text or image information through various objects included in the received image.
  • the electronic device 100 can learn based on whether an object included in a frame includes text or image information.
  • the electronic device 100 since the electronic device 100 must determine whether it contains text or image information based on the objects contained in the frame, the electronic device 100 may be able to determine whether the electronic device 100 is in a series of machine learning algorithms based on neural networks A deep learning based recognition system can be used.
  • the hidden layer 1020 is represented by two levels, but it may be a classification system consisting of only one level of hidden layer. Also, the number of nodes included in the hidden layer 1020 can be changed.
  • the electronic device 100 can automatically store a meaningful object as a preset object through learning by artificial intelligence technology, without requiring a user to set a predetermined object in advance.
  • FIG. 11 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • the control method of the electronic device 100 can receive an image composed of a plurality of frames (S1110).
  • control method of the electronic device 100 may detect a frame having a predetermined object in the received image (S1120). In this case, if an edge region is detected in the frame and the detected edge region is greater than or equal to a predetermined length, it can be determined that the predetermined object is included.
  • control method of the electronic device 100 may extract information from the sensed frame (S1130).
  • the control method of the electronic device 100 can extract the information by sensing the text included in the frame.
  • the electronic device 100 may extract an object image included in the frame and extract object information on the extracted object image as information.
  • the object included in the frame is text
  • the text itself is extracted as information
  • the object included in the frame is an image
  • the meaning of the image can be extracted as information.
  • information extracted from different frames is compared and there is no common information, it can be determined that the content has been changed.
  • control method of the electronic device 100 may generate the metadata using the extracted information (S1140). Meanwhile, the control method of the electronic device 100 may generate one metadata by merging information extracted from different frames. Here, the control method of the electronic device 100 may generate metadata including at least one of business information, time information, and genre information using the extracted information.
  • control method of the electronic device 100 may store the generated metadata (S1150).
  • control method of the electronic device 100 may further include detecting metadata included in the image, and the generating step may compare the detected metadata and the extracted information to modify the detected metadata.
  • control method of the electronic device 100 can select the preferred content using the stored metadata.
  • control method of the electronic device 100 can extract information only from a frame including a predetermined object among the received frames, It is possible to reduce the burden on the user.
  • control method of the electronic device 100 can store accurate information in real time through an operation of modifying metadata transmitted from the outside.
  • the various embodiments described above can be implemented in a recording medium that can be read by a computer or a similar device using software, hardware, or a combination thereof.
  • the embodiments described in this disclosure may be implemented as application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays ), A processor, microcontrollers, microprocessors, and an electrical unit for carrying out other functions.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • field programmable gate arrays programmable gate arrays
  • embodiments described herein may be implemented by processor 120 itself.
  • embodiments such as the procedures and functions described herein may be implemented with separate software modules. Each of the software modules may perform one or more of the functions and operations described herein.
  • the computer instructions for performing the processing operations in the electronic device 100 according to the various embodiments of the present disclosure described above may be stored in a non-transitory computer-readable medium .
  • the computer instructions stored in the non-volatile computer-readable medium cause the particular device to perform processing operations in the electronic device 100 according to the various embodiments described above when executed by a processor of the particular device.
  • Non-transitory computer readable media is a medium that stores data for a short period of time, such as a register, cache, memory, etc., but semi-permanently stores data and is readable by the device.
  • Specific examples of non-transitory computer readable media include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 복수의 프레임으로 구성된 영상을 수신하는 통신부, 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 감지된 프레임에서 정보를 추출하여 추출된 정보를 이용하여 메타 데이터를 생성하는 프로세서 및 생성된 메타 데이터를 저장하는 메모리를 포함한다.

Description

전자 장치 및 이의 제어방법
본 개시는 전자 장치 및 이의 제어방법에 관한 것으로, 더욱 상세하게는 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여 정보를 추출하는 전자 장치 및 이의 제어 방법에 관한 발명이다.
인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다.
인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.
요소기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.
이러한 인공지능 기술의 활용의 일 예로서, 영상에 포함되어 있는 텍스트 정보나 이미지 정보를 추출하는 다양한 방법이 존재하였다. 하지만, 영상은 많은 프레임으로 이루어져 있어 모든 프레임에서 추출되는 데이터를 저장하는 것은 메모리의 용량에 한계가 있어 어려운 문제점이 있었으며, 클라우드 서버를 이용하여도 불필요한 정보까지 저장되는 문제점이 있었다.
또한, 모든 프레임에서 추출되는 데이터를 분석하는 것은 시간적으로 오래 걸리며 불필요한 정보까지 저장됨으로 인해 분석의 정확도를 떨어뜨리는 문제점이 있었다.
본 개시는 상술한 문제를 개선하기 위해 고안된 것으로, 본 개시의 목적은 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여 정보를 추출하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 실시예에 따른 전자 장치는 복수의 프레임으로 구성된 영상을 수신하는 통신부, 상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 상기 감지된 프레임에서 정보를 추출하여 상기 추출된 정보를 이용하여 메타 데이터를 생성하는 프로세서 및 상기 생성된 메타 데이터를 저장하는 메모리를 포함한다.
여기서, 상기 프로세서는 상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다.
또한, 상기 프로세서는 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다.
또한, 상기 프로세서는, 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단할 수 있다.
여기서, 상기 프로세서는 상기 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다.
상기 프로세서는 상기 프레임에 포함된 객체 이미지를 추출하고, 상기 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다.
여기서 상기 프로세서는, 상기 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 상기 프레임에 포함된 객체가 이미지이면 상기 이미지가 의미하는 내용을 정보로 추출할 수 있다.
한편, 상기 프로세서는 상기 추출된 정보를 이용하여 업체 이름, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다.
또한, 상기 프로세서는 상기 영상에 포함된 메타 데이터를 검출하고, 상기 검출된 메타 데이터 및 상기 추출된 정보를 비교하여 상기 검출된 메타 데이터를 수정할 수 있다.
이 경우, 상기 프로세서는 상기 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정할 수 있다.
한편, 본 개시의 일 실시예에 따른 전자 장치의 제어 방법은 복수의 프레임으로 구성된 영상을 수신하는 단계, 상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하는 단계, 상기 감지된 프레임에서 정보를 추출하는 단계, 상기 추출된 정보를 이용하여 메타 데이터를 생성하는 단계 및 상기 생성된 메타 데이터를 저장하는 하는 단계를 포함할 수 있다.
이경우, 상기 감지하는 단계는 상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다.
한편, 상기 메타 데이터를 생성하는 단계는 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다.
여기서, 전자 장치의 제어 방법은 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단하는 단계를 더 포함할 수 있다.
또한, 상기 추출하는 단계는 상기 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다.
또한, 상기 추출하는 단계는 상기 프레임에 포함된 객체 이미지를 추출하고, 상기 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다.
또한, 상기 정보를 추출하는 단계는 상기 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 상기 프레임에 포함된 객체가 이미지이면 상기 이미지가 의미하는 내용을 정보로 추출할 수 있다.
한편, 상기 생성하는 단계는 상기 추출된 정보를 이용하여 업체 이름, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다.
한편, 전자 장치의 제어 방법은 상기 영상에 포함된 메타 데이터를 검출하는 단계를 더 포함하고, 상기 생성하는 단계는 상기 검출된 메타 데이터 및 상기 추출된 정보를 비교하여 상기 검출된 메타 데이터를 수정할 수 있다.
또한, 전자 장치의 제어 방법은 상기 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정하는 단계를 더 포함할 수 있다.
도 1은 본 개시의 실시예에 따른 전자 장치의 구성을 간략히 도시한 블록도,
도 2는 본 개시의 실시예에 따른 전자 장치의 구성을 자세히 도시한 블록도,
도 3 내지 도 5는 영상에 포함된 기설정된 오브젝트를 설명하기 위한 도면,
도 6 내지 도 7은 본 개시의 실시예에 따른 메타데이터 생성 동작을 설명하기 위한 도면,
도 8은 특정 오브젝트가 고정된 위치에 표시되는 영상을 설명하기 위한 도면,
도 9는 본 개시의 실시예에 따른 선호 컨텐츠 추천 방법을 설명하기 위한 도면,
도 10은 본 개시의 일 실시예에 따른 학습 모델을 설명하기 위한 도면, 그리고
도 11은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 실시예들은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 실시예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
또한, 본 개시의 실시예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 개시의 실시예에 따른 전자 장치의 구성을 간략히 도시한 블록도이다.
도 1을 참고하면, 전자 장치(100)는 통신부(110), 프로세서(120) 및 메모리(140)로 구성될 수 있다.
여기서, 전자 장치(100)는 컴퓨터, TV, 셋톱박스, 스마트폰, 스마트 워치 등 다양한 기기로 구현될 수 있다. 예를 들어 아날로그 TV, 디지털 TV, 3D-TV, 스마트 TV, LED TV, OLED TV, 플라즈마 TV, 모니터, 고정 곡률(curvature)인 화면을 가지는 커브드(curved) TV, 고정 곡률인 화면을 가지는 플렉시블(flexible) TV, 고정 곡률인 화면을 가지는 벤디드(bended) TV, 및/또는 수신되는 사용자 입력에 의해 현재 화면의 곡률을 변경 가능한 곡률 가변형 TV 등으로 구현될 수 있으나, 이에 한정되지 않는다.
통신부(110)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 통신부(110)는 외부로부터 복수의 프레임으로 구성된 영상을 수신할 수 있다.
프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지할 수 있다.
기설정된 오브젝트란 컨텐츠의 정보를 파악할 수 있는 특정 객체를 의미할 수 있다.
여기서 컨텐츠란 예컨대, 방송 채널, 방송 컨텐츠(예컨대, VoD, 스트리밍 컨텐츠(영상, 음악 등))일 수 있고, 또는 전자 장치(100)에서 실행될 수 있는 복수의 애플리케이션, 기능 등일 수 있다. 즉, 이력 정보는 예컨대, 특정 방송 채널이 언제 시청 되었는지, 얼마나 시청 되었는지에 대한 정보를 포함할 수 있고, 특정 애플리케이션이 언제 이용되었는지, 얼마나 이용되었는지에 대한 정보를 포함할 수 있고, 특정 컨텐츠가 언제 재생되었는지, 얼마나 재생되었는지에 대한 정보를 포함할 수 있다. 상술한 예시에 한정되는 것은 아니고, 전자 장치(100)가 어떤 컨텐츠를 제공하느냐에 따라 메모리(110)에는 다양한 이력 정보가 저장될 수 있다.
기설정된 오브젝트는 상술한 컨텐츠에 대한 정보를 포함하는 특정 오브젝트를 의미할 수 있다. 전자 장치(100)는 기설정된 오브젝트를 저장할 수 있고 저장 방법은 다양할 수 있다. 예를 들어, 기설정된 오브젝트는 사용자의 설정으로 저장될 수 있고 인공지능 학습을 통해 자동으로 저장될 수 있다. 인공지능 학습에 대한 구체적인 설명은 도 10에서 후술한다.
한편, 프로세서(120)는 기설정된 오브젝트를 미리 저장할 수 있다. 프로세서(120)는 바람직하게는 인공지능 학습을 통해 의미있는 정보를 포함하는 특정 객체를 메모리에 자동으로 저장할 수 있다.
본 개시의 또 다른 실시예에 따른 기설정된 오브젝트에 대하여 다양한 실험 데이터를 분석하고 일부분에 대하여 설명한다. 기설정된 오브젝트는 앞서 설명한 바 와 같이 의미있는 정보를 포함하는 객체를 의미하고 일반적으로 텍스트 정보를 포함하는 영역일 수 있다. 텍스트 정보를 포함하는 영역은 일반적으로 텍스트를 통해 사용자에게 정보를 전달하려는 의미가 있다. 따라서 텍스트 정보를 포함하는 영역은 의미있는 정보를 포함할 가능성이 높고 프로세서(120)는 텍스트 정보를 포함하는 영역을 기설정된 오브젝트로 저장할 수 있다.
텍스트 정보를 포함하는 영역이란 OCR 기술 등을 이용하여 텍스트의 내용을 정확히 파악하지 않아도 텍스트가 포함되어 있을 것으로 예측할 수 있는 객체를 의미한다. 예를 들어, 하나의 색정보를 갖는 픽셀값이 일정 부분 반복되어 나타나는 영역이 있다면 프로세서(120)는 이러한 부분을 텍스트 정보를 포함하는 영역으로 판단할 수 있다. 이 것을 예시적인 것에 불과하며 텍스트가 포함되어 있는 객체를 특정할 수 있다면 기설정된 오브젝트로 저장될 수 있다.
한편, 프로세서(120)는 프레임에서 에지 영역을 검출하고 검출된 에지 영역이 기설정된 길이 이상이면 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다. 에지 영역에 관련한 구체적인 설명은 도 3을 참고하여 후술한다.
여기서, 프로세서(120)는 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다. 프로세서(120)는 프레임에 포함된 객체 이미지를 추출하고, 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다. 여기서 프로세서(120)는, 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 프레임에 포함된 객체가 이미지이면 이미지가 의미하는 내용을 정보로 추출할 수 있다. 이미지 및 텍스트에 대한 정보를 추출하는 구체적인 방법은 도 3에서 후술한다.
또한, 프로세서(120)는 일정 시간동안 동일한 픽셀값을 갖는 오브젝트를 기설정된 오브젝트로 저장할 수 있다. 일반적으로 일정 시간동안 동일한 픽셀값을 갖는 오브젝트는 방송사를 나타내는 정보일 수 있다. 구체적인 설명은 도 8에서 후술하였다.
또한, 프로세서(120)는 이미지와 문자가 결합되어 있는 오브젝트를 기설정된 오브젝트로 저장할 수 있다. 일반적으로 이미지와 문자가 결합되어 있는 오브젝트는 상표에 해당할 수 있다. 따라서 프로세서(120)가 상표를 나타내는 특정 오브젝트를 기설정된 오브젝트로 저장하면 상표에 대한 정보를 추출할 가능성이 높을 수 있다.
또한, 프로세서(120)는, 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단할 수 있다. 구체적인 동작은 도 7에서 후술한다.
한편, 프로세서(120)는 감지된 프레임에서 정보를 추출하여 추출된 정보를 이용하여 메타 데이터를 생성할 수 있다. 이경우, 프로세서(120)는 추출된 정보를 이용하여 업체 이름, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다. 또한, 프로세서(120)는 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다. 메타 데이터 생성에 대한 구체적인 설명은 도 6에서 후술한다.
한편, 프로세서(120)는 영상에 포함된 메타 데이터를 수신할 수 있다. 영상에 포함된 메타 데이터는 EPG(Electronic Program Guide) 메타 데이터와 같이 컨텐츠에 대한 정보를 포함할 수 있다.
프로세서(120)는 수신된 영상에서 추출된 정보를 이용하여 전자 장치(100)에 수신되는 영상의 시작 시간 및 종료 시간을 파악할 수 있다. 구체적으로, 프로세서(120)는 전자 장치에 수신되는 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여 프레임에서 정보를 추출할 수 있다. 추출된 정보를 비교하면, 컨텐츠가 변경되었는지 여부를 확인할 수 있다.
예를 들어, 전자 장치(100)에 수신되는 영상에 "다음 이 시간에"라는 텍스트가 표시되었고 프로세서(120)가 이에 대한 정보를 추출하였다면, 프로세서(120)는 현재 전자 장치(100)에 수신되는 영상이 종료된 것으로 파악할 수 있다. 프로세서(120)는 일반적인 EPG 메타 데이터에 포함된 정보와 달리 현재 전자 장치(100)에서 수신하는 영상의 정확한 종료시간을 파악할 수 있다.
또한, 프로세서(120)가 전자 장치(100)에 수신되는 영상을 광고 컨텐츠로 파악하고 우측 상단에 컨텐츠 이름이 표시된 경우를 가정한다. 프로세서(120)는 전자 장치(100)에 수신되는 광고 영상의 우측 상단에 표시되는 컨텐츠 이름이 사라지면 컨텐츠가 곧 시작되는 것으로 파악할 수 있다. 프로세서(120)는 정확한 시작 시간을 파악하기 위하여 광고 영상의 우측 상단에 표시되는 컨텐츠 이름이 사라지고 광고 영상이 종료되는 시점에 새로운 컨텐츠가 시작되는 것으로 파악할 수 있다.
프로세서(120)는 상기 실시 예들 이외에 컨텐츠의 시작과 끝을 파악할 수 있는 다양한 오브젝트 또는 추출된 정보를 이용하여, 전자 장치(100)에 수신되는 컨텐츠의 시작 시간과 종료시간을 정확하게 파악할 수 있다.
프로세서(120)는 특정 컨텐츠의 시작 시간과 종료시간을 정확하게 파악하여 기존에 수신된 EPG 메타 데이터에 포함된 정보와 비교할 수 있다. 또한, 기존에 수신된 EPG 메타 데이터에 포함된 시간 정보가 틀리면, 프로세서(120)는 프로세서(120)가 파악한 시간 정보를 바탕으로 기존의 EPG 메타 데이터의 시간 정보를 수정할 수 있다.
한편, 상술한 예시에서는 시간 정보를 비교하여 수정하지만 이외의 정보에서도 비교 및 수정이 가능할 수 있다. 프로세서(120)는 EPG 메타 데이터에 포함된 정보를 비교할 수 있다. 구체적으로, 프로세서(120)는 수신된 메타 데이터에 포함된 정보와 수신된 영상에서 추출된 정보를 비교할 수 있다. 프로세서(120)는 수신된 메타 데이터에 포함된 정보가 수신된 영상에서 추출한 정보를 비교하여 차이가 있다면, 프로세서(120)는 수신된 영상에서 추출한 정보를 바탕으로 수신된 메타 데이터를 수정할 수 있다.
예를 들어, 프로세서(120)는 EPG 메타 데이터에 포함되어 있는 컨텐츠에 대한 정보를 추출할 수 있고 EPG 메타 데이터는 시간 정보 및 컨텐츠 정보가 포함되어 있을 수 있다. 프로세서(120)는 EPG 메타 데이터에 포함된 정보를 바탕으로 현재 전자 장치(100)에 제공하는 컨텐츠에 대한 내용을 예측 할 수 있다.
하지만, EPG 메타 데이터에 포함된 정보와 실제 전자 장치(100)에 수신되는 컨텐츠가 다른 경우가 있을 수 있다. 예를 들어, 토요일 오후 8시에 11번 채널에서 뉴스 프로그램이 시작하는 정보가 EPG 메타데이터에 포함되어 있는 경우를 가정한다. 또한, 11번 채널을 담당하는 방송사는 토요일 오후 8시에 11번 채널에서 뉴스 프로그램을 시작하려고 하였지만 토요일 오후 8시에 스포츠 경기를 생중계로 방송하기 위하여 뉴스 프로그램을 오후 9시로 연장하기로 가정한다.
사용자가 토요일 오후 8시에 11번 채널을 시청하는 경우, 사용자는 EPG 메타 데이터에 저장된 정보(뉴스 프로그램)와 다르게 스포츠 경기를 시청하게 된다. 따라서, EPG 메타 데이터에 저장된 정보와 실제 전자 장치에 수신되는 컨텐츠 사이에 오차가 있을 수 있다.
프로세서(120)는 EPG 메타 데이터에 포함된 정보와 실제 전자 장치(100)에서 제공하는 컨텐츠를 비교할 수 있다. 구체적으로, 프로세서(120)는 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 감지된 프레임에서 정보를 추출하여 수신된 영상에 대응되는 EPG 메타 데이터의 정보와 비교할 수 있다.
상술한 예시에서, 토요일 오후 8시에 뉴스 프로그램이 시작된다는 EPG 메타 데이터에 포함된 정보를 전자 장치(100)가 수신하였다고 가정한다. 하지만, 전자 자치(100)에 수신된 실제 영상은 스포츠 경기이므로, 프로세서(120)는 수신된 영상에서 추출된 정보와 수신된 EPG 메타 데이터의 정보와 차이가 있음을 파악할 수 있다. 여기서, 프로세서(120)는 기존의 수신된 EPG 메타 데이터에 대한 정보를 수정할 수 있다. 구체적으로, 프로세서(120)는 기존의 토요일 오후 8시에 뉴스 프로그램이 시작되는 정보를 오후 8시에 스포츠 경기가 시작되는 정보로 수정이 가능하다.
또한, 프로세서(120)는 수정된 EPG 메타 데이터를 메모리(140)에 저장할 수 있다.
상술한 예시에서, EPG 메타 데이터에 포함된 정보(뉴스 프로그램)와 다르게 스포츠 경기를 생중계하는 상황을 가정하였지만, 이는 예시적인 일 실시 예에 불과하며 다양한 이유로 EPG 메타 데이터에 포함된 정보와 다른 영상이 전자 장치(100)에 수신될 수 있다. 예를 들어, EPG 메타 데이터의 오류, 방송사 컨텐츠 긴급 변경, 뉴스 긴급 속보 등 다양한 이유가 될 수 있으며 어느 특정 실시 예에 한정되지 않는다.
또한, 프로세서(120)는 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정할 수 있다. 구체적인 설명은 도 9에서 후술한다.
이상과 같이 본 개시의 일 실시 예에 따른 전자 장치(100)는, 수신된 프레임 중에서 기설정된 오브젝트를 포함하는 프레임에서만 정보를 추출할 수 있는바, 프로세서(120) 및 메모리(140)의 부담을 줄일 수 있다.
그리고, 특정 프레임에 대해서만 정보를 추출하므로 불필요한 정보가 메모리(140)에 저장되지 않으므로 분석에 관한 결과(예를 들어, 메타데이터)의 정확도가 높아질 수 있다.
또한, 프로세서(120)는 외부에서 전송한 메타 데이터를 수정하는 동작을 통해 실시간으로 정확한 정보를 저장할 수 있다.
메모리(140)는 제어 유닛의 제어에 의해 원격 제어 장치(100)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 구체적으로, 메모리(140)는 프레임에서 추출된 텍스트 정보 또는 이미지 정보를 저장할 수 있다. 저장된 텍스트 정보 또는 이미지 정보는 메타 데이터 생성에 이용될 수 있다. 또는 외부에서 수신된 메타 데이터와의 비교에 이용될 수 있다.
또한, 메모리(140)는 프로세서(120)에 의해 생성된 메타 데이터를 저장할 수 있다.
또한, 메모리(140)에 사용자에게 추천할 선호 컨텐츠에 대한 정보를 저장할 수 있다. 특정 이벤트가 있는 경우, 프로세서(120)는 사용자에게 선호 컨텐츠를 제공할 수 있고 이 경우 전자 장치(100)는 메모리(140)에 저장되어 있는 선호 컨텐츠에 대한 정보를 이용할 수 있다.
한편, 도 1을 설명함에 있어서, 전자 장치(100)가 기설정된 오브젝트를 프레임이 포함하는지 여부를 판단하는 것으로 설명하였지만, 구현시에는 상기 판단 동작은 외부 서버에서 수행하는 형태로도 구현될 수 있다. 또한, 기설정된 오브젝트를 판단하는 동작 이외에도 특정 프레임에서 텍스트 및 이미지를 추출하는 동작도 외부 서버에서 수행하는 형태로도 구현될 수 있다.
구체적으로, 영상을 수신한 이후에 분석이 필요한 동작은 서버에서 수행하는 것으로 구현될 수 있다. 또한, 전자 장치(100)와 서버 사이에서 필요한 동작을 구분하여 일부는 전자 장치(100)에서 수행하고 일부는 서버에서 수행하는 형태로도 구현될 수 있다.
한편, 이상에서는 통신부(110), 프로세서(120) 및 메모리(140)를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 2를 참조하여 이하에서 설명한다.
도 2는 본 개시의 실시예에 따른 전자 장치의 구성을 자세히 도시한 블록도이다.
도 2를 참고하면, 전자 장치(100)는 통신부(110), 프로세서(120), 출력부(130), 메모리(140), 튜너(150), 마이크(160), 포트부(170), 조작 입력부(180)를 포함할 수 있다.
전자 장치(100)는 내장 마이크 또는 외부 장치에 내장된 마이크를 통해 음성을 입력 받아 직접 음성 인식을 하거나, 음성 인식을 수행하는 외부의 서버로 입력된 음성을 전달하여 음성 인식 결과를 수신할 수 있다.
전자 장치(100)가 직접 음성 인식을 수행하는 경우, 음성을 인식하기 위한 인공지능 시스템이 구비되어 있을 수 있다. 인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다. 인공 지능 기술 중에서 인간의 언어/문자를 인식하는 언어적 이해 기술을 통해 입력된 음성을 인식할 수 있다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다.
본 개시의 또 다른 실시예에 따르면, 마이크가 내장된 별도의 외부 장치가 존재하고, 외부 장치는 입력된 음성에 대한 음성 인식 처리를 하여 음성 인식 결과를 전자 장치(100)로 제공할 수 있다.
전자 장치(100)는 음성 인식 결과에 기초하여 제어될 수 있다. 예컨대, 음성 인식 결과가 "채널 추천해줘"를 포함하면, 선호 채널을 선정하여 선정된 선호 채널에 대한 정보를 출력부(130)를 통해 제공할 수 있다. 이 경우, 채널 대신에 특정 프로그램 또는 특정 컨텐츠일 수 있다.
통신부(110)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 통신부(110)는 외부 서버로부터 전자 장치에서 제공하는 컨텐츠와 관련된 광고 정보를 수신할 수 있다.
통신부(110)는 근거리 통신망(LAN: Local Area Network) 또는 인터넷 망을 통해 외부 기기에 접속될 수 있고, 무선 통신(예를 들어, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, GPRS, Weightless, Edge Zigbee, ANT+, NFC, IrDA, DECT, WLAN, 블루투스, 와이파이, Wi-Fi Direct, GSM, UMTS, LTE, WiBRO 등의 무선 통신) 방식에 의해서 외부 기기에 접속될 수 있다. 통신부(110)는 와이파이칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다. 또한 통신부(110)는 외부장치로부터 제어신호(예를 들어 IR 펄스)를 수신할 수 있는 광 수신부를 포함할 수 있다. 통신부(110)를 통해 외부 장치에서 입력된 사용자 명령을 수신할 수 있으며, 통신부(110)를 통해 선정된 추천 서비스에 대한 정보를 외부의 사용자 단말로 전송할 수 있으며, 통신부(110)를 통해 서버(200)와 데이터 송수신을 할 수 있다.
프로세서(120)는 RAM(121), ROM(122), CPU(123), GPU(124) 및 버스(125)를 포함한다. RAM(121), ROM(122), CPU(123), GPU(124) 등은 버스(125)를 통해 서로 연결될 수 있다. 프로세서(120)는 SoC(System On Chip)로 구현될 수 있다.
프로세서(120)의 GPU(124)가 영상을 분석하고 CPU(123)는 전체적인 동작을 제어할 수 있다.
CPU(123)는 메모리(140)에 액세스하여, 메모리(140)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 메모리(140)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다. CPU(123)는 도 1과 관련하여 설명한 프로세서(120)의 동작을 수행할 수 있다.
GPU(124)는 디스플레이 장치(100)의 부팅이 완료되면, 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성할 수 있다. 이러한, GPU 구성은 영상 처리부와 같은 별도의 구성으로 구성될 수 있으며, 프로세서(120) 내의 CPU와 결합된 SoC와 같은 구성으로 구현될 수도 있다.
ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, CPU(123)는 ROM(122)에 저장된 명령어에 따라 메모리(140)에 저장된 O/S를 RAM(121)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(123)는 메모리(140)에 저장된 각종 애플리케이션 프로그램을 RAM(121)에 복사하고, RAM(121)에 복사된 애플리케이션 프로그램을 실행시켜 각종 동작을 수행한다. 프로세서(120)는 메모리(140)에 저장된 모듈을 이용하여 다양한 동작을 수행할 수 있다.
출력부(130)는 영상을 출력하기 위한 디스플레이(131), 오디오를 출력하기 위한 스피커(132)를 포함할 수 있다.
디스플레이(131)는 프로세서(120)가 제공하는 선호 컨텐츠를 사용자가 볼 수 있도록 영상을 표시할 수 있다. 또한, 영상을 표시하면서 추가로 사용자에게 UI 요소를 표시할 수 있다. 이 경우, UI 요소는 사용자에게 선택을 요청하는 문구일 수 있고, 복수의 선호 컨텐츠를 표시하는 메뉴일 수 있다. UI 요소는 어느 특정의 내용에 한정되지 않고 컨텐츠와 별도로 인식 가능한 인터페이스일 수 있다.
디스플레이(131)는 LCD(Liquid Crystal Display), PDP(plasma display panel), OLED(organic light emitting diodes) 등으로 구현될 수 있고 터치 스크린으로 구현될 수 있다.
스피커(132)는 오디오를 출력하는 구성이다. 스피커(132)는 전기신호를 진동판의 진동으로 바꾸어 공기에 소밀파를 발생시켜 음파를 복사하는 음향기기이며, 음성 데이터를 출력할 수 있다.
메모리(140)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 한편, 메모리는 전자 장치내의 저장 매체뿐만 아니라, 외부 저장 매체, 예를 들어, micro SD 카드, USB 메모리 또는 네트워크를 통한 웹 서버(Web server) 등으로 구현될 수 있다.
튜너(150)는 사용자 입력에 대응되는 채널 번호에 대응되는 주파수 대역에서 비디오, 오디오 및 데이터를 수신할 수 있다.
튜너(150)는 지상파 방송, 케이블 방송, 또는, 위성 방송 등과 같이 다양한 소스에서부터 방송 신호를 수신할 수 있다. 튜너(150)는 다양한 소스에서부터 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.
튜너(150)는 전자 장치(100)와 일체형(all-in-one)으로 구현되거나 또는 전자 장치(100)와 전기적으로 연결되는 튜너 유닛을 가지는 별개의 장치(예를 들어, 셋톱박스(set-top box), 포트부(170)에 연결되는 튜너)로 구현될 수 있다.
튜너(150)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance) 등을 통하여 많은 전파 성분 중에서 전자 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 비디오(video), 오디오(audio) 및 부가 데이터(예를 들어, EPG(Electronic Program Guide)를 포함할 수 있다.
마이크(160)는 음성을 입력 받아 직접 음성 인식을 하거나, 음성 인식을 수행하는 외부의 서버로 입력된 음성을 전달하여 음성 인식 결과를 수신할 수 있다. 또한, 마이크(160)는 사람의 음성 뿐만 아니라 사운드 신호를 수신할 수 있다. 마이크(160)에서 전송된 사운드 신호를 수신할 수 있고 가청 영역의 사운드 신호 뿐만 아니라 비가청 영역의 사운드 신호를 수신할 수 있다.
마이크(160)는 수신된 소리에 관한 정보를 전기 신호로 변환할 수 있다.
마이크(160)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.
포트부(170)는 외부 장치와 연결되기 위한 구성이다. 포트부(170)는 HDMI 입력 포트(High-Definition Multimedia Interface port, 171), 컴포넌트 입력 잭(172), 및 USB 포트(173) 중 적어도 하나를 포함할 수 있다. 도시한 것 이외에도 포트부(170)는 RGB, DVI, HDMI, DP, 썬더볼트 등의 포트 중 적어도 하나를 포함할 수 있다. 포트부(170)를 통해 외부 장치로 추천 서비스에 대한 정보가 전달되는 것이 가능하다.
조작 입력부(180)는 디스플레이(131)에 표시된 선호 컨텐츠에 대한 사용자의 선택을 입력 받을 수 있다. 조작 입력부(180)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린으로도 구현될 수 있다.
한편, 전자 장치(100)는 상술한 구성을 이용하여 영상을 수신하고 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여, 감지된 프레임 중에 포함된 정보를 추출하는 동작을 수행할 수 있습니다. 도 3 내지 도 5에서는 기설정된 오브젝트를 감지하는 방법에 대하여 설명한다.
도 3 내지 도 5는 영상에 포함된 기설정된 오브젝트를 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시예에 따른 영상에 포함된 기설정된 오브젝트를 설명하기 위한 도면이다.
도 3을 참고하면, 수신된 영상에서 특정 프레임에는 컨텐츠를 제공하는 업체 이름(310), 에지 영역(320), 이미지(330), 텍스트(340,350) 등의 정보를 포함할 수 있다.
컨텐츠를 제공하는 업체 이름(310)은 일반적으로 동일한 위치에 존재할 수 있고 픽셀값도 동일하게 유지될 수 있다. 전자 장치(100)는 동일한 위치에 동일한 픽셀값으로 오랜 시간 프레임에서 검출되는 부분을 컨텐츠를 제공하는 업체 이름(310)으로 판단할 수 있다.
에지 영역(320)은 픽셀값이 불연속하는 윤관선을 의미하는 영역의 경계일 수 있다. 영상에서의 불연속점은 스텝 불연속점과 라인불연속점이 있다. 스텝 불연속점은 영상의 밝기가 갑자기 변하는 곳으로 이에 해당하는 윤곽선을 스텝 에지(step edge)라고 한다. 라인 불연속점은 영상의 밝기가 갑자기 변화하나 조금 지나면 다시 돌아오는 곳으로 이에 해당하는 연산을 라인 에지(line edge)라고 한다. 에지 영역(320)은 상술한 스텝 에지와 라인 에지를 모두 포함하는 의미일 수 있다.
전자 장치(100)는 이미지(330) 및 텍스트(340,350)를 파악하기 위하여 자동 컨텐츠 인식(ACR, Automatic Content Recognition) 기술을 이용할 수 있다.
이를 위하여 자동 컨텐츠 인식(ACR, Automatic Content Recognition)기술을 이용할 수 있다. 자동 컨텐츠 인식 기능이란, 스마트 TV, 스마트폰, 스마트 PC, 게임기 등을 이용하다가 시청자가 관심 있는 콘텐츠가 등장하면 제품의 가격, 제조사 등을 자동으로 찾아주고 구매할 수 있도록 해주는 기술이다. 자동 컨텐츠 인식 기능을 이용하면 사용자가 원하는 영상, 음성 등 콘텐츠를 찾을 수 있으며 동영상 등에 포함된 사전 입력 데이터를 기반으로 검색이 가능하다.
또한, 텍스트 정보를 추출하기 위해선 OCR(optical character reader) 기능을 이용할 수 있다. OCR 기능은 문자, 숫자 또는 다른 기호의 형태가 갖는 정보로부터 디지털 컴퓨터에 알맞는 부호화된 전기신호로 변환하는 기능을 의미한다.
한편, 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함할 수 있다.
한편, 이미지 정보를 추출하기 위해서 Neural Net 기반의 객체탐지 (object detection)기술을 활용할 수 있다.
객체 탐지 기술이란 객체 종류와 그 위치(bounding box)를 정확하게 찾기 위한 컴퓨터 비전(computer vision) 기술일 수 있다. 영상에서 관심 대상을 인식하기 위해 일반적으로 검출 대상에 대한 후보 영역을 찾고 그 후보 영역에 대한 객체의 종류와 위치를 학습된 모델을 통해 예측한다. 이 과정을 위해서 영상 및 영상 내의 객체 종류(class)와 객체 위치(bounding box) 정보가 필요하다. 얼굴, 도로상의 보행자 및 차량 등의 인식에 딥 러닝(deep learning) 기반의 객체 탐지 기술이 많이 이용될 수 있다.
본 전자 장치(100)는 이러한 객체 탐지 기술을 이용하여 수신된 영상의 이미지에 대한 정보를 추출할 수 있다.
도 8을 참조하면, 상술한 기술들을 이용하여 전자 장치(100)는 이미지(330)를 추출하여 우산, 여자, 비 등의 이미지 내용을 추출할 수 있다. 또한 텍스트 정보에 대하여 "BREAKING NEWS"(340)와 "POWER POWERFUL TYPHOON THREATENS EAST ASIA"(350)라는 텍스트를 추출할 수 있다. 또한, "Snews"에 대한 부분을 텍스트 정보로 추출할 수 있다. 전자 장치(100)는 "Snews"가 업체 이름(310)로 판단할 수 있다. 전자 장치(100)는 텍스트 정보 중에서 일정 시간동안 동일한 텍스트로 표시되는 부분을 업체 이름으로 판단할 수 있다.
한편, 도시하지 않았지만 "TM" "R" 등과 같이 상표에 대한 정보를 표시하거나 회사를 나타내는 표시등이 있는 경우에도 업체 이름 등으로 판단할 수 있다.
또한, 전자 장치(100)는 기저장된 데이터에 포함된 업체명과 추출된 정보를 비교하여 업체 이름을 판단할 수 있다.
한편, 전자 장치(100)는 텍스트 및 이미지 정보를 추출하기 전에 해당 프레임에 기설정된 오브젝트가 포함되어 있는지 여부를 확인하는 동작을 수행한다고 설명한 바 있다.
전자 장치(100)가 기설정된 오브젝트를 판단하는 이유는 모든 프레임이 아닌 특정한 프레임에 대하여 이미지 및 텍스트 정보를 추출하는 것이 메모리를 효율적으로 사용하는 것이기 때문이다.
도 3을 참고하면, 기설정된 오브젝트는 에지 영역(320)일 수 있다. 일반적으로 텍스트 정보를 표시하기 위해선 특정한 에지 영역(320)처럼 특정한 윤곽선안에 텍스트를 추가할 수 있다. 따라서 기설정된 오브젝트를 에지 영역(320)으로 설정하면 수신된 영상에서 에지 영역(320)이 검출된 경우에 한해서만 정보를 추출할 수 있다.
구체적으로, 에지 영역(320)이 있는 프레임만 정보를 추출하고 이외의 프레임은 정보를 추출하지 않을 수 있다. 하지만 이는 예시적인 것에 불과하고 기설정된 오브젝트는 에지 영역(320)이외에 다른 추가적인 오브젝트가 설정될 수 있다. 또한, 기설정된 오브젝트는 여러 개일 수 있다.
한편, 지금까지 기설정된 오브젝트가 에지 영역(320)이라고 표현하였지만 에지 영역(320)이 기설정된 길이 이상인 경우를 추가로 한정할 수 있으며, 에지 영역(320)이 일직선으로 형성된 경우를 의미할 수 있다.
도 4는 본 개시의 또 다른 실시예에 따른 기설정된 오브젝트를 설명하기 위한 도면이다.
도 4를 참조하면, 프레임에서 에지 영역이 검출되지 않은 영상이 수신될 수 있다. 기설정된 오브젝트를 에지 영역이라고만 설정했다면, 전자 장치(100)는 401 프레임에서 어느 정보도 추출하지 않을 수 있다.
한편, 402 프레임에서는 새로운 기준의 에지 영역을 설명한다. 일반적으로 에지 영역을 표현하는 윤곽선이 교차하여 표시될 수 있다. 전자 장치(100) 는 윤곽선이 교차하여 표시되는 오브젝트를 기설정된 오브젝트로 설정할 수 있다.
예를 들어, 에지 영역(320)을 나타내는 윤곽선들이 수직으로 교차하는 것이 감지되면, 전자 장치(100)는 해당 402 프레임에 대한 정보를 추출할 수 있다.
한편, 도 4의 402 프레임에서는 에지 영역만이 기설정된 오브젝트로 설정된 경우를 예시하였지만 이외의 다른 오브젝트 종류가 기설정된 오브젝트로 설정될 수 있다.
한편, 전자 장치(100)는 기설정된 오브젝트가 감지된 프레임에 대하여 정보를 추출할 수 있다. 전자 장치(100)는 기설정된 오브젝트가 감지된 프레임에 대하여 정보를 추출하여 메모리에 저장할 수 있다.
한편, 전자 장치(100)는 메모리에 저장된 정보를 분석하여 특정한 메타 데이터를 생성할 수 있다. 여기서 전자 장치(100)가 기설정된 오브젝트가 감지된 프레임마다 정보를 추출하고 정보를 추출할 때마다 메타 데이터를 생성한다면 많은 양의 메타 데이터가 생성되어 프로세서(120) 및 메모리(140)에 부담이 될 수 있다.
따라서 전자 장치(100)는 추출된 정보를 병합하여 메타 데이터를 생성할 수 있다. 상세한 설명을 도 5 및 도 6에서 설명한다.
도 5 및 도 6은 본 개시의 실시예에 따른 메타데이터 생성 동작을 설명하기 위한 도면이다.
도 5는 수신된 영상의 특정 프레임에서 20초 지난 뒤의 프레임을 설명하기 위한 도면이다.
전자 장치(100)는 우선 수신된 프레임에 기설정된 오브젝트가 있는지 여부를 판단할 수 있다. 도 5 및 도 6기설정된 오브젝트는 에지 영역으로 설정한 것을 가정한다. 도 5를 참고하면, 501 및 502 프레임 모두에 에지 영역이 있으므로 기설정된 오브젝트가 포함되어 있다고 판단할 수 있다.
전자 장치(100)는 501 프레임에 대하여 정보를 추출할 수 있다. 501 프레임에 대하여 전자 장치(100)는 우산, 여자, 비에 대한 이미지 정보와 "BREAKING NEWS", "POWER POWERFUL TYPHOON THREATENS EAST ASIA", "Snews"에 대한 텍스트 정보를 추출할 수 있다.
또한, 전자 장치(100)는 501 프레임이 수신된 이후 20초 뒤에 502 프레임에 대하여 정보를 추출할 수 있다. 502 프레임에 대하여 전자 장치(100)는 우산, 여자, 비에 대한 이미지 정보와 "BREAKING NEWS", "POWER POWERFUL TYPHOON KILL 30 PEOPLE", "Snews"에 대한 텍스트 정보를 추출할 수 있다.
501 프레임 및 502 프레임에서 추출된 정보를 이용하여 메타 데이터를 생성하는 동작을 설명한다.
도 6은 도 5에서 도시한 501 프레임 및 502 프레임에서 추출한 정보를 이용하여 메타데이터를 설명하기 위한 도면이다.
도 6을 참조하면, 601 표는 501 프레임에서 추출된 정보를 이용하여 생성된 메타 데이터일 수 있다. 메타 데이터는 컨텐츠 이름(610), 장르(620), 세부장르(630), 시청 시간(640), 텍스트(650), 이미지(660)에 대한 정보를 포함할 수 있다. 전자 장치(100)는 추출된 정보를 분석하여 장르(620) 및 세부 장르(630)를 결정할 수 있다. 예를 들어, 전자 장치(100)는 텍스트 정보인 "Snews"를 추출하였고 news라는 단어를 이용하여 장르를 뉴스로 결정할 수 있다.
또한, 도 6을 참조하면, 602 표는 502 프레임에서 추출된 정보를 이용하여 생성된 메타 데이터일 수 있다. 601 표와 비교하여 602 표는 텍스트 일부분이 다르게 추출될 수 있다. 따라서 602 표에는 "KILL 30 PEOPLE" 라는 텍스트가 새로 추출될 수 있다. 또한 501 프레임이 수신되고 20초 이후에 502 프레임이 수신되는 것이기 때문에 시간 정보(640)가 달라질 수 있다.
한편, 601 표와 602 표는 각각의 프레임에서 추출한 정보를 이용하여 개별적인 메타 데이터를 생성하는 동작을 설명하였다.
하지만, 도 6을 참고하면, 603 표는 일정한 시간동안 추출된 정보를 종합하여 하나의 메타 데이터일 수 있다. 구체적으로, 603 표는 501 프레임과 502 프레임에서 추출된 정보를 종합할 수 있다. 예를 들어, 501 프레임 과 502 프레임에 각각에 "Snews", "BREAKING NEWS", "POWER POWERFUL TYPHOON"가 중복 될 수 있다. 여기서, 전자 장치(100)는 중복되는 텍스트를 하나의 정보로 인식하여 메타 데이터를 생성할 수 있다.
전자 장치(100)는 기설정된 시간동안 추출된 정보를 종합하여 하나의 메타 데이터를 생성할 수 있다. 구체적으로, 전자 장치(100)는 특정 프레임에서 추출된 정보를 이용하여 바로 메타 데이터를 생성하지 않고 기설정된 시간동안 프레임에 대한 정보를 추출하고 추출된 정보를 바탕으로 메타 데이터를 생성할 수 있다.
또한, 전자 장치(100)는 프레임에 대한 정보를 추출하면서 추출된 정보들과 공통되는 정보들이 추출되는 경우 메타 데이터 생성을 보류할 수 있다. 그리고 전자 장치(100)는 새로 추출되는 정보가 기존에 추출된 정보와 공통되는 부분이 하나도 없으면 기존에 추출된 정보를 이용하여 메타 데이터를 생성할 수 있다. 구체적인 예시는 도 7과 함께 설명한다.
도 7은 수신된 영상의 종류가 변경되었을 때 전자 장치가 이를 인식하는 동작을 설명하기 위한 도면이다.
도 7을 설명함에 전자 장치(100)에서는 기설정된 오브젝트는 에지 영역과 텍스트 정보를 포함하는 영역이라고 가정한다. 도 8을 참고하면, 701 프레임은 에지 영역 및 텍스트 정보를 포함하는 영역을 포함하고 있으므로 전자 장치(100)는 701 프레임에 포함된 정보를 추출할 수 있다.
그리고 이러한 701 프레임에 대한 내용에서 새로운 텍스트가 검출되지 않고 20분이 경과하였다고 가정한다. 전자 장치(100)는 새로운 텍스트가 검출되지 않아 메타 데이터의 생성을 보류할 수 있다.
701 프레임이 수신된 이후 20분이 경과하고 새로운 종류의 703 프레임이 수신되었다고 가정한다. 전자 장치(100)는 텍스트 정보를 포함하는 영역이 있는 703 프레임에 대하여 정보를 추출할 수 있다.
703 프레임에서 추출된 정보는 텍스트인 "ABCD", "Golf is life" 및 이미지인 "골프", "남자", "<A><B><C><D>"일 수 있다.
전자 장치(100)는 기존까지 추출된 정보와 새로 추출된 정보를 비교하여 동일한 정보가 있는지 판단할 수 있다. 701 프레임에서 추출된 정보와 703 프레임에서 추출된 정보가 하나도 일치하지 않으므로 전자 장치(100)는 수신된 영상(또는 컨텐츠)의 종류가 변경되었다고 판단할 수 있다.
전자 장치(100)는 수신된 영상(또는 컨텐츠)의 종류가 변경되었다고 판단되면 기존에 추출된 정보에 대한 메타 데이터를 생성할 수 있다. 예를 들어, 701 프레임에 대하여 추출된 정보가 메모리에 저장되어 있다가 703 프레임을 통해 추출된 정보가 메모리에 저장되면 전자 장치(100)는 701 프레임에 대한 정보를 이용하여 메타 데이터(702)를 생성할 수 있다.
또한, 전자 장치(100)는 같은 방식으로 703 프레임에서 추출된 정보를 메모리에 저장할 수 있다. 이후 703 프레임에서 추출된 정보와 다른 정보가 추출되면 703 프레임에서 추출된 정보를 이용하여 메타 데이터(704)를 생성할 수 있다.
프레임마다 메타 데이터를 생성하지 않고 기설정된 기간 또는 특정 조건에서만 메타 데이터를 생성하는 이유는 프로세서(120) 및 메모리(140)에 대한 부담을 줄이기 위함이다. 물리적으로 프로세서(120) 및 메모리(140)에 대한 능력이 한정되어 있고 불필요한 정보를 프로세서(120) 및 메모리(140)가 처리하게 되면 성능이 저하될 가능성이 높을 수 있다.
한편, 프로세서(120) 및 메모리(140)에 대한 부담을 줄이기 위해서 또 다른 실시예를 설명한다.
도 8은 특정 오브젝트가 고정된 위치에 표시되는 영상을 설명하기 위한 도면이다.
도 8을 참조하면 801 프레임이 수신된 이후 20초 이후 802 프레임이 수신되며, 20초 간격으로 803 프레임 및 804 프레임이 수신된다고 가정한다. 801 내지 804프레임을 비교해 보면 "Snews"부분의 텍스트는 고정적으로 표시될 수 있다. 또한, 에지 영역들(820,830)이 반복적으로 표시되었다가 사라질 수 있다.
도 8을 설명할 때 기설정된 오브젝트는 에지 영역과 텍스트를 포함하는 영역이라고 가정한다.
801 프레임이 수신되면 전자 장치(100)는 텍스트를 포함하는 영역을 기설정된 오브젝트로 판단하고 정보를 추출할 수 있다. 이 경우, 전자 장치(100)는 "Snews"라는 텍스트 정보(810)를 추출할 수 있다.
또한, 전자 장치(100)는 802 프레임이 수신되면 텍스트를 포함하는 영역(810) 및 에지 영역(820)을 기설정된 오브젝트로 판단하고 정보를 추출할 수 있다. 이 경우, 전자 장치(100)는 "BREAKING NEWS", "POWER POWERFUL TYPHOON THREATENS EAST ASIA", "Snews"에 대한 텍스트 정보를 추출할 수 있다.
마찬가지로 803 및 804 프레임에서도 전자 장치(100)는 해당 영상의 컨텐츠가 제공되는 동안 계속하여 "Snews"에 대한 텍스트 정보(810)를 추출할 수 있다. 여기서, 기설정된 오브젝트를 텍스트 정보를 포함하는 영역으로 설정하였다고 가정 하였으므로 전자 장치(100)는 수신되는 모든 프레임에 대하여 정보를 추출할 수 있다. 이는 프로세서(120) 및 메모리(140)에 상당한 부담이 될 수 있으며 불필요한 정보가 계속하여 추출되는 동작이 될 수 있다.
따라서, 전자 장치(100)는 고정적으로 표시되는 특정 오브젝트에 대하여는 기설정된 오브젝트로 판단하지 않을 수 있다. 예를 들어, 전자 장치(100)가 텍스트를 포함하는 영역에 대해서 이미 텍스트 정보를 추출 하였다면, 전자 장치(100)는 동일한 영역에 대해서는 기설정된 오브젝트로 판단하지 않을 수 있다.
예를 들어, 전자 장치(100)가 801 프레임에서 "Snews"에 대한 텍스트 정보(810)를 추출하였다면, 해당 부분에 대한 픽셀값이 802 프레임에서도 감지되면 동일한 내용으로 추정할 수 있다. 전자 장치(100)는 802 프레임에 대해서는 "Snews"가 포함된 영역을 기설정된 오브젝트로 판단하지 않을 것이다.
802 프레임에서는 에지 영역(820)이 존재하므로 전자 장치(100)는 802 프레임에 대해서 정보를 추출할 수 있다. 하지만 803 프레임에 대해서는 "Snews"가 포함된 영역을 기설정된 오브젝트로 판단하지 않으므로 전자 장치(100)는 아무런 정보를 추출하지 않을 수 있다.
또한, 전자 장치(100)는 804 프레임에 대해서는 "Snews"가 포함된 영역을 기설정된 오브젝트로 판단하지 않지만 에지 영역(830)을 기설정된 오브젝트로 판단할 수 있다. 따라서 전자 장치(100)는 804 프레임에 대해서는 정보를 추출할 수 있다.
한편, 에지 영역들(820,830)은 "Snews"와 달리 고정적으로 프레임에 포함되지 않아 에지 영역들(820,830)은 계속하여 기설정된 오브젝트일 수 있다.
한편, 일반적으로 에지 영역은 고정적으로 표시된다 하여도 텍스트 정보는 계속 변경될 수 있으므로 사용자의 설정에 의해 기설정된 오브젝트에서 제외되지 않도록 설정할 수 있다.
도 9는 본 개시의 실시예에 따른 선호 컨텐츠 추천 방법을 설명하기 위한 도면이다.
도 9를 참고하면, 전자 장치(100)는 수신되는 영상(또는 컨텐츠)의 종류가 변경되면 사용자에게 선호 컨텐츠를 추천할 수 있다.
한편, 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다.
수신되는 영상(또는 컨텐츠)의 종류가 변경되는 것을 전자 장치(100)가 판단하는 동작에 관해서는 도 7에서 설명하였다.
도 7에서 설명한 방법을 이용하여 전자 장치(100)가 수신된 영상(또는 콘텐츠)이 변경되었음을 감지하면 전자 장치(100)는 전자 장치(100)는 새로운 컨텐츠에 대한 정보를 표시한 UI(910,920)를 제공할 수 있다. UI는 특정 프로그램(910)을 추천할 수 있고, 현재 방영중인 채널(920)을 추천할 수 있다.
한편, 지금까지 기설정된 오브젝트는 사용자가 특정 오브젝트를 기설정된 오브젝트로 저장한 실시예를 설명하였지만 기설정된 오브젝트는 인공지능 학습에 의해 저장될 수 있다.
도 10은 본 개시의 또다른 실시예에 따른 학습 모델을 설명하기 위한 도면이다.
도 10을 참조하면, 본 개시의 기설정된 오브젝트 설정은 머신 러닝 기반의 인식 시스템에 의해 수행될 수 있으며, 본 개시에서는 뉴럴 네트워크(Neural Networks)에 기반한 일련의 기계학습 알고리즘에 의한 분류 시스템으로서, 딥 러닝 기반의 인식 시스템을 예로서 설명한다.
구체적으로, 딥 러닝 기반의 인식 시스템은 적어도 하나의 분류기를 포함할 수 있으며, 분류기는 하나 또는 복수 개의 프로세서(120)에 해당할 수 있다. 프로세서(120)는 다수의 논리 게이트들의 어레이(Array)로 구현될 수 있고, 범용적인 마이크로 프로세서와 이 마이크로 프로세서에서 실행될 수 있는 프로그램이 저장된 메모리(130)의 조합으로 구현될 수도 있다. 분류기는 뉴럴 네트워크(Neural Network) 기반 분류기, SVM(Support Vector Machine), 에이다부스트 분류기(Adaboost Classifier), 베이지안 분류기(Bayesian Classifier) 및, 퍼셉트론 분류기(Perceptron Classifier) 등으로 구현될 수 있다. 이하, 본 개시의 분류기는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN) 기반 분류기로 구현되는 실시예에 대하여 설명한다. 뉴럴 네트워크 기반 분류기는, 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하도록 구현된 연산모델로서, 연결 강도(가중치)를 갖는 연결선을 통해 인간의 인지작용이나 학습과정을 수행하게 된다. 그러나, 본 개시의 분류기가 이에 한정되는 것은 아니며, 상술한 다양한 분류기로 구현될 수 있음은 물론이다.
일반적인 뉴럴 네트워크는 입력층(1010)(input layer), 은닉층(1020)(hidden layer) 및 출력층(1030)(output layer)을 포함하며, 은닉층(1020)은 필요에 따라서 1 이상의 층으로 구성될 수 있다. 이러한, 뉴럴 네트워크를 학습시키기 위한 알고리즘으로 역전파(Bak Propagation) 알고리즘을 이용할 수 있다.
분류기는 어떠한 데이터가 뉴럴 네트워크의 입력층(1010)에 입력되면, 입력된 학습 데이터에 대한 출력 데이터가 뉴럴 네트워크의 출력층(1030)으로 출력되도록 뉴럴 네트워크를 학습시킬 수 있다. 수신된 프레임으로부터 추출된 특징 정보가 입력되면, 뉴럴 네트워크를 이용하여 특징 정보의 패턴을 여러 클래스 중에서 어느 하나의 클래스로 분류하고, 분류 결과를 출력할 수 있다.
여기서, 입력층(1010)은 수신된 프레임의 다양한 객체일 수 있다. 예를 들어, 입력층(1010)의 노드들(1011,1012,1013)은 텍스트를 포함하는 영역을 나타내는 객체, 에지 영역을 나타내는 객체, 고정적인 텍스트 또는 이미지를 표시하는 객체 등이 될 수 있다. 상술한 입력층(1010)의 예시는 설명을 위한 것일 뿐, 이에 한정된다는 의미는 아니다. 즉, 입력층(1010)의 노드 수 는 사용자의 설정에 따라 변경될 수 있다.
도 10을 참조하면 입력층(1010)의 노드들(1011,1012,1013)은 3가지로 도시되어 있지만 이는 변경될 수 있다.
수신된 프레임에 포함된 다양한 객체는 입력층(1010)에 해당할 수 있다. 여기서, 출력층(1030)은 텍스트 또는 이미지 정보를 추출했는지 여부일 수 있다.
구체적으로, 전자 장치(100)는 수신된 영상에 포함된 다양한 객체를 통해 프레임에 포함되는 객체가 텍스트 또는 이미지 정보를 포함하고 있는지 여부를 확인할 수 있다.
여기서, 전자 장치(100)는 프레임에 포함되는 객체가 텍스트 또는 이미지 정보를 포함하고 있는지 여부를 기준으로 학습할 수 있다.
한편, 전자 장치(100)는 프레임에 포함된 객체를 기초로 텍스트 또는 이미지 정보를 포함하고 있는지 여부를 결정해야 하므로, 전자 장치(100)는 뉴럴 네트워크(Neural Networks)에 기반한 일련의 기계학습 알고리즘에 의한 분류 시스템으로서, 딥 러닝 기반의 인식 시스템을 이용할 수 있다.
또한, 도 10에는 은닉층(1020)을 2단계로 표현하였지만 1단계 은닉층으로만 이루어진 분류 시스템일 수 있다. 또한, 은닉층(1020)에 포함되는 노드 수 역시 변경될 수 있다.
도 10을 참고하면, 전자 장치(100)는 기설정된 오브젝트에 대해 사용자가 미리 설정하지 않아도 인공지능 기술에 의한 학습을 통해 자동으로 의미있는 오브젝트를 기설정된 오브젝트로 저장할 수 있다.
도 11은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
도 11을 참조하면, 전자 장치(100)의 제어 방법은 복수의 프레임으로 구성된 영상을 수신할 수 있다(S1110).
또한, 전자 장치(100)의 제어 방법은 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지할 수 있다 (S1120). 이 경우, 프레임에서 에지 영역을 검출하고 검출된 에지 영역이 기설정된 길이 이상이면 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다.
또한, 전자 장치(100)의 제어 방법은 감지된 프레임에서 정보를 추출할 수 있다(S1130). 여기서, 전자 장치(100)의 제어 방법은 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다. 그리고 전자 장치(100)는 프레임에 포함된 객체 이미지를 추출하고, 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다. 또한, 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 프레임에 포함된 객체가 이미지이면 이미지가 의미하는 내용을 정보로 추출할 수 있다. 한편, 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단할 수 있다.
또한, 전자 장치(100)의 제어 방법은 추출된 정보를 이용하여 메타 데이터를 생성할 수 있다(S1140). 한편, 전자 장치(100)의 제어 방법은 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다. 여기서 전자 장치(100)의 제어 방법은 추출된 정보를 이용하여 업체 정보, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다.
한편, 전자 장치(100)의 제어 방법은 생성된 메타 데이터를 저장할 수 있다(S1150).
또한, 전자 장치(100)의 제어 방법은 영상에 포함된 메타 데이터를 검출하는 단계를 더 포함하고, 생성하는 단계는 검출된 메타 데이터 및 추출된 정보를 비교하여 검출된 메타 데이터를 수정할 수 있다.
한편, 전자 장치(100)의 제어 방법은 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정할 수 있다.
이상과 같이 본 개시의 일 실시 예에 따른 전자 장치(100)의 제어 방법은, 수신된 프레임 중에서 기설정된 오브젝트를 포함하는 프레임에서만 정보를 추출할 수 있는바, 프로세서(120) 및 메모리(140)의 부담을 줄일 수 있다.
그리고, 특정 프레임에 대해서만 정보를 추출하므로 불필요한 정보가 메모리(140)에 저장되지 않으므로 분석에 관한 결과(예를 들어, 메타데이터)의 정확도가 높아질 수 있다.
또한, 전자 장치(100)의 제어 방법은 외부에서 전송한 메타 데이터를 수정하는 동작을 통해 실시간으로 정확한 정보를 저장할 수 있다.
한편, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시예들에 따른 전자 장치(100)에서의 처리 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 전자 장치(100)에서의 처리 동작을 상기 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    복수의 프레임으로 구성된 영상을 수신하는 통신부;
    상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 상기 감지된 프레임에서 정보를 추출하여 상기 추출된 정보를 이용하여 메타 데이터를 생성하는 프로세서; 및
    상기 생성된 메타 데이터를 저장하는 메모리;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단하는 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성하는 전자 장치.
  4. 제2항에 있어서,
    상기 프로세서는,
    서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단하는 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 프레임에 포함된 텍스트를 감지하여 정보를 추출하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 프레임에 포함된 객체 이미지를 추출하고, 상기 추출된 객체 이미지에 대한 객체 정보를 정보로 추출하는 전자 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 상기 프레임에 포함된 객체가 이미지이면 상기 이미지가 의미하는 내용을 정보로 추출하는 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 추출된 정보를 이용하여 업체 정보, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성하는 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는, 상기 영상에 포함된 메타 데이터를 검출하고, 상기 검출된 메타 데이터 및 상기 추출된 정보를 비교하여 상기 검출된 메타 데이터를 수정하는 전자 장치.
  10. 제1항에 잇어서,
    상기 프로세서는,
    상기 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정하는 전자 장치.
  11. 전자 장치의 제어 방법에 있어서,
    복수의 프레임으로 구성된 영상을 수신하는 단계;
    상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하는 단계;
    상기 감지된 프레임에서 정보를 추출하는 단계;
    상기 추출된 정보를 이용하여 메타 데이터를 생성하는 단계; 및
    상기 생성된 메타 데이터를 저장하는 하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 감지하는 단계는,
    상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단하는 제어 방법.
  13. 제11항에 있어서,
    상기 메타 데이터를 생성하는 단계는,
    서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성하는 제어 방법.
  14. 제12항에 있어서,
    서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단하는 단계;를 더 포함하는 제어 방법.
  15. 제11항에 있어서,
    상기 추출하는 단계는,
    상기 프레임에 포함된 텍스트를 감지하여 정보를 추출하는 제어 방법.
PCT/KR2018/012827 2017-11-01 2018-10-26 전자 장치 및 이의 제어방법 WO2019088592A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/754,962 US11367283B2 (en) 2017-11-01 2018-10-26 Electronic device and control method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170144882A KR102414783B1 (ko) 2017-11-01 2017-11-01 전자 장치 및 이의 제어방법
KR10-2017-0144882 2017-11-01

Publications (1)

Publication Number Publication Date
WO2019088592A1 true WO2019088592A1 (ko) 2019-05-09

Family

ID=66333303

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/012827 WO2019088592A1 (ko) 2017-11-01 2018-10-26 전자 장치 및 이의 제어방법

Country Status (3)

Country Link
US (1) US11367283B2 (ko)
KR (1) KR102414783B1 (ko)
WO (1) WO2019088592A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210406577A1 (en) * 2020-06-26 2021-12-30 Samsung Electronics Co., Ltd. Image detection apparatus and operation method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11678029B2 (en) * 2019-12-17 2023-06-13 Tencent Technology (Shenzhen) Company Limited Video labeling method and apparatus, device, and computer-readable storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
KR20040033767A (ko) * 2002-10-15 2004-04-28 케이투아이엠에스 한국어 이미지 문자인식기능을 통한 뉴스 동영상의뉴스제목 자동추출방법
JP2008176538A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
KR20140029982A (ko) * 2012-08-31 2014-03-11 삼성전자주식회사 디스플레이 장치, 셋톱박스 및 입체 영상 콘텐트 판단 방법
KR20150004681A (ko) * 2013-07-03 2015-01-13 삼성전자주식회사 미디어 정보 제공 서버, 미디어 콘텐츠와 관련된 미디어 정보를 검색하는 장치, 방법 및 컴퓨터 판독 가능한 기록 매체

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4937218B1 (ko) 1969-03-29 1974-10-07
KR100589823B1 (ko) 2003-02-19 2006-06-14 비브콤 인코포레이티드 생방송 프로그램에 대한 빠른 메타데이터 서비스 제공방법, 하이라이트 실시간 생성 방법 및 방송 프로그램스트림 임의 접근 방법
JP4796377B2 (ja) 2005-11-07 2011-10-19 日本放送協会 コンテンツ提供サーバ及びコンテンツ提供プログラム
KR100789911B1 (ko) * 2005-12-08 2008-01-02 한국전자통신연구원 디지털 멀티미디어 방송 단말기에서의 텍스트 표시 장치 및그 방법
KR100836197B1 (ko) * 2006-12-14 2008-06-09 삼성전자주식회사 동영상 자막 검출 장치 및 그 방법
TW200834459A (en) * 2007-02-05 2008-08-16 Huper Lab Co Ltd Video object segmentation method applied for rainy situations
JP4937218B2 (ja) 2008-09-12 2012-05-23 株式会社東芝 メタデータ編集装置及びメタデータ生成方法
US8782709B2 (en) * 2009-02-19 2014-07-15 Hulu, LLC Method and apparatus for providing a program guide having search parameter aware thumbnails
US9098758B2 (en) * 2009-10-05 2015-08-04 Adobe Systems Incorporated Framework for combining content intelligence modules
US8890896B1 (en) * 2010-11-02 2014-11-18 Google Inc. Image recognition in an augmented reality application
KR20150005131A (ko) * 2013-07-04 2015-01-14 엘지전자 주식회사 영상표시장치 및 영상표시장치 동작방법
WO2015061964A1 (en) * 2013-10-29 2015-05-07 Hua Zhong University Of Science Technology Simulataneous metadata extraction of moving objects
GB2523311B (en) 2014-02-17 2021-07-14 Grass Valley Ltd Method and apparatus for managing audio visual, audio or visual content
KR102340196B1 (ko) * 2014-10-16 2021-12-16 삼성전자주식회사 동영상 처리 장치 및 방법
KR20160148875A (ko) 2015-06-17 2016-12-27 엘지전자 주식회사 디스플레이 디바이스 및 그 제어 방법
US10217001B2 (en) * 2016-04-14 2019-02-26 KickView Corporation Video object data storage and processing system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
KR20040033767A (ko) * 2002-10-15 2004-04-28 케이투아이엠에스 한국어 이미지 문자인식기능을 통한 뉴스 동영상의뉴스제목 자동추출방법
JP2008176538A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
KR20140029982A (ko) * 2012-08-31 2014-03-11 삼성전자주식회사 디스플레이 장치, 셋톱박스 및 입체 영상 콘텐트 판단 방법
KR20150004681A (ko) * 2013-07-03 2015-01-13 삼성전자주식회사 미디어 정보 제공 서버, 미디어 콘텐츠와 관련된 미디어 정보를 검색하는 장치, 방법 및 컴퓨터 판독 가능한 기록 매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210406577A1 (en) * 2020-06-26 2021-12-30 Samsung Electronics Co., Ltd. Image detection apparatus and operation method thereof
US11934953B2 (en) 2020-06-26 2024-03-19 Samsung Electronics Co., Ltd. Image detection apparatus and operation method thereof

Also Published As

Publication number Publication date
KR20190049248A (ko) 2019-05-09
US20200302182A1 (en) 2020-09-24
KR102414783B1 (ko) 2022-06-30
US11367283B2 (en) 2022-06-21

Similar Documents

Publication Publication Date Title
WO2020105948A1 (en) Image processing apparatus and control method thereof
WO2018117428A1 (en) Method and apparatus for filtering video
WO2018128362A1 (en) Electronic apparatus and method of operating the same
WO2018043895A1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
WO2020101143A1 (en) Image processing apparatus and method of operating the same
AU2019381040B2 (en) Display apparatus and method of controlling the same
EP3545436A1 (en) Electronic apparatus and method of operating the same
WO2016117836A1 (en) Apparatus and method for editing content
WO2019093819A1 (ko) 전자 장치 및 그 동작 방법
WO2021261836A1 (en) Image detection apparatus and operation method thereof
EP3539056A1 (en) Electronic apparatus and operation method thereof
WO2020017930A1 (ko) 추천 채널 리스트 제공 방법 및 그에 따른 디스플레이 장치
WO2017131348A1 (en) Electronic apparatus and controlling method thereof
WO2018155859A1 (en) Image display device and operating method of the same
WO2020130262A1 (ko) 컴퓨팅 장치 및 그 동작 방법
WO2020091519A1 (en) Electronic apparatus and controlling method thereof
WO2019088692A1 (ko) 영상 표시 장치 및 그 동작 방법
WO2016129840A1 (en) Display apparatus and information providing method thereof
WO2019088592A1 (ko) 전자 장치 및 이의 제어방법
WO2019231068A1 (en) Electronic device and control method thereof
WO2019139308A1 (en) Electronic apparatus, user interface providing method and computer readable medium
EP3738305A1 (en) Electronic device and control method thereof
EP3867811A1 (en) Electronic apparatus and method for controlling thereof
WO2019088627A1 (en) Electronic apparatus and controlling method thereof
EP3545685A1 (en) Method and apparatus for filtering video

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18873942

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18873942

Country of ref document: EP

Kind code of ref document: A1