WO2017160062A1 - 컨텐트를 인식하는 방법 및 장치 - Google Patents

컨텐트를 인식하는 방법 및 장치 Download PDF

Info

Publication number
WO2017160062A1
WO2017160062A1 PCT/KR2017/002752 KR2017002752W WO2017160062A1 WO 2017160062 A1 WO2017160062 A1 WO 2017160062A1 KR 2017002752 W KR2017002752 W KR 2017002752W WO 2017160062 A1 WO2017160062 A1 WO 2017160062A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
template
screen
text
captured screen
Prior art date
Application number
PCT/KR2017/002752
Other languages
English (en)
French (fr)
Inventor
장태권
김상하
김성진
김일구
박성권
박영오
장원영
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to CN201780017466.4A priority Critical patent/CN108781303B/zh
Priority to EP17766963.7A priority patent/EP3416394A4/en
Priority to US16/084,030 priority patent/US11012739B2/en
Publication of WO2017160062A1 publication Critical patent/WO2017160062A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4314Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Definitions

  • the disclosed embodiments are directed to a method for a device to recognize content, a method for a server to recognize content, a device to recognize content and a server to recognize content.
  • Advertising providers need to know what content a user is consuming in order to provide customized advertisements to meet the needs of various consumers.
  • Conventional fingerprint-based content recognition technology extracts a fingerprint from an image or audio of a content currently being played by a display device such as a TV, transmits the fingerprint to a server, and matches it with reference data in a database of the server. Recognized whether it is content. Based on the result, the content consumption or viewing pattern of the display device may be analyzed, and the advertiser may effectively provide customized advertisements based on the analysis result.
  • the disclosed embodiment provides a method of controlling a device that provides content capable of obtaining information of content watched by a user more efficiently by acquiring information of content watched by a user of the device through a screen of the captured device, and To provide a device and server.
  • the template used to recognize the content displayed on the device is selected, and as the control signal is received by the device, the screen of the device is captured so that the captured screen is a gateway. Determine whether the image corresponds to the page, and if the captured screen corresponds to the gateway page, determine whether the captured screen corresponds to the selected template, and if the captured screen does not correspond to the selected template, A method of recognizing content is disclosed by a device generating a template corresponding to a content service based on the content.
  • FIG. 1 is a conceptual diagram illustrating a device for recognizing content according to an exemplary embodiment.
  • FIG. 2 is a flowchart illustrating a method of recognizing content in a device, according to an exemplary embodiment.
  • FIG. 3 is a flowchart illustrating a method of detecting, by a device, a gateway page according to an embodiment.
  • FIG. 4 is a diagram for describing a method of detecting, by a device, a gateway page according to an exemplary embodiment.
  • FIG. 5 is a diagram for describing a first template generated for a content service A by a device according to an embodiment.
  • FIG. 6 is a diagram for describing a second template generated for a content service B by a device according to an embodiment.
  • FIG. 7 is a flowchart illustrating a method of recognizing a content in detail according to an embodiment.
  • FIG. 8 is a diagram for describing a method of updating, by a device, a generated template according to an embodiment.
  • 9 is a flowchart for describing a method of extracting, by a device, content recognition information from a string including content recognition information detected from a captured screen.
  • FIG. 10 is a block diagram of a device according to an embodiment.
  • FIG. 11 is a block diagram of a device according to another embodiment.
  • a method of recognizing a content may include selecting a template used to recognize content displayed on a device according to a type of a content service providing at least one content to a device; Determining whether the captured screen corresponds to a gateway page including content recognition information as a control signal is received by the device; Determining whether the captured screen corresponds to the selected template based on the determination result; And generating a template corresponding to a content service based on the captured screen when the captured screen does not correspond to the selected template.
  • the method of recognizing a content further includes capturing a screen of the device in a predetermined time unit from a time point at which a control signal is received.
  • the method of recognizing a content further includes comparing the plurality of screens and selecting a screen satisfying a preset condition among the plurality of screens as a screen corresponding to the gateway page.
  • generating a template includes recognizing a layout of components included in a captured screen, wherein the template includes: based on the recognized layout The default components corresponding to the components are displayed.
  • a method of recognizing content by a device may include generating a template.
  • the method may further include recognizing a text area on a captured screen.
  • the template may include information about a location and arrangement of the recognized text area. Included.
  • a method of recognizing content by a device may further include determining a type of a content service that provides content, and selecting a template may include storing a template corresponding to the type of content service on the device. If not, the preset default template is selected as a template corresponding to the content service.
  • a method of recognizing a content may include detecting a text area from a screen captured by using a generated template; And recognizing the content displayed on the screen of the device based on the detected text from the detected text area.
  • a method of recognizing content includes comparing a detected text with at least one text included in a preset semantic recognition model to detect text determined as content recognition information among the detected text. It includes more.
  • the method of recognizing the content further includes updating information of the generated template based on a position where the text determined as the content recognition information is displayed on the captured screen.
  • a device for recognizing content includes a display unit displaying content provided from a content service; An input unit for receiving a control signal for controlling content provided from a content service; And selecting a template used for recognizing the content displayed on the device according to the type of content service providing the at least one content to the device, and the screen captured as the control signal is received by the device includes the content recognition information. Determine whether the corresponding screen corresponds to the gateway page, and as the captured screen corresponds to the gateway page, determine whether the captured screen corresponds to the selected template, and if the captured screen does not correspond to the selected template, And a controller configured to generate a template corresponding to the content service based on the screen.
  • the controller captures a screen of the device in a predetermined time unit from a time point at which a control signal is received.
  • the controller compares a plurality of screens and selects a screen that satisfies a predetermined condition among the plurality of screens as a captured screen.
  • the controller recognizes a layout of components included in the captured screen, and the template includes default components corresponding to the components based on the recognized layout. Is displayed.
  • the controller recognizes the text area on the captured screen, and the template includes information regarding the position and arrangement of the recognized text area.
  • the controller determines a type of a content service that provides content, and when a template corresponding to the type of the content service is not stored in the device, the preset default template Is selected as a template corresponding to the content service.
  • the controller detects a text area from a screen captured using the generated template, and displays the content displayed on the screen of the device based on the text detected from the detected text area. Recognize.
  • the controller compares the detected text with at least one text included in a preset semantic recognition model to detect text determined as content recognition information among the detected texts. do.
  • the controller updates the information of the generated template based on the position where the text determined as the content recognition information is displayed on the captured screen.
  • any part of the specification is to “include” any component, this means that it may further include other components, except to exclude other components unless otherwise stated.
  • the terms “... unit”, “module”, etc. described in the specification mean a unit for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software. .
  • FIG. 1 is a conceptual diagram illustrating a device 100 (hereinafter, referred to as a device) for recognizing content according to an exemplary embodiment.
  • the device 100 may be a TV, but this is only an example and may be implemented as an electronic device including a display.
  • the device 100 may be a mobile phone, a tablet PC, a digital camera, a camcorder, a laptop computer, a tablet PC, a desktop, an e-book device, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia (PMP).
  • PDA personal digital assistant
  • PMP portable multimedia
  • the electronic device may be implemented as various electronic devices such as a player, a navigation device, an MP3 player, a wearable device, and the like.
  • embodiments may be easily implemented in a display device having a large display, such as a TV, but is not limited thereto.
  • the device 100 may be fixed or mobile and may be a digital broadcast receiver capable of digital broadcast reception.
  • the device 100 may receive content through a content service that provides at least one content.
  • the device 100 may receive content from the content service providing apparatus 10 that provides the content service.
  • the content service providing apparatus may be a device such as an external server or a set-top box.
  • the content service may include not only real-time broadcasting content services provided by terrestrial broadcasting, cable broadcasting set top boxes, IPTV set top boxes, etc., but also content services in the form of web applications such as Netflix and Youtube. The service is not limited to this.
  • the device 100 may check the type of the content service as the content service is executed in the device 100.
  • the device 100 may identify a set-top box that provides a content service and check the type of the content service.
  • the device 100 may identify a type of content service by recognizing a web application executed for the content service.
  • the device 100 may identify the type of content service through an electronic program guide (EPG) signal received together with the content.
  • EPG electronic program guide
  • the device 100 may select a template corresponding to the type of the content service according to the type of the content service.
  • the template is used to recognize the content, and may be a page having a layout corresponding to the gateway page including content recognition information such as title and genre of the content.
  • the gateway page may be, for example, a page displayed to provide the user of the device 100 with information about the content before the content is played. Meanwhile, in the present specification, the page may represent a frame displayed on the screen of the device 100.
  • the device 100 may capture the screen of the device 100 at a predetermined period.
  • the device 100 may detect a screen corresponding to the gateway page among the plurality of screens by comparing the plurality of captured screens.
  • the device 100 may determine whether the detected screen corresponds to the selected template by comparing the screen detected as the gateway page with the selected template.
  • the device 100 may generate a template corresponding to the detected screen. This will be described later in more detail with reference to FIG. 2.
  • the device 100 may detect content recognition information from the detected screen by using the generated template.
  • the device 100 may detect content recognition information based on the template from the detected screen.
  • the device 100 may recognize content displayed on the screen of the device 100 based on the detected content recognition information.
  • the device 100 may transmit information about the recognized content to an external server 200 that analyzes the viewing pattern of the user.
  • the server 200 may analyze the viewing pattern of the at least one user based on the information about the content received from the at least one user device (eg, 100).
  • the viewing pattern may include information about a channel and content type that the user prefers.
  • FIG. 2 is a flowchart illustrating a method of recognizing content in the device 100 according to an exemplary embodiment.
  • the device 100 selects a template used for recognizing the content displayed on the device 100 as the type of the content service providing the content to the device 100 is determined.
  • the device 100 may determine a type of content service that provides content to the device 100. For example, when the set-top box connected to the device 100 is turned on to execute the content service, the device 100 may recognize a logo of the set-top box displayed on the screen of the device 100. The device 100 may determine the type of content service through the recognized logo. According to another example, when the web application is executed to execute the content service in the device 100, the device 100 recognizes the type of the web application to be executed, thereby identifying the type of content service provided to the device 100. You can decide. According to another example, in case of the terrestrial broadcast service, the device 100 may determine the type of content service through an EPG signal received with the content.
  • the device 100 may select a template corresponding to the type of the determined content service.
  • the device 100 may store a template corresponding to each of at least one content service.
  • the device 100 may store a template corresponding to the first content service provided through the A web application and a template corresponding to the second content service provided through the B set-top box.
  • the device 100 may select a preset default template as a template corresponding to the determined type of content service.
  • the basic template may be set to one frame not including information.
  • the device 100 may generate a flag indicating that the template is not stored.
  • the device 100 determines whether the captured screen corresponds to a gateway page including content recognition information.
  • the content recognition information may include text for identifying the title, genre, and the like of the content.
  • the device 100 may receive a control signal for controlling at least one content provided by the device 100.
  • the device 100 may receive a control signal for controlling at least one content provided by the device 100 from an input device.
  • the device 100 may receive a control signal in the form of a touch or a gesture from a user.
  • the control signal may be a channel change signal of the device 100, a power on signal of the device 100, a connection signal between another device and the device 100, a menu selection signal of the device 100, and at least one It may be one of request signals for content information.
  • the device 100 may capture the screen of the device 100 on a predetermined time unit.
  • a plurality of screens captured by a predetermined time unit in the device 100 may include a screen on which a content control menu for content control is displayed, a screen on which a gateway page for introduction of content is displayed, and content before the playback of specific content starts. At least one of the displayed screens may be included.
  • the device 100 may select a screen satisfying a preset condition among a plurality of screens as a screen corresponding to a gateway page. For example, the device 100 may select a previous screen of a screen from which a component including content recognition information is removed by comparing a plurality of screens.
  • the device 100 determines whether the captured screen corresponds to the selected template based on the determination result.
  • the device 100 may compare the layout of the captured screen with the selected template to determine whether the captured screen corresponds to the selected template.
  • the layout may represent a format in which components of at least one image unit included in the screen are arranged. For example, when the captured screen is composed of a layout including a first image at the top left and a second image at the bottom right, the device 100 determines whether the selected template is also configured with the same layout as the captured screen. You can judge.
  • the device 100 when the captured screen does not correspond to the selected template, the device 100 generates a template corresponding to the content service based on the captured screen.
  • the device 100 does not correspond to a template selected in the captured screen. You can judge. Accordingly, the device 100 may generate a template based on the captured screen.
  • the device 100 may generate a template having a layout corresponding to the captured screen.
  • the device 100 may generate a template in which the layout of the default components is set to correspond to the layout of the components on the screen corresponding to the gateway page.
  • the default components may have a size and shape corresponding to the components included in the screen corresponding to the captured screen.
  • the device 100 may detect content recognition information from a screen corresponding to the captured screen by comparing the generated template with the captured screen. For example, the device 100 may recognize a text area on which the text is displayed from the captured screen, and read the text by applying OCR technology to the recognized text area, thereby recognizing the content displayed on the screen of the device 100. Can be.
  • FIG. 3 is a flowchart illustrating a method of detecting, by a device, a gateway page according to an exemplary embodiment.
  • the device 100 selects a template used to recognize the content displayed on the device 100 according to the type of content service providing the content to the device 100.
  • step S310 may correspond to step S210 described above with reference to FIG. 2.
  • the device 100 may capture the screen of the device 100 on a preset time unit.
  • the device 100 may capture the screen of the device 100 on which content is displayed at a predetermined cycle. For example, when a user of the device 100 transmits a control signal to the device 100 to select one of a plurality of contents provided to the device 100, the device 100 receives the control signal. A screen of the device 100 in which content is displayed may be captured at a predetermined cycle from the viewpoint.
  • the device 100 may detect the first screen as a gateway page.
  • the component is at least a part of the information constituting the gateway page displayed before the content is played to provide information about the content.
  • the component may include an image box in which text about a plot of content is displayed, an image box in which text about a title of the content is displayed, and an image box in which text about a rating of the content is displayed.
  • the device 100 may compare a plurality of captured screens and select a previous screen of a screen on which a component is not displayed.
  • the device 100 may compare the first screen captured at the time when the control signal is received with the second screen captured after the preset first time from the time at which the control signal is received. As a result of comparing the first screen and the second screen, when the component displayed on the first screen is not displayed on the second screen, the device 100 may detect the first screen as a gateway page.
  • the device 100 may determine whether the first screen corresponds to the template.
  • the device 100 may compare the layout of the first screen with the selected template and determine whether the first screen corresponds to the selected template.
  • the device 100 may generate a template based on the first screen.
  • step S350 may correspond to step S240 described above with reference to FIG. 2.
  • FIG. 4 is a diagram for describing a method of detecting, by a device, a gateway page according to an exemplary embodiment.
  • the device 100 may receive a control signal for selecting any one of a plurality of contents provided to the device 100 at a time point t1.
  • the device 100 may capture a screen of the device 100 on which content is displayed in a predetermined time unit from t1, when a control signal is received.
  • the device 100 may capture a screen of the device 100 in which content is displayed at the time points t1, t2, and t3, respectively.
  • screens captured at the time points t1, t2, and t3 are described as the first screen 410, the second screen 420, and the third screen 430, respectively.
  • the device 100 may detect a gateway page of content by comparing the second screen 420 and the third screen 430. For example, when the device 100 compares the first screen 410, the second screen 420, and the third screen 430, the component 425 displayed on the second screen 420 is removed. When removed from the three screens 430, the second screen 420 may be detected as a gateway page.
  • the device 100 compares the first screen 410, the second screen 420, and the third screen 430, and as a result, the content control menu 415 displayed on the first screen 410. ) Disappears, and the previously captured second screen 420 of the third screen 430 in which the content starts to be displayed may be detected as the gateway page.
  • the content control menu may include a user interface for selecting any one of at least one content provided from the content service.
  • FIG. 5 is a diagram for describing a first template 520 generated for a content service by the device 100 according to an exemplary embodiment.
  • the device 100 may determine a type of content service that provides content to the device 100. For example, as the power of the set-top box is turned on, the device 100 may detect the logo of the set-top box displayed on the screen of the device 100 to determine the type of content service. According to another example, the device 100 may determine the type of the web application executed in the device 100 to determine the type of the content service. According to another example, when the terrestrial broadcasting service is received, the device 100 may detect an electronic program guide (EPG) received with the content and determine the type of the content service through the detected EPG.
  • EPG electronic program guide
  • the device 100 may determine the type of the content service as the content service providing the content to the device 100 being a terrestrial TV broadcasting service. Accordingly, the device 100 may select a template corresponding to the terrestrial TV broadcasting service.
  • the device 100 may select a preset default template. However, this is only an example, and the device 100 may set a flag indicating that a template corresponding to the terrestrial TV broadcast service is not stored in the device 100.
  • the device 100 may capture the screen of the device 100 on a predetermined time basis from the time when the control signal is received. According to an embodiment, the device 100 may compare a plurality of captured screens and detect a gateway page among the plurality of captured screens.
  • the method of detecting the gateway page may correspond to the method described above with reference to FIG. 4.
  • the device 100 may determine whether the detected screen 510 corresponds to the selected template. Meanwhile, since the selected template is a basic template selected because a template corresponding to the terrestrial TV broadcasting service is not stored in the device 100, the detected screen 510 may not correspond to the selected template in this embodiment. According to another example, when the device 100 sets a flag indicating that a template corresponding to the terrestrial TV broadcasting service is not stored in the device 100, the device 100 detects the detected flag through the set flag. It may be determined that the screen 510 does not correspond to the selected template.
  • the device 100 may generate a first template 520 corresponding to the terrestrial TV broadcasting service based on the detected screen 510.
  • the device 100 may analyze the layout of the detected screen 510 to generate a first template 520 having a layout corresponding to the layout of the detected screen 510.
  • the device 100 may detect text corresponding to content recognition information from the detected screen 510 by using the generated first template 520.
  • the device 100 may recognize the text displayed on the screen of the device 100 based on the detected text.
  • FIG. 6 is a diagram for describing a second template 620 generated for a content service by the device 100 according to another exemplary embodiment.
  • the device 100 may identify a web application running on the device 100, and determine that a content service providing content to the device 100 is A web application service. . Accordingly, the device 100 may select a template corresponding to the A web application service.
  • the device 100 may select a preset default template. However, this is only an example, and the device 100 may set a flag indicating that a template corresponding to the A web application service is not stored in the device 100.
  • the device 100 may capture the screen of the device 100 on a predetermined time basis from the time when the control signal is received. According to an embodiment, the device 100 may compare a plurality of captured screens and detect a gateway page among the plurality of captured screens.
  • the method of detecting the gateway page may correspond to the method described above with reference to FIG. 4.
  • the device 100 may determine whether the detected screen 610 corresponds to the selected template. Meanwhile, since the selected template is a basic template selected because a template corresponding to the terrestrial TV broadcasting service is not stored in the device 100, the detected screen 610 may not correspond to the selected template in this embodiment. According to another example, when the device 100 sets a flag indicating that a template corresponding to the terrestrial TV broadcasting service is not stored in the device 100, the device 100 detects the detected flag through the set flag. It may be determined that the screen 610 does not correspond to the selected template.
  • the device 100 may generate a second template 620 corresponding to the terrestrial TV broadcasting service based on the detected screen 610.
  • the device 100 may analyze the layout of the detected screen 610 to generate a second template 620 having a layout corresponding to the layout of the detected screen 610.
  • the device 100 may detect text corresponding to content recognition information from the detected screen 610 by using the generated second template 620.
  • the device 100 may recognize the text displayed on the screen of the device 100 based on the detected text.
  • FIG. 7 is a flowchart illustrating a method of recognizing content by the device 100 according to an exemplary embodiment.
  • the device 100 may determine a type of the content service 100 that provides content to the device 100. For example, the device 100 may recognize the logo A of the A set-top box displayed on the screen of the device 100 as the power of the A set-top box connected to the device 100 is turned on. The device 100 may determine, via the recognized logo A, that the content service providing the content to the device 100 is an A content service provided from the A set top box.
  • the device 100 may detect it through metadata of the B web application. Accordingly, the device 100 may determine that the content service providing the content to the device 100 is a B content service provided through the B web application.
  • the content service providing the content to the device 100 is one of a plurality of terrestrial broadcast services. It may determine that it is one C content service.
  • the device 100 may select a template according to the type of the content service.
  • the device 100 may store a template corresponding to each type of content service. When the type of the content service is determined, the device 100 may select a template corresponding to the determined type of the content service from among the stored templates.
  • the device 100 may select a preset basic frame or generate a flag indicating that the template is not stored.
  • the device 100 may receive a control signal for controlling content.
  • the device 100 may capture the screen of the device 100 on a preset time unit.
  • the device 100 may determine whether the captured screen corresponds to the gateway page.
  • the device 100 may compare a plurality of screens captured at predetermined time units and select a screen corresponding to the gateway page. Meanwhile, the method of determining whether the captured screen corresponds to the gateway page may be the method described above with reference to FIG. 3.
  • the other device 100 displays the screen of the device 100 on a predetermined time basis from the time when another control signal is received. Can be captured.
  • the device 100 may determine whether the captured screen corresponds to the template.
  • the device 100 may compare the layout of the captured screen with the template to determine whether the captured screen corresponds to the template.
  • the device 100 may generate a template based on the captured screen.
  • the device 100 may generate a template based on the captured screen.
  • the device 100 may detect a text area from the screen captured using the template.
  • the device 100 may detect a text area from the captured screen by using the selected template. In this case, it is assumed that information about a text area is preset in the template.
  • the device 100 may detect a text area from the captured screen by comparing the generated template with the captured screen.
  • the device 100 may recognize text included in the detected text area.
  • the device 100 may recognize text from the detected text area by using a text reading technology such as an OCR technology.
  • the device 100 may extract text indicating a title and genre of the content from the recognized text.
  • the device 100 may recognize content displayed on a screen of the device 100 based on the extracted text.
  • FIG. 8 is a flowchart for describing a method of detecting, by a device 100, text corresponding to content recognition information using a semantic recognition model from a captured screen, according to an exemplary embodiment.
  • the device 100 may select a template used to recognize content displayed on the device 100.
  • step S810 may correspond to step S210 described above with reference to FIG. 2.
  • the device 100 may capture a screen of the device 100 and determine whether the captured screen corresponds to a gateway page.
  • step S820 may correspond to step S220 described above with reference to FIG. 2.
  • the device 100 may determine whether the captured screen corresponds to the selected template.
  • step S830 may correspond to step S230 described above with reference to FIG. 2.
  • the device 100 may generate a template based on the captured screen.
  • step S840 may correspond to step S240 described above with reference to FIG. 2.
  • the device 100 may detect a text area from the captured screen by using the generated template.
  • the device 100 may recognize text included in the detected text area.
  • the device 100 may detect the text corresponding to the content recognition information by comparing the recognized text with at least one text included in the semantic recognition model.
  • the device 100 may preset a semantic recognition model.
  • the semantic recognition model may include at least one text for recognizing content.
  • the semantic recognition model may include at least one text indicating a title of content currently provided and a channel name or number on which content is provided.
  • the semantic recognition model may be set differently according to the ID of the device 100 and the ID of the user. For example, if the user is a woman in her 20s, the device 100 may select a semantic recognition model including at least one text indicating a title, a channel type, and the like of the content preferred by the woman in her 20s among the plurality of semantic recognition models. Can be.
  • the device 100 may detect text included in a string using a format pattern preset for a template screen from the extracted string. For example, when the format pattern representing the recognition information about the content is set to display the title name of the content after the channel name, the device 100 detects a text corresponding to the channel name from the extracted character string, The text may be determined to correspond to the title name of the content, and the text following the channel name may be detected.
  • the device 100 may not correspond to at least one text included in the extracted text string with a format pattern preset for the template.
  • the device 100 may indicate content recognition information using a probability model that probabilistically calculates a relationship between texts representing recognition information about a plurality of contents provided by at least one content service stored in a semantic recognition model.
  • the text can be detected.
  • the device 100 may extract the text that the actor's name is A and the broadcast name is B, based on the probability model, from the string B exclusive broadcast of A starring.
  • the device 100 may read the extracted string and compare at least one text included in the extracted string with at least one text included in a preset semantic recognition model.
  • at least one text included in the semantic recognition model may be text indicating content recognition information.
  • the device 100 may extract the text corresponding to the preset semantic recognition model from the received string by comparing the preset semantic recognition model with the received string.
  • the device 100 may update the template based on the detected text.
  • the device 100 may determine that texts other than the detected text are not content recognition information, and thus do not perform reading on texts other than the detected text. Accordingly, for example, the device 100 may recognize a location where texts other than the detected text are displayed and remove the default component on the template corresponding to the recognized location. According to another example, the device 100 may indicate that the text regarding the title of the content is detected with respect to the default component arranged at the position where the text indicating the title of the content is detected among the at least one default component displayed on the template. You can also mark an index.
  • FIG. 9 is a diagram for describing a method of updating, by the device 100, a generated template, according to an exemplary embodiment.
  • the device 100 may generate a template based on the captured screen 910. In FIG. 9, it is assumed that the template selected by the device 100 and the captured screen 910 do not correspond.
  • the device 100 extracts at least one component 912, 914, and 916 from the captured screen 910, and then positions the device 100 at a position corresponding to the extracted at least one component 912, 914, and 916.
  • a template 920 with default components 922, 924, and 926 can be created.
  • the device 100 may update the generated template by comparing the generated template 920 with recognition information of the detected content from the detected gateway page 810.
  • the device 100 may read text displayed on the captured screen 910 and select text including content recognition information from the read text.
  • the device 100 selects a component 912 corresponding to the selected text, and among the default components 922, 924, and 926 displayed on the template 920, the default component 922 corresponding to the selected component 912.
  • the template 920 may be updated by removing other components except 924 and 926.
  • FIG. 10 is a block diagram of a device 100 according to an embodiment.
  • the device 100 may include a display 110, an input unit 120, and a controller 130.
  • a display 110 may include a display 110, an input unit 120, and a controller 130.
  • not all illustrated components are essential components.
  • the device 100 may be implemented by more components than the illustrated components, and the device 100 may be implemented by fewer components.
  • the display 110 displays content.
  • the display 110 may display content received from an external content service providing apparatus.
  • the input unit 120 receives a control signal for controlling content.
  • the controller 130 determines the type of content service that provides content to the device 100. In addition, as the type of the content service is determined, the controller 130 selects a template used to recognize the content displayed on the device 100. Meanwhile, when the template corresponding to the type of content service is not stored in the device, the controller 130 may select a preset basic template as a template corresponding to the content service.
  • the controller 130 captures a screen of the device 100 and determines whether the captured screen corresponds to a gateway page. In addition, as a result of the determination, the controller 130 determines whether the captured screen corresponds to the selected template as the captured screen corresponds to the gateway page. If the captured screen does not correspond to the selected template, the controller 130 generates a template corresponding to the content service based on the captured screen.
  • the controller 130 may capture the screen of the device in a predetermined time unit from the time when the control signal is received.
  • the controller 130 may detect a gateway page by comparing a plurality of screens captured in predetermined time units. For example, as a result of comparing the first screen with the second screen, the controller 130 may detect the first screen as a gateway page when the component displayed on the first screen is removed from the second screen.
  • the controller 130 may recognize layouts of components included in the captured screen.
  • the controller 130 may generate a template in which default components corresponding to the components are displayed based on the recognized layout.
  • the controller 130 recognizes a text area on the captured screen.
  • the controller 130 may generate a template including information about the position and arrangement of the recognized text area.
  • the controller 130 may detect a text area from the captured screen by using the generated template.
  • the controller 130 may recognize content displayed on the screen of the device 100 based on the detected text from the detected text area.
  • the controller 130 may compare the detected text with at least one text included in a preset semantic recognition model and detect text that is determined as content recognition information among the detected text. In addition, the controller 130 may update the template based on the position displayed on the screen where the detected text is captured.
  • FIG. 11 is a block diagram of a device 1100 according to another embodiment.
  • the device 1100 may include a display 1110, an input / output unit 1120, a controller 1130, and an audio processor 1115 and an audio output unit 1125.
  • the apparatus may further include a communication unit 1140, a tuner unit 1150, a power supply unit 1160, a detection unit 1170, a video processor 1180, and a storage unit 1190.
  • the display 1110 displays content provided to the device 1100 from a content service.
  • the display 1110 may correspond to the display 110 described above with reference to FIG. 10.
  • the display 1110 converts an image signal, a data signal, an OSD signal, a control signal, and the like processed by the controller 1130 to generate a driving signal.
  • the display unit 120 may be implemented as a PDP, an LCD, an OLED, a flexible display, or a 3D display.
  • the display unit 120 may be configured as a touch screen and used as an input device in addition to the output device.
  • the display 1110 may be used interchangeably with a screen in that content is displayed.
  • the input / output unit 1120 controls video (for example, video), audio (for example, voice, music, etc.) and additional information (for example, from the outside of the device 1100 by the control of the controller 1130). For example, EPG).
  • the input / output unit 1120 may receive a control signal for controlling content displayed on the device 1100.
  • the input / output unit 1120 is one of an HDMI port (High-Definition Multimedia Interface port, 1121), a component jack (component jack, 1122), a PC port (PC port, 1123), and a USB port (USB port, 1124). It may include.
  • the input / output unit 1120 may include a combination of an HDMI port 1121, a component jack 1122, a PC port 1123, and a USB port 1124.
  • the controller 1130 typically controls the overall operation of the device 1100.
  • the controller 1130 may execute programs stored in the storage unit 1190 to display the display 1110, the input / output unit 1120, the audio processor 1115, the audio output unit 1125, and the communication unit.
  • the tuner 1150, the power supply 1160, the detector 1170, the video processor 1180, the storage 1190, and the like may be generally controlled.
  • controller 1130 may correspond to the controller 130 described above with reference to FIG. 10.
  • the communication unit 1140 may connect the device 1100 with an external device (eg, an input device, a service providing device, a server, etc.) under the control of the controller 1130.
  • the controller 1130 may transmit / receive content to a service providing device connected through the communication unit 1110, download an application from the service providing device, or perform web browsing.
  • the communication unit 1140 may include one of the wireless LAN 1141, the Bluetooth 1142, and the wired Ethernet 1143 in response to the performance and structure of the device 1100.
  • the communication unit 1140 may include a combination of a wireless LAN 1141, a Bluetooth 1142, and a wired Ethernet 1143.
  • the communication unit 1140 may receive a control signal for controlling content under the control of the controller 1130.
  • the control signal may be implemented in a Bluetooth type, an RF signal type or a Wi-Fi type. In this case, the communication unit 1140 may perform a function corresponding to the function of the input / output unit 1120 described above.
  • the communication unit 1140 may further include other near field communication (eg, near field communication (NFC) (not shown)) and Bluetooth low energy (BLE) (not shown) in addition to Bluetooth.
  • NFC near field communication
  • BLE Bluetooth low energy
  • the communicator 1140 may transmit the extracted content recognition information to the server 200.
  • the communication unit 1140 may receive content viewing pattern information of the user of the device 100 determined based on the content information extracted from the server 200.
  • the audio processor 1115 processes the audio data.
  • the audio processor 1115 may perform various processing such as decoding, amplification, noise filtering, or the like on the audio data.
  • the audio processor 1115 may include a plurality of audio processing modules to process audio corresponding to a plurality of contents.
  • the audio output unit 1125 outputs audio included in the broadcast signal received through the tuner 1140 under the control of the controller 1130.
  • the audio output unit 1125 may output audio (eg, voice or sound) input through the communication unit 1140 or the input / output unit 1120.
  • the audio output unit 1125 may output audio stored in the storage unit 190 under the control of the controller 1130.
  • the audio output unit 1125 may include at least one of a speaker 1126, a headphone output terminal 1127, or a Sony / Philips Digital Interface (S / PDIF) output terminal 1128.
  • the audio output unit 1125 It may include a combination of a speaker 1126, a headphone output terminal 1127, and an S / PDIF output terminal 1128.
  • the tuner unit 1150 may determine a channel number (eg, cable broadcast 506) according to a user input (eg, a control signal such as a channel number input, a channel up-down input, and a channel input on an EPG screen).
  • the broadcast signal may be received in the frequency band corresponding to the second).
  • the tuner 1150 may receive a broadcast signal from various sources such as terrestrial broadcast, cable broadcast, satellite broadcast, and internet broadcast.
  • the tuner 1150 may receive a broadcast signal from a source such as analog broadcast or digital broadcast.
  • the broadcast signal received through the tuner unit 1150 is decoded (eg, audio decoded, video decoded or side information decoded) and separated into audio, video and / or side information.
  • the separated audio, video and / or additional information may be stored in the storage 1190 under the control of the controller 1130.
  • the tuner 1150 tunes only a frequency of a channel to be received by the display apparatus 100 among many propagation components through amplification, mixing, and resonance of a broadcast signal received by wire or wirelessly. can be selected by tuning.
  • the broadcast signal includes audio, video, and additional information (eg, an EPG).
  • the power supply unit 1160 supplies power input from an external power source to the components inside the device 1100 under the control of the controller 1130.
  • the power supply unit 1160 may supply power output from one or more batteries (not shown) located in the device 1100 to the internal components under the control of the controller 1130.
  • the detector 1170 may detect a user input and transmit the detected signal to the controller 1130.
  • the sensing unit 1170 may detect a user input for power on / off, channel selection, channel up / down, and screen setting.
  • the detector 1170 may detect a user input for moving a cursor displayed on the display 1110 and a direction key input for moving focus between candidate items.
  • the detector 1170 detects a user's voice, a user's image, or a user's interaction.
  • the microphone 1171 receives the uttered voice of the user.
  • the microphone 1171 may convert the received voice into an electrical signal and output the converted signal to the controller 1130.
  • the microphone 1171 may be embodied integrally or detachably with the device 1100.
  • the separated microphone 1171 may be electrically connected to the device 1100 through the communication unit 1140 or the input / output unit 1120. It will be readily understood by one of ordinary skill in the art that the microphone 1171 may be excluded depending on the performance and structure of the device 1100.
  • the camera unit 1172 may convert the received image into an electrical signal and output the converted image to the controller 1130 under the control of the controller 1130.
  • the light receiver 1175 receives an optical signal (including a control signal) received from an external input device through a light window (not shown) of the bezel of the display 1110.
  • the light receiver 1173 may receive an optical signal corresponding to a user input (for example, a touch, a press, a touch gesture, a voice, or a motion) from the input device.
  • the control signal may be extracted by the control of the controller 1130 from the received optical signal.
  • the video processor 1180 processes the video data received by the device 1100.
  • the video processor 1180 may perform various image processing such as decoding, scaling, noise filtering, frame rate conversion, resolution conversion, and the like on the video data.
  • the controller 1130 stores a signal or data input from the outside of the device 1100, or uses a RAM 1181 or a device 1100 that is used as a storage area corresponding to various operations performed by the device 1100.
  • the control program for controlling may include a ROM (ROM) 1182 and a processor 1183.
  • the processor 1183 may include a graphic processing unit (not shown) for graphic processing corresponding to video.
  • the processor 1183 may be implemented as a system on chip (SoC) integrating a core (not shown) and a GPU (not shown).
  • SoC system on chip
  • the processor 1183 may include a single core, dual cores, triple cores, quad cores, and multiples thereof.
  • the processor 1183 may include a plurality of processors.
  • the processor 1183 may be implemented as a main processor (not shown) and a sub processor (not shown) that operates in a sleep mode.
  • the graphic processor 1184 generates a screen including various objects such as an icon, an image, and a text by using a calculator (not shown) and a renderer (not shown).
  • the calculator (not shown) calculates attribute values such as coordinates, shapes, sizes, colors, and the like in which each object is to be displayed according to the layout of the screen using a user input sensed by the detector 1170.
  • the renderer generates screens of various layouts including objects based on the attribute values calculated by the calculator. The screen generated by the renderer is displayed in the display area of the display 120.
  • the first to n interfaces 1185-1 to 1185-n are connected to the aforementioned various components.
  • One of the interfaces may be a network interface connected to an external device via a network.
  • the RAM 1181, the ROM 1182, the processor 1183, the graphics processor 1184, and the first to nth interfaces 1185-1 to 1185-n may be interconnected through an internal bus 1186. .
  • control unit in this embodiment includes processor 1183, ROM 1182, and RAM 1181.
  • the storage unit 1190 may store various data, programs, or applications for driving and controlling the device 1100 under the control of the controller 1130.
  • the storage unit 1190 may provide a control program for controlling the device 1100 and the controller 1130, an application initially provided by a manufacturer or downloaded from the outside, a graphical user interface (GUI) related to the application, and a GUI.
  • GUI graphical user interface
  • objects eg, image text, icons, buttons, etc.
  • user information eg., documents, databases, or related data.
  • the term “storage unit” refers to a memory card (eg, a micro SD card, a USB memory, or the like) mounted in the storage unit 1190, the ROM 1182 of the control unit, the RAM 1181, or the device 1100. Not shown).
  • the storage unit 1190 may include a nonvolatile memory, a volatile memory, a hard disk drive (HDD), or a solid state drive (SSD).
  • the storage unit 1190 may include a broadcast receiving module (not shown), a channel control module, a volume control module, a communication control module, a voice recognition module, a motion recognition module, an optical reception module, a display control module, an audio control module, an external input control module, It may include a power control module, a power control module of an external device connected wirelessly (for example, Bluetooth), a voice database (DB), or a motion database (DB). Modules and databases not shown in the storage unit 1190 may include a broadcast reception control function, a channel control function, a volume control function, a communication control function, a voice recognition function, a motion recognition function, and an optical reception control function in the device 100.
  • the display control function, the audio control function, the external input control function, the power control function, or a power control function of an external device connected to a wireless device may be implemented in software form.
  • the controller 1130 may perform each function by using the software stored in the storage unit 1190.
  • Method according to an embodiment of the present invention is implemented in the form of program instructions that can be executed by various computer means may be recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • a device may include a processor, a memory for storing and executing program data, a persistent storage such as a disk drive, a communication port for communicating with an external device, a touch panel, a key, a user interface such as a button, and the like.
  • Methods implemented by software modules or algorithms may be stored on a computer readable recording medium as computer readable codes or program instructions executable on the processor.
  • the computer-readable recording medium may be a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optical reading medium (eg, CD-ROM). ) And DVD (Digital Versatile Disc).
  • the computer readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • the medium is readable by the computer, stored in the memory, and can be executed by the processor.
  • An embodiment may be represented by functional block configurations and various processing steps. Such functional blocks may be implemented in various numbers of hardware or / and software configurations that perform particular functions.
  • an embodiment may include an integrated circuit configuration such as memory, processing, logic, look-up table, etc. that may execute various functions by the control of one or more microprocessors or other control devices. You can employ them.
  • an embodiment may employ the same or different types of cores, different types of CPUs.
  • Similar to the components in the present invention may be implemented in software programming or software elements, embodiments include C, C ++, including various algorithms implemented in combinations of data structures, processes, routines or other programming constructs. It may be implemented in a programming or scripting language such as Java, an assembler, or the like.
  • the functional aspects may be implemented with an algorithm running on one or more processors.
  • the embodiment may employ the prior art for electronic configuration, signal processing, and / or data processing.
  • Terms such as “mechanism”, “element”, “means”, “configuration” can be used widely and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in conjunction with a processor or the like.
  • connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.
  • such as "essential”, “important” may not be a necessary component for the application of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

디바이스에 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택하고, 디바이스에 제어 신호가 수신됨에 따라, 디바이스의 화면을 캡쳐하여, 캡쳐된 화면이 관문 페이지에 대응되는지 여부를 판단하고, 캡쳐된 화면이 관문 페이지에 대응됨에 따라, 캡쳐된 화면이 선택된 템플릿에 대응되는지 여부를 판단하며, 캡쳐된 화면이 선택된 템플릿에 대응되지 않는 경우, 캡쳐된 화면을 기초로 컨텐트 서비스에 대응되는 템플릿을 생성하는 디바이스가 컨텐트를 인식하는 방법이 개시된다.

Description

컨텐트를 인식하는 방법 및 장치
개시된 실시예는 디바이스가 컨텐트를 인식하는 방법, 서버가 컨텐트를 인식하는 방법, 컨텐트를 인식하는 디바이스 및 컨텐트를 인식하는 서버에 관한 것이다.
다양한 소비자의 니즈(needs)에 충족하기 위해 개개인의 요구에 맞춘(customized) 광고를 제공하기 위해서는 사용자가 어떤 컨텐츠를 소비하고 있는지를 광고 제공자가 알 필요가 있다.
종래의 핑거프린트(fingerprint) 기반의 컨텐츠 인식 기술은 TV와 같은 디스플레이 장치가 현재 재생 중인 컨텐츠의 영상 또는 오디오에서 핑거프린트를 추출하고, 이것을 서버로 전송하여, 서버의 데이터베이스의 참조 데이터와 매칭하여 어떤 컨텐츠인지 인식하였다. 이러한 결과를 바탕으로 해당 디스플레이 장치의 컨텐츠 소비 또는 시청 패턴을 분석할 수 있고, 광고업자는 이 분석 결과에 기반하여 효과적으로 맞춤형 광고를 제공할 수 있다.
그러나, 이러한 핑거프린트 기반의 컨텐츠 인식 기술은 디스플레이 장치가 디스플레이 하는 컨텐츠에서 핑거프린트를 추출하고, 이를 서버에 전송하는 과정에서 추가적인 연산이나 데이터 전송 부담이 생길 뿐만 아니라, 별도의 데이터베이스 서버와 매칭 서버를 운영해야 하는 등 추가적인 하드웨어에 의한 경제적인 부담이 큰 단점이 있다. 따라서, 디스플레이 장치가 재생중인 컨텐츠에 대한 정보를 빠르고 용이하게 검출할 수 있도록 하는 기술에 대한 필요성이 대두되었다.
개시된 실시예는 디바이스의 사용자가 시청하는 컨텐트의 정보를 캡쳐된 디바이스의 화면을 통해 획득함으로써, 보다 효율적으로 사용자가 시청하는 컨텐트의 정보를 획득할 수 있는 컨텐트를 제공하는 디바이스를 제어하는 방법, 그 디바이스 및 서버를 제공하고자 한다.
디바이스에 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택하고, 디바이스에 제어 신호가 수신됨에 따라, 디바이스의 화면을 캡쳐하여, 캡쳐된 화면이 관문 페이지에 대응되는지 여부를 판단하고, 캡쳐된 화면이 관문 페이지에 대응됨에 따라, 캡쳐된 화면이 선택된 템플릿에 대응되는지 여부를 판단하며, 캡쳐된 화면이 선택된 템플릿에 대응되지 않는 경우, 캡쳐된 화면을 기초로 컨텐트 서비스에 대응되는 템플릿을 생성하는 디바이스가 컨텐트를 인식하는 방법이 개시된다.
도 1은 일 실시예에 따라 컨텐트를 인식하는 디바이스를 설명하기 위한 개념도이다.
도 2는 일 실시예에 따라 디바이스에서 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따라 디바이스가 관문 페이지를 검출하는 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따라 디바이스가 관문 페이지를 검출하는 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따라 디바이스에서 컨텐트 서비스 A에 대해 생성한 제 1 템플릿을 설명하기 위한 도면이다.
도 6은 일 실시예에 따라 디바이스에서 컨텐트 서비스 B에 대해 생성한 제 2 템플릿을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
도 8은 일 실시예에 따른 디바이스가 생성된 템플릿을 업데이트 하는 방법을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 디바이스가 캡쳐된 화면으로부터 검출된 컨텐트 인식 정보를 포함한 문자열로부터 컨텐트 인식 정보를 추출하는 방법을 설명하기 위한 흐름도이다.
도 10은 일 실시예에 따른 디바이스의 블록도이다.
도 11은 다른 실시예에 따른 디바이스의 블록도이다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 디바이스에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택하는 단계; 디바이스에 제어 신호가 수신됨에 따라 캡쳐된 화면이 컨텐트 인식 정보를 포함하는 관문 페이지에 대응되는지 여부를 판단하는 단계; 판단 결과에 기초하여, 캡쳐된 화면이 선택된 템플릿에 대응되는지 여부를 판단하는 단계; 및 캡쳐된 화면이 선택된 템플릿에 대응되지 않는 경우, 캡쳐된 화면을 기초로 컨텐트 서비스에 대응되는 템플릿을 생성하는 단계를 포함한다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 제어 신호가 수신된 시점부터 기 설정된 시간 단위로 디바이스의 화면을 캡쳐하는 단계를 더 포함한다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 복수의 화면을 비교하여, 복수의 화면 중 기 설정된 조건을 만족하는 화면을 관문 페이지에 대응되는 화면으로 선택하는 단계를 더 포함한다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법에 있어서, 템플릿을 생성하는 단계는, 캡쳐된 화면에 포함된 컴포넌트들의 레이 아웃을 인식하는 단계를 포함하고, 템플릿에는, 인식된 레이 아웃을 기초로, 컴포넌트들에 대응되는 디폴트 컴포넌트들이 표시된다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 템플릿을 생성하는 단계는, 캡쳐된 화면 상에서 텍스트 영역을 인식하는 단계를 더 포함하고, 템플릿에는 인식된 텍스트 영역의 위치 및 배열에 관한 정보가 포함된다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정하는 단계를 더 포함하고, 템플릿을 선택하는 단계는, 컨텐트 서비스의 종류에 대응되는 템플릿이 디바이스에 저장되어 있지 않은 경우, 기 설정된 기본 템플릿을 컨텐트 서비스에 대응되는 템플릿으로 선택한다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 생성된 템플릿을 이용하여 캡쳐된 화면으로부터 텍스트 영역을 검출하는 단계; 및 검출된 텍스트 영역으로부터 검출된 텍스트를 기초로 디바이스의 화면에 표시된 컨텐트를 인식하는 단계를 더 포함한다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 검출된 텍스트와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 검출된 텍스트 중 컨텐트 인식 정보로 판단되는 텍스트를 검출하는 단계를 더 포함한다.
일 실시예에 따른 디바이스가 컨텐트를 인식하는 방법은, 상기 컨텐트 인식 정보로 판단되는 텍스트가 상기 캡쳐된 화면에서 표시된 위치에 기초하여, 상기 생성된 템플릿의 정보를 업데이트 하는 단계를 더 포함한다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스는, 컨텐트 서비스로부터 제공되는 컨텐트를 표시하는 디스플레이부; 컨텐트 서비스로부터 제공되는 컨텐트를 제어하기 위한 제어 신호를 수신하는 입력부; 및 디바이스에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택하고, 디바이스에 제어 신호가 수신됨에 따라 캡쳐된 화면이 컨텐트 인식 정보를 포함하는 관문 페이지에 대응되는지 여부를 판단하고, 캡쳐된 화면이 관문 페이지에 대응됨에 따라, 캡쳐된 화면이 선택된 템플릿에 대응되는지 여부를 판단하고, 캡쳐된 화면이 선택된 템플릿에 대응되지 않는 경우, 캡쳐된 화면을 기초로 컨텐트 서비스에 대응되는 템플릿을 생성하는 제어부를 포함한다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 제어 신호가 수신된 시점부터 기 설정된 시간 단위로 디바이스의 화면을 캡쳐한다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 복수의 화면을 비교하여, 복수의 화면 중 기 설정된 조건을 만족하는 화면을 캡쳐된 화면으로 선택한다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 캡쳐된 화면에 포함된 컴포넌트들의 레이 아웃을 인식하고, 템플릿에는, 인식된 레이 아웃을 기초로, 컴포넌트들에 대응되는 디폴트 컴포넌트들이 표시된다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 캡쳐된 화면 상에서 텍스트 영역을 인식하고, 템플릿에는, 인식된 텍스트 영역의 위치 및 배열에 관한 정보가 포함된다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정하고, 컨텐트 서비스의 종류에 대응되는 템플릿이 디바이스에 저장되어 있지 않은 경우, 기 설정된 기본 템플릿을 상기 컨텐트 서비스에 대응되는 템플릿으로 선택한다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 생성된 템플릿을 이용하여 캡쳐된 화면으로부터 텍스트 영역을 검출하고, 검출된 텍스트 영역으로부터 검출된 텍스트를 기초로 디바이스의 화면에 표시된 컨텐트를 인식한다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 검출된 텍스트와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 검출된 텍스트 중 컨텐트 인식 정보로 판단되는 텍스트를 검출한다.
일 실시예에 따라, 컨텐트를 인식하는 디바이스에 있어서, 제어부는, 상기 컨텐트 인식 정보로 판단되는 텍스트가 상기 캡쳐된 화면에서 표시된 위치에 기초하여, 상기 생성된 템플릿의 정보를 업데이트 한다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시예에 따라 컨텐트를 인식하는 디바이스(100, 이하 디바이스)를 설명하기 위한 개념도이다.
도 1에 도시된 바와 같이, 디바이스(100)는 TV일 수 있으나, 이는 일 실시예에 불과하며, 디스플레이를 포함하는 전자 장치로 구현될 수 있다. 예를 들어, 디바이스(100)는 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 태블릿 PC, 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다. 특히, 실시예들은 TV와 같이 디스플레이가 대형인 디스플레이 장치에서 용이하게 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 디바이스(100)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.
일 실시예에 따른 디바이스(100)는 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스를 통해 컨텐트를 제공받을 수 있다. 예를 들어, 디바이스(100)는 컨텐트 서비스를 제공하는 컨텐트 서비스 제공 장치(10)로부터 컨텐트를 수신할 수 있다. 일 실시예에 따른 컨텐트 서비스 제공 장치는 외부의 서버 또는 셋탑 박스와 같은 디바이스일 수 있다. 또한, 컨텐트 서비스는 지상파 방송, 케이블 방송 셋탑 박스, IPTV 셋탑 박스 등이 제공하는 실시간 방송 컨텐트 서비스 뿐만 아니라, Netflix, Youtube와 같은 웹 어플리케이션 형태의 컨텐트 서비스 등을 포함할 수 있으나 이는 일 실시예일 뿐 컨텐트 서비스가 이에 한정되는 것은 아니다.
한편, 일 실시예에 따른 디바이스(100)는 디바이스(100)에서 컨텐트 서비스가 실행됨에 따라, 컨텐트 서비스의 종류를 확인할 수 있다. 예를 들어, 디바이스(100)는 컨텐트 서비스를 제공하는 셋탑 박스를 인식하여 컨텐트 서비스의 종류를 확인할 수 있다. 다른 예에 따라, 디바이스(100)는 컨텐트 서비스를 위해 실행되는 웹 애플리케이션을 인식하여 컨텐트 서비스의 종류를 확인할 수 있다. 또 다른 예에 따라, 디바이스(100)는 컨텐트와 함께 수신되는 EPG(Electronic Program Guide) 신호 등을 통해 컨텐트 서비스의 종류를 확인할 수 있다.
일 실시예에 따른 디바이스(100)는 컨텐트 서비스의 종류가 결정됨에 다라, 결정된 컨텐트 서비스의 종류에 대응되는 템플릿을 선택할 수 있다. 여기에서 템플릿은 컨텐트를 인식하기 위해 이용되는 것으로서, 컨텐트의 제목 및 장르 등의 컨텐트 인식 정보를 포함하는 관문 페이지와 대응되는 레이 아웃을 갖는 페이지일 수 있다. 또한, 관문 페이지는 예를 들어, 컨텐트가 재생되기 이전에 컨텐트에 대한 정보를 디바이스(100)의 사용자에게 제공하기 위해 표시되는 페이지일 수 있다. 한편, 본 명세서에서, 페이지는 디바이스(100)의 화면에 표시되는 프레임을 나타낼 수 있다.
일 실시예에 따른 디바이스(100)는 컨텐트의 제어를 위한 제어 신호가 수신됨에 따라, 기 설정된 주기로 디바이스(100)의 화면을 캡쳐할 수 있다. 디바이스(100)는 캡쳐된 복수의 화면을 비교하여, 복수의 화면 중 관문 페이지에 대응되는 화면을 검출할 수 있다. 또한, 디바이스(100)는 관문 페이지로 검출된 화면과 선택된 템플릿을 비교하여, 검출된 화면이 선택된 템플릿과 대응되는지 여부를 판단할 수 있다.
디바이스(100)는 검출된 화면이 선택된 템플릿과 대응되지 않는 경우, 검출된 화면에 대응되는 템플릿을 생성할 수 있다. 이에 대해서는 도 2를 참고하여 보다 구체적으로 후술하기로 한다. 디바이스(100)는 생성된 템플릿을 이용하여 검출된 화면으로부터 컨텐트 인식 정보를 검출할 수 있다. 또한, 다른 예에 따라 디바이스(100)는 검출된 화면이 선택된 템플릿과 대응되는 경우, 검출된 화면으로부터 템플릿을 기초로 컨텐트 인식 정보를 검출할 수 있다. 디바이스(100)는 검출된 컨텐트 인식 정보를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
한편, 디바이스(100)는 인식된 컨텐트에 관한 정보를 사용자의 시청 패턴을 분석하는 외부의 서버(200)에 전송할 수 있다. 서버(200)는 적어도 하나의 사용자의 디바이스(예를 들어, 100)로부터 수신한 컨텐트에 관한 정보를 기초로 적어도 하나의 사용자의 시청 패턴을 분석할 수 있다. 여기에서, 시청 패턴은 사용자가 선호하는 채널 및 컨텐트의 종류 등에 관한 정보를 포함할 수 있다.
도 2는 일 실시예에 따라 디바이스(100)에서 컨텐트를 인식하는 방법을 설명하기 위한 흐름도이다.
단계 S210에서, 디바이스(100)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스(100)에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택한다.
일 실시예에 따른 디바이스(100)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정할 수 있다. 예를 들어, 디바이스(100)는 컨텐트 서비스의 실행을 위해, 디바이스(100)와 연결된 셋탑 박스의 전원이 켜지는 경우, 디바이스(100)의 화면에 표시되는 셋탑 박스의 로고를 인식할 수 있다. 디바이스(100)는 인식된 로고를 통해 컨텐트 서비스의 종류를 결정할 수 있다. 다른 예에 따라, 디바이스(100)에서 컨텐트 서비스의 실행을 위해 웹 애플리케이션이 실행되는 경우, 디바이스(100)는 실행되는 웹 애플리케이션의 종류를 인식함으로써, 디바이스(100)에 제공되는 컨텐트 서비스의 종류를 결정할 수 있다. 또 다른 예에 따라 디바이스(100)는 지상파 방송 서비스의 경우, 컨텐트와 함께 수신되는 EPG 신호를 통해 컨텐트 서비스의 종류를 결정할 수 있다.
일 실시예에 따른 디바이스(100)는 결정된 컨텐트 서비스의 종류에 대응되는 템플릿을 선택할 수 있다. 디바이스(100)에는 적어도 하나의 컨텐트 서비스 각각에 대응되는 템플릿이 저장될 수 있다. 예를 들어, 디바이스(100)에는 A 웹 애플리케이션을 통해 제공되는 제 1 컨텐트 서비스에 대응되는 템플릿 및 B 셋탑 박스를 통해 제공되는 제 2 컨텐트 서비스에 대응되는 템플릿이 저장될 수 있다.
한편, 다른 예에 따라, 디바이스(100)에 결정된 컨텐트 서비스의 종류에 대응되는 템플릿이 저장되어 있지 않은 경우, 디바이스(100)는 기 설정된 기본 템플릿을 결정된 컨텐트 서비스의 종류에 대응되는 템플릿으로 선택할 수 있다. 여기에서, 기본 템플릿은 정보를 포함하지 않은 하나의 프레임으로 설정될 수 있다. 다만, 이는 일 실시예일 뿐, 디바이스(100)는 결정된 컨텐트 서비스의 종류에 대응되는 템플릿이 저장되어 있지 않은 경우, 템플릿이 저장되어 있지 않음을 나타내는 플래그(flag)를 생성할 수도 있다.
단계 S220에서, 디바이스(100)는 제어 신호가 수신됨에 따라, 캡쳐된 화면이 컨텐트 인식 정보를 포함하는 관문 페이지에 대응되는지 여부를 판단한다. 여기에서, 컨텐트 인식 정보는 컨텐트의 제목, 장르 등을 식별할 수 있는 텍스트 등을 포함할 수 있다.
일 실시예에 따른 디바이스(100)는 디바이스(100)에서 제공하는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다. 예를 들어, 디바이스(100)는 입력 장치로부터 디바이스(100)에서 제공되는 적어도 하나의 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다. 다만, 이는 일 실시예일 뿐, 다른 예에 따라, 디바이스(100)는 사용자로부터 터치 또는 제스쳐 형태의 제어 신호를 수신할 수 있다. 여기에서, 제어 신호는 디바이스(100)의 채널 변경 신호, 디바이스(100)의 전원 온(on) 신호, 다른 디바이스와 디바이스(100) 간의 연결 신호, 디바이스(100)의 메뉴 선택 신호 및 적어도 하나의 컨텐트 정보에 대한 요청 신호 중 하나일 수 있다.
일 실시예에 따른 디바이스(100)는 제어 신호가 수신됨에 따라, 기 설정된 시간 단위로 디바이스(100)의 화면을 캡쳐할 수 있다. 디바이스(100)에서 기 설정된 시간 단위로 캡쳐된 복수의 화면에는 컨텐트 제어를 위한 컨텐트 제어 메뉴가 표시된 화면, 특정 컨텐트의 재생이 시작되기에 앞서, 컨텐트의 소개를 위한 관문 페이지가 표시된 화면 및 컨텐트가 표시된 화면 중 적어도 하나가 포함될 수 있다.
일 실시예에 따른 디바이스(100)는 복수의 화면 중 기 설정된 조건을 만족하는 화면을 관문 페이지에 대응되는 화면으로 선택할 수 있다. 예를 들어, 디바이스(100)는 복수의 화면을 비교하여, 컨텐트 인식 정보를 포함한 컴포넌트가 제거된 화면의 이전 화면을 선택할 수 있다.
단계 S230에서, 디바이스(100)는 판단 결과에 기초하여, 캡쳐된 화면이 선택된 템플릿에 대응되는지 여부를 판단한다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면과 선택된 템플릿의 레이 아웃을 비교하여, 캡쳐된 화면과 선택된 템플릿이 대응되는지 여부를 판단할 수 있다. 여기에서, 레이 아웃은 화면에 포함된 적어도 하나의 이미지 단위의 컴포넌트들이 배열된 형식을 나타낼 수 있다. 예를 들어, 디바이스(100)는 캡쳐된 화면이 좌측 상단에 제 1 이미지와 우측 하단에 제 2 이미지를 포함한 레이 아웃으로 구성된 경우, 선택된 템플릿 역시 캡쳐된 화면과 동일한 레이 아웃으로 구성되어 있는지 여부를 판단할 수 있다.
단계 S240에서, 디바이스(100)는 캡쳐된 화면이 선택된 템플릿에 대응되지 않는 경우, 캡쳐된 화면을 기초로 컨텐트 서비스에 대응되는 템플릿을 생성한다.
일 실시예에 따른 디바이스(100)에 결정된 컨텐트 서비스의 종류에 대응되는 템플릿이 저장되지 않아 기본 템플릿이 설정되거나, 플래그가 생성된 경우, 디바이스(100)는 캡쳐된 화면이 선택된 템플릿과 대응되지 않는다고 판단할 수 있다. 이에 따라, 디바이스(100)는 캡쳐된 화면을 기초로 템플릿을 생성할 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면과 대응되는 레이 아웃을 갖는 템플릿을 생성할 수 있다. 예를 들어, 디바이스(100)는 관문 페이지에 대응되는 화면 상에 컴포넌트들의 레이 아웃과 대응되게 디폴트 컴포넌트들의 레이 아웃을 설정한 템플릿을 생성할 수 있다. 여기에서, 디폴트 컴포넌트들은 캡쳐된 화면에 대응되는 화면에 포함된 컴포넌트들과 대응되는 크기 및 형태를 가질 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 생성된 템플릿과 캡쳐된 화면을 비교하여, 캡쳐된 화면에 대응되는 화면으로부터 컨텐트 인식 정보를 검출할 수 있다. 예를 들어, 디바이스(100)는 캡쳐된 화면으로부터 텍스트가 표시된 텍스트 영역을 인식하고, 인식된 텍스트 영역에 OCR 기술 등을 적용하여 텍스트를 판독함으로써, 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
도 3은 일 실시예에 따라 디바이스(100)가 관문 페이지를 검출하는 방법을 설명하기 위한 흐름도이다.
단계 S310에서, 디바이스(100)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스(100)에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택한다.
한편, 단계 S310은 도 2를 참고하여 전술한 단계 S210과 대응될 수 있다.
단계 S320에서, 디바이스(100)는 제어 신호가 수신됨에 따라 기 설정된 시간 단위로 디바이스(100)의 화면을 캡쳐할 수 있다.
디바이스(100)는 관문 페이지를 검출하기 위해, 컨텐트가 표시된 디바이스(100)의 화면을 기 설정된 주기로 캡쳐할 수 있다. 예를 들어, 디바이스(100)의 사용자가 디바이스(100)에 제공되는 복수의 컨텐츠 중 어느 하나를 선택하기 위해 제어 신호를 디바이스(100)에 송신한 경우, 디바이스(100)는 제어 신호가 수신된 시점부터 기 설정된 주기로 컨텐트가 표시된 디바이스(100)의 화면을 캡쳐할 수 있다.
단계 S330에서, 디바이스(100)는 캡쳐된 제 1 화면과 제 2 화면을 비교한 결과, 제 1 화면에 표시된 컴포넌트가 제 2 화면에서 제거된 경우, 제 1 화면을 관문 페이지로 검출할 수 있다. 여기에서, 컴포넌트는 컨텐트에 대한 정보를 제공하기 위해, 컨텐트가 재생되기 이전에 표시되는 관문 페이지를 구성하는 정보의 적어도 일부이다. 예를 들어, 컨텐트의 줄거리에 관한 텍스트가 표시된 이미지 박스, 컨텐트의 제목에 관한 텍스트가 표시된 이미지 박스 및 컨텐트의 시청 등급에 관한 텍스트가 표시된 이미지 박스 등이 컴포넌트에 포함될 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 복수의 화면들을 비교하여, 컴포넌트가 표시되지 않기 시작한 화면의 이전 화면을 선택할 수 있다.
예를 들어, 디바이스(100)는 제어 신호가 수신된 시점에 캡쳐된 제 1 화면과 제어 신호가 수신된 시점으로부터 기 설정된 제 1 시간 이후에 캡쳐된 제 2 화면을 비교할 수 있다. 디바이스(100)는 제 1 화면 및 제 2 화면을 비교한 결과, 제 1 화면에 표시된 컴포넌트가 제 2 화면에 표시되지 않은 경우, 제 1 화면을 관문 페이지로 검출할 수 있다.
단계 S340에서, 디바이스(100)는 제 1 화면이 템플릿에 대응되는지 여부를 판단할 수 있다.
일 실시예에 따른 디바이스(100)는 제 1 화면과 선택된 템플릿의 레이 아웃을 비교하여, 제 1 화면과 선택된 템플릿이 대응되는지 여부를 판단할 수 있다.
단계 S350에서, 디바이스(100)는 제 1 화면이 선택된 템플릿에 대응되지않는 경우, 제 1 화면을 기초로 템플릿을 생성할 수 있다.
한편, 단계 S350은 도 2를 참고하여 전술한 단계 S240과 대응될 수 있다.
도 4는 일 실시예에 따라 디바이스(100)가 관문 페이지를 검출하는 방법을 설명하기 위한 도면이다.
일 실시예에 따른 디바이스(100)는 디바이스(100)에 제공되는 복수의 컨텐트 중 어느 하나를 선택하는 제어 신호를 시점 t1에 수신할 수 있다. 디바이스(100)는 제어 신호가 수신된 시점인 t1부터 기 설정된 시간 단위로 컨텐트가 표시된 디바이스(100)의 화면을 캡쳐할 수 있다. 예를 들어, 디바이스(100)는 시점 t1, t2 및 t3에 각각 컨텐트가 표시된 디바이스(100)의 화면을 캡쳐할 수 있다. 도 4에서, 시점 t1, t2 및 t3에 각각 캡쳐된 화면을 제 1 화면(410), 제 2 화면(420) 및 제 3 화면(430)으로 설명하도록 한다.
일 실시예에 따른 디바이스(100)는 제 2 화면(420) 및 제 3 화면(430)을 비교하여, 컨텐트의 관문 페이지를 검출할 수 있다. 예를 들어, 디바이스(100)는 제 1 화면(410), 제 2 화면(420) 및 제 3 화면(430)을 비교한 결과, 제 2 화면(420)에 표시되어 있던 컴포넌트(425)가 제 3 화면(430)에서 제거된 경우, 제 2 화면(420)을 관문 페이지로 검출할 수 있다.
또한, 다른 예에 따라, 디바이스(100)는 제 1 화면(410), 제 2 화면(420)및 제 3 화면(430)을 비교한 결과, 제 1 화면(410)에 표시된 컨텐트 제어 메뉴(415)가 사라지고, 컨텐트가 표시되기 시작한 제 3 화면(430)의 이전에 캡쳐된 제 2 화면(420)을 관문 페이지로 검출할 수 있다. 여기에서, 컨텐트 제어 메뉴에는 컨텐트 서비스로부터 제공되는 적어도 하나의 컨텐트 중 어느 하나를 선택할 수 있는 사용자 인터페이스가 포함될 수 있다.
도 5는 일 실시예에 따라 디바이스(100)에서 컨텐트 서비스에 대해 생성한 제 1 템플릿(520)을 설명하기 위한 도면이다.
일 실시예에 따른 디바이스(100)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정할 수 있다. 예를 들어, 디바이스(100)는 셋탑 박스의 전원이 켜짐에 따라, 디바이스(100)의 화면에 표시되는 셋탑 박스의 로고를 감지하여, 컨텐트 서비스의 종류를 결정할 수 있다. 다른 예에 따라, 디바이스(100)는 디바이스(100)에서 실행되는 웹 애플리케이션의 종류를 판단하여, 컨텐트 서비스의 종류를 결정할 수 있다. 또 다른 예에 따라, 디바이스(100)는 지상파 방송 서비스가 수신되는 경우 컨텐트와 함께 수신되는 EPG(Electronic Program Guide)를 감지하여, 감지된 EPG를 통해 컨텐트 서비스의 종류를 결정할 수 있다.
도 5를 참고하면, 디바이스(100)는 디바이스(100)에 EPG가 수신됨에 따라,디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스가 지상파 TV 방송 서비스인 것으로 컨텐트 서비스의 종류를 결정할 수 있다. 이에 따라, 디바이스(100)는 지상파 TV 방송 서비스에 대응되는 템플릿을 선택할 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 지상파 TV 방송 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않은 경우, 기 설정된 기본 템플릿을 선택할 수 있다. 다만, 이는 일 실시예일 뿐, 디바이스(100)는 지상파 TV 방송 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않음을 나타내는 플래그(flag)를 설정할 수도 있다.
또한, 디바이스(100)는 디바이스(100)에 표시되는 컨텐트를 선택하기 위한 제어 신호가 수신됨에 따라, 제어 신호가 수신된 시점부터 기 설정된 시간 단위로 디바이스(100)의 화면을 캡쳐할 수 있다. 일 실시예에 따른 디바이스(100)는 캡쳐된 복수의 화면을 비교하여, 캡쳐된 복수의 화면 중 관문 페이지를 검출할 수 있다. 여기에서, 관문 페이지를 검출하는 방법은 도 4에서 전술한 방법과 대응될 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 화면(510)이 선택된 템플릿에 대응되는지 여부를 판단할 수 있다. 한편, 선택된 템플릿은 지상파 TV 방송 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않음에 따라 선택된 기본 템플릿이므로 본 실시예에서는 검출된 화면(510)이 선택된 템플릿과 대응되지 않을 수 있다. 또한, 다른 예에 따라, 디바이스(100)가 지상파 TV 방송 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않음을 나타내는 플래그를 설정한 경우, 디바이스(100)는 설정된 플래그를 통해, 검출된 화면(510)이 선택된 템플릿에 대응되지 않는 것으로 판단할 수 있다.
이에 따라, 일 실시예에 따른 디바이스(100)는 검출된 화면(510)을 기초로 지상파 TV 방송 서비스에 대응되는 제 1 템플릿(520)을 생성할 수 있다. 예를 들어, 디바이스(100)는 검출된 화면(510)의 레이 아웃을 분석하여, 검출된 화면(510)의 레이 아웃과 대응되는 레이 아웃을 가진 제 1 템플릿(520)을 생성할 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 생성된 제 1 템플릿(520)을 이용하여, 검출된 화면(510)으로부터 컨텐트 인식 정보와 대응되는 텍스트를 검출할 수 있다. 디바이스(100)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 텍스트를 인식할 수 있다.
도 6은 다른 실시예에 따라 디바이스(100)에서 컨텐트 서비스에 대해 생성한 제 2 템플릿(620)를 설명하기 위한 도면이다.
도 6을 참고하면, 디바이스(100)는 디바이스(100)에서 실행중인 웹 애플리케이션을 식별하여, 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스가 A 웹 애플리케이션 서비스인 것으로 컨텐트 서비스의 종류를 결정할 수 있다. 이에 따라, 디바이스(100)는 A 웹 애플리케이션 서비스에 대응되는 템플릿을 선택할 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 A 웹 애플리케이션 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않은 경우, 기 설정된 기본 템플릿을 선택할 수 있다. 다만, 이는 일 실시예일 뿐, 디바이스(100)는 A 웹 애플리케이션 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않음을 나타내는 플래그(flag)를 설정할 수도 있다.
또한, 디바이스(100)는 디바이스(100)에 표시되는 컨텐트를 선택하기 위한 제어 신호가 수신됨에 따라, 제어 신호가 수신된 시점부터 기 설정된 시간 단위로 디바이스(100)의 화면을 캡쳐할 수 있다. 일 실시예에 따른 디바이스(100)는 캡쳐된 복수의 화면을 비교하여, 캡쳐된 복수의 화면 중 관문 페이지를 검출할 수 있다. 여기에서, 관문 페이지를 검출하는 방법은 도 4에서 전술한 방법과 대응될 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 화면(610)이 선택된 템플릿에 대응되는지 여부를 판단할 수 있다. 한편, 선택된 템플릿은 지상파 TV 방송 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않음에 따라 선택된 기본 템플릿이므로 본 실시예에서는 검출된 화면(610)이 선택된 템플릿과 대응되지 않을 수 있다. 또한, 다른 예에 따라, 디바이스(100)가 지상파 TV 방송 서비스에 대응되는 템플릿이 디바이스(100)에 저장되어 있지 않음을 나타내는 플래그를 설정한 경우, 디바이스(100)는 설정된 플래그를 통해, 검출된 화면(610)이 선택된 템플릿에 대응되지 않는 것으로 판단할 수 있다.
이에 따라, 일 실시예에 따른 디바이스(100)는 검출된 화면(610)을 기초로 지상파 TV 방송 서비스에 대응되는 제 2 템플릿(620)을 생성할 수 있다. 예를 들어, 디바이스(100)는 검출된 화면(610)의 레이 아웃을 분석하여, 검출된 화면(610)의 레이 아웃과 대응되는 레이 아웃을 가진 제 2 템플릿(620)을 생성할 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 생성된 제 2 템플릿(620)을 이용하여, 검출된 화면(610)으로부터 컨텐트 인식 정보와 대응되는 텍스트를 검출할 수 있다. 디바이스(100)는 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 텍스트를 인식할 수 있다.
도 7은 일 실시예에 따른 디바이스(100)가 컨텐트를 인식하는 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
단계 S710에서, 디바이스(100)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스(100)의 종류를 결정할 수 있다. 예를 들어, 디바이스(100)는 디바이스(100)와 연결된 A 셋탑 박스의 전원이 켜짐에 따라, 디바이스(100)의 화면에 표시되는 A 셋탑 박스의 로고 A를 인식할 수 있다. 디바이스(100)는 인식된 로고 A를 통해, 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스가 A 셋탑 박스로부터 제공되는 A 컨텐트 서비스임을 결정할 수 있다.
다른 예에 따라, 디바이스(100)는 디바이스(100)에 설치된 B 웹 애플리케이션이 실행되는 경우, B 웹 애플리케이션의 메타데이터를 통해 이를 감지할 수 있다. 이에 따라, 디바이스(100)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스가 B 웹 애플리케이션을 통해 제공되는 B 컨텐트 서비스임을 결정할 수 있다.
또 다른 예에 따라, 디바이스(100)는 지상파 방송을 송출하는 기지국에서 디바이스(100)에 제공하는 EPG 신호를 감지함에 따라, 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스가 복수의 지상파 방송 서비스 중 하나인 C 컨텐트 서비스임을 결정할 수 있다.
단계 S720에서, 디바이스(100)는 컨텐트 서비스의 종류가 결정됨에 따라 템플릿을 선택할 수 있다.
일 실시예에 따른 디바이스(100)에는 컨텐트 서비스의 종류 별로 대응되는 템플릿이 저장될 수 있다. 디바이스(100)는 컨텐트 서비스의 종류가 결정되는 경우, 결정된 컨텐트 서비스의 종류에 대응되는 템플릿을 저장된 템플릿 중에서 선택할 수 있다.
한편, 디바이스(100)에 컨텐트 서비스의 종류에 대응되는 템플릿이 저장되어 있지 않은 경우, 디바이스(100)는 기 설정된 기본 프레임을 선택하거나, 템플릿이 저장되어 있지 않음을 나타내는 플래그를 생성할 수 있다.
단계 S730에서, 디바이스(100)는 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다.
단계 S740에서, 디바이스(100)는 제어 신호가 수신됨에 따라 기 설정된 시간 단위로 디바이스(100)의 화면을 캡쳐할 수 있다.
단계 S750에서, 디바이스(100)는 캡쳐된 화면이 관문 페이지에 대응되는지 여부를 판단할 수 있다.
일 실시예에 따른 디바이스(100)는 제어 신호가 수신됨에 따라, 기 설정된 시간 단위로 캡쳐된 복수의 화면들을 비교하여, 관문 페이지에 대응되는 화면을 선택할 수 있다. 한편, 디바이스(100)가 캡쳐된 화면이 관문 페이지에 대응되는지 여부를 판단하는 방법은 도 3을 참고하여 전술한 방법과 대응될 수 있다.
한편, 일 실시예에 다른 디바이스(100)는 캡쳐된 복수의 화면 중 관문 페이지에 대응되는 화면이 존재하지 않은 경우, 다른 제어 신호가 수신되는 시점부터 기 설정된 시간 단위로 디바이스(100)의 화면을 캡쳐할 수 있다.
단계 S760에서, 디바이스(100)는 캡쳐된 화면이 템플릿에 대응되는지 여부를 판단할 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면과 템플릿의 레이 아웃을 비교하여, 캡쳐된 화면이 템플릿에 대응되는지 여부를 판단할 수 있다.
단계 S770에서, 디바이스(100)는 캡쳐된 화면을 기초로 템플릿을 생성할 수 있다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면이 템플릿에 대응되지 않음에 따라, 캡쳐된 화면을 기초로 템플릿을 생성할 수 있다.
단계 S780에서, 디바이스(100)는 템플릿을 이용하여 캡쳐된 화면으로부터 텍스트 영역을 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 선택된 템플릿과 캡쳐된 화면의 레이 아웃이 대응되는 경우, 선택된 템플릿을 이용하여, 캡쳐된 화면으로부터 텍스트 영역을 검출할 수 있다. 여기에서, 템플릿에는 텍스트 영역에 관한 정보가 기 설정된 것으로 가정한다.
한편, 다른 실시예에 따라, 디바이스(100)는 생성된 템플릿과 캡쳐된 화면을 비교하여, 캡쳐된 화면으로부터 텍스트 영역을 검출할 수 있다.
단계 S790에서, 디바이스(100)는 검출된 텍스트 영역에 포함된 텍스트를 인식할 수 있다.
일 실시예에 따른 디바이스(100)는 OCR 기술 등의 텍스트 판독 기술을 이용하여, 검출된 텍스트 영역으로부터 텍스트를 인식할 수 있다. 디바이스(100)는 인식된 텍스트 중에서 컨텐트의 제목 및 장르 등을 나타내는 텍스트를 추출할 수 있다.
일 실시예에 따른 디바이스(100)는 추출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
도 8은 일 실시예에 따른 디바이스(100)가 캡쳐된 화면으로부터 의미 인식 모델을 이용하여 컨텐트 인식 정보와 대응되는 텍스트를 검출하는 방법을 설명하기 위한 흐름도이다.
단계 S810에서, 디바이스(100)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스(100)에 표시되는 컨텐트를 인식하는데 이용되는 템플릿을 선택할 수 있다.
한편, 단계 S810은 도 2를 참고하여 전술한 단계 S210과 대응될 수 있다.
단계 S820에서, 디바이스(100)는 제어 신호가 수신됨에 따라, 디바이스(100)의 화면을 캡쳐하여, 캡쳐된 화면이 관문 페이지에 대응되는지 여부를 판단할 수 있다.
한편, 단계 S820은 도 2를 참고하여 전술한 단계 S220과 대응될 수 있다.
단계 S830에서, 디바이스(100)는 캡쳐된 화면이 관문 페이지에 대응됨에 따라, 캡쳐된 화면이 선택된 템플릿에 대응되는지 여부를 판단할 수 있다.
한편, 단계 S830은 도 2를 참고하여 전술한 단계 S230과 대응될 수 있다.
단계 S840에서, 디바이스(100)는 캡쳐된 화면이 선택된 템플릿에 대응되지 않는 경우, 캡쳐된 화면을 기초로 템플릿을 생성할 수 있다.
한편, 단계 S840은 도 2를 참고하여 전술한 단계 S240과 대응될 수 있다.
단계 S850에서, 디바이스(100)는 생성된 템플릿을 이용하여 캡쳐된 화면으로부터 텍스트 영역을 검출할 수 있다.
단계 S860에서, 디바이스(100)는 검출된 텍스트 영역에 포함된 텍스트를 인식할 수 있다.
단계 S870에서, 디바이스(100)는 인식된 텍스트와 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여 컨텐트 인식 정보와 대응되는 텍스트를 검출할 수 있다.
일 실시예에 따른 디바이스(100)는 의미 인식 모델을 기 설정할 수 있다. 의미 인식 모델은 컨텐트를 인식하기 위한 적어도 하나의 텍스트를 포함할 수 있다. 예를 들어, 의미 인식 모델에는 현재 제공되고 있는 컨텐트의 제목 및 컨텐트가 제공되고 있는 채널 이름 또는 번호 등을 나타내는 적어도 하나의 텍스트가 포함될 수 있다.
또한, 다른 예에 따라, 의미 인식 모델은 디바이스(100)의 ID 및 사용자의 ID에 따라 상이하게 설정될 수 있다. 예를 들어, 사용자가 20대 여성인 경우, 디바이스(100)는 복수의 의미 인식 모델 중 20대 여성이 선호하는 컨텐트의 제목 및 채널의 종류 등을 나타내는 적어도 하나의 텍스트를 포함한 의미 인식 모델을 선택할 수 있다.
일 실시예에 따른 디바이스(100)는 추출된 문자열로부터 템플릿 화면에 대해 기 설정된 포맷 패턴을 이용하여, 문자열에 포함된 텍스트를 검출할 수 있다. 예를 들어, 컨텐트에 대한 인식 정보를 나타내는 포맷 패턴이, 채널명 다음에는 컨텐트의 제목명이 표시되는 것으로 설정된 경우, 디바이스(100)는 추출된 문자열로부터 채널명에 대응되는 텍스트가 검출되는 경우, 채널명 이후의 텍스트는 컨텐트의 제목명에 해당하는 것으로 판단하여, 채널명 이후의 텍스트를 검출할 수 있다.
한편, 다른 예에 따라, 디바이스(100)는 추출된 문자열에 포함된 적어도 하나의 텍스트가 템플릿에 대해 기 설정된 포맷 패턴과 대응되지 않을 수 있다. 이러한 경우, 디바이스(100)는 의미 인식 모델에 저장된 적어도 하나의 컨텐트 서비스에서 제공하는 복수의 컨텐트에 대한 인식 정보를 나타내는 텍스트들간의 관계를 확률적으로 산출한 확률 모델을 이용하여 컨텐트 인식 정보를 나타내는 텍스트를 검출할 수 있다. 예를 들어, 디바이스(100)는 A 주연의 B 독점 방송이라는 문자열로부터 확률 모델을 기초로 배우의 이름이 A이고, 방송명이 B인 것으로 텍스트를 추출할 수 있다.
또다른 실시예에 따른 디바이스(100)는 추출된 문자열을 판독하여, 추출된 문자열에 포함된 적어도 하나의 텍스트를 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트와 비교할 수 있다. 여기에서, 의미 인식 모델에 포함되는 적어도 하나의 텍스트는 컨텐트 인식 정보를 나타내는 텍스트일 수 있다. 디바이스(100)는 기 설정된 의미 인식 모델과 수신된 문자열을 비교하여, 기 설정된 의미 인식 모델과 대응되는 텍스트를 수신된 문자열로부터 추출할 수 있다.
단계 S880에서, 디바이스(100)는 검출된 텍스트를 기초로 템플릿을 업데이트 할 수 있다.
일 실시예에 따른 디바이스(100)는 검출된 텍스트 이외의 다른 텍스트들은 컨텐트 인식 정보가 아닌 것으로 판단됨에 따라, 검출된 텍스트 이외의 다른 텍스트들에 대한 판독을 수행하지 않는 것으로 결정할 수 있다. 이에 따라, 예를 들어, 디바이스(100)는 검출된 텍스트를 제외한 다른 텍스트 들이 표시된 위치를 인식하여, 인식된 위치와 대응되는 템플릿 상의 디폴트 컴포넌트를 제거할 수 있다. 또한 다른 예에 따라, 디바이스(100)는 템플릿 상에 표시된 적어도 하나의 디폴트 컴포넌트 중, 컨텐트의 제목을 나타내는 텍스트가 검출된 위치에 배열된 디폴트 컴포넌트에 대해, 컨텐트의 제목에 관한 텍스트가 검출됨을 나타내는 인덱스를 표시할 수도 있다.
도 9는 일 실시예에 따른 디바이스(100)가 생성된 템플릿을 업데이트 하는 방법을 설명하기 위한 도면이다.
도 9를 참고하면, 일 실시예에 따른 디바이스(100)는 캡쳐된 화면(910)이 관문 페이지로 판단된 경우, 캡쳐된 화면(910)을 기초로 템플릿을 생성할 수 있다. 도 9에서는 디바이스(100)에서 선택된 템플릿과 캡쳐된 화면(910)이 대응되지 않는 것으로 가정한다.
일 실시예에 따른 디바이스(100)는 캡쳐된 화면(910)으로부터 적어도 하나의 컴포넌트(912, 914, 916)를 추출하여, 추출된 적어도 하나의 컴포넌트(912, 914, 916)와 대응되는 위치에 디폴트 컴포넌트(922, 924, 926)를 배치한 템플릿(920)을 생성할 수 있다.
한편, 일 실시예에 따른 디바이스(100)는 검출된 관문 페이지(810)로부터 검출된 컨텐트의 인식 정보와 생성된 템플릿(920)을 비교하여 생성된 템플릿을 업데이트 할 수 있다. 디바이스(100)는 캡쳐된 화면(910) 상에 표시된 텍스트를 판독하여, 판독된 텍스트 중 컨텐트 인식 정보를 포함한 텍스트를 선택할 수 있다. 또한, 디바이스(100)는 선택된 텍스트에 대응되는 컴포넌트(912)를 선택하여, 템플릿(920)에 표시된 디폴트 컴포넌트(922, 924, 926) 중, 선택된 컴포넌트(912)에 대응되는 디폴트 컴포넌트(922)를 제외한 다른 컴포넌트(924, 926)를 제거하여, 템플릿(920)을 업데이트 할 수 있다.
도 10은 일 실시예에 따른 디바이스(100)의 블록도이다.
도 10을 참조하면, 일 실시예에 따른 디바이스(100)는 디스플레이부(110),입력부(120) 및 제어부(130)를 포함할 수 있다. 그러나 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 디바이스(100)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 디바이스(100)는 구현될 수 있다.
일 실시예에 따른 디스플레이부(110)는 컨텐트를 표시한다. 예를 들어, 디스플레이부(110)는 외부의 컨텐트 서비스 제공 장치로부터 수신한 컨텐트를 표시할 수 있다.
일 실시예에 따른 입력부(120)는 컨텐트를 제어하기 위한 제어 신호를 수신한다.
일 실시예에 따른 제어부(130)는 디바이스(100)에 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정한다. 또한, 제어부(130)는 컨텐트 서비스의 종류가 결정됨에 따라, 디바이스(100)에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택한다. 한편, 일 실시예에 따른 제어부(130)는, 컨텐트 서비스의 종류에 대응되는 템플릿이 디바이스에 저장되어 있지 않은 경우, 기 설정된 기본 템플릿을 컨텐트 서비스에 대응되는 템플릿으로 선택할 수 있다.
일 실시예에 따른 제어부(130)는 제어 신호가 수신됨에 따라, 디바이스(100)의 화면을 캡쳐하여, 캡쳐된 화면이 관문 페이지에 대응되는지 여부를 판단한다. 또한, 제어부(130)는 판단 결과, 캡쳐된 화면이 관문 페이지에 대응됨에 따라, 캡쳐된 화면이 선택된 템플릿에 대응되는지 여부를 판단한다. 제어부(130)는 캡쳐된 화면이 선택된 템플릿에 대응되지 않는 경우, 캡쳐된 화면을 기초로 컨텐트 서비스에 대응되는 템플릿을 생성한다.
일 실시예에 따른 제어부(130)는 제어 신호가 수신된 시점부터 기 설정된 시간 단위로 디바이스의 화면을 캡쳐할 수 있다. 또한, 제어부(130)는, 기 설정된 시간 단위로 캡쳐된 복수의 화면들을 비교하여 관문 페이지를 검출할 수 있다. 예를 들어, 제어부(130)는 제 1 화면과 제 2 화면을 비교한 결과, 제 1 화면에 표시된 컴포넌트가 제 2 화면에서 제거된 경우, 제 1 화면을 관문 페이지로 검출할 수 있다.
일 실시예에 따른 제어부(130)는 캡쳐된 화면에 포함된 컴포넌트들의 레이 아웃을 인식할 수 있다. 제어부(130)는 인식된 레이 아웃을 기초로, 컴포넌트들에 대응되는 디폴트 컴포넌트들이 표시된 템플릿을 생성할 수 있다.
다른 실시예에 따라, 제어부(130)는 캡쳐된 화면 상에서 텍스트 영역을 인식한다. 제어부(130)는 인식된 텍스트 영역의 위치 및 배열에 관한 정보가 포함된 템플릿을 생성할 수 있다.
일 실시예에 따른 제어부(130)는 생성된 템플릿을 이용하여 캡쳐된 화면으로부터 텍스트 영역을 검출할 수 있다. 제어부(130)는 검출된 텍스트 영역으로부터 검출된 텍스트를 기초로 디바이스(100)의 화면에 표시된 컨텐트를 인식할 수 있다.
일 실시예에 따른 제어부(130)는 검출된 텍스트와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 검출된 텍스트 중 컨텐트 인식 정보로 판단되는 텍스트를 검출할 수 있다. 또한, 제어부(130)는 검출된 텍스트가 캡쳐된 화면에서 표시된 위치에 기초하여, 템플릿을 업데이트 할 수 있다.
도 11은 다른 실시예에 따른 디바이스(1100)의 블록도이다.
도 11을 참조하면, 일 실시예에 따른 디바이스(1100)는, 디스플레이부(1110), 입/출력부(1120), 제어부(1130), 이외에, 오디오 처리부(1115), 오디오 출력부(1125), 통신부(1140), 튜너부(1150), 전원부(1160), 감지부(1170), 비디오 처리부(1180) 및 저장부(1190)를 더 포함할 수도 있다.
이하 상기 구성요소들에 대해 차례로 살펴본다.
디스플레이부(1110)는 컨텐트 서비스로부터 디바이스(1100)에 제공되는 컨텐트를 표시한다. 한편, 디스플레이부(1110)는 도 10을 참고하여 전술한 디스플레이부(110)와 대응될 수 있다.
디스플레이부(1110)는, 제어부(1130)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성한다. 디스플레이부(120)는 PDP, LCD, OLED, 플렉시블 디스플레이(flexible display)등으로 구현될 수 있으며, 또한, 3차원 디스플레이(3D display)로 구현될 수 있다. 또한, 디스플레이부(120)는, 터치 스크린으로 구성되어 출력 장치 이외에 입력 장치로 사용되는 것도 가능하다.
본 명세서에서, 디스플레이부(1110)는 컨텐트를 표시한다는 점에서 화면과 교환 가능한 의미로 사용될 수 있다.
입/출력부(1120)는 제어부(1130)의 제어에 의해 디바이스(1100)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 일 실시예에 따른 입/출력부(1120)는 디바이스(1100)에 표시되는 컨텐트를 제어하기 위한 제어 신호를 수신할 수도 있다. 입/출력부(1120)는 HDMI 포트(High-Definition Multimedia Interface port, 1121), 컴포넌트 잭(component jack, 1122), PC 포트(PC port, 1123), 및 USB 포트(USB port, 1124) 중 하나를 포함할 수 있다. 입/출력부(1120)는 HDMI 포트(1121), 컴포넌트 잭(1122), PC 포트(1123), 및 USB 포트(1124)의 조합을 포함할 수 있다.
입/출력부(1120)의 구성 및 동작은 본 발명의 실시예에 따라 다양하게 구현될 수 있다는 것은 당해 기술 분야의 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
제어부(1130)는 통상적으로 디바이스(1100)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1130)는, 저장부(1190)에 저장된 프로그램들을 실행함으로써, 디스플레이부(1110), 입/출력부(1120), 오디오 처리부(1115), 오디오 출력부(1125), 통신부(1140), 튜너부(1150), 전원부(1160), 감지부(1170), 비디오 처리부(1180) 및 저장부(1190) 등을 전반적으로 제어할 수 있다.
한편, 일 실시예에 따른 제어부(1130)은 도 10을 참고하여 전술한 제어부(130)와 대응될 수 있다.
통신부(1140)는 제어부(1130)의 제어에 의해 디바이스(1100)를 외부 장치(예를 들어, 입력 장치, 서비스 제공 장치 및 서버 등)와 연결할 수 있다. 예를 들어, 제어부(1130)는 통신부(1110)를 통해 연결된 서비스 제공 장치로 컨텐츠를 송/수신, 서비스 제공 장치에서부터 어플리케이션(application)을 다운로드 하거나 또는 웹 브라우징을 할 수 있다. 통신부(1140)는 디바이스(1100)의 성능 및 구조에 대응하여 무선 랜(1141), 블루투스(1142), 및 유선 이더넷(Ethernet, 1143) 중 하나를 포함할 수 있다. 또한, 통신부(1140)는 무선랜(1141), 블루투스(1142), 및 유선 이더넷(Ethernet, 1143)의 조합을 포함할 수 있다. 통신부(1140)는 제어부(1130)의 제어에 의해 컨텐트를 제어하기 위한 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다. 이러한 경우, 통신부(1140)는 전술한 입/출력부(1120)의 기능과 대응되는 기능을 수행할 수 있다.
통신부(1140)는 블루투스 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 도시되지 아니함), BLE(bluetooth low energy, 도시되지 아니함)를 더 포함할 수 있다.
통신부(1140)는 추출된 컨텐트 인식 정보를 서버(200)에 전송할 수 있다. 또한, 통신부(1140)는 서버(200)로부터 추출된 컨텐트 정보를 기초로 결정된 디바이스(100)의 사용자의 컨텐트 시청 패턴 정보를 수신할 수도 있다.
오디오 처리부(1115)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(1115)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리부(1115)는 복수의 컨텐츠에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 모듈을 구비할 수 있다.
오디오 출력부(1125)는 제어부(1130)의 제어에 의해 튜너부(1140)를 통해 수신된 방송 신호에 포함된 오디오를 출력한다. 오디오 출력부(1125)는 통신부(1140) 또는 입/출력부(1120)를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부(1125)는 제어부(1130)의 제어에 의해 저장부(190)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(1125)는 스피커(1126), 헤드폰 출력 단자(1127) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(1128) 중 적어도 하나를 포함할 수 있다. 오디오 출력부(1125)는 스피커(1126), 헤드폰 출력 단자(1127) 및 S/PDIF 출력 단자(1128)의 조합을 포함할 수 있다.
튜너부(1150)는 사용자 입력(예를 들어, 제어 신호, 예컨대, 채널 번호 입력, 채널의 업다운(up-down) 입력 및 EPG 화면에서 채널 입력)에 따라 채널 번호(예를 들어, 케이블 방송 506번)에 대응되는 주파수 대역에서 방송 신호를 수신할 수 있다.
튜너부(1150)는 지상파 방송, 케이블 방송, 위성 방송, 인터넷 방송 등과 같이 다양한 소스로부터 방송 신호를 수신할 수 있다. 튜너부(1150)는 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다. 튜너부(1150)를 통해 수신된 방송 신호는 디코딩(decoding, 예를 들어, 오디오 디코딩, 비디오 디코딩 또는 부가 정보 디코딩)되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 제어부(1130)의 제어에 의해 저장부(1190)에 저장될 수 있다.
튜너부(1150)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 디스플레이 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.
전원부(1160)는 제어부(1130)의 제어에 의해 디바이스(1100) 내부의 구성 요소들로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원부(1160)는 제어부(1130)의 제어에 의해 디바이스(1100) 내부에 위치하는 하나 또는 둘 이상의 배터리(도시되지 아니함)에서부터 출력되는 전원을 내부의 구성 요소들에게 공급할 수 있다.
일 실시예에 따른 감지부(1170)는, 사용자 입력을 감지하여, 감지된 신호를 제어부(1130)로 전달할 수 있다. 또한, 감지부(1170)는 전원 온/오프, 채널 선택, 채널-업/다운, 화면 설정을 위한 사용자 입력을 감지할 수 있다. 또한, 일 실시예에 따른 감지부(1170)는 디스플레이부(1110)에 표시되는 커서를 이동시키기 위한 사용자 입력, 후보 아이템들 간에 포커스를 이동시키기 위한 방향 키 입력을 감지할 수 있다. 또한, 감지부(1170)는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지한다.
마이크(1171)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(1171)는 수신된 음성을 전기 신호로 변환하여 제어부(1130)로 출력할 수 있다.
마이크(1171)는 디바이스(1100)와 일체형 또는 분리형으로 구현될 수 있다. 분리된 마이크(1171)는 통신부(1140) 또는 입/출력부(1120)를 통해 디바이스(1100)와 전기적으로 연결될 수 있다. 디바이스(1100)의 성능 및 구조에 따라 마이크(1171)가 제외될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
카메라부(1172)는 제어부(1130)의 제어에 따라 수신된 영상을 전기 신호로 변환하여 제어부(1130)로 출력할 수 있다.
광 수신부(1173)는 외부의 입력 장치에서부터 수신되는 광 신호(제어 신호를 포함)를 디스플레이부(1110)의 베젤의 광창(도시되지 아니함) 등을 통해 수신한다. 광 수신부(1173)는 입력 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 제어부(1130)의 제어에 의해 제어 신호가 추출될 수 있다.
비디오 처리부(1180)는, 디바이스(1100)가 수신한 비디오 데이터에 대한 처리를 수행한다. 비디오 처리부(1180)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.
제어부(1130)는 디바이스(1100)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 디바이스(1100)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램(RAM, 1181), 디바이스(1100)의 제어를 위한 제어 프로그램이 저장된 롬(ROM, 1182) 및 프로세서(Processor, 1183)를 포함할 수 있다.
프로세서(1183)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 도시되지 아니함)를 포함할 수 있다. 프로세서(1183)는 코어(core, 도시되지 아니함)와 GPU(도시되지 아니함)를 통합한 SoC(System On Chip)로 구현될 수 있다. 프로세서(1183)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.
또한, 프로세서(1183)는 복수의 프로세서를 포함할 수 있다. 예를 들어, 프로세서(1183)는 메인 프로세서(main processor, 도시되지 아니함) 및 슬립 모드(sleep mode)에서 동작하는 서브 프로세서(sub processor, 도시되지 아니함)로 구현될 수 있다.
그래픽 처리부(1184)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부(미도시)는 감지부(1170)를 통해 감지된 사용자 입력을 이용하여 화면의 레이 아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이 아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이부(120)의 디스플레이 영역 내에 표시된다.
제1 내지 n 인터페이스(1185-1 내지 1185-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
램(1181), 롬(1182), 프로세서(1183), 그래픽 처리부(1184), 제1 내지 n 인터페이스(1185-1 내지 1185-n)는 내부 버스(bus)(1186)를 통해 상호 연결될 수 있다.
본 실시예에서 "제어부"라는 용어는 프로세서(1183), 롬(1182) 및 램(1181)을 포함한다.
저장부(1190)는 제어부(1130)의 제어에 의해 디바이스(1100)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 예를 들어, 저장부(1190)는 디바이스(1100) 및 제어부(1130)의 제어를 위한 제어 프로그램, 제조사에서 최초 제공되거나 외부에서부터 다운로드 받은 어플리케이션, 어플리케이션과 관련된 GUI(graphical user interface), GUI를 제공하기 위한 오브젝트(예를 들어, 이미지 텍스트, 아이콘, 버튼 등), 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.
일 실시예에서 "저장부" 라는 용어는 저장부(1190), 제어부의 롬(1182), 램(1181) 또는 디바이스(1100)에 장착되는 메모리 카드(예를 들어, micro SD 카드, USB 메모리, 도시되지 아니함)를 포함한다. 또한, 저장부(1190)는 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD)를 포함할 수 있다.
저장부(1190)는 도시되지 아니한 방송 수신 모듈, 채널 제어 모듈, 볼륨 제어 모듈, 통신 제어 모듈, 음성 인식 모듈, 모션 인식 모듈, 광 수신 모듈, 디스플레이 제어 모듈, 오디오 제어 모듈, 외부 입력 제어 모듈, 전원 제어 모듈, 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 모듈, 음성 데이터베이스(DB), 또는 모션 데이터베이스(DB)를 포함할 수 있다. 저장부(1190)의 도시되지 아니한 모듈들 및 데이터 베이스는 디바이스(100)에서 방송 수신의 제어 기능, 채널 제어 기능, 볼륨 제어 기능, 통신 제어 기능, 음성 인식 기능, 모션 인식 기능, 광 수신 제어 기능, 디스플레이 제어 기능, 오디오 제어 기능, 외부 입력 제어 기능, 전원 제어 기능 또는 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 기능을 수행하기 위하여 소프트웨어 형태로 구현될 수 있다. 제어부(1130)는 저장부(1190)에 저장된 이들 소프트웨어를 이용하여 각각의 기능을 수행할 수 있다.
본 발명의 일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
실시 예에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
도면에 도시된 실시 예들에서 참조 부호를 기재하였으며, 실시 예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 본 발명이 한정되는 것은 아니며, 실시 예는 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.
실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 또한, 실시예는 동종의 또는 서로 다른 종류의 코어들, 서로 다른 종류의 CPU들을 채용할 수도 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 실시 예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
실시 예에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 실시 예의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
실시 예의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 실시 예에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 실시 예에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 실시 예들이 한정되는 것은 아니다. 실시 예에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 실시 예를 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 실시 예의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims (15)

  1. 디바이스에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 상기 디바이스에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택하는 단계;
    상기 디바이스에 제어 신호가 수신됨에 따라 캡쳐된 화면이 상기 컨텐트 인식 정보를 포함하는 관문 페이지에 대응되는지 여부를 판단하는 단계;
    상기 판단 결과에 기초하여, 상기 캡쳐된 화면이 상기 선택된 템플릿에 대응되는지 여부를 판단하는 단계; 및
    상기 캡쳐된 화면이 상기 선택된 템플릿에 대응되지 않는 경우, 상기 캡쳐된 화면을 기초로 상기 컨텐트 서비스에 대응되는 템플릿을 생성하는 단계를 포함하는 디바이스가 컨텐트를 인식하는 방법.
  2. 제 1항에 있어서, 상기 템플릿을 생성하는 단계는,
    상기 캡쳐된 화면에 포함된 컴포넌트들의 레이 아웃을 인식하는 단계를 포함하고,
    상기 템플릿에는,
    상기 인식된 레이 아웃을 기초로, 상기 컴포넌트들에 대응되는 디폴트 컴포넌트들이 표시되는 디바이스가 컨텐트를 인식하는 방법.
  3. 제 1 항에 있어서, 상기 템플릿을 생성하는 단계는,
    상기 캡쳐된 화면 상에서 텍스트 영역을 인식하는 단계를 더 포함하고,
    상기 템플릿에는 상기 인식된 텍스트 영역의 위치 및 배열에 관한 정보가 포함되는 디바이스가 컨텐트를 인식하는 방법.
  4. 제 1 항에 있어서,
    상기 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정하는 단계를 더 포함하고,
    상기 템플릿을 선택하는 단계는,
    상기 컨텐트 서비스의 종류에 대응되는 템플릿이 상기 디바이스에 저장되어 있지 않은 경우, 기 설정된 기본 템플릿을 상기 컨텐트 서비스에 대응되는 템플릿으로 선택하는 디바이스가 컨텐트를 인식하는 방법.
  5. 제 1 항에 있어서,
    상기 생성된 템플릿을 이용하여 상기 캡쳐된 화면으로부터 텍스트 영역을 검출하는 단계; 및
    상기 검출된 텍스트 영역으로부터 검출된 텍스트를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 단계를 더 포함하는 디바이스가 컨텐트를 인식하는 방법.
  6. 제 5 항에 있어서,
    상기 검출된 텍스트와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 상기 검출된 텍스트 중 컨텐트 인식 정보로 판단되는 텍스트를 검출하는 단계를 더 포함하는 디바이스가 컨텐트를 인식하는 방법.
  7. 제 6항에 있어서,
    상기 컨텐트 인식 정보로 판단되는 텍스트가 상기 캡쳐된 화면에서 표시된 위치에 기초하여, 상기 템플릿을 업데이트 하는 단계를 더 포함하는 디바이스가 컨텐트를 인식하는 방법.
  8. 컨텐트 서비스로부터 제공되는 컨텐트를 표시하는 디스플레이부;
    상기 컨텐트 서비스로부터 제공되는 컨텐트를 제어하기 위한 제어 신호를 수신하는 입력부; 및
    디바이스에 적어도 하나의 컨텐트를 제공하는 컨텐트 서비스의 종류가 결정됨에 따라, 상기 디바이스에 표시된 컨텐트를 인식하는데 이용되는 템플릿을 선택하고, 상기 디바이스에 제어 신호가 수신됨에 따라 캡쳐된 화면이 컨텐트 인식 정보를 포함하는 관문 페이지에 대응되는지 여부를 판단하고, 상기 캡쳐된 화면이 상기 관문 페이지에 대응됨에 따라, 상기 캡쳐된 화면이 상기 선택된 템플릿에 대응되는지 여부를 판단하고, 상기 캡쳐된 화면이 상기 선택된 템플릿에 대응되지 않는 경우, 상기 캡쳐된 화면을 기초로 상기 컨텐트 서비스에 대응되는 템플릿을 생성하는 제어부를 포함하는 컨텐트를 인식하는 디바이스.
  9. 제 8항에 있어서, 상기 제어부는,
    상기 캡쳐된 화면에 포함된 컴포넌트들의 레이 아웃을 인식하고,
    상기 템플릿에는,
    상기 인식된 레이 아웃을 기초로, 상기 컴포넌트들에 대응되는 디폴트 컴포넌트들이 표시되는 컨텐트를 인식하는 디바이스.
  10. 제 8 항에 있어서, 상기 제어부는,
    상기 캡쳐된 화면 상에서 텍스트 영역을 인식하고,
    상기 템플릿에는,
    상기 인식된 텍스트 영역의 위치 및 배열에 관한 정보가 포함되는 컨텐트를 인식하는 디바이스.
  11. 제 8 항에 있어서, 상기 제어부는,
    상기 컨텐트를 제공하는 컨텐트 서비스의 종류를 결정하고, 상기 컨텐트 서비스의 종류에 대응되는 템플릿이 상기 디바이스에 저장되어 있지 않은 경우, 기 설정된 기본 템플릿을 상기 컨텐트 서비스에 대응되는 템플릿으로 선택하는 컨텐트를 인식하는 디바이스.
  12. 제 8 항에 있어서, 상기 제어부는,
    상기 생성된 템플릿을 이용하여 상기 캡쳐된 화면으로부터 텍스트 영역을 검출하고, 상기 검출된 텍스트 영역으로부터 검출된 텍스트를 기초로 상기 디바이스의 화면에 표시된 컨텐트를 인식하는 컨텐트를 인식하는 디바이스.
  13. 제 12 항에 있어서, 상기 제어부는,
    상기 검출된 텍스트와 기 설정된 의미 인식 모델에 포함된 적어도 하나의 텍스트를 비교하여, 상기 검출된 텍스트 중 컨텐트 인식 정보로 판단되는 텍스트를 검출하는 컨텐트를 인식하는 디바이스.
  14. 제 13항에 있어서, 상기 제어부는,
    상기 컨텐트 인식 정보로 판단되는 텍스트가 상기 캡쳐된 화면에서 표시된 위치에 기초하여, 상기 템플릿을 업데이트 하는 컨텐트를 인식하는 디바이스.
  15. 제 1 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
PCT/KR2017/002752 2016-03-16 2017-03-14 컨텐트를 인식하는 방법 및 장치 WO2017160062A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201780017466.4A CN108781303B (zh) 2016-03-16 2017-03-14 用于识别内容的方法和设备
EP17766963.7A EP3416394A4 (en) 2016-03-16 2017-03-14 Method and device for recognizing content
US16/084,030 US11012739B2 (en) 2016-03-16 2017-03-14 Method and device for recognizing content

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160031690A KR102496618B1 (ko) 2016-03-16 2016-03-16 컨텐트를 인식하는 방법 및 장치
KR10-2016-0031690 2016-03-16

Publications (1)

Publication Number Publication Date
WO2017160062A1 true WO2017160062A1 (ko) 2017-09-21

Family

ID=59851511

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/002752 WO2017160062A1 (ko) 2016-03-16 2017-03-14 컨텐트를 인식하는 방법 및 장치

Country Status (5)

Country Link
US (1) US11012739B2 (ko)
EP (1) EP3416394A4 (ko)
KR (1) KR102496618B1 (ko)
CN (1) CN108781303B (ko)
WO (1) WO2017160062A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102145370B1 (ko) * 2018-07-16 2020-08-18 주식회사 케이티 화면을 제어하는 미디어 재생 장치, 방법 및 화면을 분석하는 서버

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080127253A1 (en) * 2006-06-20 2008-05-29 Min Zhang Methods and apparatus for detecting on-screen media sources
KR20140001007A (ko) * 2012-06-27 2014-01-06 삼성전자주식회사 방송 안내 정보 표시 방법 및 장치
KR20140064165A (ko) * 2012-11-19 2014-05-28 주식회사 에스비에스콘텐츠허브 실시간 방송 콘텐츠 인식 기반 부가 정보 제공 시스템 및 그 방법
KR20140113286A (ko) * 2013-03-14 2014-09-24 삼성전자주식회사 패턴 매칭 및 문자 인식을 이용한 사용자 시청 행동을 추적하는 장치 및 방법, 그리고 시스템
KR20150035582A (ko) * 2012-07-16 2015-04-06 엘지전자 주식회사 디지털 서비스 신호 처리 방법 및 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409237A (zh) 2001-09-20 2003-04-09 爱达数码科技(杭州)有限公司 根据显示屏幕大小对页面进行重新布局的系统和方法
US20080098357A1 (en) 2006-10-23 2008-04-24 Candelore Brant L Phantom information commands
CN102334142A (zh) * 2009-02-24 2012-01-25 三菱电机株式会社 人物追踪装置以及人物追踪程序
CN102065572B (zh) 2009-11-17 2015-07-01 中国移动通信集团广东有限公司 移动浏览器、网关、浏览系统及互联网页面访问方法
US9319625B2 (en) * 2010-06-25 2016-04-19 Sony Corporation Content transfer system and communication terminal
KR20140040126A (ko) 2011-04-12 2014-04-02 하부르크-프로이덴베르거 마쉬넨바우 게엠베하 벨트 스트립을 정렬하기 위한 장치 및 방법
US11830605B2 (en) 2013-04-24 2023-11-28 Koninklijke Philips N.V. Image visualization of medical imaging studies between separate and distinct computing system using a template
WO2014190216A1 (en) * 2013-05-22 2014-11-27 Thompson David S Fantasy sports interleaver
US9325646B2 (en) * 2013-10-28 2016-04-26 Verizon Patent And Licensing Inc. Providing contextual messages relating to currently accessed content
US9282367B2 (en) * 2014-03-18 2016-03-08 Vixs Systems, Inc. Video system with viewer analysis and methods for use therewith
CN105279525B (zh) * 2015-11-19 2018-11-27 浪潮金融信息技术有限公司 一种图像处理的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080127253A1 (en) * 2006-06-20 2008-05-29 Min Zhang Methods and apparatus for detecting on-screen media sources
KR20140001007A (ko) * 2012-06-27 2014-01-06 삼성전자주식회사 방송 안내 정보 표시 방법 및 장치
KR20150035582A (ko) * 2012-07-16 2015-04-06 엘지전자 주식회사 디지털 서비스 신호 처리 방법 및 장치
KR20140064165A (ko) * 2012-11-19 2014-05-28 주식회사 에스비에스콘텐츠허브 실시간 방송 콘텐츠 인식 기반 부가 정보 제공 시스템 및 그 방법
KR20140113286A (ko) * 2013-03-14 2014-09-24 삼성전자주식회사 패턴 매칭 및 문자 인식을 이용한 사용자 시청 행동을 추적하는 장치 및 방법, 그리고 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3416394A4 *

Also Published As

Publication number Publication date
EP3416394A1 (en) 2018-12-19
US20200296450A1 (en) 2020-09-17
KR20170107848A (ko) 2017-09-26
CN108781303A (zh) 2018-11-09
KR102496618B1 (ko) 2023-02-06
CN108781303B (zh) 2021-09-17
EP3416394A4 (en) 2018-12-19
US11012739B2 (en) 2021-05-18

Similar Documents

Publication Publication Date Title
WO2018043895A1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
WO2018043985A1 (en) Image display apparatus and method of operating the same
WO2020145596A1 (ko) 추천 컨텐츠 리스트 제공 방법 및 그에 따른 전자 장치
WO2017048076A1 (en) Display apparatus and method for controlling display of display apparatus
WO2016117836A1 (en) Apparatus and method for editing content
WO2015041405A1 (en) Display apparatus and method for motion recognition thereof
WO2017099331A1 (ko) 전자 장치 및 전자 장치의 사용자 인터페이스 제공 방법
WO2018155859A1 (en) Image display device and operating method of the same
WO2019013447A1 (en) REMOTE CONTROL DEVICE AND METHOD FOR RECEIVING VOICE FROM AN ASSOCIATED USER
WO2017119708A1 (en) Image display apparatus and method of operating the same
WO2015194693A1 (ko) 영상 표시 기기 및 그의 동작 방법
WO2017126835A1 (en) Display apparatus and controlling method thereof
WO2019054791A1 (ko) 컨텐트를 실행하는 방법 및 장치
WO2016167468A1 (en) Playback device for playing video content and operating method of the same
WO2016080700A1 (en) Display apparatus and display method
WO2016182361A1 (en) Gesture recognition method, computing device, and control device
WO2019146844A1 (en) Display apparatus and method for displaying screen of display apparatus
WO2016129840A1 (en) Display apparatus and information providing method thereof
WO2021118225A1 (en) Display device and operating method thereof
WO2020017930A1 (ko) 추천 채널 리스트 제공 방법 및 그에 따른 디스플레이 장치
WO2018124842A1 (ko) 컨텐트에 관한 정보를 제공하는 방법 및 디바이스
WO2017146454A1 (ko) 컨텐트를 인식하는 방법 및 장치
WO2015069082A1 (en) Display apparatus and method of controlling the same
WO2020071870A1 (en) Image display device and method of providing broadcast program information
WO2019135433A1 (ko) 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2017766963

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017766963

Country of ref document: EP

Effective date: 20180911

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17766963

Country of ref document: EP

Kind code of ref document: A1