WO2023068849A1 - 디스플레이 장치 및 그 동작 방법 - Google Patents

디스플레이 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2023068849A1
WO2023068849A1 PCT/KR2022/016054 KR2022016054W WO2023068849A1 WO 2023068849 A1 WO2023068849 A1 WO 2023068849A1 KR 2022016054 W KR2022016054 W KR 2022016054W WO 2023068849 A1 WO2023068849 A1 WO 2023068849A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
display device
screen
neural network
network model
Prior art date
Application number
PCT/KR2022/016054
Other languages
English (en)
French (fr)
Inventor
이종인
김세현
양관식
최길수
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2023068849A1 publication Critical patent/WO2023068849A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video stream to a specific local network, e.g. a Bluetooth® network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video stream to a specific local network, e.g. a Bluetooth® network
    • H04N21/43632Adapting the video stream to a specific local network, e.g. a Bluetooth® network involving a wired protocol, e.g. IEEE 1394
    • H04N21/43635HDMI
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies

Definitions

  • Various embodiments relate to a display device and an operating method thereof, and more specifically, to a display device capable of providing a content execution environment based on content executed on a display device and an operating method thereof.
  • a display device that receives and displays content executed on an external device connected to the display device, characteristic information of the content is obtained from the received content, and the display device can control the content execution environment of the display device. And it aims to provide an operation method thereof.
  • a display device may include a display, an input/output interface, a communication interface, a memory storing one or more instructions, and a processor executing the one or more instructions stored in the memory.
  • the processor may display a screen of an image received from a connected electronic device by executing the one or more instructions.
  • the processor may determine whether content execution starts by analyzing the displayed video screen using a first neural network model by executing the one or more instructions.
  • the processor may call a second neural network model when it is determined that the execution of the content starts by executing the one or more instructions.
  • the processor may obtain attribute information of the content by analyzing a video screen of the content using the second neural network model by executing the one or more instructions.
  • the processor may control an execution environment of the content based on the acquired attribute information by executing the one or more instructions.
  • the processor identifies the electronic device from HDMI Consumer Electronics Control (CEC) received through High Definition Multimedia Interface (HDMI) communication from the electronic device by executing the one or more instructions, and the identified The first neural network model learned in correspondence with the electronic device may be obtained.
  • HDMI Consumer Electronics Control CEC
  • HDMI High Definition Multimedia Interface HDMI
  • HDMI Consumer Electronics Control
  • HDMI High Definition Multimedia Interface
  • the first neural network model receives a plurality of user interface (UI) screens that can be received from the electronic device as training data, and the content executable UI screen and the content non-executable UI screen are input. It can include models trained to classify UI screens.
  • UI user interface
  • the processor by executing the one or more instructions, inputs the displayed video screen to the first neural network model and analyzes it, thereby determining whether the content executable UI screen is converted to the content executable UI screen.
  • the processor inputs the displayed video screen to the first neural network model and analyzes it, thereby determining whether the content executable UI screen is converted to the content executable UI screen.
  • the second neural network model may include a model trained to receive a plurality of video screens as training data and detect a text area or a logo area from the video screens.
  • the processor extracts the text area or the logo area from the video screen by inputting the video screen to the second neural network model for analysis, and extracts the text area or the logo area from the video screen. Attribute information of the content may be obtained based on the logo area.
  • the processor transmits the text or the logo area extracted from the text area to a server by executing the one or more instructions, and receives attribute information of the content related to the text or the logo area from the server. By receiving, attribute information of the content may be obtained.
  • the processor controls at least one of picture quality setting, sound setting, viewing age limit setting, and display device environment setting suitable for the content based on the acquired attribute information by executing the one or more instructions.
  • Content execution environment can be controlled.
  • the processor determines whether the execution of the content is terminated after controlling the execution environment of the content, and uses the first neural network model when it is determined that the execution of the content is terminated. By analyzing the video screen, it is possible to determine whether a new content execution is started.
  • a method of operating a display device may include an operation of displaying a screen of an image received from a connected electronic device.
  • the operating method of the display device may include an operation of determining whether content execution starts by analyzing the displayed video screen using a first neural network model.
  • the operating method of the display device may include calling a second neural network model when it is determined that the execution of the content starts.
  • the operating method of the display device may include obtaining attribute information of the content by analyzing a video screen of the content using the second neural network model.
  • a method of operating a display device may include controlling an execution environment of the content based on the acquired attribute information.
  • the method of operating the display device may include receiving from a connected electronic device An operation of displaying a screen of an image, an operation of determining whether content execution starts by analyzing the displayed video screen using a first neural network model, an operation of calling a second neural network model when it is determined that the execution of the content starts, An operation of obtaining property information of the content by analyzing a video screen of the content using a second neural network model, and an operation of controlling an execution environment of the content based on the acquired property information.
  • the display device even when a display device receives and displays content executed in an external device connected to the display device, by providing a method of obtaining characteristic information of the content from the received content, It is possible to control the content execution environment of the display device according to the characteristics of the display device. Accordingly, the display device can provide users with a content experience that matches the characteristics of the content.
  • FIG. 1 is a reference diagram for explaining a system for controlling an execution environment of a display device according to an exemplary embodiment.
  • FIG. 2 shows an example of a system including a display device, an electronic device and a server computer according to an embodiment.
  • FIG. 3 is a block diagram illustrating a specific configuration of a display device according to an exemplary embodiment.
  • 4A is a reference diagram for explaining a method of learning a first neural network model corresponding to each electronic device according to an embodiment.
  • 4B is a reference diagram for explaining a method of acquiring a first neural network model corresponding to a first electronic device according to an embodiment.
  • FIG. 5 is a flowchart illustrating an example of a method of operating a display device according to an exemplary embodiment.
  • FIG. 6 is a reference diagram for explaining the operating method shown in FIG. 5 according to an embodiment.
  • FIG. 7 is a flowchart illustrating a process of a method of obtaining a first neural network model in a display device according to an embodiment.
  • FIG. 8 is a flowchart illustrating a process of a method of detecting a content execution start time in the display device 100 according to an embodiment.
  • 9 is a reference diagram for explaining a method of determining a content execution time according to an example.
  • FIG. 9 is a reference diagram for explaining a method of determining a content execution time according to an example.
  • FIG. 10 illustrates an example of a neural network model for classifying an image screen according to an exemplary embodiment.
  • FIG. 11 is a reference diagram for explaining a method of recognizing content after a content execution start point in a display device according to an exemplary embodiment.
  • FIG 12 illustrates an example of an object detection model according to an example.
  • FIG. 13 is a reference diagram for explaining a process of obtaining property information of content by analyzing a video screen according to an example.
  • FIG. 14 illustrates an example of a table including picture quality setting values and sound setting values set according to genres of content according to an embodiment.
  • 15 is a reference diagram for explaining an operation of a display device when viewing age information is received as content property information according to an exemplary embodiment.
  • 16 is a reference diagram for describing switching between a content execution timing determination mode and a content property recognition mode according to an exemplary embodiment.
  • the term "user” refers to a person who controls a function or operation of a computing device or electronic device using a control device, and may include a viewer, administrator, or installer.
  • FIG. 1 is a reference diagram for explaining a system for controlling an execution environment of a display device according to an exemplary embodiment.
  • the system may include a display device 100, an electronic device 200, and a server computer 300.
  • a display device 100 may be an electronic device that receives content from various sources and displays the received content.
  • the display device 100 includes a TV, a set-top box, a mobile phone, a tablet PC, a digital camera, a camcorder, a laptop computer, a desktop, an e-reader, a digital broadcasting terminal, a personal digital assistant (PDA), and a portable multimedia player (PMP).
  • PDA personal digital assistant
  • PMP portable multimedia player
  • the display device 100 may be a fixed electronic device disposed at a fixed location or a mobile electronic device having a portable form, and may be a digital broadcasting receiver capable of receiving digital broadcasting.
  • the display device 100 may be controlled using IR (Infrared), BT (Bluetooth), Wi-Fi, and the like by various types of devices such as a remote controller or a mobile phone.
  • IR Infrared
  • BT Bluetooth
  • Wi-Fi Wireless Fidelity
  • various types of devices such as a remote controller or a mobile phone.
  • the electronic device 200 may execute content and transmit the content execution screen to the display device 100 through wired or wireless communication.
  • the electronic device 200 may include game consoles manufactured by various manufacturers.
  • the executed game content screen can be displayed on the display device 100 .
  • the display device 100 may control the environment of the display device 100 according to characteristics of content displayed on the display device 100 or content property information. For example, the display device 100 may perform image quality processing appropriate to properties of content displayed on the display device 100, set sound, or provide services such as age restriction.
  • the display device 100 when the display device 100 receives a screen as a result of content execution from the electronic device 200, it may be difficult for the display device 100 to directly obtain attribute information on content corresponding to the received screen from the electronic device 200. Therefore, in this situation, the display device 100 needs a method of acquiring information about content or property information of content received from the content execution screen received from the electronic device 200 .
  • the content execution screen received from the electronic device 200 In order to obtain attribute information about content from the content execution screen received from the electronic device 200 by the display device 100, the content execution screen received from the electronic device 200 must be analyzed. At this time, if the display device 200 attempts to acquire content attribute information by analyzing all image frames received from the electronic device 200, the accuracy of the analysis may decrease, and resources such as time and resources may be significantly wasted in the analysis.
  • the display device 100 systematizes the process of analyzing the content execution screen received from the electronic device 200, recognizes the content (30), and uses the attribute information of the recognized content to display the content execution environment of the display device 100. You want to control (50).
  • control of a content execution environment refers to providing a better user experience when the display device 100 displays a video screen received from the electronic device 200 in accordance with the characteristics of the video screen displayed on the display device 100.
  • the display device 100 may analyze the video screen received from the electronic device 200 to determine whether content execution starts. In order to obtain content attribute information, it is desirable to analyze a screen after a specific content is selected and executed by a user. Before the actual content selection and execution, various video screens, such as setting screens or UI screens for selecting content execution, may precede. You will not need to do any analysis to extract the properties of . Accordingly, it is preferable that the display device 100 searches for a point at which content execution starts before an operation for extracting attribute information of actual content, and analyzes for extracting content attribute information after the found point.
  • the display device 100 may use a first neural network model to analyze whether content execution starts from the video screen received from the electronic device 200 .
  • the first neural network model may be a first neural network model specialized for the electronic device 200 used to determine whether content execution starts from the video screens provided by the electronic device 200 by training based on the video screens provided by the electronic device 200. there is.
  • the display device 100 obtains property information of the content from the video screen received from the electronic device 200 by calling a second neural network model when it is determined that content execution starts by analyzing the video screen received from the electronic device 200. action can be performed.
  • the display device 100 may recognize a text area or a logo area from an image screen received from the electronic device 200 and obtain content property information based on the recognized text area or logo area.
  • Attribute information of the content may include, for example, metadata of the content, such as a title or genre of the content, or viewing age possibility information of the content.
  • the display device 100 may control an execution environment of content based on acquired content attribute information.
  • the content execution environment includes a picture quality processing part for processing or controlling video data displayed on the display device 100 while the display device 100 reproduces audio video data included in the content, and processing or controlling audio data output from the display device 100. It may include services such as a sound setting part for and a viewing age restriction.
  • the server computer 300 may communicate with the display device 100 through a communication network 70 .
  • the server computer 300 may receive a request from the display device 100 through the communication network 70 and transmit a response corresponding to the request to the display device 100 .
  • the display device 100 may store the first neural network model or the second neural network model used when analyzing the video screen previously received from the electronic device 200 in the display device 100 itself, but the display device 100 The first neural network model or the second neural network model may be requested and received from the server computer 300 . Also, the display device 100 may receive an updated version of the first neural network model or the second neural network model from the server computer 300 periodically or upon request.
  • the display device 100 when the display device 100 obtains property information about content by analyzing a video screen previously received from the electronic device 200 and recognizing a text area or a logo area, the text or logo area extracted from the recognized text area. It is possible to transmit information about to the server computer 300 and receive property information of content obtained based on the text or logo area transmitted from the server computer 300 .
  • the server computer providing the first neural network model or the second neural network model may be the same as or different from the server computer providing attribute information of the content obtained based on the text or logo area.
  • FIG. 2 shows an example of a system including a display device, an electronic device and a server computer according to an embodiment.
  • the system may include a display device 100, an electronic device 200, and a server computer 300.
  • the electronic device 200 is an electronic device that is connected to the display device 100 by wire or wirelessly to transmit and receive data and/or content.
  • the electronic device 200 may execute game content and transmit a content execution screen to the display device 100 .
  • the electronic device 200 may transmit other video contents and/or audio contents other than game contents.
  • the electronic device 200 may be any device capable of transmitting and receiving data by connecting to the display device 100 .
  • the electronic device 200 may include various types of electronic devices capable of providing content to the display device 100, such as, for example, a set-top box, a DVD player, a Blu-ray disc player, a PC, and a game machine.
  • the electronic device 200 and the display device 100 may transmit/receive content by being connected through various connection means.
  • Various connection means may include, for example, a cable, and the electronic device 200 and the display device 100 may include one or more ports for cable connection.
  • the one or more ports may include, for example, a digital input interface such as an HDMI port, DisplayPort, Type-C, or the like.
  • the electronic device 200 may be a device dedicated to game content, such as a game console.
  • the electronic device 200 is not limited to a game console, and may be any type of device that provides various contents such as game contents, movie contents, and video contents.
  • the electronic device 200 may include an input/output unit 210, a communication unit 220, a memory 230, and a control unit 240.
  • the input/output unit 210 may be connected to an external device through a wire to input or output data. According to an embodiment, the input/output unit 210 may be connected to the input/output unit 110 of the display device 100 by wire to transmit an execution screen of content executed in the electronic device 200 to the display device 100 .
  • the input/output unit 210 may include an HDMI port.
  • the input/output unit 210 may transmit device information about the electronic device 200 to the display device 100 through an HDMI photo call.
  • the communication unit 220 can wirelessly connect to an external device to input or output data. According to an embodiment, the communication unit 220 is wirelessly connected to the communication unit 110 of the display device 100 to transmit a video screen executed on the electronic device 200 to the display device 100 .
  • the memory 230 may include data processed by the controller 240 and applications used for processing by the controller 240 .
  • applications used for processing by the controller 240 For example, one or more game applications executed by the controller 240 and execution result data of the game applications may be stored.
  • the controller 240 may control the components of the electronic device 200 as a whole. Also, the controller 240 may execute a game application by executing instructions stored in the memory 230 .
  • a user input for controlling execution of the game content may be received from a remote device controller that controls the electronic device 200.
  • the electronic device 200 may directly receive user input from the remote device controller that controls the electronic device 200 from the remote device controller, or the remote device controller may be connected to the display device 100 to display the user input from the remote device controller. It can also be received through 100.
  • the display device 100 may refer to a device capable of displaying image content, video content, game content, graphic content, and the like by having a display.
  • the display device 100 may output or display images or content received from the electronic device 200 .
  • the display device 100 may include various types of electronic devices capable of receiving and outputting content, such as, for example, network TV, smart TV, Internet TV, web TV, IPTV, PC, and the like.
  • the display device 100 may be referred to as a display device in that it receives and displays content, and may also be referred to as a content receiving device, a sink device, an electronic device, a computing device, and the like.
  • the display device 100 may include an input/output unit 110, a communication unit 120, a video processing unit 130, a display 140, an audio processing unit 150, an audio output unit 160, a memory 170, and a control unit 180.
  • the input/output unit 110 may receive a video signal and/or an audio signal from the electronic device 200 according to a connected protocol under the control of the controller 180 .
  • the communication unit 120 may include one or more modules enabling wireless communication between the display device 100 and a wireless communication system or between the display device 100 and a network where other electronic devices are located.
  • the communication unit 120 may receive a video signal and/or an audio signal received from the electronic device 200 according to a wireless communication protocol under the control of the control unit 180 .
  • the communication unit 120 may connect to the server computer 300 under the control of the controller 180 to transmit a request to the server computer 300 and receive a response to the request from the server computer 300 .
  • the video processing unit 130 may process and output an image signal received from the input/output unit 110 or the communication unit 120 to the display 140.
  • the display 140 may display the video signal received from the video processing unit 130 on the screen.
  • the audio processor 150 may convert an audio signal received from the input/output unit 110 or the communication unit 120 into an analog audio signal and output the analog audio signal to the audio output unit 160.
  • the audio output unit 160 may output a received analog audio signal through a speaker.
  • the memory 170 may store programs related to the operation of the display device 100 and various data generated during operation of the display device 100 .
  • the memory 170 analyzes the function of the display device 100 disclosed in the present disclosure, that is, the video screen received from the electronic device 200 to detect a content execution start time, and the video screen at which the content execution start time is detected.
  • One or more instructions for realizing a function of acquiring attribute information of content to be executed by analyzing and controlling a content execution environment based on the acquired attribute information of the content may be stored.
  • the controller 180 may control the overall operation of the display device 100 by executing one or more instructions stored in the memory 170 .
  • the controller 180 displays a screen of an image received from an electronic device connected to the display device 100 by executing one or more instructions stored in the memory 170 and analyzes the displayed image screen using a first neural network model. It is determined whether content execution starts, and when it is determined that content execution starts, a second neural network model is called, and a video screen of the content is analyzed using the second neural network model to obtain property information of the content, An execution environment of the content may be controlled based on the acquired attribute information.
  • the control unit 180 identifies the electronic device from HDMI CEC received through HDMI communication from the electronic device by executing one or more instructions stored in the memory 170, and the learned electronic device corresponding to the identified electronic device.
  • a first neural network model may be obtained.
  • the first neural network model receives a plurality of user interface (UI) screens, which can be received from the electronic device, as training data, and outputs the content executable UI screen and the content executable UI screen. It can include models that have been trained to classify.
  • UI user interface
  • the controller 180 executes one or more instructions stored in the memory 170, converts the displayed video screen into the first neural network model and analyzes it, and converts the content-executable UI screen to the content-executable UI screen. It is determined whether or not the content is executed, and it is determined that the execution of the content starts when it is determined that the content is executed from the UI screen capable of executing the content to the UI screen in which the content cannot be executed.
  • the second neural network model may include a model trained to receive a plurality of video screens as training data and detect a text area or a logo area from the video screens.
  • the controller 180 executes one or more instructions stored in the memory 170 to extract the text area or the logo area from the video screen by inputting the image screen to the second neural network model and analyzing the image screen, Attribute information of the content may be obtained based on the text area or the logo area.
  • the controller 180 transmits text extracted from the text area or the logo area to a server by executing one or more instructions stored in the memory 170, and the server transmits the content related to the text or the logo area. Attribute information of the content may be acquired by receiving attribute information.
  • the controller 180 executes one or more instructions stored in the memory 170 to set at least one of image quality setting, sound setting, viewing age limit setting, and display device environment setting suitable for the content based on the acquired attribute information. By controlling, it is possible to control the execution environment of the content.
  • control unit 180 executes one or more instructions stored in the memory 170 to control the execution environment of the content, then determines whether the execution of the content is terminated, and upon determining that the execution of the content is terminated, the first neural network By analyzing the video screen using the model, it may be determined whether a new content execution starts.
  • the server computer 300 may serve to receive a request from the display device 100 and provide a response corresponding to the received request.
  • the server computer 300 may include a communication unit 310, a memory 320, and a control unit 330.
  • the communication unit 310 may communicate with the display device through a wired or wireless communication method.
  • the memory 320 may include data processed by the controller 330 and applications used for processing by the controller 330 .
  • the memory 320 may store one or more programs that perform text recognition or image recognition.
  • the memory 320 may include a database storing attribute information about content.
  • the controller 330 may control the components of the server computer 300 as a whole. Also, the controller 330 may execute an application by executing instructions stored in the memory 320 .
  • the controller 330 receives data such as text, text area, logo image, etc. extracted from the video screen from the display device 100, and performs text recognition or image recognition based on the received data, thereby corresponding to the video screen. You can get text or image.
  • the control unit 330 retrieves content property information corresponding to the acquired text or image from a content property storage database, thereby obtaining text, text area, or content property information corresponding to a logo image received from the display device 100. can be obtained.
  • the content attribute information may include various metadata about the content, such as category, genre, and viewing age information of the content.
  • FIG. 3 is a block diagram illustrating a specific configuration of a display device according to an exemplary embodiment.
  • the display device 100 may include an input/output unit 110, a communication unit 120, a video processing unit 130, a display 140, an audio processing unit 150, an audio output unit 160, a memory 170, a control unit 180, and a sensing unit 190.
  • the input/output unit 110 transmits video (eg, motion picture, etc.), audio (eg, voice, music, etc.), and additional information (eg, EPG, etc.) from the outside of the display device 100 under the control of the controller 180.
  • the input/output unit 110 may include one of an HDMI port (High-Definition Multimedia Interface port), a component jack, a PC port, and a USB port, or may include a combination of one or more.
  • the input/output unit 110 may further include DisplayPort (DP), Thunderbolt, and Mobile High-Definition Link (MHL).
  • DP DisplayPort
  • Thunderbolt Thunderbolt
  • MHL Mobile High-Definition Link
  • the communication unit 120 may include one or more modules enabling wireless communication between the display device 100 and a wireless communication system or between the display device 100 and a network where other electronic devices are located.
  • the communication unit 120 may include a broadcast receiving module 121, a mobile communication module 122, a wireless Internet module 123, and a short-distance communication module 124.
  • the broadcast reception module 121 may include a module for receiving a broadcast signal.
  • the mobile communication module 122 transmits and receives a radio signal with at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include a voice call signal, a video call signal, or various types of data according to text/multimedia message transmission/reception.
  • the wireless Internet module 123 refers to a module for wireless Internet access, and may be built into or external to a device.
  • Wireless Internet technologies include wireless LAN (WLAN) (WiFi), wireless broadband (Wibro), world interoperability for microwave access (Wimax), high speed downlink packet access (HSDPA), and the like.
  • Wi-Fi wireless LAN
  • Wibro wireless broadband
  • Wimax wireless broadband
  • HSDPA high speed downlink packet access
  • P2P Wi-Fi peer to peer
  • the short distance communication module 124 refers to a module for short distance communication.
  • Bluetooth Bluetooth Low Energy (BLE), Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, and the like may be used as short-distance communication technologies.
  • BLE Bluetooth Low Energy
  • RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • UWB Ultra Wideband
  • ZigBee ZigBee
  • the video processing unit 130, the display 140, and the audio processing unit 150 are as described above with reference to FIG. 2.
  • the audio output unit 160 may output audio (eg, voice, sound) input through the communication unit 120 or the input/output unit 110 . Also, the audio output unit 165 may output audio stored in the memory 170 under the control of the controller 180 .
  • the audio output unit 160 may include at least one of a speaker 161, a headphone output terminal 162, or a Sony/Philips Digital Interface (S/PDIF) output terminal 163, or a combination thereof.
  • S/PDIF Sony/Philips Digital Interface
  • the sensing unit 190 senses a user's voice, a user's video, or a user's interaction, and may include a microphone 191, a camera unit 192, and a light receiver 193.
  • the microphone 191 receives the user's utterance.
  • the microphone 191 may convert the received voice into an electrical signal and output it to the controller 180 .
  • the user's voice may include, for example, a voice corresponding to a menu or function of the display apparatus 100 .
  • the camera unit 192 may receive an image (eg, continuous frames) corresponding to a user's motion including a gesture within the camera recognition range.
  • the controller 180 may select a menu displayed on the display device 100 or perform control corresponding to the motion recognition result by using the received motion recognition result.
  • the light receiving unit 193 receives an optical signal (including a control signal) received from an external control device.
  • the light receiving unit 193 may receive an optical signal corresponding to a user input (eg, touch, pressure, touch gesture, voice, or motion) from the control device.
  • a control signal may be extracted from the received optical signal by control of the control unit 180 .
  • the memory 170 may include a content execution environment control module 171 , a first neural network model database 172 , and a second neural network model database 173 .
  • the content execution environment control module 171 may include one or more instructions for managing and controlling environment information of the display device 100 suitable for the content displayed on the display 130 .
  • the content execution environment control module 171 refers to the first neural network model database 172 and the second neural network model database 173 and analyzes the video screen received from the electronic device 200 to detect the start time of content execution, and after the start time of content execution It may include one or more instructions for acquiring content property information by analyzing a received video screen and controlling an execution environment of the content based on the obtained content property information.
  • control of a content execution environment refers to providing a better user experience when the display device 100 displays a video screen received from the electronic device 200 in accordance with the characteristics of the video screen displayed on the display device 100.
  • the first neural network model database 172 may include a plurality of first neural network models used to analyze an image received from the electronic device 200 and determine whether content execution starts.
  • the first neural network model is applied to each electronic device. It may be desirable to learn correspondingly.
  • the first neural network model database 172 may include a plurality of first neural network models learned to correspond to each electronic device of the plurality of electronic devices. In FIG.
  • the first neural network model database 172 includes a first neural network model 410 learned using the user interface screen of the first electronic device, a first neural network model 420 learned using the user interface screen of the second electronic device, and a third neural network model database 172 . It may include the first neural network model 430 learned using the user interface screen of the electronic device.
  • a first neural network model corresponding to the first game console device may be acquired by training the first neural network model using user interface screens output from the first game console device, with respect to the first game console device;
  • a first neural network model corresponding to the second game console device may be acquired by learning the first neural network model using user interface screens output from the second game console device with respect to the second game console device.
  • the second neural network model 1300 may represent a neural network model used to acquire attribute information of content by analyzing an image received from the electronic device 200 .
  • the neural network model included in the first neural network model database 172 may be stored in a memory when the display device 100 is manufactured, or may be downloaded from a server and stored after the display device 100 is manufactured. In addition, such a neural network model may be periodically or non-periodically updated through a server.
  • the memory 170 is shown as storing the first neural network model database 172 and the second neural network model database 173, but the first neural network model database 172 and the second neural network model database 173 are necessarily stored in the display device. It doesn't have to be stored at 100.
  • the first neural network model database 172 and the second neural network model database 173 are present in the server computer, and the display device 100 transmits a query referring to the first neural network model or a query referring to the second neural network model to the server computer and retrieves the query from the server computer. You may receive a response to
  • 4A is a reference diagram for explaining a method of learning a first neural network model corresponding to each electronic device according to an embodiment.
  • a plurality of different electronic devices may be connected to the display device 100, and the display device 100 may receive and display images from each of the different electronic devices.
  • Each electronic device may use a user interface environment provided by the electronic device itself.
  • the format of the main screen 411 provided by the first electronic device 200a, the format of the main screen 421 provided by the second electronic device 200b, and the main screen 431 provided by the third electronic device 200c are all different from each other.
  • the display device 100 uses the neural network model learned using the UI screen provided by the connected electronic device.
  • more accurate results can be obtained by analyzing the image received from the corresponding electronic device.
  • the first neural network model corresponding to the first electronic device 200a may be obtained by learning using UI screens 411 provided from the first electronic device 200 as training data.
  • the second neural network model 420 corresponding to the second electronic device 200b may be obtained by learning using UI screens 421 provided from the second electronic device 200 as training data.
  • the third neural network model 430 corresponding to the third electronic device 200c may be obtained by learning using UI screens 431 provided from the third electronic device 200c as training data.
  • 4B is a reference diagram for explaining a method of acquiring a first neural network model corresponding to a first electronic device according to an embodiment.
  • the neural network model 410 corresponding to the first electronic device may be obtained by learning using UI screens provided by the first electronic device. Specifically, the neural network model 410 corresponding to the first electronic device can be obtained by classifying and learning UI screens 412 incapable of executing content and UI screens 413 in which content can be executed among UI screens provided by the first electronic device.
  • the first electronic device may provide various UI screens to execute content.
  • the first electronic device may include a setting UI screen for changing settings of the first electronic device, a menu UI screen for displaying and selecting items of content executable on the first electronic device, 1 A screen displaying a logo of an electronic device, a logo screen of a selected content producer, and a logo screen of selected content may be provided.
  • the setting UI screen or the logo display screen cannot be operated for content execution, so it is classified as a non-content executable UI screen 412, and the menu UI screen can operate content execution, so the content execution UI is possible. It can be classified as screen 413.
  • the neural network model corresponding to the first electronic device includes UI screens tagged as the UI screen 413 capable of executing content and UI screens tagged as the UI screen 412 unable to execute content among the UI screens provided by the first electronic device.
  • UI screens tagged as the UI screen 413 capable of executing content
  • UI screens tagged as the UI screen 412 unable to execute content among the UI screens provided by the first electronic device.
  • the neural network model corresponding to the second electronic device receives UI screens tagged as UI screens capable of executing content and UI screens tagged as UI screens incapable of executing content among UI screens provided by the second electronic device.
  • a probability of a UI screen in which content can be executed or a probability of a UI screen in which content cannot be executed can be output as a result.
  • a neural network model that outputs the category of the input UI screen as a result by receiving and learning tagged UI screens may use a Deep Neural Network (DNN) or the like.
  • DNN Deep Neural Network
  • FIG. 5 is a flowchart illustrating an example of a method of operating a display device according to an exemplary embodiment.
  • the display device 100 may display a screen of an image received from a connected electronic device.
  • the display device 100 may receive a video screen from the electronic device 200 after being wired or wirelessly connected to the electronic device 200 and display the received video screen on the display.
  • the video screen received by the display device 100 from the electronic device 200 may include, for example, a setting UI screen, a menu UI screen, a logo display screen, and an actual content video screen.
  • the display device 100 may determine whether content execution starts by analyzing the displayed video screen using the first neural network model.
  • the first neural network model may indicate a neural network model trained to determine whether the input screen is a content executable UI screen or a content nonexecutable UI screen by receiving and analyzing a displayed video screen. Specifically, the first neural network model receives and analyzes a video screen and outputs at least one of the probability that the input screen is a UI screen capable of executing content or the probability that the screen is a non-executable UI screen, so that the input screen is a UI screen capable of executing content. It can be determined whether it is a non-executable UI screen. For example, if the first neural network model analyzes the video screen and the probability that the video screen is a UI screen capable of executing content is 90% or more, it may be determined that the video screen is a UI screen capable of executing content.
  • the display device 100 may determine that content execution starts when the displayed video screen is switched from a content executable UI screen to a content executable UI screen. For example, the display device 100 may determine that content execution starts when the result of image analysis through the first neural network model is converted from a UI screen capable of executing content to a UI screen incapable of executing content.
  • the display device 100 may determine whether content execution starts by analyzing the displayed video screen using the first neural network model learned in correspondence with the connected electronic device 200 .
  • the display apparatus 100 determines whether content execution starts by analyzing the displayed video screen, and when it is not determined that content execution starts, the display device 100 may continuously analyze the video screen.
  • the display device 100 determines whether content execution starts by analyzing the displayed video screen, and when it is determined that content execution starts, it may proceed to operation 530.
  • the display device 100 may call a second neural network model.
  • the second neural network model may indicate a neural network model learned to extract a text area or a logo area from which attribute information of content may be derived from an input screen by receiving and analyzing a video screen.
  • the display device 100 may obtain attribute information of the content by analyzing the video screen using the second neural network model.
  • the display device 100 may acquire text or a logo from a text area or a logo area of an image screen by using a second neural network model, and obtain property information of content using the thus obtained text or logo. there is.
  • the display device 100 transmits the text or logo extracted from the text area or logo area of the video screen or the text area or logo area to the server using the second neural network model, and the server transmits the text or logo that is matched to the text or logo.
  • Attribute information of the content may be obtained.
  • Attribute information of the content may include metadata including a title of the content, a category of the content, and the like.
  • the display device 100 may control an execution environment of a content image based on the obtained content attribute information.
  • the display device 100 may set a picture quality suitable for the corresponding content, set a sound suitable for the corresponding content, or provide a viewing age restriction service suitable for the corresponding content, based on attribute information of the content.
  • FIG. 6 is a reference diagram for explaining the operating method shown in FIG. 5 according to an embodiment.
  • the display device 100 may receive an image 600 output from the electronic device 200 from the electronic device 200.
  • the display device 100 may receive the image 600 in frame units.
  • the display device 100 may analyze the received images and operate in the content execution time determination mode 610 until content execution start is detected.
  • the display device 100 may perform the content execution timing determination operation 630 using the first neural network model. For example, when the display device 100 inputs the received image frame to the first neural network model and analyzes it, it is determined that the k-1th frame is a content executable UI screen and the kth frame is a content executable UI screen. , the display device 100 may detect (640) that content execution has started. The display device 100 may analyze the frames received from the electronic device 200 by sampling them every frame or at regular time intervals, for example, at 100 ms intervals, until the content execution time is detected.
  • the display device 100 may call the second neural network model and perform the content property recognition operation 650 without using the first neural network model any longer.
  • the display device 100 may maintain the content property recognition mode 620 in which the content property recognition operation 650 is performed using the second neural network model until content property recognition succeeds.
  • the display device 100 may sample and analyze frames received from the electronic device 200 at regular intervals until content property recognition succeeds.
  • the display device 100 detects a text area or logo area from the video screen using a second neural network model, and obtains content property information based on the text or logo extracted from the detected text area or logo area. can do.
  • the display device 100 succeeds in recognizing the content property by analyzing the image using the second neural network model (660), it can control the execution environment of the content based on the content property (670).
  • FIG. 7 is a flowchart illustrating a process of a method of obtaining a first neural network model in a display device according to an embodiment.
  • the electronic device 200 and the display device 100 may be connected.
  • the display device 100 and the electronic device 200 may be connected through wired communication.
  • the display device 100 and the electronic device 200 may be connected through an HDMI cable, and at this time, the input/output unit 110 of the display device 100 and the input/output unit 210 of the electronic device 100 may communicate according to an HDMI communication protocol.
  • the display device 100 and the electronic device 200 may be connected through wireless communication.
  • the display device 100 and the electronic device 200 may be connected through wireless communication such as Bluetooth, BLE, ZigBee, Wi-Fi, etc.
  • the display device 100 and the electronic device 200 may communicate according to each communication protocol.
  • the display device 100 may receive device information of the electronic device 200 from the electronic device 200.
  • the display device 100 may receive device information about the electronic device 200 using an HDMI-CEC or HDMI Info frame.
  • the device information may include at least one of the device type, manufacturer, business name, and model name of the electronic device 200, but is not limited thereto.
  • the display device 100 may receive device information about the electronic device 200 according to the connected wireless communication protocol.
  • the device information may include at least one of the device type, manufacturer, business name, and model name of the electronic device 200, but is not limited thereto.
  • the display device 100 may identify the electronic device 200 from device information received from the electronic device 200.
  • the display device 100 may obtain a first neural network model corresponding to the identified electronic device 200.
  • the display device 100 may include a first neural network model database 172 including first neural network models learned for each of one or more electronic devices connectable to the display device 100 .
  • the display device 100 may acquire a neural network model corresponding to the identified electronic device from the first neural network model database 172 .
  • the display device 100 may obtain a first neural network model corresponding to the first electronic device.
  • FIG. 8 is a flowchart illustrating a process of a method of detecting a content execution start time in the display device 100 according to an embodiment. The operation shown in FIG. 8 may be performed after the operation shown in FIG. 7 .
  • the electronic device 200 may transmit an image to the display device 100.
  • the display device 100 may display the image received from the electronic device 200 on the screen and analyze the displayed image screen using the first neural network model.
  • the first neural network model may be obtained through, for example, the operation shown in FIG. 7 .
  • the display device 100 may determine whether the content executable UI screen is switched to the content executable UI screen according to the video screen analysis.
  • the display device 100 analyzes the image received from the electronic device 200 frame by frame. By inputting the received image frame to the first neural network model, it is possible to determine whether the input image frame is a UI screen in which content can be executed or a UI in which content cannot be executed. .
  • the display device 100 may determine whether the video screen is switched from a UI screen capable of executing content to a UI screen incapable of executing content, by using a result output from the first neural network model. If a content executable UI screen is followed by a content executable UI screen, it may be determined that the user selects a certain content from the content executable UI screen and the corresponding content is executed, that is, content execution has started.
  • FIG. 9 is a reference diagram for explaining a method of determining a content execution time according to an example.
  • the display device 100 sequentially receives video screens, that is, a setting UI 910, a menu UI screen 920, and a device logo display screen 930 from an electronic device 200 connected to the display device 100.
  • the display device 100 inputs the setting UI screen 910 received from the electronic device 200 to the first neural network model 400 corresponding to the electronic device 200, and thus obtains a result that the corresponding input screen is a content-executable UI screen.
  • the display device 100 then inputs the received menu UI screen 920 to the first neural network model 400 corresponding to the electronic device 200, thereby obtaining a result that the corresponding input screen is a content executable UI screen.
  • the transition from the setting UI screen 910 to the menu UI screen 920 is a transition from a content non-executable UI screen to a content executable UI screen, it may be determined that the condition of operation 830 is not satisfied.
  • the display device 100 inputs the received device logo output screen 930 to the first neural network model 400 corresponding to the electronic device 200, thereby obtaining a result that the corresponding input screen is a content-executable UI screen.
  • the transition from the menu UI screen 920 to the device logo display screen 930 is a transition from a content executable UI screen to a content non-executable UI screen, it can be determined that the condition of operation 830 is satisfied.
  • step 820 to analyze the video received from the electronic device 200.
  • operation 840 may be performed.
  • the display device 100 may determine that the content execution start time has been detected.
  • the display device 100 may call a second neural network to recognize the executed content according to the detection of content execution start time.
  • the second neural network may represent a neural network trained to detect a text area or a logo area by analyzing an image screen.
  • FIG. 10 illustrates an example of a neural network model for classifying an image screen according to an exemplary embodiment.
  • a deep neural network may perform learning through training data.
  • the trained deep neural network may perform an inference operation, which is an operation for object recognition.
  • the deep neural network can be designed in a variety of ways according to a model implementation method (eg, CNN (Convolution Neural Network), etc.), result accuracy, result reliability, processor processing speed and capacity, and the like.
  • FIG. 10 is a diagram showing the structure of a convolutional neural network according to an embodiment.
  • the convolutional neural network 1000 has a structure in which an input image 1010 is input, and output data 1030 is output after passing through N convolutional layers 1020 .
  • the convolutional neural network 1000 may be a deep convolutional neural network including two or more convolutional layers.
  • the display device 100 may extract "features" such as a border, a line, and a color from an input image using the convolutional neural network 1000 .
  • Each of the N convolution layers 1020 included in the convolution neural network 1000 may receive data, process the received data, and generate output data.
  • the neural network may generate a first feature map 1021 by convolving an image input to a convolution layer with one or more kernels or filters.
  • the generated first feature map is subsampled to obtain a second feature map 1022, the second feature map 1022 is input to the second convolution layer, and the second feature map input from the second convolution layer is one.
  • a third feature map 1023 may be generated by convolution with the above kernels or filters.
  • the initial convolutional layers of the convolutional neural network 1000 may be operated to extract low-level features such as edges or gradients from an input image. As the later convolutional layers progress, more complex features can be extracted.
  • One or more convolutional layers that receive and output feature maps within the convolutional neural network 1000 may be hidden layers (eg, hidden convolutional layers).
  • other processing operations may be performed in addition to an operation of convolving by applying one or more kernels to a feature map.
  • operations such as an activation function and pooling may be performed.
  • the image processing device may apply an activation function to change the values of the feature map extracted as a result of performing the convolution operation into a non-linear value of "existence or absence" of the feature of the content executable UI screen.
  • the ReLu function may be used, but is not limited thereto.
  • FIG. 11 is a reference diagram for explaining a method of recognizing content after a content execution start point in a display device according to an exemplary embodiment.
  • the display device 100 may analyze a content video screen using a second neural network model. According to an example, the display device 100 may be acquired according to the operation shown in FIG. 8 .
  • the second neural network model is a neural network used to detect one or more objects from an input image.
  • two stage methods such as Faster R-CNN, R_FCN [Region-based Fully Convolutional Networks] and FPN-FRCN.
  • single stage methods algorithms such as YOLO, SSD [Single Shot Mutibox Detector], or RetinaNet.
  • the second neural network model includes an object detection model that detects an object including text or a logo from an input screen by learning a plurality of input images including text and a plurality of input images including logo images. can do.
  • FIG 12 illustrates an example of an object detection model according to an example.
  • the object detection model may detect one or more objects from an input image using one or more neural networks, and output object information including object classes and object positions corresponding to the one or more detected objects.
  • object detection determines where objects are located in a given image (object localization) and determines which category each object belongs to (object classification). Therefore, object detection models generally have three steps: object candidate region selection (informative region selection), feature extraction from each candidate region (feature extraction), and object candidate region classification by applying a classifier to the extracted features. can be rough. Depending on the detection method, localization performance can be improved through post-processing such as bounding box regression.
  • R-CNN which is an object detection method combining region proposal and CNN according to an example of an object detection model, is shown.
  • an object detection model 1200 may include a region proposal module 1210, a CNN 1220, a classifier module 1230, and a bounding box regression module 1240.
  • a region proposal module 1210 extracts a candidate region from the input image 200 .
  • the number of candidate regions may be a certain number, for example, 2000.
  • R-CNN uses selective-search, one of region proposal algorithms.
  • a Convolutional Neural Network (CNN) 1220 extracts a fixed-length feature vector from the region generated by the region proposal module 1210. Since CNNs (eg. AlexNet, VggNet, etc.) receive inputs of a certain size, it is necessary to warp the various rectangular-shaped regions given by the region proposal algorithm for the image to a certain size regardless of size or aspect ratio. . The CNN receives the warped region and extracts the result of the layer before the classifier module.
  • CNNs eg. AlexNet, VggNet, etc.
  • the classifier module 1230 receives a fixed-length feature vector as an input and performs classification. For example, the classifier module 1230 may classify whether an object corresponds to text or a logo.
  • the bounding-box regression module 1240 receives a fixed-length feature vector as an input and calculates four numbers (x, y, w, h) representing a box.
  • the position of the object can be specified by four numbers (x, y, w, h) representing the box.
  • R-CNN performs object detection by performing localization of an object through region proposal extraction and recognizing an object class through classification of extracted features.
  • a process of reducing localization errors may be performed by performing bounding box regression.
  • the training of the object detection model 1200 is to transform the pre-learned CNN to suit the object detection task, and the classification layer (eg, the output layer) in the existing pre-learned CNN is newly selected as "object's object” for object detection. number + background", and weight initialization is performed only for that part.
  • the object information 1250 includes information on one or more objects, and each object information may be displayed as (object class, location).
  • object class may represent logo or text.
  • the display device 100 may determine whether a text area or a logo area is extracted from the content video screen.
  • operation 1110 may be performed to analyze the next screen.
  • operation 1130 may be performed.
  • the display device 100 may obtain content property information based on the detected logo text area or logo area.
  • the display device 100 may extract text from the text area and obtain content attribute information based on the extracted text.
  • the display device 100 may extract text from the text area using a technology such as OCR (Optical Character Recognition).
  • OCR Optical Character Recognition
  • the display device 100 may transmit text extracted from the text area to the server 300 that manages information about contents, and may receive attribute information of the contents corresponding to the text from the server 300 .
  • the server receives text from the display device 100 and searches for content corresponding to the text to find information on the corresponding content
  • the server receives information about the content, for example, content category, genre, and viewing age possibility information. Attribute information such as, etc. may be extracted and the extracted attribute information of content may be transmitted to the display device 100 .
  • the server 300 may transmit a search failure result to the display device 100.
  • FIG. 13 is a reference diagram for explaining a process of obtaining property information of content by analyzing a video screen according to an example.
  • the display device 100 sequentially receives video screens 930 to 980 from the electronic device 200 connected to the display device 100 .
  • the display device 100 inputs the image screen 930 received from the electronic device 200 to the second neural network model 1300 trained to detect an object region, for example, a text region or a logo region, from the image, thereby detecting the logo region from the corresponding video screen 930. 931 can be obtained.
  • the display device 100 may then transmit the detected logo area image to the server 300 .
  • the server 300 may perform an operation such as image search using the logo area image received from the display device 100 to analyze what content the corresponding logo area image is related to. If the logo area image 931 is a logo image related to a specific electronic device rather than a specific content, the server may transmit a search failure result to the display device 100 .
  • the display device 100 Since the display device 100 receives a search failure result from the server 300, it continuously analyzes the image received from the electronic device 200.
  • the display device 100 inputs the video screen 940 received from the electronic device 200 to the second neural network model 1300. Since the video screen 940 is a black screen, the second neural network model can output that no object has been detected as an object detection result. there is.
  • the display device 100 may obtain a logo area detection result 951 from the corresponding video screen 950 by inputting the video screen 950 received from the electronic device 200 to the second neural network model 1300 .
  • the display device 100 may then transmit the detected logo area image 951 to the server 300 .
  • the server 300 may perform an operation such as image search using the logo area image received from the display device 100 to analyze what content the corresponding logo area image is related to. If the logo area image 951 is a logo image related to a specific content producer rather than a specific content, the server may transmit a search failure result to the display device 100 .
  • the display device 100 inputs the video screen 960 received from the electronic device 200 to the second neural network model 1300. Since the video screen 960 is a black screen, the second neural network model can output that no object has been detected as an object detection result. there is.
  • the display device 100 may obtain a text area detection result 971 from the corresponding video screen 970 by inputting the video screen 970 received from the electronic device 200 to the second neural network model 1300 .
  • the display device 100 may then extract text from the text area image 971 by analyzing the detected text area image 971 using a technology such as OCR.
  • the display device 100 may transmit the extracted text to the server 300 .
  • the server 300 may search for content corresponding to the text received from the display device 100 . As a result of searching for content corresponding to the text, the server 300 may transmit attribute information about the searched content to the display device 100 .
  • the display device 100 extracts text from the text area image and transmits the extracted text to the server 300, it is not limited thereto.
  • the display device 100 may transmit the entire text area image to the server 300, and the server 300 may extract text from the text area image extracted from the display device 100.
  • the display device 100 may control the content execution environment based on the property information of the content obtained in operation 1130. Controlling the execution environment of content may include setting image quality or sound suitable for content properties, or providing a user viewing age restriction service.
  • the display apparatus 100 may set picture quality or sound according to the genre or category of content.
  • the display device 100 may output an appropriate guide message, output a message requesting password input, or control viewing restriction based on the viewable age information.
  • FIG. 14 illustrates an example of a table including picture quality setting values and sound setting values set according to genres of content according to an embodiment.
  • the display device 100 may store a picture quality/sound setting table 1400 including picture quality setting values and sound setting values set differently according to the genre of the game content. .
  • the picture quality/sound setting table 1400 includes, for example, general basic 1410 as a genre of game content, RPG (Role Playing Game) 1420, a role-playing game that users enjoy playing characters in the game, player's point of view, and my point of view.
  • RPG Role Playing Game
  • RTS Real-time strategy, real-time strategy game
  • the display device 100 may map different image quality values according to attributes of game contents of each genre included in the table 1400 .
  • the 1st quality value for the basic genre 1410, the 2nd quality value for the RPG genre 1420, the 3rd quality value for the FPS genre 1430, the 4th quality value for the RTS genre 1440, and the 5th quality value for the sports genre 1450 can be mapped.
  • first-person shooter games such as FPS require higher realism than other games because the character's point of view and the player's point of view in the game must be the same. You can set 3 picture quality values.
  • the display device 100 may map different sound values according to the properties of the game content of each genre included in the table 1400. 1st sound value for basic genre 1410, 2nd sound value for RPG genre 1420, 3rd sound value for FPS genre 1430, 4th sound value for RTS genre 1440, 5th sound value for sports genre 1450 can be mapped.
  • the display device 100 refers to the table 1400, and when it is recognized that the genre of the game content is RPG as content attribute information, the display device 100 extracts a second picture quality value and a second sound value corresponding to the RPG genre, , the image quality of the display device 100 and the sound may be set according to the second picture quality value and the second sound value.
  • 15 is a reference diagram for explaining an operation of a display device when viewing age information is received as content property information according to an exemplary embodiment.
  • the display device 100 may provide a viewing age restriction service based on the received viewing age possibility information. For example, when the display device 100 receives information indicating that the viewing age of the content is 19 years old as content property information, the display device 100 may output the user interface 1500 as shown in FIG. 15 . .
  • User interface 1500 reads "The content displayed is for those over the age of 19. To continue viewing, please enter your password for adult authentication! An input window for entering a 4-digit adult authentication password may be provided. The user can display the content by inputting a password in the input window of the user interface 1500.
  • 16 is a reference diagram for describing switching between a content execution timing determination mode and a content property recognition mode according to an exemplary embodiment.
  • the display device 100 may determine a content execution start time using a first neural network model corresponding to an electronic device connected to the display device 100 in a content execution time determination mode 610 .
  • the display device 100 may enter 1610 the content property recognition mode 620 to obtain property information of the executed content.
  • the display device 100 extracts a logo area or text area from the video screen by analyzing the video screen received from the electronic device 200 using the second neural network model in the content property recognition mode 620, and based on the extracted logo area or text area, Attribute information of content being executed can be obtained. According to the attribute information of the content thus obtained, the content execution environment may be controlled and the content execution timing determination mode 610 may be entered 1620 again.
  • the display device 100 may control the content execution environment according to the attribute information of the content thus obtained and enter 630 into a content execution termination determination mode 630 .
  • the content execution termination determination mode 630 it is possible to detect whether content execution is terminated by analyzing a video screen received from the electronic device 200 and using a third neural network model trained to detect a screen indicating the content execution termination.
  • the display device 100 may enter 1640 the content execution timing determination mode 610 to monitor whether execution of the next new content starts.
  • Detecting the start of content execution in the content execution timing determination mode 610 or detecting content properties in the content property recognition mode 620 is performed in a relatively short time period, so the video screen to be analyzed is sampled at shorter time intervals. An analysis may be appropriate.
  • determining the end of content execution in the content execution termination determination mode 630 may be generally performed during a relatively long time period, that is, while content execution continues. Therefore, in this case, it may be possible to sample and analyze an image screen to be analyzed at a longer time interval.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • the disclosed embodiments may be implemented as a S/W program including instructions stored in computer-readable storage media.
  • a computer is a device capable of calling instructions stored in a storage medium and performing operations according to the disclosed embodiments according to the called instructions, and may include electronic devices according to the disclosed embodiments.
  • a computer-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-temporary' only means that the storage medium does not contain a signal and is tangible, but does not distinguish whether data is stored semi-permanently or temporarily in the storage medium.
  • control method according to the disclosed embodiments may be provided by being included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • a computer program product may include a S/W program and a computer-readable storage medium in which the S/W program is stored.
  • the computer program product may include a product (eg, downloadable app) in the form of a S/W program that is distributed electronically through a device manufacturer or an electronic market (eg, Google Play Store, App Store).
  • a product eg, downloadable app
  • the storage medium may be a storage medium of a manufacturer's server, an electronic market server, or a relay server temporarily storing SW programs.
  • a computer program product may include a storage medium of a server or a storage medium of a device in a system composed of a server and a device.
  • the computer program product may include a storage medium of the third device.
  • the computer program product may include a S/W program itself transmitted from the server to the device or the third device or from the third device to the device.
  • one of the server, the device and the third apparatus may execute the computer program product to perform the method according to the disclosed embodiments.
  • two or more of the server, the device, and the third device may execute the computer program product to implement the method according to the disclosed embodiments in a distributed manner.
  • a server may execute a computer program product stored in the server to control a device communicatively connected to the server to perform a method according to the disclosed embodiments.
  • the third apparatus may execute a computer program product to control a device communicatively connected to the third apparatus to perform a method according to the disclosed embodiment.
  • the third device may download the computer program product from the server and execute the downloaded computer program product.
  • the third device may perform the method according to the disclosed embodiments by executing a computer program product provided in a preloaded state.
  • unit may be a hardware component such as a processor or a circuit, and/or a software component executed by the hardware component such as a processor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

실시예들에 따라, 디스플레이 장치 및 그 동작 방법이 개시된다. 개시된 디스플레이 장치는, 디스플레이, 입출력 인터페이스, 통신 인터페이스, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 연결된 전자 장치로부터 수신된 영상의 화면을 표시하고, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하고, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하고, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하고, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어한다.

Description

디스플레이 장치 및 그 동작 방법
다양한 실시예들은 디스플레이 장치 및 그 동작 방법에 관한 것으로, 보다 구체적으로는, 디스플레이 장치에서 실행되는 컨텐츠에 기반하여 컨텐츠 실행 환경을 제공할 수 있는 디스플레이 장치 및 그 동작 방법에 관한 것이다.
근래 들어 게임 사용자가 증가하고 게임의 몰입도를 위해 게임 컨텐츠를 대화면 TV를 통해 즐기고자 하는 수요가 증가하고 있다.
종래에 TV 상에서 소프트웨어적으로 실행되는 클라우드 게임과 같은 경우에는 해당 게임의 타이틀이나 장르 등 메타데이터를 기반으로 해당 게임에 적절한 화질이나 음향을 설정하고 시청 연령 제한 등의 서비스를 제공할 수 있다.
또한, 이러한 클라우드 게임 뿐만 아니라 TV 에 유선 연결하여 게임 콘솔에서 게임을 실행하는 수요도 많이 있다. 그러나, 이와 같이 유선 연결된 게임 콘솔에서 실행되는 게임의 경우에 TV는 게임 콘솔에서 실행되는 게임의 실행 화면을 수신할 뿐이기 때문에 TV에서 게임의 타이틀이나 장르 등의 메타데이터를 얻는 것이 불가능하다. 따라서 TV에 유선 연결된 게임 콘솔에서 실행되는 게임의 경우에 실행되는 게임의 특성에 맞는 게임 실행 환경을 제공하기 위해 실행되는 게임의 특성 정보를 획득할 수 있는 방안이 요구된다.
다양한 실시예들은, 디스플레이 장치에 연결된 외부 장치에서 실행되는 컨텐츠를 수신하여 표시하는 디스플레이 장치에서, 수신된 컨텐츠로부터 컨텐츠의 특성 정보를 획득하여, 디스플레이 장치의 컨텐츠 실행 환경을 제어할 수 있도록 하는 디스플레이 장치 및 그 동작 방법을 제공하는 것을 목적으로 한다.
일 실시예에 따른 디스플레이 장치는, 디스플레이, 입출력 인터페이스, 통신 인터페이스, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 연결된 전자 장치로부터 수신된 영상의 화면을 표시할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어할 수 있다.
일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 전자 장치로부터 HDMI (High Definition Multimedia Interface) 통신을 통해 수신되는 HDMI CEC (Consumer Electronics Control) 로부터 상기 전자 장치를 식별하고, 상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득할 수 있다.
일 실시예에 따라 상기 제1신경망 모델은, 상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI:User Interface) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함할 수 있다.
일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하고, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단할 수 있다.
일 실시예에 따라 상기 제2신경망 모델은 복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함할 수 있다.
일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 영상 화면을 상기 제2신경망 모델에 입력하여 분석함으로써, 상기 영상 화면으로부터 상기 텍스트 영역 또는 상기 로고 영역을 추출하고, 상기 텍스트 영역 또는 상기 로고 영역에 기반하여 상기 컨텐츠의 속성 정보를 획득할 수 있다.
일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 텍스트 영역으로부터 추출된 텍스트 또는 상기 로고 영역을 서버로 전송하고, 상기 서버로부터 상기 텍스트나 상기 로고 영역에 관련된 상기 컨텐츠의 속성 정보를 수신함으로써 상기 컨텐츠의 속성 정보를 획득할 수 있다.
일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠에 적합한 화질 설정, 음향 설정, 시청 연령 제한 설정, 디스플레이 장치 환경 설정 중 적어도 하나를 제어함으로써 상기 컨텐츠의 실행 환경을 제어할 수 있다.
일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 컨텐츠의 실행 환경 제어 후 상기 컨텐츠의 실행이 종료되는지 판단하고, 상기 컨텐츠의 실행이 종료된다고 판단됨에 따라 상기 제1신경망 모델을 이용하여 영상 화면을 분석함으로써 새로운 컨텐츠 실행이 시작되는지를 판단할 수 있다.
일 실시예에 따라 디스플레이 장치의 동작 방법은, 연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함할 수 있다.
일 실시예에 따라 디스플레이 장치의 동작 방법의 구현을 위해 디스플레이 장치의 프로세서에 의해 실행되는 하나 이상의 프로그램이 기록된 컴퓨터 판독가능 기록 매체에 있어서, 상기 디스플레이 장치의 동작 방법은, 연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작, 및 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함한다.
본 개시서의 다양한 실시예들에 따르면, 디스플레이 장치가, 디스플레이 장치에 연결된 외부 장치에서 실행되는 컨텐츠를 수신하여 표시하는 경우에도, 수신된 컨텐츠로부터 컨텐츠의 특성 정보를 획득하는 방안을 마련함으로써, 컨텐츠의 특성에 맞게 디스플레이 장치의 컨텐츠 실행 환경을 제어할 수 있다. 따라서, 디스플레이 장치는 컨텐츠의 특성에 부합하는 컨텐츠 경험을 사용자들에게 제공할 수 있다.
도 1은 일 실시예에 따라 디스플레이 장치의 실행 환경을 제어하는 시스템을 설명하기 위한 참고도이다.
도 2는 일 실시예에 따라 디스플레이 장치, 전자 장치 및 서버 컴퓨터를 포함하는 시스템의 일 예를 나타낸다.
도 3은 일 실시예에 따라 디스플레이 장치의 구체적인 구성을 나타내는 블록도이다.
도 4a는 일 실시예에 따라 각 전자 장치에 대응하여 제1신경망 모델을 학습시키는 방법을 설명하기 위한 참고도이다.
도 4b는 일 실시예에 따라 제1전자 장치에 대응하는 제1신경망 모델을 획득하는 방법을 설명하기 위한 참고도이다.
도 5는 일 실시예에 따라 디스플레이 장치의 동작 방법의 일 예를 나타내는 흐름도이다.
도 6은 일 실시예에 따라 도 5에 도시된 동작 방법을 설명하기 위한 참고도이다.
도 7은 일 실시예에 따라 디스플레이 장치에서 제1신경망 모델을 획득하는 방법의 과정을 나타내는 흐름도이다.
도 8은 일 실시예에 따라 디스플레이 장치 100에서 컨텐츠 실행 시작 시점을 검출하는 방법의 과정을 나타내는 흐름도이다. 도 9는 일 예에 따라 컨텐츠 실행 시점을 판단하는 방법을 설명하기 위한 참고도이다.
도 9는 일 예에 따라 컨텐츠 실행 시점을 판단하는 방법을 설명하기 위한 참고도이다.
도 10은 일 실시예에 따라 영상 화면을 분류하는 신경망 모델의 일 예를 나타낸다.
도 11은 일 실시예에 따라 디스플레이 장치에서 컨텐츠 실행 시작 시점 이후 컨텐츠를 인식하는 방법을 설명하기 위한 참고도이다.
도 12는 일 예에 따른 오브젝트 검출 모델의 일 예를 나타낸다.
도 13은 일 예에 따라 영상 화면을 분석하여 컨텐츠의 속성 정보를 획득하는 과정을 설명하기 위한 참고도이다.
도 14는 일 실시예에 따라 컨텐츠의 장르에 따라 설정되는 화질 설정값과 음향 설정값을 포함하는 테이블의 일 예를 나타낸다.
도 15는 일 실시예에 따라 컨텐츠의 속성 정보로서 시청 연령 정보를 수신한 경우의 디스플레이 장치의 동작을 설명하기 위한 참고도이다.
도 16은 일 실시예에 따라 컨텐츠 실행 시점 판단 모드와 컨텐츠 속성 인식 모드 간의 전환을 설명하기 위한 참고도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 명세서의 실시예에서 "사용자"라는 용어는 제어 장치를 이용하여 컴퓨팅 장치 또는 전자 장치의 기능 또는 동작을 제어하는 사람을 의미하며, 시청자, 관리자 또는 설치 기사를 포함할 수 있다.
도 1은 일 실시예에 따라 디스플레이 장치의 실행 환경을 제어하는 시스템을 설명하기 위한 참고도이다.
도 1을 참조하면, 시스템은 디스플레이 장치 100, 전자 장치 200, 서버 컴퓨터 300을 포함할 수 있다.
도 1을 참조하면, 일 실시예에 따른 디스플레이 장치 100는 다양한 소스로부터 컨텐츠를 수신하고 수신된 컨텐츠를 표시하는 전자 장치일 수 있다. 디스플레이 장치 100는, TV, 셋탑 박스, 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 장치(wearable device) 등과 같은 다양한 형태로 구현될 수 있다.
또한, 디스플레이 장치 100는 고정된 위치에 배치되는 고정형 전자 장치 또는 휴대 가능한 형태를 갖는 이동형 전자 장치일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.
또한 디스플레이 장치 100는 리모컨 또는 휴대폰과 같은 다양한 형태의 장치에 의해 IR(Infrared), BT(Bluetooth), Wi-Fi 등을 이용하여 제어될 수 있다.
전자 장치 200는 컨텐츠를 실행하고 컨텐츠 실행 화면을 유무선 통신을 통하여 디스플레이 장치 100로 전송할 수 있다. 예를 들어, 전자 장치 200는 다양한 제조사에 의해 제조된 게임 콘솔을 포함할 수 있다. 사용자가 전자 장치 200를 이용하여 게임 컨텐츠가 실행되도록 하고 전자 장치 200를 디스플레이 장치 100에 유무선 통신을 이용하여 연결함으로써 실행된 게임 컨텐츠 화면이 디스플레이 장치 100에 표시되게 할 수 있다.
디스플레이 장치 100는 디스플레이 장치 100에서 표시되는 컨텐츠에 관한 특성 또는 컨텐츠이 속성 정보에 맞게 디스플레이 장치 100의 환경을 제어할 수 있다. 예를 들어, 디스플레이 장치 100는 디스플레이 장치 100에서 표시되는 컨텐츠의 속성에 맞게 적절한 화질 처리를 하거나 음향을 설정하거나 시청 연령 제한 등의 서비스를 제공할 수 있다.
그러나, 디스플레이 장치 100가 전자 장치 200로부터 컨텐츠를 실행한 결과 화면을 수신하는 경우에, 디스플레이 장치 100는 수신된 화면에 대응하는 컨텐츠에 대한 속성 정보를 전자 장치 200로부터 직접적으로 얻기 어려울 수 있다. 따라서, 이러한 상항에서 디스플레이 장치 100는 전자 장치 200로부터 수신된 컨텐츠 실행 화면으로부터 수신되는 컨텐츠에 대한 정보나 컨텐츠의 속성 정보를 획득하는 방안이 요구된다.
디스플레이 장치 100가 전자 장치 200로부터 수신하는 컨텐츠 실행 화면으로부터 컨텐츠에 대한 속성 정보를 얻기 위해서는 전자 장치 200로부터 수신되는 컨텐츠 실행 화면을 분석하여야 한다. 이때 디스플레이 장치 200가 전자 장치 200로부터 수신하는 모든 이미지 프레임들을 분석하여 컨텐츠 속성 정보를 획득하려고 한다면 분석의 정확도도 떨어지고 또한 분석하는데 시간과 자원 등의 리소스 낭비가 크게 될 수 있다.
따라서 일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신되는 컨텐츠 실행 화면을 분석하는 과정을 체계화하여 컨텐츠를 인식 (30)하고, 인식된 컨텐츠의 속성 정보를 이용하여 디스플레이 장치 100의 컨텐츠 실행 환경을 제어 (50)하고자 한다. 본 개시서에서 "컨텐츠 실행 환경의 제어"는 전자 장치 200로부터 수신된 영상 화면을 디스플레이 장치 100가 표시할 때, 디스플레이 장치 100에 표시되는 영상 화면의 특징에 적합하게 사용자게 더 좋은 경험을 제공할 수 있도록 디스플레이 장치 100의 설정 환경을 제어하는 것을 의미한다. 실제로 컨텐츠의 실행은 전자 장치 200에서 수행되고 디스플레이 장치 100는 전자 장치 200로부터 컨텐츠 실행 화면을 제공받아서 표시하는 것이지만, 편의상 디스플레이 장치 100에서 실행 화면에 맞게 설정 정보를 제어하는 것을 "컨텐츠 실행 환경 제어"라고 칭하기로 한다.
일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면을 분석하여 컨텐츠 실행이 시작되는지를 판단할 수 있다. 컨텐츠의 속성 정보를 얻기 위해서는 사용자로부터 특정한 컨텐츠가 선택되어 실행된 이후의 화면을 분석하는 것이 바람직하다. 실제 컨텐츠의 선택 및 실행 전에는 다양한 영상 화면 예를 들어 설정 화면이나 컨텐츠의 실행을 선택할 수 있는 UI 화면 등이 선행할 수 있는데 이 상태에서는 아직 실행할 컨텐츠가 선택된 상태가 아니기 때문에 이 단계의 UI 화면에서 컨텐츠의 속성을 추출하는 분석 작업을 할 필요가 없을 것이다. 따라서 디스플레이 장치 100는 실제 컨텐츠의 속성 정보 추출을 위한 작업 전에 컨텐츠의 실행이 시작되는 지점을 찾고, 찾아진 지점 이후에 컨텐츠 속성 정보 추출을 위한 분석 작업을 하는 것이 바람직하다.
일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면으로부터 컨텐츠 실행이 시작되는지 분석하기 위해 제1신경망 모델을 이용할 수 있다. 제1신경망 모델은 전자 장치 200에서 제공되는 영상 화면들을 기반으로 훈련함으로써 전자 장치 200에서 제공되는 영상 화면들로부터 컨텐츠 실행이 시작되는지를 판단하는데 이용되는, 전자 장치 200에 특화된 제1신경망 모델일 수 있다.
일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면을 분석함으로써 컨텐츠 실행이 시작된다고 판단되면 제2신경망 모델을 호출하여 전자 장치 200로부터 수신되는 영상 화면으로부터 컨텐츠의 속성 정보를 획득하는 동작을 수행할 수 있다. 구체적으로 디스플레이 장치 100는 전자 장치 200로부터 수신되는 영상 화면으로부터 텍스트 영역이나 로고 영역을 인식하고 인식된 텍스트 영역이나 로고 영역에 기반하여 컨텐츠의 속성 정보를 획득할 수 있다. 컨텐츠의 속성 정보는 예를 들어 컨텐츠의 타이틀이나 장르, 또는 컨텐츠의 시청 연령 가능 정보 등 컨텐츠의 메타데이터 등을 포함할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 획득된 컨텐츠의 속성 정보에 기반하여 컨텐츠의 실행 환경을 제어할 수 있다. 컨텐츠의 실행 환경은 디스플레이 장치 100가 컨텐츠에 포함된 오디오 비디오 데이터를 재생하는 동안 디스플레이 장치 100에서 표시되는 비디오 데이터의 처리나 제어를 위한 화질 처리 부분, 디스플레이 장치 100에서 출력되는 오디오 데이터의 처리나 제어를 위한 음향 설정 부분, 시청 연령 제한 등의 서비스를 포함할 수 있다.
서버 컴퓨터 300는 통신 네트워크 70를 통해 디스플레이 장치 100와 통신할 수 있다. 서버 컴퓨터 300는 통신 네트워크 70를 통해 디스플레이 장치 100로부터 요청을 수신하고, 요청에 대응하는 응답을 디스플레이 장치 100로 전송할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 앞서 전자 장치 200로부터 수신된 영상 화면을 분석할 때 이용되는 제1신경망 모델 이나 제2신경망 모델을 디스플레이 장치 100 자체적으로 저장하고 있을 수도 있지만, 디스플레이 장치 100는 이러한 제1신경망 모델이나 제2신경망 모델을 서버 컴퓨터 300에 요청하여 수신할 수 있다. 또한 디스플레이 장치 100는 주기적으로 또는 요청에 위해 이러한 제1신경망 모델이나 제2신경망 모델의 업데이트 버전을 서버 컴퓨터 300로부터 수신할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 앞서 전자 장치 200로부터 수신된 영상 화면을 분석하여 텍스트 영역이나 로고 영역을 인식함으로써 컨텐츠에 대한 속성 정보를 획득할 때, 인식된 텍스트 영역에서 추출된 텍스트나 로고 영역에 대한 정보를 서버 컴퓨터 300에 전송하고 서버 컴퓨터 300로부터 전송된 텍스트나 로고 영역에 기반하여 얻어진 컨텐츠의 속성 정보를 수신할 수 있다.
일 실시예에 따라 제1신경망 모델이나 제2신경망 모델을 제공하는 서버 컴퓨터는 텍스트나 로고 영역에 기반하여 얻어진 컨텐츠의 속성 정보를 제공하는 서버 컴퓨터와 동일할 수도 있고, 서로 다를 수도 있다.
도 2는 일 실시예에 따라 디스플레이 장치, 전자 장치 및 서버 컴퓨터를 포함하는 시스템의 일 예를 나타낸다.
도 2를 참조하면, 시스템은 디스플레이 장치 100, 전자 장치 200, 서버 컴퓨터 300를 포함할 수 있다.
전자 장치 200는 디스플레이 장치 100와 유선 또는 무선으로 연결하여 데이터 및/또는 컨텐츠를 송수신하는 전자 장치로서, 예를 들어 게임 컨텐츠를 실행하고 컨텐츠 실행 화면을 디스플레이 장치 100로 전송할 수 있다. 물론 전자 장치 200가 게임 컨텐츠 이외의 다른 비디오 컨텐츠 및/또는 오디오 컨텐츠를 전송할 수 있음은 물론이다.
전자 장치 200는 디스플레이 장치 100와 연결하여 데이터를 송수신할 수 있는 어떤 장치라도 가능하다. 전자 장치 200는, 예를 들어, 셋톱박스, DVD 플레이어, 블루레이 디스크 플레이어, PC, 게임기 등과 같이 디스플레이 장치 100로 컨텐츠를 제공할 수 있는 다양한 유형의 전자 장치를 포함할 수 있다. 전자 장치 200와 디스플레이 장치 100는 다양한 연결 수단을 통해 연결됨으로써 컨텐츠 송수신을 수행할 수 있다. 다양한 연결 수단은 예를 들어, 케이블을 포함할 수 있으며, 전자 장치 200과 디스플레이 장치 100는 케이블 접속을 위한 하나 이상의 포트를 포함할 수 있다. 하나 이상의 포트는 예를 들어, HDMI 포트, 디스플레이포트, 타입-C 등의 디지털 입력 인터페이스를 포함할 수 있다.
예를 들어, 전자 장치 200는 게임 콘솔 등과 같이 게임 컨텐츠 전용의 디바이스가 될 수 있다. 그러나 전자 장치 200는 게임 콘솔에 한정되는 것은 아니고, 게임 컨텐츠, 영화 컨텐츠, 비디오 컨텐츠 등 다양한 컨텐츠를 제공하는 어떠한 형태의 디바이스가 될 수 있음은 물론이다.
전자 장치 200는 입출력부 210, 통신부 220, 메모리 230, 제어부 240를 포함할 수 있다.
입출력부 210는 외부 장치와 유선으로 연결하여 데이터를 입력하거나 출력할 수 있도록 할 수 있다. 일 실시예에 따라 입출력부 210는 디스플레이 장치 100의 입출력부 110과 유선으로 연결되어 전자 장치 200에서 실행되는 컨텐츠의 실행 화면을 디스플레이 장치 100로 전송할 수 있다. 입출력부 210는 HDMI 포트를 포함할 수 있다.
일 실시예에 따라 입출력부 210는 전자 장치 200가 디스플레이 장치 100와 연결되면 HDMI 포토콜을 통해서 전자 장치 200에 대한 기기 정보를 디스플레이 장치 100로 전송할 수 있다.
통신부 220는 외부 장치와 무선으로 연결하여 데이터를 입력하거나 출력할 수 있도록 할 수 있다. 일 실시예에 따라 통신부 220는 디스플레이 장치 100의 통신부 110와 무선으로 연결되어 전자 장치 200에서 실행되는 영상 화면을 디스플레이 장치 100로 전송할 수 있다.
메모리 230는 제어부 240에 의해 처리되는 데이터, 제어부 240의 처리에 이용되는 어플리케이션들을 포함할 수 있다. 예를 들어, 제어부 240에 의해 실행되는 하나 이상의 게임 어플리케이션 및 게임 어플리케이션의 실행 결과 데이터를 저장할 수 있다.
제어부 240는 전자 장치 200의 구성요소들을 전체적으로 제어할 수 있다. 또한 제어부 240는 메모리 230에 저장된 인스트럭션들을 실행함으로써 게임 어플리케이션을 실행할 수 있다.
전자 장치 200에서 게임 컨텐츠가 실행될 때, 게임 컨텐츠의 실행 제어를 위한 사용자 입력은 전자 장치 200를 제어하는 원격 디바이스 콘트롤러로부터 수신할 수 있다. 전자 장치 200는 전자 장치 200를 제어하는 원격 디바이스 콘트롤러부터의 사용자 입력을 원격 디바이스 콘트롤러로부터 직접 수신할 수도 있거나, 또는 원격 디바이스 콘트롤러가 디스플레이 장치 100가 연결되어, 원격 디바이스 콘트롤러로부터의 사용자 입력을 디스플레이 장치 100를 통해서 수신할 수도 있다.
디스플레이 장치 100는 디스플레이를 구비하여 영상 컨텐츠, 비디오 컨텐츠, 게임 컨텐츠, 그래픽 컨텐츠 등을 표시할 수 있는 장치를 나타낼 수 있다. 디스플레이 장치 100는 전자 장치 200로부터 수신되는 영상이나 컨텐츠를 출력 또는 표시할 수 있다. 디스플레이 장치 100는 예를 들어, 네트워크 TV, 스마트 TV, 인터넷 TV, 웹 TV, IPTV, PC 등과 같이 컨텐츠를 수신하여 출력할 수 있는 다양한 형태의 전자 장치를 포함할 수 있다. 디스플레이 장치 100는 컨텐츠를 수신하여 표시하는 측면이라는 점에서 디스플레이 장치로 언급될 수 있는 것이고, 그 외에도 컨텐츠 수신 장치, 싱크 장치, 전자 장치, 컴퓨팅 장치 등으로 언급될 수도 있다.
디스플레이 장치 100는 입출력부 110, 통신부 120, 비디오 처리부 130, 디스플레이 140, 오디오 처리부 150, 오디오 출력부 160, 메모리 170, 제어부 180을 포함할 수 있다.
입출력부 110는 제어부 180의 제어에 따라 전자 장치 200로부터 영상신호 및/또는 오디오신호를 연결된 프로토콜에 따라 수신할 수 있다.
통신부 120는 디스플레이 장치 100과 무선 통신 시스템 사이 또는 디스플레이 장치 100과 다른 전자 장치가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다.
통신부 120는 제어부 180의 제어에 따라 전자 장치 200로부터 수신되는 영상 신호 및/또는 오디오 신호를 무선 통신 프로토콜에 따라 수신할 수 있다.
또한 통신부 120는 제어부 180의 제어에 따라 서버 컴퓨터 300와 연결하여 서버 컴퓨터 300에 요청을 전송하고, 서버 컴퓨터 300로부터 요청에 대한 응답을 수신할 수 있다.
비디오 처리부 130는 제어부 180의 제어에 따라, 입출력부 110 또는 통신부 120로부터 수신되는 영상신호를 처리하여 디스플레이 140로 출력할 수 있다.
디스플레이 140는 비디오 처리부 130로부터 수신된 영상 신호를 화면에 표시할 수 있다.
오디오 처리부 150는 제어부 180의 제어에 따라, 입출력부 110 또는 통신부 120로부터 수신되는 오디오 신호를 아날로그 오디오 신호로 변환하여 오디오 출력부 160로 출력할 수 있다.
오디오 출력부 160는 수신되는 아날로그 오디오 신호를 스피커를 통해 출력할 수 있다.
메모리 170는 디스플레이 장치 100의 동작에 관련된 프로그램, 디스플레이 장치 100의 동작 중에 발생하는 각종 데이터를 저장할 수 있다.
일 실시예에 따라 메모리 170는 본 개시서에 개시된 디스플레이 장치 100의 기능 즉, 전자 장치 200로부터 수신된 영상 화면을 분석하여 컨텐츠의 실행 시작 시점을 검출하고, 컨텐츠의 실행 시작 시점이 검출되는 영상 화면을 분석하여 실행되는 컨텐츠의 속성 정보를 획득하고, 획득된 컨텐츠의 속성 정보에 기반하여 컨텐츠 실행 환경을 제어하는 기능을 구현하기 위한 하나 이상의 인스트럭션을 저장할 수 있다.
제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써 디스플레이 장치 100의 전반적인 동작을 제어할 수 있다.
일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 디스플레이 장치 100에 연결된 전자 장치로부터 수신된 영상의 화면을 표시하고, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하고, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하고, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하고, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어할 수 있다.
일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 전자 장치로부터 HDMI 통신을 통해 수신되는 HDMI CEC로부터 상기 전자 장치를 식별하고, 상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득할 수 있다. 일 실시예에 따라 상기 제1신경망 모델은, 상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함할 수 있다.
일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하고, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단할 수 있다. 일 실시예에 따라 상기 제2신경망 모델은 복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함할 수 있다.
일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 영상 화면을 상기 제2신경망 모델에 입력하여 분석함으로써, 상기 영상 화면으로부터 상기 텍스트 영역 또는 상기 로고 영역을 추출하고, 상기 텍스트 영역 또는 상기 로고 영역에 기반하여 상기 컨텐츠의 속성 정보를 획득할 수 있다.
일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 텍스트 영역으로부터 추출된 텍스트 또는 상기 로고 영역을 서버로 전송하고, 상기 서버로부터 상기 텍스트나 상기 로고 영역에 관련된 상기 컨텐츠의 속성 정보를 수신함으로써 상기 컨텐츠의 속성 정보를 획득할 수 있다.
일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠에 적합한 화질 설정, 음향 설정, 시청 연령 제한 설정, 디스플레이 장치 환경 설정 중 적어도 하나를 제어함으로써 상기 컨텐츠의 실행 환경을 제어할 수 있다.
일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 컨텐츠의 실행 환경 제어 후 상기 컨텐츠의 실행이 종료되는지 판단하고, 상기 컨텐츠의 실행이 종료된다고 판단됨에 따라 상기 제1신경망 모델을 이용하여 영상 화면을 분석함으로써 새로운 컨텐츠 실행이 시작되는지를 판단할 수 있다.
서버 컴퓨터 300는 디스플레이 장치 100로부터의 요청을 수신하고, 수신된 요청에 대응하는 응답을 제공하는 역할을 할 수 있다.
서버 컴퓨터 300는 통신부 310, 메모리 320, 제어부 330을 포함할 수 있다.
통신부 310는 디스플레이 장치와 유무선 통신 방법에 의해 통신을 수행할 수 있다.
메모리 320는 제어부 330에 의해 처리되는 데이터, 제어부 330의 처리에 이용되는 어플리케이션들을 포함할 수 있다.
일 실시예에 따라 메모리 320는 텍스트 인식이나 이미지 인식을 수행하는 하나 이상의 프로그램을 저장할 수 있다.
일 실시예에 따라 메모리 320는 컨텐츠에 대한 속성 정보를 저장하는 데이터베이스를 포함할 수 있다.
제어부 330는 서버 컴퓨터 300의 구성요소들을 전체적으로 제어할 수 있다. 또한 제어부 330는 메모리 320에 저장된 인스트럭션들을 실행함으로써 어플리케이션을 실행할 수 있다.
일 실시예에 따라 제어부 330는 디스플레이 장치 100로부터 영상 화면으로부터 추출된 텍스트, 텍스트 영역, 로고 이미지 등의 데이터를 수신하고, 수신된 데이터에 기반하여 텍스트 인식이나 이미지 인식을 수행함으로써 영상 화면에 대응하는 텍스트나 이미지를 획득할 수 있다.
일 실시예에 따라 제어부 330는 획득된 텍스트나 이미지에 대응하는 컨텐츠의 속성 정보를 컨텐츠 속성 저장 데이터베이스로부터 검색함으로써, 디스플레이 장치 100로부터 수신된 텍스트나, 텍스트 영역, 또는 로고 이미지 에 대응하는 컨텐츠 속성 정보를 획득할 수 있다. 컨텐츠 속성 정보는, 컨텐츠의 카데고리, 장르, 시청 가능 연령 정보 등 컨텐츠에 대한 다양한 메타 데이터를 포함할 수 있다.
도 3은 일 실시예에 따라 디스플레이 장치의 구체적인 구성을 나타내는 블록도이다.
도 3을 참조하면, 디스플레이 장치 100는 입출력부 110, 통신부 120, 비디오 처리부 130, 디스플레이 140, 오디오 처리부 150, 오디오 출력부 160, 메모리 170, 제어부 180, 감지부 190를 포함할 수 있다.
입출력부 110는 제어부 180의 제어에 의해 디스플레이 장치 100의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신할 수 있다. 입출력부 110는 HDMI 포트(High-Definition Multimedia Interface port), 컴포넌트 잭(component jack), PC 포트(PC port), 및 USB 포트(USB port) 중 하나를 포함하거나, 하나 이상의 조합을 포함할 수 있다. 입출력부 110는 HDMI 포트 이외에도 디스플레이 포트 (DisplayPort; DP), 썬더볼트 (Thunderbolt), MHL (Mobile High-Definition Link)를 더 포함할 수 있다.
통신부 120는 디스플레이 장치 100과 무선 통신 시스템 사이 또는 디스플레이 장치 100과 다른 전자 장치가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 통신부 120는 방송 수신 모듈 121, 이동통신 모듈 122, 무선 인터넷 모듈 123 및 근거리 통신 모듈 124을 포함할 수 있다.
방송 수신 모듈 121은, 방송 신호를 수신하기 위한 모듈을 포함할 수 있다.
이동통신 모듈 122는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
무선 인터넷 모듈 123은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 디바이스에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(WiFi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 상기 무선 인터넷 모듈을 통해서 상기 디바이스는 다른 디바이스와 와이 파이(Wi-Fi) P2P(Peer to Peer)연결을 할 수 있다.
근거리 통신 모듈 124는 근거리 통신을 위한 모듈을 말한다. 근거리 통신 기술로 블루투스(Bluetooth), BLE(Bluetooth Low Energy), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.
비디오 처리부 130, 디스플레이 140, 오디오 처리부 150는 앞서 도 2에서 설명한 바와 같다.
오디오 출력부 160는 통신부120 또는 입출력부110를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부165는 제어부180의 제어에 의해 메모리 170에 저장된 오디오를 출력할 수 있다. 오디오 출력부160는 스피커161, 헤드폰 출력 단자162 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자163 중 적어도 하나 또는 그 조합을 포함할 수 있다.
감지부190는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지하며, 마이크191, 카메라부192 및 광 수신부193를 포함할 수 있다.
마이크191는 사용자의 발화(utterance)된 음성을 수신한다. 마이크191는 수신된 음성을 전기 신호로 변환하여 제어부180로 출력할 수 있다. 사용자 음성은 예를 들어, 디스플레이 장치 100의 메뉴 또는 기능에 대응되는 음성을 포함할 수 있다.
카메라부192는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신할 수 있다. 제어부180는 수신된 모션의 인식 결과를 이용하여 디스플레이 장치 100에 표시되는 메뉴를 선택하거나 모션 인식 결과에 대응되는 제어를 할 수 있다.
광 수신부193는 외부의 제어 장치에서부터 수신되는 광 신호(제어 신호를 포함)를 수신한다. 광 수신부193는 제어 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 제어부180의 제어에 의해 제어 신호가 추출될 수 있다.
일 실시예에 따라 메모리 170는 컨텐츠 실행 환경 제어 모듈 171, 제1신경망 모델 데이터베이스 172, 제2신경망 모델 데이터베이스 173을 포함할 수 있다.
컨텐츠 실행 환경 제어 모듈 171은 디스플레이 130에 표시되는 컨텐츠에 적합하게 디스플레이 장치 100의 환경 정보를 관리하고 제어하는 하나 이상의 인스트럭션을 포함할 수 있다. 컨텐츠 실행 환경 제어 모듈 171은 제1신경망 모델 데이터베이스 172 및 제2신경망 모델 데이터베이스 173을 참조하여, 전자 장치 200로부터 수신되는 영상 화면을 분석함으로써 컨텐츠의 실행 시작 시점을 검출하고, 컨텐츠의 실행 시작 시점 이후에 수신되는 영상 화면을 분석하여 컨텐츠를 속성 정보를 획득하고, 획득된 컨텐츠의 속성 정보를 기반으로 컨텐츠의 실행환경을 제어하는 하나 이상의 인스트럭션을 포함할 수 있다. 본 개시서에서 "컨텐츠 실행 환경의 제어"는 전자 장치 200로부터 수신된 영상 화면을 디스플레이 장치 100가 표시할 때, 디스플레이 장치 100에 표시되는 영상 화면의 특징에 적합하게 사용자게 더 좋은 경험을 제공할 수 있도록 디스플레이 장치 100의 설정 환경을 제어하는 것을 의미한다. 실제로 컨텐츠의 실행은 전자 장치 200에서 수행되고 디스플레이 장치 100는 전자 장치 200로부터 컨텐츠 실행 화면을 제공받아서 표시하는 것이지만, 편의상 디스플레이 장치 100에서 실행 화면에 맞게 설정 정보를 제어하는 것을 "컨텐츠 실행 환경 제어"라고 칭하기로 한다.
제1신경망 모델 데이터베이스 172는 전자 장치 200로부터 수신되는 영상을 분석하여 컨텐츠의 실행이 시작되는 지를 판단하기 위해 이용되는 복수의 제1신경망 모델을 포함할 수 있다. 디스플레이 장치 100에 복수의 서로 다른 전자 장치가 연결될 수 있는 경우에, 복수의 서로 다른 전자 장치는 각 전자 장치 마다 해당 전자 장치 전용의 유저 인터페이스 화면을 이용하기 때문에, 제1신경망 모델은 각 전자 장치 마다 대응되게 학습되는 것이 바람직할 수 있다. 따라서, 제1신경망 모델 데이터베이스 172는 복수의 전자 장치의 각 전자 장치에 대응되게 학습된 복수의 제1신경망 모델을 포함할 수 있다. 도 3에서는 제1신경망 모델 데이터베이스 172는 제1전자 장치의 유저 인터페이스 화면을 이용하여 학습된 제1신경망 모델 410, 제2전자 장치의 유저 인터페이스 화면을 이용하여 학습된 제1신경망 모델 420, 제3전자 장치의 유저 인터페이스 화면을 이용하여 학습된 제1신경망 모델 430을 포함할 수 있다. 예를 들어, 제1게임 콘솔 장치에 대해서 제1게임 콘솔 장치에서 출력하는 유저 인터페이스 화면들을 이용하여 제1신경망 모델을 학습시킴으로써 제1게임 콘솔 장치에 대응하는 제1신경망 모델을 획득할 수 있고, 제2게임 콘솔 장치에 대해서 제2게임 콘솔 장치에서 출력하는 유저 인터페이스 화면들을 이용하여 제1신경망 모델을 학습시킴으로써 제2게임 콘솔 장치에 대응하는 제1신경망 모델을 획득할 수 있다.
제2신경망 모델 1300은 전자 장치 200로부터 수신되는 영상을 분석하여 컨텐츠의 속성 정보를 획득하기 위해 이용되는 신경망 모델을 나타낼 수 있다.
이와 같이 제1신경망 모델 데이터베이스 172에 포함되는 신경망 모델은 디스플레이 장치 100의 제조시에 메모리에 저장될 수 있거나, 또는 디스플레이 장치 100의 제조 후에 서버로부터 다운로드 되어 저장될 수 있다. 또한 이와 같은 신경망 모델은 주기적으로 또는 비주기적으로 서버를 통해서 업데이트될 수 있다.
도 3에 도시된 디스플레이 장치 100에는 메모리 170가 제1신경망 모델 데이터베이스 172 및 제2신경망 모델 데이터베이스 173을 저장하는 것으로 도시되어 있지만, 제1신경망 모델 데이터베이스 172와 제2신경망 모델 데이터베이스 173은 반드시 디스플레이 장치 100에 저장될 필요는 없다. 제1신경망 모델 데이터베이스 172와 제2신경망 모델 데이터베이스 173은 서버 컴퓨터에 존재하고 디스플레이 장치 100는 서버 컴퓨터에 제1신경망 모델을 참조하는 질의 나 제2신경망 모델을 참조하는 질의를 전송하고 서버 컴퓨터로부터 질의에 대한 응답을 수신할 수도 있을 것이다.
도 4a는 일 실시예에 따라 각 전자 장치에 대응하여 제1신경망 모델을 학습시키는 방법을 설명하기 위한 참고도이다.
디스플레이 장치 100는 복수의 서로 다른 전자 장치들이 연결될 수 있고, 디스플레이 장치 100는 서로 다른 전자 장치들 각각으로부터 영상을 수신하여 표시할 수 있다.
전자 장치들은 각각 전자 장치 자신이 제공하는 유저 인터페이스 환경을 사용할 수 있다. 예를 들어 도 4a를 참조하면, 제1전자 장치 200a가 제공하는 메인 화면 411의 포맷과, 제2전자 장치 200b가 제공하는 메인 화면 421의 포맷과, 제3전자 장치 200c가 제공하는 메인 화면 431의 포맷은 모두 서로 상이하다. 이와 같이 각 전자 장치에서 제공되는 UI 화면은 모두 상이하기 때문에, 디스플레이 장치 100에 어떤 전자 장치가 연결된 경우에, 디스플레이 장치 100는 연결된 전자 장치에서 제공하는 UI 화면을 이용하여 학습된 신경망 모델을 이용하여, 해당 전자 장치에서 수신되는 영상을 분석하는 것이 보다 정확한 결과를 얻을 수 있다.
따라서 제1전자 장치 200a에 대응하는 제1신경망 모델은 제1전자 장치 200에서 제공되는 UI 화면들 411을 훈련 데이터로 이용하여 학습함으로써 얻어질 수 있다. 마찬가지로 제2전자 장치 200b에 대응하는 제2신경망 모델 420는 제2전자 장치 200에서 제공되는 UI 화면 421들을 훈련 데이터로 이용하여 학습함으로써 얻어질 수 있다. 또한 제3전자 장치 200c에 대응하는 제3신경망 모델 430은 제3전자 장치 200c에서 제공되는 UI 화면들 431을 훈련 데이터로 이용하여 학습함으로써 얻어질 수 있다.
도 4b는 일 실시예에 따라 제1전자 장치에 대응하는 제1신경망 모델을 획득하는 방법을 설명하기 위한 참고도이다.
도 4b를 참조하면, 제1전자 장치에 대응하는 신경망 모델 410은 제1전자 장치에서 제공하는 UI 화면들을 이용하여 학습함으로써 얻어질 수 있다. 구체적으로, 제1전자 장치에 대응하는 신경망 모델 410는 제1전자 장치에서 제공하는 UI 화면들 중 컨텐츠 실행 불가능 UI 화면들 412과 컨텐츠 실행 가능 UI 화면들 413을 분류하여 학습시킴으로써 얻어질 수 있다.
제1전자 장치에서는 컨텐츠의 실행을 위해 다양한 UI 화면들을 제공할 수 있다. 예를 들어, 예를 들어 제1전자 장치는 제1전자 장치의 설정을 변경할 수 있도록 하는 설정 UI 화면, 제1전자 장치에서 실행할 수 있는 컨텐츠의 아이템들을 표시하여 선택할 수 있도록 하는 메뉴 UI 화면, 제1전자 장치의 로고를 표시하는 화면, 선택된 컨텐츠 제작사의 로고 화면, 선택된 컨텐츠 로고 화면 등을 제공할 수 있다. 이러한 화면들 중에서 설정 UI 화면이나 로고 표시 화면에서는 컨텐츠의 실행을 위한 조작을 할 수 없으므로 컨텐츠 실행 불가능 UI 화면 412으로 분류되고, 메뉴 UI 화면에서는 컨텐츠의 실행을 위한 조작을 할 수 있으므로 컨텐츠 실행 가능 UI 화면 413으로 분류될 수 있다.
제1전자 장치에 대응하는 신경망 모델은 이와 같이 제1전자 장치에서 제공하는 UI 화면들 중 컨텐츠 실행 가능 UI 화면 413으로 태그가 붙여진 UI 화면들과 컨텐츠 실행 불가능 UI 화면 412으로 태그가 붙여진 UI 화면들을 입력받아 학습함으로써, 컨텐츠 실행 가능 UI 화면일 확률 또는 컨텐츠 실행 불가능 UI 화면일 확률 중 적어도 하나를 결과 414로 출력할 수 있다.
도 4b에서는 제1전자 장치에 대응하는 신경망 모델을 도시하였다. 각 전자 장치는 각 전자 장치에서 각각 사용되는 고유 UI 화면들이 있을 것이므로, 이와 같이 컨텐츠 실행 가능 UI 화면인지 컨텐츠 실행 불가능 UI 화면인지를 판단하는 신경망 모델은 각 전자 장치 마다 학습시키는 것이 바람직할 수 있다. 따라서, 제2전자 장치에 대응하는 신경망 모델은 제2전자 장치에서 제공하는 UI 화면들 중 컨텐츠 실행 가능 UI 화면으로 태그가 붙여진 UI 화면들과 컨텐츠 실행 불가능 UI 화면으로 태그가 붙여진 UI 화면들을 입력받아 학습함으로써, 컨텐츠 실행 가능 UI 화면일 확률 또는 컨텐츠 실행 불가능 UI 화면일 확률 중 적어도 하나를 결과로 출력할 수 있다.
태그가 붙여진 UI 화면들을 입력받아 학습함으로써 입력된 UI 화면의 카테고리를 결과로 출력하는 신경망 모델은 DNN (Deep Neural Network)등을 이용할 수 있다.
도 5는 일 실시예에 따라 디스플레이 장치의 동작 방법의 일 예를 나타내는 흐름도이다.
도 5를 참조하면, 동작 510에서, 디스플레이 장치 100는 연결된 전자 장치로부터 수신된 영상의 화면을 표시할 수 있다.
디스플레이 장치 100는 전자 장치 200와 유선 또는 무선으로 통신 연결 후 전자 장치 200로부터 영상 화면을 수신하고, 수신된 영상 화면을 디스플레이에 표시할 수 있다. 디스플레이 장치 100가 전자 장치 200로부터 수신되는 영상 화면은 예를 들어, 설정 UI 화면, 메뉴 UI 화면, 로고 표시 화면, 실제 컨텐츠 영상 화면 등을 포함할 수 있다.
동작 520에서, 디스플레이 장치 100는 제1신경망 모델을 이용하여, 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단할 수 있다.
제1신경망 모델은 표시된 영상 화면을 입력받아 분석함으로써 입력된 화면이 컨텐츠 실행 가능 UI 화면 인지 컨텐츠 실행 불가능 UI 화면인지 판단하도록 학습된 신경망 모델을 나타낼 수 있다. 구체적으로 제1신경망 모델은 영상 화면을 입력받아 분석함으로써 입력된 화면이 컨텐츠 실행 가능 UI 화면일 확률 또는 컨텐츠 실행 불가능 UI 화면일 확률 중 적어도 하나를 출력함으로써 입력된 화면이 컨텐츠 실행 가능 UI 화면 인지 컨텐츠 실행 불가능 UI 화면 인지를 판단할 수 있다. 예를 들어, 제1신경망 모델이 영상 화면을 분석하여 컨텐츠 실행 가능 UI 화면일 확률이 90% 이상으로 나오면, 이 영상 화면은 컨텐츠 실행 가능 UI 화면인 것으로 판단할 수 있다.
디스플레이 장치 100는 표시된 영상 화면이 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환된 경우에 컨텐츠 실행이 시작되는 것으로 판단할 수 있다. 예를 들어, 디스플레이 장치 100는 제1신경망 모델을 통해 영상 분석한 결과가 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환된 경우에 컨텐츠 실행이 시작되는 것으로 판단할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 연결된 전자 장치 200에 대응하여 학습된 제1신경망 모델을 이용하여, 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단할 수 있다.
동작 520에서, 디스플레이 장치 100는 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단한 결과, 컨텐츠 실행이 시작된다고 판단되지 않은 경우에 지속적으로 영상 화면을 분석할 수 있다.
동작 520에서, 디스플레이 장치 100는 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단한 결과, 컨텐츠 실행이 시작된다고 판단된 경우에 동작 530으로 진행할 수 있다.
동작 530에서, 컨텐츠 실행이 시작된다고 판단됨에 따라 디스플레이 장치 100는 제2신경망 모델을 호출할 수 있다.
제2신경망 모델은 영상 화면을 입력받아 분석함으로써 입력된 화면으로부터 컨텐츠의 속성 정보를 도출할 수 있는 텍스트 영역이나 로고 영역을 추출하도록 학습된 신경망 모델을 나타낼 수 있다.
동작 540에서, 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면을 분석함으로써 컨텐츠의 속성 정보를 획득할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면의 텍스트 영역이나 로고 영역으로부터 텍스트나 로고를 획득하고, 이와 같이 획득된 텍스트나 로고를 이용하여 컨텐츠의 속성 정보를 획득할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면의 텍스트 영역이나 로고 영역 또는 텍스트 영역이나 로고 영역에서 추출된 텍스트나 로고를 서버에 전송하고, 서버로부터 텍스트나 로고에 매칭되는 컨텐츠의 속성 정보를 획득할 수 있다. 컨텐츠의 속성 정보는 컨텐츠의 타이틀, 컨텐츠의 카테고리 등을 포함하는 메타데이터를 포함할 수 있다.
동작 550에서, 디스플레이 장치 100는 획득된 컨텐츠의 속성 정보에 기초하여 컨텐츠의 영상의 실행 환경을 제어할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 컨텐츠의 속성 정보에 기초하여 해당 컨텐츠에 적합한 화질을 설정하거나, 해당 컨텐츠에 적합한 음향을 설정하거나, 또는 해당 컨텐츠에 적합한 시청 연령 제한 서비스 등을 제공할 수 있다.
도 6은 일 실시예에 따라 도 5에 도시된 동작 방법을 설명하기 위한 참고도이다.
도 6을 참조하면, 디스플레이 장치 100에 전자 장치 200의 연결에 디스플레이 장치 100는 전자 장치 200로부터 전자 장치 200에서 출력하는 영상 600을 수신할 수 있다. 디스플레이 장치 100는 영상 600을 프레임 단위로 수신할 수 있다.
디스플레이 장치 100는 연결된 전자 장치 200로부터 프레임 단위의 영상을 수신하면 수신된 영상을 분석하여 컨텐츠 실행 시작을 검출하기 까지 컨텐츠 실행 시점 판단 모드 610로 동작할 수 있다.
컨텐츠 실행 시점 판단 모드 610에서 디스플레이 장치 100는 제1신경망 모델을 이용하여 컨텐츠 실행 시점 판단 동작 630을 수행할 수 있다. 예를 들어, 디스플레이 장치 100는 수신된 영상 프레임을 제1신경망 모델에 입력하여 분석한 결과 k-1 번째 프레임이 컨텐츠 실행 가능 UI 화면으로 판단되고 k번째 프레임이 컨텐츠 실행 불가능 UI 화면으로 판단된 경우, 디스플레이 장치 100는 컨텐츠 실행이 시작되었음을 검출 (640) 할 수 있다. 디스플레이 장치 100는 컨텐츠 실행 시점 검출되기 까지 전자 장치 200로부터 수신되는 프레임에 대해서 매 프레임 마다 또는 일정한 시간 간격, 예를 들어 100ms 간격으로 샘플링하여 프레임을 분석할 수 있다.
디스플레이 장치 100는 컨텐츠 실행 시작 검출 (640)이 된 경우, 더 이상 제1신경망 모델을 이용하지 않고 제2신경망 모델을 호출하여 컨텐츠 속성 인식 동작 650을 수행할 수 있다. 디스플레이 장치 100는 제2신경망 모델을 이용하여 컨텐츠 속성 인식 동작 650을 수행하는 컨텐츠 속성 인식 모드 620를 컨텐츠 속성 인식이 성공할 때까지 유지할 수 있다. 디스플레이 장치 100는 컨텐츠 속성 인식이 성공할 때까지 전자 장치 200로부터 수신되는 프레임에 대해서 일정한 간격으로 샘플링하여 프레임을 분석할 수 있다.
컨텐츠 속성 인식 모드 620에서 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면으로부터 텍스트 영역이나 로고 영역을 검출하고, 검출된 텍스트 영역이나 로고 영역에서 추출된 텍스트나 로고에 기반하여 컨텐츠 속성 정보를 획득할 수 있다. 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상을 분석함으로써 컨텐츠 속성 인식에 성공 (660) 하면 컨텐츠의 속성에 기반하여 컨텐츠의 실행 환경을 제어 (670) 할 수 있다.
이하에서는 도 7 내지 도 16을 참조하여 본 개시서에 개시된 디스플레이 장치의 동작을 구체적으로 설명한다.
도 7은 일 실시예에 따라 디스플레이 장치에서 제1신경망 모델을 획득하는 방법의 과정을 나타내는 흐름도이다.
도 7을 참조하면, 동작 710에서 전자 장치 200와 디스플레이 장치 100는 연결할 수 있다.
일 실시예에 따라 디스플레이 장치 100와 전자 장치 200는 유선 통신을 통해 연결할 수 있다. 예를 들어, 디스플레이 장치 100와 전자 장치 200는 HDMI 케이블을 통해 연결될 수 있으며 이때 디스플레이 장치 100의 입출력부 110와 전자 장치 100의 입출력부 210는 HDMI 통신 프로토콜에 따라 통신할 수 있다.
일 실시예에 따라 디스플레이 장치 100와 전자 장치 200는 무선 통신을 통해 연결할 수 있다. 예를 들어, 디스플레이 장치 100와 전자 장치 200는 블루투스, BLE, 지그비, 와이파이 등의 무선 통신을 통해 연결할 수 있으며 이때 디스플레이 장치 100와 전자 장치 200는 각 통신 프로토콜에 따라 통신할 수 있다.
동작 720에서, 디스플레이 장치 100는 전자 장치 200로부터 전자 장치 200의 기기 정보를 수신할 수 있다.
일 실시예에 따라 디스플레이 장치 100와 전자 장치 200가 HDMI 케이블로 연결된 경우, 디스플레이 장치 100는 HDMI-CEC 또는 HDMI Info frame을 이용하여, 전자 장치 200에 대한 기기 정보를 수신할 수 있다. 이때, 기기 정보는, 전자 장치 200의 디바이스 타입, 제조사, 사업자 명 및 모델명 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다.
일 실시예에 따라 디스플레이 장치 100와 전자 장치 200가 무선 통신으로 연결된 경우, 디스플레이 장치 100는 연결된 무선 통신 프로토콜에 따라서, 전자 장치 200에 대한 기기 정보를 수신할 수 있다. 이때, 기기 정보는, 전자 장치 200의 디바이스 타입, 제조사, 사업자 명 및 모델명 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다.
동작 730에서, 디스플레이 장치 100는 전자 장치 200로부터 수신된 기기 정보로부터 전자 장치 200를 식별할 수 있다.
동작 740에서, 디스플레이 장치 100는 식별된 전자 장치 200에 대응하는 제1신경망 모델을 획득할 수 있다. 디스플레이 장치 100는 도 3을 참조하여 설명한 바와 같이, 디스플레이 장치 100에 연결될 수 있는 하나 이상의 전자 장치 각각에 대해서 학습된 제1신경망 모델을 포함하는 제1신경망 모델 데이터베이스 172를 포함할 수 있다. 디스플레이 장치 100는 이러한 제1신경망 모델 데이터베이스 172로부터 식별된 전자 장치에 대응하는 신경망 모델을 획득할 수 있다. 예를 들어 디스플레이 장치 100는 전자 장치가 제1전자 장치로 식별된 경우, 제1전자 장치에 대응하는 제1신경망 모델을 획득할 수 있다.
도 8은 일 실시예에 따라 디스플레이 장치 100에서 컨텐츠 실행 시작 시점을 검출하는 방법의 과정을 나타내는 흐름도이다. 도 8에 도시된 동작은 도 7에 도시된 동작 이후 수행될 수 있다.
도 8을 참조하면, 동작 810에서, 디스플레이 장치 100와 전자 장치 200의 연결되고 나서 전자 장치 200는 디스플레이 장치 100로 영상을 전송할 수 있다.
동작 820에서, 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상을 화면에 표시함과 함께, 제1신경망 모델을 이용하여, 표시된 영상 화면을 분석할 수 있다. 제1신경망 모델은 예를 들어 도 7에 도시된 동작을 통해 획득될 수 있다.
동작 830에서, 디스플레이 장치 100는 영상 화면 분석에 따라 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환되는지를 판단할 수 있다.
디스플레이 장치 100는 전자 장치 200로부터 수신된 영상을 프레임 단위로 분석하는데 수신된 영상 프레임을 제1신경망 모델에 입력함으로써 입력된 영상 프레임이 컨텐츠 실행 가능 UI 화면인지 컨텐츠 실행 불가능 UI 인지를 판단할 수 있다. 디스플레이 장치 100는 제1신경망 모델로부터 출력되는 결과를 이용하여 영상 화면이 컨텐츠 실행 가능 UI 화면으로부터 컨텐츠 실행 불가능 UI 화면으로 전환되는 지를 판단할 수 있다. 컨텐츠 실행 가능 UI 화면에 이어서 컨텐츠 실행 불가능 UI 화면이 나오는 경우 이는 사용자가 컨텐츠 실행 가능 UI 화면에서 어떤 컨텐츠를 선택하여 해당 컨텐츠가 실행된 것으로, 즉, 컨텐츠 실행이 시작된 것으로 판단될 수 있다.
도 9는 일 예에 따라 컨텐츠 실행 시점을 판단하는 방법을 설명하기 위한 참고도이다.
도 9를 참조하면, 디스플레이 장치 100는 디스플레이 장치 100에 연결된 전자 장치 200로부터 영상 화면 즉, 설정 UI 910, 메뉴 UI 화면 920, 장치 로고 표시 화면 930을 순차적으로 수신한다고 가정한다.
디스플레이 장치 100는 전자 장치 200로부터 수신된 설정 UI 화면 910을 전자 장치 200에 대응하는 제1신경망 모델 400에 입력함으로써 해당 입력 화면이 컨텐츠 실행 불가능 UI 화면이라는 결과를 얻을 수 있다. 디스플레이 장치 100는 이어서 수신된 메뉴 UI 화면 920을 전자 장치 200에 대응하는 제1신경망 모델 400에 입력함으로써 해당 입력 화면이 컨텐츠 실행 가능 UI 화면이라는 결과를 얻을 수 있다. 이 경우에 설정 UI 화면 910에서 메뉴 UI 화면 920로의 전환은 컨텐츠 실행 불가능 UI 화면에서 컨텐츠 실행 가능 UI 화면으로 전환된 것이므로 동작 830의 조건을 만족하지 않는 것으로 판단할 수 있다.
다음 디스플레이 장치 100는 이어서 수신된 장치 로고 출력 화면 930을 전자 장치 200에 대응하는 제1신경망 모델 400에 입력함으로써 해당 입력 화면이 컨텐츠 실행불 가능 UI 화면이라는 결과를 얻을 수 있다. 이 경우에 메뉴 UI 화면 920에서 장치 로고 출력 화면 930으로의 전환은 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환된 것이므로 동작 830의 조건을 만족하는 것으로 판단할 수 있다.
다시 도 8로 돌아가서, 동작 830의 판단 결과 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환되었다고 판단되지 않는 경우에 디스플레이 장치 100는, 전자 장치 200로부터 수신되는 영상을 분석하기 위해 동자 820으로 진행할 수 있다.
동작 830의 판단 결과 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환되었다고 판단된 경우에 동작 840으로 진행할 수 있다.
동작 840에서, 디스플레이 장치 100는 컨텐츠 실행 시작 시점을 검출한 것으로 판단할 수 있다.
동작 850에서, 디스플레이 장치 100는 컨텐츠 실행 시작 시점 검출에 따라서, 실행된 컨텐츠를 인식하기 위해 제2신경망을 호출할 수 있다. 제2신경망은 영상 화면을 분석하여 텍스트 영역이나 로고 영역을 검출하도록 학습된 신경망을 나타낼 수 있다.
도 10은 일 실시예에 따라 영상 화면을 분류하는 신경망 모델의 일 예를 나타낸다.
딥 뉴럴 네트워크는 학습 데이터를 통한 학습을 수행할 수 있다. 그리고, 학습된 딥 뉴럴 네트워크는 객체 인식을 위한 연산인 추론 연산을 수행할 수 있다. 여기서, 딥 뉴럴 네트워크는 모델의 구현 방식(예를 들어, CNN(Convolution Neural Network) 등), 결과의 정확도, 결과의 신뢰도, 프로세서의 연산 처리 속도 및 용량 등에 따라 매우 다양하게 설계될 수 있다.
도 10은 일 실시예에 따른 컨볼루션 신경망의 구조를 나타내는 도면이다.
도 10을 참조하면, 컨볼루션 신경망 1000은, 입력 영상 1010가 입력되고, N개의 컨볼루션 레이어들 1020을 통과하여, 출력 데이터 1030가 출력되는 구조를 가진다. 이때, 컨볼루션 신경망 1000은 2개 이상의 컨볼루션 레이어를 포함하는 딥 컨볼루션 신경망일 수 있다.
일 실시예에 따른 디스플레이 장치 100는 컨볼루션 신경망 1000을 이용하여, 입력 영상으로부터 테두리, 선, 색 등과 같은 "특징들(features)"을 추출할 수 있다. 컨볼루션 신경망 1000에 포함되는 N개의 컨볼루션 레이어들 1020 각각에서는 데이터를 수신하고, 수신된 데이터를 처리하여, 출력 데이터를 생성할 수 있다. 예를 들어, 신경망은 컨볼루션 레이어에 입력된 영상을 하나 이상의 커널들 또는 필터들과 컨볼루션하여, 제1 특징 맵 1021을 생성할 수 있다. 또한, 생성된 제1특징 맵을 서브샘플링하여 제2특징 맵 1022를 획득하고, 제2 특징 맵 1022를 제2 컨볼루션 레이어로 입력하여, 제2 컨볼루션 레이어에서 입력된 제2 특징 맵을 하나 이상의 커널들 또는 필터들과 컨볼루션하여, 제3 특징 맵 1023을 생성할 수 있다.
컨볼루션 신경망 1000의 초기 컨볼루션 레이어들은 입력 영상으로부터 에지들 또는 그레디언트들과 같은 낮은 레벨의 특징들을 추출하도록 동작될 수 있다. 후기 컨볼루션 레이어들로 갈수록 점진적으로 복잡한 특징들을 추출할 수 있다.
컨볼루션 신경망 1000 내에서 특징 맵을 입력받고 출력하는 하나 이상의 컨볼루션 레이어들은 히든(hidden) 레이어들(예를 들어, 히든 컨볼루션 레이어들)일 수 있다. 또한, 컨볼루션 신경망 1000 에서는 특징 맵에 하나 이상의 커널들을 적용하여 컨볼루션하는 연산 이외에 다른 프로세싱 연산들이 수행될 수 있다. 예를 들어, 활성화 함수(activation function), 풀링(pooling) 등의 연산들이 수행될 수 있다. 영상 처리 장치는 컨볼루션 연산을 수행한 결과 추출된 특징 맵의 값들을 컨텐츠 실행 가능 UI 화면의 특징이 "있다 또는 없다"의 비선형적인 값으로 바꿔주기 위해 활성화 함수를 적용할 수 있다. 이때, ReLu 함수가 사용될 수 있으나, 이에 한정되지 않는다.
도 11은 일 실시예에 따라 디스플레이 장치에서 컨텐츠 실행 시작 시점 이후 컨텐츠를 인식하는 방법을 설명하기 위한 참고도이다.
도 11을 참조하면, 동작 1110에서, 디스플레이 장치 100는 제2신경망 모델을 이용하여 컨텐츠 영상 화면을 분석할 수 있다. 일 예에 따라 디스플레이 장치 100는 도 8에 도시된 동작에 따라 획득될 수 있다.
제2신경망 모델은 입력 영상으로부터 하나 이상의 오브젝트를 검출하는데 이용되는 신경망으로서, 예를 들어, Faster R-CNN, R_FCN[Region-based Fully Convolutional Networks] and FPN-FRCN 같은 이 단계 방식 알고리즘(two stage methods) 나 YOLO, SSD[Single Shot Mutibox Detector], RetinaNet와 같은 일 단계 방식 (Single stage methods) 알고리즘을 포함할 수 있다.
일 실시예에 따라 제2신경망 모델은 텍스트가 포함된 복수의 입력 영상과 로고 이미지가 포함된 복수의 입력 영상을 학습함으로써, 입력 화면으로부터 텍스트나 로고가 포함된 오브젝트를 검출하는 오브젝트 검출 모델을 포함할 수 있다.
도 12는 일 예에 따른 오브젝트 검출 모델의 일 예를 나타낸다.
오브젝트 검출 모델은 하나 이상의 뉴럴 네트워크를 이용하여 입력 영상으로부터 하나 이상의 오브젝트를 검출하고, 검출된 하나 이상의 오브젝트에 대응하는 오브젝트 클래스 및 오브젝트 위치를 포함하는 오브젝트 정보를 출력할 수 있다.
오브젝트 검출 (object detection)은 주어진 이미지에서 오브젝트들이 어디에 위치하는지 결정하고(object localization), 각 오브젝트가 어느 카테고리에 속하는지를 결정(object classification) 하는 것이다. 따라서 일반적으로 오브젝트 검출 모델은 세가지 단계, 즉, 오브젝트 후보 영역 선택(informative region selection), 각 후보 영역으로부터 특징 추출(feature extraction), 및 추출한 특징에 분류기를 적용하여 오브젝트 후보 영역의 클래스 분류(classification)를 거칠 수 있다. 검출 방법에 따라 이후 바운딩 박스 리그레션과 같은 후 처리를 통해 localization 성능을 높일 수 있다.
도 12를 참조하면, 오브젝트 검출 모델의 일 예에 따라 영역 제안과 CNN을 결합한 오브젝트 검출 방법인 R-CNN의 네트워크 구조를 나타낸다.
도 12를 참조하면, 오브젝트 검출 모델 1200은 영역 제안 모듈 1210, CNN 1220, 분류기 모듈 1230, 바운딩 박스 리그레션 모듈 1240을 포함할 수 있다.
영역 제안 모듈 (Region proposal module) 1210은 입력 영상 200에서 후보 영역을 추출한다. 후보 영역은 일정한 개수가 될 수 있는데 예를 들어 2000개가 될 수 있다. R-CNN은 영역 제안 알고리즘(Region proposal algorithm) 중 하나인 선택적 서치(selective-search)를 이용한다.
CNN (Convolutional Neural Network) 1220은 영역 제안 모듈 1210이 생성한 영역에서 고정 길이 특징 벡터(fixed-length feature vector) 를 추출한다. CNN (eg. AlexNet, VggNet 등)은 일정한 크기의 입력을 받으므로, 영역 제안 알고리즘이 이미지에 대해서 주는 다양한 직사각형 모양의 영역을 크기나 종횡비에 상관없이 와핑(warping)하여 일정한 크기에 맞추는 것이 필요하다. CNN은 와핑(warping)된 영역을 수신하여 분류기 모듈 이전의 레이어의 결과를 추출한다.
분류기 모듈 (Linear svm module) 1230은 고정 길이 특징 벡터를 입력으로 받아 분류(classification)을 수행한다. 예를 들어 분류기 모듈 1230은 오브젝트가 텍스트에 해당하는지 로고에 해당하는지 분류할 수 있을 것이다.
바운딩 박스 리그레션 모듈 (Bounding-box regression module) 1240은 고정 길이 특징 벡터를 입력으로 받아 박스(box)를 표현하는 네 가지의 숫자 (x, y, w, h)를 계산한다. 박스를 표현하는 네 가지 숫자 (x, y, w, h)에 의해 오브젝트의 위치가 특정될 수 있다.
즉, R-CNN은 영역 제안 추출을 통해 오브젝트의 로컬리제이션을 수행하고, 추출된 특징의 분류를 통해 오브젝트의 클래스를 인식함으로써 객체 검출을 수행하게 된다. 그리고 바운딩 박스 리그레션을 수행함으로써 로컬리제이션 에러를 줄이는 과정을 거칠 수 있다.
이러한 오브젝트 검출 모델 1200의 학습(training)은, 미리 학습된 CNN을 오브젝트 검출 작업에 맞게 변형하기 위해서 기존에 미리 학습된 CNN에서 분류 층(예를 들어 출력 층)을 새롭게 오브젝트 검출을 위해 "오브젝트의 개수 + 배경" 로 바꾸고, 해당 부분만 가중치 초기화(weight initialization)를 한다.
예를 들어, 이와 같은 오브젝트 검출 모델에 의해 입력 이미지로부터 하나 이상의 오브젝트를 검출할 수 있다. 오브젝트 정보 1250는 하나 이상의 오브젝트에 대한 정보를 포함하며, 각 오브젝트 정보는 (오브젝트 클래스, 위치)로 표시될 수 있다. 여기서 오브젝트 클래스는 로고 인지 텍스트 인지를 나타낼 수 있다.
다시 도 11로 돌아가서, 동작 1120에서, 디스플레이 장치 100는 컨텐츠 영상 화면으로부터 텍스트 영역 또는 로고 영역이 추출되었는지를 판단할 수 있다.
동작 1120의 판단 결과, 컨텐츠 영상 화면으로부터 텍스트 영역이나 로고 영역이 검출되지 않은 경우에는 다음 화면을 분석하기 위해 동작 1110으로 진행할 수 있다.
동작 1120의 판단 결과, 컨텐츠 영상 화면으로부터 텍스트 영역이나 로고 영역이 검출된 경우 동작 1130으로 진행할 수 있다.
동작 1130에서, 디스플레이 장치 100는 검출된 로고 텍스트 영역 또는 로고 영역에 기반하여 컨텐츠의 속성 정보를 획득할 수 있다.
일 실시예에 따라 디스플레이 장치 100는 영상 화면으로부터 텍스트 영역을 검출한 경우에, 텍스트 영역으로부터 텍스트를 추출하고, 추출된 텍스트를 기반으로 컨텐츠의 속성 정보를 획득할 수 있다. 디스플레이 장치 100는 OCR (Optical Character Recognition) 등의 기술을 이용하여 텍스트 영역으로부터 텍스트를 추출할 수 있다. 디스플레이 장치 100는 텍스트 영역으로부터 추출된 텍스트를 컨텐츠들에 대한 정보를 관리하는 서버 300로 전송하고, 서버 300로부터 텍스트에 대응하는 컨텐츠의 속성 정보를 수신할 수 있다. 예를 들어, 서버는 디스플레이 장치 100로부터 텍스트를 수신하고, 텍스트에 대응하는 컨텐츠를 검색하여 해당 컨텐츠에 대한 정보를 찾으면, 컨텐츠에 관한 정보, 예를 들어, 컨텐츠의 카테고리, 장르, 시청 연령 가능 정보 등의 속성 정보를 추출하고 추출된 컨텐츠의 속성 정보를 디스플레이 장치 100로 전송할 수 있다. 만약 서버는 디스플레이 장치 100로부터 수신된 텍스트가, 완전한 텍스트가 아니거나 또는 텍스트를 이용하여 컨텐츠를 검색하였지만 관련 컨텐츠를 찾지 못한 경우에 서버 300는 디스플레이 장치 100로 검색 실패 라는 결과를 전송할 수 있다.
도 13은 일 예에 따라 영상 화면을 분석하여 컨텐츠의 속성 정보를 획득하는 과정을 설명하기 위한 참고도이다.
도 13을 참조하면, 디스플레이 장치 100는 디스플레이 장치 100에 연결된 전자 장치 200로부터 영상 화면 930 내지 980을 순차적으로 수신한다고 가정한다.
디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 930을 영상으로부터 오브젝트 영역, 예를 들어, 텍스트 영역이나 로고 영역을 검출하도록 학습된 제2신경망 모델 1300에 입력함으로써 해당 영상 화면 930으로부터 로고 영역 검출 결과 931를 얻을 수 있다. 디스플레이 장치 100는 이어서 검출된 로고 영역 이미지를 서버 300로 전송할 수 있다. 서버 300는 디스플레이 장치 100로부터 수신한 로고 영역 이미지를 이용하여 이미지 검색 등의 동작을 수행하여 해당 로고 영역 이미지가 어떤 컨텐츠와 관련된 것인지를 분석할 수 있다. 로고 영역 이미지 931은 어떤 특정한 컨텐츠와 관련된 것이 아니라 특정한 전자 장치에 관련된 로고 이미지 라면 서버는 검색 실패라는 결과를 디스플레이 장치 100로 전송할 수 있다.
디스플레이 장치 100는 서버 300로부터 검색 실패라는 결과를 수신하였기 때문에 전자 장치 200로부터 수신된 영상을 계속하여 분석한다.
다음 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 940을 제2신경망 모델 1300에 입력하는데, 영상 화면 940은 블랙 화면이므로 제2신경망 모델은 오브젝트 검출 결과로서 아무런 오브젝트 검출되지 않았음을 출력할 수 있다.
디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 950을 제2신경망 모델 1300에 입력함으로써 해당 영상 화면 950으로부터 로고 영역 검출 결과 951를 얻을 수 있다. 디스플레이 장치 100는 이어서 검출된 로고 영역 이미지 951를 서버 300로 전송할 수 있다. 서버 300는 디스플레이 장치 100로부터 수신한 로고 영역 이미지를 이용하여 이미지 검색 등의 동작을 수행하여 해당 로고 영역 이미지가 어떤 컨텐츠와 관련된 것인지를 분석할 수 있다. 로고 영역 이미지 951은 어떤 특정한 컨텐츠와 관련된 것이 아니라 특정한 컨텐츠 제작사와 관련된 로고 이미지 라면 서버는 검색 실패라는 결과를 디스플레이 장치 100로 전송할 수 있다.
다음 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 960을 제2신경망 모델 1300에 입력하는데, 영상 화면 960은 블랙 화면이므로 제2신경망 모델은 오브젝트 검출 결과로서 아무런 오브젝트 검출되지 않았음을 출력할 수 있다.
다음 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 970을 제2신경망 모델 1300에 입력함으로써 해당 영상 화면 970으로부터 텍스트 영역 검출 결과 971를 얻을 수 있다. 디스플레이 장치 100는 이어서 검출된 텍스트 영역 이미지 971를 OCR 등의 기술을 이용하여 분석함으로써 텍스트 영역 이미지 971로부터 텍스트를 추출할 수 있다. 디스플레이 장치 100는 추출된 텍스트를 서버 300로 전송할 수 있다. 서버 300는 디스플레이 장치 100로부터 수신한 텍스트에 대응하는 컨텐츠를 검색할 수 있다. 서버 300는 텍스트에 대응하는 컨텐츠를 검색한 결과, 검색된 컨텐츠에 대한 속성 정보를 디스플레이 장치 100로 전송할 수 있다.
디스플레이 장치 100는 텍스트 영역 이미지 로부터 자신이 텍스트를 추출하여 추출된 텍스트를 서버 300로 전송하는 것으로 설명하였지만 이에 한정되지 않는다. 디스플레이 장치 100는 텍스트 영역 이미지 전체를 서버 300로 전송하고, 서버 300는 디스플레이 장치 100로부터 추출한 텍스트 영역 이미지로부터 텍스트를 추출할 수도 있을 것이다.
다시 도 11로 돌아가서, 동작 1140에서, 디스플레이 장치 100는 동작 1130에서 획득된 컨텐츠의 속성 정보에 기반하여 컨텐츠의 실행 환경을 제어할 수 있다. 컨텐츠의 실행 환경 제어는 컨텐츠의 속성에 적합하게 화질을 설정하거나 음향을 설정하거나 사용자 시청 연령 제한 서비스를 제공하는 것을 포함할 수 있다. 디스플레이 장치 100는 컨텐츠의 속성 정보로서 컨텐츠의 장르나 카테고리 정보를 수신한 경우에 컨텐츠의 장르나 카테고리에 맞게 화질이나 음향을 설정할 수 있다. 또한 디스플레이 장치 100는 컨텐츠의 속성 정보로서 시청 가능 연령 정보를 수신한 경우에, 이러한 시청 가능 연령 정보에 기반하여 적절한 안내 메시지를 출력한다든지 패스워드 입력을 요청하는 메시지를 출력한다든지 시청 제한을 제어할 수 있다.
도 14는 일 실시예에 따라 컨텐츠의 장르에 따라 설정되는 화질 설정값과 음향 설정값을 포함하는 테이블의 일 예를 나타낸다.
도 14를 참조하면, 디스플레이 장치 100는 컨텐츠가 예를 들어 게임 컨텐츠 인 경우, 게임 컨텐츠의 장르에 따라 서로 다르게 설정되는 화질 설정값과 음향 설정값을 포함하는 화질/음향 설정 테이블 1400를 저장할 수 있다.
화질/음향 설정 테이블 1400는 예를 들어, 게임 컨텐츠의 장르로서 일반적인 베이직 1410, 유저가 게임 속 캐릭터들을 연기하며 즐기는 역할 수행 게임RPG (Role Playing Game) 1420, 플레이어의 시점, 내가 사물을 보는 시점과 같은 화면에서 무기나 도구를 이용해 전투를 벌이는 슈팅게임 인 1인칭 슈팅 게임 (FPS(First-person shooter) 1430, 실시간으로 진행되는 전략 게임으로서, 자원을 채취하고, 그 자원으로 건물을 짓거나 병력을 생산하고, 문명을 발전시키거나 전쟁에서 승리하면 끝나는 전략 게임의 형태인 RTS(Real-time strategy, 실시간전략게임) 1440, 스포츠 1450 등을 포함할 수 있다.
디스플레이 장치 100는 테이블 1400에 포함된 각 장르의 게임 컨텐츠의 속성에 맞게 서로 다른 화질 값을 매핑시켜 놓을 수 있다. 베이직 장르 1410에 대해서는 제1화질 값, RPG 장르 1420에 대해서는 제2화질 값, FPS 장르 1430에 대해서는 제3화질 값, RTS 장르 1440에 대해서는 제4화질 값, 스포츠 장르 1450에 대해서는 제 5화질 값을 매핑시켜 놓을 수 있다. 예를 들어, FPS와 같은 1인칭 슈팅 게임은 게임 속 캐릭터의 시점과 플레이어의 시점이 동일해야 하기 때문에, 다른 게임에 비해 높은 사실감이 요구되므로, 상대적으로 더 사실감을 표현할 수 있는 화질 값들로 구성된 제3화질 값을 설정할 수 있다.
디스플레이 장치 100는 테이블 1400에 포함된 각 장르의 게임 컨텐츠의 속성에 맞게 서로 다른 음향 값을 매핑시켜 놓을 수 있다. 베이직 장르 1410에 대해서는 제1음향 값, RPG 장르 1420에 대해서는 제2음향 값, FPS 장르 1430에 대해서는 제3음향 값, RTS 장르 1440에 대해서는 제4음향 값, 스포츠 장르 1450에 대해서는 제 5음향 값을 매핑시켜 놓을 수 있다.
디스플레이 장치 100는 이와 같은 테이블 1400을 참조하여, 컨텐츠의 속성 정보로서 게임 컨텐츠의 장르가 RPG 인 것으로 인식된 경우, 디스플레이 장치 100는 RPG 장르에 대응하는 제2화질 값 및 제2음향 값을 추출하고, 제2화질 값 및 제2음향 값에 따라 디스플레이 장치 100의 화질을 설정하고 음향을 설정할 수 있다.
도 15는 일 실시예에 따라 컨텐츠의 속성 정보로서 시청 연령 정보를 수신한 경우의 디스플레이 장치의 동작을 설명하기 위한 참고도이다.
도 15를 참조하면, 디스플레이 장치 100가 컨텐츠의 속성 정보로서 컨텐츠의 시청 연령 가능 정보를 수신한 경우 디스플레이 장치 100는 수신된 시청 연령 가능 정보를 기반으로 시청 연령 제한 서비스를 제공할 수 있다. 예를 들어, 디스플레이 장치 100는 컨텐츠의 속성 정보로서 컨텐츠의 시청 연령이 19세 시청 연령 가능 임을 나타내는 정보를 수신한 경우에 디스플레이 장치 100는 도 15에 도시된 바와 같은 사용자 인터페이스 1500를 출력할 수 있다.
사용자 인터페이스 1500는 "표시되는 컨텐츠는 19세 시청 연령 가능합니다. 시청을 계속하시려면 성인인증을 위해 비밀번호를 입력해주세요!" 라는 메시지와 함께 성인 인증 비밀번호 4자리를 입력할 수 있는 입력창을 제공할 수 있다. 이와 같은 사용자 인터페이스 1500의 입력창에 사용자는 비밀번호를 입력함으로써 컨텐츠의 표시를 가능하게 할 수 있다.
도 16은 일 실시예에 따라 컨텐츠 실행 시점 판단 모드와 컨텐츠 속성 인식 모드 간의 전환을 설명하기 위한 참고도이다.
도 16을 참조하면, 디스플레이 장치 100는 컨텐츠 실행 시점 판단 모드 610에서 디스플레이 장치 100에 연결된 전자 장치에 대응하는 제1신경망 모델을 이용하여 컨텐츠의 실행 시작 시점을 판단할 수 있다. 디스플레이 장치 100가 컨텐츠 실행 시점 판단 모드 610에서 컨텐츠 실행 시작을 검출하면, 디스플레이 장치 100 실행된 컨텐츠의 속성 정보를 획득하기 위해 컨텐츠 속성 인식 모드 620로 진입 1610할 수 있다. 디스플레이 장치 100는 컨텐츠 속성 인식 모드 620에서 제2신경망 모델을 이용하여 전자 장치 200로부터 수신되는 영상 화면을 분석함으로써 영상 화면으로부터 로고 영역이나 텍스트 영역을 추출하고, 추출된 로고 영역이나 텍스트 영역에 기반하여 실행되는 컨텐츠의 속성 정보를 얻을 수 있다. 이와 같이 얻어진 컨텐츠의 속성 정보에 따라 컨텐츠 실행 환경을 제어하고 다시 컨텐츠 실행 시점 판단 모드 610로 진입 1620할 수 있다.
또는, 디스플레이 장치 100는 이와 같이 얻어진 컨텐츠의 속성 정보에 따라 컨텐츠 실행 환경을 제어하고 컨텐츠 실행 종료 판단 모드 630로 진입 630할 수 있다. 컨텐츠 실행 종료 판단 모드 630에서는, 전자 장치 200로부터 수신되는 영상 화면을 분석하여 컨텐츠의 실행 종료를 나타내는 화면을 검출하도록 학습된 제3신경망 모델을 이용하여 컨텐츠의 실행이 종료되는지를 검출할 수 있다. 디스플레이 장치 100가 컨텐츠 실행 종료 판단 모드 630에서 컨텐츠의 실행이 종료된 것을 검출하면, 디스플레이 장치 100는 다음 새로운 컨텐츠의 실행이 시작되는지를 모니터링하기 위해 컨텐츠 실행 시점 판단 모드 610으로 진입 1640할 수 있다.
컨텐츠 실행 시점 판단 모드 610에서 컨텐츠 실행 시작을 검출하는 것이나 컨텐츠 속성 인식 모드 620에서 컨텐츠 속성을 검출하는 것은 상대적으로 짧은 시간 구간에서 행해지는 것이므로 분석 대상이 되는 영상 화면을 보다 짧은 시간 주기 간격으로 샘플링하여 분석하는 것이 적절할 수 있다. 반면, 컨텐츠 실행 종료 판단 모드 630에서 컨텐츠 실행의 종료를 판단하는 것은 일반적으로 상대적으로 긴 시간 구간 동안 즉 컨텐츠의 실행이 계속되는 동안 수행될 수 있다. 따라서 이 경우에는 분석 대상이 되는 영상 화면을 보다 긴 시간 주기 간격으로 샘플링하여 분석하는 것이 가능할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
개시된 실시예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 S/W 프로그램으로 구현될 수 있다.
컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시예에 따른 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치를 포함할 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서,‘비일시적’은 저장 매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 개시된 실시예들에 따른 제어 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 디바이스의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 서버 및 디바이스로 구성되는 시스템에서, 서버의 저장매체 또는 디바이스의 저장매체를 포함할 수 있다. 또는, 서버 또는 디바이스와 통신 연결되는 제 3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제 3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 디바이스 또는 제 3 장치로 전송되거나, 제 3 장치로부터 디바이스로 전송되는 S/W 프로그램 자체를 포함할 수 있다.
이 경우, 서버, 디바이스 및 제 3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 디바이스 및 제 3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 디바이스가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제 3 장치가 컴퓨터 프로그램 제품을 실행하여, 제 3 장치와 통신 연결된 디바이스가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다. 제 3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제 3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드 된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제 3 장치는 프리로드 된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.
또한, 본 명세서에서, "부"는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 디스플레이 장치에 있어서,
    디스플레이,
    입출력 인터페이스,
    통신 인터페이스,
    하나 이상의 인스트럭션을 저장하는 메모리, 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    연결된 전자 장치로부터 수신된 영상의 화면을 표시하고,
    제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하고,
    상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하고,
    상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하고,
    상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는, 디스플레이 장치.
  2. 제1항에 있어서,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 전자 장치로부터 HDMI 통신을 통해 수신되는 HDMI CEC로부터 상기 전자 장치를 식별하고,
    상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득하는, 디스플레이 장치.
  3. 제1항 내지 제2항 중 어느 한 항에 있어서,
    상기 제1신경망 모델은,
    상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함하는, 디스플레이 장치.
  4. 제3항에 있어서,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하고,
    상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단하는, 디스플레이 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제2신경망 모델은
    복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함하는, 디스플레이 장치.
  6. 제5항에 있어서,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 영상 화면을 상기 제2신경망 모델에 입력하여 분석함으로써, 상기 영상 화면으로부터 상기 텍스트 영역 또는 상기 로고 영역을 추출하고,
    상기 텍스트 영역 또는 상기 로고 영역에 기반하여 상기 컨텐츠의 속성 정보를 획득하는, 디스플레이 장치.
  7. 제6항에 있어서,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 텍스트 영역으로부터 추출된 텍스트 또는 상기 로고 영역을 서버로 전송하고,
    상기 서버로부터 상기 텍스트나 상기 로고 영역에 관련된 상기 컨텐츠의 속성 정보를 수신함으로써 상기 컨텐츠의 속성 정보를 획득하는, 디스플레이 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 획득된 속성 정보에 기반하여 상기 컨텐츠에 적합한 화질 설정, 음향 설정, 시청 연령 제한 설정, 디스플레이 장치 환경 설정 중 적어도 하나를 제어함으로써 상기 컨텐츠의 실행 환경을 제어하는, 디스플레이 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 컨텐츠의 실행 환경 제어 후 상기 컨텐츠의 실행이 종료되는지 판단하고,
    상기 컨텐츠의 실행이 종료된다고 판단됨에 따라 상기 제1신경망 모델을 이용하여 영상 화면을 분석함으로써 새로운 컨텐츠 실행이 시작되는지를 판단하는, 디스플레이 장치.
  10. 디스플레이 장치의 동작 방법에 있어서,
    연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작,
    제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작,
    상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작,
    상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작, 및
    상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함하는, 디스플레이 장치의 동작 방법.
  11. 제10항에 있어서,
    상기 전자 장치로부터 HDMI 통신을 통해 수신되는 HDMI CEC로부터 상기 전자 장치를 식별하는 동작, 및
    상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득하는 동작을 더 포함하는, 디스플레이 장치의 동작 방법.
  12. 제10항 내지 제11항 중 어느 한 항에 있어서,
    상기 제1신경망 모델은,
    상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함하는, 디스플레이 장치의 동작 방법.
  13. 제12항에 있어서,
    상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하는 동작, 및
    상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단하는 동작을 더 포함하는, 디스플레이 장치의 동작 방법.
  14. 제10항 내지 제13항 중 어느 한 항에 있어서,
    상기 제2신경망 모델은
    복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함하는, 디스플레이 장치의 동작 방법.
  15. 디스플레이 장치의 동작 방법의 구현을 위해 디스플레이 장치의 프로세서에 의해 실행되는 하나 이상의 프로그램이 기록된 컴퓨터 판독 가능 기록 매체에 있어서, 상기 디스플레이 장치의 동작 방법은,
    연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작,
    제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작,
    상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작,
    상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작, 및
    상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함하는, 컴퓨터 판독가능 기록 매체.
PCT/KR2022/016054 2021-10-20 2022-10-20 디스플레이 장치 및 그 동작 방법 WO2023068849A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0140486 2021-10-20
KR1020210140486A KR20230056452A (ko) 2021-10-20 2021-10-20 디스플레이 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
WO2023068849A1 true WO2023068849A1 (ko) 2023-04-27

Family

ID=86059536

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/016054 WO2023068849A1 (ko) 2021-10-20 2022-10-20 디스플레이 장치 및 그 동작 방법

Country Status (2)

Country Link
KR (1) KR20230056452A (ko)
WO (1) WO2023068849A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150076629A (ko) * 2013-12-27 2015-07-07 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
KR20190031032A (ko) * 2017-09-15 2019-03-25 삼성전자주식회사 컨텐트를 실행하는 방법 및 장치
KR20190125095A (ko) * 2018-04-27 2019-11-06 삼성전자주식회사 컨텐츠에 부가 정보를 표시하는 방법 및 디바이스
KR20200037602A (ko) * 2018-10-01 2020-04-09 주식회사 한글과컴퓨터 인공 신경망 선택 장치 및 방법
KR20200072456A (ko) * 2018-06-20 2020-06-22 라인플러스 주식회사 이미지에서 추출된 키워드를 이용하여 이미지를 필터링하기 위한 방법과 시스템 및 비-일시적인 컴퓨터 판독 가능한 기록 매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150076629A (ko) * 2013-12-27 2015-07-07 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
KR20190031032A (ko) * 2017-09-15 2019-03-25 삼성전자주식회사 컨텐트를 실행하는 방법 및 장치
KR20190125095A (ko) * 2018-04-27 2019-11-06 삼성전자주식회사 컨텐츠에 부가 정보를 표시하는 방법 및 디바이스
KR20200072456A (ko) * 2018-06-20 2020-06-22 라인플러스 주식회사 이미지에서 추출된 키워드를 이용하여 이미지를 필터링하기 위한 방법과 시스템 및 비-일시적인 컴퓨터 판독 가능한 기록 매체
KR20200037602A (ko) * 2018-10-01 2020-04-09 주식회사 한글과컴퓨터 인공 신경망 선택 장치 및 방법

Also Published As

Publication number Publication date
KR20230056452A (ko) 2023-04-27

Similar Documents

Publication Publication Date Title
WO2018026162A1 (en) Electronic apparatus and method of operating the same
WO2018216865A1 (en) Display device and operating method thereof
WO2019054791A1 (ko) 컨텐트를 실행하는 방법 및 장치
WO2015194693A1 (ko) 영상 표시 기기 및 그의 동작 방법
WO2021261836A1 (en) Image detection apparatus and operation method thereof
EP3430811A1 (en) Electronic apparatus and method of operating the same
WO2014038828A1 (en) Method and apparatus for executing application in device
WO2019135433A1 (ko) 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템
WO2021132922A1 (en) Computing device and operation method thereof
WO2021060575A1 (ko) 인공 지능 서버 및 그의 동작 방법
EP3756086A1 (en) Display device and operating method thereof
WO2015182844A1 (ko) 디스플레이 장치, 사용자 단말 장치, 서버 및 그 제어 방법
WO2022010177A1 (en) Device and method for generating summary video
WO2019088627A1 (en) Electronic apparatus and controlling method thereof
WO2019198951A1 (ko) 전자 장치 및 그 동작 방법
WO2023068849A1 (ko) 디스플레이 장치 및 그 동작 방법
WO2022045613A1 (ko) 비디오 품질 향상 방법 및 장치
WO2020111567A1 (en) Electronic device and operation method thereof
WO2021060570A1 (ko) 가전 기기 및 서버
WO2020230923A1 (ko) 음성 인식 서비스를 제공하기 위한 디스플레이 장치 및 그의 동작 방법
WO2018110937A1 (ko) 컨텐트를 인식하는 방법 및 디바이스
WO2019164020A1 (ko) 디스플레이 장치
WO2023182547A1 (ko) 디스플레이 장치
WO2021261874A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2023017989A1 (ko) 디스플레이 장치 및 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22884071

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE