WO2019050265A1 - 영상 표시 장치 및 그 동작 방법 - Google Patents

영상 표시 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2019050265A1
WO2019050265A1 PCT/KR2018/010350 KR2018010350W WO2019050265A1 WO 2019050265 A1 WO2019050265 A1 WO 2019050265A1 KR 2018010350 W KR2018010350 W KR 2018010350W WO 2019050265 A1 WO2019050265 A1 WO 2019050265A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
content
true
user
Prior art date
Application number
PCT/KR2018/010350
Other languages
English (en)
French (fr)
Inventor
조은애
김진현
박기훈
권재욱
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180083651A external-priority patent/KR102037419B1/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US16/642,154 priority Critical patent/US11514150B2/en
Priority to EP18853051.3A priority patent/EP3617921A4/en
Publication of WO2019050265A1 publication Critical patent/WO2019050265A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Definitions

  • the disclosed embodiments relate to an image display apparatus and a method of operating the same, and more particularly, to a method for an image display apparatus to authenticate a user.
  • AI Artificial intelligence
  • AI is a computer system that implements human-level intelligence. Unlike existing Rule-based smart systems, AI is a system in which machines learn, judge and become smart. Artificial intelligence systems are increasingly recognized and improving their understanding of user preferences as they are used, and existing rule-based smart systems are gradually being replaced by deep-run-based artificial intelligence systems.
  • Artificial intelligence technology consists of element technologies that utilize deep learning and machine learning.
  • Machine learning is an algorithm technology that classifies / learns the characteristics of input data by itself.
  • Element technology is a technology that simulates functions such as recognition and judgment of human brain using machine learning algorithms such as deep learning. Understanding, reasoning / prediction, knowledge representation, and motion control.
  • Linguistic understanding is a technology for recognizing, applying, and processing human language / characters, including natural language processing, machine translation, dialogue system, query response, speech recognition / synthesis, and the like.
  • Visual understanding is a technology for recognizing and processing objects as human vision, including object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image enhancement.
  • Inference prediction is a technique for judging and logically inferring and predicting information, including knowledge / probability based reasoning, optimization prediction, preference base planning, and recommendation.
  • Knowledge representation is a technology for automating human experience information into knowledge data, including knowledge building (data generation / classification) and knowledge management (data utilization).
  • the motion control is a technique for controlling the autonomous travel of the vehicle and the motion of the robot, and includes motion control (navigation, collision, traveling), operation control (behavior control), and the like.
  • Various embodiments disclosed herein are for providing an image display apparatus and an operation method of an image display apparatus that perform user authentication based on a content viewed by a user.
  • Various embodiments disclosed herein are intended to provide a user authentication method that is more convenient on the user side by performing user authentication using a set of authentication images generated based on objects recognized from content viewed by a user.
  • An image display device in accordance with one embodiment includes a display, a memory storing one or more instructions, and a processor executing one or more instructions stored in the memory, the processor executing one or more instructions, Using the learning model, to recognize one or more objects from a first content viewed on a display and viewed by a user, store an image representing one or more objects recognized from the first content as true images in a database, In response to receiving the requesting input, controlling a display to output an authentication image set comprising one or more true images and one or more false images selected from a plurality of true images and a plurality of false images stored in a database, In response to a user input selecting one or more images in the image set may perform user authentication.
  • the first content is the content viewed within a predetermined time from when the input requesting the user authentication is received and the image representing one or more objects recognized from the first content is an image extracted from the first content, . ≪ / RTI >
  • a processor may perform one or more instructions to perform one or more instructions from a second content that has been viewed a predetermined time before the input requesting user authentication, And obtain an image representing the one or more objects recognized from the second content with the false image.
  • a processor in accordance with one embodiment may perform one or more instructions to recognize one or more faces from a first content using a learning model using one or more neural networks and to identify a face corresponding to each face recognized from the first content Can be stored as a true image in the database.
  • the processor may perform one or more instructions to update a plurality of false images stored in the database every predetermined period.
  • a learning model may be determined by learning how to recognize one or more objects included in a plurality of learning images in response to inputting a plurality of learning images into one or more neural networks.
  • a processor in accordance with an embodiment is configured to recognize one or more objects from a plurality of frames that constitute a first content by using one or more neural network based learning models by executing one or more instructions, ,
  • An image representing an object including a predetermined number of times or more in a plurality of frames may be stored as a true image in the database.
  • a processor in accordance with an embodiment may perform one or more instructions to receive at least one of a plurality of false images and a learning model stored in a database from an external server.
  • a processor in accordance with one embodiment may determine, by executing one or more instructions, a user requesting a user authentication, as an authorized user, in response to user input that selects all of the one or more true images from the set of authenticated images.
  • a processor in accordance with one embodiment may control the display to output a new set of authenticated images in response to user input that fails to select all of the one or more true images included in the authenticated image set by executing one or more instructions .
  • a method of operating an image display apparatus comprising: recognizing one or more objects from a first content displayed on a display of an image display apparatus using a learning model using one or more neural networks, Storing, as a true image in the database, an image representing one or more objects recognized from the first content; in response to receiving an input requesting user authentication, selecting one of a plurality of true images and a plurality of false images stored in the database Outputting a set of authenticated images comprising at least one true image and at least one false image, and performing user authentication in response to user input selecting one or more images in the authenticated image set.
  • one or other embodiments of the present disclosure recognize an object included in content that a user has watched and perform user authentication using an authenticated image set that includes one or more images containing the recognized object , It can be confirmed that the user of the image display device (for example, 201) has a legitimate right while maintaining high security.
  • one or other embodiments of the present disclosure can prevent AI-based hacking attacks and thereby increase security performance, by modifying one or more images to be included in the authenticated image set using a confidential case technique.
  • FIG. 1 is a view for explaining an image display apparatus according to an embodiment.
  • FIG. 2 is a block diagram illustrating a configuration of an image display apparatus according to an exemplary embodiment.
  • FIG. 3 is a block diagram showing a configuration of a video display device according to another embodiment.
  • FIG. 4 is a block diagram showing a configuration of a video display device according to another embodiment.
  • FIG. 5 is a block diagram showing a configuration of a video display device according to another embodiment.
  • FIG. 6 is an illustration of an example of a neural network that learns how to recognize objects from content according to one embodiment.
  • FIG. 7 is a flowchart illustrating a process of generating an image database in which an image display apparatus according to an exemplary embodiment of the present invention is used for user authentication.
  • FIG. 8 is a diagram illustrating an example of collecting a true image and a false image, in which an image display apparatus according to an exemplary embodiment is used for user authentication.
  • FIGS. 9 and 10 are views for explaining a process of collecting a true image and a false image according to an embodiment of the present invention.
  • FIG 11 and 12 are views illustrating an example in which an image display apparatus according to an embodiment performs user authentication using an authentication image set.
  • FIG. 13 is a flowchart illustrating an operation method of an image display apparatus according to an exemplary embodiment.
  • FIG. 14 is a block diagram illustrating a configuration of a processor according to an embodiment.
  • 15 is a block diagram showing a configuration of a data learning unit according to an embodiment.
  • 16 is a block diagram showing a configuration of a data recognition unit according to an embodiment.
  • 17 is a block diagram showing a configuration of a server according to an embodiment.
  • FIG. 18 is a diagram illustrating an example of learning and recognizing data by interlocking with an image display apparatus and a server according to an embodiment.
  • 19 is a flowchart showing an operation method of an image display apparatus according to another embodiment.
  • FIG. 20 is a diagram for explaining the operation method of the image display apparatus according to another embodiment shown in FIG. 19 in more detail.
  • FIG. 21 is another diagram for explaining the operation method of the image display apparatus according to another embodiment shown in FIG. 19 in more detail.
  • 22 is a view for explaining an operation of generating a modified image in an image display apparatus according to another embodiment of the present disclosure
  • FIG. 23 is a view for explaining an authentication operation using a modified image generated in an image display apparatus according to another embodiment of the present disclosure.
  • An image display device in accordance with one embodiment includes a display, a memory storing one or more instructions, and a processor executing one or more instructions stored in the memory, the processor executing one or more instructions, Using the learning model, to recognize one or more objects from a first content viewed on a display and viewed by a user, store an image representing one or more objects recognized from the first content as true images in a database, In response to receiving the requesting input, controlling a display to output an authentication image set comprising one or more true images and one or more false images selected from a plurality of true images and a plurality of false images stored in a database, In response to a user input selecting one or more images in the image set may perform user authentication.
  • the first content is the content viewed within a predetermined time from when the input requesting the user authentication is received and the image representing one or more objects recognized from the first content is an image extracted from the first content, . ≪ / RTI >
  • a processor may perform one or more instructions to perform one or more instructions from a second content that has been viewed a predetermined time before the input requesting user authentication, And obtain an image representing the one or more objects recognized from the second content with the false image.
  • a processor in accordance with one embodiment may perform one or more instructions to recognize one or more faces from a first content using a learning model using one or more neural networks and to identify a face corresponding to each face recognized from the first content Can be stored as a true image in the database.
  • the processor may perform one or more instructions to update a plurality of false images stored in the database every predetermined period.
  • a learning model may be determined by learning how to recognize one or more objects included in a plurality of learning images in response to inputting a plurality of learning images into one or more neural networks.
  • a processor in accordance with an embodiment is configured to recognize one or more objects from a plurality of frames that constitute a first content by using one or more neural network based learning models by executing one or more instructions, ,
  • An image representing an object including a predetermined number of times or more in a plurality of frames may be stored as a true image in the database.
  • a processor in accordance with an embodiment may perform one or more instructions to receive at least one of a plurality of false images and a learning model stored in a database from an external server.
  • a processor in accordance with one embodiment may determine, by executing one or more instructions, a user requesting a user authentication, as an authorized user, in response to user input that selects all of the one or more true images from the set of authenticated images.
  • a processor in accordance with one embodiment may control the display to output a new set of authenticated images in response to user input that fails to select all of the one or more true images included in the authenticated image set by executing one or more instructions .
  • a method of operating an image display apparatus comprising: recognizing one or more objects from a first content displayed on a display of an image display apparatus using a learning model using one or more neural networks, Storing, as a true image in the database, an image representing one or more objects recognized from the first content; in response to receiving an input requesting user authentication, selecting one of a plurality of true images and a plurality of false images stored in the database Outputting a set of authenticated images comprising at least one true image and at least one false image, and performing user authentication in response to user input selecting one or more images in the authenticated image set.
  • Some embodiments of the present disclosure may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented with various numbers of hardware and / or software configurations that perform particular functions.
  • the functional blocks of the present disclosure may be implemented by one or more microprocessors, or by circuit configurations for a given function.
  • the functional blocks of the present disclosure may be implemented in various programming or scripting languages.
  • the functional blocks may be implemented with algorithms running on one or more processors.
  • the present disclosure may employ conventional techniques for electronic configuration, signal processing, and / or data processing, and the like. Terms such as mechanisms, elements, means and configurations, etc., can be widely used and are not limited to mechanical and physical configurations.
  • connection lines or connection members between the components shown in the figures are merely illustrative of functional connections and / or physical or circuit connections. In practical devices, connections between components can be represented by various functional connections, physical connections, or circuit connections that can be replaced or added.
  • FIG. 1 is a diagram illustrating an example in which an image display apparatus according to an embodiment performs user authentication.
  • the image display apparatus 100 may be a TV, but not limited thereto, and may be implemented as an electronic device including a display.
  • the image display apparatus 100 may be a mobile phone, a tablet PC, a digital camera, a camcorder, a laptop computer, a tablet PC, a desktop, an electronic book terminal, a digital broadcast terminal, a PDA (Personal Digital Assistants) Portable multimedia players), navigation, MP3 players, wearable devices, and the like.
  • the video display device 100 may be a fixed or mobile type, and may be a digital broadcasting receiver capable of receiving digital broadcasting.
  • the image display apparatus 100 may be implemented not only as a flat display device but also as a curved display device having a curvature screen or a flexible display device capable of adjusting a curvature.
  • the output resolution of the video display device 100 may include, for example, a clearer resolution than HD (High Definition), Full HD, Ultra HD, or Ultra HD.
  • the image display apparatus 100 may be controlled by the control apparatus 101 and the control apparatus 101 may be implemented by various apparatuses for controlling the image display apparatus 100 such as a remote control or a cellular phone. Or when the display unit of the image display apparatus 100 is implemented as a touch screen, the control apparatus 101 may be replaced with a user's finger, an input pen, or the like.
  • control apparatus 101 can control the image display apparatus 100 using a short distance communication including an infrared ray or a bluetooth.
  • the control device 101 includes a key (including a button), a touch pad, a microphone (not shown) capable of receiving a user's voice, and a sensor capable of motion recognition of the control device 101
  • the image display apparatus 100 can control the functions of the image display apparatus 100 using at least one of them.
  • the control device 101 may include a power on / off button for turning on or off the power of the video display device 100. [ Also, the controller 101 can change the channel of the video display device 100, adjust the volume, select the terrestrial broadcast / cable broadcast / satellite broadcast, or set the environment by the user input.
  • control device 101 may be a pointing device.
  • control device 101 can operate as a pointing device when receiving a specific key input.
  • the term user refers to a person who controls the function or operation of the image display apparatus 100 using the control apparatus 101, and may include a viewer, an administrator, or a installer.
  • the image display apparatus 100 can perform user authentication using an image representing one or more objects recognized from the content viewed by the user.
  • the video display device 100 is a smart TV capable of providing content through the Internet as well as a broadcasting function
  • Lt; RTI ID 0.0 > (100).
  • ≪ / RTI &gt For example, when a user who does not have a proper authority such as a hacker uses the image display apparatus 100, personal information may be leaked by an unauthorized user accessing the personal information stored in the image display apparatus 100 .
  • a user who is not authorized may use the video display device 100 to conduct a malicious action.
  • the content displayed through the video display device 100 is content with age restriction (for example, viewing age 15 or older), a user less than the permitted age (for example, a user 12 years old) It is necessary to block the content from being watched. Therefore, a method for efficiently authenticating a user in the image display apparatus 100 may be required.
  • age restriction for example, viewing age 15 or older
  • permitted age for example, a user 12 years old
  • the image display apparatus 100 recognizes one or more objects from a first content viewed by a user today and displays the user authentication using an authentication image set including an image representing the recognized one or more objects Can be performed.
  • the set of authenticated images may include one or more true images and one or more false images.
  • the true image is used to determine whether the user is an authorized user, a user who has a right to use the image display apparatus 100, or a user who is authorized to use the specific content displayed on the image display apparatus 100 For example, an image representing one or more objects recognized from the first content the user has viewed today.
  • the false image may be an unauthorized user, an unauthorized user who can use the image display apparatus 100, a user who is not authorized to use the predetermined content through the image display apparatus 100 (for example,hacker), or an image used to filter a computer controlled by an unauthorized user, for example, an image representing one or more objects recognized from a second content that a user viewed yesterday.
  • the image display apparatus 100 displays an authentication image set composed of nine images including a plurality of true images and a plurality of false images, and displays a set of authentication images Can be selected. It is difficult for an unauthorized user (for example, a hacker) to distinguish between a true image and a false image included in the authenticated image set, because it is difficult to distinguish between the first content viewed by an authorized user today and the second content viewed yesterday It is difficult to do. However, a user who views the first content through the image display device 100 can easily identify an image representing one or more objects recognized from the first content. When a user input for selecting all the true images in the authentication image set is received, the image display apparatus 100 can determine that the user is an authorized user. Thus, the video display device 100 can distinguish convenient and easily authorized users.
  • the image display apparatus 100 can perform user authentication more conveniently on the user side.
  • FIG. 2 is a block diagram illustrating a configuration of an image display apparatus according to an exemplary embodiment.
  • the image display apparatus 100a shown in FIG. 2 may be an embodiment of the image display apparatus 100 shown in FIG. Referring to FIG. 2, the image display apparatus 100a according to an embodiment may include a memory 210, a processor 220, and a display 230. However, the image display device 100a can be implemented by more elements than the illustrated elements, and is not limited to the example described above.
  • the memory 210 may store a program for processing and controlling the processor 220 and may store data input to or output from the image display apparatus 100a .
  • the memory 210 may be a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (e.g., SD or XD memory), a RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) , An optical disc, and the like.
  • a flash memory type e.g., a hard disk type, a multimedia card micro type, a card type memory (e.g., SD or XD memory), a RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) , An optical disc, and the like.
  • the processor 220 may use one or more learning models using a neural network to recognize one or more objects from the first content viewed on the display 230 and displayed on the display 230, An image representing one or more recognized objects may be stored as a true image in a database (not shown).
  • a database may be formed in the memory (for example, 210) or the processor 220 provided in the image display device 100a.
  • the database (not shown) may be formed in an external device (for example, a server (for example, 500 or 2000) or the like) connectable to the video display device 100a via a wired / wireless communication network.
  • the processor 220 In response to the user authentication request, the processor 220 outputs a set of authentication images including one or more true images and one or more false images selected from a plurality of true images and a plurality of false images stored in the database, A module that includes one or more instructions that perform user authentication in response to user input for selecting one or more images in the user interface.
  • the user authentication request can be input from the user.
  • the processor 220 issues a predetermined event in the video display device 100a, it can recognize that the user authentication is requested. For example, when an input for accessing the Internet is received from the video display device 100a, it is recognized that the user authentication request is input, and an operation corresponding to the user authentication request (for example, And the like) can be performed. As another example, when an input for turning on the image display apparatus 100a is received, the image display apparatus 100a may display the image display apparatus 100a in a state in which the user who has input the turn- In order to determine whether the user is a user, it is recognized that the user authentication request is input, and an operation corresponding to the user authentication request can be performed.
  • the image display apparatus 100a recognizes that the user authentication request is input, Can be performed.
  • a user authentication request may be input through a remote control device (not shown) for remotely controlling the video display device 100a.
  • the processor 220 may execute one or more instructions stored in the memory 210 to control the operations described above to be performed.
  • the memory 210 may be storing one or more instructions executable by the processor 220.
  • the processor 220 may store one or more instructions in an internally-provided memory (not shown) and may execute one or more instructions stored in an internally-provided memory (not shown) So that operations can be performed. That is, the processor 220 may execute at least one instruction or program stored in an internal memory (not shown) provided in the processor 220 or the memory 210 to perform a predetermined operation.
  • the processor 220 may include a graphics processor (not shown) for graphics processing corresponding to the video.
  • a processor may be implemented as a SoC (System On Chip) that integrates a core (not shown) and a GPU (not shown).
  • the processor may include single core, dual core, triple core, quad core, and multiples thereof.
  • the memory 210 may store an image representing one or more objects recognized from content viewed by a user.
  • the memory 210 stores an image representing one or more objects recognized from the first content viewed within a predetermined period of time from the time when the user authentication request is received, As shown in Fig.
  • the memory 210 may store, as a false image in the database, an image representing one or more objects recognized from a second content viewed from a received time before a predetermined time from requesting user authentication.
  • the database may be included in the memory 210 or may be located in an external storage device.
  • the processor 220 controls the overall operation of the image display device 100a.
  • the processor 220 may control the display 230 by executing one or more instructions stored in the memory 210 and perform the functions of the image display apparatus 100a described in Figs. 1 to 18 can do.
  • processor 220 is shown in FIG. 2, a plurality of processors (not shown) may be provided. In this case, each of the operations performed in the image display apparatus according to the embodiment of the present disclosure may be performed through at least one of the plurality of processors (not shown).
  • the processor 220 recognizes one or more objects from the first content viewed on the display 230 on the display 230 using a learning model using one or more neural networks.
  • the neural network may be a set of algorithms that learn how to recognize an object from a given image input to a neural network based on artificial intelligence. For example, a neural network may be classified into a supervised learning method using a predetermined image as an input value, a pattern for recognizing an object from an image by learning the kind of data necessary for recognizing the object from the image without any special map, Based on unsupervised learning that finds objects in the image. Also, for example, a neural network can learn how to recognize an object from an image using reinforcement learning that uses feedback as to whether the result of recognizing the object according to learning is correct.
  • the neural network performs computations for reasoning and prediction according to artificial intelligence (AI) techniques.
  • the neural network may be a Deep Neural Network (DNN) that performs operations through a plurality of layers.
  • a neural network is classified into a deep neural network (DNN) when the number of layers is plural according to the number of internal layers for performing operations, that is, when the depth of a neural network for performing the operation increases.
  • the deNNN operation may include a Convolution Neural Network (CNN) operation. That is, the controller 220 implements a data recognition model for recognizing an object through the exemplified neural network, and can learn the implemented data recognition model using learning data. Then, by using the learned data recognition model, it is possible to analyze or classify the image, which is input data, to analyze and classify the objects included in the image.
  • CNN Convolution Neural Network
  • the processor 220 may recognize one or more faces in the first content using a learning model using one or more neural networks. For example, the processor 220 may perform an operation over the deep neural network to recognize the face of one or more objects, e.g., characters, appearing in the first content.
  • the processor 220 may perform an operation over the deep neural network to recognize the face of one or more objects, e.g., characters, appearing in the first content.
  • the processor 220 can recognize the face of the first content by using the learning model.
  • the processor 220 may recognize one or more objects (e.g., a car, a bag, an electronic device, etc.) appearing in the first content.
  • the processor 220 may recognize a background or place that appears in the first content.
  • what the processor 220 recognizes may include things that appear in the first content and that the user can recognize as an independent object, and are not limited to the above-described examples.
  • the first content may refer to the content viewed within a predetermined time from the time when the user authentication request is received, among the plurality of contents viewed by the user.
  • the image display apparatus 100 can store, as a true image, an image representing an object recognized from the content viewed within a predetermined time (for example, three hours) from when the user authentication request is received.
  • the first content may be the content most recently watched by the user.
  • the first content is the content if the content viewed within a predetermined time from the time when the user authentication request is received exists, and the content that is viewed within a predetermined time from the time when the user authentication request is received does not exist It will be the most recent user-watched content.
  • the first content may be content viewed for a predetermined time or more. If the user watches the first content for a short time, for example, 10 minutes or 30 minutes, it may not be able to recognize the objects appearing in the content as a whole. Accordingly, the first content may be set to the content viewed for a predetermined time or more.
  • the object included in the true image among the objects appearing in the first content may be an object included in the first content reproduced during the time that the user watched. For example, when the total playback time of the first content is 2 hours, the user views the first content for 1 hour and 30 minutes from the start of content playback, and the video corresponding to 30 minutes before the first content ends There may be cases where you have not watched. In this case, in the first content, an object equal to the reproduced image may be set as an object included in the true image for 1 hour and 30 minutes from the start of reproduction.
  • the first content is content viewed within a predetermined time (for example, three hours, six hours, etc.) from when the user authentication request is received will be described as an example.
  • An image representing one or more objects recognized from the first content may include an image extracted from the first content and may include an image extracted from other content in which the recognized object from the first content is present.
  • the processor 220 may recognize one or more faces from the first content and store an image representing the person corresponding to each face recognized from the first content as a true image in the database.
  • the recognition of the object may be performed in a unit image unit included in the first content.
  • the unit image may be a frame, a scene, or a group of pictures (GOP).
  • GOP group of pictures
  • the processor 220 can perform object recognition on a frame-by-frame basis forming the first content.
  • the processor 220 may recognize one or more faces imaged in a plurality of frames that form the first content, and provide an image representing a person corresponding to each face recognized from the first content to a true image in the database Can be stored.
  • the processor 220 may generate an authenticated image set including one or more true images selected from a plurality of true images and a plurality of false images stored in the database and one or more false images And to control the display 230 to output.
  • the database may store a plurality of true images and a plurality of false images.
  • the false image may include, for example, an image representing an object recognized from a second content that has lapsed beyond a predetermined time (e.g., 24 hours or more) that the user watched.
  • the second content may be the content reproduced before the predetermined time such as a predetermined time, for example, 24 hours or a week, based on the time when the reproduction of the first content starts. For example, if the user authentication request was entered at 20:00 on July 5, 2017, and the first content was content viewed during 17:00 to 18:00 on July 5, 2017, the second content would be the content It would be the content that was played back from 17:00 on July 5, 2017, which is the playback start time, 24 hours before.
  • the specific value of the set time such as 24 hours, a week, etc. may be changed according to the setting of the user or the image display apparatus 100 itself.
  • the image display apparatus 100 can update the false image stored in the database every predetermined period (for example, once a day).
  • a false image stored in a database is fixed, an electronic device controlled by an unauthorized external user can learn a false image stored in the database. Accordingly, the image display apparatus 100 can update the false image stored in the database every predetermined period, thereby allowing the user who has been permitted to be identified more effectively.
  • the processor 220 may determine the user as an authenticated user in response to a user input that selects all of the true images in the displayed set of authenticated images.
  • the authenticated user may include a user having a right to use the image display apparatus 100, a user who is authorized to view the content displayed through the image display apparatus 100 , But is not limited thereto.
  • the processor 220 responds to the user input selecting all three true images, It can be judged. Accordingly, the processor 220 may control the display 230 to output a message indicating that it is an authenticated user, but is not limited thereto.
  • the processor 220 may control the display 230 to output a new set of authenticated images. Further, according to the embodiment, the processor 220 may display the display 230 to output a message indicating that the user authentication has failed if the user input that failed to select all of the true images in the set of authentication images is repeated a predetermined number of times or more Can be controlled.
  • Display 230 may display a set of authenticated images used for user authentication.
  • the number of images included in the authentication image set may vary according to the embodiment.
  • the display 230 may display nine images in the form of a 3x3 matrix so that the user can easily select an image using the number buttons (0 to 9) of the control device 101, It does not.
  • Display 230 may output a new set of images in response to user input that fails to select all of the true images in the set of authenticated images. Also, the display 230 may output a message indicating the result of user authentication.
  • the display 230 may be used as an input device in addition to the output device.
  • the display 230 may be a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, A display, a 3D display, and an electrophoretic display.
  • the image display apparatus 100a may include two or more displays 230.
  • FIG. 3 is a block diagram showing a configuration of a video display device according to another embodiment.
  • the image display apparatus 201 shown in FIG. 3 may further include a communication unit 240 and a user interface 250 in comparison with the image display apparatus 100a shown in FIG.
  • the communication unit 240 can communicate with external devices (not shown) through a wire / wireless network. Specifically, the communication unit 240 can transmit and receive data to and from an external device (not shown) connected through a wire / wireless network under the control of the processor 220.
  • the external device may be a server, an electronic device, or the like that provides the content displayed by the video display device 201.
  • an external device may transmit the predetermined content to the display device 200, and may include a broadcast station server, a content provider server, a content storage device, and the like.
  • the first content and / or the second content may be received from an external device (not shown) via the communication unit 240.
  • the communication unit 240 can communicate with a server (not shown) capable of providing a true image and / or a false image through a wired / wireless network.
  • an external device (not shown), which may be connected to the communication unit 240, is a server capable of recognizing an object in a true image and / or a false image and generating an image containing the recognized object Electronic device.
  • the communication unit 210 includes at least one communication module such as a local communication module, a wired communication module, a mobile communication module, a broadcast receiving module, and the like.
  • the at least one communication module may be a communication module such as a tuner, a Bluetooth, a WLAN (Wi-Fi), a Wibro (Wireless Broadband), a WIMAX (World Interoperability for Microwave Access) And a communication module capable of performing data transmission / reception through a network conforming to the network.
  • the user interface 250 may receive a user input for controlling the video display device 201.
  • the user interface 250 includes a touch panel that senses a touch of a user, a button that receives a push operation of the user, a wheel that receives a rotation operation of the user, a key board, and a dome switch But are not limited to, user input devices. Further, when the video display device 201 is operated by a remote controller (not shown), the user interface 250 may receive a control signal received from a remote control device (not shown) .
  • the user interface 250 may receive user input corresponding to a user authentication request. In addition, the user interface 250 may receive user input to select one or more true images from the set of authenticated images.
  • FIG. 4 is a block diagram showing a configuration of a video display device according to another embodiment.
  • the image display apparatus 202 shown in FIG. 3 may further include a neural network processor 260 in comparison with the image display apparatus 201 shown in FIG.
  • the processor 220 performs an operation for performing an operation through a neural network to perform a predetermined operation.
  • the video display device 202 may include a neural network processor 260, which is a separate processor for performing operations through a neural network.
  • the neural network processor 260 may perform operations over the neural network. Specifically, in an embodiment of the present disclosure, the neural network processor 260 may execute instructions on one to cause operations to be performed over the neural network.
  • the neural network processor 260 can perform an operation on a neural network to perform object recognition on a predetermined image.
  • the neural network processor 260 may perform an operation over the neural network to recognize one or more faces present in the first content.
  • FIG. 5 is a block diagram showing a configuration of a video display device according to another embodiment.
  • the video display apparatus 300 includes a tuner unit 140, a communication unit 150, a sensing unit 160, a display unit 160, And may further include an input / output unit 170, a video processing unit 180, an audio processing unit 1150, an audio output unit 125, and a user input unit 190.
  • the same contents as those described in Fig. 2 are omitted from Fig. 3 may correspond to at least one of the tuner unit 140 and the communication unit 150.
  • the image display apparatus 300 may further include a configuration corresponding to the user interface 250 illustrated in FIG.
  • the tuner unit 140 amplifies, broadcasts, and resonates a broadcast signal received through a wire or a wireless channel and transmits only a frequency of a channel to be received by the image display apparatus 300 You can select by tuning.
  • the broadcast signal includes audio, video and additional information (for example, EPG (Electronic Program Guide)).
  • the broadcast signal received through the tuner unit 140 is decoded (for example, audio decoding, video decoding, or side information decoding) and separated into audio, video and / or additional information.
  • the separated audio, video and / or additional information may be stored in the memory 210 under the control of the processor 220.
  • the tuner section 140 of the image display apparatus 300 may have one or a plurality of tuner sections.
  • the tuner unit 140 may be implemented as an all-in-one apparatus with the image display apparatus 300 or may be a separate apparatus having a tuner unit electrically connected to the image display apparatus 300 a set-top box (not shown), and a tuner unit (not shown) connected to the input / output unit 170).
  • the communication unit 150 may connect the video display device 300 to an external device (for example, an audio device or the like) under the control of the processor 220.
  • the processor 220 can transmit / receive content to an external device connected through the communication unit 150, download an application from an external device, or perform web browsing.
  • the communication unit 150 may include one of a wireless LAN 151, a Bluetooth 152, and a wired Ethernet (Ethernet) 153 according to the performance and structure of the video display device 300.
  • the communication unit 150 may include a combination of a wireless LAN 151, a Bluetooth 152, and a wired Ethernet (Ethernet) 153.
  • the communication unit 150 can receive the control signal of the control device 101 under the control of the processor 220.
  • the control signal may be implemented as a Bluetooth type, an RF signal type, or a WiFi type.
  • the communication unit 150 may further include a near field communication (for example, NFC (near field communication), not shown), BLE (bluetooth low energy, not shown) in addition to Bluetooth.
  • a near field communication for example, NFC (near field communication), not shown
  • BLE bluetooth low energy, not shown
  • the communication unit 150 may receive a learning model using one or more neural networks from an external server.
  • the communication unit 150 may receive new false images every predetermined period from the external server to update the false image stored in the database.
  • the sensing unit 160 may include a microphone 161, a camera unit 162, and a light receiving unit 163 for sensing a user's voice, a user's image, or a user's interaction.
  • the microphone 161 receives the utterance voice of the user.
  • the microphone 161 converts the received voice into an electric signal and outputs it to the processor 220.
  • the camera unit 162 can receive an image (e.g., a continuous frame) corresponding to the motion of the user including the gesture in the camera recognition range.
  • an image e.g., a continuous frame
  • the light receiving section 163 receives the optical signal (including the control signal) received from the control apparatus 101.
  • the light receiving unit 163 can receive an optical signal corresponding to a user input (e.g., touch, pressing, touch gesture, voice, or motion) from the control device 101.
  • the control signal can be extracted from the received optical signal under the control of the processor 220.
  • the light receiver 163 may receive from the controller device 101 an optical signal corresponding to a user input that selects one or more images in the set of authenticated images.
  • the input / output unit 170 receives video (e.g., moving picture), audio (e.g., audio, music, etc.), and additional information For example, an EPG, etc.).
  • the input / output unit 170 includes one of a high-definition multimedia interface port 171, a component jack 172, a PC port 173, and a USB port 174 .
  • the input / output unit 170 may include a combination of an HDMI port 171, a component jack 172, a PC port 173, and a USB port 174.
  • the memory 210 may store a program for processing and controlling the processor 220 and may store data input to or output from the image display apparatus 300 .
  • the memory 210 may store data necessary for the operation of the image processing apparatus 300.
  • the programs stored in the memory 210 may be classified into a plurality of modules according to their functions.
  • the memory 210 may store one or more programs for performing a predetermined operation using a neural network.
  • one or more programs stored in the memory 210 may be classified into a learning module 211, an authentication module 212, and the like.
  • Learning module 211 may include a learning model determined by learning how to recognize one or more objects included in a plurality of learning images in response to input of a plurality of learning images into one or more neural networks.
  • the learning model may be received from an external server and the received learning model may be stored in the learning module 211.
  • Authentication module 212 may store a program that causes processor 220 to perform one or more instructions to thereby perform user authentication using a set of authenticated images.
  • the authentication module 212 may be configured to cause the processor 2200 to respond to a user authentication request to authenticate the authentication image 212, which includes one or more true images selected from a plurality of true images and a plurality of false images stored in the database, Control the display 230 to output a set of images, and perform a user authentication in response to user input selecting one or more images in the set of authenticated images.
  • one or more programs for performing certain operations using a neural network may be stored in an internal memory (not shown) included in the processor 220 There will be.
  • the processor 220 controls the overall operation of the image display apparatus 300 and the signal flow between the internal components of the image display apparatus 300 and performs processing of data.
  • the processor 220 may execute an operating system (OS) and various applications stored in the memory 210 when the user has an input or predefined conditions.
  • OS operating system
  • the processor 220 in accordance with one embodiment may perform one or more instructions stored in the memory 210 so that one or more instructions are output on the display using the learning model using one or more neural networks to generate one And storing, as a true image in the database, an image representing one or more objects recognized from the first content, and in response to the user authentication request, selecting one of a plurality of true images and a plurality of false images Control a display to output a set of authenticated images comprising a true image and one or more false images, and perform user authentication in response to user input selecting one or more images in the set of authenticated images.
  • the processor 220 may include an internal memory (not shown). In this case, at least one of data, programs, and instructions stored in the memory 210 may be stored in an internal memory (not shown) of the processor 220.
  • the internal memory (not shown) of the processor 220 may store one or more programs for performing certain operations using a neural network, or one or more instructions for performing certain operations using a neural network .
  • the video processing unit 180 processes the image data to be displayed by the display 230 and performs various image processing operations such as decoding, rendering, scaling, noise filtering, frame rate conversion, and resolution conversion on the image data .
  • the display 230 may display a video included in the broadcast signal received through the tuner unit 140 on the screen under the control of the processor 220.
  • the display 230 may display content (for example, moving image) input through the communication unit 150 or the input / output unit 170.
  • the display 230 can output an image stored in the memory 210 under the control of the processor 220.
  • the audio processing unit 115 performs processing on the audio data.
  • various processes such as decoding and amplification of audio data, noise filtering, and the like may be performed.
  • the audio output unit 125 may include audio included in the broadcast signal received through the tuner unit 140 under control of the processor 220, audio input through the communication unit 150 or the input / output unit 170, And outputs audio stored in the storage unit 210.
  • the audio output unit 125 may include at least one of a speaker 126, a headphone output terminal 127, and a Sony / Philips Digital Interface (S / PDIF) 128.
  • the user input unit 190 means a means for the user to input data for controlling the video display device 300.
  • the user input unit 190 may include a key pad, a dome switch, a touch pad, a jog wheel, a jog switch, and the like, but the present invention is not limited thereto.
  • the user input unit 190 may be a component of the control device 101 and may be a component of the video display device 300.
  • a user input 190 may receive an input that selects one or more images in the set of authenticated images. For example, if the user input 190 is configured as a keypad or dome switch, an input that clicks or presses a numeric key corresponding to each image in the set of authenticated images, or an input that clicks or presses a directional key More than one image may be selected, but is not limited to the above example.
  • FIGS. 2 and 5 are block diagrams for one embodiment.
  • Each component of the block diagram may be integrated, added, or omitted depending on the specifications of the video display devices 100a and 300 actually implemented. For example, if necessary, two or more components may be combined into one component, or one component may be divided into two or more components.
  • the functions performed in each block are intended to illustrate embodiments, and the specific operation or apparatus does not limit the scope of the present invention.
  • FIG. 6 is an illustration of an example of a neural network that learns how to recognize an object from an image in accordance with one embodiment.
  • the neural network 400 can learn a method of recognizing an object from an image using a plurality of learning images 411 to 416 as input values.
  • the neural network 400 can learn a method of recognizing a face from a plurality of learning images 411 to 416.
  • the plurality of learning images 411 to 416 are displayed on the display screen of the image display device 100 such as an image extracted from a plurality of moving picture contents (for example, a drama, a sports game, a movie, etc.) Advertisement images, and the like, but the present invention is not limited thereto.
  • the one or more neural networks may learn how to recognize one or more objects included in a plurality of learning images in response to the input of a plurality of learning images and generate a learning model 420 based on the learned results .
  • the learning model 420 may be the learned neural network itself, which allows the desired result to be obtained through the neural network. Specifically, in order to recognize an object, a plurality of training images are used to train a neural network, and a plurality of weight values applied to each of a plurality of nodes forming a neural network are set .
  • the weight value may mean the link strength between nodes of the neural network. The weight value can be optimized through iterative learning and can be iteratively modified until the accuracy of the result meets a certain reliability.
  • the learning model 420 may be a neural network formed by the finally set weight values.
  • the operation of learning how to recognize an object from an image using one or more neural networks 400 may be performed in advance. Further, as some of the plurality of learning images are changed, the learning model 420 can be updated. For example, as the user views the content through the video display device 100, an image extracted from the viewed content can be used as a learning image. In addition, one or more images can be extracted from the content viewed by the user in units of a predetermined period (for example, 24 hours), and the extracted image can be used as a learning image. Once a new learning image is added, one or more neural networks 400 may again learn how to recognize the object from the image, and the learning model may be updated accordingly.
  • a predetermined period for example, 24 hours
  • the operation of learning the method of recognizing an object from an image using one or more neural networks 400 may be performed in the image display apparatus 100, and may be performed in an external server according to an embodiment.
  • the operation of learning how to recognize an object from an image using one or more neural networks 400 may require a relatively complex amount of computation.
  • the external server performs the learning operation, and the image display apparatus 100 receives the learning model 420 from the external server, thereby reducing the amount of calculation to be performed in the image display apparatus 100.
  • the image display apparatus 100 may receive the learning model 420 in advance from an external server and store it in a memory and recognize one or more objects from the image using the stored learning model 420.
  • the video display 202 may include a neural network processor 260, which is a separate, dedicated processor for performing learning operations through the neural network 400.
  • the neural network processor 260 may then perform learning through the neural network 400 to determine the learning model 420 and perform object recognition through the determined learning model 420.
  • FIG. 7 is a flowchart illustrating a process of generating a database used for user authentication according to an embodiment of the present invention.
  • the server 500 shown in FIG. 7 may be a server capable of performing object recognition through a neural network.
  • the server 500 may be separately formed from the video display device 201 and may be connected through the communication unit 240 of the video display device 201.
  • the server 500 may extract one or more unit images from the second content viewed by the user yesterday.
  • the unit image may be a frame, a scene, or a GOP (Group Of Picture).
  • the second content may be the content viewed before the predetermined time from when the user authentication request is received, and is not limited to the content viewed by the user yesterday.
  • the video content includes a plurality of frames, and the video display device 201 may extract one or more frames from the second content to collect false images. At this time, the video display device 201 can capture the frame of the second content by a predetermined time unit, but is not limited thereto.
  • the server 500 may analyze a frame extracted from the second content to generate a learning image.
  • the image display device 201 can analyze the frame, determine whether or not a face of a person appears in the frame, and generate a learning image based on a frame in which a face of the person appears.
  • the generated learning image may be an image capturing a specific frame of the second content or an image obtained by editing a captured image of a specific frame of the second content according to a predetermined criterion.
  • the server 500 may acquire a plurality of learning images from the outside.
  • the plurality of learning images may be an image previously stored in the server 500, an image received from an external device, but is not limited thereto.
  • the server 500 can receive a plurality of learning images from an external device in advance, and can update a plurality of learning images by receiving a new learning image every predetermined period from an external device.
  • the server 500 may learn how to recognize an object from an image using one or more neural networks.
  • the server 500 transmits the generated learning model to the image display device 201 and the image display device 201 can collect true images to be stored in the database using the received learning model.
  • the server 500 can recognize one or more objects from a learning image or a plurality of learning images generated based on the second content, using a learning model using one or more neural networks, Images representing the above objects can be stored as false images in the database.
  • the learning model recognizes a person's face
  • the learning model can determine who the recognized face is.
  • the false image may be an image extracted from the second content (e.g., an image capturing a frame of the second content), and an image including a face recognized in the second content.
  • the false image may be, but is not limited to, an advertisement image of a person corresponding to a face recognized from the second content, a pictorial image, and the like.
  • the video display device 201 can extract one or more frames from the first content viewed today.
  • the first content may be content (e.g., content viewed within 6 hours) viewed within a predetermined time from when the user authentication request is received, and is not limited to the content that the user watched today.
  • the first content may be the content most recently watched by the user.
  • the first content is the content if the content viewed within a predetermined time from the time when the user authentication request is received exists, and the content that is viewed within a predetermined time from the time when the user authentication request is received does not exist It will be the most recent user-watched content.
  • the video display device 201 can analyze the frame extracted from the first content to generate the learning image.
  • the generated learning image may be an image capturing a specific frame of the first content or an image obtained by editing a captured image of a specific frame of the first content according to a predetermined criterion.
  • the image display device 201 can recognize one or more objects from the learning image generated based on the first content, using the learning model received from the server 500.
  • the learning model may be updated in the server 500 every predetermined period and the video display device 201 may receive the updated learning model from the server 500.
  • the video display device 201 determines whether at least one of whether an object recognized from the first content appears more than a predetermined number of times in the first content, whether or not the recognized object from the first content is discriminating . For example, if an object recognized from the first content is an object frequently appearing in a plurality of contents, such as a streetlight, a bus, a row of trees, etc., the user may have difficulty judging whether or not the object appeared in the first content. Accordingly, the image display device 201 can store an image representing a distinctive object as a true image, so that the user can easily determine that the user is one of the one or more objects recognized from the first content. have. For example, when the first content is a movie, the video display device 201 can recognize the faces of the main characters appearing in the first content, but the present invention is not limited thereto.
  • the image display apparatus 201 can store a plurality of true images and a plurality of false images in a database.
  • the image display apparatus 201 can use a plurality of true images stored in the database and a plurality of false images to perform user authentication.
  • the image display apparatus 201 outputs an authentication image set including one or more true images selected from a plurality of true images and a plurality of false images stored in the database and one or more false images can do.
  • the image display device 201 can perform user authentication in response to a user input for selecting one or more images in the set of authentication images.
  • FIG. 8 is a diagram illustrating an example of collecting a true image and a false image, in which an image display apparatus according to an exemplary embodiment is used for user authentication.
  • the video display device 201 may display one or more objects recognized from the first content viewed within a predetermined time (for example, three hours, six hours, etc.) from the time when the user authentication request is received You can save the image as a true image in the database.
  • a predetermined time for example, three hours, six hours, etc.
  • the video display device 201 can extract one or more images from the first content viewed within three hours from when the user authentication request is received.
  • the image display device 201 may store an image representing one or more objects recognized from the extracted one or more images as true images in a database.
  • the true image may be an image representing a scene extracted from the first content, and may include an image including the object as an image extracted from other contents, but is not limited thereto.
  • the video display device 201 may extract one or more images from the first content viewed by the user on the day when the user authentication request is received, but the present invention is not limited thereto.
  • the video display device 201 can extract one or more images 631 and 632 from an entertainment program viewed by a user on the day when an input for requesting user authentication is received.
  • the image display apparatus 201 recognizes one or more objects from the extracted images 631 and 632 using a learning model using one or more neural networks and displays an image representing the recognized one or more objects in the database 640 It can be saved as a true image.
  • the image display apparatus 201 can recognize one or more faces from the extracted one or more images 631 and 632, and display an image representing a person corresponding to the recognized one or more faces in the database 640 But may be stored as a true image, but is not limited thereto.
  • the image display apparatus 201 may store an image representing one or more objects recognized from the second content viewed before the predetermined time from the reception of the user authentication request as a false image.
  • the image display device 201 may extract one or more images from the second content viewed 24 hours before the user authentication request is received, and may indicate one or more objects recognized from the extracted one or more images The image can be stored in the database 620 as a false image.
  • the video display device 201 may extract one or more images from the second content viewed before the user authentication request is received, but is not limited thereto.
  • the video display device 201 extracts one or more images 601, 602, 611, and 612 from the watched drama A and the sports game, respectively, on the day before the user authentication request is received. can do.
  • the image display apparatus 201 recognizes one or more objects from the extracted images 601, 602, 611, and 612 using a learning model using one or more neural networks, As a false image in step 620 of FIG.
  • the image display device 201 can recognize one or more faces from the extracted one or more images 601, 602, 611, 612, and display an image representing a person corresponding to the recognized face But it is not limited thereto.
  • FIGS. 9 and 10 are views for explaining a process of collecting a true image and a false image according to an embodiment of the present invention.
  • the image display apparatus 201 may store an image representing one or more objects recognized in the second content viewed before the predetermined time from the reception of the user authentication request as a false image in the database.
  • the video display device 201 can extract one or more images 701, 702, 703, and 704 from the second content viewed prior to the day when the user authentication request input was received have.
  • the second content may include at least one content watched by the user before the day when the user authentication request input is received.
  • the image display device 201 can recognize one or more objects from one or more images 701, 702, 703, and 704 extracted from the second content using the learning model 710 using one or more neural networks .
  • the recognized one or more objects may include, but is not limited to, a person's face.
  • the image display device 201 may display the images of the athlete A 721, the athlete B 722, the movie star C 723 ), Movie actor D (724), and movie actor E (725).
  • the image display device 201 displays images representing athlete A 721, athlete B 722, movie actor C 723, movie actor D 724 and movie actor E 725 in database 730 ) As a false image.
  • the false image is an image including the athlete A 721, the athlete B 722, the movie actor C 723, the movie actor D 724, and the movie actor E 725, Or an image extracted from other content.
  • the false image may include an image extracted from a scene in which the athlete A 721 appears from the second content viewed by the user, and an image extracted from another sports game image in which the athlete A 721 appears .
  • the false image is an advertisement in which an athlete A (721), athlete B (722), a movie actor C (723), a movie actor D (724), and a movie actor E Images, pictorial images, and the like, but are not limited thereto.
  • the image display device 201 may store an image representing a one or more objects recognized in the first content viewed within a predetermined time from the time when the user authentication request is received as a true image in the database.
  • the video display apparatus 201 may extract one or more images 741, 742, and 743 from the first content viewed by the user on the day the user authentication request is received.
  • the video display device 201 can recognize one or more objects from one or more images 741, 742, and 743 extracted from the first content using the learning model 750 using one or more neural networks .
  • the image display device 201 can display the image data of one or more images 741, 742, and 743 extracted from the first content by using the mantissa F (761), the mantissa G (762), the mantissa H (763) 764), and mantissa J (765).
  • the image display apparatus 201 can store, as a true image in the database 780, an image representing an object appearing more than a predetermined number of times in the first content among the one or more objects recognized from the first content .
  • the image display apparatus 201 may recognize one or more objects from a plurality of frames constituting the first content, and may display, among the recognized one or more objects, a database (780) as a true image.
  • the image display device 201 can store, as a true image, in the database 780, an image representing a person who appears more than a predetermined number of times in the movie among the persons recognized from the movie viewed by the user. Accordingly, the image display apparatus 201 can increase the reliability of the user authentication result by storing an image representing a relatively high-weight person in the movie viewed by the user as a true image.
  • FIG 11 and 12 are views showing an example in which the image display apparatus 201 according to an embodiment performs user authentication using an authentication image set.
  • the image display apparatus 201 in response to a user authentication request, displays one or more true images (801, 802, 803) selected from a plurality of true images stored in a database and a plurality of false images ) And one or more false images.
  • the image display device 201 displays an authentication image set including nine images so that the user can easily select one or more images from the authentication image set using the numeric keys of the control device 101 .
  • the authentication image set can be displayed in a grid form, as shown in Fig. 11, but is not limited thereto.
  • the image display device 201 can easily select one or more images in the set of authentication images by selecting a numeric key of the control device 101 by mapping each image constituting the set of authenticated images to numerals Can be selected. For example, as shown in FIG. 11, if the authenticated image set includes nine images, the image display device 201 may map each image to the numbers 1 to 9 according to the position at which the image is displayed .
  • the image display device 201 can display an authenticated image set together with a message 810 that prompts the user to select all true images in response to a user authentication request. For example, as shown in FIG. 11, when an authenticated image set is output together with a message 810 "Select all the characters appearing in the program viewed today", the user displays an image 801 representing the characters , 802, and 803, the user authentication can be successfully performed.
  • the image display apparatus 201 determines that the user is an authorized user in response to a user input for selecting all true images 801, 802, and 803 from the displayed set of authenticated images can do.
  • the image display device 201 may determine that the user is an unauthorized user. 12, when the user selects one true image 802 and two false images 804 and 805, the image display apparatus 201 recognizes that the user authentication has failed, The image set can be displayed again. Also, if the user authentication fails for a predetermined number of times or more, the image display apparatus 201 may determine that the user is not authenticated, and may output a message indicating that the user authentication has failed.
  • FIG. 13 is a flowchart illustrating an operation method of an image display apparatus according to an exemplary embodiment.
  • the operating method 900 of the image display apparatus shown in FIG. 13 may be applied to an image display apparatus (for example, 100, 100a, 201, 202, or 100) according to one or another embodiment of the present disclosure described with reference to FIGS. 300). ≪ / RTI > Accordingly, in the detailed operations of the method 900 of operating the image display device, the operations performed on the image display device (e.g., 100, 100a, 201, 202 or 300) according to one or other embodiments of the present disclosure And the detailed description overlapping with those of FIG.
  • step S900 the video display device 201 outputs one or more objects from the first content that is output on the display 230 of the video display device 201 and viewed by the user, using the learning model using one or more neural networks Lt; / RTI > Specifically, the operation of step S900 may be performed according to the control of the processor 220.
  • the learning model acquisition operation for object recognition and / or object recognition may be performed in the server 2000 described with reference to FIGS. 17 to 18.
  • the video display device 201 may recognize one or more faces in the first content using a learning model using one or more neural networks, and in accordance with an embodiment, One or more objects (e.g., a car, a bag, an electronic device, etc.) appearing in one content.
  • the first content may mean the content viewed within a predetermined time from the time when the user authentication request is received, among the plurality of contents viewed by the user.
  • step S910 the image display device 201 stores an image representing one or more objects recognized from the first content as a true image in the database.
  • the image display apparatus 201 can store an image representing a recognized object from the content viewed within a predetermined time (for example, within 3 hours) from the time when the user authentication request is received, as a true image.
  • An image representing one or more objects recognized from the first content may include an image extracted from the first content and may include an image extracted from other content in which the recognized object from the first content is present.
  • the image display device 201 can recognize one or more faces from the first content, and store an image representing a person corresponding to each face recognized from the first content as a true image in the database. At this time, the image display device 201 may store information about the object recognized in the image together.
  • the image display device 201 stores the image including the movie actor A as a true image, Can be saved together.
  • the image display apparatus 201 may store information indicating the movie actor A as image tag information, but the present invention is not limited thereto.
  • step S920 the image display apparatus 201 outputs, in response to the user authentication request, an authentication image set including one or more true images selected from a plurality of true images and a plurality of false images stored in the database and one or more false images do.
  • the number of images included in the authentication image set may vary according to the embodiment.
  • the image display apparatus 201 can display nine images in the form of a 3x3 matrix so that the user can easily select an image by using the numeric buttons (0 to 9) of the control apparatus 101, But is not limited thereto.
  • the image display device 201 can update the false image stored in the database every predetermined period (for example, once a day).
  • a false image stored in a database is fixed, an electronic device controlled by an unauthorized external user can learn a fixed false image. Accordingly, the image display device 201 can update the false image stored in the database every predetermined period, thereby allowing the user having the legitimate authority to be identified more effectively.
  • step S930 the image display apparatus 201 can perform user authentication in response to a user input for selecting one or more images in the set of authentication images.
  • the image display device 201 may determine the user as an authorized user in response to a user input that selects all of the one or more true images in the set of authenticated images.
  • the image display device 201 can recognize that the user authentication has failed and display a new set of authenticated images. According to the embodiment, when the user selects a predetermined number or more from a plurality of true images included in the authentication image set, the image display device 201 can determine the user as an authorized user. For example, when four sets of true images are included in the set of authenticated images, the image display apparatus 201 may determine the user as an authorized user when selecting three or more true images, but the present invention is not limited thereto Do not.
  • FIG. 14 is a block diagram illustrating a configuration of a processor according to an embodiment.
  • the processor 220 may include a data learning unit 1010 and a data recognizing unit 1020.
  • the data learning unit 1010 can learn a criterion for recognizing an object from an image.
  • the data learning unit 1010 may learn a criterion as to which information of the image is used to determine the object from the image.
  • the data learning unit 1010 can learn a criterion on how to recognize an object using information of an image.
  • the data learning unit 1010 can acquire data to be used for learning and apply the obtained data to a data recognition model to be described later so as to learn a criterion for determining the state of the user.
  • the data recognition unit 1020 can recognize one or more objects from the image and output the recognized result.
  • the data recognition unit 1020 can recognize one or more objects from a predetermined image using the learned data recognition model.
  • the data recognition unit 1020 can acquire data of an image according to a predetermined reference by learning and use the data recognition model with the obtained context data as an input value. Further, the data recognition unit 1020 can recognize one or more objects from the image by using the data recognition model. Further, the resultant value output by the data recognition model with the obtained image as an input value can be used to update the data recognition model.
  • At least one of the data learning unit 1010 and the data recognition unit 1020 may be manufactured in at least one hardware chip form and mounted on the electronic device.
  • at least one of the data learning unit 1010 and the data recognition unit 1020 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or may be a conventional general-purpose processor Or application processor) or a graphics-only processor (e.g., a GPU), and may be mounted on various electronic devices as described above.
  • AI artificial intelligence
  • GPU graphics-only processor
  • the data learning unit 1010 and the data recognizing unit 1020 may be mounted on one electronic device or on separate electronic devices, respectively.
  • one of the data learning unit 1010 and the data recognizing unit 1020 may be included in the electronic device, and the other may be included in the server.
  • the data learning unit 1010 and the data recognition unit 1020 may provide the model information constructed by the data learning unit 1010 to the data recognition unit 1020 via wired or wireless communication, 1020 may be provided to the data learning unit 1010 as additional learning data.
  • At least one of the data learning unit 1010 and the data recognition unit 1020 may be implemented as a software module.
  • the software module may be a computer-readable, And may be stored in non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS Operating System
  • some of the at least one software module may be provided by an Operating System (OS)
  • OS Operating System
  • 15 is a block diagram of a data learning unit according to an embodiment.
  • a data learning unit 1010 includes a data acquisition unit 1011, a preprocessing unit 1012, a learning data selection unit 1013, a model learning unit 1014, 1015).
  • the data acquisition unit 1011 may acquire data necessary for learning to recognize an object from an image.
  • the data acquisition unit 1011 may acquire data from an external server such as a social network server, a cloud server, or a content providing server.
  • the data acquisition unit 1011 can acquire an image necessary for learning to recognize an object from an image.
  • the data acquisition unit 1011 may acquire an image from at least one external device connected to the image display device 201 via the network, extracts one or more scenes from the content viewed by the user, Can be obtained.
  • the preprocessing unit 1012 can preprocess the acquired data so that the data can be used for learning to recognize one or more objects from the image.
  • the preprocessing unit 1012 can process the acquired data into a predetermined format so that the model learning unit 1014, which will be described later, can use the acquired data for learning to recognize one or more objects from the image.
  • the preprocessing unit 1012 may analyze the acquired image to detect attribute information of the image, but the present invention is not limited thereto.
  • the learning data selection unit 1013 can select data required for learning from the preprocessed data.
  • the selected data may be provided to the model learning unit 1014.
  • the learning data selection unit 1013 can select data necessary for learning from the preprocessed data according to a predetermined criterion for recognizing the object from the image.
  • the learning data selection unit 1013 can also select data according to a predetermined criterion by learning by the model learning unit 1014, which will be described later.
  • the model learning unit 1014 can learn a criterion on which learning data should be used in order to recognize the object from the image. For example, the model learning unit 1014 may learn the type, number, or level of image attributes used to recognize an object from an image.
  • the model learning unit 1014 can learn a data recognition model used to identify one or more objects from the image using learning data.
  • the data recognition model may be a pre-built model.
  • the data recognition model may be a pre-built model that receives basic learning data (e.g., a sample image, etc.).
  • the data recognition model can be constructed considering the application field of the recognition model, the purpose of learning, or the computer performance of the device.
  • the data recognition model may be, for example, a model based on a neural network.
  • models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), and Bidirectional Recurrent Deep Neural Network (BRDNN) may be used as a data recognition model, but the present invention is not limited thereto.
  • the model learning unit 1014 can determine a data recognition model that is highly relevant to the input learning data and the basic learning data, have.
  • the basic learning data may be pre-classified according to the type of data, and the data recognition model may be pre-built for each data type.
  • the basic learning data may be pre-classified by various criteria such as an area where the learning data is generated, a time at which the learning data is generated, a size of the learning data, a genre of the learning data, a creator of the learning data, .
  • model learning unit 1014 can learn a data recognition model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
  • the model learning unit 1014 can learn a data recognition model through, for example, supervised learning using learning data as an input value.
  • the model learning unit 1014 learns, for example, the types of data necessary for judging the state of the user without any guidance, and thereby learns the unsupervised learning ), The data recognition model can be learned.
  • the model learning unit 1014 can learn the data recognition model through reinforcement learning using, for example, feedback as to whether the result of determining the state of the user according to the learning is correct.
  • the model learning unit 1014 can store the learned data recognition model.
  • the model learning unit 1014 can store the learned data recognition model in the memory of the apparatus including the data recognition unit 1020.
  • the model learning unit 1014 may store the learned data recognition model in the memory of the apparatus including the data recognition unit 1020 to be described later.
  • the model learning unit 1014 may store the learned data recognition model in the memory of the server connected to the electronic device and the wired or wireless network.
  • the memory in which the learned data recognition model is stored may also store instructions or data associated with, for example, at least one other component of the device.
  • the memory may also store software and / or programs.
  • the program may include, for example, a kernel, a middleware, an application programming interface (API), and / or an application program (or " application ").
  • the model evaluation unit 1015 inputs the evaluation data to the data recognition model and can cause the model learning unit 1014 to learn again when the recognition result output from the evaluation data does not satisfy the predetermined criterion.
  • the evaluation data may be predetermined data for evaluating the data recognition model.
  • the model evaluation unit 1015 does not satisfy the predetermined criterion It can be evaluated as not successful.
  • the predetermined criterion is defined as a ratio of 2%, and the learned data recognition model outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1000 evaluation data, It is possible to evaluate that the data recognition model is not suitable.
  • the model evaluation unit 1015 evaluates whether each of the learned data recognition models satisfies a predetermined criterion, and if the model satisfying the predetermined criterion is a final data recognition model You can decide. In this case, when there are a plurality of models satisfying the predetermined criterion, the model evaluation unit 1015 can determine any one or a predetermined number of models previously set in descending order of evaluation scores as a final data recognition model.
  • At least one of the data acquisition unit 1011, the preprocessing unit 1012, the learning data selection unit 1013, the model learning unit 1014, and the model evaluation unit 1015 in the data learning unit 1010 includes at least one And can be mounted on an electronic device.
  • at least one of the data acquisition unit 1011, the preprocessing unit 1012, the learning data selection unit 1013, the model learning unit 1014, and the model evaluation unit 1015 may be an artificial intelligence (AI) Or may be implemented as part of a conventional general-purpose processor (e.g., a CPU or an application processor) or a graphics-only processor (e.g., a GPU) and mounted on the various electronic devices described above.
  • AI artificial intelligence
  • a conventional general-purpose processor e.g., a CPU or an application processor
  • a graphics-only processor e.g., a GPU
  • the data acquisition unit 1011, the preprocessing unit 1012, the learning data selection unit 1013, the model learning unit 1014, and the model evaluation unit 1015 may be mounted on one electronic device, Electronic devices, respectively.
  • some of the data acquisition unit 1011, the preprocessing unit 1012, the learning data selection unit 1013, the model learning unit 1014, and the model evaluation unit 1015 are included in the electronic device, May be included in the server.
  • At least one of the data acquisition unit 1011, the preprocessing unit 1012, the learning data selection unit 1013, the model learning unit 1014, and the model evaluation unit 1015 may be implemented as a software module.
  • At least one of the data acquisition unit 1011, the preprocessing unit 1012, the learning data selection unit 1013, the model learning unit 1014 and the model evaluation unit 1015 is a software module (or a program including an instruction) Module), the software module may be stored in a computer-readable, readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS Operating System
  • some of the software module may be provided by an Operating System (OS)
  • some of the software modules may be provided by a predetermined application.
  • 16 is a block diagram showing a configuration of a data recognition unit according to an embodiment.
  • a data recognition unit 1020 includes a data acquisition unit 1021, a preprocessing unit 1022, a recognition data selection unit 1023, a recognition result providing unit 1024, Gt; 1025 < / RTI >
  • the data acquiring unit 1021 can acquire data necessary for recognizing an object from an image, and the preprocessing unit 1022 can preprocess the acquired data so that the acquired data can be used to recognize the object from the image. have.
  • the preprocessing unit 1022 can process the acquired data into a predetermined format so that the recognition result providing unit 1024, which will be described later, can use the obtained data to recognize the object from the image.
  • the recognition data selection unit 1023 can select data necessary for recognizing the object from the image among the preprocessed data.
  • the selected data may be provided to the recognition result provider 1024.
  • the recognition data selection unit 1023 can select some or all of the preprocessed data according to a predetermined criterion for recognizing the object from the image.
  • the recognition result providing unit 1024 can recognize the object from the image by applying the selected data to the data recognition model.
  • the recognition result providing unit 1024 can provide a recognition result according to the purpose of data recognition.
  • the recognition result providing unit 1024 can apply the selected data to the data recognition model by using the data selected by the recognition data selecting unit 1023 as an input value.
  • the recognition result can be determined by the data recognition model.
  • the recognition result providing unit 1024 may provide identification information indicating one or more objects recognized from the image.
  • the recognition result provider 1024 may provide information about the category in which the identified object is included, the name of the person identified if the identified object is a person, and so on.
  • the model updating unit 1025 can update the data recognition model based on the evaluation of the recognition result provided by the recognition result providing unit 1024.
  • the model updating unit 1025 can provide the model learning unit 1014 with the recognition result provided by the recognition result providing unit 1024 so that the model learning unit 1014 can update the data recognition model have.
  • At least one of the data acquisition unit 1021, the preprocessing unit 1022, the recognition data selection unit 1023, the recognition result providing unit 1024 and the model updating unit 1025 in the data recognizing unit 1020 is a It can be manufactured in the form of one hardware chip and mounted on the electronic device.
  • at least one of the data acquisition unit 1021, the preprocessing unit 1022, the recognition data selection unit 1023, the recognition result providing unit 1024, and the model updating unit 1025 may be an artificial intelligence Or may be mounted on a variety of electronic devices as described above and manufactured as part of a conventional general purpose processor (e.g., a CPU or an application processor) or a graphics dedicated processor (e.g., a GPU).
  • a conventional general purpose processor e.g., a CPU or an application processor
  • a graphics dedicated processor e.g., a GPU
  • the data acquisition unit 1021, the preprocessor 1022, the recognition data selection unit 1023, the recognition result provision unit 1024, and the model update unit 1025 may be mounted on one electronic device, Respectively.
  • some of the data acquisition unit 1021, preprocessor 1022, recognition data selection unit 1023, recognition result provision unit 1024, and model update unit 1025 are included in the electronic device, May be included in the server.
  • At least one of the data acquisition unit 1021, the preprocessing unit 1022, the recognition data selection unit 1023, the recognition result providing unit 1024, and the model updating unit 1025 may be implemented as a software module.
  • At least one of the data acquisition unit 1021, the preprocessing unit 1022, the recognition data selection unit 1023, the recognition result providing unit 1024 and the model updating unit 1025 is a software module (or an instruction) Program modules), the software modules may be stored in a computer-readable, readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS Operating System
  • some of the software module may be provided by a predetermined application.
  • 17 is a block diagram showing a configuration of a server according to an embodiment.
  • a server 2000 may include a DB 2100, a communication unit 2200, and a processor 2300.
  • the server 2000 shown in FIG. 17 may operate in conjunction with an image display device (e.g., 201) according to an embodiment of the present disclosure and may include at least one of object recognition, true image generation, Can be performed.
  • an image display device e.g., 201
  • DB 2100 may store an image representing one or more objects recognized from the content viewed by the user.
  • the communication unit 2200 may include one or more components for communicating with the video display device 201.
  • the processor 2300 typically controls the overall operation of the server 2000.
  • the processor 2300 can entirely control the DB 2100 and the communication unit 2200 by executing programs stored in the DB 2100 of the server 2000.
  • the processor 2300 can perform a part of the operations of the image display apparatus 100 in Figs. 1 to 16 by executing the programs stored in the DB 2100. Fig.
  • the processor 2300 can perform the function of recognizing one or more objects from the image, which is a function performed by the image display apparatus 201 in Figs.
  • FIG. 18 is a diagram illustrating an example of learning and recognizing data by interlocking with an image display apparatus and a server according to an embodiment.
  • the server 2000 may learn a criterion for recognizing one or more objects from an image.
  • the server 2000 can learn the criteria for recognizing one or more objects from an image by acquiring data to be used for learning and applying the acquired data to a data recognition model.
  • the model learning unit 2104 of the server 2000 can perform the function of the data learning unit 1010 shown in Fig.
  • the model learning unit 2104 of the server 2000 can learn a criterion on which data to use in order to recognize an object from an image.
  • the model learning unit 2104 of the server 2000 can learn a criterion on how to recognize an object from an image using data.
  • the model learning unit 2104 can acquire data to be used for learning and apply the acquired data to the data recognition model, thereby learning a criterion for recognizing the object from the image.
  • the recognition result providing unit 1024 of the image display apparatus 100 applies the data selected by the recognition data selecting unit 1023 to the data recognition model generated by the server 2000 to recognize the object from the image can do.
  • the recognition result providing unit 1024 transmits the data selected by the recognition data selecting unit 1023 to the server 2000, and the server 2000 transmits the data selected by the recognition data selecting unit 1023 And apply it to the recognition model to request recognition of the object from the image.
  • the recognition result providing unit 1024 of the image display apparatus 100 may receive the recognition model generated by the server 2000 from the server 2000 and recognize the object from the image using the received recognition model have. In this case, the recognition result providing unit 1024 of the image display apparatus 100 applies the data selected by the recognition data selecting unit 1023 to the data recognition model received from the server 2000, and recognizes the object from the image can do.
  • the image display apparatus 100 and the server 2000 can effectively perform the task of learning and data recognition of the data recognition model, and can perform the data processing. In order to provide a service corresponding to the user's intention, And effectively protects the privacy of the user.
  • CV-based electronic devices capable of providing computer vision (CV) based services
  • the CV-based electronic device can photograph the set of authenticated images and perform object recognition through the AI-based recognition model on the photographed set of authenticated images, thereby selecting images corresponding to true images.
  • the CV-based electronic device is abused, and the CV-based electronic device performs authentication by itself through the set of authentication images.
  • the video display device 201 recognizes that the legitimate user has been authenticated even though the user is not a legitimate user of the video display device (for example, 201), and performs the operation requested by the CV-based electronic device.
  • FIG. 19 is a flowchart showing an operation method of an image display apparatus according to another embodiment.
  • FIG. 19 is a flow chart that includes operations performed on an image display device (e.g., 100, 100a, 201, 202, or 300) according to one or other embodiments of the present disclosure. 19 may also be applied to an image display device (not shown) according to another embodiment of the present disclosure, which may be performed through an image display device (e.g., 100, 100a, 201, 202 or 300)
  • Fig. 7 is a flowchart showing an operation method of the present invention.
  • the output step S1525 of the authentication image set included in the operation method 1500 of the image display apparatus may correspond to the output step S920 of the authentication image set included in the operation method 900 of the image display apparatus .
  • the video display device 201 may be output on the display 230 of the video display device 201 through one or more neural networks, and may receive one or more Recognize objects.
  • step S1520 the image display device 201 stores an image representing one or more objects recognized from the first content as a true image in the database.
  • step S1525 the image display device 201 may perform an operation of generating and outputting an authenticated image set in response to a user authentication request. Specifically, the operation of step S1525 may be performed according to the control of the processor 220.
  • the image display apparatus 201 may select and acquire one or more true images and one or more false images from among a plurality of true images and a plurality of false images stored in the database (S1530).
  • the selected one or more true images and one or more false images will be referred to as one or more first true images and one or more first false images, respectively. That is, one or more of the plurality of true images stored in the database may be selected to acquire one or more first true images. Then, one or more of the plurality of true images stored in the database may be selected to obtain one or more first false images.
  • one or more of the one or more first true images and one or more first false images obtained in operation S1530 are transformed, and the authenticated image set is output based on the transformed images in operation S1550.
  • one or more of the one or more first true images and one or more first false images obtained in step S1530 are modified to generate one or more modified images (S1540). More specifically, one or more of the one or more first true images and one or more first false images obtained in step S1530 may be modified through an adversarial example (AE) technique to generate one or more modified images.
  • AE adversarial example
  • the AE technique is a method of making a machine learning model including AI possible to recognize a person normally by applying a small amount of change to natural data.
  • CNN variation is an example of the AE technique.
  • the AE technique may generate a distorted image by adding a noise signal to at least a part of each of the at least one image obtained in step S1530.
  • an authenticated image set including 'at least one deformed image obtained at S1540' and 'at least one first true image obtained at S1530 and at least one untrusted at S1540 of one or more first false images' (Step S1550).
  • step S1560 the image display apparatus 201 can perform user authentication in response to a user input that selects one or more images from the set of authenticated images output in step S1550.
  • a machine learning model or 'AI-based recognition model'
  • AI a machine learning model including AI
  • the modified image is recognized as a false image.
  • a person who is a user of the image display apparatus recognizes the deformed image as a true image.
  • the person when the first true image is transformed through the opposing case technique, the person recognizes the transformed first true image as still true image, while the machine learning model including AI transforms the first modified image True image is recognized as false image rather than true image.
  • a false image when a first false image is transformed through a conflicting case technique, a person still recognizes the deformed first false image as a false image, A false image can be recognized as a true image, not a false image.
  • step S1540 the human recognizes all the objects included in the images before and after the transformation as the same object, while the AI-based recognition model uses the objects included in the images before and after the transformation To be recognized as an object, an image, specifically, an object contained within the image, can be transformed.
  • the first true image included in the authentication image set is three, and the first false image is five.
  • three true images 801, 802, and 803 must be selected.
  • step S1530 one of the first true images 801, 802, and 803 selected from among the five selected first false images and the first true image (e.g., 801) is transformed through the opposing case technique lets do it. Then, the user who is the user still recognizes the deformed first true image 801 as a true image. Accordingly, the user can select three true images (801, 802, 803) from the output authenticated image set as true images. However, if object recognition is performed through a machine learning model including AI, the modified first true image 801 is recognized as a false image.
  • the CV-based electronic device when the CV-based electronic device captures the authenticated image set and recognizes the authenticated image as an object, the CV-based electronic device recognizes the deformed first true image 801 as a false image rather than a true image. Accordingly, the CV-based electronic device can select two true images 802, 803 in the authenticated image set. Accordingly, the CV-based electronic device can not complete the authentication through the set of authentication images.
  • a first false image (e.g., 805) among the first three true images 801, 802, and 803 and the five first false images is selected as a contingency case technique . Then, the person who is the user still recognizes the deformed first false image 805 as a false image. Accordingly, the user can select three true images (801, 802, 803) from the output authenticated image set as true images.
  • the modified first false image 805 is recognized as a true image. That is, when the CV-based electronic device captures an authenticated image set and recognizes the authenticated authenticated image, the CV-based electronic device recognizes the modified first false image 805 as a true image. Accordingly, the CV-based electronic device can select four true images (801, 802, 803, 805) in the authenticated image set. Accordingly, the CV-based electronic device can not complete the authentication through the set of authentication images.
  • FIG. 20 is a diagram for explaining the operation method of the image display apparatus according to another embodiment shown in FIG. 19 in more detail.
  • the same components as those shown in Fig. 19 are denoted by the same reference numerals.
  • step S1640 of FIG. 20 may correspond to step S1540 of FIG.
  • the operation of step S1640 may be performed according to the control of the processor 220.
  • one or more first true images and one or more first false images obtained in step S1530 are modified to generate one or more modified images (S1640).
  • one or more true images selected from one or more first true images obtained in step S1530 may be modified through an adversarial example technique to generate one or more second true images.
  • the second true image is recognized through the neural network (that is, when the AI-based object recognition is performed)
  • the result of the object recognition is different from the judgment of the person.
  • a second true image one or more true images other than the selected one or more true images (specifically, one or more images corresponding to the one or more second true images) from among the one or more first true images, It is possible to output an authentication image set including a false image.
  • one or more false images selected from the one or more first false images obtained in step S1530 may be modified through an adversarial example technique to generate one or more second false images.
  • the second false image is recognized through the neural network (that is, when AI-based object recognition is performed)
  • the result of object recognition is different from the judgment of a person.
  • one or more of the one or more second false images, one or more of the one or more second true images, except for the selected one or more false images (specifically, one or more images corresponding to the one or more second false images) It can output a set of authentication images containing true images.
  • 22 is a view for explaining an operation of generating a modified image in an image display apparatus according to another embodiment of the present disclosure
  • a deformed image 1830 is shown through an antialiased case 1810 and an opposing case technique. Also, the objects contained in image 1810 may be panda.
  • a noise signal 1820 may be added to at least a portion of the image 1810 to produce a modified image 1830.
  • a distorted image 1830 can be generated by adding a noise signal 1820 to at least a portion of the region that has imaged the panda, which is an object included in the image 1810.
  • the noise signal 1820 may have a predetermined shape, quantity, and / or coverage area so that the AI-based recognition model may misidentify the object contained within the image 1810.
  • the noise signal 1820 may be any noise signal having a noise component that causes the AI-based recognition model to recognize objects included in the pre-distortion image 1810 differently.
  • the image components in at least some areas in the image 1810 that cause the objects contained in the image 1810 to be recognized as 'panda' May be set to enhance the image component in at least some of the areas within the image 1810 that are to be recognized as " gibbons ".
  • the noise signal 1820 may have all of the noise components that can transform the image 1810 to differentiate the object contained within the image 1810, so that the AI- And / or an application area.
  • FIG. 22 shows an example in which a noise signal 1820 having the same application area as that of the image 1810 is added to the image 1810.
  • the noise signal 1820 may be added to the area 1811 of the object included in the image 1810
  • a noise signal having a corresponding coverage area 1821 may be added to the image 1810.
  • a noise signal for example, 1820 that causes the result of object recognition to change is added to the image 1810 , And generates a deformed image 1830.
  • the person If transformed through an alternate case technique that adds a signal to the image 1810, the person still recognizes the deformed image 1830 as in the pre-distortion image 1810. That is, a person recognizes that all the objects included in the deformed image 1810 and the deformed image 1810 are all deformed. However, when the object recognition is performed through the AI-based recognition model, the object included in the image 1810 before the transformation is recognized as a panda, but the object included in the modified image 1830 is recognized as a gibbon do.
  • FIG. 23 is a view for explaining an authentication operation using a modified image generated in an image display apparatus according to another embodiment of the present disclosure.
  • FIG. 23 shows an example of performing object recognition through a neural network, which is an AI-based recognition model.
  • FIG. 23 shows an example of a deep neural network (DNN) 1900 in which the depth of a hidden layer of a neural network has three depths.
  • DNN deep neural network
  • the modified image 1830 described in FIG. 22 is input to the deep neural network 1900 as an example.
  • a medical imaging device e.g., 201
  • a server e.g., 500
  • a medical imaging device may perform an object recognition by performing an operation through the in-depth neural network (1900).
  • the deep neural network 1900 can perform learning through learning data. Then, the learned deep neural network 1900 can perform speculative operation, which is a calculation for object recognition.
  • the deep neural network 1900 can be designed in a wide variety of ways depending on the model implementation (e.g., CNN (Convolution Neural Network)), the accuracy of the results, the reliability of the results, have.
  • CNN Convolution Neural Network
  • Deep neural network 1900 may include an input layer 1911, a hidden layer 1920 and an output layer 1930 to perform operations for object recognition.
  • the deep neural network 1900 includes a first layer 1951 formed between an input layer 1911 and a first hidden layer HID 1, a first hidden layer HIDDEN LAYER 1, A second layer 1952 formed between the second hidden layer HIDDEN LAYER 2 and a third layer 1953 formed between the second hidden layer HIDDEN LAYER 2 and the third hidden layer HIDDEN LAYER 3, And a fourth layer (Layer 4) 1954 formed between the third hidden layer (HIDDEN LAYER 3) and the output layer (OUTPUT LAYER 550).
  • Layer 4 Layer 4
  • each of the plurality of layers forming the deep neural network 1900 may include one or more nodes.
  • the input layer 1911 may include one or more nodes (e.g., 1910) that receive data.
  • 23 illustrates an example in which the input layer 1911 includes a plurality of nodes.
  • a plurality of images obtained by scaling the image 1830 with a plurality of nodes 1910 can be input.
  • a plurality of images obtained by scaling the image 1830 by frequency bands may be input to the plurality of nodes 1910.
  • Each of the nodes has a corresponding weight value so that the deeper neural network 1900 can obtain the output data based on the input signal and the weight value, for example, the multiplied value.
  • the deep neural network 1900 can be learned based on a plurality of learning images and constructed as an object recognition model for recognizing objects included in an image. Specifically, in order to increase the accuracy of the result output through the deep neural network 1900, training is repeatedly performed in the direction of the input layer 1911 in the output layer 1930 based on a plurality of learning images, The weight values can be modified to increase the accuracy of the result.
  • the deep neural network 1900 having finally modified weight values can be used as an object recognition model.
  • the deeper neural network 1900 may analyze information contained in a plurality of learning images, which are input data, and output a result indicating what objects are included in the learning image.
  • the deep neural network 1900 When the deep neural network 1900 receives an image and has been trained to recognize an object included in the image, when the deep neural network 1900 receives the image (e.g., 1811) before the deformation, The neural network 1900 may analyze the image 1811 and output the result that the objects contained in the image " sell. &Quot;
  • the deeper neural network 1900 analyzes the image 1830 to determine whether the object included in the image is a 'gibbon' Can be output. That is, the user can recognize the objects included in the deformed image 1830 as 'panda', but the deeper neural network 1900, which is an AI-based object recognition model, Monkeys (gibbon).
  • the deeper neural network 1900 which is an AI-based object recognition model, Monkeys (gibbon).
  • one or more images included in an authenticated image set may be modified according to a confidential case technique, thereby enhancing security performance by preventing AI based hacking.
  • FIG. 21 is another diagram for explaining the operation method of the image display apparatus according to another embodiment shown in FIG. 19 in more detail.
  • the transforming step S1540 of FIG. 19 may include steps S1735 and S1740.
  • the processor 220 may determine noise information in response to a user authentication request (S1735).
  • one or more modified images may be generated by modifying one or more of the one or more first true images and one or more first false images obtained in step S1530 based on the determined noise information.
  • the noise information determined in step S1735 may be information on an image to be transformed, for example, a noise signal (for example, 1820) added to the image 1810 of FIG.
  • the noise information may include information on at least one of a method of generating a noise signal to be applied to one or more images to be transformed, a shape of a noise signal, and an amount of a noise signal.
  • the noise information may change each time a user authentication request occurs. Updating the noise information whenever a user authentication request occurs and transforming the image using the updated noise information, the set of authenticated images including the modified image may have higher security.
  • one or other embodiments of the present disclosure recognize an object included in content that a user has watched and perform user authentication using an authenticated image set that includes one or more images containing the recognized object , It can be confirmed that the user of the image display device (for example, 201) has a legitimate right while maintaining high security.
  • one or other embodiments of the present disclosure can prevent AI-based hacking attacks and thereby increase security performance, by modifying one or more images to be included in the authenticated image set using a confidential case technique.
  • the video display device and its operation method may also be implemented in the form of a recording medium including instructions executable by a computer such as a program module executed by a computer.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • the computer-readable medium may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.
  • a component may be a hardware component, such as a processor or circuit, and / or a software component, executed by a hardware component such as a processor.
  • the image display apparatus and the operation method thereof according to the embodiment of the present disclosure described above can be applied to an operation of acquiring a sentence composed of multiple languages; And obtaining a vector value corresponding to each of the words included in the sentence composed of the multiple languages using the multilingual translation model, converting the obtained vector values into vector values corresponding to the target language, And a program for causing the computer to perform an operation of obtaining a sentence composed of the target language based on the vector values.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 일 실시예에 따른 영상 표시 장치는, 사용자가 시청한 컨텐트에 기초하여 사용자 인증을 수행한다.

Description

영상 표시 장치 및 그 동작 방법
개시된 다양한 실시예들은 영상 표시 장치 및 그 동작 방법에 관한 것으로서, 보다 상세하게는, 영상 표시 장치가 사용자를 인증하는 방법에 관한 것이다.
통신 기술이 발전함에 따라, 다양한 보안 시스템이 요구되고 있다. 전자 장치 또는 네트워크에 안전하게 액세스하기 위하여, PIN(Personal Identification Number)을 이용하여 사용자를 인증하는 방법이 널리 사용되었다. 그러나, 사용자가 PIN을 잊어버릴 수 있기 때문에, PIN을 이용하여 사용자를 인증하는 방법은 사용자에게 불편함을 초래할 수 있다. 이에 따라, 최근에는, 사용자가 별도의 정보를 암기할 필요 없이, 사용자를 인증할 수 있는 다양한 방법이 연구되고 있다.
특히, 인공지능 기술이 발전됨에 따라, 인공지능 기술에 기초하여, 허가된 사용자임을 나타낼 수 있는 다양한 컨텍스트를 수집하고, 분석하여 사용자 인증을 수행함으로써, 사용자 인증을 보다 편리하고 안전하게 수행할 수 있는 방법이 연구되고 있다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
개시된 다양한 실시예들은 사용자가 시청한 컨텐트에 기초하여 사용자 인증을 수행하는 영상 표시 장치 및 영상 표시 장치의 동작 방법을 제공하기 위한 것이다.
개시된 다양한 실시예들은 사용자가 시청한 컨텐트로부터 인식된 객체에 기초하여 생성된 인증용 이미지 세트를 이용하여 사용자 인증을 수행함으로써, 사용자 측면에서 보다 편리한 사용자 인증 방법을 제공하기 위한 것이다.
일 실시예에 따른 영상 표시 장치는, 디스플레이, 하나 이상의 인스트럭션을 저장하는 메모리, 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 디스플레이상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하고, 사용자 인증을 요청하는 입력이 수신된 것에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이를 제어하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행할 수 있다.
일 실시예에 따른 제1 컨텐트는, 사용자 인증을 요청하는 입력이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트이고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는 제1 컨텐트로부터 추출된 이미지를 포함할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 사용자 인증을 요청하는 입력이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 하나 이상의 객체를 인식하고, 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 상기 거짓 이미지로 획득할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써,하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로서 저장할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써,데이터베이스에 저장된 복수의 거짓 이미지를 기설정된 주기마다 갱신할 수 있다.
일 실시예에 따른 학습 모델은, 하나 이상의 뉴럴 네트워크에 복수의 학습 이미지가 입력된 것에 응답하여, 복수의 학습 이미지에 포함된 하나 이상의 객체를 인식하는 방법을 학습함으로써 결정될 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트를 구성하는 복수의 프레임으로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체 중에서, 복수의 프레임에 기설정된 횟수 이상 포함된 객체를 나타내는 이미지를 상기 데이터베이스에 참 이미지로서 저장할 수 있다.
일 실시예에 따른 프로세서는 하나 이상의 인스트럭션을 수행함으로써,데이터베이스에 저장된 복수의 거짓 이미지 및 학습 모델 중 적어도 하나를 외부 서버로부터 수신할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써, 인증 이미지 세트로부터 하나 이상의 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 사용자 인증을 요청한 사용자를 허가받은 사용자로 판단할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써,인증 이미지 세트에 포함된 하나 이상의 참 이미지를 모두 선택하는데 것에 실패한 사용자 입력에 응답하여, 새로운 인증 이미지 세트를 출력하도록 디스플레이를 제어할 수 있다.
일 실시예에 따른 영상 표시 장치의 동작 방법은, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 영상 표시 장치의 디스플레이 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하는 단계, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하는 단계, 사용자 인증을 요청하는 입력이 수신된 것에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하는 단계, 및 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행하는 단계를 포함할 수 있다.
전술한 바와 같이, 본 개시의 일 또는 다른 실시예는 사용자가 시청하였던 컨텐트에 포함되는 객체를 인식하고, 인식된 객체가 포함된 이미지를 하나 이상 포함하는 인증 이미지 세트를 이용하여 사용자 인증을 수행함으로써, 높은 보안도를 유지하면서 영상 표시 장치(예를 들어, 201)의 사용자가 적법한 권한을 가지는 사용자인지를 확인할 수 있다.
또한, 본 개시의 일 또는 다른 실시예는, 대립적 사례 기법을 이용하여 인증 이미지 세트에 포함될 하나 이상의 이미지를 변형함으로써, AI 기반 해킹 공격을 막을 수 있으며 그에 따라서 보안 성능을 증가시킬 수 있다.
도 1은 일 실시예에 따른 영상 표시 장치를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 3은 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 4는 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 5는 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 6은 일 실시예에 따라 컨텐트로부터 객체를 인식하는 방법을 학습하는 뉴럴 네트워크(neural network)의 예시를 나타내는 도면이다.
도 7은 일 실시예에 따른 영상 표시 장치가 사용자 인증에 사용되는 이미지 데이터베이스를 생성하는 과정을 나타내는 흐름도이다.
도 8은 일 실시예에 따른 영상 표시 장치가 사용자 인증에 사용되는 참 이미지와 거짓 이미지를 수집하는 예시를 나타내는 도면이다.
도 9 및 도 10은 일 실시예에 따른 영상 표시 장치가 참 이미지와 거짓 이미지를 수집하는 과정을 설명하기 위한 도면이다.
도 11 및 도 12는 일 실시예에 따른 영상 표시 장치가 인증 이미지 세트를 이용하여 사용자 인증을 수행하는 예시를 나타내는 도면이다.
도 13은 일 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다.
도 14는 일 실시예에 따른 프로세서의 구성을 나타내는 블록도이다.
도 15는 일 실시예에 따른 데이터 학습부의 구성을 나타내는 블록도이다.
도 16은 일 실시예에 따른 데이터 인식부의 구성을 나타내는 블록도이다.
도 17은 일 실시예에 따른 서버의 구성을 나타내는 블록도이다.
도 18은 일 실시예에 따른 영상 표시 장치 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 19는 다른 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다.
도 20은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 일 도면이다.
도 21은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 다른 도면이다.
도 22는 본 개시의 다른 실시예에 따른 영상 표시 장치에 변형된 이미지를 생성하는 동작을 설명하기 위한 도면이다.
도 23은 본 개시의 다른 실시예에 따른 영상 표시 장치에서 생성된 변형된 이미지를 이용한 인증 동작을 설명하기 위한 도면이다.
일 실시예에 따른 영상 표시 장치는, 디스플레이, 하나 이상의 인스트럭션을 저장하는 메모리, 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 디스플레이상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하고, 사용자 인증을 요청하는 입력이 수신된 것에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이를 제어하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행할 수 있다.
일 실시예에 따른 제1 컨텐트는, 사용자 인증을 요청하는 입력이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트이고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는 제1 컨텐트로부터 추출된 이미지를 포함할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 사용자 인증을 요청하는 입력이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 하나 이상의 객체를 인식하고, 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 상기 거짓 이미지로 획득할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써,하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로서 저장할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써,데이터베이스에 저장된 복수의 거짓 이미지를 기설정된 주기마다 갱신할 수 있다.
일 실시예에 따른 학습 모델은, 하나 이상의 뉴럴 네트워크에 복수의 학습 이미지가 입력된 것에 응답하여, 복수의 학습 이미지에 포함된 하나 이상의 객체를 인식하는 방법을 학습함으로써 결정될 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트를 구성하는 복수의 프레임으로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체 중에서, 복수의 프레임에 기설정된 횟수 이상 포함된 객체를 나타내는 이미지를 상기 데이터베이스에 참 이미지로서 저장할 수 있다.
일 실시예에 따른 프로세서는 하나 이상의 인스트럭션을 수행함으로써,데이터베이스에 저장된 복수의 거짓 이미지 및 학습 모델 중 적어도 하나를 외부 서버로부터 수신할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써, 인증 이미지 세트로부터 하나 이상의 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 사용자 인증을 요청한 사용자를 허가받은 사용자로 판단할 수 있다.
일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써,인증 이미지 세트에 포함된 하나 이상의 참 이미지를 모두 선택하는데 것에 실패한 사용자 입력에 응답하여, 새로운 인증 이미지 세트를 출력하도록 디스플레이를 제어할 수 있다.
일 실시예에 따른 영상 표시 장치의 동작 방법은, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 영상 표시 장치의 디스플레이 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하는 단계, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하는 단계, 사용자 인증을 요청하는 입력이 수신된 것에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하는 단계, 및 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행하는 단계를 포함할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에서 사용되는 용어는, 본 개시에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 본 개시에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안되며, 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 해석되어야 한다.
또한, 본 개시에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다. 단수의 표현은 문맥상 명백하게 단수를 뜻하지 않는 한, 복수의 의미를 포함한다. 또한, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본 명세서, 특히, 특허 청구 범위에서 사용된 상기 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. 매커니즘, 요소, 수단 및 구성등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 영상 표시 장치가 사용자 인증을 수행하는 예시를 나타내는 도면이다.
도 1을 참조하면, 영상 표시 장치(100)는 TV일 수 있으나, 이에 한정되지 않으며, 디스플레이를 포함하는 전자 장치로 구현될 수 있다. 예를 들어, 영상 표시 장치(100)는 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 태블릿 PC, 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다. 또한, 영상 표시 장치(100)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.
영상 표시 장치(100)는 평면(flat) 디스플레이 장치뿐만 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률을 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 영상 표시 장치(100)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도를 포함할 수 있다.
영상 표시 장치(100)는 제어 장치(101)에 의해 제어될 수 있으며, 제어 장치(101)는 리모컨 또는 휴대폰과 같이 영상 표시 장치(100)를 제어하기 위한 다양한 형태의 장치로 구현될 수 있다. 또는 영상 표시 장치(100)의 디스플레이부가 터치스크린으로 구현되는 경우 제어 장치(101)는 사용자의 손가락이나 입력 펜 등으로 대체될 수 있다.
또한, 제어 장치(101)는 적외선(infrared) 또는 블루투스(bluetooth)를 포함하는 근거리 통신을 이용하여 영상 표시 장치(100)를 제어할 수 있다. 제어 장치(101)는 구비된 키(버튼을 포함), 터치 패드(touchpad), 사용자의 음성의 수신이 가능한 마이크(도시되지 아니함), 및 제어 장치(101)의 모션 인식이 가능한 센서(도시되지 아니함) 중 적어도 하나를 이용하여 영상 표시 장치(100)의 기능을 제어할 수 있다.
제어 장치(101)는 영상 표시 장치(100)의 전원을 온(on)시키거나 오프(off)시키기 위한 전원 온/오프 버튼을 포함할 수 있다. 또한, 제어 장치(101)는 사용자 입력에 의해 영상 표시 장치(100)의 채널 변경, 음량 조정, 지상파 방송/케이블 방송/위성 방송 선택, 또는 환경 설정(setting)을 할 수 있다.
또한, 제어 장치(101)는 포인팅 장치일 수도 있다. 예를 들어, 제어 장치(101)는, 특정 키 입력을 수신하는 경우에 포인팅 장치로 동작할 수 있다.
본 명세서의 실시예에서 사용자라는 용어는 제어 장치(101)를 이용하여 영상 표시 장치(100)의 기능 또는 동작을 제어하는 사람을 의미하며, 시청자, 관리자 또는 설치 기사를 포함할 수 있다.
일 실시예에 따른, 영상 표시 장치(100)는, 사용자가 시청한 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 이용하여, 사용자 인증을 수행할 수 있다. 예를 들어, 영상 표시 장치(100)가 방송 기능뿐만 아니라 인터넷을 통하여 컨텐트를 제공할 수 있는 스마트 TV일 때, 영상 표시 장치(100)를 통해 인터넷에 액세스하려는 외부 입력이 수신되면, 영상 표시 장치(100)를 이용할 수 있는 정당한 권한이 있는 사용자로부터 수신된 입력인지 확인할 필요가 있다. 예를 들어, 해커와 같이 정당한 권한이 없는 사용자가 영상 표시 장치(100)를 이용할 경우, 정당한 권한이 없는 사용자가 영상 표시 장치(100)에 저장된 개인 정보에 접근함으로써, 개인 정보가 유출될 수 있다. 또한, 정당한 권한이 없는 사용자가 영상 표시 장치(100)를 이용하여 악의적인 행위를 할 수 있다.
다른 예로서, 영상 표시 장치(100)를 통해 디스플레이되는 컨텐트가 연령 제한(예를 들어, 15세 이상 관람가)이 있는 컨텐트일 때, 허가된 연령 미만의 사용자(예를 들어, 12세의 사용자)가 해당 컨텐트를 시청하지 못하도록 차단할 필요가 있다. 따라서, 영상 표시 장치(100)에서 효율적으로 사용자를 인증할 수 있는 방법이 필요할 수 있다.
일 실시예에 따른 영상 표시 장치(100)는, 사용자가 오늘 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체를 나타내는 이미지를 포함하는 인증 이미지 세트를 이용하여, 사용자 인증을 수행할 수 있다. 인증 이미지 세트는, 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함할 수 있다.
참 이미지는 사용자가 허가받은 사용자, 영상 표시 장치(100)를 이용할 수 있는 정당한 권한이 있는 사용자, 또는 영상 표시 장치(100)에서 표시하는 특정 컨텐트를 이용할 수 있는 권한이 있는 사용자인지 판단하기 위해 사용되는 이미지로서, 예를 들어, 사용자가 오늘 시청한 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 포함할 수 있다. 또한, 거짓 이미지는 허가받지 않은 사용자, 영상 표시 장치(100)를 이용할 수 있는 정당한 권한이 없는 사용자, 영상 표시 장치(100)를 통해 소정의 컨텐트를 이용할 수 있는 권한이 없는 사용자(예를 들어, 해커), 또는 허가받지 않은 사용자에 의해 제어되는 컴퓨터를 필터링하기 위해 사용되는 이미지로서, 예를 들어, 사용자가 어제 시청한 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 포함할 수 있다.
도 1을 참조하면, 영상 표시 장치(100)는, 복수의 참 이미지와 복수의 거짓 이미지를 포함하는 9개의 이미지로 구성된 인증 이미지 세트를 디스플레이하고, 사용자가 디스플레이된 인증 이미지 세트에서 참 이미지를 모두 선택하도록 할 수 있다. 허가받지 않은 사용자(예를 들어, 해커)는, 허가받은 사용자가 오늘 시청한 제1 컨텐트와 어제 시청한 제2 컨텐트를 구분하기 어렵기 때문에, 인증 이미지 세트에 포함된 참 이미지와 거짓 이미지를 구분하기 어렵다. 그러나, 영상 표시 장치(100)를 통해 오늘 제1 컨텐트를 시청한 사용자는, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 용이하게 식별할 수 있다. 인증 이미지 세트에서 참 이미지를 모두 선택하는 사용자 입력이 수신되면, 영상 표시 장치(100)는, 해당 사용자를 허가받은 사용자인 것으로 판단할 수 있다. 이에 따라, 영상 표시 장치(100)는, 편리하고 용이하게 허가받은 사용자를 구별할 수 있다.
PIN(Personal Identification Number)을 사용하여 사용자 인증을 수행하는 경우, 사용자가 PIN을 잊어버릴 가능성이 있기 때문에, 사용자 인증 과정에서 사용자에게 불편함을 초래할 수 있다. 이와 달리, 사용자가 시청한 컨텐트로부터 인식된 객체에 기초하여 생성된 인증용 이미지 세트를 이용하여 사용자 인증을 수행하는 경우, 사용자는 참 이미지를 별도로 기억하고 있을 필요가 없다. 제1 컨텐트를 시청한 사용자는, 제1 컨텐트에 등장한 객체를 용이하게 구별할 수 있을 것이므로, 제1 컨텐트로부터 인식된 객체를 나타내는 참 이미지를 용이하게 선택함으로써, 사용자 인증 과정을 통과할 수 있다. 이에 따라, 영상 표시 장치(100)는, 사용자 측면에서 보다 편리하게 사용자 인증을 수행할 수 있다.
도 2는 일 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 2에 도시된 영상 표시 장치(100a)는 도 1에 도시된 영상 표시 장치(100)의 일 실시예일 수 있다. 도 2를 참조하면, 일 실시예에 따른 영상 표시 장치(100a)는 메모리(210), 프로세서(220), 및 디스플레이(230)를 포함할 수 있다. 그러나, 영상 표시 장치(100a)는, 도시된 구성요소보다 많은 구성요소에 의해 구현될 수 있으며, 전술한 예에 한정되지 않는다.
이하 상기 구성요소들에 대해 차례로 살펴본다.
일 실시예에 따른 메모리(210)는, 프로세서(220)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 영상 표시 장치(100a)로 입력되거나 영상 표시 장치(100a)로부터 출력되는 데이터를 저장할 수 있다.
메모리(210)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
일 실시예에 따른 프로세서(220)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(미도시)에 참 이미지로서 저장시킬 수 있다. 여기서, 데이터베이스(미도시)는 영상 표시 장치(100a) 내에 구비되는 메모리(예를 들어, 210) 또는 프로세서(220) 내에 형성될 수 있다. 또는, 데이터베이스(미도시)는 영상 표시 장치(100a)와 유무선의 통신 네트워크를 통하여 연결 가능한 외부 장치(예를 들어, 서버(예를 들어, 500 또는 2000) 등) 내에 형성될 수도 있을 것이다. 그리고, 프로세서(220)는 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행하는 하나 이상의 인스트럭션(instruction)을 포함하는 모듈을 포함할 수 있다.
여기서, 사용자 인증 요청은 사용자로부터 입력될 수 있다.
또한, 프로세서(220)는 영상 표시 장치(100a) 내에 소정 이벤트가 발행하면, 사용자 인증이 요청된 것으로 인식할 수 있다. 예를 들어, 영상 표시 장치(100a) 에서 인터넷을 액세스 하려는 입력이 수신되면, 이를 사용자 인증 요청이 입력된 것으로 인식하고, 사용자 인증 요청에 대응되는 동작(예를 들어, 전술한 인증 이미지 세트를 출력하기 위한 동작 등)을 수행할 수 있다. 또 다른 예로, 영상 표시 장치(100a)를 턴 온 시키기 위한 입력이 수신되면, 영상 표시 장치(100a)는 상기 턴 온 입력을 입력한 사용자가 영상 표시 장치(100a)를 이용할 수 있는 정당한 권원이 있는 사용자 인지 판단하기 위해서 사용자 인증 요청이 입력된 것으로 인식하고, 용자 인증 요청에 대응되는 동작을 수행할 수 있다. 또 다른 예로, 영상 표시 장치(100a)를 통하여 재생이 요청된 컨텐트가 연령 제한(예를 들어, 15세 이상 관람가)이 있는 컨텐트일 경우, 허가된 연령 미만의 사용자가 해당 컨텐트를 시청하지 못하도록 차단할 필요가 있다. 이러한 경우, 영상 표시 장치(100a)는 연령 제한(예를 들어, 15세 이상 관람가)이 있는 컨텐트의 재생이 요청된 경우, 이를 사용자 인증 요청이 입력된 것으로 인식하고, 사용자 인증 요청에 대응되는 동작을 수행할 수 있다.
또 다른 예로, 영상 표시 장치(100a)를 원격으로 제어하기 위한 원격 제어 장치(미도시)를 통하여 사용자 인증 요청이 입력될 수도 있을 것이다.
본 개시의 실시예에서, 프로세서(220)는 메모리(210)에 저장된 하나 이상의 인스트럭션을 실행하여, 전술한 동작들이 수행되도록 제어할 수 있다. 이 경우, 메모리(210)는 프로세서(220)에 의해서 실행가능한 하나 이상의 인스트럭션을 저장하고 있을 수 있다.
또한, 본 개시의 실시예에서, 프로세서(220)는 내부적으로 구비되는 메모리(미도시)에 하나 이상의 인스트럭션을 저장하고, 내부적으로 구비되는 메모리(미도시)에 저장된 하나 이상의 인스트럭션을 실행하여 전술한 동작들이 수행되도록 제어할 수 있다. 즉, 프로세서(220)는 프로세서(220)의 내부에 구비되는 내부 메모리(미도시) 또는 메모리(210)에 저장된 적어도 하나의 인스트럭션 또는 프로그램을 실행하여 소정 동작을 수행할 수 있다.
또한, 본 개시의 실시예에서, 프로세서(220)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 미도시)를 포함할 수 있다. 프로세서(미도시)는 코어(core, 미도시)와 GPU(미도시)를 통합한 SoC(System On Chip)로 구현될 수 있다. 프로세서(미도시)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.
일 실시예에 따른 메모리(210)는, 사용자가 시청한 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 저장할 수 있다. 예를 들어, 메모리(210)는, 프로세서(220)의 제어에 따라서, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장할 수 있다. 또한, 메모리(210)는, 사용자 인증을 요청하는 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 거짓 이미지로서 저장할 수 있다. 데이터베이스는 메모리(210)에 포함될 수 있거나 또는 외부 저장 장치에 위치할 수 있다.
프로세서(220)는 영상 표시 장치(100a)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(220)는, 메모리(210)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 디스플레이(230)를 제어할 수 있으며, 도 1 내지 도 18에 기재된 영상 표시 장치(100a)의 기능을 수행할 수 있다.
또한, 도 2에서는 하나의 프로세서(220)를 도시하였으나, 복수개의 프로세서(미도시)가 구비될 수도 있을 것이다. 이 경우, 본 개시의 실시예에 따른 영상 표시 장치에서 수행되는 동작들 각각은 복수개의 프로세서(미도시) 중 적어도 하나를 통하여 수행될 수 있다.
일 실시예에 따른 프로세서(220)는, 하나 이상의 뉴럴 네트워크(neural network)를 이용한 학습 모델을 이용하여, 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식한다.
뉴럴 네트워크는, 인공지능(Artificial Intelligence)에 기초하여 뉴럴 네트워크에 입력된 소정의 이미지로부터 객체를 인식하는 방법을 학습하는 알고리즘의 집합일 수 있다. 예를 들어, 뉴럴 네트워크는, 소정의 이미지를 입력 값으로 하는 지도 학습(supervised learning), 별다른 지도 없이 이미지로부터 객체를 인식하기 위해 필요한 데이터의 종류를 스스로 학습함으로써, 이미지로부터 객체를 인식하기 위한 패턴을 발견하는 비지도 학습(unsupervised learning)에 기초하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있다. 또한, 예를 들어, 뉴럴 네트워크는, 학습에 따라 객체를 인식한 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 이용하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있다.
또한, 뉴럴 네트워크는 인공 지능(AI) 기술에 따른 추론 및 예측을 위한 연산을 수행한다. 구체적으로, 뉴럴 네트워크는 복수의 계층들을 통한 연산을 수행하는 딥 뉴럴 네트워크(DNN: Deep Neural Network)가 될 수 있다. 뉴럴 네트워크는 연산을 수행하는 내부의 계층(layer)의 개수에 따라서 계층의 개수가 복수일 경우, 즉 연산을 수행하는 뉴럴 네트워크의 심도(depth)가 증가하는 경우, 딥 뉴럴 네트워크(DNN)로 분류될 수 있다. 또한, 딥 뉴럴 네트워크(DNN) 연산은 컨볼루션 뉴럴 네트워크(CNN: Convolution Neural Network) 연산 등을 포함할 수 있다. 즉, 제어부(220)는 예시된 뉴럴 네트워크를 통하여 객체를 인식하기 위한 데이터 인식 모델을 구현하고, 구현된 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 그리고, 학습된 데이터 인식 모델을 이용하여 입력되는 데이터인 이미지를 분석 또는 분류하여, 이미지 내에 포함되는 객체가 무엇인지를 분석 및 분류할 수 있다.
본 개시의 실시예에서 이용되는 뉴럴 네트워크를 통하여 수행되는 동작들은 이하에서 도 23을 참조하여 상세히 설명한다.
예를 들어, 프로세서(220)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트에 등장한 하나 이상의 얼굴을 인식할 수 있다. 예를 들어, 프로세서(220)는 딥 뉴럴 네트워크를 통한 연산을 수행하여, 제1 컨텐트에 등장한 하나 이상의 객체, 예를 들어, 등장 인물의 얼굴을 인식할 수 있다.
또한, 프로세서(220)는, 학습 모델을 이용하여, 제1 컨텐트에 등장한 얼굴이 누구의 얼굴인지 인식할 수 있다. 또는, 실시예에 따라, 프로세서(220)는, 제1 컨텐트에 등장한 하나 이상의 물건(예를 들어, 자동차, 가방, 전자 장치 등)을 인식할 수 있다. 또한, 프로세서(220)는 제1 컨텐트에 등장하는 배경 또는 장소를 인식할 수 있다. 또한, 프로세서(220)가 인식하는 것은 제1 컨텐트에 등장하였으며 사용자가 독립된 객체로 인지할 수 있는 것을 포함할 수 있으며, 전술한 예에 한정되지 않는다. 이때, 제1 컨텐트는, 사용자가 시청한 복수의 컨텐트 중에서, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트를 의미할 수 있다. 사용자는, 컨텐트를 시청한 이후 시간이 경과함에 따라, 특정 객체가 시청했던 컨텐트에 등장한 객체인지 식별하기 어려울 수 있다. 이에 따라, 영상 표시 장치(100)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간(예를 들어, 3시간) 이내에 시청된 컨텐트로부터 인식된 객체를 나타내는 이미지를 참 이미지로 저장할 수 있다.
또는, 제1 컨텐트는 가장 최근에 사용자가 시청한 컨텐트가 될 수 있다.
또한, 제1 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하는 경우 해당 컨텐트가 되며, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하지 않는 경우 가장 최근에 사용자가 시청한 컨텐트가 될 수 있을 것이다.
또한, 제1 컨텐트는 소정 시간 이상 시청된 컨텐트가 될 수 있다. 사용자가 제1 컨텐트를 짧은 시간, 예를 들어, 10분 또는 30분 이내 시청한 경우, 해당 컨텐트에 등장하는 객체들을 전체적으로 인식할 수 없을 수 있다. 따라서, 제1 컨텐트는 소정 시간 이상 시청된 컨텐트로 설정될 수 있을 것이다.
또한, 제1 컨텐트에 등장하는 객체들 중 참 이미지에 포함되는 객체는, 사용자가 시청한 시간 동안에 재생된 제1 컨텐트에 포함되는 객체가 될 수 있다. 예를 들어, 제1 컨텐트의 총 재생 시간이 2시간 인 경우, 사용자가 컨텐트 재생 시작 시점부터 1시간 30분 동안 제1 컨텐트를 시청하고, 제1 컨텐트가 종료되기 전 30분에 대응되는 영상은 시청하지 않은 경우가 있을 수 있다. 이 경우, 제1 컨텐트에 있어서, 재생 시작 시점부터 1시간 30분 동안에 재생된 영상들에서 등작한 객체를 참 이미지에 포함되는 객체로 설정할 수 있을 것이다.
이하에서는, 설명의 편의 상, 제1 컨텐트가 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간(예를 들어, 3시간, 6시간 등) 이내에 시청된 컨텐트인 경우를 예로 들어 설명한다.
제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는, 제1 컨텐트로부터 추출된 이미지를 포함할 수 있으며, 제1 컨텐트로부터 인식된 객체가 등장한 다른 컨텐트로부터 추출된 이미지를 포함할 수 있다. 예를 들어, 프로세서(220)는, 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.
또한, 본 개시의 실시예에서, 객체의 인식은 제1 컨텐트에 포함되는 단위 이미지 단위로 수행될 수 있다. 여기서, 여기서, 단위 이미지는 프레임(frame), 씬(scene) 또는 GOP(Group Of Picture) 등이 될 수 있다. 이하에서는, 설명의 편의 상, 단위 이미지가 프레임인 경우를 예로 들어 설명하도록 하겠다.
구체적으로, 프로세서(220)는 제1 컨텐트를 형성하는 프레임 단위로, 객체 인식을 수행할 수 있다. 예를 들어, 프로세서(220)는, 제1 컨텐트를 형성하는 복수의 프레임에서 이미징된 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.
그리고, 일 실시예에 따른 프로세서(220)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이(230)를 제어할 수 있다.
데이터베이스는, 복수의 참 이미지와 복수의 거짓 이미지를 저장할 수 있다. 거짓 이미지는, 예를 들어, 사용자가 시청한지 기설정된 시간 이상(예를 들어, 24시간 이상) 경과한 제2 컨텐트로부터 인식된 객체를 나타내는 이미지를 포함할 수 있다.
또한, 제2 컨텐트는 제1 컨텐트의 재생이 시작되는 시점을 기준으로, 소정 시간, 예를 들어, 24시간 또는 일주일 등과 같이 설정된 시간 이전에 재생된 컨텐트가 될 수 있다. 예를 들어, 사용자 인증 요청이 2017년 7월 5일 20시에 입력되었으며, 제1 컨텐트가 2017년 7월 5일 17시-18시 동안에 시청된 컨텐트인 경우, 제2 컨텐트는 제1 컨텐트의 재생 시작 시점인 2017년 7월 5일 17시부터 24시간 이전에 재생된 컨텐트가 될 수 있을 것이다. 또한, 24시간 또는 일주일 등과 같이 설정된 시간의 구체적인 값은 사용자 또는 영상 표시 장치(100)의 자체 설정에 따라서 달라질 수 있을 것이다.
또한, 영상 표시 장치(100)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기(예를 들어, 하루에 한번)마다 갱신할 수 있다. 데이터베이스에 저장된 거짓 이미지가 고정되어 있을 경우, 허가를 받지 않은 외부 사용자에 의해 제어되는 전자 장치가 데이터베이스에 저장된 거짓 이미지를 학습할 수 있다. 따라서, 영상 표시 장치(100)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기마다 갱신함으로써, 허가를 받은 사용자를 보다 효과적으로 식별하도록 할 수 있다.
일 실시예에 따른 프로세서(220)는, 디스플레이된 인증 이미지 세트에서 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인증받은 사용자로 판단할 수 있다. 전술한 바와 같이, 인증받은 사용자는, 영상 표시 장치(100)를 사용할 수 있는 정당한 권한을 갖는 사용자, 영상 표시 장치(100)를 통해 디스플레이되는 컨텐트를 시청할 수 있는 권한이 있는 사용자를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 3개의 참 이미지와 6개의 거짓 이미지를 포함하는 인증 이미지 세트가 디스플레이 될 때, 프로세서(220)는 3개의 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인증받은 사용자로 판단할 수 있다. 이에 따라, 프로세서(220)는, 인증받은 사용자임을 나타내는 메시지를 출력하도록 디스플레이(230)를 제어할 수 있으나, 이에 한정되지 않는다.
그러나, 사용자 입력이 인증 이미지 세트에서 참 이미지를 모두 선택하는데 실패한 경우, 프로세서(220)는 새로운 인증 이미지 세트를 출력하도록 디스플레이(230)를 제어할 수 있다. 또한, 실시예에 따라, 프로세서(220)는, 인증 이미지 세트에서 참 이미지를 모두 선택하는데 실패한 사용자 입력이 기설정된 횟수 이상 반복될 경우, 사용자 인증에 실패했음을 나타내는 메시지를 출력하도록 디스플레이(230)를 제어할 수 있다.
일 실시예에 따른 디스플레이(230)는, 사용자 인증에 사용되는 인증 이미지 세트를 디스플레이할 수 있다. 인증 이미지 세트에 포함되는 이미지 개수는 실시예에 따라 달라질 수 있다. 예를 들어, 디스플레이(230)는, 사용자가 제어 장치(101)의 숫자 버튼(0 내지 9)을 이용하여 이미지를 선택하기 용이하도록, 9개의 이미지를 3x3 매트릭스 형태로 디스플레이할 수 있으나, 이에 한정되지 않는다.
일 실시예에 따른 디스플레이(230)는, 인증 이미지 세트에서 참 이미지를 모두 선택하는 것에 실패한 사용자 입력에 응답하여, 새로운 이미지 세트를 출력할 수 있다. 또한, 디스플레이(230)는, 사용자 인증 결과를 나타내는 메시지를 출력할 수 있다.
디스플레이(230)가 터치 스크린으로 구현되는 경우, 디스플레이(230)는 출력 장치 이외에 입력 장치로 사용될 수 있다. 예를 들어, 디스플레이(230)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기 영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고, 영상 표시 장치(100a)의 구현 형태에 따라, 영상 표시 장치(100a)는 디스플레이(230)를 2개 이상 포함할 수 있다.
도 3은 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 3 에 있어서, 도 2 에서와 동일한 구성은 동일한 도면기호를 이용하여 도시하였다. 따라서, 영상 표시 장치(201)를 설명하는데 있어서 도 1 내지 도 2 에서와 중복되는 설명은 생략한다. 도 3을 참조하면, 도 3에 도시된 영상 표시 장치(201)는 도 2 에 도시된 영상 표시 장치(100a)에 비하여 통신부(240) 및 사용자 인터페이스(250)를 더 포함할 수 있다.
통신부(240)는 유무선의 네트워크를 통하여 외부 장치(미도시)들과 통신할 수 있다. 구체적으로, 통신부(240)는 프로세서(220)의 제어에 따라서 유무선의 네트워크를 통하여 연결되는 외부 장치(미도시)와 데이터를 송수신할 수 있다. 여기서, 외부 장치(미도시)는 영상 표시 장치(201)가 디스플레이하는 컨텐트를 제공하는 서버, 전자 장치 등이 될 수 있다. 예를 들어, 외부 장치(미도시)는 소정 컨텐트를 디스플레이 장치(200)로 송신할 수 있는 장치로, 방송국 서버, 컨텐트 제공자 서버, 컨텐트 저장 장치 등이 포함될 수 있을 것이다.
본 개시의 실시예에서, 제1 컨텐트 및/또는 제2 컨텐트를 통신부(240)를 통하여 외부 장치(미도시)로부터 수신될 수 있다. 또한, 통신부(240)는 참 이미지 및/또는 거짓 이미지를 제공할 수 있는 서버(미도시)와 유무선의 네트워크를 통하여 통신할 수 있다.
또한, 본 개시의 실시예에서, 통신부(240)와 연결될 수 있는 외부 장치(미도시)는 참 이미지 및/또는 거짓 이미지에서 객체를 인식하고 인식된 객체를 포함하는 이미지를 생성할 수 있는 서버 또는 전자 장치가 될 수 있다.
또한, 통신부(210)는, 근거리 통신 모듈, 유선 통신 모듈, 이동 통신 모듈, 방송 수신 모듈 등과 같은 적어도 하나의 통신 모듈을 포함한다. 여기서, 적어도 하나의 통신 모듈은 방송 수신을 수행하는 튜너, 블루투스, WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), CDMA, WCDMA 등과 같은 통신 규격을 따르는 네트워크를 통하여 데이터 송수신을 수행할 수 있는 통신 모듈을 뜻한다.
사용자 인터페이스(250)는 영상 표시 장치(201)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 인터페이스(250)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 포함하는 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다. 또한, 영상 표시 장치(201)가 원격 제어 장치(remote controller)(미도시)에 의해서 조작되는 경우, 사용자 인터페이스(250)는 원격 제어 장치(미도시)로부터 수신되는 제어 신호를 수신할 수도 있을 것이다.
본 개시의 실시예에서, 사용자 인터페이스(250)는 사용자 인증 요청에 대응되는 사용자 입력을 수신할 수 있다. 또한, 사용자 인터페이스(250)는 인증 이미지 세트로부터 하나 이상의 참 이미지를 선택하는 사용자 입력을 수신할 수 있다.
도 4는 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 4 에 있어서, 도 3 에서와 동일한 구성은 동일한 도면기호를 이용하여 도시하였다. 따라서, 영상 표시 장치(202)를 설명하는데 있어서 도 1 내지 도 3 에서와 중복되는 설명은 생략한다.
도 4를 참조하면, 도 3에 도시된 영상 표시 장치(202)는 도 3 에 도시된 영상 표시 장치(201)에 비하여 뉴럴 네트워크 프로세서(260)을 더 포함할 수 있다.
영상 표시 장치(100a 또는 201)에서는 뉴럴 네트워크를 통한 연산을 수행하여 소정 동작을 실행되도록 제어하는 동작을 프로세서(220)에서 수행하였다. 본 개시의 다른 실시예에 따른 영상 표시 장치(202)는 뉴럴 네트워크를 통하여 연산을 수행하기 위해서 별도의 프로세서인 뉴럴 네트워크 프로세서(260)를 포함할 수 있다.
뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크를 통한 연산을 수행할 수 있다. 구체적으로, 본 개시의 실시예에서, 뉴럴 네트워크 프로세서(260)는 하나 상의 인스트럭션을 실행하여 뉴럴 네트워크를 통한 연산이 수행되도록 할 수 있다.
구체적으로, 뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크를 통한 연산을 수행하여, 소정 이미지에서의 객체 인식을 수행할 수 있다. 예를 들어, 뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크를 통한 연산을 수행하여 제1 컨텐트에 등장한 하나 이상의 얼굴을 인식할 수 있다.
도 5는 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 5에 도시된 바와 같이, 영상 표시 장치(300)는, 메모리(210), 프로세서(220), 및 디스플레이(230) 이외에, 튜너부(140), 통신부(150), 감지부(160), 입/출력부(170), 비디오 처리부(180), 오디오 처리부(1150), 오디오 출력부(125), 및 사용자 입력부(190)를 더 포함할 수 있다.
메모리(210), 프로세서(220), 및 디스플레이(230)에 대하여, 도 2에서 설명한 내용과 동일한 내용은 도 5에서 생략한다. 또한, 도 3에서 설명한 통신부(240)는 튜너부(140) 및 통신부(150) 중 적어도 하나에 대응될 수 있다. 또한, 영상 표시 장치(300)는 도 5에 도시된 구성들 이외에, 도 3에서 설명한 사용자 인터페이스(250)에 대응되는 구성을 더 포함할 수 있다.
따라서, 도 5에 도시된 영상 표시 장치(300)를 설명하는데 있어서, 도 1 내지 도 4와 중복되는 설명은 생략한다.
튜너부(140)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 영상 표시 장치(300)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.
튜너부(140)를 통해 수신된 방송 신호는 디코딩(decoding, 예를 들어, 오디오 디코딩, 비디오 디코딩 또는 부가 정보 디코딩)되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(220)의 제어에 의해 메모리(210)에 저장될 수 있다.
영상 표시 장치(300)의 튜너부(140)는 하나이거나 복수일 수 있다. 튜너부(140)는 영상 표시 장치(300)와 일체형(all-in-one)으로 구현되거나 또는 영상 표시 장치(300)와 전기적으로 연결되는 튜너부를 가지는 별개의 장치(예를 들어, 셋탑박스(set-top box, 도시되지 아니함), 입/출력부(170)에 연결되는 튜너부(도시되지 아니함))로 구현될 수 있다.
통신부(150)는 프로세서(220)의 제어에 의해 영상 표시 장치(300)를 외부 장치(예를 들어, 오디오 장치 등)와 연결할 수 있다. 프로세서(220)는 통신부(150)를 통해 연결된 외부 장치로 컨텐트를 송/수신, 외부 장치에서부터 어플리케이션(application)을 다운로드하거나 또는 웹 브라우징을 할 수 있다.
통신부(150)는 영상 표시 장치(300)의 성능 및 구조에 대응하여 무선 랜(151), 블루투스(152), 및 유선 이더넷(Ethernet, 153) 중 하나를 포함할 수 있다. 또한, 통신부(150)는 무선랜(151), 블루투스(152), 및 유선 이더넷(Ethernet, 153)의 조합을 포함할 수 있다. 통신부(150)는 프로세서(220)의 제어에 의해 제어 장치(101)의 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다.
통신부(150)는 블루투스 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 도시되지 아니함), BLE(bluetooth low energy, 도시되지 아니함)를 더 포함할 수 있다.
일 실시예에 따른 통신부(150)는, 외부 서버로부터 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 수신할 수 있다. 또한, 통신부(150)는, 데이터베이스에 저장된 거짓 이미지를 갱신하기 위하여, 외부 서버로부터 기설정된 주기마다 새로운 거짓 이미지들을 수신할 수 있다.
감지부(160)는 사용자의 음성, 사용자의 영상, 또는 사용자의 인터랙션을 감지하며, 마이크(161), 카메라부(162), 및 광 수신부(163)를 포함할 수 있다.
마이크(161)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(161)는 수신된 음성을 전기 신호로 변환하여 프로세서(220)로 출력할 수 있다.
카메라부(162)는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신할 수 있다.
광 수신부(163)는, 제어 장치(101)에서부터 수신되는 광 신호(제어 신호를 포함)를 수신한다. 광 수신부(163)는 제어 장치(101)로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 프로세서(220)의 제어에 의해 제어 신호가 추출될 수 있다.
일 실시예에 따른 광 수신부(163)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 대응되는 광 신호를 제어 장치(101)로부터 수신할 수 있다.
입/출력부(170)는 프로세서(220)의 제어에 의해 영상 표시 장치(300)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입/출력부(170)는 HDMI 포트(High-Definition Multimedia Interface port, 171), 컴포넌트 잭(component jack, 172), PC 포트(PC port, 173), 및 USB 포트(USB port, 174) 중 하나를 포함할 수 있다. 입/출력부(170)는 HDMI 포트(171), 컴포넌트 잭(172), PC 포트(173), 및 USB 포트(174)의 조합을 포함할 수 있다.
일 실시예에 따른 메모리(210)는, 프로세서(220)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 영상 표시 장치(300)로 입력되거나 영상 표시 장치(300)로부터 출력되는 데이터를 저장할 수 있다. 또한, 메모리(210)는 영상 처리 장치(300)의 동작에 필요한 데이터들을 저장할 수 있다.
또한, 메모리(210)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있다. 구체적으로, 메모리(210)는 뉴럴 네트워크를 이용하여 소정 동작을 수행하기 위한 하나 이상의 프로그램을 저장할 수 있다. 예를 들어, 메모리(210)에 저장되는 하나 이상의 프로그램은 학습 모듈(211)과 인증 모듈(212) 등으로 분류될 수 있다.
학습 모듈(211)은, 하나 이상의 뉴럴 네트워크에 복수의 학습 이미지가 입력된 것에 응답하여 복수의 학습 이미지에 포함된 하나 이상의 객체를 인식하는 방법을 학습하여 결정되는 학습 모델을 포함할 수 있다. 학습 모델은 외부 서버로부터 수신될 수 있으며, 수신된 학습 모델은 학습 모듈(211)에 저장될 수 있다.
인증 모듈(212)은, 프로세서(220)가 하나 이상의 인스트럭션을 수행함으로써, 인증 이미지 세트를 이용하여 사용자 인증을 수행하도록 하는 프로그램을 저장할 수 있다. 예를 들어, 인증 모듈(212)은, 프로세서(2200가 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이(230)를 제어하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행하도록 하는 프로그램을 저장할 수 있다.
또한, 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 프로그램, 또는 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 인스트럭션은 프로세서(220)에 포함되는 내부 메모리(미도시)에 저장될 수도 있을 것이다.
프로세서(220)는 영상 표시 장치(300)의 전반적인 동작 및 영상 표시 장치(300)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 프로세서(220)는 사용자의 입력이 있거나 기설정되어 저장된 조건을 만족하는 경우, 메모리(210)에 저장된 OS(Operation System) 및 다양한 애플리케이션을 실행할 수 있다.
일 실시예에 따른 프로세서(220)는, 메모리(210)에 저장된 하나 이상의 인스트럭션을 수행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 디스플레이상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하고, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이를 제어하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.
또한, 프로세서(220)는 내부 메모리(미도시)를 포함할 수 있을 것이다. 이 경우, 메모리(210)에 저장되는 데이터, 프로그램, 및 인스트럭션 중 적어도 하나가 프로세서(220)의 내부 메모리(미도시)에 저장될 수 있다. 예를 들어, 프로세서(220)의 내부 메모리(미도시)는 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 프로그램, 또는 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 인스트럭션은 저장할 수 있다.
비디오 처리부(180)는, 디스플레이(230)에 의해 표시될 영상 데이터를 처리하며, 영상 데이터에 대한 디코딩, 렌더링, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 및 해상도 변환 등과 같은 다양한 영상 처리 동작을 수행할 수 있다.
디스플레이(230)는 프로세서(220)의 제어에 의해 튜너부(140)를 통해 수신된 방송 신호에 포함된 비디오를 화면에 표시할 수 있다. 또한, 디스플레이(230)는 통신부(150) 또는 입/출력부(170)를 통해 입력되는 컨텐트(예를 들어, 동영상)를 표시할 수 있다. 디스플레이(230)는 프로세서(220)의 제어에 의해 메모리(210)에 저장된 영상을 출력할 수 있다.
오디오 처리부(115)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(115)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.
오디오 출력부(125)는 프로세서(220)의 제어에 의해 튜너부(140)를 통해 수신된 방송 신호에 포함된 오디오, 통신부(150) 또는 입/출력부(170)를 통해 입력되는 오디오, 메모리(210)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(125)는 스피커(126), 헤드폰 출력 단자(127) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(128) 중 적어도 하나를 포함할 수 있다.
사용자 입력부(190)는, 사용자가 영상 표시 장치(300)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(190)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드, 조그 휠, 조그 스위치 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
또한, 사용자 입력부(190)는, 전술한 제어 장치(101)의 구성요소일 수 있고, 영상 표시 장치(300)의 구성요소일 수 있다.
일 실시예에 따른 사용자 입력부(190)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 입력을 수신할 수 있다. 예를 들어, 사용자 입력부(190)가 키 패드 또는 돔 스위치로 구성되는 경우, 인증 이미지 세트의 각 이미지에 대응하는 숫자 키를 클릭(click)하거나 누르는 입력, 또는 방향 키를 클릭하거나 누르는 입력을 통해 하나 이상의 이미지를 선택할 수 있으나, 전술한 예에 한정되지 않는다.
한편, 도 2 및 도 5에 도시된 영상 표시 장치(100a 및 300)의 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 영상 표시 장치(100a 및 300)의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 예를 들어, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분화되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.
도 6은 일 실시예에 따라 이미지로부터 객체를 인식하는 방법을 학습하는 뉴럴 네트워크(neural network)의 예시를 나타내는 도면이다.
도 6을 참조하면, 뉴럴 네트워크(400)는, 복수의 학습 이미지(411 내지 416)을 입력 값으로 하여 이미지로부터 객체를 인식하는 방법을 학습할 수 있다. 예를 들어, 뉴럴 네트워크(400)는, 복수의 학습 이미지(411 내지 416)로부터 얼굴을 인식하는 방법을 학습할 수 있다. 이때, 복수의 학습 이미지(411 내지416)는, 사용자가 영상 표시 장치(100)를 통해 시청하는 복수의 동영상 컨텐트(예를 들어, 드라마, 스포츠 경기, 영화 등)로부터 추출된 이미지, 화보 이미지, 광고 이미지 등을 포함할 수 있으나, 이에 한정되지 않는다.
하나 이상의 뉴럴 네트워크는, 복수의 학습 이미지가 입력된 것에 응답하여, 복수의 학습 이미지에 포함된 하나 이상의 객체를 인식하는 방법을 학습할 수 있으며, 학습된 결과에 기초하여 학습 모델(420)이 생성될 수 있다.
여기서, 학습 모델(420)은 뉴럴 네트워크를 통하여 목적하는 결과를 획득될 수 있도록 하는, 학습된 뉴럴 네트워크 자체가 될 수 있다. 구체적으로, 객체 인식을 위하여, 복수의 학습 이미지를 이용하여 뉴럴 네트워크를 훈련(training)하여, 뉴럴 네트워크를 형성하는 복수개의 노드(node)들 각각에 적용되는 복수개의 가중치(weight)의 값을 설정할 수 있다. 여기서, 가중치는 뉴럴 트워크의 각 노드들 간의 연결 강도를 의미할 수 있다. 가중치 값은 반복적인 학습을 통하여 최적화될 수 있으며, 결과의 정확도가 소정의 신뢰도를 만족할 때까지 반복적으로 수정될 수 있다. 학습 모델(420)는 최종적으로 설정된 가중치 값들에 의해서 형성된 뉴럴 네트워크가 될 수 있다.
일부 실시예에 따르면, 하나 이상의 뉴럴 네트워크(400)를 이용하여 이미지로부터 객체를 인식하는 방법을 학습하는 동작은, 사전에 수행될 수 있다. 또한, 복수의 학습 이미지 중 일부가 변경됨에 따라, 학습 모델(420)이 업데이트될 수 있다. 예를 들어, 사용자가 영상 표시 장치(100)를 통해 컨텐트를 시청함에 따라, 시청한 컨텐트로부터 추출된 이미지가 학습 이미지로 사용될 수 있다. 또한, 소정의 주기(예를 들어, 24시간) 단위로, 사용자가 시청한 컨텐트로부터 하나 이상의 이미지가 추출될 수 있으며, 추출된 이미지가 학습 이미지로 사용할 수 있다. 새로운 학습 이미지가 추가되면, 하나 이상의 뉴럴 네트워크(400)는 이미지로부터 객체를 인식하는 방법을 다시 학습할 수 있으며, 이에 따라 학습 모델이 업데이트될 수 있다.
또한, 하나 이상의 뉴럴 네트워크(400)를 이용하여 이미지로부터 객체를 인식하는 방법을 학습하는 동작은, 영상 표시 장치(100)에서 수행될 수 있으며, 실시예에 따라 외부 서버에서 수행될 수 있다. 예를 들어, 하나 이상의 뉴럴 네트워크(400)를 이용하여 이미지로부터 객체를 인식하는 방법을 학습하는 동작은, 상대적으로 복잡한 연산량을 필요로 할 수 있다. 이에 따라, 외부 서버가 학습하는 동작을 수행하고, 영상 표시 장치(100)는 외부 서버로부터 학습 모델(420)을 수신함으로써, 영상 표시 장치(100)에서 수행되어야 하는 연산량을 줄일 수 있다. 영상 표시 장치(100)는, 학습 모델(420)을 외부 서버로부터 사전에 수신하여 메모리에 저장하고, 저장된 학습 모델(420)을 이용하여 이미지로부터 하나 이상의 객체를 인식할 수 있다.
또한, 본 개시의 다른 실시예에서, 영상 표시 장치(202)는 뉴럴 네트워크(400)를 통한 학습 동작을 수행하는 별도의 전용 프로세서인 뉴럴 네트워크 프로세서(260)를 포함할 수 있다. 그리고, 뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크(400)를 통한 학습을 수행하여, 학습 모델(420)을 결정할 수 있으며, 결정된 학슥 모델(420)을 통하여 객체 인식을 수행할 수 있을 것이다.
뉴럴 네트워크(400)를 통한 연산을 수행하는 동작은 이하에서 도 23을 참조하여 추가적으로 설명하도록 한다.
이하에서는, 본 개시의 실시예들에 있어서, 도 3 에 도시된 영상 표시 장치(201)를 참조하여, 본 개시의 실시예에서 수행되는 구체적인 동작들을 설명하도록 한다.
도 7은 일 실시예에 따라 사용자 인증에 사용되는 데이터베이스를 생성하는 과정을 나타내는 흐름도이다. 또한, 도 7에 도시된 서버(500)는 뉴럴 네트워크를 통하여 객체 인식을 수행할 수 있는 서버가 될 수 있다. 또한, 서버(500)는 영상 표시 장치(201)와 별도로 형성될 수 있으며, 영상 표시 장치(201)의 통신부(240)를 통하여 연결될 수 있다.
도 7을 참조하면, S510 단계에서, 서버(500)는, 사용자가 어제 시청한 제2 컨텐트로부터 하나 이상의 단위 이미지를 추출할 수 있다. 여기서, 단위 이미지는 프레임(frame), 씬(scene) 또는 GOP(Group Of Picture) 등이 될 수 있다. 이하에서는, 설명의 편의 상, 단위 이미지가 프레임인 경우를 예로 들어 설명하도록 하겠다. 제2 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 컨텐트일 수 있으며, 사용자가 어제 시청한 컨텐트에 한정되지 않는다. 동영상 컨텐트는 복수의 프레임을 포함하며, 영상 표시 장치(201)는 거짓 이미지를 수집하기 위하여, 제2 컨텐트로부터 하나 이상의 프레임을 추출할 수 있다. 이때, 영상 표시 장치(201)는, 기설정된 시간 단위로 제2 컨텐트의 프레임을 캡쳐할 수 있으나, 이에 한정되지 않는다.
S511 단계에서, 서버(500)는, 제2 컨텐트로부터 추출된 프레임을 분석하여, 학습 이미지를 생성할 수 있다. 예를 들어, 영상 표시 장치(201)는, 프레임을 분석하여, 프레임에 사람의 얼굴이 등장하는지 여부를 판단할 수 있고, 사람의 얼굴이 등장하는 프레임에 기초하여 학습 이미지를 생성할 수 있다. 생성된 학습 이미지는, 제2 컨텐트의 특정 프레임을 캡쳐한 이미지일 수도 있으며, 제2 컨텐트의 특정 프레임을 캡쳐한 이미지를 소정의 기준에 따라 편집한 이미지일 수 있으나, 이에 한정되지 않는다.
또한, S520 단계에서, 일 실시예에 따른 서버(500)는, 외부로부터 복수의 학습 이미지를 획득할 수 있다. 예를 들어, 복수의 학습 이미지는, 서버(500)에 기저장된 이미지, 외부 장치로부터 수신된 이미지일 수 있으나, 이에 한정되지 않는다. 서버(500)는, 복수의 학습 이미지를 외부 장치로부터 미리 수신할 수 있으며, 외부 장치로부터 기설정된 주기마다 새로운 학습 이미지를 수신함으로써 복수의 학습 이미지를 갱신할 수 있다.
S521 단계에서, 서버(500)는, 하나 이상의 뉴럴 네트워크를 이용하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있다. 하나 이상의 뉴럴 네트워크가 획득한 복수의 학습 이미지 및 제2 컨텐트에 기초하여 생성된 학습 이미지가 입력된 것에 응답하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있으며, 이미지로부터 객체를 인식하는 방법을 학습한 결과에 기초하여, 학습 모델이 생성될 수 있다. 서버(500)는, 생성된 학습 모델을 영상 표시 장치(201)에 전송하고, 영상 표시 장치(201)는 수신된 학습 모델을 이용하여 데이터베이스에 저장할 참 이미지를 수집할 수 있다.
S522 단계에서, 서버(500)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제2 컨텐트에 기초하여 생성된 학습 이미지 또는 복수의 학습 이미지로부터 하나 이상의 객체를 인식할 수 있고, 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 거짓 이미지로 저장할 수 있다. 예를 들어, 학습 모델이 사람의 얼굴을 인식하는 경우, 학습 모델은 인식된 얼굴이 누구의 얼굴인지 판단할 수 있다. 거짓 이미지는, 제2 컨텐트로부터 추출된 이미지(예를 들어, 제2 컨텐트의 프레임을 캡쳐한 이미지)로서, 제2 컨텐트에서 인식된 얼굴을 포함하는 이미지일 수 있다. 또한, 거짓 이미지는, 제2 컨텐트로부터 인식된 얼굴에 대응하는 사람의 광고 이미지, 화보 이미지 등일 수 있으나, 이에 한정되지 않는다.
S530 단계에서, 영상 표시 장치(201)는, 오늘 시청한 제1 컨텐트로부터 하나 이상의 프레임을 추출할 수 있다. 제1 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 내에 시청된 컨텐트(예를 들어, 6시간 내에 시청된 컨텐트)일 수 있으며, 사용자가 오늘 시청한 컨텐트에 한정되지 않는다. 또한, 제1 컨텐트는 가장 최근에 사용자가 시청한 컨텐트가 될 수 있다. 또한, 제1 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하는 경우 해당 컨텐트가 되며, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하지 않는 경우 가장 최근에 사용자가 시청한 컨텐트가 될 수 있을 것이다.
S531 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 추출된 프레임을 분석하여, 학습 이미지를 생성할 수 있다. 생성된 학습 이미지는, 제1 컨텐트의 특정 프레임을 캡쳐한 이미지일 수도 있으며, 제1 컨텐트의 특정 프레임을 캡쳐한 이미지를 소정의 기준에 따라 편집한 이미지일 수 있으나, 이에 한정되지 않는다.
S532 단계에서, 영상 표시 장치(201)는, 서버(500)로부터 수신된 학습 모델을 이용하여, 제1 컨텐트에 기초하여 생성된 학습 이미지로부터 하나 이상의 객체를 인식할 수 있다. 학습 모델은 기설정된 주기마다 서버(500)에서 업데이트될 수 있으며, 영상 표시 장치(201)는 업데이트된 학습 모델을 서버(500)로부터 수신할 수 있다.
S533 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 객체가 제1 컨텐트에 기설정된 횟수 이상 등장하는지 여부, 제1 컨텐트로부터 인식된 객체가 식별력이 있는지 여부 중 적어도 하나를 판단할 수 있다. 예를 들어, 제1 컨텐트로부터 인식된 객체가 가로등, 버스, 가로수 등과 같이 복수의 컨텐트에 빈번하게 등장하는 객체인 경우, 사용자는 해당 객체가 제1 컨텐트에 등장한 것인지 여부를 판단하기 어려울 수 있다. 따라서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체 중에서, 사용자가 제1 컨텐트에 등장한 객체임을 용이하게 판단할 수 있도록, 식별력이 있는 객체를 나타내는 이미지를 참 이미지로 저장할 수 있다. 예를 들어, 제1 컨텐트가 영화일 때, 영상 표시 장치(201)는, 제1 컨텐트에 등장하는 주인공들의 얼굴을 인식할 수 있으나, 이에 한정되지 않는다.
S534 단계에서, 영상 표시 장치(201)는, 복수의 참 이미지와 복수의 거짓 이미지를 데이터베이스에 저장할 수 있다. 영상 표시 장치(201)는, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지를 사용자 인증을 수행하는데 사용할 수 있다. 예를 들어, 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다. 그리고, 영상 표시 장치(201)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.
도 8은 일 실시예에 따른 영상 표시 장치가 사용자 인증에 사용되는 참 이미지와 거짓 이미지를 수집하는 예시를 나타내는 도면이다.
일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간(예를 들어, 3시간, 6시간 등) 이내에 시청된 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.
예를 들어, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 3시간 이내에 시청된 제1 컨텐트로부터 하나 이상의 이미지를 추출할 수 있다. 영상 표시 장치(201)는, 추출된 하나 이상의 이미지로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다. 이때, 참 이미지는, 제1 컨텐트로부터 추출된 장면을 나타내는 이미지일 수 있으며, 다른 컨텐트로부터 추출된 이미지로서 해당 객체를 포함하는 이미지를 포함할 수 있으나, 이에 한정되지 않는다. 또한, 실시예에 따라, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날에 사용자가 시청한 제1 컨텐트로부터 하나 이상의 이미지를 추출할 수 있으나, 이에 한정되지 않는다.
도 8을 참조하면, 영상 표시 장치(201)는, 사용자 인증을 요청하는 입력이 수신된 날에 사용자가 시청한 예능 프로그램으로부터 하나 이상의 이미지(631, 632)를 추출할 수 있다. 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 추출된 이미지(631, 632) 로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(640)에 참 이미지로서 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 추출된 하나 이상의 이미지(631, 632)로부터 하나 이상의 얼굴을 인식할 수 있으며, 인식된 하나 이상의 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스(640)에 참 이미지로서 저장할 수 있으나, 이에 한정되지 않는다.
또한, 일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 거짓 이미지로 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 24시간 이전에 시청된 제2 컨텐트로부터 하나 이상의 이미지를 추출하고, 추출된 하나 이상의 이미지로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(620)에 거짓 이미지로 저장할 수 있다. 또는, 실시예에 따라, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날 이전에 시청된 제2 컨텐트로부터 하나 이상의 이미지를 추출할 수 있으나, 이에 한정되지 않는다.
예를 들어, 도 8을 참조하면, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날 이전에 시청된 드라마 A와 스포츠 경기로부터 각각 하나 이상의 이미지(601, 602, 611, 612)를 추출할 수 있다. 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 추출된 이미지(601, 602, 611, 612)로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(620)에 거짓 이미지로서 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 추출된 하나 이상의 이미지(601, 602, 611, 612)로부터 하나 이상의 얼굴을 인식할 수 있으며, 인식된 하나 이상의 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스(620)에 거짓 이미지로서 저장할 수 있으나, 이에 한정되지 않는다.
도 9 및 도 10은 일 실시예에 따른 영상 표시 장치가 참 이미지와 거짓 이미지를 수집하는 과정을 설명하기 위한 도면이다.
일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트에서 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 거짓 이미지로 저장할 수 있다.
예를 들어, 도 9를 참조하면, 영상 표시 장치(201)는, 사용자 인증 요청 입력이 수신된 날 이전에 시청된 제2 컨텐트로부터 하나 이상의 이미지(701, 702, 703, 704)를 추출할 수 있다. 이때, 제2 컨텐트는, 사용자 인증 요청 입력이 수신된 날 이전에 사용자가 시청한 적어도 하나 이상의 컨텐트를 포함할 수 있다. 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델(710)을 이용하여, 제2 컨텐트로부터 추출된 하나 이상의 이미지(701, 702, 703, 704)로부터 하나 이상의 객체를 인식할 수 있다. 이때, 인식되는 하나 이상의 객체는 사람의 얼굴을 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 영상 표시 장치(201)는, 제2 컨텐트로부터 추출된 하나 이상의 이미지(701, 702, 703, 704)로부터 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)를 인식할 수 있다. 영상 표시 장치(201)는, 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)를 나타내는 이미지들을 데이터베이스(730)에 거짓 이미지로 저장할 수 있다. 이때, 거짓 이미지는, 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)를 포함하는 이미지로서, 제2 컨텐트로부터 추출된 이미지 또는 다른 컨텐트로부터 추출된 이미지를 포함할 수 있다. 예를 들어, 거짓 이미지는, 사용자가 시청한 제2 컨텐트로부터 운동선수 A(721)가 등장한 장면을 추출한 이미지, 운동선수 A(721)가 등장한 다른 스포츠 경기 영상으로부터 추출된 이미지를 포함할 수 있다. 또한, 실시예에 따라, 거짓 이미지는, 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)가 등장하는 광고 이미지, 화보 이미지 등을 포함할 수 있으나, 이에 한정되지 않는다.
일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 내에 시청된 제1 컨텐트에서 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.
예를 들어, 도 10을 참조하면, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날에 사용자가 시청한 제1 컨텐트로부터 하나 이상의 이미지(741,742, 743)를 추출할 수 있다. 그리고, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델(750)을 이용하여, 제1 컨텐트로부터 추출된 하나 이상의 이미지(741, 742, 743)로부터 하나 이상의 객체를 인식할 수 있다. 예를 들어, 영상 표시 장치(201)는, 제1 컨텐트로부터 추출된 하나 이상의 이미지(741, 742, 743)로부터 가수 F(761), 가수 G(762), 가수 H (763), 가수 I(764), 및 가수 J(765)를 인식할 수 있다.
일 실시예에 따른 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체 중에서, 제1 컨텐트에 기설정된 횟수 이상 등장하는 객체를 나타내는 이미지를 데이터베이스(780)에 참 이미지로 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 제1 컨텐트를 구성하는 복수의 프레임으로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체 중에서, 복수의 프레임에 기설정된 횟수 이상 포함된 객체를 나타내는 데이터베이스(780)에 참 이미지로서 저장할 수 있다.
사용자가 시청한 제1 컨텐트가 영화인 경우, 사용자는 영화에 등장하는 모든 인물들을 식별하기 어렵다. 예를 들어, 사용자는, 시청한 영화의 한 장면에만 등장하는 인물을 식별하기 어려울 수 있다. 따라서, 영상 표시 장치(201)는, 사용자가 시청한 영화로부터 인식된 인물들 중에서, 해당 영화에 기설정된 횟수 이상 등장한 인물을 나타내는 이미지를 데이터베이스(780)에 참 이미지로서 저장할 수 있다. 이에 따라, 영상 표시 장치(201)는, 사용자가 시청한 영화에서 상대적으로 비중이 높은 인물을 나타내는 이미지를 참 이미지로 저장함으로써, 사용자 인증 결과에 대한 신뢰도를 높일 수 있다.
도 11 및 도 12는 일 실시예에 따른 영상 표시 장치(201)가 인증 이미지 세트를 이용하여 사용자 인증을 수행하는 예시를 나타내는 도면이다.
도 11을 참조하면, 일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지(801, 802, 803)와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다.
예를 들어, 사용자가 제어 장치(101)의 숫자 키를 이용하여 인증 이미지 세트에서 하나 이상의 이미지를 용이하게 선택할 수 있도록, 영상 표시 장치(201)는 9개의 이미지를 포함하는 인증 이미지 세트를 디스플레이할 수 있다. 인증 이미지 세트는, 도 11에 도시된 바와 같이, 그리드(grid) 형태로 디스플레이될 수 있으나, 이에 한정되지 않는다.
일 실시예에 따른 영상 표시 장치(201)는, 인증 이미지 세트를 구성하는 각 이미지를 숫자에 매핑함으로써, 사용자가 제어 장치(101)의 숫자키를 선택하여 인증 이미지 세트에서 하나 이상의 이미지를 용이하게 선택하도록 할 수 있다. 예를 들어, 도 11에 도시된 바와 같이, 인증 이미지 세트가 9개의 이미지를 포함하는 경우, 영상 표시 장치(201)는 이미지가 디스플레이된 위치에 따라 각 이미지를 숫자 1 내지 9에 매핑할 수 있다.
일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 사용자에게 참 이미지를 모두 선택하도록 하는 메시지(810)와 함께 인증 이미지 세트를 디스플레이할 수 있다. 예를 들어, 도 11에 도시된 바와 같이 오늘 시청한 프로그램에 등장한 인물들을 모두 고르세요라는 메시지(810)와 함께 인증 이미지 세트가 출력되면, 사용자는 오늘 시청한 컨텐트에 등장한 인물들을 나타내는 이미지(801, 802, 803)를 모두 선택함으로써, 사용자 인증에 성공할 수 있다.
일 실시예에 따른 영상 표시 장치(201)는, 디스플레이된 인증 이미지 세트로부터 참 이미지(801, 802, 803)를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인증받은 사용자(authorized user)로 판단할 수 있다.
그러나, 사용자가 인증 이미지 세트에서 참 이미지(801, 802, 803)를 모두 선택하지 못한 경우, 영상 표시 장치(201)는 해당 사용자를 인증받지 못한 사용자(unauthorized user)로 판단할 수 있다. 예를 들어, 도 12를 참조하면, 사용자가 1개의 참 이미지(802)와 2개의 거짓 이미지(804, 805)를 선택한 경우, 영상 표시 장치(201)는 사용자 인증이 실패한 것으로 인식하고, 새로운 인증 이미지 세트를 다시 디스플레이할 수 있다. 또한, 기설정된 횟수 이상 사용자 인증에 실패하는 경우, 영상 표시 장치(201)는 해당 사용자를 인증받지 못한 사용자로 판단하고, 사용자 인증이 실패하였음을 나타내는 메시지를 출력할 수 있다.
도 13은 일 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다. 도 13에 도시된 영상 표시 장치의 동작 방법(900)은 도 1 내지 도 12를 참조하여 설명한 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)에서 수행되는 동작들을 포함할 수 있다. 따라서, 영상 표시 장치의 동작 방법(900)의 상세 동작들에 있어서, 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)에서 수행되는 동작들과 중복되는 상세 설명은 생략한다.
설명의 편의 상, 이하에서는 영상 표시 장치(201)를 참조하여 영상 표시 장치의 동작 방법(900)을 설명하도록 하겠다.
S900 단계에서, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 영상 표시 장치(201)의 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식한다. 구체적으로, S900 단계의 동작을 프로세서(220)의 제어에 따라서 수행될 수 있다. 또한, S900 단계에서 객체 인식 및/또는 객체 인식을 위한 학습 모델 획득 동작은 도 17 내지 도 18을 참조하여 설명한 서버(2000)에서 수행될 수도 있다.
예를 들어, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트에 등장한 하나 이상의 얼굴을 인식할 수 있으며, 실시예에 따라, 프로세서(220)는, 제1 컨텐트에 등장한 하나 이상의 물건(예를 들어, 자동차, 가방, 전자 장치 등)을 인식할 수 있다. 제1 컨텐트는, 사용자가 시청한 복수의 컨텐트 중에서, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트를 의미할 수 있다.
S910 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장한다.
영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내(예를 들어, 3시간 이내)에 시청된 컨텐트로부터 인식된 객체를 나타내는 이미지를 참 이미지로 저장할 수 있다. 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는, 제1 컨텐트로부터 추출된 이미지를 포함할 수 있으며, 제1 컨텐트로부터 인식된 객체가 등장한 다른 컨텐트로부터 추출된 이미지를 포함할 수 있다. 예를 들어, 영상 표시 장치(201)는, 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다. 이때, 영상 표시 장치(201)는, 이미지에서 인식된 객체에 관한 정보를 함께 저장할 수 있다. 예를 들어, 제1 컨텐트로부터 인식된 얼굴이 영화배우 A일 때, 영상 표시 장치(201)는 영화배우 A를 포함하는 이미지를 참 이미지로 저장하면서, 영화배우 A에 관한 이미지라는 것을 나타내는 정보를 함께 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 영화배우 A임을 나타내는 정보를 이미지의 태그 정보로 저장할 수 있으나, 이에 한정되지 않는다.
S920 단계에서, 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력한다.
인증 이미지 세트에 포함되는 이미지 개수는 실시예에 따라 달라질 수 있다. 예를 들어, 영상 표시 장치(201)는, 사용자가 제어 장치(101)의 숫자 버튼(0 내지 9)을 이용하여 이미지를 선택하기 용이하도록, 9개의 이미지를 3x3 매트릭스 형태로 디스플레이할 수 있으나, 이에 한정되지 않는다.
영상 표시 장치(201)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기(예를 들어, 하루에 한번)마다 갱신할 수 있다. 데이터베이스에 저장된 거짓 이미지가 고정되어 있을 경우, 허가를 받지 않은 외부 사용자에 의해 제어되는 전자 장치가 고정된 거짓 이미지를 학습할 수 있다. 이에 따라, 영상 표시 장치(201)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기마다 갱신함으로써, 적법한 권한을 가진 사용자를 보다 효과적으로 식별하도록 할 수 있다.
S930 단계에서, 영상 표시 장치(201)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.
일 실시예에 따른 영상 표시 장치(201)는, 인증 이미지 세트에서 하나 이상의 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인가된 사용자로 판단할 수 있다.
또한, 사용자가 인증 이미지 세트에서 하나 이상의 참 이미지를 모두 선택하지 못하면, 영상 표시 장치(201)는 사용자 인증이 실패한 것으로 인식하고, 새로운 인증 이미지 세트를 디스플레이 할 수 있다. 실시예에 따라, 사용자가 인증 이미지 세트에 포함된 복수의 참 이미지에서 기설정된 수 이상 선택할 때, 영상 표시 장치(201)가 해당 사용자를 인가된 사용자로 판단할 수 있다. 예를 들어, 인증 이미지 세트에서 4개의 참 이미지가 포함된 경우, 영상 표시 장치(201)는 사용자가 참 이미지를 3개 이상 선택할 때, 해당 사용자를 인가된 사용자로 판단할 수 있으나, 이에 한정되지 않는다.
도 14는 일 실시예에 따른 프로세서의 구성을 나타내는 블록도이다.
도 14를 참조하면, 일 실시예에 따른 프로세서(220)는 데이터 학습부(1010) 및 데이터 인식부(1020)를 포함할 수 있다.
데이터 학습부(1010)는 이미지로부터 객체를 인식하기 위한 기준을 학습할 수 있다. 데이터 학습부(1010)는 이미지로부터 객체를 판단하기 위해 이미지의 어떤 정보를 이용하는지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1010)는 이미지의 정보를 이용하여 객체를 어떻게 인식하는지에 관한 기준을 학습할 수 있다. 데이터 학습부(1010)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 사용자의 상태를 판단하기 위한 기준을 학습할 수 있다.
데이터 인식부(1020)는 이미지로부터 하나 이상의 객체를 인식하고, 인식된 결과를 출력할 수 있다. 데이터 인식부(1020)는 학습된 데이터 인식 모델을 이용하여, 소정의 이미지로부터 하나 이상의 객체를 인식할 수 있다. 데이터 인식부(1020)는 학습에 의한 기 설정된 기준에 따라 이미지를 데이터를 획득하고, 획득된 컨텍스트 데이터를 입력 값으로 하여 데이터 인식 모델을 이용할 수 있다. 또한, 데이터 인식부(1020)는 데이터 인식 모델을 이용함으로써, 이미지로부터 하나 이상의 객체를 인식할 수 있다. 또한, 획득된 이미지를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 업데이트하는데 이용될 수 있다.
데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
이 경우, 데이터 학습부(1010) 및 데이터 인식부(1020)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1010) 및 데이터 인식부(1020) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1010) 및 데이터 인식부(1020)는 유선 또는 무선으로 통하여, 데이터 학습부(1010)가 구축한 모델 정보를 데이터 인식부(1020)로 제공할 수도 있고, 데이터 인식부(1020)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1010)로 제공될 수도 있다.
한편, 데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 15는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 15를 참조하면, 일 실시예에 따른 데이터 학습부(1010)는 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015)를 포함할 수 있다.
데이터 획득부(1011)는 이미지로부터 객체를 인식하기 위한 학습을 위해 필요한 데이터를 획득할 수 있다. 데이터 획득부(1011)는 소셜 네트워크 서버(social network server), 클라우드 서버(cloud server) 또는 콘텐트 제공 서버 등의 외부 서버로부터 데이터를 획득할 수 있다.
데이터 획득부(1011)는, 이미지로부터 객체를 인식하기 위한 학습을 위해 필요한 이미지를 획득할 수 있다. 예를 들어, 데이터 획득부(1011)는, 네트워크를 통해 영상 표시 장치(201)에 연결된 적어도 하나의 외부 장치로부터 이미지를 획득할 수 있으며, 사용자가 시청한 컨텐트로부터 하나 이상의 장면을 추출하여 이미지를 획득할 있다.
전처리부(1012)는 이미지로부터 하나 이상의 객체를 인식하기 위한 학습에 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1012)는 후술할 모델 학습부(1014)가 이미지로부터 하나 이상의 객체를 인식하는 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. 예를 들어, 전처리부(1012)는, 획득한 이미지를 분석하여, 이미지의 속성 정보를 검출할 수 있으나, 이에 한정되지 않는다.
학습 데이터 선택부(1013)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1014)에 제공될 수 있다. 학습 데이터 선택부(1013)는 이미지로부터 객체를 인식하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1013)는 후술할 모델 학습부(1014)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
모델 학습부(1014)는, 이미지로부터 객체를 인식하기 위하여, 어떤 학습 데이터를 이용해야 하는지에 대한 기준을 학습할 수 있다. 예를 들어, 모델 학습부(1014)는, 이미지로부터 객체를 인식하는데 이용되는 이미지 속성들의 종류, 개수, 또는 수준 등을 학습할 수 있다.
또한, 모델 학습부(1014)는, 이미지로부터 하나 이상의 객체를 식별하기 위해 이용되는 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 인식 모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델일 수 있다.
데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 모델 학습부(1014)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(1014)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.
또한, 모델 학습부(1014)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1014)는, 예를 들어, 별다른 지도 없이 사용자의 상태를 판단하기 위해 필요한 데이터의 종류를 스스로 학습함으로써, 사용자의 상태를 판단하기 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1014)는, 예를 들어, 학습에 따라 사용자의 상태를 판단한 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.
또한, 데이터 인식 모델이 학습되면, 모델 학습부(1014)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1014)는 학습된 데이터 인식 모델을 데이터 인식부(1020)를 포함하는 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1014)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1020)를 포함하는 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1014)는 학습된 데이터 인식 모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(1015)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1014)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다.
예를 들어, 모델 평가부(1015)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1015)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(1015)는 각각의 학습된 데이터 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1015)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.
한편, 데이터 학습부(1010) 내의 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 16은 일 실시예에 따른 데이터 인식부의 구성을 나타내는 블록도이다.
도 16을 참조하면, 일부 실시예에 따른 데이터 인식부(1020)는 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025)를 포함할 수 있다.
데이터 획득부(1021)는 이미지로부터 객체를 인식하는데 필요한 데이터를 획득할 수 있으며, 전처리부(1022)는 이미지로부터 객체를 인식하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1022)는 후술할 인식 결과 제공부(1024)가 이미지로부터 객체를 인식하기 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
인식 데이터 선택부(1023)는 전처리된 데이터 중에서 이미지로부터 객체를 인식하기 위해 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1024)에게 제공될 수 있다. 인식 데이터 선택부(1023)는 이미지로부터 객체를 인식하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다.
인식 결과 제공부(1024)는 선택된 데이터를 데이터 인식 모델에 적용하여 이미지로부터 객체를 인식할 수 있다. 인식 결과 제공부(1024)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1024)는 인식 데이터 선택부(1023)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다.
인식 결과 제공부(1024)는, 이미지로부터 인식된 하나 이상의 객체를 나타내는 식별 정보를 제공할 수 있다. 예를 들어, 인식 결과 제공부(1024)는, 식별된 객체가 포함되는 카테고리, 식별된 객체가 사람인 경우 식별된 사람의 이름 등에 관한 정보를 제공할 수 있다.
모델 갱신부(1025)는 인식 결과 제공부(1024)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1025)는 인식 결과 제공부(1024)에 의해 제공되는 인식 결과를 모델 학습부(1014)에게 제공함으로써, 모델 학습부(1014)가 데이터 인식 모델을 갱신하도록 할 수 있다.
한편, 데이터 인식부(1020) 내의 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 17은 일 실시예에 따른 서버의 구성을 나타내는 블록도이다.
도 17을 참조하면, 일 실시예에 따른 서버(2000)는, DB(2100), 통신부(2200), 및 프로세서(2300)를 포함할 수 있다. 도 17에 도시된 서버(2000)는 본 개시의 실시예에 따른 영상 표시 장치(예를 들어, 201)와 연동하여 동작할 수 있으며, 객체 인식, 참 이미지 생성, 및 거짓 이미지 생성 동작 중 적어도 하나를 수행할 수 있다.
DB(2100)는 사용자가 시청한 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 저장할 수 있다.
통신부(2200)는 영상 표시 장치(201)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다.
프로세서(2300)는 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 서버(2000)의 DB(2100)에 저장된 프로그램들을 실행함으로써, DB(2100) 및 통신부(2200) 등을 전반적으로 제어할 수 있다. 프로세서(2300)는 DB(2100)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 16에서의 영상 표시 장치(100)의 동작의 일부를 수행할 수 있다.
프로세서(2300)는, 도 1 내지 도 16에서 영상 표시 장치(201)가 수행하는 기능인, 이미지로부터 하나 이상의 객체를 인식하는 기능을 수행할 수 있다.
도 18은 일 실시예에 따른 영상 표시 장치 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 18을 참조하면, 서버(2000)는, 이미지로부터 하나 이상의 객체를 인식하기 위한 기준을 학습할 수 있다. 서버(2000)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 데이터 인식 모델에 적용함으로써, 이미지로부터 하나 이상의 객체를 인식하기 위한 기준을 학습할 수 있다.
이 경우, 서버(2000)의 모델 학습부(2104)는 도 15에 도시된 데이터 학습부(1010)의 기능을 수행할 수 있다. 서버(2000)의 모델 학습부(2104)는 이미지로부터 객체를 인식하기 위하여 어떤 데이터를 이용할 것인지에 관한 기준을 학습할 수 있다. 또한, 서버(2000)의 모델 학습부(2104)는 데이터를 이용하여 이미지로부터 객체를 어떻게 인식할 것인지에 관한 기준을 학습할 수 있다. 모델 학습부(2104)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 데이터 인식 모델에 적용함으로써, 이미지로부터 객체를 인식하기 위한 기준을 학습할 수 있다.
또한, 영상 표시 장치(100)의 인식 결과 제공부(1024)는, 인식 데이터 선택부(1023)에 의해 선택된 데이터를 서버(2000)에 의해 생성된 데이터 인식 모델에 적용하여, 이미지로부터 객체를 인식할 수 있다. 예를 들어, 인식 결과 제공부(1024)는, 인식 데이터 선택부(1023)에 의해 선택된 데이터를 서버(2000)에게 전송하고, 서버(2000)가 인식 데이터 선택부(1023)에 의해 선택된 데이터를 인식 모델에 적용하여 이미지로부터 객체를 인식할 것을 요청할 수 있다.
또는, 영상 표시 장치(100)의 인식 결과 제공부(1024)는 서버(2000)에 의해 생성된 인식 모델을 서버(2000)로부터 수신하고, 수신된 인식 모델을 이용하여 이미지로부터 객체를 인식할 수 있다. 이 경우, 영상 표시 장치(100)의 인식 결과 제공부(1024)는, 인식 데이터 선택부(1023)에 의해 선택된 데이터를 서버(2000)로부터 수신된 데이터 인식 모델에 적용하여, 이미지로부터 객체를 인식할 수 있다.
또한, 영상 표시 장치(100) 및 서버(2000)는 데이터 인식 모델의 학습 및 데이터 인식을 위한 작업을 효과적으로 분배하여 수행할 수 있으며, 이를 통하여, 사용자의 의도에 부합하는 서비스를 제공하기 위하여 데이터 처리를 효율적으로 수행하고, 사용자의 프라이버시를 효과적으로 보호할 수 있다.
AI 기반의 사물 인터넷(IoT: Internet on Things)으로 연결되는 전자 기기들이 증가하는 현재에는, 카메라를 장착하고 장착된 카메라를 컴퓨터 비전(CV: Computer vision) 기반의 서비스를 제공할 수 있는 전자 기기들이 개발 및 보급되고 있다.
컴퓨터 비전(CV) 기반의 서비스를 제공할 수 있는 전자 기기(이하 'CV 기반 전자 기기')는 해킹 등에 악용될 수 있다. 예를 들어, CV 기반 전자 기기는 전술한 인증 이미지 세트를 촬영하고, 촬영된 인증 이미지 세트를 AI 기반의 인식 모델을 통하여 객체 인식을 수행하여 참 이미지에 해당하는 이미지들을 선택할 수 있다. 이러한 경우, 따라서, CV 기반 전자 기기가 악용되어, 인증 이미지 세트를 통한 인증을 CV 기반 전자 기기가 자체적으로 수행하는 경우가 발생할 수 있다. 그러한 경우, 영상 표시 장치(예를 들어, 201)의 적법한 사용자가 아님에도 불구하고 영상 표시 장치(201)는 적법한 사용자의 인증이 완료된 것으로 인식하여 CV 기반 전자 기기가 요청하는 동작을 수행하게 된다.
CV 기반 전자 기기 등과 같이, 적법한 사용자(사람)가 아닌 경우에, 전술한 예시와 같이 발생 가능한 문제점(구체적으로, AI 기반의 해킹)을 극복하여 영상 표시 장치(201)의 보안을 유지할 수 있도록 하는 방법을 개발할 필요가 있다.
이하에서는, 도 19 내지 도 23을 참조하여, 도 1 내지 도 18을 참조하여 설명한 본 개시의 일 또는 다른 실시예에서 보안 성능을 높이기 위해 수행되는 추가적인 동작들을 상세히 설명하도록 한다.
도 19는 다른 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다. 구체적으로, 도 19는 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)에서 수행되는 동작들을 포함하는 흐름도이다. 또한, 도 19는 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)를 통하여 수행될 수 있는 본 개시의 다른 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도를 나타낸다.
또한, 도 19에 도시된 영상 표시 장치의 동작 방법(1500)에 포함되는 객체 인식 단계(S1510), 참 이미지 저장 단계(S1520), 및 사용자 인증 수행 단계(S1560)는 각각 도 13에 도시된 영상 표시 장치의 동작 방법(900)에 포함되는 S900, S910 및 S930 단계에 동일 대응될 수 있다. 또한, 영상 표시 장치의 동작 방법(1500)에 포함되는 인증 이미지 세트의 출력 단계(S1525)는 영상 표시 장치의 동작 방법(900)에 포함되는 인증 이미지 세트의 출력 단계(S920)에 대응될 수 있다.
따라서, 영상 표시 장치의 동작 방법(1500)을 설명하는데 있어서, 도 1 내지 도 18에서와 중복되는 상세 설명은 생략한다.
또한, 이하에서는 영상 표시 장치(201)를 참조하여 영상 표시 장치의 동작 방법(900)을 설명하도록 하겠다.
도 19를 참조하면, S1510 단계에서, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 통하여, 영상 표시 장치(201)의 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식한다.
S1520 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장한다.
S1525 단계에서, 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여 인증 이미지 세트를 생성 및 출력하는 동작을 수행할 수 있다. 구체적으로, S1525 단계의 동작은 프로세서(220)의 제어에 따라서 수행될 수 있다.
구체적으로, 영상 표시 장치(201)는 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 선택 및 획득할 수 있다(S1530). 이하에서는 설명의 편의 상, 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 각각 하나 이상의 제1 참 이미지 및 하나 이상의 제1 거짓 이미지라 칭하겠다. 즉, 데이터베이스에 저장된 복수의 참 이미지 중 하나 이상을 선택하여 하나 이상의 제1 참 이미지를 획득할 수 있다. 그리고, 데이터베이스에 저장된 복수의 참 이미지 중 하나 이상을 선택하여 하나 이상의 제1 거짓 이미지를 획득할 수 있다.
계속하여, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하고(S1540), 상기 변형에 근거하여 인증 이미지 세트를 출력한다(S1550).
구체적으로, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하여 하나 이상의 변형된 이미지를 생성한다(S1540). 구체적으로, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 대립적 사례(AE: adversarial example) 기법을 통하여 변형하여 하나 이상의 변형된 이미지를 생성할 수 있다.
여기서, 대립적 사례(AE) 기법은 자연적인 데이터에 소량의 변경을 가함으로써, 사람은 정상적으로 인식 가능하나 AI 를 포함하는 기계 학습 모델은 오인식하게 하는 방법이다. 구체적으로, 대립적 사례(AE) 기법으로는 CNN variation 등을 예로 들 수 있다. 구체적으로, 대립적 사례(AE) 기법은 S1530 단계에서 획득된 적어도 하나의 이미지 각각의 적어도 일부 영역에 잡음(noise) 신호를 추가하여 변형된 이미지를 생성할 수 있다.
계속하여, 'S1540 단계에서 획득된 하나 이상의 변형된 이미지', 및 'S1530 획득된 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 S1540 단계에서 변형되지 않은 나머지'를 포함하는 인증 이미지 세트를 생성 및 출력한다(S1550 단계).
S1560 단계에서, 영상 표시 장치(201)는, S1550 단계에서 출력되는 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.
구체적으로, 하나의 제1 참 이미지를 대립적 사례 기법을 통하여 변형하여 하나의 변형된 이미지를 생성한 경우를 예로 들자. 이 경우, AI 를 포함하는 기계 학습 모델(또는, 'AI 기반의 인식 모델'), 예를 들어, 뉴럴 네트워크를 이용한 모델에서 변형된 이미지에 포함되는 객체를 인식할 경우, 뉴럴 네트워크를 이용한 모델은 객체 인식 결과 변형된 이미지를 거짓 이미지로 인식하게 된다. 그리고, 영상 표시 장치의 사용자인 사람은 변형된 이미지를 참 이미지로 인식하게 된다.
즉, 본 개시의 실시예에서 대립적 사례 기법을 통하여 제1 참 이미지를 변형할 경우, 사람은 변형된 제1 참 이미지를 여전히 참 이미지로 인식하나, AI 를 포함하는 기계 학습 모델은 변형된 제1 참 이미지를 참 이미지가 아닌 거짓 이미지로 인식하게 된다.
또한, 본 개시의 실시예에서 대립적 사례 기법을 통하여 제1 거짓 이미지를 변형할 경우, 사람은 변형된 제1 거짓 이미지를 여전히 거짓 이미지로 인식하나, AI 를 포함하는 기계 학습 모델은 변형된 제1 거짓 이미지를 거짓 이미지가 아닌 참 이미지로 인식할 수 있다.
즉, S1540 단계에서는, 대립적 사례 기법을 이용하여, 사람은 변형 전과 변형 후의 이미지에 포함되는 객체를 모두 동일한 객체로 인식하나, AI 기반의 인식 모델은 변형 전과 변형 후의 이미지에 포함되는 객체를 서로 다른 객체로 인식하도록, 이미지, 구체적으로, 이미지 내에 포함되는 객체를 변형할 수 있다.
도 11에서 도시된 인증 이미지 세트에서와 같이, S1530 단계에서 3개의 참 이미지를 선택하고 5개의 거짓 이미지를 선택한 경우를 예로 들자. 즉, 인증 이미지 세트에 포함되는 제1 참 이미지는 3개이고 제1 거짓 이미지는 5가 된다. 도 11 에 도시된 실시예에서, 사용자 인증이 성공하려면, 3개의 참 이미지들(801, 802, 803)이 선택되어야만 한다.
S1530 단계에서, 선택된 3개의 제1 참 이미지들(801, 802, 803)와 5개의 제1 거짓 이미지들 중에서, 하나의 제1 참 이미지(예를 들어, 801)을 대립적 사례 기법을 통하여 변형하였다 하자. 그러면, 사용자인 사람은 여전히 변형된 제1 참 이미지(801)을 참 이미지로 인식한다. 그에 따라서, 사용자는 출력된 인증 이미지 세트에서 참 이미지로 3 개의 참 이미지(801, 802, 803)를 선택할 수 있다. 그러나, AI 를 포함하는 기계 학습 모델을 통하여 객체 인식을 수행하면, 변형된 제1 참 이미지(801)는 거짓 이미지로 인식된다. 즉, CV 기반 전자 기기가 인증 이미지 세트를 촬영하고 촬영된 인증 이미지를 객체 인식할 경우, CV 기반 전자 기기는 변형된 제1 참 이미지(801)을 참 이미지가 아닌 거짓 이미지로 인식하게 된다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트에서 2개의 참 이미지(802, 803)를 선택할 수 있다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트를 통한 인증을 완료할 수 없게 된다.
또 다른 예로, S1530 단계에서, 선택된 3개의 제1 참 이미지들(801, 802, 803)와 5개의 제1 거짓 이미지들 중에서, 하나의 제1 거짓 이미지(예를 들어, 805)을 대립적 사례 기법을 통하여 변형하였다 하자. 그러면, 사용자인 사람은 여전히 변형된 제1 거짓 이미지(805)을 거짓 이미지로 인식한다. 그에 따라서, 사용자는 출력된 인증 이미지 세트에서 참 이미지로 3 개의 참 이미지(801, 802, 803)를 선택할 수 있다. 그러나, AI 를 포함하는 기계 학습 모델을 통하여 객체 인식을 수행하면, 변형된 제1 거짓 이미지(805)는 참 이미지로 인식된다. 즉, CV 기반 전자 기기가 인증 이미지 세트를 촬영하고 촬영된 인증 이미지를 객체 인식할 경우, CV 기반 전자 기기는 변형된 제1 거짓 이미지(805)는 참 이미지로 인식하게 된다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트에서 4개의 참 이미지(801, 802, 803, 805)를 선택할 수 있다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트를 통한 인증을 완료할 수 없게 된다.
도 20은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 일 도면이다. 도16에 도시된 흐름도에 있어서, 도 19에 도시된 구성과 동일한 구성은 동일한 도면기호를 이용하여 도시하였다. 구체적으로, 도 20의 S1640 단계는 도 19의 S1540 단계에 대응될 수 있다. 또한, S1640 단계의 동작은 프로세서(220)의 제어에 따라서 수행될 수 있다.
도 20을 참조하면, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하여 하나 이상의 변형된 이미지를 생성한다(S1640).
예를 들어, S1530 단계에서 획득된 하나 이상의 제1 참 이미지 중에서 선택된 하나 이상의 참 이미지를 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 제2 참 이미지를 생성할 수 있다. 이 경우, 제2 참 이미지를 뉴럴 네트워크를 통하여 객체 인식을 수행하는 경우(즉, AI 기반의 객체 인식을 수행하는 경우) 객체 인식의 결과는 사람의 판단과 달라지게 된다. 그리고, 하나 이상의 제2 참 이미지, 하나 이상의 제1 참 이미지 중에서 상기 선택된 하나 이상의 참 이미지(구체적으로, 상기 하나 이상의 제2 참 이미지에 대응되는 하나 이상의 이미지)를 제외한 나머지, 및 상기 하나 이상의 제1 거짓 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다.
또 다른 예를 들어, S1530 단계에서 획득된 하나 이상의 제1 거짓 이미지 중에서 선택된 하나 이상의 거짓 이미지를 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 제2 거짓 이미지를 생성할 수 있다. 이 경우, 제2 거짓 이미지를 뉴럴 네트워크를 통하여 객체 인식을 수행하는 경우(즉, AI 기반의 객체 인식을 수행하는 경우) 객체 인식의 결과는 사람의 판단과 달라지게 된다. 그리고, 하나 이상의 제2 거짓 이미지, 하나 이상의 제2 참 이미지 중에서 상기 선택된 하나 이상의 거짓 이미지(구체적으로, 상기 하나 이상의 제2 거짓 이미지에 대응되는 하나 이상의 이미지)를 제외한 나머지, 및 상기 하나 이상의 제1 참 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다.
도 22는 본 개시의 다른 실시예에 따른 영상 표시 장치에 변형된 이미지를 생성하는 동작을 설명하기 위한 도면이다.
도 22를 참조하면, 변형 전의 이미지(1810)과 대립적 사례 기법을 통하여 변형된 이미지(1830)가 도시된다. 또한, 이미지(1810)에 포함되는 객체는 판다가 될 수 있다.
구체적으로, 이미지(1810)의 적어도 일부 영역에 잡음(noise) 신호(1820)를 추가하여 변형된 이미지(1830)를 생성할 수 있다. 구체적으로, 이미지(1810)에 포함되는 객체인 판다를 이미징한 적어도 일부의 영역에 잡음 신호(1820)를 추가하여 변형된 이미지(1830)을 생성할 수 있다.
잡음 신호(1820)은 AI 기반 인식 모델이 이미지(1810) 내에 포함되는 객체를 오인식 하도록, 소정 형태, 양, 및/또는 적용 영역을 가질 수 있다. 또한, 잡음 신호(1820)는 변형 전 이미지(1810)에 포함되는 객체를 AI 기반 인식 모델이 다르게 인식하도록 만드는 잡음 성분을 갖는 모든 잡음 신호가 될 수 있다. 예를 들어 AI 기반 인식 모델을 통한 객체 인식에 있어서, 이미지(1810)에 포함되는 객체가 '판다'로 인식되도록 하는 이미지(1810) 내의 적어도 일부 영역에서의 영상 성분을 약화시키고 이미지에 포함되는 객체가 '긴팔 원숭이'로 인식되도록 하는 이미지(1810) 내의 적어도 일부 영역에서의 영상 성분이 강화되도록, 잡음 신호(1820)를 설정할 수 있을 것이다. 또한, 잡음 신호(1820)는, AI 기반 객체 인식 모델이 이미지(1810) 내에 포함되는 객체를 다르게 인식하도록 이미지(1810)를 변형시킬 수 있는 모든 잡음 성분을 가질 수 있으므로, 매우 다양한 형태, 양, 및 또는 적용 영역을 갖도록 설정될 수 있다.
또한, 도 22에서는 이미지(1810)와 동일한 적용 영역을 가지는 잡음 신호(1820)가 이미지(1810)에 추가되는 경우를 예로 들어 설명하였으나, 이미지(1810) 내에 포함되는 객체의 일부 영역(1811)에 대응되는 적용 영역(1821)을 가지는 잡음 신호가 이미지(1810)에 추가될 수도 있다.
전술한 바와 같이, 본 개시의 실시예에서는, AI 기반 인식 모델을 이용하여 객체 인식을 하였을 경우, 객체 인식의 결과가 달라지도록 만드는 잡음 신호(예를 들어, 1820)를 이미지(1810)에 추가함으로써, 변형된 이미지(1830)을 생성한다.
이미지(1810)을 잡은 신호를 추가하는 대립적 사례 기법을 통하여 변형한 경우, 사람은 변형된 이미지(1830)를 여전히 변형 전의 이미지(1810)에서와 동일하게 인식한다. 즉, 사람은 변형 전의 이미지(1810)과 변형된 이미지(1830)에 포함되는 객체를 모두 판다로 인식하게 된다. 그러나, AI 기반 인식 모델을 통하여 객체 인식을 수행하는 경우, 변형 전의 이미지(1810)에 포함되는 객체는 판다로 인식되나, 변형된 이미지(1830)에 포함되는 객체는 긴팔 원숭이(gibbon)으로 인식되게 된다.
이하에서, 도 23를 참조하여, AI 기반 인식 모델을 통하여 객체 인식을 수행하는 동작을 좀 더 상세히 설명하도록 하겠다.
도 23은 본 개시의 다른 실시예에 따른 영상 표시 장치에서 생성된 변형된 이미지를 이용한 인증 동작을 설명하기 위한 도면이다. 구체적으로, 도 23은 AI 기반의 인식 모델인 뉴럴 네트워크를 통한 객체 인식을 수행하는 경우를 예로 들어 도시한다. 구체적으로, 도 23에서는 뉴럴 네트워크의 숨은 층(hidden layer)의 심도가 3개의 심도(depth)를 가지는 딥 뉴럴 네트워크(DNN)(1900)인 경우를 예로 들어 도시하였다. 또한, 도 23에서는 딥 뉴럴 네트워크(1900)로 도 22에서 설명한 변형된 이미지(1830)이 입력되는 경우를 예로 들어서 설명하도록 하겠다.
의료 영상 처리 장치(예를 들어, 201) 또는 서버(예를 들어, 500)는 심층 신경망(1900)을 통한 연산을 수행하여 객체 인식을 수행할 수 있다.
도 23을 참조하면, 딥 뉴럴 네트워크(1900)는 학습 데이터를 통한 학습을 수행할 수 있다. 그리고, 학습된 딥 뉴럴 네트워크(1900)는 객체 인식을 위한 연산인 추론 연산을 수행할 수 있다. 여기서, 딥 뉴럴 네트워크(1900)는 모델의 구현 방식(예를 들어, CNN(Convolution Neural Network) 등), 결과의 정확도, 결과의 신뢰도, 프로세서의 연산 처리 속도 및 용량 등에 따라 매우 다양하게 설계될 수 있다.
딥 뉴럴 네트워크(1900)은 입력 계층(1911), 숨은 계층(hidden layer)(1920) 및 출력 계층(1930)을 포함 하여, 객체 인식을 위한 연산을 수행할 수 있다. 또한, 딥 뉴럴 네트워크(1900)은 입력 계층(1911)과 제1 숨은 계층(HIDDEN LAYER1) 간에 형성되는 제1 계층(Layer 1)(1951), 제1 숨은 계층(HIDDEN LAYER1)과 제2 숨은 계층(HIDDEN LAYER2) 간에 형성되는 제2 계층(Layer 2)( 1952), 및 제2 숨은 계층(HIDDEN LAYER2)과 제3 숨은 계층(HIDDEN LAYER3) 간에 형성되는 제3 계층(Layer 3)( 1953), 및 제3 숨은 계층(HIDDEN LAYER3)과 출력 계층(OUTPUT LAYER(550) 간에 형성되는 제4 계층(Layer 4)( 1954)으로 형성될 수 있다.
또한, 딥 뉴럴 네트워크(1900)을 형성하는 복수개의 계층들 각각은 하나 이상의 노드를 포함할 수 있다. 예를 들어, 입력 계층(1911)은 데이터를 수신하는 하나 이상의 노드(node)(예를 들어, 1910)들을 포함할 수 있다. 도 23에서는 입력 계층(1911)이 복수개의 노드들을 포함하는 경우를 예로 들어 도시하였다. 그리고, 복수개의 노드(1910)로 이미지(1830)를 스케일링(scaling)하여 획득한 복수개의 이미지들이 입력될 수 있다. 구체적으로, 이미지(1830)를 주파수 대역 별로 스케일링하여 획득한 복수개의 이미지들이 복수개의 노드(1910)로 입력될 수 있다.
여기서, 인접한 두 개의 계층들은 도시된 바와 같이 복수개의 엣지(edge)들(예를 들어, 1912)로 연결된다. 각각의 노드들은 대응되는 가중치값을 가지고 있어서, 딥 뉴럴 네트워크(1900)는 입력된 신호와 가중치 값을 연산, 예를 들어, 곱하기 연산한 값에 근거하여, 출력 데이터를 획득할 수 있다.
딥 뉴럴 네트워크(1900)는 복수의 학습 이미지에 근거하여 학습되어, 이미지 내에 포함되는 객체를 인식하는 객체 인식 모델로서 구축할 수 있다. 구체적으로, 딥 뉴럴 네트워크(1900)를 통하여 출력되는 결과의 정확도를 높이기 위해서, 복수의 학습 이미지에 근거하여 출력 계층(1930)에서 입력 계층(1911) 방향으로 학습(training)을 반복적으로 수행하며 출력 결과의 정확도가 높아지도록 가중치값들을 수정할 수 있다.
그리고, 최종적으로 수정된 가중치값들을 가지는 딥 뉴럴 네트워크(1900)는 객체 인식 모델로 이용될 수 있다. 구체적으로, 딥 뉴럴 네트워크(1900)는 입력 데이터인 복수의 학습 이미지에 포함되는 정보를 분석하여 학습 이미지에 포함되는 객체가 무엇인지를 나타내는 결과를 출력할 수 있다.
딥 뉴럴 네트워크(1900)가 이미지를 입력받고 이미지에 포함되는 객체를 인식하도록 학습(training)된 경우, 딥 뉴럴 네트워크(1900)가 변형되기 이전의 이미지(예를 들어, 1811)를 입력받으면, 딥 뉴럴 네트워크(1900)는 이미지(1811)을 분석하여 이미지 내에 포함되는 객체가 '판다'라는 결과를 출력할 수 있다.
그리고, 딥 뉴럴 네트워크(1900)가 변형된 이미지(예를 들어, 1830)를 입력받으면, 딥 뉴럴 네트워크(1900)는 이미지(1830)을 분석하여 이미지 내에 포함되는 객체가 '긴팔 원숭이(gibbon)'이라는 결과를 출력할 수 있다. 즉, 사용자는 변형된 이미지(1830)에 포함되는 객체를 '판다'로 인식할 수 있으나, AI 기반 객체 인식 모델인 딥 뉴럴 네트워크(1900)는 변형된 이미지(1830)에 포함되는 객체를 '긴팔 원숭이(gibbon)'로 인식하게 된다.
본 개시의 실시예에서는, 인증 이미지 세트에 포함되는 하나 이상의 이미지를 대립적 사례 기법에 따라서 변형시킴으로써, AI 기반의 해킹을 방지하여 보안 성능을 높일 수 있다.
도 21은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 다른 도면이다. 구체적으로, 도 19에서 설명한 이미지의 변형 단계(S1540)는 S1735 단계 및 S1740 단계를 포함할 수 있다.
본 개시의 실시예에서, 프로세서(220)는 사용자 인증 요청에 응답하여 잡음 정보를 결정할 수 있다(S1735). 그리고, 결정된 잡음 정보에 근거하여 하나 S1530 단계에서 획득된 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중에서, 하나 이상을 변형하여 하나 이상의 변형된 이미지 생성할 수 있다(S1740).
여기서, S1735 단계에서 결정되는 잡음 정보는 변형 대상이 되는 이미지, 예를 들어, 도 22의 이미지(1810)에 추가되는 잡음 신호(에를 들어, 1820)에 대한 정보가 될 수 있다. 구체적으로, 잡음 정보는 변형의 대상이 되는 하나 이상의 이미지에 적용될 잡음 신호의 생성 방법, 잡음 신호의 형태, 및 잡음 신호의 양 중 적어도 하나에 대한 정보를 포함할 수 있다.
본 개시의 실시예에서, 잡음 정보는 사용자 인증 요청이 발생할 때마다 변경될 수 있다. 사용자 인증 요청이 발생할 때마다 잡음 정보를 갱신하고, 갱신된 잡음 정보를 이용하여 이미지를 변형하면, 변형된 이미지를 포함하는 인증 이미지 세트는 더 높은 보안성을 가질 수 있다.
전술한 바와 같이, 본 개시의 일 또는 다른 실시예는 사용자가 시청하였던 컨텐트에 포함되는 객체를 인식하고, 인식된 객체가 포함된 이미지를 하나 이상 포함하는 인증 이미지 세트를 이용하여 사용자 인증을 수행함으로써, 높은 보안도를 유지하면서 영상 표시 장치(예를 들어, 201)의 사용자가 적법한 권한을 가지는 사용자인지를 확인할 수 있다. 또한, 본 개시의 일 또는 다른 실시예는, 대립적 사례 기법을 이용하여 인증 이미지 세트에 포함될 하나 이상의 이미지를 변형함으로써, AI 기반 해킹 공격을 막을 수 있으며 그에 따라서 보안 성능을 증가시킬 수 있다.
일부 실시예에 따른 영상 표시 장치 및 그 동작 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, 부는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
또한, 전술한 본 개시의 실시예에 따른 영상 표시 장치 및 그 동작 방법은 다중언어로 구성된 문장을 획득하는 동작; 및 다중언어 번역 모델을 이용하여, 상기 다중언어로 구성된 문장에 포함되는 단어들 각각에 대응하는 벡터 값들을 획득하고, 상기 획득한 벡터 값들을 목표 언어에 대응하는 벡터 값들로 변환하며, 상기 변환된 벡터 값들에 기초하여, 상기 목표 언어로 구성된 문장을 획득하는 동작을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 디스플레이;
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서;를 포함하고,
    상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 디스플레이 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고,
    상기 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하고,
    사용자 인증 요청에 응답하여, 상기 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지를 선택하고, 선택된 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하고,
    상기 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 상기 사용자 인증을 수행하는, 영상 표시 장치.
  2. 제 1항에 있어서,
    상기 제1 컨텐트는, 상기 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트이고,
    상기 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는, 상기 제1 컨텐트로부터 추출된 이미지를 포함하는, 영상 표시 장치.
  3. 제 1항에 있어서,
    상기 프로세서는, 상기 하나 이상의 인스트럭션을 수행함으로써,
    상기 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 하나 이상의 객체를 인식하고,
    상기 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 상기 거짓 이미지로 획득하는, 영상 표시 장치.
  4. 제 1항에 있어서,
    상기 프로세서는, 상기 하나 이상의 인스트럭션을 수행함으로써,
    상기 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고,
    상기 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 상기 데이터베이스에 상기 참 이미지로서 저장하는, 영상 표시 장치.
  5. 제 1항에 있어서,
    상기 객체는
    상기 제1 컨텐트를 구성하는 복수의 프레임 중 적어도 하나의 프레임에 등장하는 사람, 배경, 및 사물 중 적어도 하나를 포함하는, 영상 표시 장치.
  6. 제 1항에 있어서,
    상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 제1 컨텐트를 구성하는 복수의 프레임으로부터 상기 하나 이상의 객체를 인식하고,
    상기 인식된 하나 이상의 객체 중에서, 상기 복수의 프레임에 기설정된 횟수 이상 포함된 객체를 나타내는 이미지를 상기 데이터베이스에 상기 참 이미지로서 저장하는, 영상 표시 장치.
  7. 제 1항에 있어서, 상기 프로세서는
    상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 하나 이상을 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 변형된 이미지를 생성하고,
    상기 하나 이상의 변형된 이미지, 및 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 변형되지 않은 나머지를 포함하는 상기 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
  8. 제 7항에 있어서, 상기 프로세서는
    상기 사용자 인증 요청에 응답하여 잡음 정보를 획득하고, 상기 획득된 잡음 정보에 근거하여 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하여 상기 하나 이상의 변형된 이미지 생성하는, 영상 표시 장치.
  9. 제 8항에 있어서, 상기 잡음 정보는
    상기 변형의 대상이 되는 하나 이상의 이미지에 적용될 잡음 신호의 생성 방법, 상기 잡음 신호의 형태, 및 상기 잡음 신호의 양 중 적어도 하나에 대한 정보를 포함하는, 영상 표시 장치.
  10. 제 1항에 있어서, 상기 프로세서는
    상기 하나 이상의 제1 참 이미지 중에서 선택된 하나 이상의 참 이미지를 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 제2 참 이미지를 생성하고, 상기 하나 이상의 제2 참 이미지, 상기 하나 이상의 제1 참 이미지 중 상기 선택된 하나 이상의 참 이미지를 제외한 나머지, 및 상기 하나 이상의 제1 거짓 이미지를 포함하는 상기 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
  11. 제 1항에 있어서, 상기 프로세서는
    상기 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상에 잡음 신호를 추가하여 하나 이상의 변형된 이미지를 생성하고,
    상기 하나 이상의 변형된 이미지, 및 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 상기 잡음 신호가 추가되지 않은 나머지를 포함하는 상기 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
  12. 제 1항에 있어서,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 수행함으로써,
    상기 데이터베이스에 저장된 복수의 거짓 이미지 및 상기 학습 모델 중 적어도 하나를 외부 서버로부터 수신하는, 영상 표시 장치.
  13. 제 1항에 있어서,
    상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 인증 이미지 세트로부터 상기 하나 이상의 참 이미지를 모두 선택하는 상기 사용자 입력에 응답하여, 상기 사용자 인증을 요청한 사용자를 허가받은 사용자로 판단하는, 영상 표시 장치.
  14. 제 13항에 있어서,
    상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 인증 이미지 세트로부터 상기 하나 이상의 참 이미지를 모두 선택하는데 실패한 사용자 입력에 응답하여, 새로운 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
  15. 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 영상 표시 장치의 디스플레이 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하는 단계;
    상기 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하는 단계;
    사용자 인증 요청에 응답하여, 상기 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지를 선택하고, 선택된 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지를 포함하는 인증 이미지 세트를 출력하는 단계; 및
    상기 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 상기 사용자 인증을 수행하는 단계;
    를 포함하는, 영상 표시 장치의 동작 방법.
PCT/KR2018/010350 2017-09-05 2018-09-05 영상 표시 장치 및 그 동작 방법 WO2019050265A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/642,154 US11514150B2 (en) 2017-09-05 2018-09-05 Video display device and operating method therefor
EP18853051.3A EP3617921A4 (en) 2017-09-05 2018-09-05 VIDEO DISPLAY DEVICE AND OPERATING METHOD THEREFOR

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2017-0113352 2017-09-05
KR20170113352 2017-09-05
KR10-2018-0083651 2018-07-18
KR1020180083651A KR102037419B1 (ko) 2017-09-05 2018-07-18 영상 표시 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
WO2019050265A1 true WO2019050265A1 (ko) 2019-03-14

Family

ID=65634456

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/010350 WO2019050265A1 (ko) 2017-09-05 2018-09-05 영상 표시 장치 및 그 동작 방법

Country Status (1)

Country Link
WO (1) WO2019050265A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060052975A (ko) * 2006-02-08 2006-05-19 노키아 코포레이션 맞춤형 영상-기반 사용자 신분인증 방법 및 장치
US20110154482A1 (en) * 2009-12-22 2011-06-23 Nokia Corporation User authentication
KR20140090777A (ko) * 2013-01-10 2014-07-18 한국전자통신연구원 국부이진패턴을 이용한 객체 검출 인식 방법 및 장치
KR20160025896A (ko) * 2014-08-28 2016-03-09 (주)플라잉콘텐츠 사용자 인증을 수행하는 서버와, 서버의 사용자 인증 처리방법 및 그 방법을 기록한 컴퓨팅 장치에 의해 판독 가능한 기록 매체
US20160306994A1 (en) * 2014-06-17 2016-10-20 Susan Olsen-Kreusch Methods and Systems for User Authentication in a Computer System Using Multi-Component Log-Ins, Including Image-Based Log-Ins

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060052975A (ko) * 2006-02-08 2006-05-19 노키아 코포레이션 맞춤형 영상-기반 사용자 신분인증 방법 및 장치
US20110154482A1 (en) * 2009-12-22 2011-06-23 Nokia Corporation User authentication
KR20140090777A (ko) * 2013-01-10 2014-07-18 한국전자통신연구원 국부이진패턴을 이용한 객체 검출 인식 방법 및 장치
US20160306994A1 (en) * 2014-06-17 2016-10-20 Susan Olsen-Kreusch Methods and Systems for User Authentication in a Computer System Using Multi-Component Log-Ins, Including Image-Based Log-Ins
KR20160025896A (ko) * 2014-08-28 2016-03-09 (주)플라잉콘텐츠 사용자 인증을 수행하는 서버와, 서버의 사용자 인증 처리방법 및 그 방법을 기록한 컴퓨팅 장치에 의해 판독 가능한 기록 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3617921A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment

Similar Documents

Publication Publication Date Title
WO2018128362A1 (en) Electronic apparatus and method of operating the same
WO2020251283A1 (en) Selecting artificial intelligence model based on input data
WO2020091210A1 (en) System and method of integrating databases based on knowledge graph
EP3545436A1 (en) Electronic apparatus and method of operating the same
WO2016017987A1 (en) Method and device for providing image
WO2019031707A1 (en) MOBILE TERMINAL AND METHOD FOR CONTROLLING A MOBILE TERMINAL USING MACHINE APPRENTICESHIP
WO2018117619A1 (en) Display apparatus, content recognizing method thereof, and non-transitory computer readable recording medium
WO2016076570A1 (en) Display apparatus and display method
WO2019135621A1 (ko) 영상 재생 장치 및 그의 제어 방법
WO2017003136A1 (ko) 사용자 인증 방법 및 장치
WO2019124963A1 (ko) 음성 인식 장치 및 방법
WO2014017757A1 (en) Method of transmitting inquiry message, display device for the method, method of sharing information, and mobile terminal
WO2015194693A1 (ko) 영상 표시 기기 및 그의 동작 방법
WO2015174743A1 (en) Display apparatus, server, system and information-providing methods thereof
WO2020145615A1 (en) Method of providing recommendation list and display device using the same
WO2021261836A1 (en) Image detection apparatus and operation method thereof
WO2020209693A1 (ko) 인공지능 모델을 갱신하는 전자 장치, 서버 및 그 동작 방법
WO2020017930A1 (ko) 추천 채널 리스트 제공 방법 및 그에 따른 디스플레이 장치
WO2020184753A1 (ko) 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법
WO2019203421A1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
WO2019045521A1 (ko) 전자 장치 및 그 제어 방법
WO2019088692A1 (ko) 영상 표시 장치 및 그 동작 방법
WO2019031676A1 (ko) 이미지 처리 방법 및 그에 따른 장치
WO2020017827A1 (ko) 전자 장치, 및 전자 장치의 제어 방법
WO2022025423A1 (en) Video quality assessing method and apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18853051

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018853051

Country of ref document: EP

Effective date: 20191127

NENP Non-entry into the national phase

Ref country code: DE