WO2019135621A1 - 영상 재생 장치 및 그의 제어 방법 - Google Patents

영상 재생 장치 및 그의 제어 방법 Download PDF

Info

Publication number
WO2019135621A1
WO2019135621A1 PCT/KR2019/000106 KR2019000106W WO2019135621A1 WO 2019135621 A1 WO2019135621 A1 WO 2019135621A1 KR 2019000106 W KR2019000106 W KR 2019000106W WO 2019135621 A1 WO2019135621 A1 WO 2019135621A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
frame
generating
extended
learning
Prior art date
Application number
PCT/KR2019/000106
Other languages
English (en)
French (fr)
Other versions
WO2019135621A9 (ko
Inventor
서찬원
김예훈
윤소정
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US16/959,477 priority Critical patent/US11457273B2/en
Priority to EP19735892.2A priority patent/EP3709667B1/en
Priority to CN202211213615.3A priority patent/CN115460463A/zh
Priority to CN201980007493.2A priority patent/CN111567056B/zh
Priority to EP23201757.4A priority patent/EP4283528A3/en
Publication of WO2019135621A1 publication Critical patent/WO2019135621A1/ko
Publication of WO2019135621A9 publication Critical patent/WO2019135621A9/ko
Priority to US17/881,135 priority patent/US11831948B2/en
Priority to US18/470,173 priority patent/US20240031644A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • H04N21/440272Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA for performing aspect ratio conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4854End-user interface for client configuration for modifying image parameters, e.g. image brightness, contrast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • H04N7/0122Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal the input and the output signals having different aspect ratios

Definitions

  • the present disclosure relates to an apparatus for reproducing an image and a control method thereof.
  • a device including a display unit can receive an externally transmitted signal and output an image to a display unit, and output an image to a display using pre-stored data.
  • the aspect ratio of the image is not the same as the aspect ratio of the display area of the display unit, so that a part of the display area of the display unit may be displayed in black.
  • Recent devices have proposed various methods for reproducing an image without a black area.
  • AI Artificial Intelligence
  • AI is a computer system that implements human-level intelligence. Unlike existing rules-based smart system, AI is a system that learns, judges and becomes smart. As the use of artificial intelligence increases the recognition rate and understanding of user preferences more accurately, existing rule-based smart systems are gradually being replaced by deep-run-based artificial intelligence systems.
  • Artificial intelligence technology consists of element technologies that utilize deep learning and machine learning.
  • Machine learning is an algorithm technology that classifies / learns the characteristics of input data by itself.
  • Element technology is a technology that uses machine learning algorithms such as deep learning. It is used for linguistic understanding, visual understanding, reasoning / prediction, knowledge representation, .
  • Linguistic understanding is a technology for recognizing, applying, and processing human language / characters, including natural language processing, machine translation, dialogue system, query response, speech recognition / synthesis, and the like.
  • Visual understanding is a technology for recognizing and processing objects as human vision, including object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image enhancement.
  • Inference prediction is a technique for judging and logically inferring and predicting information, including knowledge / probability based reasoning, optimization prediction, preference base planning, and recommendation.
  • Knowledge representation is a technology for automating human experience information into knowledge data, including knowledge building (data generation / classification) and knowledge management (data utilization).
  • the motion control is a technique for controlling the autonomous travel of the vehicle and the motion of the robot, and includes motion control (navigation, collision, traveling), operation control (behavior control), and the like.
  • Some embodiments can provide a device that displays an image without distortion of the aspect ratio so that the letterbox is not displayed on the screen when the aspect ratio of the image is different from the aspect ratio of the screen of the device.
  • a first aspect of the present disclosure provides a display device including a memory in which at least one program and a first image are stored, a display unit, Wherein the at least one program comprises the steps of: comparing an aspect ratio of the first image and an aspect ratio of an area in which the first image is to be displayed; Generating a second image corresponding to the aspect ratio of the region using the first image and displaying the second image in the region when the aspect ratio of the region is different,
  • the method of claim 1, wherein generating the second image comprises: Are fed into the neural network function may provide a device comprising the step of generating the second image.
  • the generating of the second image may include extracting frames included in the first image, generating training data to be input to the artificial intelligence network based on the extracted frames, To the artificial intelligence network to learn the artificial intelligence network, thereby generating the second image.
  • the generating of the second image may include generating the learning data by weighting predetermined pixels located outside the reference frame included in the first image .
  • a communication unit for transmitting the first image to the server and receiving the artificial intelligence network generated by the server using the first image from the server, Wherein at least one frame is generated by inputting to an intelligent neural network received from the server.
  • the step of generating the second image may further include the steps of identifying a letterbox to be displayed in the region as the aspect ratio of the first image is different from the aspect ratio of the region, And generating the second image that has been acquired.
  • the generating of the second image may include inputting a reference frame, at least one previous frame, and at least one next frame (Next Frame) included in the first image to the artificial intelligence network, And generating a frame of the second image corresponding to the reference frame by learning the artificial intelligence neural network.
  • the generating of the second image may include inputting a resize frame resized from the reference frame and the reference frame included in the first image to the artificial intelligence network, Thereby generating a frame of the second image corresponding to the reference frame.
  • the method may further include a communication unit capable of performing Internet communication, and the step of generating the second image may include detecting at least one of a pattern and a color constituting a reference frame included in the first image, Searching for an image related to at least one of the detected pattern and color, and inputting the reference frame and the searched image to the artificial intelligence network to learn the artificial intelligence network, 2 < / RTI > frames of video.
  • the generating of the second image may include inputting a resized image resized by the reference frame, the searched image, and the searched image to the artificial intelligence network to learn the artificial intelligence network And generating a frame of the second image corresponding to the reference frame, wherein the aspect ratio of the resized image is generated by resizing the retrieved image to correspond to the aspect ratio of the region. have.
  • a second aspect of the present disclosure is directed to a computer-readable storage medium storing a program for causing a computer to function as: a memory for storing at least one program; a communication unit for receiving an image list from a server; a user input for receiving a user input for selecting a first image to be downloaded from the image list; A display unit including an area to be displayed, and at least one processor for playing the first image by executing the at least one program, wherein the at least one program comprises: Receiving a user input for selecting the first image, transmitting information about the identification information of the first image and the aspect ratio of the region to the server, determining an aspect ratio of the first image and an aspect ratio Comparing the aspect ratio of the first image with the aspect ratio of the area, Using the first image to obtain a second image corresponding to an aspect ratio of the region and displaying the second image in the region, Wherein at least one frame of the image is generated by inputting into the intelligent neural network.
  • an image processing method comprising the steps of: comparing an aspect ratio of a first image and an aspect ratio of an area in which the first image is to be displayed; if the aspect ratio of the first image is different from the aspect ratio of the area, Generating a second image corresponding to an aspect ratio of the region, and displaying the second image on the region, wherein generating the second image comprises generating at least one frame of the first image, And generating the second image by being input to the artificial intelligence neural network.
  • the generating of the second image may include extracting frames included in the first image, generating training data to be input to the artificial intelligence network based on the extracted frames, And inputting the input image data to the artificial intelligence network to learn the artificial intelligence network, thereby generating the second image.
  • the generating of the second image may include generating the training data by assigning weights to predetermined pixels located outside the reference frame included in the first image, .
  • the generating of the second image may further include transmitting the first image to the server and receiving the artificial intelligence network generated by the server using the first image from the server , And the second image is generated by inputting at least one frame of the first image into the artificial intelligence network received from the server.
  • the step of generating the second image may further include the steps of identifying a letterbox to be displayed in the region as the aspect ratio of the first image is different from the aspect ratio of the region, And generating the second image based on the second image.
  • the generating of the second image may include inputting a reference frame, at least one previous frame, and at least one next frame (Next Frame) included in the first image to the artificial intelligence network, And generating a frame of the second image corresponding to the reference frame by learning the artificial intelligence neural network.
  • the generating of the second image may include inputting a resize frame resized from the reference frame and the reference frame included in the first image to the artificial intelligence network, And generating a frame of the second image corresponding to the reference frame by learning the frame of the second image.
  • the generating of the second image may include detecting at least one of a pattern and a color constituting a reference frame included in the first image, searching an image related to at least one of the detected pattern and color And inputting the reference frame and the searched image to the artificial intelligence network to learn the artificial intelligence network, thereby generating a frame of the second image corresponding to the reference frame.
  • the generating of the second image may include inputting a resized image resized by the reference frame, the searched image, and the searched image to the artificial intelligence network to learn the artificial intelligence network And generating a frame of the second image corresponding to the reference frame, wherein the aspect ratio of the resize image is generated by resizing the retrieved image so as to correspond to the aspect ratio of the area. can do.
  • a computer readable medium storing a program for causing a computer to execute the steps of: receiving an image list from a server; receiving a user input for selecting a first image to be downloaded from the image list; The method comprising: transmitting information about an aspect ratio of an area in which an image is to be displayed; comparing the aspect ratio of the first image and the aspect ratio of the area; if the aspect ratio of the first image is different from the aspect ratio of the area, Obtaining a second image corresponding to an aspect ratio of the region and displaying the second image in the region, wherein the second image is generated when at least one frame of the first image is artificial Wherein the image is generated by being input to an intelligent neural network.
  • a method for processing an image comprising: comparing an aspect ratio of a first image with an aspect ratio of a screen on which the first image is to be reproduced; A learning module for generating a first extended image corresponding to the first image and a second extended image generating module for generating a second extended image corresponding to the first image, Generating an extended image to be displayed in a letter box by inputting the first image to the first extended image generating module, generating a second image generated by combining the first image and the extended image,
  • the letter box includes at least one of an aspect ratio of the first image when the first image is reproduced on the screen, And the aspect ratio of the second image is the same as the aspect ratio of the screen.
  • a sixth aspect of the present disclosure provides a display apparatus including a display unit including a screen on which a first image is to be reproduced, a learning model for generating an extended image, at least one memory for storing the first image, and at least one of GPU and NPU
  • the processor is configured to compare the aspect ratio of the first image with the aspect ratio of the screen and to determine whether the extended image generation module corresponding to the first image is in the at least one memory
  • a learning model for pre-stored extended images is learned through at least one of the GPU and the NPU on the basis of the identification result, Generating the corresponding first extended-image generating module, and storing the generated first extended-image generating module in the at least one memory And generates an extended image to be displayed in a letter box by inputting the first image to the first extended image generating module through at least one of the GPU and the NPU
  • the control unit controls the display unit to display a second image generated by combining the first image and the second image, and the letterbox displays the second image when the first image is reproduce
  • FIG. 1 is a diagram illustrating an example of displaying an extended image in a letter box area displayed on a screen of a device according to some embodiments.
  • FIG. 2 is a diagram illustrating various types of letter boxes displayed on a screen of a device according to some embodiments.
  • FIG. 3 is a diagram illustrating a UI for displaying an extended image on a screen of a device according to some embodiments.
  • FIG. 4 is a flowchart illustrating an image display method for displaying an image including an extended image on a screen of a device, according to some embodiments.
  • FIG. 5 is a flow diagram illustrating a method for generating an extended image, in accordance with some embodiments.
  • FIG. 6 is a flow diagram illustrating a method for generating an extended image using a server, in accordance with some embodiments.
  • FIG. 7 is a flowchart illustrating a control method of a device for displaying an image including an extended image using a server, according to some embodiments.
  • FIG. 8 is a flow diagram illustrating a method for generating or selecting an extended image, in accordance with some embodiments.
  • FIGS. 9 and 10 are diagrams illustrating an example of inputting a frame included in an image into a learning model, according to some embodiments.
  • FIG. 11 is a diagram showing an example of inputting a resize image to a learning model according to some embodiments.
  • FIG. 12 is a diagram showing an example of inputting a crop image into a learning model according to some embodiments.
  • FIG. 13 is a diagram illustrating an example of applying weights to frames in an image, according to some embodiments.
  • FIG. 14 is a flowchart showing a method of inputting a retrieved image as learning data to a learning model according to some embodiments.
  • 15 is a diagram showing an example of inputting a retrieved image to a learning model as learning data, according to some embodiments.
  • 16 and 17 are block diagrams of a device 1000 according to some embodiments.
  • FIG. 18 is a block diagram of a server 2000 in accordance with some embodiments.
  • 19 is a block diagram of a processor 1300 in accordance with some embodiments.
  • 20 is a block diagram of a data learning unit 1310 according to some embodiments.
  • 21 is a block diagram of a data recognition unit 1320 according to some embodiments.
  • 22 is a diagram showing an example of learning and recognizing data by interlocking with the device 1000 and the server 2000 according to some embodiments.
  • 23 is a schematic block diagram of a device according to one embodiment.
  • 24 is a view for explaining a process of generating an extended image generation module by a device according to an embodiment.
  • 25 is a view for explaining a process of generating an extended image according to a method in which a device according to an embodiment downloads a first image from a server.
  • 26 is a view for explaining a sequence in which a device according to an embodiment generates an extended image of a frame.
  • 27 is a view for explaining a situation where a device according to an embodiment resizes an image and generates an extended image.
  • Some embodiments of the present disclosure may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented with various numbers of hardware and / or software configurations that perform particular functions.
  • the functional blocks of the present disclosure may be implemented by one or more microprocessors, or by circuit configurations for a given function.
  • the functional blocks of the present disclosure may be implemented in various programming or scripting languages.
  • the functional blocks may be implemented with algorithms running on one or more processors.
  • the present disclosure may employ conventional techniques for electronic configuration, signal processing, and / or data processing, and the like. Terms such as " mechanism, " " element, " " means, " and " configuration " and the like are widely used and are not limited to mechanical and physical configurations.
  • connection lines or connection members between the components shown in the figures are merely illustrative of functional connections and / or physical or circuit connections. In practical devices, connections between components can be represented by various functional connections, physical connections, or circuit connections that can be replaced or added.
  • the first area is described as the entire area of the screen of the device 1000, but the present invention is not limited thereto.
  • 1 is a diagram illustrating an example of displaying extended images 3020a and 3020b on letterboxes 3010a and 3010b displayed on a screen of a device 1000 according to some embodiments.
  • the device 1000 may reproduce the first image 3000 and display the first image 3000 in the first area.
  • the aspect ratio of the first image 3000 displayed in the first region may be different from the aspect ratio of the first region in which the first image 3000 is displayed.
  • letterboxes 3010a and 3010b may be displayed on the first area when an image is displayed in the first area.
  • the user may feel that the first image 3000 is smaller than the actual size.
  • a part of the top and bottom of the first image 3000 or a part of the left and right of the first image 3000 is cropped and displayed in the first area so that the letterboxes 3010a and 3010b are not displayed on the first area .
  • the first image 3000 is resized so that the aspect ratio of the first image 3000 corresponds to the aspect ratio of the first region.
  • the aspect ratio of the first image 3000 is changed, so that the user views the distorted image.
  • the user feels discomfort as the user views the distorted image.
  • the present disclosure is directed to a method and apparatus for displaying an image without distorting the first image 3000 using the artificial intelligence network technology and displaying the information included in the first image 3000 , And a device for generating the extended images 3020a and 3020b and an image display method.
  • the present disclosure may provide a device and an image display method for generating a second image including the generated extended images 3020a and 3020b and the first image 3000.
  • the present disclosure can provide a device and a method of displaying an image, wherein the aspect ratio of the generated second image corresponds to the aspect ratio of the first area. And displaying the generated second image in the first area.
  • the extended images 3020a and 3020b are images generated by using the artificial intelligence network technology so that the first images 3000 and the letterboxes 3010a and 3010b are displayed without any sense of incongruity.
  • the first image 3000 may include at least one scene, and the scene may include at least one segment.
  • the segment may comprise at least one frame.
  • the extended images 3020a and 3020b may be generated by inputting at least one frame included in the first image 3000 into the artificial intelligence network.
  • the second image may be generated by inputting at least one frame included in the first image 3000 into the artificial intelligence network.
  • the artificial intelligence network may include at least one of a learning device, a learning model, and an extended image generation module.
  • the extended data generation module can be generated by inputting the learning data into the learning model.
  • At least one of the extended image and the second image may be generated by inputting at least one frame included in the first image 3000 to the extended image generation module.
  • the learning model and extended image generation module may be composed of one artificial intelligence network or a separate artificial intelligence network.
  • the learning device may be an algorithm set to generate the learning image generation module 2440 by inputting learning data to the learning model and learning the learning model.
  • the device 1000 may be created with the pre-generated extended image generation module mounted.
  • the device 1000 can generate an extended image by inputting an image to the loaded extended image generating module.
  • the device 1000 may be created with the learning model mounted.
  • the device 1000 can generate the extended image generation module by applying the learning data to the learning model.
  • the device 1000 can update the extended image generation module by continuously applying the learning data to the learning model.
  • the device 100 can input a learning model and learning data to a learning device, and learn a learning model using learning data to control the learning device to generate (or update) the extended-image generating module.
  • a process of generating an extended image generation module using a learning device will be described later with reference to FIG.
  • the device 1000 can generate the extended images 3020a and 3020b by inputting the first image 3000 to the extended image generation module.
  • the device 1000 may receive from the server 2000 an extended image generation module generated by a learning model mounted on the server 2000.
  • the device 1000 can receive the updated extension generation module by applying the learning data to the learning model loaded in the server 2000.
  • the device 1000 may receive an extended image generation module generated by inputting a learning model and learning data to a learning device included in the server 2000.
  • the device 1000 can generate the extended images 3020a and 3020b by inputting the first image 3000 to the extended image generation module.
  • the device 1000 may receive a first image generated by the server 2000 and a second image including an extended image corresponding to the first image.
  • the device 1000 can display the second image on the screen.
  • the extended images 3020a and 3020b corresponding to the first image may be generated by inputting at least one frame of the first image to the extended image generation module generated by the learning model mounted on the server 2000 have.
  • FIG. 2 is a diagram illustrating various types of letter boxes displayed on a screen of a device according to some embodiments.
  • letterboxes 3011a and 3011b may be displayed in the vicinity of both sides of the image 3000a displayed in the first area of the device 1000a.
  • letterboxes 3012a and 3012b may be displayed near both ends of the image 3000b displayed in the first area of the device 1000b.
  • the letter box 3013 may be displayed in the vicinity of the periphery of the image 3000c displayed in the first area of the device 1000c.
  • letterboxes 3014a and 3014b may be displayed in the vicinity of at least one of both ends and both sides of a portion 3000d of the image displayed in the first area of the device 1000d.
  • an extended image displayed in the letter box area can be generated regardless of the form in which the letter box is displayed in the first area. That is, according to the present disclosure, when the letterbox is displayed near the both sides of the image, when the letterbox is displayed near both ends of the image, when the letterbox is displayed near the periphery of the image, An extended image displayed in the letter box area may be generated when a letter box is displayed in the vicinity of at least one of both ends and both sides of the image displayed in the letter box area. In the following, the letter box is displayed on both sides of the image, but it is obvious that the present disclosure can be applied to letter boxes displayed in other forms.
  • FIG. 3 is a diagram illustrating a UI for displaying an extended image on a screen of a device according to some embodiments.
  • the first area may include an icon 3030 for the user to select a display format of the first image 3000.
  • the icon 3030 includes an icon indicating that the first image 3000 is displayed at an original ratio, an icon indicating that the first image 3000 is resized and displayed according to the aspect ratio of the first region, And an icon indicating that a part of the image is cropped and displayed in accordance with the aspect ratio of one area. Also, the icon 3030 may include an icon 3031 indicating that the extended image is displayed.
  • the device 1000 may receive user input to change the icon 3030.
  • the device 1000 may change the icon 3030 in response to a user input and display the first image 3000 in the first area to correspond to the changed icon 3030.
  • the device 1000 may change the icon 3030 to an icon 3031 indicating that the extended image is displayed in response to the user input.
  • the device 1000 may display the first image 3000 and the extended images 3020a and 3020b in the first area so as to correspond to the changed icon 3031.
  • FIG. 4 is a flowchart illustrating an image display method for displaying an image including an extended image on a screen of a device, according to some embodiments.
  • the device 1000 determines the aspect ratio of the first image to be displayed in the first area (e.g., 4: 3, 16: 9, 2.35: For example, 3: 2, 4: 3, 16: 9, 16:10, 18: 9, etc.).
  • the aspect ratio of the first image is determined according to the intention of the producer of the image, and the first image may be generated so as to correspond to the determined aspect ratio.
  • the first image may be generated with an aspect ratio of 16: 9.
  • the aspect ratio of the first region may be determined when the device 1000 is manufactured. In addition, the aspect ratio of the first region may be determined by the user input received from the user. In addition, the aspect ratio of the first area can be determined by the ratio set in the program operating in the device 1000. [ The aspect ratio of the first region may be 18: 9.
  • the device 1000 may determine whether the aspect ratio of the first image is different from the aspect ratio of the first area by comparing the aspect ratio of the first image with the aspect ratio of the first area. For example, if the aspect ratio of the first image is 16: 9 and the aspect ratio of the first area is 18: 9, the device 1000 can determine that the aspect ratio of the first image is different from the aspect ratio of the first area. As another example, if the aspect ratio of the first image is 16: 9 and the aspect ratio of the first area is 16: 9, the device 1000 determines that the aspect ratio of the first image does not differ from the aspect ratio of the first area .
  • the device 1000 may generate an extended image using the first image.
  • the device 1000 generates an extended image to be displayed in a letter box area to be generated when the first image is displayed in the first area, as the aspect ratio of the first image is different from the aspect ratio of the first area can do.
  • the device 1000 can identify the letterbox area and create an extended image to be displayed in the letterbox area. For example, if the aspect ratio of the first image is 16: 9 and the aspect ratio of the first area is 18: 9, then the device 1000 can identify the letterbox area located near both sides of the first image. As another example, if the aspect ratio of the first image is 2.35: 1 and the aspect ratio of the first area is 16: 9, the device 1000 can identify the letterbox area located near both ends of the first image .
  • the device 1000 may generate an extended image and a second image by inputting a first image into the artificial intelligence network mounted on the device 1000.
  • the second image may include at least a part of the first image and an extended image.
  • the device 1000 can generate an extended image by inputting the first image to the extended image generation module mounted on the device 1000.
  • the extended image generation module mounted on the device 1000 may be mounted at the time when the device 1000 is manufactured.
  • the extended image generation module mounted on the device 1000 may be generated from a learning model mounted on the device 1000.
  • the extended image generation module installed in the device 1000 may be one in which the device 1000 has received the extended image generation module generated from the server, from the server.
  • the device 1000 may generate an extended image and a second image by inputting at least one frame included in the first image into the artificial intelligence network.
  • the second image may include at least a part of the first image and an extended image.
  • the device 1000 may generate an extended image and a second image by inputting at least one frame included in the first image to the extended image generating module.
  • the device 1000 can generate an extended image and a second image corresponding to each of all the frames of the first image by inputting all the frames included in the first image to the extended image generating module. Or the device 1000 inputs some of the frames included in the first image (for example, the reference frame) to the extended image generation module, thereby generating an extended image corresponding to each of all the frames of the first image, Images can be generated.
  • the device 1000 may generate a reference frame and an extended image and a second image corresponding to a frame associated with the reference frame by inputting the reference frame to the extended image generating module.
  • the reference frame is a frame selected to be necessary for generating the extended image.
  • the reference frame may include a frame that is essentially input to the extended image generation module.
  • the reference frame may be more than one.
  • the frame related to the reference frame may be a frame similar to the reference frame (for example, a frame decoded by referring to the reference frame by a decoder, a frame including the same pixel at a predetermined ratio or more than the reference frame, A frame to be reproduced, and the like).
  • the reference frame may be an Intra frame.
  • An intra frame refers to a frame decoded by a decoder in the absence of another frame to which reference is made.
  • the reference frame may be a frame most suitable for generating an extended image, among a plurality of frames constituting a segment of the first image.
  • the reference frame may be a frame most similar to a plurality of frames among a plurality of frames constituting a segment of the first image.
  • the reference frame may be the first of the plurality of frames constituting the segment.
  • the reference frame may be an intermediate frame among a plurality of frames.
  • the reference frame may be a frame having the same number of pixels as a plurality of frames among a plurality of frames.
  • the device 1000 When the device 1000 creates an extended image, it uses a large number of computing resources of the device 1000. Accordingly, the device 1000 can reduce the computing resources used to generate the extended image by inputting only a part of the frame of the first image (for example, the reference frame) to the extended image generating module. That is, the usage rate of the processor, the GPU (or NPU) of the device 1000, and the usage rate of the memory (for example, buffer memory) can be reduced. In addition, it is possible to reduce the power consumption of the device 1000 consumed while generating the extended image.
  • the first image may be composed of a plurality of reference frames.
  • the device 1000 can generate a plurality of extended images and a second image corresponding to each of the plurality of reference frames by inputting each of the plurality of reference frames into the extended image generating module.
  • the extended image generation module may generate a plurality of extended images corresponding to each of the plurality of reference frames corresponding to respective inputs of the plurality of reference frames.
  • the device 1000 may generate a second image by combining a plurality of reference frames and an extended image corresponding to each of the plurality of reference frames.
  • the extended image generation module may generate a second image in which a plurality of reference frames and a plurality of extended images corresponding to each of the plurality of reference frames are combined corresponding to respective inputs of the plurality of reference frames.
  • the artificial intelligence neural network may include a Generative Adversarial Networks (GAN) model.
  • GAN Generative Adversarial Networks
  • the GAN model may include, for example, a generator and a discriminator.
  • the device 1000 can generate the extended image by inputting the first image into the generation model.
  • the device 1000 may display a second image including at least a portion of the first image and an extended image in the first area.
  • the device 1000 may display a reference frame and a second image including an extended image corresponding to the reference frame in the first area.
  • the reference frame may be one or more, and the first image may be composed of a plurality of reference frames.
  • the extended image may be plural.
  • the plurality of extended images may be generated so as to correspond to each of the plurality of reference frames by inputting each of the plurality of reference frames into the extended image generating module.
  • the second image may be a combined image of a plurality of reference frames and a plurality of extended images corresponding to each of the plurality of reference frames.
  • FIG. 5 is a flow diagram illustrating a method for generating an extended image, in accordance with some embodiments.
  • the device 1000 may generate an extended image using the artificial intelligence network mounted on the device 1000.
  • FIG. Specifically, the device 1000 can generate learning data and input the generated learning data to the artificial intelligence network, thereby learning the artificial intelligence network.
  • the device 1000 can generate an extended image by inputting the first image to the learned artificial intelligence network.
  • an extended image generation module can be generated using a learning model mounted on the device 1000.
  • the device 1000 may generate an extended image using the generated extended image generation module.
  • the device 1000 may generate an extended image module and an extended image corresponding to images stored in the device 1000 during a time when the user does not use the device 1000.
  • the device 1000 can search for a first image stored in the device 1000.
  • the device 1000 may search for images stored in the device 1000 including the first image for a time when the user does not use the device 1000.
  • the device 1000 may store the result of searching for the image in the device 1000.
  • the device 1000 may store the information related to the images stored in the device 1000 in the device 1000.
  • the device 1000 may store in the device 1000 the image stored in the memory 1700, the playback time of the image, the aspect ratio of the image, whether the extended image has been generated, and the like.
  • the device 1000 may extract at least one frame included in the first image. That is, the device 1000 can generate an extended image generation module corresponding to the first image by inputting all the frames included in the first image into the learning model. Or the device 1000 may generate an extended image generation module corresponding to the first image by inputting some frames (for example, a reference frame) among the frames included in the first image to the learning model
  • the device 1000 may extract at least one frame included in the first image for a time when the user does not use the device 1000.
  • the device 1000 may extract a reference frame included in the first image.
  • the reference frame is a frame selected to be necessary for generating the extended image generation module.
  • the reference frame may include a frame necessary to generate an extended image corresponding to a plurality of frames constituting a segment of the first image.
  • the reference frame may be one or more.
  • the reference frame may be an intra frame.
  • the reference frame may be a frame decoded with reference to an intra frame.
  • the reference frame may be the frame most similar to the plurality of frames among the plurality of frames constituting the segment of the first image. Specifically, the reference frame may be the first of the plurality of frames constituting the segment. Alternatively, the reference frame may be an intermediate frame among a plurality of frames. Alternatively, the reference frame may be a frame having the same number of pixels as a plurality of frames among a plurality of frames.
  • the device 1000 uses a large number of computing resources of the device 1000 when the learning model learns by applying learning data to the learning model. Therefore, the device 1000 can reduce the computing resources used for learning the learning model by applying only a part of the frame (e.g., the reference frame) of the first image to the learning model as learning data. That is, the usage rate of the processor, the GPU (or NPU) of the device 1000, and the usage rate of the memory (for example, buffer memory) can be reduced. Further, the device 1000 can reduce the power consumption of the device 1000 consumed while learning the learning model.
  • the device 1000 can generate learning data based on the extracted frame.
  • the device 1000 may generate training data for a time when the user does not use the device 1000.
  • the device 1000 may generate all the frames of the first image as learning data.
  • the device 1000 may generate the extracted reference frame and at least one previous frame prior to the reference frame as training data. As another example, the device 1000 may generate a reference frame and at least one subsequent frame after the reference frame as training data. As another example, the device 1000 may generate a resized frame in which the reference frame and the reference frame are resized, as learning data. As another example, the device 1000 may generate a reference frame, which is weighted to a predetermined pixel located outside the reference frame, as learning data. In another example, the device 1000 may generate a reference frame and a crop frame in which a portion of the reference frame is cropped, as learning data. As another example, the device 1000 may generate an image related to a reference frame and a reference frame as learning data.
  • the image related to the reference frame may be an image related to at least one of the pattern and the color constituting the reference frame.
  • the image associated with the reference frame may be an image obtained through an Internet search.
  • the device 1000 may generate a reference frame, an image related to the reference frame, and a resized frame resizing the image related to the reference frame, as learning data.
  • the learning data applied to the learning model is not limited thereto.
  • the device 1000 may generate the extended image generation module by inputting the learning data into the learning model.
  • the device 1000 may generate an extended image generation module during a time when the user does not use the device 1000. [
  • the device 1000 can update the previously generated extended image generation module by applying the learning data to the learning model.
  • the device 1000 can generate an extended image generation module by applying the learning data described in step S550 to a learning model mounted on the device 1000.
  • the device 1000 can input a learning model and learning data to a learning device, and learn a learning model using the learning data to control the learning device to generate (or update) the extended-image generating module.
  • the generated extended image generation module may be a customized module for displaying the first image in the first area.
  • how the learning data is applied to the learning model can be determined according to learning based on a predetermined criterion. For example, supervised learning, unsupervised learning and reinforcement learning can be used as learning data to be applied to a learning model, and Deep Neural Network technology Can be used.
  • the device 1000 may generate an extended image using the extended image generation module.
  • the device 1000 may generate an extended image by inputting the first image to the extended image generating module during a time when the user does not use the device 1000.
  • the device 1000 may extract the reference frame included in the first image and input the extracted reference frame to the extended image generation module, thereby generating an extended image corresponding to the reference frame.
  • the reference frame is a frame selected to be necessary for generating the extended image.
  • the reference frame may be one or more, and the first image may include a plurality of reference frames.
  • the extended image may be plural.
  • the plurality of extended images may be generated so as to correspond to each of the plurality of reference frames by inputting each of the plurality of reference frames into the extended image generating module. Since the method of generating the extended image by inputting the reference frame into the extended image generation module has been described with reference to FIG. 4, redundant contents are omitted.
  • the device 1000 may display a second image generated by combining the reference frame and the extended image corresponding to the reference frame in the first area.
  • the second image may be a combined image of a plurality of reference frames and a plurality of extended images corresponding to the plurality of reference frames. Since the method of displaying the second image has been described with reference to FIG. 4, redundant contents are omitted.
  • FIG. 6 is a flow diagram illustrating a method for generating an extended image using server 2000, in accordance with some embodiments.
  • the device 1000 may generate an extended image using the artificial intelligence network installed in the server 2000.
  • the device 1000 can receive the artificial intelligence network from the server 2000 and generate an expanded image using the received artificial intelligence network. Further, the device 1000 can receive the updated artificial intelligence network from the server 2000.
  • the device 1000 can receive from the server 2000 an extended image generation module generated by a learning model mounted on the server 2000. [ In addition, the device 1000 can receive the updated extension generation module by applying the learning data to the learning model mounted on the server 2000. [
  • the device 1000 may transmit the first image to the server 2000.
  • the device 1000 may send at least a portion of the first image stored in the device 1000 to the server 2000.
  • the device 1000 may send to the server 2000 at least one frame extracted from the first image. That is, the device 1000 may transmit all the frames included in the first image to the server 2000. Or the device 1000 may transmit some frames (e.g., reference frames) among the frames included in the first image to the server 2000.
  • the reference frame is a frame that is selected for generating the extended image generation module.
  • the reference frame may include a frame necessary to generate an extended image corresponding to a plurality of frames constituting a segment of the first image. Since the reference frame has been described with reference to FIG. 5, redundant contents are omitted.
  • the device 1000 When the device 1000 transmits the first image to the server 2000, it uses a lot of network resources. Therefore, the device 1000 can transmit only a part of the frame (e.g., the reference frame) of the first image to the server 2000, thereby reducing the data transmission amount. In addition, the device 1000 can reduce the amount of power consumed by the device 1000 when the first image is transmitted to the server 2000.
  • the frame e.g., the reference frame
  • the device 1000 may transmit an image obtained by cropping a portion of the first image to the server 2000.
  • the device 1000 may send information about the first video posted to the Internet to the server 2000.
  • the device 1000 may transmit an identifier (e.g., a URL) of the first image to the server 2000.
  • the device 1000 may transmit to the server 2000 at least one frame extracted from the first image.
  • the device 1000 may transmit an image composed of a plurality of frames extracted from the first image to the server 2000.
  • the server 2000 may extract a frame included in the received first image.
  • the server 2000 may extract a reference frame included in the first image.
  • the reference frame is a frame selected to be necessary for generating the extended image generation module.
  • the reference frame may include a frame necessary to generate an extended image corresponding to a plurality of frames constituting a segment of the first image. Since the reference frame has been described with reference to FIG. 5, redundant contents are omitted.
  • the server 2000 may extract at least one previous frame prior to the reference frame.
  • the server 2000 may extract at least one subsequent frame after the reference frame.
  • the server 2000 when the server 2000 receives the reference frame from the device 1000, it may skip extracting the reference frame from the first image.
  • the server 2000 can generate learning data based on the extracted frame.
  • the server 2000 can generate the extracted reference frame as learning data.
  • the server 2000 may generate the extracted reference frame and at least one previous frame before the reference frame as learning data.
  • the server 2000 may generate a reference frame and at least one subsequent frame after the reference frame as training data.
  • the server 2000 may generate a resize frame in which the reference frame and the reference frame are resized, as learning data.
  • the server 2000 may generate a reference frame, which is weighted to a predetermined pixel located outside the reference frame, as learning data.
  • the server 2000 may generate a reference frame and a crop frame in which a part of the reference frame is cropped, as learning data.
  • the server 2000 may generate an image related to the reference frame and the reference frame as learning data.
  • the image related to the reference frame may be an image related to at least one of the pattern and the color constituting the reference frame.
  • the image associated with the reference frame may be an image obtained through an Internet search.
  • the device 1000 may generate a reference frame, an image related to the reference frame, and a resized frame resizing the image related to the reference frame, as learning data.
  • the learning data applied to the learning model is not limited thereto.
  • the server 2000 may generate the extended image generation module by applying the learning data to the learning model.
  • the server 2000 can update the previously generated extended image generation module by applying the learning data to the learning model.
  • the server 2000 can generate the extended image generation module by applying the learning data described in step S630 to the learning model.
  • the server 2000 can input a learning model and learning data to a learning device, and can control the learning device to generate (or update) an extended-image generating module by learning the learning model using the learning data.
  • the generated extended image generation module may be a customized module for displaying the first image in the first area.
  • How the learning data is applied to the learning model can be determined according to learning based on a predetermined criterion. For example, supervised learning, unsupervised learning and reinforcement learning can be used as learning data to be applied to a learning model, and Deep Neural Network technology Can be used.
  • the server 2000 can transmit the generated extended image generation module to the device 1000.
  • the extended image generation module to be transmitted may be a customized module for displaying the first image in the first area.
  • the server 2000 may transmit an extended image generation module to the device 1000 during a time when the user does not use the device 1000.
  • the server 2000 may transmit the extended image generation module to the device 1000 when the user requests to transmit the extended image generation module to the device 1000.
  • the server 2000 may transmit the extended image generation module to the device 1000 when the device 1000 displays the first image.
  • the device 1000 may generate an extended image using the extended image generation module received from the server.
  • the device 1000 may generate an extended image by inputting the first image to the extended image generating module during a time when the user does not use the device 1000.
  • the device 1000 can generate an extended image and a second image corresponding to each of all the frames of the first image by inputting all the frames included in the first image to the extended image generating module. Or the device 1000 inputs some of the frames included in the first image (for example, the reference frame) to the extended image generation module, thereby generating an extended image corresponding to each of all the frames of the first image, Images can be generated.
  • the device 1000 may extract the reference frame included in the first image and input the extracted reference frame to the extended image generation module, thereby generating an extended image corresponding to the reference frame.
  • the reference frame may be one or more
  • the first image may be composed of a plurality of reference frames.
  • the extended image may be plural.
  • the plurality of extended images may be generated so as to correspond to each of the plurality of reference frames by inputting each of the plurality of reference frames into the extended image generating module. Since the method of generating the extended image by inputting the reference frame into the extended image generation module has been described with reference to FIG. 4, redundant contents are omitted.
  • the device 1000 may display a second image generated by combining the reference frame and the extended image corresponding to the reference frame in the first area.
  • the second image may be a combined image of a plurality of reference frames and a plurality of extended images corresponding to the plurality of reference frames.
  • FIG. 7 is a flowchart illustrating a control method of a device for displaying an image including an extended image using the server 2000 according to some embodiments.
  • the device 1000 may receive a first image generated by the server 2000 and a second image including an extended image corresponding to the first image.
  • the device 1000 can display the received second image on the screen.
  • the extended images 3020a and 3020b corresponding to the first image may be generated by the artificial intelligence network mounted on the server 2000.
  • the extended images 3020a and 3020b corresponding to the first image are generated by inputting at least one frame of the first image to the extended image generation module generated by the learning model mounted on the server 2000 .
  • the server 2000 may transmit the image list to the device 1000.
  • the image list is a list of images that the server 2000 can transmit to the device 1000.
  • the server 2000 may be a server that provides vod services.
  • the server 2000 may be a server that provides a service in which images are uploaded from a user and the uploaded images are shared.
  • the device 1000 can display the received image list on the screen of the device 1000.
  • the image list displayed on the screen of the device 1000 may include at least one frame included in the image in the form of a thumbnail.
  • the device 1000 may receive a user input from the user to select a first image included in the image list.
  • the device 1000 may receive a user input for selecting a first image from a user using a screen including a touch screen.
  • the device 1000 may receive user input to select a first image from a user using an input device such as a remote control, a keyboard, and a mouse.
  • the device 1000 may transmit identification information (e.g., an identifier) of the first image selected by the server and information on the aspect ratio (for example, 18: 9) of the first area.
  • identification information e.g., an identifier
  • the aspect ratio for example, 18: 9
  • the server 2000 determines whether the aspect ratio of the first image (for example, 16: 9) and the aspect ratio of the first area (for example, 16: 9) based on the aspect ratio of the first area received from the device 1000 , 18: 9).
  • the server 2000 can determine whether the aspect ratio of the first image is different from the aspect ratio of the first area. For example, if the aspect ratio of the first image is 16: 9 and the aspect ratio of the first area is 18: 9, the server 2000 may determine that the aspect ratio of the first image is different from the aspect ratio of the first area. As another example, if the aspect ratio of the first image is 16: 9 and the aspect ratio of the first area is 16: 9, the server 2000 determines that the aspect ratio of the first image does not differ from the aspect ratio of the first area .
  • the server 2000 may generate an extended image using the first image.
  • the server 2000 as the aspect ratio of the first image is different from the aspect ratio of the first area, the server 2000 generates an extended image to be displayed in the letter box area to be generated when the first image is displayed in the first area can do.
  • the server 2000 can identify the letter box area and generate an extended image to be displayed in the letter box area. For example, if the aspect ratio of the first image is 16: 9 and the aspect ratio of the first area is 18: 9, then the device 1000 can identify the letterbox area located near both sides of the first image. As another example, if the aspect ratio of the first image is 2.35: 1 and the aspect ratio of the first area is 16: 9, the device 1000 can identify the letterbox area located near both ends of the first image .
  • the server 2000 may generate an extended image and a second image by inputting at least one frame included in the first image into the artificial intelligence network.
  • the second image may include at least a part of the first image and an extended image.
  • the server 2000 may generate an extended image by inputting at least one frame included in the first image to the extended image generating module.
  • the server 2000 may generate an extended image corresponding to the reference frame by inputting the reference frame included in the first image to the extended image generating module.
  • the reference frame may be more than one.
  • the first image may be composed of a plurality of reference frames.
  • the server 2000 can generate a plurality of extended images corresponding to each of the plurality of reference frames by inputting each of the plurality of reference frames into the extended image generating module. Since the method of generating the extended image by inputting the reference frame into the extended image generation module has been described with reference to FIG. 4, redundant contents are omitted.
  • the server 2000 may transmit a second image including at least a portion of the first image and an extended image to the device 1000.
  • the server 2000 may send a second image to the device 1000 for a time when the user does not use the device 1000.
  • the server 2000 may transmit a second image to the device 1000 when the user requests to transmit the second image to the device 1000.
  • the server 2000 may transmit the second image to the device 1000 when the device 1000 displays the second image.
  • the device 1000 may display a second image including at least a portion of the first image and an extended image in the first area.
  • the device 1000 may display a reference frame and a second image including an extended image corresponding to the reference frame in the first area.
  • the reference frame may be one or more, and the first image may be composed of a plurality of reference frames.
  • the extended image may be plural.
  • the plurality of extended images may be generated so as to correspond to each of the plurality of reference frames by inputting each of the plurality of reference frames into the extended image generating module.
  • the second image may be a combined image of a plurality of reference frames and a plurality of extended images corresponding to each of the plurality of reference frames.
  • FIG. 8 is a flow diagram illustrating a method for generating or selecting an extended image, in accordance with some embodiments.
  • the embodiments disclosed with reference to Fig. 8 may be performed by a processor of the device 1000 or by a processor of the server 2000.
  • the processor described below may correspond to at least one of the processor of the device 1000 and the processor of the server 2000.
  • the processor may include a graphics processing unit (GPU) (or neural-network processing unit (NPU)).
  • GPU graphics processing unit
  • NPU neural-network processing unit
  • the processor can compare the aspect ratio of the first image with the aspect ratio of the screen included in the display unit on which the first image is to be reproduced.
  • the display unit may include a flexible display capable of varying the aspect ratio of the screen on which the first image is output by at least partly folding or unfolding.
  • the processor can compare the aspect ratio of the changed screen by folding or unfolding at least part of the aspect ratio of the first image.
  • the processor can compare the aspect ratio of the first image with the aspect ratio of the changed screen whenever the aspect ratio of the screen is changed.
  • the processor may determine whether to generate a new extended image generation module corresponding to the first image based on the comparison result (S810).
  • the processor may input the first image to the learning model 4000 so that the learning model 4000 generates a new extended image generation module using the first image (S820).
  • the processor may determine the category of the first image (S830) and select one of the learned extended image generation modules related to the determined category (S840).
  • the processor may generate an extended image using an extended image generation module.
  • the processor can determine whether to generate a new extended image generation module corresponding to the first image.
  • the processor may compare whether the aspect ratio of the first image is the same as the aspect ratio of the screen on which the first image is to be reproduced.
  • the processor can identify whether an extended image generation module corresponding to the first image exists if the aspect ratio of the first image is different from the aspect ratio of the screen.
  • the generated extended image generation module may be a plurality of modules.
  • the generated extended image generation module may be stored in the memory of the device 1000 or the DB of the server 2000. [ The processor may identify whether an extended image generation module corresponding to the first image exists among the plurality of extended image generation modules.
  • the processor may determine whether to generate a new extended image generation module based on whether an extended image generation module corresponding to the first image exists. For example, the processor may determine that a new extended image generation module is not created when a previously generated extended image generation module corresponding to the first image exists. In another example, the processor may determine that a new extended image generation module is generated when the generation time of the generated extended image generation module corresponding to the first image has exceeded a predetermined time. In another example, if the generated extended image generation module corresponding to the first image is not generated to correspond to the aspect ratio of the area in which the first image is to be displayed, the processor determines that a new extended image generation module is generated .
  • the generated extended image generation module may be stored in the memory of the device 1000 or the DB of the server 2000.
  • the processor can determine whether to generate a new extended image generation module based on the header information of the generated extended image generation module.
  • the header information includes information related to an image corresponding to the extended image generation module (for example, a path in which the image is stored, a playback time of the image, an aspect ratio of the image, information on whether the extended image has been generated) Information on the generation time of the first image, and information on the category of the first image.
  • the processor may determine whether to generate a new extended image generation module based on whether an extended image generation module corresponding to an image similar to the first image exists.
  • the processor may include an extended image generation module corresponding to a category of the first image (for example, a SF movie, a natural documentary, a live performance, a 2D animation, a 3D animation, an Augmented reality image, If so, a new extended image generation module may not be generated.
  • a category of the first image for example, a SF movie, a natural documentary, a live performance, a 2D animation, a 3D animation, an Augmented reality image, If so, a new extended image generation module may not be generated.
  • the processor may not generate a new extended image generation module when an extended image generation module corresponding to an image having a name similar to the name of the first image exists.
  • the processor may not generate a new extended image generation module when an extended image generation module corresponding to an image including a frame similar to at least one frame of the first image exists.
  • the processor can input the first image to the learning model 4000 so that the learning model 4000 generates a new extended image generation module corresponding to the first image using the first image.
  • the learning model 4000 can generate a new extended image generation module corresponding to the first image by learning at least one learning data related to the first image.
  • the processor may control the learning model 4000 to learn through at least one of the GPU and the NPU.
  • the device 1000 inputs a learning model 4000 and a first image to a learning device, learns the learning model 4000 using the first image, and generates a new extended image generation module
  • the control unit can control the learning apparatus to generate the training data.
  • the learning data for generating the extended image generation module corresponding to the first image will be described in detail below with reference to FIGS. 9 to 15.
  • the processor selects a category of the first image (for example, a SF movie, a natural documentary, a live performance, a 2D animation, a 3D animation, an AR Augmented reality images, hologram images, etc.).
  • a category of the first image for example, a SF movie, a natural documentary, a live performance, a 2D animation, a 3D animation, an AR Augmented reality images, hologram images, etc.
  • the processor may determine the category of the first image based on the metadata of the first image. For example, the processor can determine the category of the first image based on the header information of the first image. As another example, the processor may determine the category of the first image from the name of the first image.
  • the processor may determine the category of the first image based on at least one frame included in the first image. Specifically, since the SF movie may include at least one frame related to the universe, the processor judges that the category of the first image is a SF movie by judging that at least one frame included in the first image is a frame related to the universe can do. In addition, since the natural documentary may include at least one frame related to nature such as forest, desert, and ocean, the processor may determine that at least one frame included in the first image is a frame related to nature, Categories can be judged as natural documentaries.
  • the processor can determine the category of the first image by recognizing the object contained in at least one frame of the first image. Specifically, when the object of the first image is a 2D animation character, the processor may determine the category of the first image as a 2D animation.
  • the processor may select one of the generated extended image generation modules related to the category of the first image.
  • the processor may store information on the extended image generation module generated for each category.
  • the information on the created extended-image generating module may include information on which category is associated with an image related to which category, and information on which scene is generated.
  • the processor can determine the category of the first image as a natural documentary.
  • the processor can select an extended image generation module generated corresponding to the natural documentary image among the generated extended image generation modules.
  • the processor can select an extended image generation module corresponding to a scene of fishing in the sea.
  • a processor can determine a SF movie.
  • the processor can select an extended image generation module corresponding to the SF movie among the generated extended image generation modules.
  • the processor can select an extended image generation module generated corresponding to a scene where the spacecraft moves through space.
  • the processor may select one of the pre-generated extended image generation modules based on at least one frame of the first image.
  • at least one frame of the first image may be a frame that constitutes a scene in which the fishing boat moves in the sea.
  • the processor can select the generated extended image generation module corresponding to the scene of fishing in the sea.
  • the processor can select the generated extended image generation module corresponding to the scene where the ship moves in the sea.
  • the processor can generate at least one of the extended image and the second image by inputting the first image to the newly generated extended image generating module in step S820.
  • the processor can generate at least one of the extended image and the second image by inputting the first image to the selected extended image generating module in step S840.
  • the processor may generate an extended image from the extended image generation module to which the first image is input through at least one of the GPU and the NPU.
  • the processor may generate the second image by combining the first image and the expanded image through at least one of the GPU and the NPU.
  • the method of generating at least one of the extended image and the second image is similar to the steps S450, S590, and S660, so that redundant contents are omitted.
  • FIGS. 9 and 10 are diagrams illustrating an example of inputting a frame included in an image to a learning model 4000 according to some embodiments.
  • At least one frame included in the first image may be input to the artificial intelligence network as learning data.
  • the artificial intelligence network can generate the extended image and the second image corresponding to the first image by learning input learning data.
  • the second image may include an extended image corresponding to the first image and the first image.
  • a reference frame 3110 included in an image and at least one previous frame 3120-1, 3120-2, and 3120-n previously reproduced in time with respect to the reference frame 3110 are used as learning data Can be input to the learning model (4000).
  • a reference frame 3210 included in the image and at least one subsequent frame 3220-1, 3220-2, and 3220-n reproduced later in time of the reference frame 3210 are used as learning data Can be input to the learning model (4000).
  • reference frame 3210 at least one previous frame 3120-1, 3120-2, and 3120-n, and at least one subsequent frame 3220-1, 3220-2, It is obvious that it can be input to the model (4000).
  • a person in the image can move from right to left.
  • the previous frames 3120-1, 3120-2, and 3120-n and the next frames 3220-1, 3220-2, and 3220-n are received before and after a predetermined time from the reference frames 3110 and 3210 It may be a frame that can be reproduced.
  • the learning model 4000 generates a reference frame based on the reference frames 3110 and 3210, the previous frames 3120-1, 3120-2 and 3120-n and the following frames 3220-1, 3220-2 and 3220- Such as the pattern and color of the light sources 3110 and 3210, can be recognized.
  • the learning model 4000 may generate an extended image generation module for generating an extended image to be displayed in a letterbox displayed near both sides of the reference frame using the recognized feature.
  • 11 is a diagram illustrating an example of inputting a resize image 3320 into a learning model, according to some embodiments.
  • a resized image 3320 obtained by resizing a reference frame 3310 and a reference frame 3310 included in an image may be input to the learning model 4000 as learning data.
  • the resize image 3320 is obtained by resizing the reference frame 3310 such that the aspect ratio of the reference frame 3310 corresponds to the aspect ratio of the first area.
  • the resized image 3320 can be increased in a predetermined pixel 3321 compared to the reference frame 3310.
  • the learning model 4000 may recognize features such as patterns and colors of the reference frame 3310 based on the reference frame 3310 and the resized image 3320. [ The learning model 4000 can generate an extended image generation module for generating an extended image to be displayed in a letterbox displayed near both sides of the reference frame 3310 using the recognized feature.
  • the artificial intelligence network can generate an extended image generation module for generating a reference frame 3310 and an extended image without a sense of incongruity by learning the inputted reference frame 3310 and the resized image 3320.
  • FIG. 12 is a diagram showing an example of inputting a crop image into a learning model according to some embodiments.
  • a crop image 3420 obtained by cropping a reference frame 3410 and a reference frame 3410 included in an image may be input to the learning model 4000 as learning data.
  • the crop image 3420 may be one in which predetermined pixels 3411a and 3411b on both sides of the reference frame 3410 are cropped.
  • the aspect ratio of the image may be 2.35: 1 and the aspect ratio of the first area may be 18: 9.
  • the crop image 3420 may be a cropping of predetermined pixels 3411a and 3411b on both sides of the reference frame 3410 to correspond to the aspect ratio of the screen.
  • the aspect ratio of the image is 16: 9 and the aspect ratio of the first area is 18: 9.
  • the crop image may be a cropping of predetermined pixels at both ends of the reference frame to correspond to the aspect ratio of the first region.
  • the learning model 4000 may recognize features such as patterns and colors of the reference frame 3410 based on the reference frame 3410 and the crop image 3420. [ The learning model 4000 may generate an extended image generation module for generating an extended image to be displayed in a letterbox displayed near both sides of the reference frame 3410 using the recognized feature.
  • the artificial intelligence network can generate an extended image generation module for generating the reference frame 3410 and the extended image without a sense of incongruity by learning the inputted reference frame 3410 and the crop image 3420.
  • FIG. 13 is a diagram illustrating an example of applying weights to frames in an image, according to some embodiments.
  • weights may be applied to predetermined pixels 3511a and 3511b of a reference frame 3510 in an image.
  • the reference frame 3510 to which the weight is applied to predetermined pixels 3511a and 3511b may be input to the learning model 4000 as learning data.
  • the predetermined pixels 3511a, 3511b to which weights are applied may be pixels located near the letter box area.
  • the aspect ratio of the image may be 16: 9 and the aspect ratio of the first area may be 18: 9.
  • the letter box area may be near both sides of the image. Accordingly, predetermined pixels 3511a and 3511b positioned on both sides of the reference frame 3510 can be weighted.
  • the learning model 4000 can learn the weight of the reference frame 3510 by applying predetermined weight to the predetermined pixels 3511a and 3511b.
  • the learning model 4000 can recognize characteristics such as a pattern and a color of predetermined pixels 3511a and 3511b to which weights are applied.
  • the learning model 4000 may generate an extended image generation module for generating an extended image to be displayed in a letterbox displayed near both sides of the reference frame 3510 using the recognized feature.
  • FIG. 14 is a flowchart showing a method of inputting a searched image as learning data into a learning model according to some embodiments
  • FIG. 15 is a drawing showing an example of inputting a searched image as learning data into a learning model according to some embodiments to be.
  • the device 1000 or the server 2000 may search an image related to a reference frame, and input the retrieved image as learning data to an artificial intelligence network.
  • the device 1000 or the server 2000 can input the retrieved image into the learning model 4000.
  • the device 1000 or the server 2000 can control the learning apparatus included in the device 1000 or the server 2000 to learn and input the retrieved image into the learning model 4000.
  • the device 1000 or the server 2000 may detect at least one of a pattern and a color constituting the reference frame.
  • the device 1000 or the server 2000 may be configured to include a pattern (e.g., a vertical line of a background, a horizontal line of a railing, and the like) constituting the reference frame 3610 and a color Gray constituting brown, gray constituting the railing, etc.) can be detected.
  • a pattern e.g., a vertical line of a background, a horizontal line of a railing, and the like
  • the device 1000 or the server 2000 may retrieve images associated with at least one of the detected patterns and colors.
  • the device 1000 or the server 2000 can retrieve images stored in an internal repository (e.g., memory, database). Further, the device 1000 or the server 2000 can search images posted on the Internet.
  • the device 1000 or the server 2000 may search for an image 3621 related to a horizontal line of a handrail, which is a pattern detected in the reference frame 3610.
  • the device 1000 or the server 2000 may also search the image 3622 associated with the vertical line of the background, which is the pattern detected in the reference frame 3610.
  • the device 1000 or the server 2000 can input the retrieved image to the learning model 4000 as learning data.
  • the device 1000 or the server 2000 may input the retrieved images 3621 and 3622 into the learning model 4000 as learning data together with the reference frame 3610. Fig.
  • the device 1000 or the server 2000 may resize the retrieved image to generate a resized image, and apply the generated resized image to the learning model 4000 as learning data.
  • the learning model 4000 may learn the reference frame 3610 and the retrieved images 3621, 3622.
  • the learning model 4000 can recognize features such as the pattern and color of the reference frame 3610.
  • the learning model 4000 can recognize features such as patterns and colors of the retrieved images 3621 and 3622.
  • the learning model can recognize features such as the pattern and color of the generated resize image generated by resizing the searched images 3621 and 3622.
  • the learning model 4000 may generate an extended image generation module for generating an extended image to be displayed in a letter box displayed on both sides of the reference frame 3610 using the recognized feature.
  • 16 and 17 are block diagrams of a device 1000 according to some embodiments.
  • a device 1000 may include a user input 1100, an output 1200, a processor 1300, and a communication unit 1500.
  • a user input 1100 may include a user input 1100, an output 1200, a processor 1300, and a communication unit 1500.
  • the components shown in Fig. 16 are essential components of the device 1000.
  • the device 1000 may be implemented by more components than the components shown in Fig. 16, and the device 1000 may be implemented by fewer components than those shown in Fig.
  • the device 1000 may include a sensing unit 1400 in addition to a user input unit 1100, an output unit 1200, a processor 1300, and a communication unit 1500. [ ), An A / V input unit 1600, and a memory 1700.
  • the user input unit 1100 means means for the user to input data for controlling the device 1000.
  • the user input unit 1100 may include a key pad, a dome switch, a touch pad (contact type capacitance type, pressure type resistive type, infrared ray detection type, surface ultrasonic wave conduction type, A tension measuring method, a piezo effect method, etc.), a jog wheel, a jog switch, and the like, but is not limited thereto.
  • the user input unit 1100 may receive a user input for selecting a first image from the image list.
  • the output unit 1200 may output an audio signal or a video signal or a vibration signal and the output unit 1200 may include a display unit 1210, an acoustic output unit 1220, and a vibration motor 1230 have.
  • the display unit 1210 includes a screen for displaying and outputting information processed by the device 1000. Also, the screen can display an image. For example, at least a portion of the screen may display a second image including at least a portion of the first image and an extended image corresponding to the first image.
  • the display may be, for example, a liquid crystal display (LCD), a light-emitting diode (LED) display, an organic light-emitting diode (OLED) a flexible display in which the aspect ratio of a screen on which information is output can be changed by folding or unfolding a display (for example, a matrix organic light-emitting diode (PMOLED), a passive-matrix OLED (PMOLED)) or a microelectromechanical systems Flexible display).
  • LCD liquid crystal display
  • LED light-emitting diode
  • OLED organic light-emitting diode
  • PMOLED passive-matrix OLED
  • the audio output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700.
  • the sound output unit 1220 outputs sound signals related to functions (e.g., call signal reception sound, message reception sound, alarm sound) performed in the device 1000. [
  • Processor 1300 typically controls the overall operation of device 1000.
  • the processor 1300 may include a user input unit 1100, an output unit 1200, a sensing unit 1400, a communication unit 1500, an A / V input unit 1600 ) Can be generally controlled.
  • the processor 1300 may also perform the functions of the device 1000 described in Figures 1-14 by executing programs stored in the memory 1700. [
  • processor 1300 may control user input 1100 to receive text, image, and video input of the user.
  • Processor 1300 may control microphone 1620 to receive a user ' s voice input.
  • the processor 1300 may execute an application that performs operations of the device 1000 based on user input and may control to receive user input through the executed application.
  • the processor 1300 may control to receive a voice input of a user via the microphone 1620 by executing a voice assistant application and controlling an executed application.
  • the processor 1300 may control the output 1200 and the memory 1700 of the device 1000 so that the first image is displayed.
  • the processor 1300 can generate an extended image displayed in a letter box area to be displayed in the first area when the aspect ratio of the first image is different from the aspect ratio of the first area.
  • the processor 1300 can learn the artificial intelligence network by inputting the learning data to the artificial intelligence network. For example, the processor 1300 can generate an extended image generation module for generating an extended image by inputting the learning data into the memory 1700 or the learning model 4000 stored in the server 2000.
  • processor 1300 may be understood to include a graphics processing unit (GPU) (or neural-network processing unit (NPU)).
  • GPU graphics processing unit
  • NPU neural-network processing unit
  • the processor 1300 can generate an extended image corresponding to the reference frame included in the image using the generated extended image generating module, which will be described in more detail with reference to FIG. 19 to FIG.
  • the reference frame is a frame selected to be necessary for generating the extended image. Since the reference frame for generating an extended image has been described with reference to FIG. 4, redundant contents are omitted.
  • the processor 1300 may extract at least one frame included in the first image.
  • the processor 1300 may control the output unit 1200 and the memory 1700 of the device 1000 to display a second image including at least a portion of the first image and an extended image corresponding to the first image.
  • the processor 1300 can use the learning apparatus and the learning model 4000 stored in the memory 1700 or the server 2000 to efficiently learn a criterion for generating an extended image corresponding to a reference frame included in the image And an extended image generation module for generating an extended image corresponding to the user's intention according to the learned result can be provided to the user.
  • the sensing unit 1400 may sense a state of the device 1000 or a state around the device 1000 and may transmit sensed information to the processor 1300. [ The sensing unit 1400 may be used to generate some of the device 1000's specification information, the device 1000 status information, the device 1000's environment information, the user's status information, have.
  • the sensing unit 1400 includes a magnetism sensor 1410, an acceleration sensor 1420, an on / humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, (GPS) 1460, an air pressure sensor 1470, a proximity sensor 1480, and an RGB sensor (illuminance sensor) 1490, for example.
  • a magnetism sensor 1410 an acceleration sensor 1420, an on / humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, (GPS) 1460, an air pressure sensor 1470, a proximity sensor 1480, and an RGB sensor (illuminance sensor) 1490, for example.
  • GPS global positioning sensor
  • RGB sensor luminance sensor
  • the communication unit 1500 may include one or more components that allow the device 1000 to communicate with other devices (not shown) and the server 2000.
  • the other device may be a computing device, such as device 1000, or may be a sensing device, but is not limited thereto.
  • the communication unit 1500 may include a local communication unit 1510, a mobile communication unit 1520, and a broadcast receiving unit 1530.
  • the short-range wireless communication unit 1510 includes a Bluetooth communication unit, a BLE (Bluetooth Low Energy) communication unit, a Near Field Communication unit, a WLAN communication unit, a Zigbee communication unit, IrDA, an infrared data association) communication unit, a WFD (Wi-Fi Direct) communication unit, an UWB (ultra wideband) communication unit, an Ant + communication unit, and the like.
  • a Bluetooth communication unit a BLE (Bluetooth Low Energy) communication unit, a Near Field Communication unit, a WLAN communication unit, a Zigbee communication unit, IrDA, an infrared data association) communication unit, a WFD (Wi-Fi Direct) communication unit, an UWB (ultra wideband) communication unit, an Ant + communication unit, and the like.
  • the mobile communication unit 1520 transmits and receives radio signals to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data depending on a voice call signal, a video call signal, or a text / multimedia message transmission / reception.
  • the broadcast receiving unit 1530 receives broadcast signals and / or broadcast-related information from outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the device 1000 may not include the broadcast receiver 1530 according to an embodiment.
  • the communication unit 1500 can transmit the video to the server 2000.
  • the communication unit 1500 may transmit at least a part of the first image stored in the memory 1700 to the server 2000.
  • the communication unit 1500 may transmit at least one frame extracted from the first image to the server 2000.
  • the communication unit 1500 may transmit an image composed of a plurality of frames extracted from the first image to the server 2000.
  • the communication unit 1500 may transmit an image obtained by cropping a part of the first image to the server 2000.
  • the communication unit 1500 can transmit information on the first image posted on the Internet to the server 2000.
  • the communication unit 1500 can transmit an identifier (e.g., a URL) of the first image to the server 2000.
  • the communication unit 1500 may transmit at least one frame extracted from the first image to the server 2000.
  • the communication unit 1500 may transmit an image composed of a plurality of frames extracted from the first image to the server 2000.
  • the communication unit 1500 may receive the extended image generation module produced by the server.
  • the communication unit 1500 can receive the image list from the server.
  • the communication unit 1500 can receive an image from a server.
  • the A / V (Audio / Video) input unit 1600 is for inputting an audio signal or a video signal, and may include a camera 1610, a microphone 1620, and the like.
  • the camera 1610 can obtain an image frame such as a still image or a moving image through the image sensor in a video communication mode or a shooting mode.
  • the image captured via the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown).
  • the image photographed by the camera 1610 can be utilized as context information of the user.
  • the microphone 1620 receives an external acoustic signal and processes it as electrical voice data.
  • the microphone 1620 may receive acoustic signals from an external device or user.
  • the microphone 1620 may receive the user's voice input.
  • the microphone 1620 may use various noise reduction algorithms for eliminating noise generated in receiving an external sound signal.
  • the memory 1700 may store a program for processing and controlling the processor 1300 and may store data input to or output from the device 1000. [ In addition, the memory 1700 may store the image and the result of searching for the image stored in the memory 1700. The memory 1700 may store information related to images stored in the device 1000 in the device 1000. [ For example, the memory 1700 may store the path of the image, the playback time of the image, the aspect ratio of the image, whether the extended image has been generated, and the like.
  • the memory 1700 may store at least one frame extracted from the image.
  • Memory 1700 may store an artificial intelligence network.
  • the memory 1700 may store an extended image generation module generated from a learning device, a learning model, and a learning model.
  • the memory 1700 can store an extended image generated by inputting a frame included in the image to the extended image generating module.
  • the memory 1700 may be a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (e.g., SD or XD memory), a RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) , An optical disc, and the like.
  • a flash memory type e.g., a hard disk type, a multimedia card micro type, a card type memory (e.g., SD or XD memory), a RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory) , An optical disc, and the like.
  • a flash memory type e.g., a hard disk type
  • a multimedia card micro type e.g.
  • Programs stored in the memory 1700 can be classified into a plurality of modules according to their functions, for example, a UI module 1710, a touch screen module 1720, a notification module 1730, .
  • the UI module 1710 can provide a specialized UI, a GUI, and the like that are interlocked with the device 1000 for each application.
  • the touch screen module 1720 may detect a touch gesture on the user's touch screen and may pass information to the processor 1300 about the touch gesture.
  • the touch screen module 1720 according to some embodiments may recognize and analyze the touch code.
  • the touch screen module 1720 may be configured as separate hardware including a controller.
  • the notification module 1730 may generate a signal for notifying the occurrence of an event of the device 1000.
  • events generated in the device 1000 include call signal reception, message reception, key signal input, schedule notification, and the like.
  • the notification module 1730 may output a notification signal in the form of a video signal through the display unit 1210 or may output a notification signal in the form of an audio signal through the sound output unit 1220, It is possible to output a notification signal in the form of a vibration signal.
  • FIG. 18 is a block diagram of a server 2000 in accordance with some embodiments.
  • a server 2000 may include a communication unit 2500, a DB 2700, and a processor 2300.
  • the communication unit 2500 may include one or more components for communicating with the device 1000.
  • the communication unit 2500 can receive an image from the device 1000 or transmit it to the device 1000.
  • DB 2700 can store learning data input to artificial intelligence network and artificial intelligence network.
  • the DB 2700 can store learning data input to a learning device, a learning model, and a learning model.
  • the DB 2700 may store an extended image generation module generated from the learning model.
  • the DB 2700 can store at least one image.
  • the DB 2700 may store an extended image corresponding to at least one image generated by the extended image generation module.
  • the DB 2700 may store at least one image and an image in which an extended image portion corresponding to the image is combined.
  • the processor 2300 typically controls the overall operation of the server 2000.
  • the processor 2300 can entirely control the DB 2700 and the communication unit 2500 by executing programs stored in the DB 2700 of the server 2000.
  • Processor 2300 may perform some of the operations of device 1000 in Figures 1-15 by executing programs stored in DB 2700.
  • the processor 2300 has a function of extracting a frame from an image, a function of generating learning data based on the extracted frame, a function of generating an extended image generation module by inputting learning data into a learning model, And generating an extended image by inputting the expanded image.
  • the processor 2300 receives data necessary for extracting a frame from an image, data necessary for generating learning data based on the extracted frame, data required for generating an extended image generation module by inputting learning data into a learning model, And data necessary for generating an extended image by inputting an image into the extended image.
  • 19 is a block diagram of a processor 1300 in accordance with some embodiments.
  • a processor 1300 may include a data learning unit 1310 and a data recognizing unit 1320.
  • the data learning unit 1310 may learn a criterion for generating an extended image corresponding to a reference frame included in the image.
  • the reference frame is a frame that is selected to be necessary to generate an extended image. Since the reference frame used to generate the extended image has been described above with reference to FIG. 5, redundant contents are omitted.
  • the data learning unit 1310 can learn a criterion of what data to use to generate an extended image corresponding to the reference frame included in the image.
  • the data learning unit 1310 can acquire data to be used for learning and apply the obtained data to a data recognition model to be described later to learn a criterion for generating an extended image corresponding to a reference frame included in the image .
  • the data learning unit 1310 acquires a previous frame and a next frame, which are frames that can be reproduced before and after a predetermined time from the reference frame, as learning data, acquires a resize image in which the reference frame and the reference frame are resized, It is possible to acquire a crop image obtained by cropping the reference frame and the reference frame as learning data and acquire the retrieved image as learning data in relation to the reference frame as a reference for acquiring learning data.
  • the data to be used for learning and the method for acquiring the data have been described above with reference to FIGS. 9 to 15, so that redundant contents are omitted.
  • the data learning unit 1310 applies a weight to the pixels of the learning data located in the vicinity of the letter box area and applies the weight to the pixels of the learning data located near the same pixel as the reference frame Learning can be performed as a criterion for learning data.
  • the data recognition unit 1320 may generate an extended image corresponding to the reference frame included in the image based on the data.
  • the data recognizing unit 1320 can generate an extended image corresponding to the reference frame included in the image from the predetermined data by using the learned extended image generating module.
  • the data recognition unit 1320 may acquire predetermined data according to a preset reference by learning and use the obtained data as an input value to use the extended image generation module.
  • the data recognition unit 1320 can generate an extended image corresponding to the reference frame included in the image based on the predetermined data.
  • the result output by the extended image generation module with the obtained data as an input value can be used to update the extended image generation module.
  • At least one of the data learning unit 1310 and the data recognition unit 1320 may be manufactured in the form of at least one hardware chip and mounted on the device.
  • at least one of the data learning unit 1310 and the data recognition unit 1320 may be fabricated in the form of a dedicated hardware chip for artificial intelligence (AI) or a conventional general purpose processor Or an application processor) or a graphics-only processor (e.g., a GPU), and may be mounted on various devices as described above.
  • AI artificial intelligence
  • a conventional general purpose processor Or an application processor or a graphics-only processor (e.g., a GPU)
  • the data learning unit 1310 and the data recognizing unit 1320 may be mounted on one device, or may be mounted on separate devices, respectively.
  • one of the data learning unit 1310 and the data recognizing unit 1320 may be included in the device 1000, and the other may be included in the server 2000.
  • the data learning unit 1310 and the data recognition unit 1320 may provide the model information constructed by the data learning unit 1310 to the data recognition unit 1320 via a wire or wireless communication, 1320 may be provided to the data learning unit 1310 as additional learning data.
  • At least one of the data learning unit 1310 and the data recognition unit 1320 may be implemented as a software module.
  • the software module can be read by a computer, And may be stored in non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS Operating System
  • some of the at least one software module may be provided by an Operating System (OS)
  • OS Operating System
  • 20 is a block diagram of a data learning unit 1310 according to some embodiments.
  • a data learning unit 1310 includes a data acquisition unit 1310-1, a preprocessing unit 1310-2, a learning data selection unit 1310-3, a model learning unit 1310 -4) and a model evaluation unit 1310-5.
  • the data acquisition unit 1310-1 may acquire data necessary for generating an extended image corresponding to an image.
  • the data acquisition unit 1310-1 may include a reference frame included in the image, at least one previous frame before the reference frame, at least one subsequent frame after the reference frame, a resize frame that resizes the reference frame, A part of the frame may be cropped to obtain an image related to at least one of the generated crop image, the pattern constituting the reference frame, and the color.
  • the preprocessing unit 1310-2 can preprocess the acquired data so that data necessary for generating an extended image corresponding to the image can be used.
  • the preprocessing unit 1310-2 processes the acquired data into a predetermined format so that the model learning unit 1310-4, which will be described later, can use the data acquired for learning to generate an extended video corresponding to the video .
  • the learning data selection unit 1310-3 can select data necessary for learning from the preprocessed data.
  • the selected data may be provided to the model learning unit 1310-4.
  • the learning data selection unit 1310-3 can select data required for learning from the preprocessed data according to a predetermined criterion for generating an extended video corresponding to the video.
  • the learning data selection unit 1310-3 can also select data according to a predetermined criterion by learning by the model learning unit 1310-4, which will be described later.
  • the model learning unit 1310-4 can learn a criterion on how to generate an extended video corresponding to the video based on the learning data. Also, the model learning unit 1310-4 may learn a criterion as to which learning data should be used in order to generate an extended image corresponding to the image.
  • a criterion for which learning data to be used by the model learning unit should be used at least one of a criterion for selecting a reference frame to be used as learning data, and a frame that can be reproduced before and after a predetermined time from the reference frame, A criterion for selecting the resized image of the reference frame as learning data, a criterion for selecting the crop image of the reference frame as the learning data, and a criterion for selecting the image related to the category of the image as learning data . ≪ / RTI >
  • the model learning unit 1310-4 can learn the learning model used for generating the extended image corresponding to the image, using the learning data.
  • the learning model may be constructed in advance.
  • the learning model may be pre-built by receiving basic learning data (e.g., sample data, etc.).
  • the learning model can be constructed considering the application field of the recognition model, the purpose of learning, or the computer performance of the device.
  • the learning model may be, for example, a model based on a neural network.
  • models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Bidirectional Recurrent Deep Neural Network (BRDNN), and Generative Adversarial Networks (GAN) may be used as a learning model.
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • GAN Generative Adversarial Networks
  • the model learning unit 1310-4 can determine a learning model having a large relation between the input learning data and the basic learning data as a learning model to be learned .
  • the basic learning data may be pre-classified according to the data type, and the learning model may be pre-built for each data type.
  • the basic learning data may be pre-classified by various criteria such as an area where the learning data is generated, a time at which the learning data is generated, a size of the learning data, a genre of the learning data, a creator of the learning data, .
  • model learning unit 1310-4 can learn a learning model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
  • the model learning unit 1310-4 can learn a learning model through, for example, supervised learning using learning data as an input value.
  • the model learning unit 1310-4 can select a reference frame of an image without any additional map and learn the type of data necessary for generating an extended image corresponding to the selected reference frame, for example,
  • the learning model can be learned through unsupervised learning that finds a criterion for generating a corresponding extended image.
  • the model learning unit 1310-4 may learn the learning model through reinforcement learning using feedback on whether the result of generating the extended image corresponding to the image according to the learning is correct, for example. .
  • the model learning unit 1310-4 can store the extended image generation module generated using the learned learning model.
  • the model learning unit 1310-4 may store the extended image generation module in the memory of the device including the data recognition unit 1320.
  • the model learning unit 1310-4 may store the extended image generation module in the DB of the server connected to the device and the wired or wireless network.
  • the memory in which the extended image generation module is stored may also store, for example, a command or data associated with at least one other component of the device.
  • the memory may also store software and / or programs.
  • the program may include, for example, a kernel, a middleware, an application programming interface (API), and / or an application program (or "application").
  • the model evaluation unit 1310-5 inputs the evaluation data to the learning model, and if the recognition result output from the evaluation data does not satisfy the predetermined criterion, the model evaluation unit 1310-5 can cause the model learning unit 1310-4 to learn again .
  • the evaluation data may be predetermined data for evaluating the learning model.
  • the model evaluation unit 1310-5 satisfies a predetermined criterion It can be evaluated as not doing. For example, when a predetermined criterion is defined as a ratio of 2%, and the learned learning model outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1000 evaluation data, the model evaluation section 1310-5 The learned learning model can be evaluated as not suitable.
  • the model evaluating unit 1310-5 evaluates whether each of the learned learning models satisfies a predetermined criterion, and if the learning models satisfying the predetermined criterion are the final learning models You can decide. In this case, when there are a plurality of learning models satisfying a predetermined criterion, the model evaluating section 1310-5 can determine any one or a predetermined number of learning models preset in descending order of evaluation scores as a final learning model.
  • the data acquisition unit 1310-1, the preprocessing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-4 in the data learning unit 1310, -5) may be fabricated in at least one hardware chip form and mounted on the device.
  • at least one of the data acquisition unit 1310-1, the preprocessing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5 One may be made in the form of a dedicated hardware chip for artificial intelligence (AI), or may be fabricated as part of a conventional general purpose processor (e.g., a CPU or application processor) or a graphics dedicated processor (e.g., GPU) It may be mounted on various devices.
  • AI artificial intelligence
  • the data acquisition unit 1310-1, the preprocessing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, Or may be mounted in separate devices, respectively.
  • some of the data acquisition unit 1310-1, the preprocessing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5 May be included in the device, and the rest may be included in the server.
  • At least one of the data acquisition unit 1310-1, the preprocessing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5 Software module. At least one of the data acquisition unit 1310-1, the preprocessing unit 1310-2, the learning data selection unit 1310-3, the model learning unit 1310-4, and the model evaluation unit 1310-5, (Or a program module including an instruction), the software module may be stored in a computer-readable, readable non-transitory computer readable media. Also, in this case, the at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an Operating System (OS), and some of the software modules may be provided by a predetermined application.
  • OS operating system
  • OS Operating System
  • the processor 1300 can use various learning models and can efficiently learn a criterion for generating an extended image corresponding to an image in various ways through a learning model.
  • 21 is a block diagram of a data recognition unit 1320 according to some embodiments.
  • a data recognition unit 1320 includes a data acquisition unit 1320-1, a preprocessing unit 1320-2, a recognition data selection unit 1320-3, 1320-4 and a model updating unit 1320-5.
  • the data acquisition unit 1320-1 may acquire the acquired data to generate an extended image corresponding to the image.
  • the data acquisition unit 1320-1 may include a reference frame included in the image, at least one previous frame preceding the reference frame, at least one subsequent frame after the reference frame, a resize frame resizing the reference frame, To obtain an image related to at least one of the generated crop image, the pattern constituting the reference frame, and the color.
  • the preprocessing unit 1320-2 can pre-process the acquired data so that the acquired data can be used to generate an extended image corresponding to the image.
  • the preprocessing unit 1320-2 can process the acquired data into a predetermined format so that the recognition result providing unit 1320-4, which will be described later, can use the acquired data to generate an extended image corresponding to the image .
  • the recognition data selection unit 1320-3 can select data necessary for generating an extension image corresponding to the image from the preprocessed data.
  • the selected data may be provided to the recognition result provider 1320-4.
  • the recognition data selection unit 1320-3 can select some or all of the preprocessed data according to a predetermined criterion for generating an extension image corresponding to the image.
  • the recognition data selection unit 1320-3 can also select data according to a predetermined criterion by learning by the model learning unit 1310-4, which will be described later.
  • the recognition result providing unit 1320-4 may apply the selected data to the extended image generating module to generate an extended image corresponding to the image.
  • the recognition result providing unit 1320-4 can provide the recognition result according to the data recognition purpose.
  • the recognition result providing unit 1320-4 can apply the selected data to the extended image generating module by using the data selected by the recognition data selecting unit 1320-3 as an input value. Further, the recognition result may be determined by the extended image generation module.
  • the model updating unit 1320-5 can update the extended image generation module based on the evaluation of the recognition result provided by the recognition result providing unit 1320-4. For example, the model updating unit 1320-5 provides the recognition result provided by the recognition result providing unit 1320-4 to the model learning unit 1310-4 so that the model learning unit 1310-4 The learning model may be updated and the extended image generation module may be updated using the updated learning model.
  • the data acquisition unit 1320-1, the preprocessing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4, and the model updating unit 1320-4 in the data recognizing unit 1320 1320-5 may be fabricated in at least one hardware chip form and mounted on the device.
  • At least one may be made in the form of a dedicated hardware chip for artificial intelligence (AI) or as part of a conventional general purpose processor (e.g. CPU or application processor) or a graphics dedicated processor (e.g. GPU) It may be mounted on one device.
  • AI artificial intelligence
  • a conventional general purpose processor e.g. CPU or application processor
  • a graphics dedicated processor e.g. GPU
  • the data acquiring unit 1320-1, the preprocessing unit 1320-2, the recognition data selecting unit 1320-3, the recognition result providing unit 1320-4, and the model updating unit 1320-5 may be mounted on separate devices, respectively.
  • the preprocessing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4, and the model updating unit 1320-5 Some of them may be included in the device 1000, and some of them may be included in the server 2000.
  • At least one of the data acquisition unit 1320-1, the preprocessing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4, and the model updating unit 1320-5 May be implemented as a software module.
  • At least one of the data acquisition unit 1320-1, the preprocessing unit 1320-2, the recognition data selection unit 1320-3, the recognition result providing unit 1320-4, and the model updating unit 1320-5 When implemented in a module (or program module including an instruction), the software module may be stored in a computer-readable, non-transitory computer readable medium.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS Operating System
  • some of the software module may be provided by an Operating System (OS)
  • some of the software modules may be provided by a predetermined application.
  • the device 1000 can provide an extended image matching the user's intention to the user using the extended image generation module to which the learned result is applied.
  • 22 is a diagram showing an example of learning and recognizing data by interlocking with the device 1000 and the server 2000 according to some embodiments.
  • the server 2000 may learn a criterion for generating an extended image corresponding to an image, and the device 1000 may generate an extended image corresponding to the image based on the learning result by the server 2000, Can be generated.
  • the model learning unit 2340 of the server 2000 can perform the function of the data learning unit 1310 shown in Fig.
  • the model learning unit 2340 of the server 2000 can learn a criterion of what data is used to generate an extended image corresponding to an image.
  • the model learning unit 2340 of the server can learn a criterion on how to generate an extended image corresponding to an image using data.
  • the model learning unit 2340 can acquire data to be used for learning and apply the acquired data to a learning model to be described later so as to learn a criterion for generating an extended image corresponding to the image.
  • the recognition result providing unit 1320-4 of the device 1000 applies the data selected by the recognition data selecting unit 1320-3 to the extended image generating module generated by the server 2000, An extended image can be generated.
  • the recognition result providing unit 1320-4 transmits the data selected by the recognition data selecting unit 1320-3 to the server 2000.
  • the server 2000 selects the recognition data selecting unit 1320-3, May be applied to the extended image generation module to request to generate an extended image corresponding to the image.
  • the recognition result providing unit 1320-4 may receive from the server 2000 information on how to generate an extended image corresponding to the image by the server 2000.
  • the recognition result providing unit 1320-4 of the device 1000 may receive the extended image generation module generated by the server 2000 from the server 2000, and may use the received extended image generation module Can be generated. In this case, the recognition result providing unit 1320-4 of the device 1000 applies the data selected by the recognition data selecting unit 1320-3 to the extended image generating module received from the server 2000, An extended image can be generated.
  • the device 1000 and the server 2000 can effectively perform a learning model learning, an operation of generating an extended image generation module, and a task of data recognition, thereby providing a service meeting the user's intention
  • the data processing can be efficiently performed and the privacy of the user can be effectively protected.
  • 23 is a schematic block diagram of a device according to one embodiment.
  • the device 1000 includes a processor 2360, a memory 2362, a graphics processing unit (GPU) (or neural-network processing unit) 2364, and a display unit 2366 can do.
  • Processor 2360 may include processor 1300 of FIG.
  • Display 2366 may include display portion 1210 of FIG.
  • the device 1000 may further include a decoder 2360a, at least one buffer memory 2360b.
  • Decoder 2360a, buffer memory 2360b may be, for example, included in processor 2360.
  • the memory 2362 may store a first image and / or an extended image generation module.
  • the first image may be an image decoded by the decoder 2360a included in the processor 2360 and stored in the memory 2362, for example.
  • the processor 2360 may acquire and transmit the first image stored in the memory 2362 to the buffer memory 2360b. Processor 2360 may generate a copy of the first image stored in buffer memory 2360b and send it to GPU 2364.
  • the GPU (or NPU) 2364 may be an optimized processor for artificial intelligence.
  • the GPU (or NPU) 2364 may be a processor that is more integrated than a generic processor, has a small delay, dominates performance, or has many resources.
  • the GPU (or NPU) 2364 may be, for example, a processor optimized for matrix operation for artificial intelligence.
  • the GPU 2364 may generate an extended image using the first image based on an instruction of the processor 2360.
  • the processor 2360 may control the GPU 2364 to identify the area to be letterboxed and reproduce an extended image to be displayed in the letterbox area when the first image is reproduced on the display part 2366.
  • the processor 2360 may obtain and store the extended image generation module stored in the memory 2362 in the buffer memory 2360b and may transmit a copy of the extended image generation module to the GPU 2364.
  • the GPU 2364 can generate an extended image corresponding to the size of the letter box area using the extended image generation module and the first image.
  • the processor 2360 may acquire an extension image corresponding to the generated outer area and store the extension image in the buffer memory 2360b.
  • the processor 2360 may generate the second image using the extended image stored in the buffer memory 2360b and the first image.
  • the second image may be, for example, an image including at least a part of the first image and an extended image.
  • the GPU 2364 may generate a second image using the first image.
  • the GPU 2364 may generate an extended image based on the size of the identified letterbox area, and may generate a second image using at least a portion of the generated extended image and the first image.
  • the processor 2360 may perform post-processing on the boundary region between the first image and the extended image in the generated second image.
  • the post-processing may mean, for example, processing the border area so that it is not well-distinguished to the user.
  • post-processing may mean smoothing or color processing the boundary region between the first image and the extension image.
  • the processor 2360 may perform post-processing on the second image by applying a deblocking filter to a boundary region between the first image and the extension image.
  • the device 1000 can obtain a second image in which a difference in pixel values of pixels located at the boundary between the first image and the extended image is reduced using post-processing.
  • the processor 2360 may transmit the second image stored in the buffer memory 2360b to the display unit 2366 and control the display unit 2366 to output the second image.
  • the device 1000 may proceed to the extended image generation process described above before the user views the first image.
  • the present invention is not limited thereto.
  • the device 1000 may proceed to the extended image generation process in a state where the first image is downloaded from the server in a streaming form.
  • 24 is a view for explaining a process of generating an extended image generation module by a device according to an embodiment.
  • the device 1000 stores the learning model 2410 stored in the memory 2362 or the GPU 2364 and the learning data 2420 corresponding to the first category stored in the memory 2362 to the learning device 2430.
  • the learning device 2430 may be an algorithm set to generate the learning image generation module 2440 by learning the learning model 2420 by inputting the learning data 2420 to the learning model 2410, for example.
  • the learning model 2410 may be a learning model that is learned to generate an extended image corresponding to an outer region of an image.
  • the learning model 2410 may be one that was mounted at the time the device 1000 was manufactured. Alternatively, the learning model 2410 may be received from the server 2000.
  • the first category may be at least one of, for example, a SF movie, a natural documentary, a live performance, a 2D animation, a 3D animation, an augmented reality (AR) That is, the learning data corresponding to the first category may be an image (e.g., still image, moving picture) classified into at least one category among the categories.
  • the device 1000 may identify the SF movie as a first category, the natural documentary as a second category, or the live performance as a third category.
  • the learning device 2430 may apply the learning data 2420 corresponding to the input first category to the learning model 2410 to proceed with learning.
  • the learning device 2430 can learn the learning model 2410 using the learning data corresponding to the plurality of first categories.
  • the learning model 2430 updates the learned learning model (e.g., For example, an extended image generation module corresponding to the first category) 2440 can be generated.
  • the device 1000 may store the extended image generation module 2440 corresponding to the first category in the memory 2362. [ However, the present invention is not limited thereto.
  • the device 1000 may store the extended image generation module corresponding to the first category in the GPU 2364 described in FIG.
  • the device 1000 can repeat the above-described process using different pieces of learning data (for example, learning data corresponding to the second category, learning data corresponding to the third category) have.
  • the device 1000 stores a plurality of extended image generation modules corresponding to different categories generated as a result of repeated execution in the GPU 2364.
  • An extension image of the first image may be generated using the generation module, and a second image may be generated.
  • the device 1000 may provide a user interface for deleting the generated extended image generation module according to the needs of the user, thereby inducing efficient use of the memory 2362.
  • 25 is a view for explaining a process of generating an extended image according to a method in which a device according to an embodiment downloads a first image from a server.
  • the device 1000 can download the first image from the server 2000 at a time.
  • the device 1000 may use the decoder 2510 to decode the downloaded first image.
  • the device 1000 may generate an extended image or a second image using the decoded first image 2520.
  • the device 1000 checks the area to be letterboxed when displaying each of a plurality of frames included in the decoded first image 2520 and uses the expanded image generation module 2530 in the letterbox area
  • An extended image to be displayed can be generated.
  • the device 1000 may generate the second image 2540 using at least a portion of the generated extended image and the decoded first image.
  • the device 1000 may display the generated second image 2540.
  • the device 1000 can download the first image from the server 2000 in a streaming form.
  • device 1000 may use decoder 2510 to decode frames streamed.
  • the device 1000 may generate an extended image of decoded frames using a plurality of extended image generation modules corresponding to the characteristics of the decoded frames.
  • the device 1000 may identify whether the decoded frame is an Intra frame or an Inter frame.
  • An Intra frame may mean a frame to be decoded in the absence of another frame to be referred to when decoding the frame, for example.
  • An inter frame may mean a frame to be decoded using, for example, other frames already decoded in the case of decoding the frame.
  • the device 1000 If the decoded frame is an Intra frame, the device 1000 generates an extended image using the input image, and the extended image generation module 2550 sets the extended image using the center area of the frame, So as to generate an image.
  • the device 1000 may generate an extended frame including the generated extended image and the decoded intra frame.
  • the device 1000 When the decoded frame is an Inter frame, the device 1000 performs an operation of generating an extended image using an input image and an operation of generating an extended image using another frame that can be referred to
  • the set extended image generation module 2560 can control to generate an extended image of the frame with reference to the middle area of the frame and other frames that have already been decoded and generated the extended image.
  • the device 1000 stores a frame extended to the buffer memory 2562 or the decoder 2510 included in the extension generation module 2560, and can refer to the extension of the inter frame.
  • the device 1000 may generate an extended frame including the generated extended image and the decoded inter frame.
  • the device 1000 may generate and display a second image using the extended frames 2571, 2572.
  • 26 is a view for explaining a sequence in which a device according to an embodiment generates an extended image of a frame.
  • the device 1000 may determine the order of decoding in response to the characteristics of the frame. The device 1000 may proceed to generate an extended image for the decoded frame.
  • the device 1000 may decode the first frame 2611 to the ninth frame 2619 and generate an extended image for the decoded frame.
  • the device 1000 may use different decoding methods depending on the characteristics of the frame.
  • some types of frames may include frame characteristics that decode in the absence of other frames to reference, for example, when decoding the frame. According to various embodiments, it may include frame characteristics that decode in the absence of other frames that reference more than 50% in decoding the frame. According to one embodiment, a frame having this property may be referred to as an I frame or an intra frame.
  • the other kind of frame may include a frame characteristic for decoding, for example, using frames temporally earlier than the frame in the case of decoding the frame.
  • a frame having this property can be named as a P frame.
  • another type of frame may include, for example, a frame characteristic that decodes in time, using frames earlier than the frame and frames later than the frame, in the case of decoding the frame.
  • a frame with this property can be named a B frame.
  • the first frame 2611 may be an I frame.
  • the second frame 2612 to the eighth frame 2618 may be B frames.
  • the ninth frame 2619 may be a P frame.
  • the device 1000 may decode the first frame 2611 and then the ninth frame 2619 according to the characteristics of the frame.
  • the device 1000 may generate an extended image of the first frame 2611 by applying the decoded first frame 2611 to the extended image generation module configured to generate an outer region of the image using the input image.
  • the device 1000 generates an extended image that is set to perform an operation of generating an outer region by using the input image and an outer frame image using another frame that can be referred to,
  • the extended image of the ninth frame 2619 can be generated.
  • the device 1000 may decode the fifth frame 2615 using the first frame 2611 and the ninth frame 2619.
  • the device 1000 may generate the outer frame area by using the decoded fifth frame 2615 as an input image, and may generate other frames (e.g., a first frame 2611, a ninth frame 2619 ) To generate an extended image of the fifth frame 2615 by applying the generated extended image to the extended image generation module.
  • the device 1000 can decode in the order of the third frame 2613, the second frame 2612, and the fourth frame 2614 using the method described above, have. Further, the device 1000 can decode the seventh frame 2617, the sixth frame 2616, and the eighth frame 2618 in this order, and generate an extended image using the above-described method.
  • the device 1000 can sequentially display the frames from the first frame 2611 to the ninth frame 2619 when the decoding and the generation of the extended image are completed.
  • the device 1000 sequentially displays the first frame 2611 to the fifth frame 2615, and sequentially displays the seventh frame 2617, Frame 2616, and eighth frame 2618, and generate an extended image.
  • 27 is a view for explaining a situation where a device according to an embodiment resizes an image and generates an extended image.
  • the device 1000 may enlarge the size of the decoded image using a resizer (or a scaler) 2730.
  • the device 1000 may change the resolution of the first image 2710 from 1280 X 720 (aspect ratio 16: 9) to 2560 X 1440 (aspect ratio 16: 9) using the resizer 2730.
  • the aspect ratio (e.g., 16: 9) of the first image 2710 displayed in the first region is determined by the aspect ratio (e.g., 18: 9) of the first region in which the first image 2710 is displayed can be different.
  • the device 1000 can display letterboxes 2711a and 2711b.
  • the device 1000 may generate the extended image of each frame included in the first image 2710 by inputting the first image 2710 to the extended image generating module 2740.
  • the device 1000 may generate a second image 2720 including the generated extended image and at least a portion of the first image 2710.
  • the second image 2720 may have a resolution of 2960 X 1440 and an aspect ratio of 18: 9 equal to the aspect ratio of the first area.
  • the device 1000 may display the generated second image 2720.
  • the device 1000 may input the frames included in the second image 2720 to the extended image generation module 2740 to allow the extended image generation module to refer to the generation of the outer region of the other frames have.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • the computer-readable medium may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.
  • &quot part " may be a hardware component such as a processor or a circuit, and / or a software component executed by a hardware component such as a processor.

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 구체적으로, 적어도 하나의 프로그램 및 제1 영상이 저장되는 메모리, 디스플레이부 및 상기 적어도 하나의 프로그램을 실행함으로써 상기 디스플레이부의 적어도 일부에 상기 제1 영상을 디스플레이하도록 하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로그램은, 상기 제1 영상의 종횡비 및 상기 제1 영상이 디스플레이될 영역의 종횡비를 비교하는 단계, 상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이한 경우, 상기 제1 영상을 이용하여, 상기 영역의 종횡비에 대응하는 제2 영상을 생성하는 단계 및 제2 영상을 상기 영역에 디스플레이하는 단계를 수행하는 명령어들을 포함하고, 상기 제2 영상을 생성하는 단계는 상기 제1 영상의 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 상기 제2 영상을 생성하는 단계를 포함하는, 디바이스를 개시한다.

Description

영상 재생 장치 및 그의 제어 방법
본 개시는 영상을 재생하는 장치 및 그의 제어 방법에 관한 것이다.
디스플레이부를 포함하는 디바이스는 외부에서 송신되는 신호를 수신하여 디스플레이부에 영상을 출력할 수 있고, 기 저장된 데이터를 이용하여 디스플레이에 영상을 출력할 수 있다.
디바이스가 디스플레이부를 이용하여 영상을 재생할 때, 영상의 가로 세로 비율과 디스플레이부의 표시 영역의 가로 세로 비율이 동일하지 않아, 디스플레이부의 표시 영역의 일부가 검은색으로 표시되는 경우가 있다. 최근 디바이스들은 검은색으로 표시되는 영역이 없이 영상을 재생하기 위한 다양한 방법들을 제안하고 있다.
한편 최근 디바이스는 인공지능 기술을 영상을 재생하거나 또는 생성하는 것에 이용하고 있다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
일부 실시예는, 영상의 종횡비가 디바이스의 화면의 종횡비와 상이한 경우, 화면 상에 레터박스가 표시되지 않도록, 종횡비의 왜곡이 없는 영상을 디스플레이하는 디바이스를 제공할 수 있다.
본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은 적어도 하나의 프로그램 및 제1 영상이 저장되는 메모리, 디스플레이부 및 상기 적어도 하나의 프로그램을 실행함으로써 상기 디스플레이부의 적어도 일부에 상기 제1 영상을 디스플레이하도록 하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로그램은, 상기 제1 영상의 종횡비 및 상기 제1 영상이 디스플레이될 영역의 종횡비를 비교하는 단계, 상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이한 경우, 상기 제1 영상을 이용하여, 상기 영역의 종횡비에 대응하는 제2 영상을 생성하는 단계 및 제2 영상을 상기 영역에 디스플레이하는 단계를 수행하는 명령어들을 포함하고, 상기 제2 영상을 생성하는 단계는 상기 제1 영상의 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 상기 제2 영상을 생성하는 단계를 포함하는, 디바이스를 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 프레임들을 추출하는 단계, 상기 추출된 프레임들에 기초하여 상기 인공지능 신경망에 입력될 학습 데이터를 생성하는 단계 및 상기 학습 데이터를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 제2 영상을 생성하는 단계를 더 포함하는, 디바이스를 제공할 수 있다. .
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임의 외곽에 위치된 소정의 픽셀들에 가중치를 부여하여 상기 학습 데이터를 생성하는 단계를 포함하는, 디바이스를 제공할 수 있다.
또한, 서버에 상기 제1 영상을 전송하고, 상기 서버로부터 상기 서버가 상기 제1 영상을 이용하여 생성한 상기 인공지능 신경망을 수신하는 통신부를 더 포함하고, 상기 제2 영상은 상기 제1 영상의 적어도 하나의 프레임이, 상기 서버로부터 수신된 인공지능 신경망에 입력됨으로써 생성되는, 디바이스를 제공할 수 있다..
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이함에 따라, 상기 영역에 디스플레이 될 레터박스를 확인하는 단계 및 상기 레터박스에 디스플레이 될 확장 영상이 포함된 상기 제2 영상을 생성하는 단계를 포함하는, 디바이스를 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임, 적어도 하나의 이전 프레임(Previous Frame) 및 적어도 하나의 다음 프레임(Next Frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하는, 디바이스를 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임 및 상기 기준 프레임을 리사이징(resize)한 리사이즈 프레임(resized frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는, 디바이스를 제공할 수 있다.
또한, 인터넷 통신을 할 수 있는 통신부를 더 포함하고, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나를 검출하는 단계, 상기 통신부를 이용하여 상기 검출된 패턴 및 색 중 적어도 하나에 관련된 이미지를 검색하는 단계 및 상기 기준 프레임 및 상기 검색된 이미지를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는, 디바이스를 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 기준 프레임, 상기 검색된 이미지, 상기 검색된 이미지를 리사이징(resize)한 리사이즈 이미지(resized image)를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하고, 상기 리사이즈 이미지의 종횡비는 상기 영역의 종횡비에 대응되도록 상기 검색된 이미지가 리사이즈됨으로써 생성되는 것인, 디바이스를 제공할 수 있다.
본 개시의 제2 측면은, 적어도 하나의 프로그램이 저장되는 메모리, 서버로부터 영상 목록을 수신하는 통신부, 상기 영상 목록에서 다운로드 받을 제1 영상을 선택하는 사용자 입력을 수신하는 사용자 입력부, 상기 제1 영상이 디스플레이될 영역이 포함된 디스플레이부 및 상기 적어도 하나의 프로그램을 실행함으로써 상기 제1 영상을 재생하도록 하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로그램은, 상기 서버로부터 상기 영상 목록을 수신하는 단계, 상기 제1 영상을 선택하는 사용자 입력을 수신하는 단계, 상기 서버로 상기 제1 영상의 식별 정보 및 상기 영역의 종횡비에 관한 정보를 전송하는 단계, 상기 제1 영상의 종횡비 및 상기 영역의 종횡비를 비교하는 단계, 상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이한 경우, 상기 제1 영상을 이용하여, 상기 영역의 종횡비에 대응하는 제2 영상을 획득하는 단계 및 상기 제2 영상을 상기 영역에 디스플레이하는 단계를 수행하는 명령어들을 포함하며, 상기 제2 영상은 상기 제1 영상의 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 생성되는 것인, 디바이스를 제공할 수 있다.
본 개시의 제3 측면은, 제1 영상의 종횡비 및 상기 제1 영상이 디스플레이될 영역의 종횡비를 비교하는 단계, 상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이한 경우, 상기 제1 영상을 이용하여 상기 영역의 종횡비에 대응하는 제2 영상을 생성하는 단계 및 상기 제2 영상을 상기 영역 상에 디스플레이하는 단계를 포함하고, 상기 제2 영상을 생성하는 단계는 상기 제1 영상의 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 상기 제2 영상을 생성하는 단계를 포함하는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 프레임들을 추출하는 단계, 상기 추출된 프레임들에 기초하여 상기 인공지능 신경망에 입력될 학습 데이터를 생성하는 단계 및 상기 학습 데이터를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 제2 영상을 생성하는 단계를 더 포함하는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임의 외곽에 위치된 소정의 픽셀들에 가중치를 부여하여 상기 학습 데이터를 생성하는 단계를 포함하는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 서버에 상기 제1 영상을 전송하는 단계 및 상기 서버가 상기 제1 영상을 이용하여 생성한 상기 인공지능 신경망을 상기 서버로부터 수신하는 단계를 더 포함하고, 상기 제2 영상은 상기 제1 영상의 적어도 하나의 프레임이, 상기 서버로부터 수신된 인공지능 신경망에 입력됨으로써 생성되는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이함에 따라, 상기 영역에 디스플레이 될 레터박스를 확인하는 단계 및 상기 레터박스에 디스플레이 될 확장 영상이 포함된 상기 제2 영상을 생성하는 단계를 포함하는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임, 적어도 하나의 이전 프레임(Previous Frame) 및 적어도 하나의 다음 프레임(Next Frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써,상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임 및 상기 기준 프레임을 리사이징(resize)한 리사이즈 프레임(resized frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 제1 영상에 포함된 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나를 검출하는 단계, 상기 검출된 패턴 및 색 중 적어도 하나에 관련된 이미지를 검색하는 단계, 상기 기준 프레임 및 상기 검색된 이미지를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는, 영상 표시 방법을 제공할 수 있다.
또한, 상기 제2 영상을 생성하는 단계는, 상기 기준 프레임, 상기 검색된 이미지, 상기 검색된 이미지를 리사이징(resize)한 리사이즈 이미지(resized image)를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하고,상기 리사이즈 이미지의 종횡비는 상기 영역의 종횡비에 대응되도록 상기 검색된 이미지가 리사이즈됨으로써 생성되는 것인, 영상 표시 방법을 제공할 수 있다.
본 개시의 제4 측면은, 서버로부터 영상 목록을 수신하는 단계, 상기 영상 목록에서 다운로드 받을 제1 영상을 선택하는 사용자 입력을 수신하는 단계, 상기 서버로 상기 제1 영상의 식별 정보 및 상기 제1 영상이 디스플레이될 영역의 종횡비에 관한 정보를 전송하는 단계, 상기 제1 영상의 종횡비 및 상기 영역의 종횡비를 비교하는 단계, 상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이한 경우, 상기 제1 영상을 이용하여, 상기 영역의 종횡비에 대응하는 제2 영상을 획득하는 단계 및 상기 제2 영상을 상기 영역에 디스플레이하는 단계를 포함하며, 상기 제2 영상은 상기 제1 영상의 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 생성되는 것인, 영상 표시 방법을 제공할 수 있다.
본 개시의 제5 측면은, 제1 영상의 종횡비와 디스플레이부에 포함된 상기 제1 영상이 재생될 화면의 종횡비를 비교하는 단계, 상기 비교 결과에 기초하여, 상기 제1 영상에 대응하는 확장 영상 생성 모듈의 존재 여부를 식별하는 단계, 상기 식별 결과에 기초하여, 기 저장된 확장 영상 생성용 학습 모델이 상기 제1 영상의 적어도 일부를 학습함으로써, 상기 제1 영상에 대응하는 제1 확장 영상 생성 모듈을 생성하는 단계, 상기 제1 확장 영상 생성 모듈에 상기 제1 영상을 입력함으로써, 레터 박스에 디스플레이 될 확장 영상을 생성하는 단계 및 상기 제1 영상 및 상기 확장 영상이 합성됨으로써 생성되는 제2 영상을 상기 화면에 디스플레이하는 단계를 포함하고, 상기 레터 박스는 상기 제1 영상이 상기 화면에 재생될 때 상기 제1 영상의 종횡비와 상기 화면의 종횡비의 차이에 의해서 표시되는 영역을 의미하는 것이고, 상기 제2 영상의 종횡비는 상기 화면의 종횡비와 동일한 것인, 영상 표시 방법을 제공할 수 있다.
본 개시의 제6 측면은, 제1 영상이 재생될 화면을 포함하는 디스플레이부, 확장 영상 생성용 학습 모델 및 상기 제1 영상을 저장하는 적어도 하나의 메모리 및 GPU 및 NPU 중 적어도 하나를 포함하는 적어도 하나의 프로세서를 포함하고, 상기 프로세서는, 상기 제1 영상의 종횡비와 상기 화면의 종횡비를 비교하고, 상기 비교 결과에 기초하여, 상기 제1 영상에 대응하는 확장 영상 생성 모듈이 상기 적어도 하나의 메모리에 저장되었는지 여부를 식별하고, 상기 식별 결과에 기초하여, 기 저장된 확장 영상 생성용 학습 모델이 상기 제1 영상의 적어도 일부를 상기 GPU 및 상기 NPU 중 적어도 하나를 통해 학습함으로써, 상기 제1 영상에 대응하는 제1 확장 영상 생성 모듈을 생성하고, 상기 생성된 제1 확장 영상 생성 모듈을 상기 적어도 하나의 메모리에 저장하도록 제어하고, 상기 GPU 및 상기 NPU 중 적어도 하나를 통해 상기 제1 확장 영상 생성 모듈에 상기 제1 영상을 입력함으로써, 레터 박스에 디스플레이 될 확장 영상을 생성하고, 상기 제1 영상 및 상기 확장 영상이 합성됨으로써 생성되는 제2 영상을 상기 화면에 디스플레이되도록 상기 디스플레이부를 제어하고, 상기 레터 박스는 상기 제1 영상이 상기 화면에 재생될 때 상기 제1 영상의 종횡비와 상기 화면의 종횡비의 차이에 의해서 표시되는 영역을 의미하는 것인, 디바이스를 제공할 수 있다.
도 1은 일부 실시예에 따른, 디바이스의 화면에 표시되는 레터박스 영역에 확장 영상을 디스플레이하는 예시를 나타내는 도면이다.
도 2는 일부 실시예에 따른, 디바이스의 화면에 레터박스가 표시되는 다양한 형태를 나타내는 도면이다.
도 3은 일부 실시예에 따른, 디바이스의 화면에 확장 영상을 디스플레이하기 위한 UI를 나타내는 도면이다.
도 4는 일부 실시예에 따른, 디바이스의 화면에 확장 영상이 포함된 영상을 디스플레이하는 영상 표시 방법을 나타내는 흐름도이다.
도 5는 일부 실시예에 따른, 확장 영상을 생성하는 방법을 나타내는 흐름도이다.
도 6은 일부 실시예에 따른, 서버를 이용하여 확장 영상을 생성하는 방법을 나타내는 흐름도이다.
도 7은 일부 실시예에 따른, 서버를 이용하여 확장 영상이 포함된 영상을 디스플레이하는 디바이스의 제어방법을 나타내는 흐름도이다.
도 8은 일부 실시예에 따른, 확장 영상을 생성 또는 선택하는 방법을 나타내는 흐름도이다.
도 9 및 도 10은 일부 실시예에 따른, 영상에 포함된 프레임을 학습 모델에 입력하는 예시를 나타내는 도면이다.
도 11은 일부 실시예에 따른, 리사이즈 이미지를 학습 모델에 입력하는 예시를 나타내는 도면이다.
도 12는 일부 실시예에 따른, 크롭 이미지를 학습 모델에 입력하는 예시를 나타내는 도면이다.
도 13은 일부 실시예에 따른, 영상 내의 프레임에 가중치를 적용하는 예시를 나타내는 도면이다.
도 14는 일부 실시예에 따른, 검색된 이미지를 학습 데이터로서 학습 모델에 입력하는 방법을 나타내는 흐름도이다.
도 15는 일부 실시예에 따른, 검색된 이미지를 학습 데이터로서 학습 모델에 입력하는 예시를 나타내는 도면이다.
도 16 및 도 17은 일부 실시예에 따른 디바이스(1000)의 블록도이다.
도 18은 일부 실시예에 따른 서버(2000)의 블록도이다.
도 19는 일부 실시예에 따른 프로세서(1300)의 블록도이다.
도 20은 일부 실시예에 따른 데이터 학습부(1310)의 블록도이다.
도 21은 일부 실시예에 따른 데이터 인식부(1320)의 블록도이다.
도 22는 일부 실시예에 따른 디바이스(1000) 및 서버(2000)가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 23은 일 실시예에 따른 디바이스의 개략적인 블록도이다.
도 24는 일 실시예에 따른 디바이스가 확장 영상 생성 모듈을 생성하는 과정을 설명하는 도면이다.
도 25는 일 실시예에 따른 디바이스가 서버로부터 제1 영상을 다운로드 하는 방법에 따른 확장 영상 생성 과정을 설명하는 도면들이다.
도 26은 일 실시예에 따른 디바이스가 프레임의 확장 영상을 생성하는 순서에 대하여 설명하는 도면이다.
도 27은 일 실시예에 따른 디바이스가 영상을 리사이즈 하고 확장 영상을 생성하는 상황을 설명하는 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
또한, 본 명세서에서 사용되는 “제 1” 또는 “제 2” 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
이하에서는 설명의 편의를 위해서 제1 영상(3000)이 디스플레이 되는 디바이스(1000)의 화면의 적어도 일부 영역을 제1 영역으로 지칭한다. 또한, 이하에서는 설명의 편의를 위하여 제1 영역을 디바이스(1000)의 화면의 전체 영역으로 간주하여 설명하지만, 이에 한정되지 않는다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 일부 실시예에 따른, 디바이스(1000)의 화면에 표시되는 레터박스 (3010a, 3010b)에 확장 영상(3020a, 3020b)을 디스플레이하는 예시를 나타내는 도면이다.
도 1을 참조하면, 디바이스(1000)는 제1 영상(3000)을 재생하여 제1 영역에 디스플레이 할 수 있다.
제1 영역에 디스플레이되는 제1 영상(3000)의 종횡비는 제1 영상(3000)이 디스플레이되는 제1 영역의 종횡비와 상이할 수 있다. 제1 영상(3000)의 종횡비와 제1 영역의 종횡비가 상이한 경우, 제1 영역에 영상이 디스플레이 될 때, 제1 영역상에 레터박스(3010a, 3010b)가 표시될 수 있다.
제1 영역에 레터박스(3010a, 3010b)가 표시되면, 사용자는 제1 영상(3000)이 실제 크기보다 작게 느껴질 수 있다. 종래에는 제1 영역 상에 레터박스(3010a, 3010b)가 표시되지 않도록 제1 영상(3000)의 상하의 일부 또는 제1 영상(3000)의 좌우의 일부를 크롭(crop)하여 제1 영역에 디스플레이 하였다. 또는 제1 영상(3000)의 종횡비가 제1 영역의 종횡비에 대응되도록 제1 영상(3000)을 리사이즈(resize)하였다.
제1 영상(3000)의 일부를 크롭하는 경우, 제1 영상(3000)에 포함된 정보가 제1 영역에 표시되지 않는다. 사용자는 제1 영상(3000)의 일부만을 시청하므로, 사용자가 영상 제작자의 의도를 놓칠 수 있는 문제점이 존재한다.
또한, 제1 영상(3000)을 리사이즈 하는 경우, 제1 영상(3000)의 종횡비가 변경되므로 사용자는 왜곡된 영상을 시청하게 된다. 사용자는 왜곡된 영상을 시청함에 따라서 불편함을 느끼게 되는 문제점이 존재한다.
본 개시는 위와 같은 문제점을 해결하기 위해서, 인공지능 신경망 기술을 이용하여 제1 영상(3000)을 왜곡하지 않고, 레터박스가 표시되지 않으며, 제1 영상(3000)에 포함된 정보가 모두 표시되도록, 확장 영상(3020a, 3020b)을 생성하는 디바이스 및 영상 표시 방법을 제공할 수 있다.
또한, 본 개시는 생성된 확장 영상(3020a, 3020b)과 제1 영상(3000)을 포함하는 제2 영상을 생성하는 디바이스 및 영상 표시 방법을 제공할 수 있다. 또한, 본 개시는 생성된 제2 영상의 종횡비는 제1 영역의 종횡비에 대응하는 디바이스 및 영상 표시 방법을 제공할 수 있다. 생성된 제2 영상을 제1 영역에 디스플레이하는 디바이스 및 영상 표시 방법을 제공할 수 있다.
확장 영상(3020a, 3020b)은 제1 영상(3000)과 위화감 없이 레터박스(3010a, 3010b)가 표시될 영역에 디스플레이 되도록 인공지능 신경망 기술을 이용하여 생성되는 영상을 의미한다.
제1 영상(3000)은 적어도 하나의 씬(scene)을 포함할 수 있고, 씬은 적어도 하나의 세그먼트(segment)를 포함할 수 있다. 세그먼트는 적어도 하나의 프레임을 포함할 수 있다.
본 개시의 일 실시예에 따르면, 확장 영상(3020a, 3020b)은 제1 영상(3000)에 포함된 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 생성될 수 있다. 또한, 제2 영상은 제1 영상(3000)에 포함된 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 생성될 수 있다.
본 개시의 일 실시예에 따르면, 인공지능 신경망은 학습기, 학습 모델 및 확장 영상 생성 모듈 중 적어도 하나를 포함할 수 있다. 학습 모델에 학습 데이터가 입력됨으로써 확장 영상 생성 모듈이 생성될 수 있다. 확장 영상 생성 모듈에 제1 영상(3000)에 포함된 적어도 하나의 프레임이 입력됨으로써 확장 영상 및 제2 영상 중 적어도 하나가 생성될 수 있다. 학습 모델 및 확장 영상 생성 모듈은 하나의 인공지능 신경망으로 구성되거나, 별개의 인공지능 신경망으로 구성될 수 있다. 학습기는 학습 모델에 학습 데이터를 입력하여 학습 모델을 학습하여 학습 영상 생성 모듈(2440)을 생성하도록 설정된 알고리즘일 수 있다.
본 개시의 일 실시예에 따르면, 디바이스(1000)는 기 생성된 확장 영상 생성 모듈이 탑재된 상태로 생성될 수 있다. 디바이스(1000)는 탑재된 확장 영상 생성 모듈에 영상이 입력됨으로써 확장 영상을 생성할 수 있다.
본 개시의 일 실시예에 따르면, 디바이스(1000)는 학습 모델이 탑재된 상태로 생성될 수 있다. 디바이스(1000)는 학습 모델에 학습 데이터를 적용함으로써 확장 영상 생성 모듈을 생성할 수 있다. 디바이스(1000)는 학습 모델에 학습 데이터를 지속적으로 적용함으로써 확장 영상 생성 모듈을 갱신할 수 있다. 예를 들면, 디바이스(100)는 학습 모델과 학습 데이터를 학습기에 입력하고, 학습 데이터를 이용하여 학습 모델을 학습하여 확장 영상 생성 모듈을 생성(또는, 갱신)하도록 학습기를 제어할 수 있다. 학습기를 이용하여 확장 영상 생성 모듈을 생성하는 과정은 도 24에서 후술한다. 디바이스(1000)는 확장 영상 생성 모듈에 제1 영상(3000)을 입력함으로써 확장 영상(3020a, 3020b)을 생성할 수 있다.
본 개시의 일 실시예에 따르면, 디바이스(1000)는 서버(2000)에 탑재된 학습 모델에 의해 생성된 확장 영상 생성 모듈을 서버(2000)로부터 수신할 수 있다. 디바이스(1000)는 서버(2000)에 탑재된 학습 모델에 학습 데이터가 적용됨으로써 갱신된 확장 생성 모듈을 수신할 수 있다. 예를 들면, 디바이스(1000)는 서버(2000)에 포함된 학습기에 학습 모델과 학습 데이터를 입력하여 생성된 확장 영상 생성 모듈을 수신할 수 있다. 디바이스(1000)는 확장 영상 생성 모듈에 제1 영상(3000)을 입력함으로써 확장 영상(3020a, 3020b)을 생성할 수 있다.
본 개시의 일 실시예에 따르면, 디바이스(1000)는 서버(2000)에서 생성된 제1 영상 및 제1 영상에 대응하는 확장 영상이 포함된 제2 영상을 수신할 수 있다. 디바이스(1000)는 제2 영상을 화면에 디스플레이 할 수 있다. 이 경우, 제1 영상에 대응하는 확장 영상(3020a, 3020b)은 서버(2000)에 탑재된 학습 모델에 의해 생성된 확장 영상 생성 모듈에 제1 영상의 적어도 하나의 프레임이 입력됨으로써 생성된 것일 수 있다.
도 2는 일부 실시예에 따른, 디바이스의 화면에 레터박스가 표시되는 다양한 형태를 나타내는 도면이다.
도 2를 참조하면, 제1 영역에는 다양한 형태의 레터박스가 표시될 수 있다. 예를 들면, 디바이스(1000a)의 제1 영역에 디스플레이된 영상(3000a)의 양측의 인근에 레터박스(3011a, 3011b)가 표시될 수 있다. 또 다른 예를 들면, 디바이스(1000b)의 제1 영역에 디스플레이된 영상(3000b)의 양단의 인근에 레터박스(3012a, 3012b)가 표시될 수 있다. 또 다른 예를 들면, 디바이스(1000c)의 제1 영역에 디스플레이된 영상(3000c)의 사주변의 인근에 레터박스(3013)가 표시될 수 있다. 또 다른 예를 들면, 디바이스(1000d)의 제1 영역에 디스플레이된 영상의 일부(3000d)의 양단 및 양측 중 적어도 하나의 인근에 레터박스(3014a, 3014b)가 표시될 수 있다.
본 개시의 일 실시예에 따르면, 제1 영역에 레터박스가 표시되는 형태에 무관하게 레터박스 영역에 디스플레이 되는 확장 영상이 생성될 수 있다. 즉, 본 개시에 따르면, 레터박스가 영상의 양측의 인근에 표시되는 경우, 레터박스가 영상의 양단의 인근에 표시되는 경우, 레터박스가 영상의 사주변의 인근에 표시되는 경우 및 디바이스의 화면에 디스플레이된 영상의 일부의 양단 및 양측 중 적어도 하나의 인근에 레터박스가 표시되는 경우에 레터박스 영역에 디스플레이 되는 확장 영상이 생성될 수 있다. 이하에서는 레터박스가 영상의 양측에 표시되는 예로 설명하지만, 다른 형태로 레터박스가 표시되는 경우에도 본 개시가 적용될 수 있음은 자명하다.
도 3은 일부 실시예에 따른, 디바이스의 화면에 확장 영상을 디스플레이 하기 위한 UI를 나타내는 도면이다.
도 3을 참조하면, 제1 영역은 제1 영상(3000)이 디스플레이 되는 형태를 사용자가 선택하기 위한 아이콘(3030)을 포함할 수 있다.
일 실시예에 따르면, 아이콘(3030)은 제1 영상(3000)이 원본 비율로 디스플레이 되는 것을 나타내는 아이콘, 제1 영역의 종횡비에 맞게 제1 영상(3000)이 리사이즈되어 디스플레이 되는 것을 나타내는 아이콘, 제1 영역의 종횡비에 맞게 영상의 일부가 크롭되어 디스플레이 되는 것을 나타내는 아이콘을 포함할 수 있다. 또한, 아이콘(3030)은 확장 영상이 디스플레이 되는 것을 나타내는 아이콘(3031)을 포함할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 아이콘(3030)을 변경하는 사용자 입력을 수신할 수 있다. 디바이스(1000)는 사용자 입력에 대응하여 아이콘(3030)을 변경하고, 변경된 아이콘(3030)에 대응되도록 제1 영역에 제1 영상(3000)을 디스플레이 할 수 있다. 예를 들면, 디바이스(1000)는 사용자 입력에 대응하여 아이콘(3030)을 확장 영상이 표시되는 것을 나타내는 아이콘(3031)으로 변경할 수 있다. 디바이스(1000)는 변경된 아이콘(3031)에 대응되도록 제1 영역에 제1 영상(3000) 및 확장 영상(3020a, 3020b)을 디스플레이 할 수 있다.
도 4는 일부 실시예에 따른, 디바이스의 화면에 확장 영상이 포함된 영상을 디스플레이하는 영상 표시 방법을 나타내는 흐름도이다.
도 4의 단계 S410을 참조하면, 디바이스(1000)는 제1 영역에 디스플레이될 제1 영상의 종횡비(예를 들면, 4:3, 16:9, 2.35:1 등등) 및 제1 영역의 종횡비(예를 들면, 3:2, 4:3, 16:9, 16:10, 18:9 등등)를 비교할 수 있다.
즉, 제1 영상의 종횡비는 영상의 제작자의 의도에 따라서 결정되고, 결정된 종횡비에 대응하도록 제1 영상이 생성 될 수 있다. 예를 들면, 제1 영상은 16:9의 종횡비로 생성된 것일 수 있다.
제1 영역의 종횡비는 디바이스(1000)가 제조될 때 결정될 수 있다. 또한, 제1 영역의 종횡비는 사용자로부터 수신된 사용자 입력에 의해서 결정될 수 있다. 또한, 제1 영역의 종횡비는 디바이스(1000)에서 동작하는 프로그램에서 설정된 비율에 의해서 결정될 수 있다. 제1 영역의 종횡비는 18:9 일 수 있다.
단계 S430을 참조하면, 디바이스(1000)는 제1 영상의 종횡비와 제1 영역의 종횡비를 비교함으로써 제1 영상의 종횡비와 제1 영역의의 종횡비가 상이한지 여부를 판단할 수 있다. 예를 들면, 제1 영상의 종횡비가 16:9 이고, 제1 영역의 종횡비가 18:9 이면, 디바이스(1000)는 제1 영상의 종횡비와 제1 영역의 종횡비가 상이하다고 판단할 수 있다. 또 다른 예를 들면, 제1 영상의 종횡비가 16:9이고, 제1 영역의 종횡비가 16:9이면, 디바이스(1000)는 제1 영상의 종횡비와 제1 영역의 종횡비가 상이하지 않다고 판단할 수 있다.
단계 S450을 참조하면, 디바이스(1000)는 제1 영상을 이용하여 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 영상의 종횡비가 제1 영역의 종횡비가 상이함에 따라서, 제1 영상이 제1 영역에 디스플레이 될 때 발생될 레터박스 영역에 디스플레이 될 확장 영상을 생성할 수 있다.
디바이스(1000)는 레터박스 영역을 확인하고, 레터 박스 영역에 디스플레이 될 확장 영상을 생성할 수 있다. 예를 들면, 제1 영상의 종횡비가 16:9이고, 제1 영역의 종횡비가 18:9이면, 디바이스(1000)는 제1 영상의 양측의 인근에 위치되는 레터박스 영역을 확인할 수 있다. 또 다른 예를 들면, 제1 영상의 종횡비가 2.35:1 이고, 제1 영역의 종횡비가 16:9이면, 디바이스(1000)는 제1 영상의 양단의 인근에 위치되는 레터박스 영역을 확인할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 영상을 디바이스(1000)에 탑재된 인공지능 신경망에 입력함으로써 확장 영상 및 제2 영상을 생성할 수 있다. 이 경우, 제2 영상은 제1 영상의 적어도 일부와 확장 영상이 포함된 것 일 수 있다. 예를 들면 디바이스(1000)는 제1 영상을 디바이스(1000)에 탑재된 확장 영상 생성 모듈에 입력함으로써 확장 영상을 생성할 수 있다. 이 경우, 디바이스(1000)에 탑재된 확장 영상 생성 모듈은 디바이스(1000)가 제조될 당시 탑재된 것일 수 있다. 또는, 디바이스(1000)에 탑재된 확장 영상 생성 모듈은 디바이스(1000)에 탑재된 학습 모델로부터 생성된 것일 수 있다. 또는, 디바이스(1000)에 탑재된 확장 영상 생성 모듈은 서버에서 생성된 확장 영상 생성 모듈을 디바이스(1000)가 서버로부터 수신한 것일 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 영상에 포함된 적어도 하나의 프레임을 인공지능 신경망에 입력함으로써, 확장 영상 및 제2 영상을 생성할 수 있다. 이 경우, 제2 영상은 제1 영상의 적어도 일부와 확장 영상이 포함된 것일 수 있다. 예를 들면, 디바이스(1000)는 제1 영상에 포함된 적어도 하나의 프레임을 확장 영상 생성 모듈에 입력함으로써 확장 영상 및 제2 영상을 생성할 수 있다.
즉, 디바이스(1000)는 제1 영상에 포함된 모든 프레임들을 확장 영상 생성 모듈에 입력함으로써, 제1 영상의 모든 프레임들의 각각에 대응하는 확장 영상 및 제2 영상을 생성할 수 있다. 또는 디바이스(1000)는 제1 영상에 포함된 프레임들 중에서 일부 프레임(예를 들면, 기준 프레임)을 확장 영상 생성 모듈에 입력함으로써, 제1 영상의 모든 프레임들의 각각에 대응하는 확장 영상 및 제2 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 기준 프레임을 확장 영상 생성 모듈에 입력함으로써, 기준 프레임 및 기준 프레임과 관련된 프레임에 대응되는 확장 영상 및 제2 영상을 생성할 수 있다. 이 경우, 기준 프레임은 확장 영상을 생성하는데 필요하다고 선택된 프레임이다. 기준 프레임은 확장 영상 생성 모듈에 필수적(essential)으로 입력되는 프레임을 포함할 수 있다. 기준 프레임은 하나 이상 일 수 있다. 기준 프레임과 관련된 프레임은 기준 프레임과 유사한 프레임(예를 들면, 디코더에 의해서 기준 프레임을 참조하여 디코딩되는 프레임, 기준 프레임과 소정의 비율 이상의 동일한 픽셀을 포함하는 프레임, 기준 프레임의 소정의 시간 전후에 재생되는 프레임 등)을 포함할 수 있다.
예를 들면, 기준 프레임은 인트라(Intra) 프레임 일 수 있다. 인트라 프레임은 참조하는 다른 프레임이 없는 상태에서 디코더에 의해서 디코딩되는 프레임을 의미한다.
다른 예를 들면, 기준 프레임은 제1 영상의 세그먼트(segment)를 구성하는 복수의 프레임들 중에서, 확장 영상을 생성하는데 가장 적합한 프레임 일 수 있다. 기준 프레임은 제1 영상의 세그먼트를 구성하는 복수의 프레임들 중에서 복수의 프레임들과 가장 유사한 프레임 일 수 있다. 구체적으로, 기준 프레임은 세그먼트를 구성하는 복수의 프레임들 중에서 첫 프레임 일 수 있다. 또는, 기준 프레임은 복수의 프레임들 중에서 중간 프레임 일 수 있다. 또는, 기준 프레임은 복수의 프레임들 중에서 복수의 프레임들과 동일한 픽셀이 가장 많은 프레임 일 수 있다.
디바이스(1000)가 확장 영상을 생성할 때, 디바이스(1000)의 많은 컴퓨팅 자원(computing resource)를 사용한다. 따라서, 디바이스(1000)는 제1 영상의 일부 프레임(예를 들면, 기준 프레임)만을 확장 영상 생성 모듈에 입력함으로써, 확장 영상을 생성하는데 이용되는 컴퓨팅 자원을 줄일 수 있다. 즉, 디바이스(1000)의 프로세서, GPU(또는 NPU)의 사용률, 메모리(예를 들면, 버퍼 메모리)의 사용률을 줄일 수 있다. 또한, 확장 영상을 생성하면서 소모되는 디바이스(1000)의 전력량을 줄일 수 있다.
제1 영상은 복수의 기준 프레임으로 구성된 것일 수 있다. 디바이스(1000)는 복수의 기준 프레임 각각이 확장 영상 생성 모듈에 입력됨으로써 복수의 기준 프레임 각각에 대응하는 복수의 확장 영상 및 제2 영상을 생성할 수 있다. 예를 들면, 확장 영상 생성 모듈은 복수의 기준 프레임들의 각각의 입력에 대응하여 복수의 기준 프레임 각각에 대응하는 복수의 확장 영상을 생성할 수 있다. 디바이스(1000)는 복수의 기준 프레임들과 이들의 각각에 대응하는 확장 영상을 결합함으로써 제2 영상을 생성할 수 있다. 다른 예를 들면, 확장 영상 생성 모듈은 복수의 기준 프레임들의 각각의 입력에 대응하여 복수의 기준 프레임과 이들의 각각에 대응하는 복수의 확장 영상이 결합된 제2 영상을 생성할 수 있다.
다양한 실시예에 따르면, 인공지능 신경망(또는, 학습모델)은 GAN(Generative Adversarial Networks) 모델을 포함할 수 있다. GAN 모델은, 예를 들면, 생성 모델(generator)과 분류 모델(discriminator)을 포함할 수 있다. 이 경우, 디바이스(1000)는 제1 영상을 생성 모델에 입력하여 확장 영상을 생성할 수 있다.
단계 S470을 참조하면, 디바이스(1000)는 제1 영상의 적어도 일부 및 확장 영상을 포함하는 제2 영상을 제1 영역에 디스플레이 할 수 있다. 예를 들면, 디바이스(1000)는 기준 프레임 및 기준 프레임에 대응하는 확장 영상을 포함하는 제2 영상을 제1 영역에 디스플레이 할 수 있다.
일 실시예에 따르면, 기준 프레임은 하나 이상일 수 있고, 제1 영상은 복수의 기준 프레임으로 구성된 것일 수 있다. 또한, 확장 영상은 복수일 수 있다. 이 경우, 복수의 확장 영상은 복수의 기준 프레임 각각이 확장 영상 생성 모듈에 입력됨으로써 복수의 기준 프레임 각각에 대응하도록 생성된 것일 수 있다. 제2 영상은 복수의 기준 프레임 및 복수의 기준 프레임 각각에 대응하는 복수의 확장 영상이 결합된 영상일 수 있다.
도 5는 일부 실시예에 따른, 확장 영상을 생성하는 방법을 나타내는 흐름도이다.
도 5를 참조하면, 디바이스(1000)는 디바이스(1000)에 탑재된 인공지능 신경망을 이용하여 확장 영상을 생성할 수 있다. 구체적으로, 디바이스(1000)는 학습 데이터를 생성하고, 생성된 학습 데이터를 인공지능 신경망에 입력함으로써 인공지능 신경망을 학습시킬 수 있다. 디바이스(1000)는 학습된 인공지능 신경망에 제1 영상을 입력함으로써 확장 영상을 생성할 수 있다.
예를 들면, 디바이스(1000)에 탑재된 학습 모델을 이용하여 확장 영상 생성 모듈을 생성할 수 있다. 디바이스(1000)는 생성된 확장 영상 생성 모듈을 이용하여 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안, 디바이스(1000)에 저장된 영상들에 대응하는 확장 영상 모듈 및 확장 영상을 생성할 수 있다.
단계 S510을 참조하면, 디바이스(1000)는 디바이스(1000)에 저장된 제1 영상을 탐색할 수 있다. 디바이스(1000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안, 제1 영상을 포함한 디바이스(1000)에 저장된 영상들을 탐색할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 영상을 탐색한 결과를 디바이스(1000)에 저장할 수 있다. 이 경우, 디바이스(1000)는 디바이스(1000)에 저장된 영상들에 관련된 정보를 디바이스(1000)에 저장할 수 있다. 예를 들면, 디바이스(1000)는 영상이 메모리(1700)에 저장된 경로(path), 영상의 재생시간, 영상의 종횡비, 확장 영상이 생성된 적 있는지 여부 등을 디바이스(1000)에 저장할 수 있다.
단계 S530을 참조하면, 디바이스(1000)는 제1 영상에 포함된 적어도 하나의 프레임을 추출할 수 있다. 즉, 디바이스(1000)는 제1 영상에 포함된 모든 프레임들을 학습 모델에 입력함으로써, 제1 영상에 대응하는 확장 영상 생성 모듈을 생성할 수 있다. 또는 디바이스(1000)는 제1 영상에 포함된 프레임들 중에서 일부 프레임(예를 들면, 기준 프레임)을 학습 모델에 입력함으로써, 제1 영상에 대응하는 확장 영상 생성 모듈을 생성할 수 있다
디바이스(1000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안 제1 영상에 포함된 적어도 하나의 프레임을 추출할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 영상에 포함된 기준 프레임을 추출할 수 있다. 이 경우, 기준 프레임은 확장 영상 생성 모듈을 생성하는데 필요하다고 선택된 프레임이다. 기준 프레임은 제1 영상의 세그먼트(segment)를 구성하는 복수의 프레임들에 대응하는 확장 영상을 생성하는데 필요한 프레임을 포함할 수 있다. 기준 프레임은 하나 이상일 수 있다.
예를 들면, 기준 프레임은 인트라 프레임 일 수 있다. 기준 프레임은 인트라 프레임을 참조하여 디코딩되는 프레임 일 수 있다.
다른 예를 들면, 기준 프레임은 제1 영상의 세그먼트를 구성하는 복수의 프레임들 중에서 복수의 프레임들과 가장 유사한 프레임 일 수 있다. 구체적으로, 기준 프레임은 세그먼트를 구성하는 복수의 프레임들 중에서 첫 프레임 일 수 있다. 또는, 기준 프레임은 복수의 프레임들 중에서 중간 프레임 일 수 있다. 또는, 기준 프레임은 복수의 프레임들 중에서 복수의 프레임들과 동일한 픽셀이 가장 많은 프레임 일 수 있다.
디바이스(1000)가 학습 데이터를 학습 모델에 적용함으로써 학습 모델이 학습 할 때, 디바이스(1000)의 많은 컴퓨팅 자원(computing resource)를 사용한다. 따라서, 디바이스(1000)는 제1 영상의 일부 프레임(예를 들면, 기준 프레임)만을 학습 데이터로서 학습 모델에 적용함으로써, 학습 모델이 학습하는데 이용되는 컴퓨팅 자원을 줄일 수 있다. 즉, 디바이스(1000)의 프로세서, GPU(또는 NPU)의 사용률, 메모리(예를 들면, 버퍼 메모리)의 사용률을 줄일 수 있다. 또한, 디바이스(1000)는 학습 모델이 학습하면서 소모되는 디바이스(1000)의 전력량을 줄일 수 있다.
단계 S550을 참조하면, 디바이스(1000)는 추출된 프레임에 기초하여 학습 데이터를 생성할 수 있다. 디바이스(1000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안 학습 데이터를 생성할 수 있다.
예를 들면, 디바이스(1000)는 제1 영상의 모든 프레임을 학습 데이터로 생성할 수 있다.
다른 예를 들면, 디바이스(1000)는 추출된 기준 프레임 및 기준 프레임 이전의 적어도 하나의 이전 프레임을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 디바이스(1000)는 기준 프레임 및 기준 프레임 이후의 적어도 하나의 다음 프레임을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 디바이스(1000)는 기준 프레임 및 기준 프레임을 리사이징(resize)한 리사이즈 프레임(resized frame)을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 디바이스(1000)는 기준 프레임의 외곽에 위치된 소정의 픽셀에 가중치가 부여된 기준 프레임을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 디바이스(1000)는 기준 프레임 및 기준 프레임의 일부가 크롭(crop)된 크롭 프레임(crop frame)을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 디바이스(1000)는 기준 프레임 및 기준 프레임에 관련된 이미지를 학습 데이터로 생성할 수 있다. 이 경우, 기준 프레임에 관련된 이미지는 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나에 관련된 이미지일 수 있다. 기준 프레임에 관련된 이미지는 인터넷 검색을 통해 획득된 이미지일 수 있다. 또 다른 예를 들면, 디바이스(1000)는 기준 프레임, 기준 프레임에 관련된 이미지 및 기준 프레임에 관련된 이미지를 리사이징(resizing)한 리사이즈 프레임(resized frame)을 학습 데이터로 생성할 수 있다. 학습 모델에 적용되는 학습 데이터는 이에 한정되지 않는다.
학습 데이터는 도 9 내지 도 15를 참조하여 아래에서 구체적으로 설명한다.
단계 S570을 참조하면, 디바이스(1000)는 학습 데이터를 학습 모델에 입력하여 확장 영상 생성 모듈을 생성할 수 있다. 디바이스(1000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안 확장 영상 생성 모듈을 생성할 수 있다. 디바이스(1000)는 학습 데이터를 학습 모델에 적용하여 기 생성된 확장 영상 생성 모듈을 갱신할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 단계 S550에서 설명한 학습 데이터를 디바이스(1000)에 탑재된 학습 모델에 적용함으로써, 확장 영상 생성 모듈을 생성할 수 있다. 예를 들면, 디바이스(1000)는 학습 모델과 학습 데이터를 학습기에 입력하고, 학습 데이터를 이용하여 학습 모델을 학습하여 확장 영상 생성 모듈을 생성(또는, 갱신)하도록 학습기를 제어할 수 있다. 이 경우, 생성되는 확장 영상 생성 모듈은 제1 영상이 제1 영역에 디스플레이 되기 위한 맞춤형 모듈일 수 있다. 일 실시예에 따르면, 학습 모델에 학습 데이터가 어떻게 적용되는 지는 기 설정된 기준에 의한 학습에 따라 결정될 수 있다. 예를 들면, 학습 모델에 학습 데이터가 적용되는 방법으로 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)이 이용될 수 있으며, 심층신경망(Deep Neural Network) 기술이 이용될 수 있다.
단계 S590을 참조하면, 디바이스(1000)는 확장 영상 생성 모듈을 이용하여 확장 영상을 생성할 수 있다. 디바이스(1000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안 확장 영상 생성 모듈에 제1 영상을 입력함으로써 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 영상에 포함된 기준 프레임을 추출하여 확장 영상 생성 모듈에 입력함으로써, 기준 프레임에 대응하는 확장 영상을 생성할 수 있다. 이 경우, 기준 프레임은 확장 영상을 생성하는데 필요하다고 선택된 프레임이다. 기준 프레임은 하나 이상일 수 있고, 제1 영상은 복수의 기준 프레임을 포함할 수 있다. 또한, 확장 영상은 복수일 수 있다. 이 경우, 복수의 확장 영상은 복수의 기준 프레임 각각이 확장 영상 생성 모듈에 입력됨으로써 복수의 기준 프레임 각각에 대응하도록 생성된 것일 수 있다. 기준 프레임을 확장 영상 생성 모듈에 입력함으로써, 확장 영상을 생성하는 방법은 도 4를 참조하여 설명하였으므로, 중복되는 내용은 생략한다.
일 실시예에 따르면, 디바이스(1000)는 기준 프레임 및 기준 프레임에 대응하는 확장 영상을 결합하여 생성된 제2 영상을 제1 영역에 디스플레이 할 수 있다. 이 경우, 제2 영상은 복수의 기준 프레임 및 복수의 기준 프레임 각각에 대응하는 복수의 확장 영상이 결합된 영상일 수 있다. 제2 영상을 디스플레이하는 방법은 도 4를 참조하여 설명하였으므로, 중복되는 내용은 생략한다.
도 6은 일부 실시예에 따른, 서버(2000)를 이용하여 확장 영상을 생성하는 방법을 나타내는 흐름도이다.
도 6을 참조하면, 디바이스(1000)는 서버(2000)에 탑재된 인공지능 신경망을 이용하여 확장 영상을 생성할 수 있다. 디바이스(1000)는 서버(2000)로부터 인공지능 신경망을 수신하고, 수신된 인공지능 신경망을 이용하여 확장 영상을 생성할 수 있다. 또한, 디바이스(1000)는 서버(2000)로부터 갱신된 인공지능 신경망을 수신할 수 있다.
예를 들면, 디바이스(1000)는 서버(2000)에 탑재된 학습 모델에 의해 생성된 확장 영상 생성 모듈을 서버(2000)로부터 수신할 수 있다. 또한, 디바이스(1000)는 서버(2000)에 탑재된 학습 모델에 학습 데이터가 적용됨으로써 갱신된 확장 생성 모듈을 수신할 수 있다.
단계 S610을 참조하면, 디바이스(1000)는 제1 영상을 서버(2000)로 전송할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 디바이스(1000)에 저장된 제1 영상의 적어도 일부를 서버(2000)로 전송할 수 있다.
예를 들면, 디바이스(1000)는 제1 영상으로부터 추출된 적어도 하나의 프레임을 서버(2000)로 전송할 수 있다. 즉, 디바이스(1000)는 제1 영상에 포함된 모든 프레임들을 서버(2000)로 전송할 수 있다. 또는 디바이스(1000)는 제1 영상에 포함된 프레임들 중에서 일부 프레임(예를 들면, 기준 프레임)을 서버(2000)로 전송할 수 있다. 기준 프레임은 확장 영상 생성 모듈을 생성하는데 필요하다고 선택된 프레임이다. 기준 프레임은 제1 영상의 세그먼트(segment)를 구성하는 복수의 프레임들에 대응하는 확장 영상을 생성하는데 필요한 프레임을 포함할 수 있다. 기준 프레임에 대해서는 도 5를 참조하여 설명하였으므로, 중복되는 내용은 생략한다.
디바이스(1000)가 제1 영상을 서버(2000)로 전송할 때, 많은 네트워크 자원(network resource)를 사용한다. 따라서, 디바이스(1000)는 제1 영상의 일부 프레임(예를 들면, 기준 프레임)만을 서버(2000)로 전송함으로써, 데이터 전송량을 줄일 수 있다. 또한, 디바이스(1000)는 제1 영상을 서버(2000)로 전송할 때 소모되는 디바이스(1000)의 전력량을 줄일 수 있다.
또 다른 예를 들면, 디바이스(1000)는 제1 영상의 일부를 크롭(crop)한 영상을 서버(2000)로 전송할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 인터넷에 게시된 제1 영상에 관한 정보를 서버(2000)로 전송할 수 있다. 예를 들면, 디바이스(1000)는 제1 영상의 식별자(예를 들면, URL)를 서버(2000)로 전송할 수 있다. 또 다른 예를 들면, 디바이스(1000)는 제1 영상으로부터 추출된 적어도 하나의 프레임을 서버(2000)로 전송할 수 있다. 또 다른 예를 들면, 디바이스(1000)는 제1 영상으로부터 추출된 복수의 프레임으로 구성된 영상을 서버(2000)로 전송할 수 있다.
단계 S620을 참조하면, 서버(2000)는 수신된 제1 영상에 포함된 프레임을 추출할 수 있다.
일 실시예에 따르면, 서버(2000)는 제1 영상에 포함된 기준 프레임을 추출할 수 있다. 이 경우, 기준 프레임은 확장 영상 생성 모듈을 생성하는데 필요하다고 선택된 프레임이다. 기준 프레임은 제1 영상의 세그먼트(segment)를 구성하는 복수의 프레임들에 대응하는 확장 영상을 생성하는데 필요한 프레임을 포함할 수 있다. 기준 프레임에 대해서는 도 5를 참조하여 설명하였으므로, 중복되는 내용은 생략한다. 또한, 서버(2000)는 기준 프레임 이전의 적어도 하나의 이전 프레임을 추출할 수 있다. 또한, 서버(2000)는 기준 프레임 이후의 적어도 하나의 다음 프레임을 추출할 수 있다.
일 실시예에 따르면, 서버(2000)는 디바이스(1000)으로부터 기준 프레임을 수신한 경우, 제1 영상으로부터 기준 프레임을 추출하는 것을 생략할 수 있다.
단계 S630을 참조하면, 서버(2000)는 추출된 프레임에 기초하여 학습 데이터를 생성할 수 있다.
예를 들면, 서버(2000)는 추출된 기준 프레임을 학습 데이터로 생성할 수 있다. 다른 예를 들면, 서버(2000)는 추출된 기준 프레임 및 기준 프레임 이전의 적어도 하나의 이전 프레임을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 서버(2000)는 기준 프레임 및 기준 프레임 이후의 적어도 하나의 다음 프레임을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 서버(2000)는 기준 프레임 및 기준 프레임을 리사이징(resize)한 리사이즈 프레임(resized frame)을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 서버(2000)는 기준 프레임의 외곽에 위치된 소정의 픽셀에 가중치가 부여된 기준 프레임을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 서버(2000)는 기준 프레임 및 기준 프레임의 일부가 크롭(crop)된 크롭 프레임(crop frame)을 학습 데이터로 생성할 수 있다. 또 다른 예를 들면, 서버(2000)는 기준 프레임 및 기준 프레임에 관련된 이미지를 학습 데이터로 생성할 수 있다. 이 경우, 기준 프레임에 관련된 이미지는 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나에 관련된 이미지일 수 있다. 기준 프레임에 관련된 이미지는 인터넷 검색을 통해 획득된 이미지일 수 있다. 또 다른 예를 들면, 디바이스(1000)는 기준 프레임, 기준 프레임에 관련된 이미지 및 기준 프레임에 관련된 이미지를 리사이징(resizing)한 리사이즈 프레임(resized frame)을 학습 데이터로 생성할 수 있다. 학습 모델에 적용되는 학습 데이터는 이에 한정되지 않는다.
학습 데이터는 도 9 내지 도 15를 참조하여 아래에서 구체적으로 설명한다.
단계 S640을 참조하면, 서버(2000)는 학습 데이터를 학습 모델에 적용하여 확장 영상 생성 모듈을 생성할 수 있다. 또한, 서버(2000)는 학습 데이터를 학습 모델에 적용하여 기 생성된 확장 영상 생성 모듈을 갱신할 수 있다.
일 실시예에 따르면, 서버(2000)는 단계 S630에서 설명한 학습 데이터를 학습 모델에 적용함으로써, 확장 영상 생성 모듈을 생성할 수 있다. 예를 들면, 서버(2000)는 학습 모델과 학습 데이터를 학습기에 입력하고, 학습 데이터를 이용하여 학습 모델을 학습하여 확장 영상 생성 모듈을 생성(또는, 갱신)하도록 학습기를 제어할 수 있다. 이 경우, 생성되는 확장 영상 생성 모듈은 제1 영상이 제1 영역에 디스플레이 되기 위한 맞춤형 모듈일 수 있다. 학습 모델에 학습 데이터가 어떻게 적용되는 지는 기 설정된 기준에 의한 학습에 따라 결정될 수 있다. 예를 들면, 학습 모델에 학습 데이터가 적용되는 방법으로 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)이 이용될 수 있으며, 심층신경망(Deep Neural Network) 기술이 이용될 수 있다.
단계 S650을 참조하면, 서버(2000)는 생성된 확장 영상 생성 모듈을 디바이스(1000)로 전송할 수 있다. 이 경우, 전송 되는 확장 영상 생성 모듈은 제1 영상이 제1 영역에 디스플레이 되기 위한 맞춤형 모듈일 수 있다.
일 실시예에 따르면, 서버(2000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안 디바이스(1000)로 확장 영상 생성 모듈을 전송할 수 있다.
일 실시예에 따르면, 서버(2000)는 사용자가 확장 영상 생성 모듈을 디바이스(1000)로 전송할 것을 요청한 경우에 확장 영상 생성 모듈을 디바이스(1000)로 전송할 수 있다.
일 실시예에 따르면, 서버(2000)는 디바이스(1000)가 제1 영상을 디스플레이하는 경우에 확장 영상 생성 모듈을 디바이스(1000)로 전송할 수 있다.
단계 S660을 참조하면, 디바이스(1000)는 서버로부터 수신한 확장 영상 생성 모듈을 이용하여 확장 영상을 생성할 수 있다. 디바이스(1000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안 확장 영상 생성 모듈에 제1 영상을 입력함으로써 확장 영상을 생성할 수 있다.
즉, 디바이스(1000)는 제1 영상에 포함된 모든 프레임들을 확장 영상 생성 모듈에 입력함으로써, 제1 영상의 모든 프레임들의 각각에 대응하는 확장 영상 및 제2 영상을 생성할 수 있다. 또는 디바이스(1000)는 제1 영상에 포함된 프레임들 중에서 일부 프레임(예를 들면, 기준 프레임)을 확장 영상 생성 모듈에 입력함으로써, 제1 영상의 모든 프레임들의 각각에 대응하는 확장 영상 및 제2 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 영상에 포함된 기준 프레임을 추출하여 확장 영상 생성 모듈에 입력함으로써, 기준 프레임에 대응하는 확장 영상을 생성할 수 있다. 이 경우, 기준 프레임은 하나 이상일 수 있고, 제1 영상은 복수의 기준 프레임으로 구성된 것일 수 있다. 또한, 확장 영상은 복수일 수 있다. 이 경우, 복수의 확장 영상은 복수의 기준 프레임 각각이 확장 영상 생성 모듈에 입력됨으로써 복수의 기준 프레임 각각에 대응하도록 생성된 것일 수 있다. 기준 프레임을 확장 영상 생성 모듈에 입력함으로써, 확장 영상을 생성하는 방법은 도 4를 참조하여 설명하였으므로, 중복되는 내용은 생략한다.
일 실시예에 따르면, 디바이스(1000)는 기준 프레임 및 기준 프레임에 대응하는 확장 영상을 결합하여 생성된 제2 영상을 제1 영역에 디스플레이 할 수 있다. 이 경우, 제2 영상은 복수의 기준 프레임 및 복수의 기준 프레임 각각에 대응하는 복수의 확장 영상이 결합된 영상일 수 있다.
도 7은 일부 실시예에 따른, 서버(2000)를 이용하여 확장 영상이 포함된 영상을 디스플레이하는 디바이스의 제어방법을 나타내는 흐름도이다.
도 7을 참조하면, 디바이스(1000)는 서버(2000)에서 생성된 제1 영상 및 제1 영상에 대응하는 확장 영상이 포함된 제2 영상을 수신할 수 있다. 디바이스(1000)는 수신된 제2 영상을 화면에 디스플레이 할 수 있다. 이 경우, 제1 영상에 대응하는 확장 영상(3020a, 3020b)은 서버(2000)에 탑재된 인공지능 신경망에 의해서 생성된 것일 수 있다.
예를 들면, 제1 영상에 대응하는 확장 영상(3020a, 3020b)은 서버(2000)에 탑재된 학습 모델에 의해 생성된 확장 영상 생성 모듈에 제1 영상의 적어도 하나의 프레임이 입력됨으로써 생성된 것일 수 있다.
단계 S710을 참조하면, 서버(2000)는 디바이스(1000)로 영상 목록을 전송할 수 있다. 영상 목록은 서버(2000)가 디바이스(1000)로 전송할 수 있는 영상들의 목록을 의미한다.
일 실시예에 따르면, 서버(2000)는 vod 서비스를 제공하는 서버일 수 있다. 또 다른 예를 들면, 서버(2000)는 사용자로부터 영상이 업로드 되고, 업로드된 영상이 공유되는 서비스를 제공하는 서버일 수 있다.
한편, 디바이스(1000)는 수신한 영상 목록을 디바이스(1000)의 화면에 디스플레이 할 수 있다. 디바이스(1000)의 화면에 디스플레이되는 영상 목록은 영상에 포함된 적어도 하나의 프레임이 썸네일(thumbnail) 형태로 포함된 것일 수 있다.
단계 S720을 참조하면, 디바이스(1000)는 사용자로부터 영상 목록에 포함된 제1 영상을 선택하는 사용자 입력을 수신할 수 있다. 예를 들면, 디바이스(1000)는 터치스크린을 포함하는 화면을 이용하여 사용자로부터 제1 영상을 선택하는 사용자 입력을 수신할 수 있다. 다른 예를 들면, 디바이스(1000)는 리모콘, 키보드 및 마우스와 같은 입력 장치를 이용하여 사용자로부터 제1 영상을 선택하는 사용자 입력을 수신할 수 있다.
단계 S730을 참조하면, 디바이스(1000)는 서버로 선택된 제1 영상의 식별 정보 (예를 들면, 식별자) 및 제1 영역의 종횡비(예를 들면, 18:9)에 관한 정보를 전송할 수 있다.
단계 S740을 참조하면, 서버(2000)는 디바이스(1000)로부터 수신된 제1 영역의 종횡비에 기초하여 제1 영상의 종횡비(예를 들면, 16:9)와 제1 영역의 종횡비(예를 들면, 18:9)를 비교할 수 있다. 서버(2000)는 제1 영상의 종횡비와 제1 영역의 종횡비가 상이한지 여부를 판단할 수 있다. 예를 들면, 제1 영상의 종횡비가 16:9 이고, 제1 영역의 종횡비가 18:9 이면, 서버(2000)는 제1 영상의 종횡비와 제1 영역의 종횡비가 상이하다고 판단할 수 있다. 또 다른 예를 들면, 제1 영상의 종횡비가 16:9이고, 제1 영역의 종횡비가 16:9이면, 서버(2000)는 제1 영상의 종횡비와 제1 영역의 종횡비가 상이하지 않다고 판단할 수 있다.
단계 S750을 참조하면, 서버(2000)는 제1 영상을 이용하여 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 서버(2000)는 제1 영상의 종횡비가 제1 영역의 종횡비가 상이함에 따라서, 제1 영상이 제1 영역에 디스플레이 될 때 발생될 레터박스 영역에 디스플레이 될 확장 영상을 생성할 수 있다.
서버(2000)는 레터박스 영역을 확인하고, 레터박스 영역에 디스플레이 될 확장 영상을 생성할 수 있다. 예를 들면, 제1 영상의 종횡비가 16:9이고, 제1 영역의 종횡비가 18:9이면, 디바이스(1000)는 제1 영상의 양측의 인근에 위치되는 레터박스 영역을 확인할 수 있다. 또 다른 예를 들면, 제1 영상의 종횡비가 2.35:1 이고, 제1 영역의 종횡비가 16:9이면, 디바이스(1000)는 제1 영상의 양단의 인근에 위치되는 레터박스 영역을 확인할 수 있다.
일 실시예에 따르면, 서버(2000)는 제1 영상에 포함된 적어도 하나의 프레임을 인공지능 신경망에 입력함으로써 확장 영상 및 제2 영상을 생성할 수 있다. 이 경우, 제2 영상은 제1 영상의 적어도 일부와 확장 영상이 포함된 것일 수 있다.
예를 들면, 서버(2000)는 제1 영상에 포함된 적어도 하나의 프레임을 확장 영상 생성 모듈에 입력함으로써 확장 영상을 생성할 수 있다. 구체적으로, 서버(2000)는 제1 영상에 포함된 기준 프레임이 확장 영상 생성 모듈에 입력함으로써, 기준 프레임에 대응되는 확장 영상을 생성할 수 있다. 이 경우, 기준 프레임은 하나 이상일 수 있다. 제1 영상은 복수의 기준 프레임으로 구성된 것일 수 있다.
서버(2000)는 복수의 기준 프레임 각각이 확장 영상 생성 모듈에 입력됨으로써 복수의 기준 프레임 각각에 대응하는 복수의 확장 영상을 생성할 수 있다. 기준 프레임을 확장 영상 생성 모듈에 입력함으로써, 확장 영상을 생성하는 방법은 도 4를 참조하여 설명하였으므로, 중복되는 내용은 생략한다.
단계 S760을 참조하면, 서버(2000)는 제1 영상의 적어도 일부 및 확장 영상을 포함하는 제2 영상을 디바이스(1000)로 전송할 수 있다.
일 실시예에 따르면, 서버(2000)는 사용자가 디바이스(1000)를 사용하지 않는 시간 동안 디바이스(1000)로 제2 영상을 전송할 수 있다.
일 실시예에 따르면, 서버(2000)는 사용자가 제2 영상을 디바이스(1000)로 전송할 것을 요청한 경우에 디바이스(1000)로 제2 영상을 전송할 수 있다.
일 실시예에 따르면, 서버(2000)는 디바이스(1000)가 제2 영상을 디스플레이하는 경우에 디바이스(1000)로 제2 영상을 전송할 수 있다.
단계 S770을 참조하면, 디바이스(1000)는 제1 영상의 적어도 일부 및 확장 영상을 포함하는 제2 영상을 제1 영역에 디스플레이 할 수 있다. 예를 들면, 디바이스(1000)는 기준 프레임 및 기준 프레임에 대응하는 확장 영상을 포함하는 제2 영상을 제1 영역에 디스플레이 할 수 있다.
일 실시예에 따르면, 기준 프레임은 하나 이상일 수 있고, 제1 영상은 복수의 기준 프레임으로 구성된 것일 수 있다. 또한, 확장 영상은 복수일 수 있다. 이 경우, 복수의 확장 영상은 복수의 기준 프레임 각각이 확장 영상 생성 모듈에 입력됨으로써 복수의 기준 프레임 각각에 대응하도록 생성된 것일 수 있다. 제2 영상은 복수의 기준 프레임 및 복수의 기준 프레임 각각에 대응하는 복수의 확장 영상이 결합된 영상일 수 있다.
도 8은 일부 실시예에 따른, 확장 영상을 생성 또는 선택하는 방법을 나타내는 흐름도이다. 도 8을 참조하여 개시된 실시예들은 디바이스(1000)의 프로세서 또는 서버(2000)의 프로세서에 의해서 수행될 수 있다. 즉, 이하에 기재된 프로세서는 디바이스(1000)의 프로세서 및 서버(2000)의 프로세서 중 적어도 하나에 해당될 수 있다. 프로세서는 GPU(graphics processing unit)(또는, NPU(neural-network processing unit))를 포함할 수 있다.
도 8을 참조하면, 프로세서는 제1 영상의 종횡비와 제1 영상이 재생될 디스플레이부에 포함된 화면의 종횡비를 비교할 수 있다. 디스플레이부는 적어도 일부가 접히거나 펼쳐짐으로써, 제1 영상이 출력되는 화면의 종횡비가 변동될 수 있는 플렉시블 디스플레이를 포함할 수 있다. 프로세서는 제1 영상의 종횡비와 적어도 일부가 접히거나 펼쳐짐으로써 변경된 화면의 종횡비를 비교할 수 있다. 프로세서는 화면의 종횡비가 변경될 때마다 제1 영상의 종횡비와 변경된 화면의 종횡비를 비교할 수 있다.
프로세서는 비교 결과에 기초하여, 제1 영상에 대응하는 새로운 확장 영상 생성 모듈을 생성할 것인지를 판단(S810)할 수 있다. 학습 모델(4000)이 제1 영상을 이용하여 새로운 확장 영상 생성 모듈을 생성(S820) 하도록, 프로세서는 제1 영상을 학습 모델(4000)에 입력할 수 있다. 또는, 프로세서는 제1 영상의 카테고리를 결정(S830)하고, 결정된 카테고리에 관련된 기 학습된 확장 영상 생성 모듈 중 하나를 선택(S840)할 수 있다. 프로세서는 확장 영상 생성 모듈을 이용하여 확장 영상을 생성할 수 있다.
단계 S810을 참조하면, 프로세서는 제1 영상에 대응하는 새로운 확장 영상 생성 모듈을 생성할 것인지를 판단할 수 있다. 프로세서는, 제1 영상의 종횡비와 제1 영상이 재생될 화면의 종횡비가 동일한지를 비교할 수 있다. 프로세서는 제1 영상의 종횡비와 화면의 종횡비가 다른 경우, 제1 영상에 대응하는 확장 영상 생성 모듈이 존재하는지 여부를 식별할 수 있다. 기 생성된 확장 영상 생성 모듈은 복수개 일 수 있다. 기 생성된 확장 영상 생성 모듈은 디바이스(1000)의 메모리 또는 서버(2000)의 DB에 저장된 것 일 수 있다. 프로세서는 복수개의 확장 영상 생성 모듈 중에서 제1 영상에 대응되는 확장 영상 생성 모듈이 존재하는지 여부를 식별할 수 있다.
일 실시예에 따르면, 프로세서는 제1 영상에 대응하는 확장 영상 생성 모듈이 존재하는지 여부에 기초하여 새로운 확장 영상 생성 모듈을 생성할 것인지 여부를 판단할 수 있다. 예를 들면, 프로세서는 제1 영상에 대응하는 기 생성된 확장 영상 생성 모듈이 존재하는 경우, 새로운 확장 영상 생성 모듈을 생성하지 않는다고 판단할 수 있다. 다른 예를 들면, 프로세서는 제1 영상에 대응하는 기 생성된 확장 영상 생성 모듈의 생성 시각이 소정시간을 도과한 경우, 새로운 확장 영상 생성 모듈을 생성한다고 판단할 수 있다. 또 다른 예를 들면, 프로세서는 제1 영상에 대응하는 기 생성된 확장 영상 생성 모듈이 제1 영상이 디스플레이될 영역의 종횡비에 대응하도록 생성된 것이 아닌 경우, 새로운 확장 영상 생성 모듈을 생성한다고 판단할 수 있다. 기 생성된 확장 영상 생성 모듈은 디바이스(1000)의 메모리 또는 서버(2000)의 DB에 저장된 것 일 수 있다. 프로세서는 기 생성된 확장 영상 생성 모듈의 헤더 정보에 기초하여, 새로운 확장 영상 생성 모듈을 생성할 것인지 여부를 판단할 수 있다. 헤더 정보는 확장 영상 생성 모듈이 대응하는 영상에 관한 정보(예를 들면, 영상이 저장된 경로, 영상의 재생 시간, 영상의 종횡비, 확장 영상이 생성된 적이 있는지 여부에 관한 정보), 확장 영상 생성 모듈의 생성 시각에 관한 정보, 제1 영상의 카테고리에 관한 정보를 포함할 수 있다.
일 실시예에 따르면, 프로세서는 제1 영상과 유사한 영상에 대응하는 확장 영상 생성 모듈이 존재하는지 여부에 기초하여 새로운 확장 영상 생성 모듈을 생성할 것인지 여부를 판단할 수 있다.
예를 들면, 프로세서는 제1 영상의 카테고리(예를 들면, SF영화, 자연 다큐멘터리, 공연 실황, 2D 애니메이션, 3D 애니메이션, AR(Augmented reality) 영상, 홀로그램 영상 등)에 대응하는 확장 영상 생성 모듈이 존재하는 경우, 새로운 확장 영상 생성 모듈을 생성하지 않을 수 있다.
다른 예를 들면, 프로세서는 제1 영상의 명칭과 유사한 명칭의 영상에 대응하는 확장 영상 생성 모듈이 존재하는 경우, 새로운 확장 영상 생성 모듈을 생성하지 않을 수 있다.
또 다른 예를 들면, 프로세서는 제1 영상의 적어도 하나의 프레임과 유사한 프레임이 포함된 영상에 대응하는 확장 영상 생성 모듈이 존재하는 경우, 새로운 확장 영상 생성 모듈을 생성하지 않을 수 있다. 단계 S820을 참조하면, 프로세서는 학습 모델(4000)은 제1 영상을 이용하여 제1 영상에 대응하는 새로운 확장 영상 생성 모듈을 생성하도록, 제1 영상을 학습 모델(4000)에 입력 할 수 있다. 학습 모델(4000)은 제1 영상에 관련된 적어도 하나의 학습 데이터를 학습함으로써, 제1 영상에 대응하는 새로운 확장 영상 생성 모듈을 생성할 수 있다. 프로세서는 GPU 및 NPU 중 적어도 하나를 통해 학습 하도록 학습 모델(4000)을 제어할 수 있다. 예를 들면, 디바이스(1000)는 학습 모델(4000)과 제1 영상을 학습기에 입력하고, 학습 모델(4000)에 제1 영상을 이용하여 학습하고, 제1 영상에 대응하라는 새로운 확장 영상 생성 모듈을 생성하도록 학습기를 제어할 수 있다. 제1 영상에 대응하는 확장 영상 생성 모듈을 생성하기 위한 학습 데이터는 도 9 내지 도 15를 참조하여 아래에서 구체적으로 설명한다.
단계 S830을 참조하면, 프로세서는 제1 영상에 대응하는 확장 영상 생성 모듈을 선택하기 위해서, 제1 영상의 카테고리(예를 들면, SF영화, 자연 다큐멘터리, 공연 실황, 2D 애니메이션, 3D 애니메이션, AR(Augmented reality) 영상, 홀로그램 영상 등)를 결정할 수 있다.
일 실시예에 따르면, 프로세서는 제1 영상의 메타 데이터에 기초하여 제1 영상의 카테고리를 결정할 수 있다. 예를 들면, 프로세서는 제1 영상의 헤더(header)정보에 기초하여 제1 영상의 카테고리를 결정할 수 있다. 또 다른 예를 들면, 프로세서는 제1 영상의 명칭으로부터 제1 영상의 카테고리를 결정할 수 있다.
일 실시예에 따르면, 프로세서는 제1 영상에 포함된 적어도 하나의 프레임에 기초하여 제1 영상의 카테고리를 결정할 수 있다. 구체적으로, SF영화는 우주에 관련된 적어도 하나의 프레임을 포함할 수 있으므로, 프로세서는 제1 영상에 포함된 적어도 하나의 프레임이 우주에 관련된 프레임이라고 판단함으로써, 제1 영상의 카테고리를 SF영화로 판단할 수 있다. 또한, 자연 다큐멘터리는 숲, 사막, 해양과 같은 자연에 관련된 적어도 하나의 프레임을 포함할 수 있으므로, 프로세서는 제1 영상에 포함된 적어도 하나의 프레임이 자연에 관련된 프레임이라고 판단함으로써, 제1 영상의 카테고리를 자연 다큐멘터리로 판단할 수 있다.
일 실시예에 따르면, 프로세서는 제1 영상의 적어도 하나의 프레임에 포함된 객체를 인식함으로써, 제1 영상의 카테고리를 결정할 수 있다. 구체적으로, 프로세서는 제1 영상의 객체가 2D 애니메이션 캐릭터 인 경우, 제1 영상의 카테고리를 2D 애니메이션으로 결정할 수 있다.
단계 S840을 참조하면, 프로세서는 제1 영상의 카테고리에 관련된 기 생성된 확장 영상 생성 모듈 중 하나를 선택할 수 있다.
일 실시예에 따르면, 프로세서는 카테고리별로 기 생성된 확장 영상 생성 모듈에 관한 정보를 저장할 수 있다. 기 생성된 확장 영상 생성 모듈에 관한 정보는 어느 카테고리에 관련된 영상에 대응하여 생성된 것인지에 관한 정보, 어떤 장면(scene)에 대응하여 생성된 것인지에 대한 정보를 포함할 수 있다.
예를 들면, 프로세서는 제1 영상의 카테고리를 자연 다큐멘터리로 결정할 수 있다. 프로세서는 기 생성된 확장 영상 생성 모듈 중 자연 다큐멘터리 영상에 대응하여 생성된 확장 영상 생성 모듈을 선택할 수 있다. 또한, 프로세서는 바다에서 낚시하는 장면에 대응하여 생성된 확장 영상 생성 모듈을 선택할 수 있다.
또 다른 예를 들면, 프로세서는 SF영화로 결정할 수 있다. 프로세서는 기생성된 확장 영상 생성 모듈 중 SF영화에 대응하여 생성된 확장 영상 생성 모듈을 선택할 수 있다. 또한, 프로세서는 우주선이 우주를 이동하는 장면에 대응하여 생성된 확장 영상 생성 모듈을 선택할 수 있다.
일 실시예에 따르면, 프로세서는 제1 영상의 적어도 하나의 프레임에 기초하여 기생성된 확장 영상 생성 모듈 중 하나를 선택할 수 있다. 예를 들면, 제1 영상의 적어도 하나의 프레임은 바다에서 낚시배가 이동하는 장면을 구성하는 프레임일 수 있다. 프로세서는 바다에서 낚시하는 장면에 대응하여 생성된 확장 영상 생성 모듈을 선택할 수 있다. 프로세서는 바다에서 배가 이동하는 장면에 대응하여 생성된 확장 영상 생성 모듈을 선택할 수 있다.
단계 S850을 참조하면, 프로세서는 단계 S820에서 새롭게 생성된 확장 영상 생성 모듈에 제1 영상을 입력함으로써 확장 영상 및 제2 영상 중 적어도 하나를 생성할 수 있다. 프로세서는 단계 S840에서 선택된 확장 영상 생성 모듈에 제1 영상을 입력함으로써 확장 영상 및 제2 영상 중 적어도 하나를 생성할 수 있다. 프로세서는 GPU 및 NPU 중 적어도 하나를 통해 제1 영상이 입력된 확장 영상 생성 모듈로부터 확장 영상을 생성할 수 있다. 프로세서는 GPU 및 NPU 중 적어도 하나를 통해 제1 영상과 확장 영상을 합성함으로써 제2 영상을 생성할 수 있다. 확장 영상 및 제2 영상 중 적어도 하나를 생성하는 방법은 단계 S450, 단계 S590 및 단계 S660과 유사하므로, 중복되는 내용은 생략한다.
도 9 및 도 10은 일부 실시예에 따른, 영상에 포함된 프레임을 학습 모델(4000)에 입력하는 예시를 나타내는 도면이다.
제1 영상에 포함된 적어도 하나의 프레임은 학습 데이터로서 인공지능 신경망에 입력될 수 있다. 또한, 인공지능 신경망은 입력된 학습 데이터를 학습함으로써 제1 영상에 대응하는 확장 영상 및 제2 영상을 생성할 수 있다. 이 경우, 제2 영상은 제1 영상 및 제1 영상에 대응하는 확장 영상을 포함하는 것 일 수 있다.
도 9를 참조하면, 영상에 포함된 기준 프레임(3110) 및 시간적으로 기준 프레임(3110)의 이전에 재생되는 적어도 하나의 이전 프레임(3120-1, 3120-2, 3120-n)은 학습 데이터로서 학습 모델(4000)에 입력될 수 있다.
도 10을 참조하면, 영상에 포함된 기준 프레임(3210) 및 시간적으로 기준 프레임(3210)의 이후에 재생되는 적어도 하나의 다음 프레임(3220-1, 3220-2, 3220-n)은 학습 데이터로서 학습 모델(4000)에 입력될 수 있다.
또한, 기준 프레임(3210), 적어도 하나의 이전 프레임(3120-1, 3120-2, 3120-n) 및 적어도 하나의 다음 프레임(3220-1, 3220-2, 3220-n)이 학습 데이터로서 학습 모델(4000)에 입력 될 수 있음은 자명하다.
도 9 및 도 10을 참조하면, 영상이 재생됨에 따라서, 영상 내의 사람이 우측에서 좌측으로 이동할 수 있다. 영상 내의 사람이 우측에서 좌측으로 이동함에 따라서, 이전 프레임들(3120-1, 3120-2, 3120-n)에는 기준 프레임(3110)의 우측의 인근에 위치될 수 있는 배경이 존재할 수 있다. 또한, 영상 내의 사람이 우측에서 좌측으로 이동함에 따라서, 다음 프레임들(3220-1, 3220-2, 3220-n)에는 기준 프레임(3210)의 좌측의 인근에 위치될 수 있는 배경이 존재할 수 있다. 따라서, 이전 프레임(3120-1, 3120-2, 3120-n) 및 다음 프레임(3220-1, 3220-2, 3220-n) 중 적어도 하나는 학습 데이터로써 확장 영상 생성 모듈을 생성하기 위한 학습 모델(4000)에 입력될 수 있다.
일 실시예에 따르면, 이전 프레임(3120-1, 3120-2, 3120-n) 및 다음 프레임(3220-1, 3220-2, 3220-n)은 기준 프레임(3110, 3210)으로부터 소정 시간 전후에 재생될 수 있는 프레임일 수 있다. 또한, 이전 프레임(3120-1, 3120-2, 3120-n) 및 다음 프레임(3220-1, 3220-2, 3220-n)은 기준 프레임(3110, 3210)과 유사성이 있는 프레임일 수 있다. 이 경우 유사성은 기준 프레임(3110)과 이전 프레임(3120-1, 3120-2, 3120-n)의 데이터 변화량 또는 기준 프레임(3210)과 다음 프레임(3220-1, 3220-2, 3220-n)의 데이터 변화량에 기초할 수 있다
학습 모델(4000)은 기준 프레임(3110, 3210), 이전 프레임(3120-1, 3120-2, 3120-n) 및 다음 프레임(3220-1, 3220-2, 3220-n)에 기초하여 기준 프레임(3110, 3210)의 패턴 및 색과 같은 특징을 인식할 수 있다. 학습 모델(4000)은 인식된 특징을 이용하여 기준 프레임의 양측의 인근에 표시되는 레터박스에 디스플레이 될 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다.
여기서는 영상의 양측의 인근에 레터박스가 표시되는 경우에 대해서만 설명하였지만, 도 2에 도시된 다양한 형태의 레터박스에도 적용될 수 있음은 자명하다.
도 11은 일부 실시예에 따른, 리사이즈 이미지(3320)를 학습 모델에 입력하는 예시를 나타내는 도면이다.
도 11을 참조하면, 영상에 포함된 기준 프레임(3310) 및 기준 프레임(3310)을 리사이징(resize)한 리사이즈(resized) 이미지(3320)는 학습 데이터로서 학습 모델(4000)에 입력될 수 있다.
도 11을 참조하면, 리사이즈 이미지(3320)는 기준 프레임(3310)의 종횡비를 제1 영역의 종횡비에 대응하도록 기준 프레임(3310)을 리사이징 한 것이다. 리사이즈 이미지(3320)는 기준 프레임(3310)에 비해서 소정의 픽셀(3321)이 증가 될 수 있다.
일 실시예에 따르면, 학습 모델(4000)은 기준 프레임(3310) 및 리사이즈 이미지(3320)에 기초하여 기준 프레임(3310)의 패턴 및 색과 같은 특징을 인식할 수 있다. 학습 모델(4000)은 인식된 특징을 이용하여 기준 프레임(3310)의 양측의 인근에 표시되는 레터박스에 디스플레이 될 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다.
인공지능 신경망은 입력된 기준 프레임(3310) 및 리사이즈 이미지(3320)를 학습함으로써 기준 프레임(3310)과 위화감이 없는 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다.
도 12는 일부 실시예에 따른, 크롭(crop) 이미지를 학습 모델에 입력하는 예시를 나타내는 도면이다.
도 12를 참조하면, 영상에 포함된 기준 프레임(3410) 및 기준 프레임(3410)을 크롭(crop)한 크롭(crop) 이미지(3420)는 학습 데이터로서 학습 모델(4000)에 입력될 수 있다. 이 경우, 크롭 이미지(3420)는 기준 프레임(3410)의 양측의 소정의 픽셀(3411a, 3411b)가 크롭된 것일 수 있다.
일 실시예에 따르면, 영상의 종횡비는 2.35:1 이고 제1 영역의 종횡비는 18:9 일 수 있다. 크롭 이미지(3420)는 화면의 종횡비에 대응하도록 기준 프레임(3410)의 양측의 소정의 픽셀(3411a, 3411b)를 크롭한 것일 수 있다.
일 실시예에 따르면, 영상의 종횡비는 16:9이고, 제1 영역의 종횡비는 18:9 일 수 있다. 크롭 이미지는 제1 영역의 종횡비에 대응하도록 기준 프레임의 양단의 소정의 픽셀을 크롭한 것일 수 있다.
일 실시예에 따르면, 학습 모델(4000)은 기준 프레임(3410) 및 크롭 이미지(3420)에 기초하여 기준 프레임(3410)의 패턴 및 색과 같은 특징을 인식할 수 있다. 학습 모델(4000)은 인식된 특징을 이용하여 기준 프레임(3410)의 양측의 인근에 표시되는 레터박스에 디스플레이 될 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다.
인공지능 신경망은 입력된 기준 프레임(3410) 및 크롭 이미지(3420)를 학습함으로써 기준 프레임(3410)과 위화감이 없는 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다.
도 13은 일부 실시예에 따른, 영상 내의 프레임에 가중치를 적용하는 예시를 나타내는 도면이다.
도 13을 참조하면, 영상 내의 기준 프레임(3510)의 소정의 픽셀(3511a, 3511b)에 가중치가 적용될 수 있다. 소정의 픽셀(3511a, 3511b)에 가중치가 적용된 기준 프레임(3510)은 학습 데이터로서 학습 모델(4000)에 입력될 수 있다.
일 실시예에 따르면, 가중치가 적용되는 소정의 픽셀(3511a, 3511b)는 레터박스 영역의 인근에 위치된 픽셀일 수 있다. 예를 들면, 영상의 종횡비는 16:9이고, 제1 영역의 종횡비는 18:9 일 수 있다. 이 경우, 레터박스 영역은 영상의 양측의 인근일 수 있다. 따라서, 기준 프레임(3510)의 양측에 위치된 소정의 픽셀(3511a, 3511b)는 가중치가 적용될 수 있다.
일 실시예에 따르면, 학습 모델(4000)은 기준 프레임(3510)을 소정의 픽셀(3511a, 3511b)에 가중치를 적용하여 학습할 수 있다. 학습 모델(4000)은 가중치가 적용된 소정의 픽셀(3511a, 3511b)의 패턴 및 색과 같은 특징을 인식할 수 있다. 학습 모델(4000)은 인식된 특징을 이용하여 기준 프레임(3510)의 양측의 인근에 표시되는 레터박스에 디스플레이 될 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다.
도 14는 일부 실시예에 따른, 검색된 이미지를 학습 데이터로서 학습 모델에 입력하는 방법을 나타내는 흐름도이고, 도 15는 일부 실시예에 따른, 검색된 이미지를 학습 데이터로서 학습 모델에 입력하는 예시를 나타내는 도면이다.
도 14 및 도 15를 참조하면, 디바이스(1000) 또는 서버(2000)는 기준 프레임과 관련된 이미지를 검색하고, 검색된 이미지를 학습 데이터로서 인공지능 신경망에 입력할 수 있다. 디바이스(1000) 또는 서버(2000)는 검색된 이미지를 학습 모델(4000)에 입력할 수 있다. 예를 들면, 디바이스(1000) 또는 서버(2000)는 검색된 이미지를 학습 모델(4000)에 입력하여 학습하도록 디바이스(1000) 또는 서버(2000)에 포함된 학습기를 제어할 수 있다.
단계 S1410을 참조하면, 디바이스(1000) 또는 서버(2000)는 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나를 검출 할 수 있다. 도 15를 참조하면, 디바이스(1000) 또는 서버(2000)는 기준 프레임(3610)을 구성하는 패턴(예를 들면, 배경의 세로 선, 난간의 가로 선 등등) 및 색(예를 들면, 배경을 구성하는 갈색, 난간을 구성하는 회색 등등)중 적어도 하나를 검출할 수 있다.
단계 S1430을 참조하면, 디바이스(1000) 또는 서버(2000)는 검출된 패턴 및 색 중 적어도 하나에 관련된 이미지를 검색할 수 있다. 이 경우, 디바이스(1000) 또는 서버(2000)는 내부의 저장소(예를 들면, 메모리, 데이터 베이스)에 저장된 이미지를 검색할 수 있다. 또한, 디바이스(1000) 또는 서버(2000)는 인터넷에 게시된 이미지를 검색할 수 있다.
도 15를 참조하면, 디바이스(1000) 또는 서버(2000)는 기준 프레임(3610)에서 검출된 패턴인 난간의 가로 선에 관련된 이미지(3621)를 검색할 수 있다. 또한, 디바이스(1000) 또는 서버(2000)는 기준 프레임(3610)에서 검출된 패턴인 배경의 세로 선에 관련된 이미지(3622)를 검색할 수 있다.
단계 S1450을 참조하면, 디바이스(1000) 또는 서버(2000)는 검색된 이미지를 학습 데이터로서 학습 모델(4000)에 입력할 수 있다. 도 15를 참조하면, 디바이스(1000) 또는 서버(2000)는 검색된 이미지(3621, 3622)를 기준 프레임(3610)과 함께 학습 데이터로 학습 모델(4000)에 입력할 수 있다.
일 실시예에 따르면, 디바이스(1000) 또는 서버(2000)는 검색된 이미지를 리사이징 하여 리사이즈 이미지를 생성하고, 생성된 리사이즈 이미지를 학습 데이터로서 학습 모델(4000)에 적용할 수 있다.
일 실시예에 따르면, 학습 모델(4000)은 기준 프레임(3610) 및 검색된 이미지(3621, 3622)를 학습 할 수 있다. 학습 모델(4000)은 기준 프레임(3610)의 패턴 및 색과 같은 특징을 인식 할 수 있다. 또한, 학습 모델(4000)은 검색된 이미지(3621, 3622)의 패턴 및 색과 같은 특징을 인식 할 수 있다. 또한, 학습 모델은 검색된 이미지(3621, 3622)를 리사이징하여 생성된 리사이즈 이미지의 패턴 및 색과 같은 특징을 인식할 수 있다. 학습 모델(4000)은 인식된 특징을 이용하여 기준 프레임(3610)의 양측의 인근에 표시되는 레터박스에 디스플레이 될 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다.
도 16 및 도 17은 일부 실시예에 따른 디바이스(1000)의 블록도이다.
도 16에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 사용자 입력부(1100), 출력부(1200), 프로세서(1300), 및 통신부(1500)를 포함할 수 있다. 그러나, 도 16에 도시된 구성 요소 모두가 디바이스(1000)의 필수 구성 요소인 것은 아니다. 도 16에 도시된 구성 요소보다 많은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있고, 도 16에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스(1000)가 구현될 수도 있다.
예를 들어, 도 17에 도시된 바와 같이, 일부 실시예에 따른 디바이스(1000)는, 사용자 입력부(1100), 출력부(1200), 프로세서(1300), 및 통신부(1500) 이외에 센싱부(1400), A/V 입력부(1600), 및 메모리(1700)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 디바이스(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
사용자 입력부(1100)는, 영상 목록 중에서 제1 영상을 선택하는 사용자 입력을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 디바이스(1000)에서 처리되는 정보를 표시 출력하기 위한 화면을 포함한다. 또한, 화면은 영상을 디스플레이 할 수 있다. 예를 들면, 화면의 적어도 일부는 제1 영상의 적어도 일부 및 제1 영상에 대응하는 확장 영상을 포함하는 제2 영상을 디스플레이 할 수 있다. 디스플레이는 예를 들면, 액정 디스플레이(liquid crystal display(LCD)), 발광 다이오드(light-emitting diode(LED)) 디스플레이, 유기 발광 다이오드(organic light-emitting diode(OLED)) 디스플레이(예컨대 AMOLED(active-matrix organic light-emitting diode), PMOLED(passive-matrix OLED)), 또는 마이크로 전자기계 시스템(microelectromechanical systems(MEMS)) 디스플레이, 접거나 펼쳐짐으로써, 정보가 출력되는 화면의 종횡비가 변동될 수 있는 플렉시블 디스플레이(Flexible display) 일 수 있다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1220)는 디바이스(1000)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다.
프로세서(1300)는, 통상적으로 디바이스(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(1300)는 메모리(1700)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 14에 기재된 디바이스(1000)의 기능을 수행할 수 있다.
구체적으로, 프로세서(1300)는 사용자의 텍스트, 이미지 및 동영상 입력을 수신하도록 사용자 입력부(1100)를 제어할 수 있다. 프로세서(1300)는 사용자의 음성 입력을 수신하도록 마이크로폰(1620)을 제어할 수 있다. 프로세서(1300)는 사용자 입력에 기초하여 디바이스(1000)의 동작을 수행하는 애플리케이션을 실행할 수 있으며, 실행된 애플리케이션을 통하여 사용자 입력을 수신하도록 제어할 수 있다. 예를 들면, 프로세서(1300)는, 보이스 어시스턴트 애플리케이션 (Voice Assistant Application)을 실행하고, 실행된 애플리케이션을 제어함으로써 마이크로폰(1620)을 통하여 사용자의 음성 입력을 수신하도록 제어할 수 있다.
프로세서(1300)는 제1 영상이 디스플레이 되도록 디바이스(1000)의 출력부(1200) 및 메모리(1700)를 제어할 수 있다.
프로세서(1300)는 제1 영상의 종횡비와 제1 영역의 종횡비가 상이한 경우, 제1 영역에 표시될 레터박스 영역에 디스플레이되는 확장 영상을 생성할 수 있다.
프로세서(1300)는 학습 데이터를 인공지능 신경망에 입력함으로써, 인공지능 신경망을 학습시킬 수 있다. 예를 들면, 프로세서(1300)는 학습 데이터를 메모리(1700) 또는 서버(2000)에 저장된 학습 모델(4000)에 입력함으로써 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 생성할 수 있다. 이 경우, 프로세서(1300)는 GPU(graphics processing unit)(또는, NPU(neural-network processing unit))를 포함하는 것으로 이해될 수 있다.
또한, 프로세서(1300)는 생성된 확장 영상 생성 모듈을 이용하여 영상에 포함된 기준 프레임에 대응되는 확장 영상을 생성할 수 있으며, 이에 관하여는 도 19 내지 도 22에서 보다 상세하게 설명하기로 한다. 이 경우, 기준 프레임은 확장 영상을 생성하는데 필요하다고 선택된 프레임이다. 확장 영상을 생성하기 위한 기준 프레임은 도 4를 참조하여 설명하였으므로, 중복되는 내용은 생략한다.
프로세서(1300)는 제1 영상에 포함된 적어도 하나의 프레임을 추출할 수 있다.
프로세서(1300)는 제1 영상의 적어도 일부와 제1 영상에 대응하는 확장 영상을 포함하는 제2 영상이 디스플레이 되도록 디바이스(1000)의 출력부(1200) 및 메모리(1700)를 제어할 수 있다.
또한, 프로세서(1300)는 메모리(1700) 또는 서버(2000)에 저장된 학습기 및 학습 모델(4000)을 이용함으로써, 영상에 포함된 기준 프레임에 대응되는 확장 영상을 생성하기 위한 기준을 효율적으로 학습할 수 있으며, 학습된 결과에 따라 사용자의 의도에 부합하는 확장 영상을 생성하기 위한 확장 영상 생성 모듈을 사용자에게 제공할 수 있게 된다.
센싱부(1400)는, 디바이스(1000)의 상태 또는 디바이스(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다. 센싱부(1400)는 디바이스(1000)의 사양 정보, 디바이스(1000)의 상태 정보, 디바이스(1000)의 주변 환경 정보, 사용자의 상태 정보 및 사용자의 디바이스 사용 이력 정보 중 일부를 생성하는데 이용될 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(1500)는, 디바이스(1000)가 다른 장치(미도시) 및 서버(2000)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 다른 장치(미도시)는 디바이스(1000)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 제한되지 않는다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 디바이스(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
또한, 통신부(1500)는, 영상을 서버(2000)에 전송할 수 있다.
일 실시예에 따르면, 통신부(1500)는 메모리(1700)에 저장된 제1 영상의 적어도 일부를 서버(2000)로 전송할 수 있다. 예를 들면, 통신부(1500)는 제1 영상으로부터 추출된 적어도 하나의 프레임을 서버(2000)로 전송할 수 있다. 또 다른 예를 들면, 통신부(1500)는 제1 영상으로부터 추출된 복수의 프레임으로 구성된 영상을 서버(2000)로 전송할 수 있다. 또 다른 예를 들면, 통신부(1500)는 제1 영상의 일부를 크롭(crop)한 영상을 서버(2000)로 전송할 수 있다.
일 실시예에 따르면, 통신부(1500)는 인터넷에 게시된 제1 영상에 관한 정보를 서버(2000)로 전송할 수 있다. 예를 들면, 통신부(1500)는 제1 영상의 식별자(예를 들면, URL)를 서버(2000)로 전송할 수 있다. 또 다른 예를 들면, 통신부(1500)는 제1 영상으로부터 추출된 적어도 하나의 프레임을 서버(2000)로 전송할 수 있다. 또 다른 예를 들면, 통신부(1500)는 제1 영상으로부터 추출된 복수의 프레임으로 구성된 영상을 서버(2000)로 전송할 수 있다.
일 실시예에 따르면, 통신부(1500)는 서버에서 생산된 확장 영상 생성 모듈을 수신할 수 있다.
일 실시예에 따르면, 통신부(1500)는 서버로부터 영상 목록을 수신할 수 있다.
일 실시예에 따르면, 통신부(1500)는 서버로부터 영상을 수신할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. 카메라(1610)에 의해 촬영된 이미지는 사용자의 컨텍스트 정보로 활용될 수 있다.
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 외부 디바이스 또는 사용자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1620)은 사용자의 음성 입력을 수신할 수 있다. 마이크로폰(1620)은 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수도 있다. 또한, 메모리(1700)는 영상 및 메모리(1700)에 저장된 영상을 탐색한 결과를 저장할 수 있다. 메모리(1700)는 디바이스(1000)에 저장된 영상들에 관련된 정보를 디바이스(1000)에 저장할 수 있다. 예를 들면, 메모리(1700)는 영상이 저장된 경로, 영상의 재생시간, 영상의 종횡비, 확장 영상이 생성된 적 있는지 여부 등을 저장할 수 있다.
메모리(1700)는 영상으로부터 추출된 적어도 하나의 프레임을 저장할 수 있다.
메모리(1700)는 인공지능 신경망을 저장할 수 있다. 예를 들면, 메모리(1700)는 학습기, 학습 모델 및 학습 모델로부터 생성된 확장 영상 생성 모듈을 저장할 수 있다. 또한, 메모리(1700)는 확장 영상 생성 모듈에 영상에 포함된 프레임이 입력됨으로써 생성된 확장 영상을 저장할 수 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 디바이스(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
알림 모듈(1730)은 디바이스(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 디바이스(1000)에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다. 알림 모듈(1730)은 디스플레이부(1210)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(1220)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(1230)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
도 18은 일부 실시예에 따른 서버(2000)의 블록도이다.
도 18을 참조하면, 일부 실시예에 따른 서버(2000)는 통신부(2500), DB(2700) 및 프로세서(2300)를 포함할 수 있다.
통신부(2500)는 디바이스(1000)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다.
통신부(2500)는 디바이스(1000)로부터 영상을 수신하거나 디바이스(1000)로 전송할 수 있다.
DB(2700)는 인공지능 신경망 및 인공지능 신경망에 입력되는 학습 데이터를 저장할 수 있다. 예를 들면, DB(2700)은 학습기, 학습 모델 및 학습 모델에 입력되는 학습 데이터를 저장할 수 있다. DB(2700)는 학습 모델로부터 생성된 확장 영상 생성 모듈을 저장할 수 있다.
DB(2700)는 적어도 하나의 영상을 저장할 수 있다. DB(2700)는 확장 영상 생성 모듈에서 생성된 적어도 하나의 영상에 대응하는 확장 영상을 저장할 수 있다. DB(2700)는 적어도 하나의 영상과, 그 영상에 대응하는 확장 영상 부분이 결합된 영상을 저장할 수 있다.
프로세서(2300)는 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 서버(2000)의 DB(2700)에 저장된 프로그램들을 실행함으로써, DB(2700) 및 통신부(2500) 등을 전반적으로 제어할 수 있다. 프로세서(2300)는 DB(2700)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 15에서의 디바이스(1000)의 동작의 일부를 수행할 수 있다.
프로세서(2300)는 영상으로부터 프레임을 추출하는 기능, 추출된 프레임에 기초하여 학습 데이터를 생성하는 기능, 학습 데이터를 학습 모델에 입력함으로써 확장 영상 생성 모듈을 생성하는 기능, 확장 영상 생성 모듈에 영상을 입력함으로써 확장 영상을 생성하는 기능 중 적어도 하나를 수행할 수 잇다.
프로세서(2300)는 영상으로부터 프레임을 추출하는데 필요한 데이터, 추출된 프레임에 기초하여 학습 데이터를 생성하는데 필요한 데이터, 학습데이터를 학습 모델에 입력하여 확장 영상 생성 모듈을 생성하는데 필요한 데이터, 확장 영상 생성 모듈에 영상을 입력함으로써 확장 영상을 생성하는데 필요한 데이터 중 적어도 하나를 관리할 수 있다.
도 19는 일부 실시예에 따른 프로세서(1300)의 블록도이다.
도 19를 참조하면, 일부 실시예에 따른 프로세서(1300)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.
데이터 학습부(1310)는 영상에 포함된 기준 프레임에 대응하는 확장 영상을 생성하기 위한 기준을 학습할 수 있다. 기준 프레임은 확장 영상을 생성하는데 필요하다고 선택된 프레임이다. 확장 영상을 생성하는데 이용되는 기준 프레임은 도 5를 참조하여 위에서 설명하였으므로, 중복되는 내용은 생략한다.
데이터 학습부(1310)는 영상에 포함된 기준 프레임에 대응하는 확장 영상을 생성하기 위하여 어떤 데이터를 이용할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 영상에 포함된 기준 프레임에 대응하는 확장 영상을 생성하기 위한 기준을 학습할 수 있다.
예를 들면, 데이터 학습부(1310)는 기준 프레임으로부터 소정 시간 전후에 재생될 수 있는 프레임인 이전 프레임 및 다음 프레임을 학습데이터로 획득하고, 기준 프레임 및 기준 프레임을 리사이징한 리사이즈 이미지를 획득하고, 기준 프레임 및 기준 프레임을 크롭한 크롭 이미지를 학습 데이터로 획득하고, 기준 프레임과 관련하여 검색된 이미지를 학습 데이터로 획득하는 것을 학습 데이터를 획득하는 기준으로서 학습할 수 있다. 학습에 이용될 데이터 및 이를 획득하는 방법은 도 9 내지 도 15를 참조하여 위에서 설명하였으므로, 중복되는 내용은 생략한다.
예를 들면, 데이터 학습부(1310)는 레터박스 영역의 인근에 위치된 학습데이터의 픽셀에 가중치를 적용하고, 기준 프레임과 동일한 픽셀의 인근에 위치된 학습 데이터의 픽셀에 가중치를 적용하는 것을 학습 데이터를 학습하는 기준으로서 학습할 수 있다.
데이터 인식부(1320)는 데이터에 기초하여 영상에 포함된 기준 프레임에 대응하는 확장 영상을 생성할 수 있다. 데이터 인식부(1320)는 학습된 확장 영상 생성 모듈을 이용하여, 소정의 데이터로부터 영상에 포함된 기준 프레임에 대응하는 확장 영상을 생성할 수 있다. 데이터 인식부(1320)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 확장 영상 생성 모듈을 이용할 수 있다. 또한, 데이터 인식부(1320)는 이를 이용함으로써, 소정의 데이터에 기초하여 영상에 포함된 기준 프레임에 대응하는 확장 영상을 생성할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 확장 영상 생성 모듈에 의해 출력된 결과 값은, 확장 영상 생성 모듈을 갱신하는데 이용될 수 있다.
데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스에 탑재될 수도 있다.
이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 디바이스에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 디바이스(1000)에 포함되고, 나머지 하나는 서버(2000)에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.
한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 20은 일부 실시예에 따른 데이터 학습부(1310)의 블록도이다.
도 20을 참조하면, 일부 실시예에 따른 데이터 학습부(1310)는 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)를 포함할 수 있다.
데이터 획득부(1310-1)는 영상에 대응하는 확장 영상을 생성하는데 필요한 데이터를 획득할 수 있다. 데이터 획득부(1310-1)는, 예를 들어, 영상에 포함된 기준 프레임, 기준 프레임 이전의 적어도 하나의 이전 프레임, 기준 프레임 이후의 적어도 하나의 다음 프레임, 기준 프레임을 리사이징한 리사이즈 프레임, 기준 프레임의 일부를 크롭하여 생성된 크롭 이미지, 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나에 관련된 이미지를 획득할 수 있다.
전처리부(1310-2)는 영상에 대응하는 확장 영상을 생성하는데 필요한 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1310-2)는 후술할 모델 학습부(1310-4)가 영상에 대응하는 확장 영상을 생성하기 위한 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
학습 데이터 선택부(1310-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1310-4)에 제공될 수 있다. 학습 데이터 선택부(1310-3)는 영상에 대응하는 확장 영상을 생성을 하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1310-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
모델 학습부(1310-4)는 학습 데이터에 기초하여 영상에 대응하는 확장 영상을 어떻게 생성할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1310-4)는 영상에 대응하는 확장 영상을 생성하기 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다.
예를 들면, 모델 학습부가 학습한 어떤 학습 데이터를 이용해야 하는지에 대한 기준은 학습 데이터로 이용될 기준 프레임을 선택하는 기준, 기준 프레임으로부터 소정 시간 전후에 재생될 수 있는 프레임 중에서 적어도 하나를 학습 데이터로 선택하는 기준, 기준 프레임 및 기준 프레임의 리사이즈 이미지를 학습 데이터로 선택하는 기준, 기준 프레임 및 기준 프레임의 크롭 이미지를 학습 데이터로 선택하는 기준 및 영상의 카테고리에 관련된 이미지를 학습 데이터로 선택하는 기준을 포함할 수 있다.
또한, 모델 학습부(1310-4)는 영상에 대응하는 확장 영상을 생성하는데 이용되는 학습 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 학습 모델은 미리 구축된 것일 수 있다. 예를 들어, 학습 모델은 기본 학습 데이터(예를 들어, 샘플 데이터 등)을 입력 받아 미리 구축된 것일 수 있다.
학습 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 학습 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 및 GAN(Generative Adversarial Networks)과 같은 모델이 학습 모델로 이용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 모델 학습부(1310-4)는 미리 구축된 학습 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 학습 모델을 학습할 학습 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 학습 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(1310-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 학습 모델을 학습시킬 수 있다.
또한, 모델 학습부(1310-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 학습 모델을 학습시킬 수 있다. 또한, 모델 학습부(1310-4)는, 예를 들어, 별다른 지도없이 영상의 기준 프레임을 선택하고, 선택된 기준 프레임에 대응하는 확장 영상을 생성하기 위해 필요한 데이터의 종류를 스스로 학습함으로써, 영상에 대응하는 확장 영상을 생성하기 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 학습 모델을 학습시킬 수 있다. 또한, 모델 학습부(1310-4)는, 예를 들어, 학습에 따른 영상에 대응하는 확장 영상을 생성한 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 학습 모델을 학습시킬 수 있다.
또한, 학습 모델이 학습되면, 모델 학습부(1310-4)는 학습된 학습 모델을 이용하여 생성된 확장 영상 생성 모듈을 저장할 수 있다. 이 경우, 모델 학습부(1310-4)는 확장 영상 생성 모듈을 데이터 인식부(1320)를 포함하는 디바이스의 메모리에 저장할 수 있다. 또는, 모델 학습부(1310-4)는 확장 영상 생성 모듈을 디바이스와 유선 또는 무선 네트워크로 연결되는 서버의 DB에 저장할 수도 있다.
이 경우, 확장 영상 생성 모듈이 저장되는 메모리는, 예를 들면, 디바이스의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(1310-5)는 학습 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1310-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 학습 모델을 평가하기 위한 기 설정된 데이터일 수 있다.
예를 들어, 모델 평가부(1310-5)는 평가 데이터에 대한 학습된 학습 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 학습 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1310-5)는 학습된 학습 모델이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 학습 모델이 복수 개가 존재하는 경우, 모델 평가부(1310-5)는 각각의 학습된 학습 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 학습 모델을 최종 학습 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 학습 모델이 복수 개인 경우, 모델 평가부(1310-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 학습 모델을 최종 학습 모델로서 결정할 수 있다.
한편, 데이터 학습부(1310) 내의 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스에 탑재될 수 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스에 탑재될 수도 있다.
또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5)는 하나의 디바이스에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 일부는 디바이스에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1310-1), 전처리부(1310-2), 학습 데이터 선택부(1310-3), 모델 학습부(1310-4) 및 모델 평가부(1310-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
프로세서(1300)는 다양한 학습 모델을 이용할 수 있으며, 학습 모델을 통해 다양한 방법으로 영상에 대응하는 확장 영상을 생성하기 위한 기준을 효율적으로 학습할 수 있다.
도 21은 일부 실시예에 따른 데이터 인식부(1320)의 블록도이다.
도 21을 참조하면, 일부 실시예에 따른 데이터 인식부(1320)는 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)를 포함할 수 있다.
데이터 획득부(1320-1)는 영상에 대응하는 확장 영상을 생성하기 위해 획득된 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(1320-1)는 영상에 포함된 기준 프레임, 기준 프레임 이전의 적어도 하나의 이전 프레임, 기준 프레임 이후의 적어도 하나의 다음 프레임, 기준 프레임을 리사이징한 리사이즈 프레임, 기준 프레임의 일부를 크롭하여 생성된 크롭 이미지, 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나에 관련된 이미지를 획득할 수 있다.
전처리부(1320-2)는 영상에 대응하는 확장 영상을 생성하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1320-2)는 후술할 인식 결과 제공부(1320-4)가 영상에 대응하는 확장 영상을 생성하기 위해 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
인식 데이터 선택부(1320-3)는 전처리된 데이터 중에서 영상에 대응하는 확장 영상을 생성하는데 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1320-4)에게 제공될 수 있다. 인식 데이터 선택부(1320-3)는 영상에 대응하는 확장 영상을 생성하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1320-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
인식 결과 제공부(1320-4)는 선택된 데이터를 확장 영상 생성 모듈에 적용하여 영상에 대응하는 확장 영상을 생성 할 수 있다. 인식 결과 제공부(1320-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 확장 영상 생성 모듈에 적용할 수 있다. 또한, 인식 결과는 확장 영상 생성 모듈에 의해 결정될 수 있다.
모델 갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 확장 영상 생성 모듈이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1320-5)는 인식 결과 제공부(1320-4)에 의해 제공되는 인식 결과를 모델 학습부(1310-4)에게 제공함으로써, 모델 학습부(1310-4)가 학습 모델을 갱신하고, 갱신된 학습 모델을 이용하여 확장 영상 생성 모듈을 갱신하도록 할 수 있다.
한편, 데이터 인식부(1320) 내의 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스에 탑재될 수 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스에 탑재될 수도 있다.
또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5)는 하나의 디바이스에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 일부는 디바이스(1000)에 포함되고, 나머지 일부는 서버(2000)에 포함될 수 있다.
또한, 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1320-1), 전처리부(1320-2), 인식 데이터 선택부(1320-3), 인식 결과 제공부(1320-4) 및 모델 갱신부(1320-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
또한, 디바이스(1000)는 학습된 결과가 적용된 확장 영상 생성 모듈을 이용하여 사용자의 의도에 부합하는 확장 영상을 사용자에게 제공할 수 있게 된다.
도 22는 일부 실시예에 따른 디바이스(1000) 및 서버(2000)가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 22를 참조하면, 서버(2000)는 영상에 대응하는 확장 영상을 생성하기 위한 기준을 학습할 수 있으며, 디바이스(1000)는 서버(2000)에 의한 학습 결과에 기초하여 영상에 대응하는 확장 영상을 생성할 수 있다.
이 경우, 서버(2000)의 모델 학습부(2340)는 도 19에 도시된 데이터 학습부(1310)의 기능을 수행할 수 있다. 서버(2000)의 모델 학습부(2340)는 영상에 대응하는 확장 영상을 생성하기 위하여 어떤 데이터를 이용할 지에 관한 기준을 학습할 수 있다. 또한, 서버의 모델 학습부(2340)는 데이터를 이용하여 영상에 대응하는 확장 영상을 어떻게 생성 할 지에 관한 기준을 학습할 수 있다. 모델 학습부(2340)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 학습 모델에 적용함으로써, 영상에 대응하는 확장 영상을 생성하기 위한 기준을 학습할 수 있다.
또한, 디바이스(1000)의 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)에 의해 생성된 확장 영상 생성 모듈에 적용하여 영상에 대응하는 확장 영상을 생성 할 수 있다. 예를 들어, 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)에게 전송하고, 서버(2000)가 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 확장 영상 생성 모듈에 적용하여 영상에 대응하는 확장 영상을 생성할 것을 요청할 수 있다. 또한, 인식 결과 제공부(1320-4)는 서버(2000)에 의해 영상에 대응하는 확장 영상을 생성하는 방법에 관한 정보를 서버(2000)로부터 수신할 수 있다.
또는, 디바이스(1000)의 인식 결과 제공부(1320-4)는 서버(2000)에 의해 생성된 확장 영상 생성 모듈을 서버(2000)로부터 수신하고, 수신된 확장 영상 생성 모듈을 이용하여 영상에 대응하는 확장 영상을 생성할 수 있다. 이 경우, 디바이스(1000)의 인식 결과 제공부(1320-4)는 인식 데이터 선택부(1320-3)에 의해 선택된 데이터를 서버(2000)로부터 수신된 확장 영상 생성 모듈에 적용하여 영상에 대응하는 확장 영상을 생성할 수 있다.
또한, 디바이스(1000) 및 서버(2000)는 학습 모델 의 학습, 확장 영상 생성 모듈의 생성 및 데이터 인식을 위한 작업을 효과적으로 분배하여 수행할 수 있으며, 이를 통하여, 사용자의 의도에 부합하는 서비스를 제공하기 위하여 데이터 처리를 효율적으로 수행하고, 사용자의 프라이버시를 효과적으로 보호할 수 있다.
도 23은 일 실시예에 따른 디바이스의 개략적인 블록도이다.
도 23을 참조하면, 디바이스(1000)는 프로세서(2360), 메모리(2362), GPU(graphics processing unit)(또는, NPU(neural-network processing unit))(2364) 및 디스플레이부(2366)를 포함할 수 있다. 프로세서(2360)는 도 16의 프로세서(1300)를 포함할 수 있다. 디스플레이(2366)는 도 16의 디스플레이부(1210)를 포함할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 디코더(2360a), 적어도 하나 이상의 버퍼 메모리(2360b)를 더 포함할 수 있다. 디코더(2360a), 버퍼 메모리(2360b)는, 예를 들면, 프로세서(2360)에 포함된 형태일 수 있다.
일 실시예에 따르면, 메모리(2362)는 제1 영상 및/또는 확장 영상 생성 모듈을 저장할 수 있다. 제1 영상은, 예를 들면, 프로세서(2360)에 포함된 디코더(2360a)에 의해 디코딩 되어 메모리(2362)에 저장된 영상일 수 있다.
일 실시예에 따르면, 프로세서(2360)는 메모리(2362)에 저장된 제1 영상을 획득하여 버퍼 메모리(2360b)로 전송할 수 있다. 프로세서(2360)는 버퍼 메모리(2360b)에 저장된 제1 영상의 복사본을 생성하여 GPU(2364)로 전송할 수 있다. 일 실시예에 따르면, GPU(또는, NPU)(2364)는 인공지능을 위한 연산에 최적화된 프로세서일 수 있다. GPU(또는, NPU)(2364)는 일반 프로세서보다 더 집적화되거나, 딜레이(delay)가 작거나, 성능이 우세하거나, 또는 많은 리소스를 가진 프로세서일 수 있다. 또는, GPU(또는, NPU)(2364)는, 예를 들면, 인공지능을 위한 행렬 연산에 최적화된 프로세서일 수 있다.
일 실시예에 따르면, GPU(2364)는 프로세서(2360)의 지시에 기반하여 제1 영상을 이용하여 확장 영상을 생성할 수 있다. 프로세서(2360)는 제1 영상을 디스플레이부(2366)에 재생하는 경우에 레터 박스가 되는 영역을 확인하고, 레터 박스 영역에 디스플레이 될 확장 영상을 생성하도록 GPU(2364)를 제어할 수 있다.
예를 들어, 프로세서(2360)는 제1 영상의 종횡비가 16:9이고, 디스플레이부(2366)에서 영상이 표시되는 제1 영역의 종횡비가 18:9이면, 디바이스(1000)는 제1 영상의 양측의 인근에 위치되는 레터 박스 영역을 확인할 수 있다. 프로세서(2360)는 메모리(2362)에 저장된 확장 영상 생성 모듈을 획득하여 버퍼 메모리(2360b)에 저장하고 확장 영상 생성 모듈의 복사본을 GPU(2364)로 전송할 수 있다. GPU(2364)는 확장 영상 생성 모듈과 제1 영상을 이용하여 레터 박스 영역의 크기에 대응하는 확장 영상을 생성할 수 있다.
프로세서(2360)는 생성된 외곽 영역에 대응하는 확장 영상을 획득하여 버퍼 메모리(2360b)에 저장할 수 있다. 프로세서(2360)는 버퍼 메모리(2360b)에 저장된 확장 영상과 제1 영상을 이용하여 제2 영상을 생성할 수 있다. 제2 영상은, 예를 들면, 제1 영상의 적어도 일부와 확장 영상을 포함한 영상을 의미할 수 있다.
다양한 실시예에 따르면, GPU(2364)는 제1 영상을 이용하여 제2 영상을 생성할 수 있다. 예를 들면, GPU(2364)는 확인된 레터 박스 영역의 크기에 기반하여 확장 영상을 생성하고, 생성된 확장 영상과 제1 영상의 적어도 일부를 이용하여 제2 영상을 생성할 수 있다.
일 실시예에 따르면, 프로세서(2360)는 생성된 제2 영상에서 제1 영상과 확장 영상의 경계 영역에 대하여 후처리를 할 수 있다. 후처리는, 예를 들면, 경계 영역이 사용자에게 잘 구분되지 않도록 처리하는 것을 의미할 수 있다. 예를 들면, 후처리는 제1 영상과 확장 영상의 경계 영역에 스무딩 처리하는 것, 또는 색 처리 하는 것을 의미할 수 있다.
다양한 실시예에 따르면, 프로세서(2360)는 제2 영상에서 제1 영상과 확장 영상의 경계 영역에 deblocking filter를 적용하는 방식으로 후처리를 진행할 수 있다.
디바이스(1000)는 후처리를 이용하여, 제1 영상과 확장 영상 간의 경계에 위치한 픽셀들의 픽셀값의 차이가 줄어든 제2 영상을 획득할 수 있다.
프로세서(2360)는 버퍼 메모리(2360b)에 저장된 제2 영상을 디스플레이부(2366)로 전송하고, 제2 영상이 출력되도록 디스플레이부(2366)를 제어할 수 있다.
다양한 실시예에 따르면, 디바이스(1000)는 사용자가 서버로부터 제1 영상을 다운로드 하여 저장하면, 사용자가 제1 영상을 시청하기 전에 상술한 확장 영상 생성 과정을 진행할 수 있다. 그러나 이에 한정되는 것은 아니다. 디바이스(1000)는 서버로부터 제1 영상을 스트리밍 형태로 다운로드 하는 상황에서, 상술한 확장 영상 생성 과정을 진행할 수 있다.
도 24는 일 실시예에 따른 디바이스가 확장 영상 생성 모듈을 생성하는 과정을 설명하는 도면이다.
일 실시예에 따르면, 디바이스(1000)는 메모리(2362) 또는 GPU(2364)에 저장된 학습 모델(2410)과 메모리(2362)에 저장된 제1 카테고리에 대응하는 학습 데이터(2420)를 학습기(2430)에 입력할 수 있다. 학습기(2430)는, 예를 들면, 학습 모델(2410)에 학습 데이터(2420)를 입력하여 학습 모델(2420)을 학습하여 학습 영상 생성 모듈(2440)을 생성하도록 설정된 알고리즘일 수 있다.
학습 모델(2410)은 영상의 외곽 영역에 대응하는 확장 영상을 생성하도록 학습된 학습 모델일 수 있다. 학습 모델(2410)은 디바이스(1000)가 제조될 당시 탑재된 것일 수 있다. 또는, 학습 모델(2410)은 서버(2000)로부터 수신한 것일 수 있다.
제1 카테고리는, 예를 들면, SF영화, 자연 다큐멘터리, 공연 실황, 2D 애니메이션, 3D 애니메이션, AR(Augmented reality) 영상, 홀로그램 영상 중 적어도 하나일 수 있다. 즉, 제1 카테고리에 대응하는 학습 데이터는 상기 카테고리 중 적어도 하나의 카테고리로 분류된 영상(예: 정지 영상, 동영상) 일 수 있다. 예를 들어, 디바이스(1000)는 SF영화를 제1 카테고리로, 자연 다큐멘터리를 제2 카테고리로, 또는 공연 실황을 제3 카테고리로 식별할 수 있다.
일 실시예에 따르면, 학습기(2430)는 입력된 제1 카테고리에 대응하는 학습 데이터(2420)는 학습 모델(2410)에 적용하여 학습을 진행할 수 있다. 이 경우, 학습기(2430)는 복수 개의 제1 카테고리에 대응하는 학습 데이터들을 이용하여 학습 모델(2410)을 학습시킬 수 있다.
일 실시예에 따르면, 학습기(2430)는 기 설정된 시간 또는 기 설정된 학습 데이터의 양을 이용하여 학습 모델(2410)을 학습이 완료되면, 제1 카테고리에 대응하는 학습 데이터로 학습된 학습 모델(예를 들면, 제1 카테고리에 대응하는 확장 영상 생성 모듈)(2440)을 생성할 수 있다. 디바이스(1000)는 제1 카테고리에 대응하는 확장 영상 생성 모듈(2440)을 메모리(2362)에 저장할 수 있다. 그러나 이에 한정되는 것은 아니다. 디바이스(1000)는 제1 카테고리에 대응하는 확장 영상 생성 모듈을 도 1에서 상술한 GPU(2364)에 저장할 수도 있다.
다양한 실시예에 따르면, 디바이스(1000)는 카테고리가 상이한 학습 데이터(예를 들면, 제2 카테고리에 대응하는 학습 데이터, 제3 카테고리에 대응하는 학습 데이터)를 이용하여 상술한 과정을 반복 수행할 수 있다. 디바이스(1000)는 반복 수행한 결과로 생성되는 서로 다른 카테고리에 대응하는 복수 개의 확장 영상 생성 모듈들을 GPU(2364)에 저장하고, 제1 영상이 입력되면, 제1 영상의 카테고리에 대응되는 확장 영상 생성 모듈을 이용하여 제1 영상의 확장 영상을 생성하고, 제2 영상을 생성할 수 있다.
다양한 실시예에 따르면, 디바이스(1000)는 사용자의 필요에 따라 생성된 확장 영상 생성 모듈을 삭제하는 사용자 인터페이스를 제공하여 메모리(2362)의 효율적인 사용을 유도할 수 있다.
도 25는 일 실시예에 따른 디바이스가 서버로부터 제1 영상을 다운로드 하는 방법에 따른 확장 영상 생성 과정을 설명하는 도면들이다.
도 25의 식별 기호 25-a를 참조하면, 디바이스(1000)는 서버(2000)로부터 제1 영상을 한번에 다운로드 할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 디코더(2510)를 이용하여 다운로드 된 제1 영상을 디코딩 할 수 있다.
디바이스(1000)는 디코딩 된 제1 영상(2520)을 이용하여 확장 영상 또는 제2 영상을 생성할 수 있다. 디바이스(1000)는 디코딩 된 제1 영상(2520)에 포함되는 복수 개의 프레임들 각각에 대하여 디스플레이 하는 경우에 레터 박스가 되는 영역을 확인하고, 확장 영상 생성 모듈(2530)을 이용하여 레터 박스 영역에 디스플레이 될 확장 영상을 생성할 수 있다. 디바이스(1000)는 생성된 확장 영상과 디코딩 된 제1 영상의 적어도 일부를 이용하여 제2 영상(2540)을 생성할 수 있다.
디바이스(1000)는 생성된 제2 영상(2540)을 디스플레이 할 수 있다.
도 25의 식별 기호 25-b를 참조하면, 디바이스(1000)는 서버(2000)로부터 제1 영상을 스트리밍 형태로 다운로드 할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 디코더(2510)를 이용하여 스트리밍 되는 프레임들을 디코딩 할 수 있다.
디바이스(1000)는 디코딩 된 프레임들의 특성에 대응하여 복수 개의 확장 영상 생성 모듈을 이용하여 디코딩 된 프레임들의 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 디코딩 된 프레임이 인트라(Intra) 프레임인지 또는 인터(Inter) 프레임인지 식별할 수 있다.
인트라 (Intra) 프레임은, 예를 들면, 프레임을 디코딩 하는 경우에 참조하는 다른 프레임이 없는 상태에서 디코딩 하는 프레임을 의미할 수 있다.
인터(Inter) 프레임은, 예를 들면, 프레임을 디코딩 하는 경우에, 이미 디코딩 된 다른 프레임들을 이용하여 디코딩 하는 프레임을 의미할 수 있다.
디코딩 된 프레임이 인트라(Intra) 프레임인 경우에, 디바이스(1000)는 입력된 영상을 이용하여 영상의 확장 영상을 생성하도록 설정된 확장 영상 생성 모듈(2550)이 프레임의 가운데 영역을 이용하여 프레임의 확장 영상을 생성하도록 제어할 수 있다. 디바이스(1000)는 생성된 확장 영상과 디코딩 된 인트라(Intra) 프레임을 포함하는 확장된 프레임을 생성할 수 있다.
디코딩 된 프레임이 인터(Inter) 프레임인 경우에, 디바이스(1000)는 입력된 영상을 이용하여 영상을 확장 영상을 생성하는 동작 및 참조할 수 있는 다른 프레임을 이용하여 확장 영상을 생성하는 동작을 하도록 설정된 확장 영상 생성 모듈(2560)이 프레임의 가운데 영역 및 이미 디코딩 되어 확장 영상을 생성한 다른 프레임들을 참조하여 프레임의 확장 영상을 생성하도록 제어할 수 있다. 이 경우, 디바이스(1000)는 확장 생성 모듈(2560)에 포함된 버퍼 메모리(2562) 또는 디코더(2510)에 기 확장된 프레임을 저장하고, 인터(Inter) 프레임을 확장할 때 참조할 수 있다. 디바이스(1000)는 생성된 확장 영상과 디코딩 된 인터(Inter) 프레임을 포함하는 확장된 프레임을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 확장된 프레임들(2571, 2572)을 이용하여 제2 영상을 생성하고 디스플레이 할 수 있다.
도 26은 일 실시예에 따른 디바이스가 프레임의 확장 영상을 생성하는 순서에 대하여 설명하는 도면이다.
일 실시예에 따르면, 디바이스(1000)는 프레임의 특성에 대응하여 디코딩 하는 순서를 결정할 수 있다. 디바이스(1000)는 디코딩 된 프레임에 대하여 확장 영상 생성을 진행할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 프레임(2611)부터 제9 프레임(2619)을 디코딩하고, 디코딩 된 프레임에 대하여 확장 영상을 생성할 수 있다. 디바이스(1000)는 프레임의 특성에 따라 서로 다른 디코딩 방법을 사용할 수 있다.
일 실시예에 따르면, 어떤 종류의 프레임은, 예를 들면, 프레임을 디코딩 하는 경우에 참조하는 다른 프레임이 없는 상태에서 디코딩 하는 프레임 특성을 포함할 수 있다. 다양한 실시예에 따르면, 프레임을 디코딩 하는 경우에 50%이상을 참조하는 다른 프레임이 없는 상태에서 디코딩 하는 프레임 특성을 포함할 수 있다. 일 실시예에 따르면, 이런 특성을 가진 프레임을 I 프레임 또는 인트라 프레임으로 명명할 수 있다.
또는, 다른 종류의 프레임은, 예를 들면, 프레임을 디코딩 하는 경우에 해당 프레임보다 시간적으로 빠른 프레임들을 이용하여 디코딩 하는 프레임 특성을 포함할 수 있다. 일 실시예에 따르면, 이런 특성을 가진 프레임을 P 프레임으로 명명할 수 있다.
또는, 또 다른 종류의 프레임은, 예를 들면, 프레임을 디코딩 하는 경우에, 시간적으로 해당 프레임보다 앞선 프레임들 및 해당 프레임보다 늦은 프레임들을 이용하여 디코딩 하는 프레임 특성을 포함할 수 있다. 일 실시예에 따르면, 이런 특성을 가진 프레임을 B 프레임을 명명할 수 있다.
도 26을 참조하면, 제1 프레임(2611)은 I 프레임일 수 있다. 제2 프레임(2612) 내지 제8 프레임(2618)은 B 프레임일 수 있다. 또한, 제9 프레임(2619)은 P 프레임일 수 있다.
일 실시예에 따른 디바이스(1000)는 프레임의 특성에 따라서 제1 프레임(2611)을 디코딩 한 후, 제9 프레임(2619)을 디코딩 할 수 있다. 디바이스(1000)는 디코딩 된 제1 프레임(2611)을 입력된 영상을 이용하여 영상의 외곽 영역을 생성하도록 설정된 확장 영상 생성 모듈에 적용하여 제1 프레임(2611)의 확장 영상을 생성할 수 있다. 디바이스(1000)는 디코딩 된 제9 프레임(2619)을 입력된 영상을 이용하여 영상을 외곽 영역을 생성하는 동작 및 참조할 수 있는 다른 프레임을 이용하여 외곽 영상을 생성하는 동작을 하도록 설정된 확장 영상 생성 모듈에 적용하여 제9 프레임(2619)의 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 프레임(2611)과 제9 프레임(2619)을 이용하여 제5 프레임(2615)을 디코딩 할 수 있다. 디바이스(1000)는 디코딩 된 제5 프레임(2615)을 입력된 영상을 이용하여 영상을 외곽 영역을 생성하는 동작 및 참조할 수 있는 다른 프레임(예: 제1 프레임(2611), 제9 프레임(2619))을 이용하여 외곽 영상을 생성하는 동작을 하도록 설정된 확장 영상 생성 모듈에 적용하여 제5 프레임(2615)의 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 상술한 방법을 이용하여 제3 프레임(2613), 제2 프레임(2612), 및 제4 프레임(2614)의 순서로 디코딩 하고, 외곽 영역을 생성할 수 있다. 또한, 디바이스(1000)는 상술한 방법을 이용하여 제7 프레임(2617), 제6 프레임(2616), 및 제8 프레임(2618)의 순서로 디코딩 하고, 확장 영상을 생성할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 디코딩과 확장 영상 생성이 완료되면, 제1 프레임(2611)부터 제9 프레임(2619)까지 순차적으로 디스플레이 할 수 있다. 그러나 이에 한정되지는 않는다. 예를 들면, 디바이스(1000)는 제4 프레임(2614)까지 확장 영상이 생성되면, 제1 프레임(2611)부터 제5 프레임(2615)을 순차적으로 디스플레이 하면서, 제7 프레임(2617), 제6 프레임(2616), 및 제8 프레임(2618)을 디코딩하고, 확장 영상을 생성할 수 있다.
도 27은 일 실시예에 따른 디바이스가 영상을 리사이즈 하고 확장 영상을 생성하는 상황을 설명하는 도면이다.
도 27을 참조하면, 디바이스(1000)는 리사이저(resizer)(또는, 스케일러(scaler))(2730)를 이용하여 디코딩 된 영상의 크기를 확대할 수 있다. 예를 들면, 디바이스(1000)는 리사이저(2730)를 이용하여 제1 영상(2710)의 해상도를 1280Ⅹ720(종횡비 16:9)에서 2560Ⅹ1440(종횡비 16:9)로 변경할 수 있다.
일 실시예에 따르면, 제1 영역에 디스플레이 되는 제1 영상(2710)의 종횡비(예: 16:9)는 제1 영상(2710)이 디스플레이 되는 제1 영역의 종횡비(예: 18:9)와 다를 수 있다. 이 경우, 디바이스(1000)는 레터박스(2711a, 2711b)를 표시할 수 있다.
일 실시예에 따르면, 디바이스(1000)는 제1 영상(2710)을 확장 영상 생성 모듈(2740)에 입력하여 제1 영상(2710)에 포함된 각각의 프레임의 확장 영상을 생성할 수 있다. 디바이스(1000)는 생성된 확장 영상과 제1 영상(2710)의 적어도 일부를 포함하는 제2 영상(2720)을 생성할 수 있다. 제2 영상(2720)은 해상도가 2960Ⅹ1440이고, 종횡비가 제1 영역의 종횡비와 같은 18:9일 수 있다.
디바이스(1000)는 생성된 제2 영상(2720)을 디스플레이 할 수 있다.
다양한 실시예에 따르면, 디바이스(1000)는 제2 영상(2720)에 포함된 프레임들을 확장 영상 생성 모듈(2740)으로 입력하여 확장 영상 생성 모듈이 다른 프레임들의 외곽 영역을 생성하는 것에 참조하도록 할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (14)

  1. 적어도 하나의 프로그램 및 제1 영상이 저장되는 메모리;
    디스플레이부; 및
    상기 적어도 하나의 프로그램을 실행함으로써 상기 디스플레이부의 적어도 일부에 상기 제1 영상을 디스플레이하도록 하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로그램은,
    상기 제1 영상의 종횡비 및 상기 제1 영상이 디스플레이될 영역의 종횡비를 비교하는 단계;
    상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이한 경우, 상기 제1 영상을 이용하여, 상기 영역의 종횡비에 대응하는 제2 영상을 생성하는 단계; 및
    제2 영상을 상기 영역에 디스플레이하는 단계;를 수행하는 명령어들을 포함하고,
    상기 제2 영상을 생성하는 단계는 상기 제1 영상의 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 상기 제2 영상을 생성하는 단계를 포함하는, 디바이스.
  2. 제1 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 프레임들을 추출하는 단계;
    상기 추출된 프레임들에 기초하여 상기 인공지능 신경망에 입력될 학습 데이터를 생성하는 단계; 및
    상기 학습 데이터를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 제2 영상을 생성하는 단계를 더 포함하는, 디바이스.
  3. 제1 항에 있어서,
    상기 디바이스는 서버에 상기 제1 영상을 전송하고, 상기 서버로부터 상기 서버가 상기 제1 영상을 이용하여 생성한 상기 인공지능 신경망을 수신하는 통신부를 더 포함하고,
    상기 제2 영상은 상기 제1 영상의 적어도 하나의 프레임이, 상기 서버로부터 수신된 인공지능 신경망에 입력됨으로써 생성되는, 디바이스.
  4. 제1 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이함에 따라, 상기 영역에 디스플레이 될 레터박스를 확인하는 단계; 및
    상기 레터박스에 디스플레이 될 확장 영상이 포함된 상기 제2 영상을 생성하는 단계를 포함하는, 디바이스.
  5. 제1 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 기준 프레임, 적어도 하나의 이전 프레임(Previous Frame) 및 적어도 하나의 다음 프레임(Next Frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하는, 디바이스.
  6. 제1 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 기준 프레임 및 상기 기준 프레임을 리사이징(resize)한 리사이즈 프레임(resized frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는, 디바이스.
  7. 제1 항에 있어서,
    상기 디바이스는 인터넷 통신을 할 수 있는 통신부를 더 포함하고,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나를 검출하는 단계;
    상기 통신부를 이용하여 상기 검출된 패턴 및 색 중 적어도 하나에 관련된 이미지를 검색하는 단계; 및
    상기 기준 프레임 및 상기 검색된 이미지를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는, 디바이스.
  8. 제1 영상의 종횡비 및 상기 제1 영상이 디스플레이될 영역의 종횡비를 비교하는 단계;
    상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이한 경우, 상기 제1 영상을 이용하여 상기 영역의 종횡비에 대응하는 제2 영상을 생성하는 단계; 및
    상기 제2 영상을 상기 영역 상에 디스플레이하는 단계;를 포함하고,
    상기 제2 영상을 생성하는 단계는 상기 제1 영상의 적어도 하나의 프레임이 인공지능 신경망에 입력됨으로써 상기 제2 영상을 생성하는 단계를 포함하는, 영상 표시 방법.
  9. 제8 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 프레임들을 추출하는 단계;
    상기 추출된 프레임들에 기초하여 상기 인공지능 신경망에 입력될 학습 데이터를 생성하는 단계; 및
    상기 학습 데이터를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 제2 영상을 생성하는 단계를 더 포함하는, 영상 표시 방법.
  10. 제8 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    서버에 상기 제1 영상을 전송하는 단계; 및
    상기 서버가 상기 제1 영상을 이용하여 생성한 상기 인공지능 신경망을 상기 서버로부터 수신하는 단계를 더 포함하고,
    상기 제2 영상은 상기 제1 영상의 적어도 하나의 프레임이, 상기 서버로부터 수신된 인공지능 신경망에 입력됨으로써 생성되는, 영상 표시 방법.
  11. 제8 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상의 종횡비와 상기 영역의 종횡비가 상이함에 따라, 상기 영역에 디스플레이 될 레터박스를 확인하는 단계; 및
    상기 레터박스에 디스플레이 될 확장 영상이 포함된 상기 제2 영상을 생성하는 단계를 포함하는, 영상 표시 방법.
  12. 제8 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 기준 프레임, 적어도 하나의 이전 프레임(Previous Frame) 및 적어도 하나의 다음 프레임(Next Frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써,상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하는, 영상 표시 방법.
  13. 제8항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 기준 프레임 및 상기 기준 프레임을 리사이징(resize)한 리사이즈 프레임(resized frame)을 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는 단계를 포함하는, 영상 표시 방법.
  14. 제8 항에 있어서,
    상기 제2 영상을 생성하는 단계는,
    상기 제1 영상에 포함된 기준 프레임을 구성하는 패턴 및 색 중 적어도 하나를 검출하는 단계;
    상기 검출된 패턴 및 색 중 적어도 하나에 관련된 이미지를 검색하는 단계;
    상기 기준 프레임 및 상기 검색된 이미지를 상기 인공지능 신경망에 입력하여 상기 인공지능 신경망을 학습시킴으로써, 상기 기준 프레임에 대응되는 상기 제2 영상의 프레임을 생성하는, 영상 표시 방법.
PCT/KR2019/000106 2018-01-04 2019-01-03 영상 재생 장치 및 그의 제어 방법 WO2019135621A1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US16/959,477 US11457273B2 (en) 2018-01-04 2019-01-03 Video playback device and control method thereof
EP19735892.2A EP3709667B1 (en) 2018-01-04 2019-01-03 Video playback device and control method thereof
CN202211213615.3A CN115460463A (zh) 2018-01-04 2019-01-03 视频播放装置及其控制方法
CN201980007493.2A CN111567056B (zh) 2018-01-04 2019-01-03 视频播放装置及其控制方法
EP23201757.4A EP4283528A3 (en) 2018-01-04 2019-01-03 Video playback device and control method thereof
US17/881,135 US11831948B2 (en) 2018-01-04 2022-08-04 Video playback device and control method thereof
US18/470,173 US20240031644A1 (en) 2018-01-04 2023-09-19 Video playback device and control method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180001287 2018-01-04
KR10-2018-0001287 2018-01-04

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/959,477 A-371-Of-International US11457273B2 (en) 2018-01-04 2019-01-03 Video playback device and control method thereof
US17/881,135 Continuation US11831948B2 (en) 2018-01-04 2022-08-04 Video playback device and control method thereof

Publications (2)

Publication Number Publication Date
WO2019135621A1 true WO2019135621A1 (ko) 2019-07-11
WO2019135621A9 WO2019135621A9 (ko) 2021-10-14

Family

ID=67144242

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000106 WO2019135621A1 (ko) 2018-01-04 2019-01-03 영상 재생 장치 및 그의 제어 방법

Country Status (5)

Country Link
US (3) US11457273B2 (ko)
EP (2) EP4283528A3 (ko)
KR (1) KR20190088406A (ko)
CN (2) CN115460463A (ko)
WO (1) WO2019135621A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476866A (zh) * 2020-04-09 2020-07-31 咪咕文化科技有限公司 视频优化与播放方法、系统、电子设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4286996A3 (en) * 2019-11-27 2024-02-21 Google LLC Detecting a frame-of-reference change in a smart-device-based radar system
KR102313651B1 (ko) * 2020-05-12 2021-10-15 수니코리아 엘엘씨(한국뉴욕주립대학교) 서버와 클라이언트 장치 간 비디오 스트리밍 방법
KR102556886B1 (ko) * 2020-10-27 2023-07-19 (주)엘컴텍 게임 동화형 조명무드 제어장치 및 그 방법
KR102492430B1 (ko) * 2021-03-17 2023-01-30 한국과학기술연구원 영상 영역 밖의 정보를 생성하는 영상 처리 장치 및 방법
KR102595096B1 (ko) * 2021-07-06 2023-10-27 한국전자기술연구원 지능적 가로-세로 영상 변환을 위한 전자 장치, 시스템 및 방법
KR102596308B1 (ko) * 2021-07-06 2023-10-31 한국전자기술연구원 지능적 영상 변환을 위한 전자 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070118756A (ko) * 2006-06-13 2007-12-18 삼성전자주식회사 복합 영상 신호에서의 화질 개선 방법 및 그 장치, 복합영상 신호에서의 왜곡 제거 방법 및 그 장치
KR101303017B1 (ko) * 2011-05-11 2013-09-03 엘지전자 주식회사 이미지의 리사이징 방법, 이미지의 전송방법 및 전자기기
KR20160053612A (ko) * 2014-11-05 2016-05-13 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
US9542621B2 (en) * 2014-10-09 2017-01-10 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
KR20170078516A (ko) * 2015-12-29 2017-07-07 삼성전자주식회사 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100505516B1 (ko) 1997-02-14 2005-12-16 소니 가부시끼 가이샤 영상신호변환장치및방법
US6330344B1 (en) 1997-02-14 2001-12-11 Sony Corporation Image processing device and method employing motion detection to generate improved quality image from low resolution image
KR100323678B1 (ko) 2000-02-28 2002-02-07 구자홍 화면비 변환 장치
WO2003017649A1 (en) * 2001-08-20 2003-02-27 Koninklijke Philips Electronics N.V. Image size extension
JP5107338B2 (ja) 2006-03-31 2012-12-26 ティーピー ビジョン ホールディング ビー ヴィ コンテンツの更なるフレームに基づいたビデオコンテンツの適応的なレンダリング
JP4564557B2 (ja) * 2008-08-28 2010-10-20 株式会社東芝 映像表示装置および映像表示方法
US20110261255A1 (en) 2008-12-05 2011-10-27 Pioneer Corporation Video display control device, video display device, and recording medium having video display program recorded thereon
CN102368297A (zh) * 2011-09-14 2012-03-07 北京英福生科技有限公司 一种用于识别被检测对象动作的设备、系统及方法
JP2014154944A (ja) * 2013-02-05 2014-08-25 Toshiba Corp 画像処理装置、及び画像処理方法
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
JP6557457B2 (ja) 2014-07-25 2019-08-07 クラリオン株式会社 画像表示システム、画像表示方法、及び表示装置
US9594947B1 (en) 2014-09-30 2017-03-14 Amazon Technologies, Inc. Aspect ratio validation
US9866789B2 (en) 2015-02-25 2018-01-09 Echostar Technologies L.L.C. Automatic program formatting for TV displays
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10579923B2 (en) * 2015-09-15 2020-03-03 International Business Machines Corporation Learning of classification model
CN105354543A (zh) 2015-10-29 2016-02-24 小米科技有限责任公司 视频处理方法及装置
US10678828B2 (en) * 2016-01-03 2020-06-09 Gracenote, Inc. Model-based media classification service using sensed media noise characteristics
US10303977B2 (en) * 2016-06-28 2019-05-28 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
US20180046361A1 (en) * 2016-08-09 2018-02-15 Adobe Systems Incorporated Fitting Content to a Resized Frame
CN107087201B (zh) 2017-05-10 2019-11-08 西安万像电子科技有限公司 图像处理方法和装置
CN107133919A (zh) 2017-05-16 2017-09-05 西安电子科技大学 基于深度学习的时间维视频超分辨率方法
CN107197260B (zh) * 2017-06-12 2019-09-13 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070118756A (ko) * 2006-06-13 2007-12-18 삼성전자주식회사 복합 영상 신호에서의 화질 개선 방법 및 그 장치, 복합영상 신호에서의 왜곡 제거 방법 및 그 장치
KR101303017B1 (ko) * 2011-05-11 2013-09-03 엘지전자 주식회사 이미지의 리사이징 방법, 이미지의 전송방법 및 전자기기
US9542621B2 (en) * 2014-10-09 2017-01-10 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
KR20160053612A (ko) * 2014-11-05 2016-05-13 삼성전자주식회사 영상 학습 모델을 이용한 영상 생성 방법 및 장치
KR20170078516A (ko) * 2015-12-29 2017-07-07 삼성전자주식회사 신경망 기반 영상 신호 처리를 수행하는 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476866A (zh) * 2020-04-09 2020-07-31 咪咕文化科技有限公司 视频优化与播放方法、系统、电子设备及存储介质
CN111476866B (zh) * 2020-04-09 2024-03-12 咪咕文化科技有限公司 视频优化与播放方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
US11457273B2 (en) 2022-09-27
EP4283528A2 (en) 2023-11-29
EP4283528A3 (en) 2024-02-14
EP3709667B1 (en) 2024-03-06
US20240031644A1 (en) 2024-01-25
CN111567056B (zh) 2022-10-14
US20220377416A1 (en) 2022-11-24
EP3709667A1 (en) 2020-09-16
US20210084372A1 (en) 2021-03-18
US11831948B2 (en) 2023-11-28
WO2019135621A9 (ko) 2021-10-14
EP3709667A4 (en) 2020-09-16
CN115460463A (zh) 2022-12-09
KR20190088406A (ko) 2019-07-26
CN111567056A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
WO2019135621A1 (ko) 영상 재생 장치 및 그의 제어 방법
WO2020213750A1 (ko) 객체를 인식하는 인공 지능 장치 및 그 방법
WO2018088794A2 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
WO2020138624A1 (en) Apparatus for noise canceling and method for the same
WO2018128362A1 (en) Electronic apparatus and method of operating the same
WO2020246844A1 (en) Device control method, conflict processing method, corresponding apparatus and electronic device
WO2020091210A1 (en) System and method of integrating databases based on knowledge graph
WO2020235696A1 (ko) 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
EP3545436A1 (en) Electronic apparatus and method of operating the same
WO2019225961A1 (en) Electronic device for outputting response to speech input by using application and operation method thereof
WO2021006366A1 (ko) 디스플레이 패널의 색상을 조정하는 인공 지능 장치 및 그 방법
WO2018117619A1 (en) Display apparatus, content recognizing method thereof, and non-transitory computer readable recording medium
WO2018117685A1 (en) System and method of providing to-do list of user
WO2020085641A1 (en) Display apparatus and operating method of the same
WO2020230933A1 (ko) 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
WO2019124963A1 (ko) 음성 인식 장치 및 방법
WO2020213758A1 (ko) 음성으로 상호작용하는 인공 지능 장치 및 그 방법
WO2021045447A1 (en) Apparatus and method for providing voice assistant service
WO2021006404A1 (ko) 인공지능 서버
EP3552163A1 (en) System and method of providing to-do list of user
WO2021029457A1 (ko) 사용자에게 정보를 제공하는 인공 지능 서버 및 그 방법
WO2021006405A1 (ko) 인공지능 서버
WO2021137345A1 (ko) 인공 지능 냉장고 및 그의 동작 방법
WO2020184753A1 (ko) 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법
WO2022154457A1 (en) Action localization method, device, electronic equipment, and computer-readable storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19735892

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019735892

Country of ref document: EP

Effective date: 20200608

NENP Non-entry into the national phase

Ref country code: DE