WO2022119288A1 - 디스플레이 장치 및 그의 동작 방법 - Google Patents

디스플레이 장치 및 그의 동작 방법 Download PDF

Info

Publication number
WO2022119288A1
WO2022119288A1 PCT/KR2021/017924 KR2021017924W WO2022119288A1 WO 2022119288 A1 WO2022119288 A1 WO 2022119288A1 KR 2021017924 W KR2021017924 W KR 2021017924W WO 2022119288 A1 WO2022119288 A1 WO 2022119288A1
Authority
WO
WIPO (PCT)
Prior art keywords
display
processor
content
video content
gesture
Prior art date
Application number
PCT/KR2021/017924
Other languages
English (en)
French (fr)
Inventor
김나영
박성식
윤종희
박정훈
최소희
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2022119288A1 publication Critical patent/WO2022119288A1/ko
Priority to US18/327,570 priority Critical patent/US20230328298A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4333Processing operations in response to a pause request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Definitions

  • a display device for reproducing video content and an operating method thereof are provided.
  • a display device for reproducing moving image content that induces a user to take a predetermined action, and an operating method thereof.
  • the display apparatus may be connected to various wired or wireless communication networks to receive at least one of a plurality of contents through the connected communication network.
  • the types and number of content that can be displayed through a display device are becoming very diverse.
  • the display device may access at least one server through the Internet, and may receive and display at least one content from the at least one connected server.
  • the display device selects at least one of various and many types of contents from an external device connected through various wired/wireless networks, for example, a broadcasting station server, an Internet server, a content server, a content providing device, or a content storage device. to receive and display.
  • Examples of the content received and reproduced by the display device include content for home training, dance-related content, dance lecture content, health care-related content, and the like.
  • the above-described content is content that provides operations that are continuously performed in exercise or dance.
  • home training content is content expressing an exercise that a user can do in an indoor space (eg, at home) using a tool that can be easily used by a user or without a separate tool.
  • the user of the display device can easily exercise indoors by following the exercise motions expressed in the content while watching the home training content.
  • the above-described home training content is generally reproduced through a display device without a separate play speed adjustment. Accordingly, when the user cannot follow the motion expressed in the home training content in time, the user has to temporarily suspend or restart the reproduction of the home training content by using a separate control device.
  • An object of the disclosed embodiment is to provide a display device capable of increasing user satisfaction while viewing moving image content and an operating method thereof.
  • an object of the disclosed embodiment is to provide a display device capable of increasing user satisfaction by automatically adjusting the reproduction of moving image content according to a user who follows the moving image content, and an operating method thereof.
  • the display apparatus and the operating method thereof according to the disclosed embodiment may automatically adjust the reproduction of the moving picture content according to a user who follows the moving picture content. Accordingly, it is possible to increase the satisfaction of the user watching the video content.
  • a display device includes a display; an image input unit for acquiring moving image content; a sensing unit including at least one sensor; and a processor executing at least one instruction.
  • the processor executes the at least one instruction to detect a user's gesture based on a detection result of the at least one sensor while the video content is being reproduced, and includes a plurality of frames included in the video content. of the video content is controlled so that at least one frame corresponding to the detected gesture is displayed.
  • the processor distinguishes a plurality of different motions included in the moving picture content, and reproduces the moving picture content so that the at least one frame representing the motion corresponding to the detected gesture among the plurality of motions is displayed. can be controlled.
  • the processor may adjust the playback speed of the moving picture content so that at least one frame corresponding to the detected gesture among a plurality of frames included in the moving picture content is displayed through the display.
  • the processor may move the playback position of the moving picture content so that at least one frame corresponding to the detected gesture among a plurality of frames included in the moving picture content is displayed through the display.
  • the processor analyzes the moving picture content, distinguishes a plurality of different operations included in the moving picture content, obtains information on the reproduction times of the plurality of differentiated operations, and includes information on the reproduction time. Based on this, at least one frame corresponding to the detected gesture among a plurality of frames included in the moving picture content may be controlled to be displayed through the display.
  • the processor analyzes the video content, distinguishes a plurality of different operations included in the video content, and inserts at least one tag corresponding to each of the plurality of differentiated operations into the video content to tag Controlled video content can be generated.
  • the processor may control to display at least one frame corresponding to the detected gesture among the plurality of frames included in the tagged video content through the display based on the plurality of tags.
  • the processor may input the sensing result of the sensing unit into a neural network, and obtain information about the user's gesture, which is information output as a result of an operation through the neural network.
  • the processor may obtain an image corresponding to the sensed gesture, and control so that the acquired image is superimposed and displayed on a playback screen of the moving picture content.
  • the processor may control to display guide information for the detected gesture on the playback screen.
  • a method of operating a display apparatus includes: reproducing video content through a display; detecting a user's gesture based on a detection result of at least one sensor while the video content is being played; and controlling reproduction of the video content so that at least one frame corresponding to the detected gesture is displayed among a plurality of frames included in the video content.
  • the method of operating a display apparatus may further include distinguishing a plurality of different operations included in the moving picture content.
  • the controlling of the reproduction may include displaying the at least one frame representing a motion corresponding to the detected gesture among the plurality of motions through the display.
  • the step of controlling the playback may include: a playback speed of the video content, a movement of a playback position, such that at least one frame corresponding to the detected gesture among a plurality of frames included in the video content is displayed through the display; and performing at least one of stopping playback.
  • the method of operating a display apparatus analyzes the moving picture content, distinguishes a plurality of different operations included in the moving picture content, and obtains information about the reproduction times of the plurality of differentiated operations. It may include further steps.
  • the controlling of the reproduction may include displaying the at least one frame representing a motion corresponding to the detected gesture among the plurality of motions through the display, based on the information on the playback time.
  • the method of operating a display apparatus analyzes the video content, distinguishes a plurality of different operations included in the video content, and at least one tag corresponding to each of the plurality of differentiated operations
  • the method may further include generating tagged moving picture content by inserting into the moving picture content.
  • the method of operating a display apparatus may further include obtaining an image corresponding to the detected gesture, and displaying the obtained image by superimposing it on a playback screen of the moving picture content.
  • the method of operating a display apparatus may further include displaying guide information about the detected gesture on the playback screen of the moving picture content.
  • 1 is a diagram for explaining video content that induces a user to take a predetermined action.
  • FIG. 2 is a block diagram illustrating a display device according to the disclosed embodiment.
  • FIG. 3 is another block diagram illustrating a display device according to the disclosed embodiment.
  • FIG. 4 is a flowchart illustrating a method of operating a display apparatus according to an exemplary embodiment.
  • FIG. 5 is another block diagram illustrating a display device according to the disclosed embodiment.
  • FIG. 6 is a view for explaining video content reproduced on a display device according to the disclosed embodiment.
  • FIG. 7 is a diagram for explaining images output on a screen according to the reproduction of moving picture content.
  • FIG. 8 is another diagram for explaining images output on a screen according to the reproduction of moving picture content.
  • 9 is another diagram for explaining images output on a screen according to the reproduction of moving picture content.
  • FIG. 11 is a diagram for explaining a tag of video content used in the disclosed embodiment.
  • FIG. 12 is a diagram for explaining a gesture sensing operation in the disclosed embodiment.
  • FIG. 13 is another diagram for explaining a gesture sensing operation in the disclosed embodiment.
  • FIG. 14 is another flowchart illustrating a method of operating a display apparatus according to an exemplary embodiment.
  • 15 is a diagram for describing a server communicating with a display device according to an exemplary embodiment.
  • 16 is a view for explaining an operation of controlling the reproduction of moving picture content according to the disclosed embodiment.
  • Some embodiments may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented in various numbers of hardware and/or software configurations that perform specific functions.
  • the functional blocks of the present disclosure may be implemented by one or more processors or microprocessors, or by circuit configurations to perform an intended function.
  • the functional blocks of the present disclosure may be implemented in various programming or scripting languages.
  • the functional blocks may be implemented as an algorithm running on one or more processors.
  • the present disclosure may employ prior art for electronic configuration, signal processing, and/or data processing, and the like. Terms such as module and configuration may be used broadly, and are not limited to mechanical and physical configurations.
  • connecting lines or connecting members between the components shown in the drawings only exemplify functional connections and/or physical or circuit connections.
  • a connection between components may be represented by various functional connections, physical connections, or circuit connections that are replaceable or added.
  • a description of 'at least one of A, B, and C' means 'A', 'B', 'C', 'A and B', 'A and C', 'B and C', and 'A, It means that it can be any one of B, and C'.
  • the display device may refer to any electronic device capable of receiving an image signal corresponding to the moving image content and reproducing the moving image content.
  • the display device may be a TV, a digital TV, a smart TV, a digital signage, a digital signage, a smart phone, a tablet PC, a personal digital assistant (PDA), a laptop computer, a media player, etc. have.
  • a TV a digital TV
  • a smart TV a digital signage
  • a digital signage a digital signage
  • a smart phone a tablet PC
  • PDA personal digital assistant
  • laptop computer a media player, etc. have.
  • 1 is a diagram for explaining video content that induces a user to take a predetermined action.
  • image content and image-based service may be provided through a display device.
  • the image content may include moving image content, and such moving image content may be reproduced or output through a display device.
  • the moving image content may be content expressing a motion related to at least one of dance, fitness, exercise therapy, and home training.
  • the video content may be instructional content for teaching or guiding viewers to an operation related to at least one of dance, fitness, exercise therapy, and home training.
  • video content reproduced through the display apparatus 100 may be home training content representing a squat motion.
  • the display apparatus 100 may reproduce the corresponding moving picture content by displaying or outputting images expressing the squat motion through the display 110 in real time. Then, the user 150 may watch the video content reproduced on the display 110 and follow the squat motion.
  • the moving picture content is reproduced regardless of the user's state.
  • the user may not follow the motion or miss the corresponding motion.
  • the motion expressed in the video is not easy to follow, the user may follow the corresponding motion slowly and thus may not be able to follow the change of the motion corresponding to the playback speed of the video in real time.
  • the reproduction of the moving picture content is performed according to the user who follows the moving picture content.
  • a display device that can be automatically adjusted and a method of operating the same.
  • FIG. 2 is a block diagram illustrating a display device according to the disclosed embodiment.
  • the display device 200 shown in FIG. 2 corresponds to the display device 100 described in FIG. 1 , and thus a redundant description will be omitted.
  • the display device 200 may include any electronic device that visually displays video content.
  • the display device 200 is any electronic device capable of selectively displaying at least one video content, and may exist in various forms such as a TV, a digital broadcasting terminal, a tablet PC, a smart phone, a mobile phone, a computer, and a notebook computer.
  • the display apparatus 200 may have a form that is movable or portable by a user as well as a fixed type.
  • the display apparatus 200 includes an image input unit 210 , a display 220 , a sensing unit 230 , and a processor 240 .
  • the display device 200 includes a display 220, an image input unit 210 for obtaining moving image content, a sensing unit 230 including at least one sensor, and a processor 240 for executing at least one instruction.
  • the processor 240 executes the at least one instruction, detects a user's gesture based on the detection result of the at least one sensor while the video content is being played, and is included in the video content Playback of the video content is controlled so that at least one frame corresponding to the detected gesture among a plurality of frames is displayed through the display.
  • the image input unit 210 may acquire video content.
  • the moving image content may be content expressing a predetermined motion.
  • the moving image content may be content that includes content expressing a motion related to at least one of dance, fitness, exercise therapy, and home training.
  • the video content may be instructional content for teaching or guiding viewers to an operation related to at least one of dance, fitness, exercise therapy, and home training.
  • the moving image content may be content including content representing an operation for expressing a language or a symbol through a human body movement or a gesture, such as sign language.
  • the object appearing in the video content may be a person expressing a motion, and may be a text representing the motion, a fictitious object, a fictitious avatar, a fictitious person, and the like.
  • the image input unit 210 may receive image data from the outside of the display apparatus 200 .
  • the image data may be moving image data corresponding to moving image content including content representing an operation. That is, moving picture content may be input, transmitted, or delivered in the form of moving picture data or video data.
  • the image input unit 210 may receive at least one video content transmitted through a predetermined channel by communicating with an external device (not shown). Specifically, the image input unit 210 may receive at least one of a plurality of contents corresponding to a plurality of channels.
  • the channel may be a broadcast channel.
  • the channel may mean a content transmission path corresponding to a content provider that transmits predetermined content in addition to a broadcast channel.
  • a channel may mean a transmission path through which a video on demand (VoD) service and/or a streaming content providing service are transmitted in addition to a broadcast channel, and, like a broadcast channel, a predetermined number, a predetermined letter, or a predetermined letter and a predetermined number. It may be expressed in a combined form of numbers.
  • the video input unit 210 may receive video content from a sports channel that provides video content for home training.
  • the image input unit 210 may communicate with external devices (not shown) through a wired or wireless network.
  • the image input unit 210 includes at least one communication module such as a short-range communication module, a wired communication module, a mobile communication module, and a broadcast reception module to perform communication through a wired/wireless network.
  • the at least one communication module may include a tuner that performs broadcast reception, Bluetooth, Wireless LAN (WLAN) (Wi-Fi), Wireless broadband (Wibro), World Interoperability for Microwave Access (Wimax), CDMA, WCDMA, and the like. It refers to a communication module that can transmit and receive data through a network conforming to the same communication standard.
  • the image input unit 210 includes an HDMI port (High-Definition Multimedia Interface port, not shown), a component jack (not shown), a PC port (PC port, not shown), and a USB port (USB port, not shown). ) may include one of the following. Also, the image input unit 210 may include a combination of an HDMI port, a component jack, a PC port, and a USB port. In this case, the image input unit 210 may directly receive video data to be reproduced on the display device 200 through an HDMI port, a component jack, a PC port, or a USB port.
  • HDMI port High-Definition Multimedia Interface port, not shown
  • a component jack not shown
  • PC port PC port
  • USB port USB port
  • the display 220 visually outputs the image.
  • the display 220 may display an image corresponding to the video data through an internally included display panel (not shown) so that the user can visually recognize the moving picture content.
  • the video data may include a plurality of frame images, and the display 220 may reproduce the video content by continuously displaying the plurality of frame images under the control of the processor 240 .
  • the sensing unit 230 includes at least one sensor.
  • At least one sensor included in the sensing unit 230 may acquire data used to identify a user's gesture.
  • the at least one sensor may include at least one of an image sensor, a motion sensor, and an infrared sensor.
  • the image sensor may be a camera, and may obtain an image of a user making a gesture.
  • the sensing unit 230 may include at least one camera to acquire an image of the user in order to detect the user's gesture. For example, when a user watches video content and follows actions expressed in the video content, each of the at least one camera included in the sensing unit 230 is a gesture, gesture, and posture of the user corresponding to the user's action. , you can take an image showing the appearance. Then, the processor 240 may analyze the acquired image to identify the user's gesture.
  • each of the at least one camera included in the sensing unit 230 is a two-dimensional camera for acquiring a two-dimensional image or a three-dimensional camera for acquiring an image of an object including depth information about the photographed object can be Then, the display apparatus 200 may detect the user's gesture by using at least one sensor included in the sensing unit 230 . Specifically, the processor 240 may detect the user's gesture based on an image acquired from at least one camera included in the sensing unit 230 .
  • the sensing unit 230 may be formed as a separate device physically distinct from the display device 200 . It might be In this case, the sensing unit 230 may be electrically connected to the display apparatus 200 , and the display apparatus 200 may receive the detection result of the sensing unit 230 through the communication unit 260 .
  • the sensing unit 230 may include a camera 105 disposed in front of the display apparatus 100 or 200 to capture an image of the user 150 .
  • a camera eg, 105 in FIG. 1
  • the image acquired by the camera may be an image representing the posture, gesture, motion, pose, movement and/or gesture of the user.
  • 'gestures' all postures, gestures, motions, poses, movements, and/or gestures are collectively referred to as 'gestures'.
  • the processor 240 performs at least one instruction to control an intended operation to be performed. Also, the processor 240 may control the overall operation of the display apparatus 200 . Also, the processor 240 may control other components included in the display apparatus 200 to perform a predetermined operation.
  • the processor 240 may include an internal memory (not shown) and at least one processor (not shown) executing at least one stored program.
  • the internal memory (not shown) of the processor 240 may store one or more instructions.
  • the processor 240 may execute at least one of one or more instructions stored in an internal memory (not shown) to execute a predetermined operation.
  • the processor 240 stores a signal or data input from the outside of the display device 200 , or a RAM (not shown) used as a storage area corresponding to various operations performed in the display device 200 , a display It may include a ROM (not shown) in which a control program and/or a plurality of instructions for controlling the device 200 are stored and at least one processor (not shown).
  • the processor 240 may include a graphics processor (Graphic Processing Unit, not shown) for processing graphics corresponding to video.
  • the processor 240 may be implemented as a system on chip (SoC) in which a core (not shown) and a GPU (not shown) are integrated.
  • SoC system on chip
  • the processor 240 may include a single core or more multi-core.
  • the processor 240 may include a dual-core, triple-core, quad-core, hexa-core, octa-core, deca-core, dodeca-core, hexa-dash-vale core, and the like.
  • the processor 240 may receive at least one of a plurality of images (eg, frame images) included in the video content obtained from the image input unit 210 and analyze, process and/or process it. have. In addition, the processor 240 may receive an image representing the user's gesture obtained from the sensing unit 230 and analyze, process and/or process it.
  • a plurality of images eg, frame images
  • the processor 240 may receive an image representing the user's gesture obtained from the sensing unit 230 and analyze, process and/or process it.
  • FIG. 3 is another block diagram illustrating a display device according to the disclosed embodiment.
  • the display device 300 shown in FIG. 3 may correspond to the display device 200 shown in FIG. 2 . Accordingly, in describing the display apparatus 300 , a description overlapping with that of FIG. 2 will be omitted.
  • the display apparatus 300 may further include at least one of a memory 250 , a communication unit 260 , and a user interface 270 compared to the display apparatus 300 illustrated in FIG. 2 . .
  • the memory 250 may store at least one instruction. Also, the memory 250 may store at least one instruction executed by the processor 240 . Also, the memory 250 may store at least one program executed by the processor 240 . Also, the memory 250 may store information or data used for an operation of the display apparatus 300 . Also, the memory 250 may store video content that can be played back on the display device 300 .
  • the memory 250 may include a flash memory type, a hard disk type, a multimedia card micro type, and a card type memory (eg, SD or XD memory, etc.).
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory a magnetic disk, and an optical disk
  • a magnetic disk may include at least one type of storage medium.
  • the communication unit 260 communicates with an external device (not shown) through at least one wired or wireless communication network.
  • the communication unit 260 may communicate with an external device (not shown).
  • the external device may be a server, and the communication unit 260 may communicate with a server (not shown).
  • the server (not shown) may be a content providing server that provides moving image content, an Internet server, or the like.
  • the server (not shown) may be a server that analyzes or processes images.
  • the communication unit 260 may be formed to include at least one communication module, a communication circuit, and the like, and may transmit/receive data to and from an external device through the communication module and/or the communication circuit.
  • the communication unit 260 may further include a long-distance communication module (not shown) for performing communication with a server (not shown) for supporting long-distance communication according to the telecommunication standard.
  • the communication unit 260 may include a long-distance communication module (not shown) for performing communication through a network for Internet communication.
  • the communication unit 260 may include a communication network conforming to a communication standard such as 3G, 4G, 5G, and/or 6G.
  • the communication unit 260 may include a short-range communication module capable of receiving a control command from a remote controller (not shown), for example, an IR (infrared) communication module.
  • the communication unit 260 may receive a control command from a remote control device (not shown).
  • a control command received from a remote control device may include a turn-on or turn-off command.
  • the communication unit 260 may perform some of the functions of the image input unit 210 described with reference to FIG. 2 .
  • the communication unit 260 may acquire moving image content by receiving data corresponding to the moving image content through a wired or wireless communication network.
  • the user interface 270 may receive a user input for controlling the display apparatus 300 .
  • the user interface 270 includes a touch panel for sensing a user's touch, a button for receiving a user's push operation, a wheel for receiving a user's rotation operation, a keyboard (key board), and a dome switch, etc. It may include, but is not limited to, a user input device.
  • the user interface 270 may include a voice recognition device (not shown) for voice recognition.
  • the voice recognition device may be a microphone, and the voice recognition device may receive a user's voice command or voice request.
  • the processor 240 may control an operation corresponding to a voice command or a voice request to be performed.
  • FIG. 4 is a flowchart illustrating a method of operating a display apparatus according to an exemplary embodiment.
  • the operation method 400 of the display apparatus shown in FIG. 4 may be the operation method of the display apparatus 100 , 200 or 300 according to the disclosed embodiment described with reference to FIGS. 1 to 3 . That is, FIG. 4 may be a flowchart illustrating operations of the display apparatus 100 , 200 , or 300 according to the disclosed embodiment. Accordingly, in describing the operations included in the operating method 400 of the display apparatus, a description overlapping with the operations performed by the display apparatus 100 , 200 or 300 described with reference to FIGS. 1 to 3 will be omitted.
  • Step S410 may be performed on the display 220 under the control of the processor 240 .
  • the moving image content acquired by the image input unit 210 may be reproduced on the display 220 under the control of the processor 240 .
  • Step S410 may be performed by the processor 240 .
  • the processor 240 may receive a detection result of at least one sensor included in the sensing unit 230 , and identify the user's gesture based on the received detection result.
  • the operating method 400 of the display apparatus controls the reproduction of the moving image content so that at least one frame corresponding to the detected gesture among a plurality of frames included in the moving image content is displayed on the display 220 .
  • do (S430).
  • the method 400 of operating the display device may output at least one frame corresponding to the gesture detected in step S420 among a plurality of frames included in the moving picture content through the display 220 (S430).
  • Step S430 may be performed on the display 220 under the control of the processor 240 .
  • FIG. 5 is another block diagram illustrating a display device according to the disclosed embodiment.
  • the display device 500 shown in FIG. 5 may correspond to the electronic device 300 or 400 shown in FIGS. 1 to 3 . Accordingly, in describing the display device 500 , a description overlapping with those of FIGS. 3 and 4 will be omitted.
  • the processor 580 may correspond to the processor 240 illustrated in FIGS. 2 to 3 .
  • the communication unit 550 , the display 515 , the sensing unit 560 , and the memory 590 of the display device 500 are the communication unit 260 , the display 220 , the sensing unit 230 and the memory shown in FIG. 3 , respectively. It may correspond to (250).
  • the configuration of the communication unit 550 and the input/output unit 570 may correspond to the image input unit 210 illustrated in FIGS. 2 to 3 . Therefore, in describing the display apparatus 500 , the description overlapping with those of FIGS. 2 and 3 will be omitted.
  • the video processing unit 510 processes the video data received by the display apparatus 500 .
  • the video processing unit 510 may perform various image processing, such as decoding, scaling, noise filtering, frame rate conversion, and resolution conversion, on video data.
  • the display 515 displays the video included in the broadcast signal received through the tuner unit 540 on the screen under the control of the processor 580 . Also, the display 515 may display content (eg, a video) input through the communication unit 550 or the input/output unit 570 .
  • content eg, a video
  • the display 515 may output an image stored in the memory 590 under the control of the processor 580 .
  • the display 515 is a voice UI for performing a voice recognition task corresponding to voice recognition (eg, including a voice command guide) or motion for performing a motion recognition task corresponding to motion recognition.
  • a UI eg, including a user motion guide for motion recognition
  • the display 515 may play video content including content representing an operation.
  • the audio processing unit 520 processes audio data.
  • various processes such as decoding, amplification, and noise filtering on audio data may be performed.
  • the audio processing unit 520 may include a plurality of audio processing modules to process audio corresponding to a plurality of contents.
  • the audio output unit 525 outputs audio included in the broadcast signal received through the tuner unit 540 under the control of the processor 580 .
  • the audio output unit 525 may output audio (eg, voice, sound) input through the communication unit 550 or the input/output unit 570 .
  • the audio output unit 525 may output audio stored in the memory 590 under the control of the processor 580 .
  • the audio output unit 525 may include at least one of a speaker 526 , a headphone output terminal 527 , and an S/PDIF (Sony/Philips Digital Interface: output terminal 528 ). It may include a combination of a speaker 526 , a headphone output terminal 527 , and a S/PDIF output terminal 528 .
  • the power supply unit 530 supplies power input from an external power source to the components 510 to 590 inside the display apparatus 500 under the control of the processor 580 .
  • the power supply unit 530 may supply power output from one or more batteries (not shown) located inside the display device 500 to the internal components 510 to 590 under the control of the processor 580 .
  • the tuner unit 540 tunes only the frequency of a channel to be received by the display device 500 among many radio wave components through amplification, mixing, resonance, etc. of a broadcast signal received by wire or wirelessly. It can be selected by tuning.
  • the broadcast signal includes audio, video, and additional information (eg, Electronic Program Guide (EPG)).
  • EPG Electronic Program Guide
  • the tuner unit 540 receives a user input (eg, an external control device (not shown)), for example, a control signal received from a remote controller, eg, a channel number input, and a channel up-down (up-down). down) according to the input and the channel input on the EPG screen), a broadcast signal may be received in a frequency band corresponding to a channel number (eg, cable broadcast No. 506).
  • a user input eg, an external control device (not shown)
  • a control signal received from a remote controller eg, a channel number input, and a channel up-down (up-down). down
  • a broadcast signal may be received in a frequency band corresponding to a channel number (eg, cable broadcast No. 506).
  • the tuner unit 540 may receive broadcast signals from various sources, such as terrestrial broadcast, cable broadcast, satellite broadcast, and Internet broadcast.
  • the tuner unit 540 may receive a broadcast signal from a source such as analog broadcast or digital broadcast.
  • the broadcast signal received through the tuner unit 540 is decoded (eg, audio decoded, video decoded, or additional information decoded) to be separated into audio, video and/or additional information.
  • the separated audio, video, and/or additional information may be stored in the memory 590 under the control of the processor 580 .
  • the tuner unit 540 of the display apparatus 500 may be one or plural. According to an embodiment, when there are a plurality of tuner units 540 , a plurality of broadcast signals may be output to a plurality of windows constituting a multi-window screen provided on the display 515 .
  • the tuner unit 540 is implemented as an all-in-one with the display device 500 or a separate device (eg, a set-top box) having a tuner unit electrically connected to the display device 500 .
  • a top box (not shown) and a tuner unit (not shown) connected to the input/output unit 570 may be implemented.
  • the communication unit 550 may connect the display device 500 to an external device (eg, an audio device, etc.) under the control of the processor 580 .
  • the processor 580 may transmit/receive content to/from an external device connected through the communication unit 550 , download an application from the external device, or perform web browsing.
  • the communication unit 550 may receive content from an external device (not shown) by accessing the network.
  • the communication unit 550 may include at least one of a short-range communication module (not shown), a wired communication module (not shown), and a mobile communication module (not shown).
  • the communication unit 550 includes one of a wireless LAN 551 , a Bluetooth communication unit 552 , and a wired Ethernet (Ethernet, 553) is illustrated as an example.
  • the communication unit 550 may include a module combination including any one or more of a wireless LAN 551 , a Bluetooth communication unit 552 , and a wired Ethernet 553 . Also, the communication unit 550 may receive a control signal from a control device (not shown) under the control of the processor 580 .
  • the control signal may be implemented as a Bluetooth type, an RF signal type, or a Wi-Fi type.
  • the communication unit 550 may further include other short-range communication (eg, near field communication (NFC), not shown) and a separate BLE module (bluetooth low energy, not shown) in addition to Bluetooth.
  • NFC near field communication
  • BLE bluetooth low energy
  • the sensing unit 560 detects a user's voice, a user's image, or a user's interaction.
  • the sensing unit 560 may acquire data for identifying the user's gesture.
  • the sensing unit 560 may include a camera unit 562, and using the camera unit 562 to obtain data (eg, an image representing the user's gesture) for identifying the user's gesture. have.
  • the sensing unit 560 may include a camera unit 562 .
  • the sensing unit 560 may further include at least one of a microphone 561 and a light receiving unit 563 .
  • the microphone 561 receives the user's utterance voice.
  • the microphone 561 may convert the received voice into an electrical signal and output it to the processor 580 .
  • the user's voice may include, for example, a voice corresponding to a menu or function of the display apparatus 500 .
  • the recognition range of the microphone 561 is recommended to be within 4 m from the microphone 561 to the user's location, and the recognition range of the microphone 561 is the size of the user's voice and the surrounding environment (eg, speaker sound, may vary in response to ambient noise).
  • the microphone 561 may be implemented integrally with the display device 500 or as a separate type.
  • the separated microphone 561 may be electrically connected to the display device 500 through the communication unit 550 or the input/output unit 570 .
  • the microphone 561 may be excluded depending on the performance and structure of the display device 500 .
  • the camera unit 562 receives an image (eg, a continuous frame) corresponding to a user's motion including a gesture in a camera recognition range.
  • the recognition range of the camera unit 562 may be within 0.1 to 5 m from the camera unit 562 to the user.
  • the user motion may include, for example, the user's face, facial expression, hand, fist, or a motion of a part of the user's body, such as a finger, or the like.
  • the camera unit 562 may convert the received image into an electrical signal under the control of the processor 580 and output the converted image to the processor 580 .
  • the processor 580 may select a menu displayed on the display apparatus 500 using the received motion recognition result or may perform a control corresponding to the motion recognition result. For example, it may include channel adjustment, volume adjustment, and indicator movement.
  • the camera unit 562 may include a lens (not shown) and an image sensor (not shown).
  • the camera unit 562 may support optical zoom or digital zoom by using a plurality of lenses and image processing.
  • the recognition range of the camera unit 562 may be set in various ways according to the angle of the camera and environmental conditions.
  • a three-dimensional still image or a three-dimensional motion may be received by using the plurality of cameras.
  • the camera unit 562 may be implemented integrally with the display device 500 or as a separate type.
  • a separate device (not shown) including the separated camera unit 562 may be electrically connected to the display device 500 through the communication unit 550 or the input/output unit 570 .
  • the camera unit 562 may be excluded depending on the performance and structure of the display device 500 .
  • the light receiving unit 563 receives an optical signal (including a control signal) received from an external control device (not shown) through a light window (not shown) of the bezel of the display 515 .
  • the light receiver 563 may receive an optical signal corresponding to a user input (eg, touch, press, touch gesture, voice, or motion) from a control device (not shown).
  • a control signal may be extracted from the received optical signal under the control of the processor 580 .
  • the light receiver 563 may receive a signal corresponding to the pointing position of the control device (not shown) and transmit it to the processor 580 .
  • the light receiving unit 563 corresponds to the movement of the control device (not shown) when the user moves the control device (not shown) in a state in which the user touches the touch pad (not shown) provided on the control device (not shown).
  • the signal may be received and transmitted to the processor 580 .
  • the light receiver 563 may receive a signal indicating that a specific button provided in the control device (not shown) is pressed and transmit it to the processor 580 .
  • the light receiver 563 receives a signal indicating that the button-type touch pad (not illustrated) is pressed. may be transmitted to the processor 580 .
  • a signal that a button-type touch pad (not shown) is pressed may be used as a signal for selecting one of the items.
  • the input/output unit 570 receives video (eg, moving picture, etc.), audio (eg, voice, music, etc.) and additional information (eg, from the outside of the display device 500 ) under the control of the processor 580 . for example, EPG, etc.).
  • the input/output unit 570 is one of an HDMI port (High-Definition Multimedia Interface port, 571), a component jack (component jack, 572), a PC port (PC port, 573), and a USB port (USB port, 574).
  • the input/output unit 570 may include a combination of an HDMI port 571 , a component jack 572 , a PC port 573 , and a USB port 574 .
  • the processor 580 controls the overall operation of the display apparatus 500 and a signal flow between internal components (not shown) of the display apparatus 500 , and performs a function of processing data. When there is a user input or a preset stored condition is satisfied, the processor 580 may execute an operating system (OS) and various applications stored in the memory 590 .
  • OS operating system
  • the processor 580 stores a signal or data input from the outside of the display device 500 , or a RAM (not shown) used as a storage area corresponding to various operations performed in the display device 500 , and the display device 500 .
  • a RAM used as a storage area corresponding to various operations performed in the display device 500 , and the display device 500 .
  • ) may include a ROM (not shown) in which a control program for control is stored and a processor (not shown).
  • the processor may include a graphic processor (Graphic Processing Unit, not shown) for processing graphics corresponding to a video.
  • the processor may be implemented as a system on chip (SoC) in which a core (not shown) and a GPU (not shown) are integrated.
  • SoC system on chip
  • a processor may include a single core, a dual core, a triple core, a quad core, and multiple cores thereof.
  • the processor (not shown) may include a plurality of processors.
  • the processor (not shown) may be implemented as a main processor (not shown) and a sub processor (not shown) operating in a sleep mode.
  • the graphic processing unit (not shown) generates a screen including various objects such as icons, images, and texts by using a calculation unit (not shown) and a rendering unit (not shown).
  • the calculation unit calculates property values such as coordinate values, shape, size, color, etc. at which each object is to be displayed according to the layout of the screen using the user interaction sensed through the sensing unit (not shown).
  • the rendering unit generates screens of various layouts including objects based on the attribute values calculated by the operation unit. The screen generated by the rendering unit is displayed in the display area of the display 515 .
  • FIGS. 6 to 10 a case in which moving image content is reproduced on the display device 200 described with reference to FIG. 2 will be described as an example.
  • FIG. 6 is a view for explaining video content reproduced on a display device according to the disclosed embodiment.
  • the moving picture content may include a plurality of frames 620 respectively corresponding to a plurality of images.
  • the moving image content may be content including content expressing motion.
  • FIG. 6 a case in which the video content reproduced in the disclosed embodiment is home training class content including at least one strength exercise action is illustrated as an example.
  • the plurality of frames 620 included in the moving picture content may be formed at a predetermined frame rate. For example, 30, 60, or 120 frames may be included during the playback time of 1 second of moving picture content.
  • FIG. 7 is a diagram for explaining images output on a screen according to the reproduction of moving picture content. Specifically, FIG. 7 is a diagram for explaining the contents of a squat lesson included in the video content described with reference to FIG. 6 . Therefore, in describing the operation shown in FIG. 7, reference will be made to FIG. 6 together.
  • a plurality of frames 640 corresponding to the contents of the squat instruction may be image frames for expressing the squat motion.
  • the plurality of frames 640 may include a plurality of image frames indicating a change in a gesture (or gesture) according to the squat operation.
  • the squat operation may be performed by successively holding postures for the first gesture 710 , the second gesture 720 , the third gesture 730 , and the fourth gesture 740 .
  • a frame corresponding to each of the first gesture 710 , the second gesture 720 , the third gesture 730 , and the fourth gesture 740 may be at least one frame.
  • the user may watch the reproduced frames 640 and follow the squat operation in real time.
  • FIG. 8 is another diagram for explaining images output on a screen according to the reproduction of moving picture content. Specifically, FIG. 8 is a view for explaining the contents of the lunge lesson included in the video content described in FIG. 6 . Accordingly, in describing the operation shown in FIG. 8, reference will be made to FIG. 6 together.
  • the plurality of frames 650 may include a plurality of image frames indicating a change in a gesture (or gesture) according to a lunge operation.
  • the lunge operation may be performed by continuously holding postures for the first gesture 810 and the second gesture 820 .
  • a frame corresponding to each of the first gesture 810 and the second gesture 820 may be at least one frame.
  • the user may watch the reproduced frames 650 and follow the lunge operation in real time.
  • FIG. 9 is another diagram for explaining images output on a screen according to the reproduction of moving picture content. Specifically, FIG. 9 is a diagram for explaining the contents of a deadlift class included in the video content described with reference to FIG. 6 . Accordingly, in describing the operation shown in FIG. 8, reference will be made to FIG. 6 together.
  • the plurality of frames 650 may include a plurality of image frames indicating a change in a gesture (or gesture) according to a deadlift operation.
  • the deadlift operation may be performed by successively holding postures for the first gesture 910 , the second gesture 920 , and the second gesture 930 .
  • a frame corresponding to each of the first gesture 910 , the second gesture 920 , and the second gesture 930 may be at least one frame.
  • the user may watch the reproduced frames 660 and follow the deadlift operation in real time. .
  • FIG. 10 a time table 1000 corresponding to the moving picture content described with reference to FIGS. 6 to 9 is shown.
  • the processor 240 may identify a plurality of different operations included in the moving picture content.
  • the processor 240 may receive the video content obtained from the image input unit 210 and distinguish or identify a plurality of operations from the video content.
  • information on a plurality of differentiated operations may be obtained.
  • the moving image content is transmitted or stored in non-real time
  • the moving image content is stored in the memory 250 included in the display device (eg, 300), and the processor 240 is the transferred or stored moving image.
  • the content can be read and analyzed.
  • the processor 240 analyzes a stream corresponding to the video content transmitted in real time in real time, and performs each of the operations included prior to the reproduction of the corresponding video content. You will be able to obtain playback time information for
  • the processor 240 may store the received stream in real time. Specifically, the processor 240 may store the stream in the memory inside the processor 240 or store the stream in the memory 250 included in the display device (eg, 300 ). In addition, the processor 240 may identify a plurality of operations by analyzing the stored stream and analyzing the operations included in the moving picture content. Then, it is possible to obtain reproduction time information for each of the identified operations.
  • the processor 240 may store information on representative motions or representative postures for each exercise, home training, and dance in advance.
  • a plurality of motions included in the video content may be identified using the stored representative motion or representative posture.
  • the processor 240 may use a neural network based on machine learning or AI to distinguish or identify a plurality of motions included in video content. Motion discrimination through the neural network will be described in detail below with reference to FIGS. 13 and 15 .
  • the processor 240 may analyze the moving picture content, identify a plurality of different motions included in the moving picture content, and obtain information on reproduction times of the plurality of identified motions. In addition, the processor 240 may control to display at least one frame corresponding to the detected gesture among a plurality of frames included in the moving picture content through the display 220 based on the obtained information on the reproduction time. have.
  • the information on the reproduction time may include at least one of a reproduction start time for each operation, a reproduction end time for each operation, a reproduction time for each operation, and information on a reproduction section for each operation.
  • 'information on playback time' will be referred to as 'reproduction time information'.
  • the processor 240 may analyze the video content to obtain the time table 1000 as shown in FIG. 10 .
  • the processor 240 may identify a plurality of motions included in the moving picture content through image analysis, and obtain information on reproduction time of frames corresponding to the plurality of motions.
  • additional data or metadata included in the moving picture content may include playback time information on operations included therein.
  • the video content may include information on each of the playback timings at which the squat operation starts and the lunge operation starts.
  • the processor 240 may extract additional data or meta data included in the moving picture content, and based on the extracted additional data or meta data, obtain playback time information of frames corresponding to a plurality of operations. .
  • FIG. 11 is a diagram for explaining a tag of video content used in the disclosed embodiment.
  • the same configuration as in FIG. 6 is illustrated using the same reference numerals, and thus a redundant description will be omitted.
  • the tag is information inserted or added into the moving picture content to identify a plurality of operations included in the moving picture content, and may be called another name such as a flag.
  • the processor 240 may insert a tag at a boundary between different further operations within a plurality of frames 620 included in moving picture content.
  • the tag may be inserted between the frames 630 corresponding to the guide content and the frames 640 corresponding to the squat operation (S1110).
  • the tag may include information indicating the identified operation.
  • the tag inserted in S1110 may include information indicating a 'squat' operation.
  • the tag may be inserted between the frames 640 corresponding to the squat operation and the frames 650 corresponding to the lunge operation (S1120).
  • the tag may include information indicating the identified operation.
  • the tag inserted in S1120 may include information indicating a 'lunge' operation.
  • the tag may be inserted between the frames 650 corresponding to the lunge operation and the frames 660 corresponding to the deadlift operation (S1130).
  • the tag may include information indicating the identified operation.
  • the tag inserted in S1130 may include information indicating a 'lunge' operation.
  • the tag may be added or inserted into at least one of a first frame and a last frame of at least one frame corresponding to the operation.
  • a tag indicating the squat operation may be inserted into at least one of the first frame 641 and the last frame 642 of the plurality of frames 640 corresponding to the squat operation.
  • a tag indicating the lunge operation may be inserted into at least one of the first frame 651 and the last frame 652 of the plurality of frames 650 corresponding to the lunge operation.
  • a tag indicating the deadlift operation may be added to at least one of the first frame 661 and the last frame 662 of the plurality of frames 660 corresponding to the deadlift operation.
  • the processor 240 may store tag information including a table (or list) including at least one generated tag.
  • the tag information may be stored in an internal memory of the processor 240 or a separate memory (eg, 250 in FIG. 3 ) included in the display device (eg, 200 or 300 ).
  • the creator of the moving picture content may create the moving picture content by adding a tag for identifying a plurality of operations when producing the moving picture content. For example, in a time bar or progress bar indicating the playback time of video content, a table of contents indicating the contents included in the content or a thumbnail image indicating the contents included in the content are displayed.
  • the tag can be said to be self-contained.
  • the processor 240 may search for a tag included in the video content and identify a plurality of operations based on the searched tag.
  • step S420 the user gesture sensing operation in step S420 will be described in detail with reference to FIGS. 12 to 13 .
  • FIGS. 12 and 13 a case in which the detection result of the sensing unit 230 is at least one image representing the user's posture is illustrated and described as an example.
  • FIG. 12 is a diagram for explaining a gesture sensing operation in the disclosed embodiment.
  • the processor 240 may identify the gesture of the user 1201 based on the detection result of the sensor 230 .
  • the sensing result of the sensing unit 230 may be at least one continuously captured frame.
  • the frame (eg, 1210 ) acquired by the sensing unit 230 may be an image captured while the user 1201 follows the deadlifting motion. Specifically, when the user 1201 performs a deadlift operation, the sensing unit 230 may continuously acquire a plurality of frames and transmit the acquired frames to the processor 240 .
  • the processor 240 may analyze the plurality of frames acquired by the sensor 230 to identify the user's gesture.
  • the user's gesture identification may be performed using various motion recognition technologies.
  • the processor 240 analyzes the acquired frame 1210 to generate information 1230 indicating at least one feature point 1231 , 1232 , 1233 for identifying a gesture of the user 1201 , and , a gesture may be identified by a method of identifying movement of a body part based on the feature points 1231 , 1232 , and 1233 .
  • the feature points 1231 , 1232 , and 1233 are reference points for discriminating the movement or gesture of the user 1201 , and may be set at various frequencies in various ways for each body part.
  • each joint included in the palm may be set as a feature point.
  • a feature point 1233 corresponding to a joint portion of a leg bone branching from the pelvis may be set.
  • the processor 240 analyzes the movement of the body part based on the feature points in each of a plurality of consecutively acquired frames, and identifies which posture the user is following and which action the user's gesture corresponds to. can do.
  • FIG. 13 is another diagram for explaining a gesture sensing operation in the disclosed embodiment.
  • a gesture sensing operation will be described with reference to the display device 300 shown in FIG. 3 .
  • a machine learning technique for motion detection may be used to detect the gesture of step S420.
  • a motion recognition technique based on deep learning may be used.
  • a method for recognizing a gesture by performing object recognition, object tracking, and object discrimination using artificial intelligence (AI) technology that performs calculations through a neural network has been developed and used. have.
  • AI artificial intelligence
  • operations for detecting a gesture by analyzing an image to recognize an object, track an object, and distinguish an object are collectively referred to as a 'gesture detection operation'.
  • AI technology can be implemented using algorithms.
  • an algorithm or a set of algorithms for implementing AI technology is called a neural network.
  • the neural network may receive input data, perform the above-described operations for analysis and classification, and output result data.
  • 'training' refers to a method of inputting various data into a neural network, analyzing the input data, a method of classifying the input data, and/or extracting features necessary for generating result data from the input data. It may mean training the neural network so that the neural network can discover or learn a method by itself.
  • 'training' may be expressed as 'learning' or 'training' in Korean.
  • a set of algorithms for outputting output data corresponding to input data through the above-described neural network, software for executing the set of algorithms, and/or hardware for executing a set of algorithms are referred to as 'AI models' (or 'artificial intelligence model).
  • AI models can exist in many different forms. Specifically, there may be various AI models that receive an image, analyze the input image, and perform an operation of classifying the gesture of an object included in the image into at least one class.
  • the AI model may include at least one neural network, and for convenience of explanation, an AI model for performing a gesture sensing operation is illustrated as an example in which one neural network 1320 is formed.
  • the neural network may be a deep neural network (DNN) that includes a plurality of layers and performs multi-stage operations.
  • the deep neural network (DNN) operation may include a convolutional neural network (CNN) operation and the like.
  • a data recognition model for object recognition may be implemented through the exemplified neural network, and the implemented recognition model may be trained using training data. Then, by using the learned data recognition model, input data, for example, images captured by a camera are analyzed or classified, an object is recognized in each of the input images, and a gesture corresponding to the recognized object is recognized and output It can be output as data.
  • a convolutional neural network (CNN) refers to all neural networks that perform an algorithm to find a pattern by analyzing an image, and various types of neural networks may exist.
  • the neural network 1320 receives at least one image 1310 obtained from the sensing unit 230 through an input layer 1321 , extracts an object in the input image 1310 , and extracts the extracted It may be a neural network trained to identify a gesture corresponding to an object and output the identified gesture to the output terminal 1325 .
  • the information output to the output terminal 1325 may be motion information 1350 indicating a gesture corresponding to the differentiated motion.
  • the neural network 1320 When the neural network 1320 receives the image 1310 obtained from the sensing unit 230 while the user 1301 is following the squat motion, the neural network 1320 analyzes the input image 1310, ' The motion information 1350 indicating 'squat motion' may be output.
  • the AI model including the neural network 1320 may be stored in the processor 240 .
  • the AI model including the neural network 1320 may be formed by a separate processor (not shown) included in the display device (eg, 300 ).
  • the AI model including the neural network 1320 may be stored in a separate storage device (eg, the memory 250 ) included in the display device 300 .
  • the processor 240 of the electronic device 300 converts the AI model including the neural network 1320 into the AI model including the sensing unit. At least one image obtained in step 230 may be input to detect the user's gesture.
  • the processor 240 may use an AI model including the neural network 1320 to distinguish a plurality of different operations included in the moving picture content.
  • the neural network 1320 sequentially receives a plurality of frames included in the video content through the input terminal 1321, analyzes the received frames, and outputs information for distinguishing a plurality of operations included in the plurality of frames. (1325) can be output.
  • the AI model including the neural network 1320 may be included or stored in a device separate from the display device 300 .
  • the AI model including the neural network 1320 may be stored in an external device (not shown) connected to the display device 300 through a wired/wireless communication network.
  • the display apparatus 300 may transmit the at least one image obtained by the sensing unit 230 of the user to the communication unit 260 to the external device.
  • the external device (not shown) may receive the at least one image and obtain the operation information 1350 using the AI model included therein.
  • An external device (not shown) may transmit the obtained motion information 1350 to the communication unit 260 of the display device 300 .
  • the communication unit 260 may receive the transmitted operation information 1350 and transmit it to the processor 240 .
  • the processor 240 may detect a user gesture based on the motion information 1350 .
  • FIG. 14 is another flowchart illustrating a method of operating a display apparatus according to an exemplary embodiment.
  • the operation method 1400 of the display apparatus shown in FIG. 14 may be the operation method of the display apparatus 100 , 200 , 300 or 500 according to the disclosed embodiment described with reference to FIGS. 1 to 5 . That is, FIG. 14 may be a flowchart illustrating operations of the display apparatus 100 , 200 , 300 or 500 according to the disclosed embodiment.
  • FIG. 14 the same structure as that in FIG. 4 is shown using the same reference numerals.
  • Step S410 in the operating method 1400 of the display apparatus, moving picture content is reproduced through the display 220 ( S410 ).
  • Step S410 may be performed on the display 220 under the control of the processor 240 .
  • step S420 may include steps S421 and S422.
  • the operating method 1400 of the display apparatus may receive a user image obtained from at least one camera included in the sensing unit 230 ( S421 ).
  • the processor 240 may receive a user image.
  • the user image is an image of a user following an action expressed in the moving picture content, and may include the images 1210 and 1310 described with reference to FIGS. 12 and 13 .
  • the operation method 1400 of the display apparatus may analyze the user image received in step S421 to identify a gesture corresponding to the operation currently performed by the user (S422).
  • Step S422 may be performed by the processor 240 .
  • step S422 may be performed by an external device (not shown) under the control of the processor 240 .
  • step S422 may be performed using the AI model described with reference to FIG. 13 .
  • the operation of step S422 may be performed by the processor 240 itself.
  • the operation of step S422 may be performed by an external device (not shown) described with reference to FIG. 13 .
  • information on the identified gesture may be transmitted to the processor 240 through the communication unit 260 .
  • the operating method 1400 of the display device reproduces at least one frame corresponding to the gesture detected in step S420 from among the plurality of frames included in the moving picture content through the display 220 (S430).
  • Step S430 may be performed on the display 220 under the control of the processor 240 .
  • the processor 240 temporarily suspends the playback of the video content or stops the playback of the video content so that at least one frame corresponding to the detected gesture among a plurality of frames included in the video content is displayed through the display 220 . You can adjust the speed or move the playback position.
  • the processor 240 may temporarily stop the reproduction of the video content so that at least one frame corresponding to the detected gesture among a plurality of frames included in the video content is displayed through the display 220 .
  • the processor 240 may temporarily stop the reproduction of the video content until the user completes the operation currently being reproduced.
  • the processor 240 may adjust the playback speed of the moving picture content so that at least one frame corresponding to the detected gesture among a plurality of frames included in the moving picture content is displayed through the display 220 .
  • the processor 240 may slow the playback speed of the moving picture content so that the user's motion is synchronized with the motion being reproduced in the moving picture content.
  • the processor 240 may quickly adjust the playback speed of the moving picture content so that the user's motion is synchronized with the motion being reproduced in the moving picture content.
  • the processor 240 may move the playback position of the moving picture content so that at least one frame corresponding to the detected gesture among a plurality of frames included in the moving picture content is displayed through the display 220 . Specifically, the processor 240 sets the playback position of the video content to at least one frame expressing an action or gesture corresponding to the user's gesture so that the user's action and the action being played in the video content are synchronized. can move
  • the operation method 1400 of the display device may search for an operation of the video content corresponding to the identified gesture ( S431 ).
  • the operation of step S431 may be performed based on at least one of the above-described reproduction time information and tag information.
  • the processor 240 may analyze the moving picture content, identify a plurality of different operations included in the moving picture content, and obtain information on reproduction times of the identified plurality of operations. In this case, the processor 240 may identify at least one frame corresponding to the detected gesture among a plurality of frames included in the moving picture content, based on the information on the playback time. Specifically, as in the example shown in FIG. 12 , when the user's gesture is identified as a gesture corresponding to the lunge operation, the processor 240 generates a frame corresponding to the lunge operation based on the reproduction time information for the lunge operation. It is possible to control the playback of video content so that the search is performed and the searched frame is displayed. Specifically, referring to FIG.
  • the processor 240 searches for frames 650 existing at the corresponding reproduction time, and the user's Playback of the video content may be controlled so that at least one frame corresponding to the gesture is displayed.
  • the operating method 1400 of the display apparatus includes a time (eg, a first time) corresponding to the identified user's gesture and a playback time (eg, a second time) included in the operation of the video content retrieved in step S431. time) can be compared (S432).
  • the operation of step S431 may be performed based on at least one of the above-described reproduction time information and tag information.
  • the frame corresponding to the detected gesture among the squat motion included in the video content and the first time at which the corresponding gesture is detected is displayed.
  • a second time corresponding to the playback time may be compared ( S432 ).
  • step S432 the time corresponding to the identified user's gesture (eg, the first time) and the playback time (eg, the second time) included in the operation of the video content retrieved in step S431 correspond to whether It can be determined (S433).
  • step S437 may be at least one of the above-described movement of the reproduction time, pause of reproduction, and adjustment of the reproduction speed.
  • the user's gesture corresponds to a squat
  • the currently played video content may be for a lunge.
  • the processor 240 may move the playback time of the moving picture content to the playback time of the squat action based on at least one of the tag and the playback time information so that the playback operation of the current moving picture content matches the user's gesture.
  • the processor 240 may temporarily suspend the playback of the video content so that the playback operation of the current video content matches the user's gesture, and wait until the user completes the squat operation and starts the lunge operation.
  • the processor 240 obtains an image corresponding to the detected gesture, and controls the obtained image to be displayed while being superimposed on a playback screen of the moving picture content.
  • the processor 240 may acquire a captured image as an image corresponding to the sensed gesture.
  • the processor 240 may generate an avatar image corresponding to the detected gesture.
  • the acquired image may be included as a sub screen of the reproduction screen. Then, the user will be able to recognize whether his posture is correct or inaccurate, or whether he is following the motion well by looking at the playback screen.
  • the processor 240 may control to display guide information about the detected gesture on the playback screen of the moving picture content.
  • the guide information may include information for guiding what kind of gesture the detected gesture is, how to follow it more quickly, how to move a part of the body, and the like.
  • FIG. 15 is a diagram for describing a server communicating with a display device according to an exemplary embodiment.
  • the same components as in FIGS. 2 to 3 are illustrated using the same reference numerals.
  • the display apparatus 1550 illustrated in FIG. 15 may correspond to the display apparatus 100 , 200 , 300 , or 500 according to the disclosed embodiment described with reference to FIGS. 1 to 14 . Accordingly, descriptions overlapping with the above descriptions will be omitted.
  • the display device 1550 may communicate with an external device through a wired/wireless communication network.
  • the external device may be a separate electronic device (not shown) physically distinct from the display device 1550 or the server 1500 .
  • FIG. 15 a case in which the external device is the server 1500 will be illustrated and described as an example.
  • the display apparatus 1550 is illustrated as including the processor 240 and the first communication unit 260 , but may further include at least one of the components illustrated in FIGS. 3 and 5 . However, it is not shown in the description.
  • the server 1500 may include a processor 1510 and a second communication unit 1520 .
  • the server 1500 may be a server that analyzes an image, and performs an arithmetic operation on an AI model for performing at least one of object recognition and gesture recognition included in the image.
  • the second communication unit 1520 communicates with the display device 1550 through at least one wired or wireless communication network.
  • the second communication unit 1520 may be formed to include at least one communication module, a communication circuit, and the like, and may transmit/receive data to and from an external device through the communication module and/or the communication circuit. Since the internal configuration of the second communication unit 1520 corresponds to the communication unit 260 described with reference to FIG. 3 , a detailed description thereof will be omitted.
  • the display device 1550 may transmit, in real time, a plurality of images obtained by photographing a posture, gesture, motion, or appearance of a user through the first communication unit 260 to the second communication unit 1520 of the server 1500 . Then, the processor 1510 of the server 1500 identifies the user's gesture based on the received images, and transmits information about the identified gesture to the first communication unit 260 through the second communication unit 1520. have.
  • the display device 1550 may transmit the video content to the second communication unit 1520 of the server 1500 in real time through the first communication unit 260 .
  • the processor 1510 of the server 1500 may analyze the received video content using the AI model, identify a plurality of operations, and obtain playback time information corresponding to the identified operations.
  • the obtained information may be transmitted to the first communication unit 260 through the second communication unit 1520 .
  • the processor 1510 of the server 1500 analyzes the received video content using the AI model, distinguishes a plurality of actions, and adds tags corresponding to the differentiated actions to generate tagged video content.
  • the tagged video content may be transmitted to the first communication unit 260 through the second communication unit 1520 .
  • FIG. 16 is a view for explaining an operation of controlling the reproduction of moving picture content according to the disclosed embodiment. Specifically, FIG. 16 is a view for explaining a reproduction control operation of the display apparatus 100 , 200 , 300 or 500 according to the disclosed embodiment. In FIG. 16 , a case in which the moving picture content exemplified with reference to FIGS. 6 to 10 is reproduced on the display device 100 , 200 , 300 or 500 according to the disclosed embodiment will be described as an example.
  • block 1630 indicates video content reproduced on the display 220 before playback control according to the disclosed embodiment is performed.
  • reference numeral 1610 denotes a state in which the user follows the video content reproduced on the display 220 .
  • block 1650 indicates video content reproduced on the display 220 when the reproduction control according to the disclosed embodiment is performed.
  • tens to hundreds of frames may represent the deadlift operation.
  • the display apparatus 300 may sequentially reproduce a plurality of frames 1631 , 1632 , 1633 , and 1634 representing the deadlift operation through the display 220 at time points t1 to t4. have.
  • the user may follow the deadlift motion while watching the displayed image 1631 .
  • the user sees the image 1631 and takes a posture 1601_1 , and as the video content is reproduced, the user may follow the deadlift motion while watching the displayed image 1632 at time t2 .
  • the user follows the motion expressed in the reproduced moving picture content up to time points t1 and t2.
  • the image 1633 reproduced at the subsequent time t3 corresponds to the standing posture during the deadlift operation, but at the time t3, the user has not yet been able to stand up following the standing motion and the posture expressed in the image displayed at the time t2 ( 1602_3) is taken.
  • the general display device plays the moving picture content regardless of whether the user follows the reproduced operations or not. Accordingly, the posture 1602_3 followed by the user at the same time point as the image 1633 reproduced at time t3 starts to change, and the user's posture and the operating posture of the video content reproduced even at time t4 are inevitably different. In this case, in the prior art, the user had to manually pause the reproduction of the moving picture content using a separate control device, or to change his or her posture in the middle.
  • the reproduction of the video content may be automatically adjusted without user intervention so that a user's gesture is recognized and a frame corresponding to the recognized gesture is displayed. Accordingly, the user's satisfaction can be increased by providing the playback speed or playback state of the video content optimized according to the user's exercise state or the user's intention.
  • the processor 240 searches for at least one frame synchronized with the user's gesture sensed in real time at time t3, and displays the retrieved at least one frame 1632 at time t3 ( 220) can be controlled to be displayed.
  • the point in time t3 at which the user's gesture is detected and the point at which the frame 1632 corresponding to the detected gesture is displayed are both the same as point t3, the user's gesture detection operation and the corresponding frame search operation are shown.
  • the disclosed embodiment it is possible to control to display operations synchronized with the user's gestures according to the user's gestures. That is, when the user's gesture 1602_4 is detected at time t4, playback of the video content may be controlled so that a frame 1633 corresponding to the gesture 1602_4 detected at time t4 is displayed. Accordingly, the display 220 of the display apparatus 300 may display a frame 1633 corresponding to the gesture 1602_4 detected at time t4.
  • the user again sees the frame 1634 displayed at the subsequent time point t5, and can follow the subsequent motion or gesture.
  • the method of operating a display apparatus may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • an embodiment of the present disclosure may be a computer-readable recording medium in which one or more programs including instructions for executing a method of operating a display apparatus are recorded.
  • the computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software.
  • Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks.
  • - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' means that the storage medium is a tangible device and does not include a signal (eg, electromagnetic wave), and this term is used when data is semi-permanently stored in the storage medium. and temporary storage.
  • the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be included and provided in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed online (eg download or upload), directly between smartphones (eg smartphones).
  • a portion of the computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
  • a computer program product including a recording medium in which a program for performing the method of operating the display apparatus according to the disclosed embodiment is stored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Neurosurgery (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

개시된 실시예에 따른 디스플레이 장치는 디스플레이; 동영상 콘텐트를 획득하는 영상 입력부; 적어도 하나의 센서를 포함하는 감지부; 및 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함한다. 상기 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 상기 동영상 콘텐트의 재생을 제어한다.

Description

디스플레이 장치 및 그의 동작 방법
동영상 콘텐트를 재생하는 디스플레이 장치 및 그의 동작 방법에 대한 것이다.
구체적으로, 사용자가 소정 동작을 취하도록 유도하는 동영상 콘텐트를 재생하는 디스플레이 장치 및 그의 동작 방법에 대한 것이다.
디스플레이의 보급 및 기술 개발로 인하여, 다양한 형태 및 다양한 기능을 갖는 디스플레이 장치들이 개발되고 있다.
그에 따라서, 디스플레이 장치를 활용하여 소비자의 다양한 욕구 또는 의도에 부합되는 기능을 실현할 수 있다.
디스플레이 장치는 다양한 유선 또는 무선의 통신 네트워크와 연결되어, 연결된 통신 네트워크를 통하여 복수개의 컨텐츠 중 적어도 하나를 수신할 수 있다. 최근에는, 디스플레이 장치를 통해서 디스플레이 가능한 컨텐츠의 종류 및 개수가 매우 다양해지고 있다. 예를 들어, 디스플레이 장치는 인터넷을 통하여 적어도 하나의 서버에 접속할 수 있고, 접속된 적어도 하나의 서버에서 적어도 하나의 컨텐츠를 수신하여 표시할 수 있다. 또한, 디스플레이 장치는 다양한 유무선 네트워크를 통하여 연결되는 외부 장치, 예를 들어, 방송국 서버, 인터넷 서버, 컨텐츠 서버, 컨텐츠 제공 장치, 또는 컨텐츠 저장 장치 등으로부터 다양하고 많은 종류의 컨텐츠들 중 적어도 하나를 선택하여 수신 및 디스플레이 할 수 있다.
디스플레이 장치가 수신하여 재생하는 콘텐트로는, 홈 트레이닝을 위한 콘텐트, 댄스 관련 콘텐트, 댄스 강의 콘텐트, 헬스 케어 관련 콘텐트 등을 예로 들 수 있다. 전술한 콘텐트는, 운동 또는 댄스 등에 있어서 연속적으로 이뤄지는 동작들을 제공하는 콘텐트다.
예를 들어, 홈트레이닝 콘텐트는, 사용자가 쉽게 이용할 수 있는 도구를 이용하거나 또는 별도의 도구 없이 실내 공간(예를 들어, 집) 내에서 할 수 있는 운동을 표현하는 콘텐트다. 디스플레이 장치의 사용자는 홈 트레이닝 콘텐트를 시청하면서 콘텐트 내에서 표현되는 운동 동작들 따라함으로써, 실내에서도 손쉽게 운동을 할 수 있다.
전술한 홈 트레이닝 콘텐트는, 일반적으로 별도의 재생 속도 조절 없이 디스플레이 장치를 통하여 재생된다. 따라서, 사용자가 홈트레이닝 콘텐트에서 표현된 동작을 제때에 따라가지 못하는 경우에는, 사용자는 별도의 제어 장치를 이용하여 그때 그때 홈 트레이닝 콘텐트의 재생을 일시 중단하거나 재 시작해야 하는 불편함이 있다.
개시된 실시예는 동영상 콘텐트를 시청하는 사용자 만족도를 높일 수 있도록 하는 디스플레이 장치 및 그의 동작 방법의 제공을 목적으로 한다.
구체적으로, 개시된 실시예는 동영상 콘텐트를 따라하는 사용자에 맞춰서 상기 동영상 콘텐트의 재생을 자동적으로 조절함으로써, 사용자의 만족도를 높일 수 있는 디스플레이 장치 및 그의 동작 방법의 제공을 목적으로 한다.
개시된 실시예에 따른 디스플레이 장치 및 그의 동작 방법은 동영상 콘텐트를 따라하는 사용자에 맞춰서 상기 동영상 콘텐트의 재생을 자동적으로 조절할 수 있다. 그에 따라서, 동영상 콘텐트를 시청하는 사용자의 만족도를 높일 수 있다.
개시된 실시예에 따른 디스플레이 장치는 디스플레이; 동영상 콘텐트를 획득하는 영상 입력부; 적어도 하나의 센서를 포함하는 감지부; 및 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함한다. 상기 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어한다.
또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어할 수 있다.
또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생을 일시적으로 중단할 수 있다.
또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 속도를 조절할 수 있다.
또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 위치를 이동할 수 있다.
또한, 상기 프로세서는 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하며, 상기 재생 시간에 대한 정보에 근거하여, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록 제어할 수 있다.
또한, 상기 프로세서는 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그를 상기 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트가 생성되도록 제어할 수 있다.
또한, 상기 프로세서는 상기 복수개의 태그에 근거하여, 상기 태그된 동영상 콘텐트에 포함되는 상기 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록 제어할 수 있다.
또한, 상기 프로세서는 상기 감지부의 감지 결과를 신경망으로 입력하고, 상기 신경망을 통한 연산의 결과 출력되는 정보인 상기 사용자의 제스처에 대한 정보를 획득할 수 있다.
또한, 상기 프로세서는 상기 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지가 중첩되어 디스플레이 되도록 제어할 수 있다.
또한, 상기 프로세서는 상기 재생 화면 상에, 상기 감지된 제스처에 대한 가이드 정보가 표시되도록 제어할 수 있다.
개시된 실시예에 따른 디스플레이 장치의 동작 방법은 디스플레이를 통하여 동영상 콘텐트를 재생하는 단계; 동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하는 단계; 및 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어하는 단계를 포함한다.
또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하는 단계를 더 포함할 수 있다. 또한, 상기 재생을 제어하는 단계는 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이를 통하여 표시하는 단계를 포함할 수 있다.
또한, 상기 재생을 제어하는 단계는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 속도, 재생 위치 이동, 및 재생 중지 중 적어도 하나의 동작을 수행하는 단계를 포함할 수 있다.
또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하는 단계를 더 포함할 수 있다. 또한, 상기 재생을 제어하는 단계는 상기 재생 시간에 대한 정보에 근거하여, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이를 통하여 표시하는 단계를 포함할 수 있다.
또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그를 상기 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트를 생성하는 단계를 더 포함할 수 있다.
또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지를 중첩하여 디스플레이하는 단계를 더 포함할 수 있다.
또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 컨텐트의 재생 화면 상에, 감지된 제스처에 대한 가이드 정보를 표시하는 단계를 더 포함할 수 있다.
도 1은 사용자가 소정 동작을 취하도록 유도하는 동영상 콘텐트를 설명하기 위한 도면이다.
도 2는 개시된 실시예에 따른 디스플레이 장치를 나타내는 일 블록도이다.
도 3은 개시된 실시예에 따른 디스플레이 장치를 나타내는 다른 블록도이다.
도 4는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 일 흐름도이다.
도 5는 개시된 실시예에 따른 디스플레이 장치를 나타내는 다른 블록도이다.
도 6은 개시된 실시예에 따른 디스플레이 장치에서 재생되는 동영상 콘텐트를 설명하기 위한 도면이다.
도 7은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 일 도면이다.
도 8은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다.
도 9는 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다.
도 10은 동영상 콘텐트에 대응되는 시간 별 재생 동작들을 나타내는 도면이다.
도 11은 개시된 실시예에서 이용되는 동영상 콘텐트의 태그를 설명하기 위한 도면이다.
도 12는 개시된 실시예에서의 제스처 감지 동작을 설명하기 위한 일 도면이다.
도 13은 개시된 실시예에서의 제스처 감지 동작을 설명하기 위한 다른 도면이다.
도 14는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 다른 흐름도이다.
도 15는 개시된 실시예에 따른 디스플레이 장치와 통신하는 서버를 설명하기 위한 도면이다.
도 16은 개시된 실시예에 따른 동영상 콘텐트의 재생 조절 동작을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 도면 전체에 있어서, 동일한 구성에 대하여는 동일한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.
일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 프로세서 또는 마이크로프로세서들에 의해 구현되거나, 의도하는 기능을 수행하기 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립트 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. 모듈 및 구성등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
또한, 'A, B, 및 C 중 적어도 하나'라는 기재는 'A', 'B', 'C', 'A 및 B', 'A 및 C', 'B 및 C', 및 'A, B, 및 C' 중 어느 하나가 될 수 있음을 의미한다.
개시된 실시예에서, 디스플레이 장치는 동영상 콘텐트에 대응되는 영상 신호를 수신하여, 동영상 콘텐트를 재생할 수 있는 모든 전자기기를 지칭할 수 있다.
구체적으로, 개시된 실시예에서 디스플레이 장치는 TV, 디지털 TV, 스마트 TV, 디지털 간판(digital signage), 디지털 표지판, 스마트 폰, 태블릿 PC, PDA(personal digital assistant), 랩탑 컴퓨터, 미디어 플레이어 등이 될 수 있다.
이하에서는, 첨부된 도면들을 참조하며, 개시된 실시예에 따른 디스플레이 장치 및 그 동작 방법을 상세히 설명하도록 한다. 첨부된 도면들에 있어서, 동일한 구성 요소는 동일한 도면 기호를 이용하여 도시하였다. 또한, 상세한 설명 전체적으로, 동일한 구성은 동일한 용어로 기재하였다.
이하에서는 도 1 내지 도 16을 참조하여, 개시된 실시예에 따른 디스플레이 장치의 구성 및 그의 수행 동작들을 상세하게 설명한다.
도 1은 사용자가 소정 동작을 취하도록 유도하는 동영상 콘텐트를 설명하기 위한 도면이다.
영상 기술의 발달 및 개인 방송, 영상 전문 어플리케이션의 발달로 다양한 영상 콘텐트 및 영상 기반 서비스가 제공되고 있다. 이러한 영상 콘텐트 및 영상 기반 서비스는 디스플레이 장치를 통하여 제공될 수 있다. 여기서, 영상 콘텐트는 동영상 콘텐트를 포함할 수 있으며, 이러한 동영상 콘텐트는 디스플레이 장치를 통하여 재생 또는 출력될 수 있다.
예를 들어, 동영상 콘텐트는 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 표현하는 콘텐트 일 수 있다. 또 다른 예로, 동영상 콘텐트는, 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 시청자들에게 가르치거나 가이드 하기 위한 강습 콘텐트일 수 있다. 디스플레이 장치(100)의 디스플레이(110) 상으로 전술한 동영상 콘텐트가 재생되면, 사용자는 동영상 콘텐트에서 표현되는 동작을 따라서 움직일 수 있다.
도 1을 참조하면, 디스플레이 장치(100)를 통하여 재생되는 동영상 콘텐트는 스쿼트 동작을 표현하는 홈 트레이닝 콘텐트가 될 수 있다. 이 경우, 디스플레이 장치(100)는 디스플레이(110)를 통하여 스쿼트 동작을 표현하는 이미지들을 실시간으로 표시 또는 출력함으로써, 해당 동영상 콘텐트를 재생할 수 있다. 그러면, 사용자(150)는 디스플레이(110) 상으로 재생되는 동영상 콘텐트를 시청하고, 스쿼트 동작을 따라할 수 있다.
전술한 바와 같이 적어도 하나의 동작을 표현하거나 적어도 하나의 동작을 가이드하기 위한 동영상 콘텐트가 디스플레이 장치(100)를 통하여 재생될 때, 일반적으로 동영상 콘텐트는 사용자의 상태와 무관하게 재생이 진행된다. 예를 들어, 동영상 콘텐트에서 표현하는 동작이 따라하기 쉽지 않은 경우, 사용자는 해당 동작을 따라하지 못하거나 해당 동작을 놓칠 수 있다. 또는, 동영상에서 표현하는 동작이 따라하기 쉽지 않은 경우, 사용자는 해당 동작을 느리게 따라해서, 동영상의 재생 속도에 대응되는 동작의 변화를 실시간으로 따라하지 못하는 경우가 있을 수 있다.
개시된 실시예는, 전술한 바와 같이 사용자가 동영상에서 표현된 동작을 제대로 따라하지 못하는 경우에 발생하는 사용자의 어려움 및 불편함을 감소시키기 위해서, 동영상 콘텐트를 따라하는 사용자에 맞춰서 상기 동영상 콘텐트의 재생을 자동적으로 조절할 수 있는 디스플레이 장치 및 그의 동작 방법을 제공한다.
도 2는 개시된 실시예에 따른 디스플레이 장치를 나타내는 일 블록도이다. 도 2에 도시된 디스플레이 장치(200)는 도 1에서 설명한 디스플레이 장치(100)에 동일 대응되므로, 중복되는 설명은 생략한다.
개시된 실시예에서, 디스플레이 장치(200)는 동영상 콘텐트를 시각적으로 디스플레이하는 모든 전자 장치를 포함할 수 있다. 구체적으로, 디스플레이 장치(200)는 적어도 하나의 동영상 콘텐트를 선택적으로 디스플레이 할 수 있는 모든 전자 장치로, TV, 디지털 방송용 단말기, 태블릿 PC, 스마트 폰, 모바일 폰, 컴퓨터, 노트북 등과 같이 다양한 형태로 존재할 수 있다. 또한, 디스플레이 장치(200)는 고정형뿐만 아니라, 이동 가능하거나 사용자가 휴대 가능한 형태를 가질 수 있을 것이다.
도 2를 참조하면, 디스플레이 장치(200)는 영상 입력부(210), 디스플레이(220), 감지부(230), 및 프로세서(240)를 포함한다.
구체적으로, 디스플레이 장치(200)는 디스플레이(220), 동영상 콘텐트를 획득하는 영상 입력부(210), 적어도 하나의 센서를 포함하는 감지부(230), 및 적어도 하나의 인스트럭션을 실행하는 프로세서(240)를 포함한다. 여기서, 프로세서(240)는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록 상기 동영상 콘텐트의 재생을 제어한다.
구체적으로, 영상 입력부(210)는 동영상 콘텐트를 획득할 수 있다.
여기서, 동영상 콘텐트는 소정 동작을 표현하는 콘텐트일 수 있다. 예를 들어, 동영상 콘텐트는 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 표현하는 내용이 포함되는 콘텐트 일 수 있다. 또 다른 예로, 동영상 콘텐트는, 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 시청자들에게 가르치거나 가이드 하기 위한 강습 콘텐트일 수 있다. 또 다른 예로, 동영상 콘텐트는, 수화 등과 같이 사람의 신체의 움직임 또는 제스처로 언어 또는 기호를 표현하기 위한 동작을 나타내는 내용이 포함되는 콘텐트가 될 수 있다.
또한, 동영상 콘텐트에 등장하는 객체는 동작을 표현하는 사람이 될 수 있으며, 동작을 표현하는 텍스트, 가공의 객체, 가공의 아바타, 가공의 인물 등이 될 수도 있을 것이다.
영상 입력부(210)는 디스플레이 장치(200)의 외부에서부터 영상 데이터를 수신할 수 있다. 여기서, 영상 데이터는 동작을 나타내는 내용이 포함되는 동영상 콘텐트에 대응되는 동영상 데이터가 될 수 있다. 즉, 동영상 콘텐트는 동영상 데이터 또는 비디오 데이터의 형태로 입력, 전송 또는 전달될 수 있다.
예를 들어, 영상 입력부(210)는 외부 장치(미도시)와 통신을 수행하여, 소정 채널을 통하여 송출되는 동영상 콘텐트를 적어도 하나 수신할 수 있다. 구체적으로, 영상 입력부(210)는 복수개의 채널에 대응되는 복수개의 컨텐츠 중 적어도 하나를 수신할 수 있다. 여기서, 채널은 방송 채널이 될 수 있다. 또한, 채널은 방송 채널 이외에도, 소정 컨텐츠를 송신하는 컨텐츠 제공자에 대응되는 컨텐트 전송 경로를 의미할 수도 있다. 예를 들어, 채널은 방송 채널 이외에도 VoD(Video on Demand) 서비스 및/또는 스트리밍 컨텐트 제공 서비스 등을 송신받는 전송 경로를 의미할 수 있으며, 방송 채널과 같이 소정 숫자, 소정 문자, 또는 소정 문자 및 소정 숫자의 결합된 형태로 표기될 수 있을 것이다. 예를 들어, 영상 입력부(210)는 홈 트레이닝을 위한 동영상 컨텐트를 제공하는 스포츠 채널로부터 동영상 컨텐트를 수신할 수 있을 것이다.
구체적으로, 영상 입력부(210)는 유무선의 네트워크를 통하여 외부 장치(미도시)들과 통신할 수 있다. 일 실시예에 따른 영상 입력부(210)는 유무선 네트워크를 통한 통신을 수행하기 위하여, 근거리 통신 모듈, 유선 통신 모듈, 이동 통신 모듈, 방송 수신 모듈 등과 같은 적어도 하나의 통신 모듈을 포함한다. 예를 들어, 적어도 하나의 통신 모듈은, 방송 수신을 수행하는 튜너, 블루투스, WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), CDMA, WCDMA 등과 같은 통신 규격을 따르는 네트워크를 통하여 데이터 송수신을 수행할 수 있는 통신 모듈을 뜻한다.
또한, 영상 입력부(210)는 HDMI 포트(High-Definition Multimedia Interface port, 미도시), 컴포넌트 잭(component jack, 미도시), PC 포트(PC port, 미도시), 및 USB 포트(USB port, 미도시) 중 하나를 포함할 수 있다. 또한, 영상 입력부(210)는 HDMI 포트, 컴포넌트 잭, PC 포트, 및 USB 포트의 조합을 포함할 수 있다. 이 경우, 영상 입력부(210)는 디스플레이 장치(200)에 재생될 동영상 데이터를 HDMI 포트, 컴포넌트 잭, PC 포트, 또는 USB 포트 등을 통하여 직접 수신할 수 있다.
그리고, 디스플레이(220)는 이미지를 시각적으로 출력한다. 예를 들어, 디스플레이(220)는 동영상 콘텐트를 사용자가 시각적으로 인식할 수 있도록, 내부적으로 포함되는 디스플레이 패널(미도시)을 통하여, 비디오 데이터에 대응되는 이미지를 디스플레이 할 수 있다. 구체적으로, 동영상 데이터는 복수개의 프레임 이미지들을 포함할 수 있으며, 디스플레이(220)는 프로세서(240)의 제어에 따라서 복수개의 프레임 이미지들을 연속적으로 표시함으로써, 동영상 콘텐트를 재생할 수 있다.
감지부(230)는 적어도 하나의 센서를 포함한다.
구체적으로, 감지부(230)에 포함되는 적어도 하나의 센서는 사용자의 제스처를 식별하기 위해서 이용되는 데이터들을 획득할 수 있다. 구체적으로, 적어도 하나의 센서는 이미지 센서, 모션 센서, 적외선 센서 중 적어도 하나를 포함할 수 있다.
예를 들어, 이미지 센서는 카메라가 될 수 있으며, 제스처를 취하는 사용자에 대한 이미지를 획득할 수 있다. 구체적으로, 감지부(230)는 적어도 하나의 카메라를 포함하여, 사용자의 제스처를 감지하기 위하여 사용자에 대한 이미지를 획득할 수 있다. 예를 들어, 사용자가 동영상 콘텐트를 시청하며 동영상 콘텐트 내에서 표현되는 동작들을 따라할 때, 감지부(230)에 포함되는 적어도 하나의 카메라 각각은 사용자의 동작에 대응되는 사용자의 제스처, 몸짓, 자세, 모습을 나타내는 이미지를 촬영할 수 있다. 그러면, 프로세서(240)는 획득된 이미지를 분석하여 사용자의 제스처를 식별할 수 있다.
구체적으로, 감지부(230)에 포함되는 적어도 하나의 카메라 각각은 2차원 이미지를 획득하는 2차원 카메라 또는 촬영된 대상체에 대한 깊이(depth) 정보를 포함하여 대상체에 대한 이미지를 획득하는 3차원 카메라가 될 수 있다. 그러면, 디스플레이 장치(200)는 감지부(230)에 포함되는 적어도 하나의 센서를 이용하여, 사용자의 제스처(gesture)를 감지할 수 있다. 구체적으로, 프로세서(240)는 감지부(230)에 포함되는 적어도 하나의 카메라에서 획득된 이미지에 근거하여, 사용자의 제스처를 감지할 수 있다.
또한, 도 2에서는 감지부(230)가 디스플레이 장치(200)에 포함되는 경우를 예로 들어 설명 및 도시하였으나, 감지부(230)는 디스플레이 장치(200)와 물리적으로 구별되는 별도의 장치로 형성될 수도 있을 것이다. 이 경우, 감지부(230)는 디스플레이 장치(200)와 전기적으로 연결될 수 있으며, 디스플레이 장치(200)는 통신부(260)를 통하여 감지부(230)의 감지 결과를 수신할 수 있다.
다시 도 1을 참조하면, 감지부(230)는 디스플레이 장치(100 또는 200)의 전면 배치되어, 사용자(150)에 대한 이미지를 캡쳐할 수 잇는 카메라(105)를 포함할 수 있다. 이하에서는, 감지부(230)에 포함되는 적어도 하나의 센서가, 이미지를 획득하는 카메라(예를 들어, 도 1의 105)인 경우를 예로 들어서 설명하도록 한다. 그리고, 카메라에서 획득된 이미지는 사용자의 자세, 제스처, 모션, 포즈, 움직임 및/또는 몸짓을 나타내는 이미지가 될 수 있다. 이하에서는 설명의 편의 상, 자세, 제스처, 모션, 포즈, 움직임 및/또는 몸짓을 모두 통칭하여 '제스처'라고 칭하도록 한다.
프로세서(240)는 적어도 하나의 인스트럭션을 수행하여, 의도하는 동작이 수행되도록 제어한다. 또한, 프로세서(240)는 디스플레이 장치(200)의 동작을 전반적으로 제어할 수 있다. 또한, 프로세서(240)는 소정 동작이 수행되도록 디스플레이 장치(200) 내에 포함되는 다른 구성들을 제어할 수 있다.
구체적으로, 프로세서(240)는 내부 메모리(미도시) 및 저장된 적어도 하나의 프로그램을 실행하는 적어도 하나의 프로세서(미도시)를 포함할 수 있다. 여기서, 프로세서(240)의 내부 메모리(미도시)는 하나 이상의 인스트럭션을 저장할 수 있다. 그리고, 프로세서(240)는 내부 메모리(미도시)에 저장된 하나 이상의 인스트럭션 중 적어도 하나를 실행하여, 소정 동작을 실행할 수 있다.
구체적으로, 프로세서(240)는 디스플레이 장치(200)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 디스플레이 장치(200)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 RAM(미도시), 디스플레이 장치(200)의 제어를 위한 제어 프로그램 및/또는 복수개의 인스트럭션이 저장된 ROM(미도시) 및 적어도 하나의 프로세서(미도시)를 포함할 수 있다.
또한, 프로세서(240)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 미도시)를 포함할 수 있다. 프로세서(240)는 코어(core, 미도시)와 GPU(미도시)를 통합한 SoC(System On Chip)로 구현될 수 있다. 또한, 프로세서(240)는 싱글 코어 이상의 멀티 코어를 포함할 수 있다. 예를 들어, 프로세서(240)는 듀얼 코어, 트리플 코어, 쿼드 코어, 헥사 코어, 옥타 코어, 데카 코어, 도데카 코어, 헥사 다시 벌 코어 등을 포함할 수 있다.
또한, 프로세서(240)는 영상 입력부(210)에서 획득된 동영상 콘텐트에 포함되는 복수개의 이미지들(예를 들어, 프레임 이미지들) 중 적어도 하나를 전달받고, 이를 분석, 처리 및/또는 가공할 수 있다. 또한, 프로세서(240)는 감지부(230)에서 획득된 사용자의 제스처를 나타내는 이미지를 전달받고, 이를 분석, 처리 및/또는 가공 할 수 있다.
개시된 실시예의 상세 동작은 이하에서 6 내지 도 16을 참조하여 상세히 설명한다.
도 3은 개시된 실시예에 따른 디스플레이 장치를 나타내는 다른 블록도이다.
도 3에 도시된 디스플레이 장치(300)는 도 2에 도시된 디스플레이 장치(200)에 동일 대응될 수 있다. 따라서, 디스플레이 장치(300)를 설명하는데 있어서, 도 2에서와 중복되는 설명은 생략한다.
도 3을 참조하면, 디스플레이 장치(300)는 도 2에 도시된 디스플레이 장치(300)에 비하여, 메모리(250), 통신부(260), 및 사용자 인터페이스(270) 중 적어도 하나를 더 포함할 수 있다.
메모리(250)는 적어도 하나의 인스트럭션을 저장할 수 있다. 또한, 메모리(250)는 프로세서(240)가 실행하는 적어도 하나의 인스트럭션을 저장하고 있을 수 있다. 또한, 메모리(250)는 프로세서(240)가 실행하는 적어도 하나의 프로그램을 저장하고 있을 수 있다. 또한, 메모리(250)는 디스플레이 장치(300)의 동작에 이용되는 정보 또는 데이터를 저장할 수 있다. 또한, 메모리(250)는 디스플레이 장치(300)에서 재생 가능한 동영상 컨텐트를 저장할 수 있다.
구체적으로, 메모리(250)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
통신부(260)는 적어도 하나의 유선 또는 무선 통신 네트워크를 통해서 외부 장치(미도시)와 통신을 수행한다. 개시된 실시예에서, 통신부(260)는 외부 장치(미도시)와 통신할 수 있다. 여기서, 외부 장치는 서버가 될 수도 있으며, 통신부(260)는 서버(미도시)와 통신을 수행할 수 있다. 여기서, 서버(미도시)는 동영상 컨텐트를 제공하는 컨텐트 제공 서버, 인터넷 서버 등이 될 수도 있다. 또는, 서버(미도시)는 이미지를 분석 또는 처리하는 서버가 될 수도 있다.
구체적으로, 통신부(260)는 적어도 하나의 통신 모듈, 통신 회로 등을 포함하는 형태로 형성될 수 있으며, 통신 모듈 및/또는 통신 회로를 통하여 외부 장치와 데이터를 송수신할 수 있다.
구체적으로, 통신부(260)는 블루투스, 와이파이, BLE(Bluetooth Low Energy), NFC/RFID, 와이파이 다이렉트(Wifi Direct), UWB, 또는 ZIGBEE 등의 통신 규격에 따른 통신을 수행하는 적어도 하나의 근거리 통신 모듈(미도시)를 포함할 수 있다.
또한, 통신부(260)는 원거리 통신 규격에 따라서 원거리 통신을 지원하기 위한 서버(미도시)와 통신을 수행하는 원거리 통신 모듈(미도시)를 더 포함할 수 있다. 구체적으로, 통신부(260)는 인터넷 통신을 위한 네트워크를 통하여 통신을 수행하는 원거리 통신 모듈(미도시)를 포함할 수 있다. 또한, 통신부(260)는 3G, 4G, 5G, 및/또는 6G 등의 통신 규격에 따르는 통신 네트워크를 포함할 수 있다.
또한, 통신부(260)는 원격 제어 장치(remote controller)(미도시)로부터 제어 명령을 수신할 수 있는 근거리 통신 모듈, 예를 들어, IR(infrared) 통신 모듈 등을 포함할 수 있다. 이 경우, 통신부(260)는 원격 제어 장치(미도시)로부터 제어 명령을 수신할 수 있다. 예를 들어, 원격 제어 장치(미도시)로부터 수신되는 제어 명령은 턴 온 또는 턴 오프 명령 등을 포함할 수 있다.
전술한 바와 같이, 통신부(260)는 도 2에서 설명한 영상 입력부(210)의 기능 중 일부를 수행할 수 있다. 예를 들어, 도 2에서 설명한 영상 입력부(210)의 데이터 획득 기능 중에서, 통신부(260)는 유무선의 통신 네트워크를 통하여 동영상 컨텐트에 대응되는 데이터를 수신함으로써, 동영상 컨텐트를 획득할 수 있다.
사용자 인터페이스(270)는 디스플레이 장치(300)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 인터페이스(270)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 포함하는 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다.
또한, 사용자 인터페이스(270)는 음성 인식을 위한 음성 인식 장치(미도시)를 포함할 수 있다. 예를 들어, 음성 인식 장치는 마이크가 될 수 있으며, 음성 인식 장치는 사용자의 음성 명령 또는 음성 요청을 수신할 수 있다. 그에 따라서, 프로세서(240)는 음성 명령 또는 음성 요청에 대응되는 동작이 수행되도록 제어할 수 있다.
또한, 사용자 인터페이스(270)는 모션 감지 센서(미도시)를 포함할 수도 있다. 예를 들어, 모션 감지 센서(미도시)는 디스플레이 장치(300)의 움직임을 감지하고, 감지된 움직임을 사용자 입력으로 수신할 수 있다. 또한, 전술한 음성 인식 장치(미도시) 및 모션 감지 센서(미도시)는 사용자 인터페이스(270) 내에 포함되는 형태가 아니라, 사용자 인터페이스(270)와는 독립적인 모듈인 도 1에서 설명한 감지부(230)로 디스플레이 장치(300) 내에 포함될 수 있을 것이다.
도 4는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 일 흐름도이다. 구체적으로, 도 4에 도시된 디스플레이 장치의 동작 방법(400)은 도 1 내지 도 3을 참조하여 설명한 개시된 실시예에 따른 디스플레이 장치(100, 200 또는 300)의 동작 방법이 될 수 있다. 즉, 도 4는 개시된 실시예에 따른 디스플레이 장치(100, 200 또는 300)의 동작들을 나타내는 흐름도가 될 수 있다. 따라서, 디스플레이 장치의 동작 방법(400)에 포함되는 동작들을 설명함에 있어서, 도 1 내지 도 3을 참조하여 설명한 디스플레이 장치(100, 200 또는 300)의 수행 동작들과 중복되는 설명은 생략한다.
이하에서는, 디스플레이 장치의 동작 방법(400)이 도 2에서 디스플레이 장치(200)를 통하여 수행되는 경우를 예로 들어 설명하도록 하겠다.
도 4를 참조하면, 디스플레이 장치의 동작 방법(400)은 디스플레이(220)를 통하여 동영상 콘텐트를 재생한다(S410). S410 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다. 구체적으로, 영상 입력부(210)에서 획득된 동영상 콘텐트는, 프로세서(240)의 제어에 따라서 디스플레이(220)에서 재생될 수 있다.
그리고, 디스플레이 장치의 동작 방법(400)은 동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지한다(S420). S410 단계는 프로세서(240)에서 수행될 수 있다. 구체적으로, 프로세서(240)는 감지부(230)에 포함되는 적어도 하나의 센서의 감지 결과를 수신하고, 수신된 감지 결과에 근거하여 사용자의 제스처를 식별할 수 있다.
계속하여, 디스플레이 장치의 동작 방법(400)은 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이(220)에서 표시되도록 상기 동영상 콘텐트의 재생을 제어한다(S430). 구체적으로, 디스플레이 장치의 동작 방법(400)은 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 S420 단계에서 감지된 제스처에 대응되는 적어도 하나의 프레임을 디스플레이(220)를 통하여 출력할 수 있다(S430). S430 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다.
도 5는 개시된 실시예에 따른 디스플레이 장치를 나타내는 다른 블록도이다. 도 5에 도시된 디스플레이 장치(500)는 도 1 내지 도 3에 도시된 전자 장치(300 또는 400)에 동일 대응될 수 있다. 따라서, 디스플레이 장치(500)를 설명하는데 있어서, 도 3 및 도 4에서와 중복되는 설명은 생략한다.
개시된 실시예에 따른 전자 장치는 디스플레이 장치가 될 수 있으며, 도 5는 개시된 실시예에 따른 전자 장치인 디스플레이 장치(500)를 상세하게 나타내는 블록도이다.
도 5를 참조하면, 디스플레이 장치(500)는 비디오 처리부(510), 디스플레이(515), 오디오 처리부(520), 오디오 출력부(525), 전원부(530), 튜너부(540), 통신부(550), 감지부(미도시), 입/출력부(570), 프로세서(580), 메모리(590)를 포함한다.
여기서, 프로세서(580)는 도 2 내지 도 3에 도시된 프로세서(240)에 대응될 수 있다. 디스플레이 장치(500)의 통신부(550), 디스플레이(515), 감지부(560) 및 메모리(590)는 각각 도 3에 도시된 통신부(260), 디스플레이(220), 감지부(230) 및 메모리(250)에 대응될 수 있다. 또한, 통신부(550) 및 입/출력부(570)의 구성은 도 2 내지 도 3에 도시된 영상 입력부(210)에 대응될 수 있다. 그러므로, 디스플레이 장치(500)를 설명하는데 있어서, 도 2 및 도 3에서와 중복되는 설명은 생략한다. 비디오 처리부(510)는, 디스플레이 장치(500)가 수신한 비디오 데이터에 대한 처리를 수행한다. 비디오 처리부(510)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.
디스플레이(515)는 프로세서(580)의 제어에 의해 튜너부(540)를 통해 수신된 방송 신호에 포함된 비디오를 화면에 표시한다. 또한, 디스플레이(515)는 통신부(550) 또는 입/출력부(570)를 통해 입력되는 컨텐츠(예를 들어, 동영상)를 표시할 수 있다.
또한, 디스플레이(515)는 프로세서(580)의 제어에 의해 메모리(590)에 저장된 영상을 출력할 수 있다. 또한, 디스플레이(515)는 음성 인식에 대응되는 음성 인식 태스크를 수행하기 위한 음성 UI(User Interface: 예를 들어, 음성 명령어 가이드를 포함하는) 또는 모션 인식에 대응되는 모션 인식 태스크를 수행하기 위한 모션 UI(예를 들어, 모션 인식을 위한 사용자 모션 가이드를 포함)를 표시할 수 있다.
개시된 실시예에서, 디스플레이(515)는 동작을 나타내는 내용이 포함되는 동영상 콘텐트를 재생할 수 있다.
오디오 처리부(520)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(520)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리부(520)는 복수의 컨텐츠에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 모듈을 구비할 수 있다.
오디오 출력부(525)는 프로세서(580)의 제어에 의해 튜너부(540)를 통해 수신된 방송 신호에 포함된 오디오를 출력한다. 오디오 출력부(525)는 통신부(550) 또는 입/출력부(570)를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부(525)는 프로세서(580)의 제어에 의해 메모리(590)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(525)는 스피커(526), 헤드폰 출력 단자(527) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(528) 중 적어도 하나를 포함할 수 있다. 오디오 출력부(525)는 스피커(526), 헤드폰 출력 단자(527) 및 S/PDIF 출력 단자(528)의 조합을 포함할 수 있다.
전원부(530)는 프로세서(580)의 제어에 의해 디스플레이 장치(500) 내부의 구성 요소들(510 내지 590)로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원부(530)는 프로세서(580)의 제어에 의해 디스플레이 장치(500) 내부에 위치하는 하나 또는 둘 이상의 배터리(미도시)에서부터 출력되는 전원을 내부의 구성 요소들(510 내지 590)에게 공급할 수 있다.
튜너부(540)은 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 디스플레이 장치(500)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.
튜너부(540)는 사용자 입력(예를 들어, 외부의 제어 장치(미도시), 예를 들어, 원격 제어기(remote controller)로부터 수신되는 제어 신호, 예컨대, 채널 번호 입력, 채널의 업다운(up-down) 입력 및 EPG 화면에서 채널 입력)에 따라 채널 번호(예를 들어, 케이블 방송 506번)에 대응되는 주파수 대역에서 방송 신호를 수신할 수 있다.
튜너부(540)은 지상파 방송, 케이블 방송, 위성 방송, 인터넷 방송 등과 같이 다양한 소스로부터 방송 신호를 수신할 수 있다. 튜너부(540)는 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수 도 있다. 튜너부(540)를 통해 수신된 방송 신호는 디코딩(decoding, 예를 들어, 오디오 디코딩, 비디오 디코딩 또는 부가 정보 디코딩)되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(580)의 제어에 의해 메모리(590)에 저장될 수 있다.
디스플레이 장치(500)의 튜너부(540)는 하나이거나 복수일 수 있다. 일 실시예에 따라서 튜너부(540)가 복수개로 이루어지는 경우, 디스플레이(515)에 제공되는 멀티 윈도우 화면을 이루는 복수개의 윈도우에 복수개의 방송 신호를 출력할 수 있을 것이다.
튜너부(540)는 디스플레이 장치(500)와 일체형(all-in-one)으로 구현되거나 또는 디스플레이 장치(500)와 전기적으로 연결되는 튜너부를 가지는 별개의 장치(예를 들어, 셋탑박스(set-top box, 미도시), 입/출력부(570)에 연결되는 튜너부(미도시))로 구현될 수 있다.
통신부(550)는 프로세서(580)의 제어에 의해 디스플레이 장치(500)를 외부 기기(예를 들어, 오디오 장치 등)와 연결할 수 있다. 프로세서(580)는 통신부(550)를 통해 연결된 외부 기기로 컨텐츠를 송/수신, 외부 기기에서부터 어플리케이션(application)을 다운로드 하거나 또는 웹 브라우징을 할 수 있다. 구체적으로, 통신부(550)는 네트워크에 접속하여 외부 기기(미도시)에서 컨텐츠를 수신할 수 있다.
전술한 바와 같이 통신부(550)는 근거리 통신 모듈(미도시), 유선 통신 모듈(미도시), 및 이동 통신 모듈(미도시) 중 적어도 하나를 포함할 수 있다.
도 5에서는 통신부(550)가 무선 랜(551), 블루투스 통신부(552), 및 유선 이더넷(Ethernet, 553) 중 하나를 포함하는 경우를 예로 들어 도시하였다.
또한, 통신부(550)은 무선랜(551), 블루투스 통신부(552), 및 유선 이더넷(Ethernet, 553) 중 어느 하나 이상을 포함하는 모듈 조합을 포함할 수 있다. 또한, 통신부(550)는 프로세서(580)의 제어에 의해 제어 장치(미도시)의 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다.
통신부(550)는 블루투스 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 미도시), 별도의 BLE 모듈(bluetooth low energy, 미도시)을 더 포함할 수 있다.
감지부(560)는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지한다.
개시된 실시예에서, 감지부(560)는 사용자의 제스처를 식별하기 위한 데이터를 획득할 수 있다. 구체적으로, 감지부(560)는 카메라부(562)를 포함하여, 카메라부(562)를 이용하여 사용자의 제스처를 식별하기 위한 데이터(예를 들어, 사용자의 제스처를 나타내는 이미지)를 획득할 수 있다.
감지부(560)는 카메라부(562)를 포함할 수 있다. 그리고, 감지부(560)는 마이크(561) 및 광 수신부(563) 중 적어도 하나를 더 포함할 수 있다.
마이크(561)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(561)는 수신된 음성을 전기 신호로 변환하여 프로세서(580)로 출력할 수 있다. 사용자 음성은 예를 들어, 디스플레이 장치(500)의 메뉴 또는 기능에 대응되는 음성을 포함할 수 있다. 예를 들어, 마이크(561)의 인식 범위는 마이크(561)에서부터 사용자 위치까지 4 m 이내를 권장하며, 마이크(561)의 인식 범위는 사용자 목소리의 크기와 주변 환경(예를 들어, 스피커 소리, 주변 소음)에 대응하여 달라질 수 있다.
마이크(561)는 디스플레이 장치(500)와 일체형 또는 분리형으로 구현될 수 있다. 분리된 마이크(561)는 통신부(550) 또는 입/출력부(570)를 통해 디스플레이 장치(500)와 전기적으로 연결될 수 있다.
디스플레이 장치(500)의 성능 및 구조에 따라 마이크(561)가 제외될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
카메라부(562)는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신한다. 예를 들어, 카메라부(562)의 인식 범위는 카메라부(562)에서부터 사용자까지 0.1 ~ 5 m 이내 거리가 될 수 있다. 사용자 모션은 예를 들어, 사용자의 얼굴, 표정, 손, 주먹, 손가락과 같은 사용자의 신체 일부분 또는 사용자 일부분의 모션 등을 포함할 수 있다. 카메라부(562)는 프로세서(580)의 제어에 따라 수신된 영상을 전기 신호로 변환하여 프로세서(580)로 출력할 수 있다.
프로세서(580)는 수신된 모션의 인식 결과를 이용하여 디스플레이 장치(500)에 표시되는 메뉴를 선택하거나 모션 인식 결과에 대응되는 제어를 할 수 있다. 예를 들어, 채널 조정, 볼륨 조정, 지시자 이동을 포함할 수 있다.
카메라부(562)는 렌즈(미도시) 및 이미지 센서(미도시)로 구성될 수 있다. 카메라부(562)는 복수의 렌즈와 이미지 프로세싱을 이용하여 광학 줌(optical zoom) 또는 디지털 줌(digital zoom)을 지원할 수 있다. 카메라부(562)의 인식 범위는 카메라의 각도 및 주변 환경 조건에 따라 다양하게 설정될 수 있다. 카메라부(562)가 복수개의 카메라로 구성되는 경우, 복수의 카메라를 이용하여 3차원 정지 이미지 또는 3차원 모션을 수신할 수 있다.
카메라부(562)는 디스플레이 장치(500)와 일체형 또는 분리형으로 구현될 수 있다. 분리된 카메라부(562)를 포함하는 별도의 장치(미도시)는 통신부(550) 또는 입/출력부(570)를 통해 디스플레이 장치(500)와 전기적으로 연결될 수 있다.
디스플레이 장치(500)의 성능 및 구조에 따라 카메라부(562)가 제외될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
광 수신부(563)는 외부의 제어 장치(미도시)에서부터 수신되는 광 신호(제어 신호를 포함)를 디스플레이(515)의 베젤의 광창(미도시) 등을 통해 수신한다. 광 수신부(563)는 제어 장치(미도시)로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 프로세서(580)의 제어에 의해 제어 신호가 추출될 수 있다.
예를 들어, 광 수신부(563)는 제어 장치(미도시)의 포인팅 위치에 대응하는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 예를 들어, 디스플레이(515)를 통하여 사용자로부터 데이터 또는 명령을 입력받기 위한 사용자 인터페이스 화면이 표시되었으며, 제어 장치(미도시)를 통하여 사용자가 데이터 또는 명령을 디스플레이 장치(500)로 입력하고자 하는 경우, 광 수신부(563)는 사용자가 제어 장치(미도시)에 마련된 터치 패드(미도시)에 손가락을 접촉한 상태에서 제어 장치(미도시)를 움직이면 이 제어 장치(미도시)의 움직임에 대응하는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 또한, 광 수신부(563)는 제어 장치(미도시)에 마련된 특정한 버튼이 눌려졌음을 나타내는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 예를 들어 광수신부(563)는 사용자가 제어 장치(미도시)에 버튼식으로 마련된 터치 패드(미도시)를 손가락으로 누르면, 이러한 버튼식 터치 패드(미도시)이 눌려졌다는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 예를 들어, 버튼식 터치 패드(미도시)가 눌려졌다는 신호는 아이템들 중의 하나를 선택하기 위한 신호로 이용할 수 있다.
입/출력부(570)는 프로세서(580)의 제어에 의해 디스플레이 장치(500)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입/출력부(570)는 HDMI 포트(High-Definition Multimedia Interface port, 571), 컴포넌트 잭(component jack, 572), PC 포트(PC port, 573), 및 USB 포트(USB port, 574) 중 하나를 포함할 수 있다. 입/출력부(570)는 HDMI 포트(571), 컴포넌트 잭(572), PC 포트(573), 및 USB 포트(574)의 조합을 포함할 수 있다.
입/출력부(570)의 구성 및 동작은 본 발명의 실시예에 따라 다양하게 구현될 수 있다는 것은 당해 기술 분야의 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
프로세서(580)는 디스플레이 장치(500)의 전반적인 동작 및 디스플레이 장치(500)의 내부 구성요소들(미도시)사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 프로세서(580)는 사용자의 입력이 있거나 기 설정되어 저장된 조건을 만족하는 경우, 프로세서(580)는 메모리(590)에 저장된 OS(Operation System) 및 다양한 애플리케이션을 실행할 수 있다.
프로세서(580)는 디스플레이 장치(500)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 디스플레이 장치(500)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 RAM(미도시), 디스플레이 장치(500)의 제어를 위한 제어 프로그램이 저장된 ROM(미도시) 및 프로세서(Processor)(미도시)를 포함할 수 있다.
프로세서(미도시)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 미도시)를 포함할 수 있다. 프로세서(미도시)는 코어(core, 미도시)와 GPU(미도시)를 통합한 SoC(System On Chip)로 구현될 수 있다. 프로세서(미도시)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.
또한, 프로세서(미도시)는 복수의 프로세서를 포함할 수 있다. 예를 들어, 프로세서(미도시)는 메인 프로세서(main processor, 미도시) 및 슬립 모드(sleep mode)에서 동작하는 서브 프로세서(sub processor, 미도시)로 구현될 수 있다.
그래픽 처리부(미도시)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 감지부(미도시)를 통해 감지된 사용자 인터랙션을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이(515)의 디스플레이 영역 내에 표시된다.
이하에서는, 도 6 내지 도 10을 참조하여, 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)에서 재생되는 동영상 콘텐트에 대하여 상세히 설명한다. 또한, 도 6 내지 도 10에서는, 동영상 콘텐트가 도 2에서 설명한 디스플레이 장치(200)에서 재생되는 경우를 예로 들어서 설명한다.
도 6은 개시된 실시예에 따른 디스플레이 장치에서 재생되는 동영상 콘텐트를 설명하기 위한 도면이다.
개시된 실시예에서, 동영상 콘텐트는 복수개의 이미지들에 각각 대응되는 복수개의 프레임(620)을 포함할 수 있다. 또한, 동영상 콘텐트는 동작을 표현하는 내용이 포함되는 콘텐트가 될 수 있다.
도 6을 포함하여 이하에서 설명할 도면들에서는, 개시된 실시예에서 재생되는 동영상 콘텐트가 적어도 하나의 근력 운동 동작들을 포함하는 홈 트레이닝 강습 콘텐트인 경우를 예로 들어서 도시하였다.
도 6을 참조하면, 동영상 콘텐트를 나타내는 타임 테이블(610)을 참조하면, 동영상 시작 시점인 t=0 에서 t=30 초(second) 동안에는 강습 안내 내용이 포함되며, t=30 에서 t=75 초 동안에는 스쿼트 동작에 대한 강습 내용이 포함되며, t=75 에서 t=130 초 동안에는 런지 동작에 대한 강습 내용이 포함되고, t=130 에서 t=200 초 동안에는 스쿼트 동작에 대한 강습 내용이 포함될 수 있다.
또한, 동영상 콘텐트에 포함되는 복수개의 프레임(620)들은 소정의 프레임 레이트로 형성될 수 있다. 예를 들어, 동영상 콘텐트의 재생 시간 1초 동안에는, 30, 60, 또는 120 프레임이 포함될 수 있다.
또한, 동영상 콘텐트에서 표현되는 동작 별로 적어도 하나의 프레임들이 포함될 수 있다. 예를 들어, t=0 에서 t=30 초 동안에는 강습 안내 내용에 대응되는 복수개의 프레임들(630)이 포함되며, t=30 에서 t=75 초 동안에는 스쿼트 동작에 대한 강습 내용에 대응되는 복수개의 프레임들(640)이 포함될 수 있다. 그리고, t=75 에서 t=130 초 동안에는 런지 동작에 대한 강습 내용에 대응되는 복수개의 프레임들(650)이 포함되고, t=130 에서 t=200 초 동안에는 스쿼트 동작에 대한 강습 내용에 대응되는 복수개의 프레임들(660)이 포함될 수 있다.
도 7은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 일 도면이다. 구체적으로, 도 7은, 도 6에서 설명한 동영상 콘텐트에 포함되는 스쿼트 강습 내용을 설명하기 위한 도면이다. 따라서, 도 7에 도시된 동작을 설명하는데 있어서 도 6을 함께 참조하도록 한다.
도 7을 참조하면, 스쿼트 강습 내용에 대응되는 복수개의 프레임들(640)은 스쿼트 동작을 표현하기 위한 이미지 프레임들이 될 수 있다. 구체적으로, 복수개의 프레임들(640)은 스쿼트 동작에 따른 제스처(또는 몸짓)의 변화를 타나내는 복수개의 이미지 프레임들을 포함할 수 있다.
구체적으로, 스쿼트 동작은, 제1 제스처(710), 제2 제스처(720), 제3 제스처(730) 및 제4 제스처(740)에 대한 자세를 연속적으로 잡아서 수행될 수 있다. 여기서, 제1 제스처(710), 제2 제스처(720), 제3 제스처(730) 및 제4 제스처(740) 각각에 대응되는 프레임은 적어도 하나의 프레임이 될 수 있다.
디스플레이 장치(예를 들어, 200)가 스쿼트 강습 내용에 대응되는 복수개의 프레임들(640)을 재생하면, 사용자는 재생되는 프레임들(640)을 시청하고 스쿼트 동작을 실시간으로 따라할 수 있다.
도 8은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다. 구체적으로, 도 8은, 도 6에서 설명한 동영상 콘텐트에 포함되는 런지 강습 내용을 설명하기 위한 도면이다. 따라서, 도 8에 도시된 동작을 설명하는데 있어서 도 6을 함께 참조하도록 한다.
구체적으로, 복수개의 프레임들(650)은 런지 동작에 따른 제스처(또는 몸짓)의 변화를 나타내는 복수개의 이미지 프레임들을 포함할 수 있다.
구체적으로, 런지 동작은, 제1 제스처(810), 및 제2 제스처(820)에 대한 자세를 연속적으로 잡아서 수행될 수 있다. 여기서, 제1 제스처(810), 및 제2 제스처(820) 각각에 대응되는 프레임은 적어도 하나의 프레임이 될 수 있다.
디스플레이 장치(예를 들어, 200)가 런지 강습 내용에 대응되는 복수개의 프레임들(650)을 재생하면, 사용자는 재생되는 프레임들(650)을 시청하고 런지 동작을 실시간으로 따라할 수 있다.
도 9는 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다. 구체적으로, 도 9은, 도 6에서 설명한 동영상 콘텐트에 포함되는 데드리프트 강습 내용을 설명하기 위한 도면이다. 따라서, 도 8에 도시된 동작을 설명하는데 있어서 도 6을 함께 참조하도록 한다.
구체적으로, 복수개의 프레임들(650)은 데드리프트 동작에 따른 제스처(또는 몸짓)의 변화를 나타내는 복수개의 이미지 프레임들을 포함할 수 있다.
구체적으로, 데드리프트 동작은, 제1 제스처(910), 제2 제스처(920), 및 제2 제스처(930)에 대한 자세를 연속적으로 잡아서 수행될 수 있다. 여기서, 제1 제스처(910), 제2 제스처(920), 및 제2 제스처(930) 각각에 대응되는 프레임은 적어도 하나의 프레임이 될 수 있다.
디스플레이 장치(예를 들어, 200)가 데드리프트 강습 내용에 대응되는 복수개의 프레임들(660)을 재생하면, 사용자는 재생되는 프레임들(660)을 시청하고 데드리프트 동작을 실시간으로 따라할 수 있다.
도 10은 동영상 콘텐트에 대응되는 시간 별 재생 동작들을 나타내는 도면이다.
도 10을 참조하면, 도 6 내지 도 9를 참조하여 설명한 동영상 콘텐트에 대응되는 타임 테이블(1000)이 도시된다.
개시된 실시예에서, 프로세서(240)는 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별할 수 있다. 전술한 예에서, 프로세서(240)는 영상 입력부(210)에서 획득된 동영상 콘텐트를 전달받고, 동영상 콘텐트에서 복수개의 동작들을 구별 또는 식별할 수 있다. 그리고, 구별된 복수개의 동작들에 대한 정보를 획득할 수 있다.
예를 들어, 동영상 콘텐트가 비실시간으로 전송 또는 저장된 콘텐트인 경우, 동영상 콘텐트는 디스플레이 장치(예를 들어, 300)에 포함되는 메모리(250)에 저장하고, 프로세서(240)는 전송 또는 저장 완료된 동영상 콘텐트를 독출하여 분석할 수 있다.
또한, 동영상 콘텐트가 실시간으로 전송되는 콘텐트인 경우, 프로세서(240)는 실시간으로 전송되는 동영상 콘텐트에 대응되는 스트림(stream)을 실시간으로 분석하여, 해당 동영상 콘텐트의 재생에 앞서서 포함되는 동작들 각각에 대한 재생 시간 정보를 획득할 수 있을 것이다.
예를 들어, 동영상 콘텐트가 라이브 영상 또는 라이브 컨텐트인 경우, 프로세서(240)는 수신되는 스트림을 실시간으로 저장할 수 있다. 구체적으로, 프로세서(240)는 프로세서(240)의 내부에 메모리에 스트림을 저장하거나, 디스플레이 장치(예를 들어, 300) 에 포함되는 메모리(250)에 저장할 수 있다. 그리고, 프로세서(240)는 저장된 스트림을 분석하여, 동영상 콘텐트에 포함되는 동작들이 어떠한 동작에 대한 것인지 분석하여, 복수개의 동작들을 식별할 수 있다. 그리고, 식별된 동작들 각각에 대한 재생 시간 정보를 획득할 수 있다.
또한, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 동작을 구별 또는 식별하기 위해서, 운동, 홈 트레이닝, 댄스 별로 대표적인 동작 또는 대표 자세에 대한 정보를 사전에 저장하고 있을 수 있다. 그리고, 저장된 대표 동작 또는 대표 자세를 이용하여, 동영상 콘텐트에 포함되는 포함되는 복수개의 동작들을 식별할 수 있다.
또는, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 동작을 구별 또는 식별하기 위해서, 기계 학습 또는 AI 에 근거한 신경망을 이용할 수 있을 것이다. 신경망을 통한 동작 구별은 이하에서 도 13 및 도 15를 참조하여 상세히 설명한다.
구체적으로, 프로세서(240)는 동영상 콘텐트를 분석하여, 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득할 수 있다. 그리고, 프로세서(240)는 획득된 재생 시간에 대한 정보에 근거하여, 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록 제어할 수 있다.
여기서, 재생 시간에 대한 정보는 동작 별 재생 시작 시점, 동작 별 재생 종료 시점, 동작 별 재생 시간, 및 동작 별 재생 구간 정보 중 적어도 하나가 포함될 수 있다. 이하에서는, 설명의 편의 상 '재생 시간에 대한 정보'를 '재생 시간 정보'라 칭하도록 한다.
구체적으로, 프로세서(240)는 동영상 콘텐트를 분석하여, 도 10에 도시된 바와 같은 타임 테이블(1000)을 획득할 수 있다. 예를 들어, 프로세서(240)는 영상 분석을 통하여 동영상 콘텐트에 포함되는 복수개의 동작들을 식별하고, 복수개의 동작들에 대응되는 프레임들의 재생 시간 정보를 획득할 수 있다.
또는, 동영상 콘텐트에 포함되는 부가 데이터 또는 메타 데이터에, 포함되는 동작들에 대한 재생 시간 정보가 포함될 수 있다. 예를 들어, 동영상 콘텐트에는, 스쿼트 동작이 시작되는 재생 시점, 런지 동작이 시작되는 재생 시점들 각각에 대한 정보가 포함될 수 있다. 이 경우, 프로세서(240)는 동영상 콘텐트에 포함되는 부가 데이터 또는 메타 데이터를 추출하고, 추출된 부가 데이터 또는 메타 데이터에 근거하여, 복수개의 동작들에 대응되는 프레임들의 재생 시간 정보를 획득할 수 있다.
도 11은 개시된 실시예에서 이용되는 동영상 콘텐트의 태그를 설명하기 위한 도면이다. 도 11에 있어서, 도 6에서와 동일한 구성은 동일한 도면 기호를 이용하여 도시 하였으므로, 중복되는 설명은 생략한다.
개시된 실시예에서, 프로세서(240)는 동영상 콘텐트를 분석하여, 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별할 수 있다. 그리고, 프로세서(2200는 식별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그(tag)를 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트가 생성할 수 있다. 태그된 동영상 콘텐트는 디스플레이 장치(200) 내에 저장될 수 있다.
여기서, 태그는, 동영상 콘텐트에 포함되는 복수개의 동작들을 식별하기 위해 동영상 콘텐트 내에 삽입 또는 추가되는 정보로, 플래그(flag) 등과 같은 다른 명칭으로 호칭 될 수 있을 것이다.
도 11을 참조하면, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들(620) 내에서 서로 다른 더 동작들의 경계에 태그를 삽입할 수 있다. 구체적으로, 태그는 안내 내용에 대응되는 프레임들(630)과 스쿼트 동작에 대응되는 프레임들(640)의 사이에 삽입될 수 있다(S1110). 또한, 태그는 식별된 동작을 나타내는 정보를 포함할 수 있다. 예를 들어, S1110 에서 삽입되는 태그는 '스쿼트' 동작을 나타내는 정보를 포함될 수 있다.
또한, 태그는 스쿼트 동작에 대응되는 프레임들(640)과 런지 동작에 대응되는 프레임들(650)의 사이에 삽입될 수 있다(S1120). 또한, 태그는 식별된 동작을 나타내는 정보를 포함할 수 있다. 예를 들어, S1120 에서 삽입되는 태그는 '런지' 동작을 나타내는 정보를 포함될 수 있다.
또한, 태그는 런지 동작에 대응되는 프레임들(650)과 데드리프트 동작에 대응되는 프레임들(660)의 사이에 삽입될 수 있다(S1130). 또한, 태그는 식별된 동작을 나타내는 정보를 포함할 수 있다. 예를 들어, S1130 에서 삽입되는 태그는 '런지' 동작을 나타내는 정보를 포함될 수 있다.
또 다른 예로, 태그는 식별된 동작 별로, 동작에 대응되는 적어도 하나의 프레임의 첫 번째 프레임 및 마지막 프레임 중 적어도 하나에 추가 또는 삽입될 수도 있다. 예를 들어, 스쿼트 동작에 대응되는 복수개의 프레임들(640)의 첫 번째 프레임(641) 및 마지막 프레임(642) 중 적어도 하나에 스쿼트 동작을 나타내는 태그를 삽입할 수 있다. 또한, 런지 동작에 대응되는 복수개의 프레임들(650)의 첫 번째 프레임(651) 및 마지막 프레임(652) 중 적어도 하나에 런지 동작을 나타내는 태그를 삽입할 수 있다. 또한, 데드리프트 동작에 대응되는 복수개의 프레임들(660)의 첫 번째 프레임(661) 및 마지막 프레임(662) 중 적어도 하나에 데드리프트 동작을 나타내는 태그를 추가할 수 있다.
또한, 프로세서(240)는 생성된 적어도 하나의 태그들을 포함하는 테이블(또는 리스트)를 포함하는 태그 정보를 저장할 수 있다. 태그 정보는 프로세서(240) 내부의 메모리 또는 디스플레이 장치(예를 들어, 200 또는 300)에 포함되는 별도의 메모리(예를 들어, 도 3의 250)에 저장될 수 있다.
또는, 동영상 콘텐트의 제작자는 동영상 콘텐트를 제작할 때, 복수개의 동작들을 식별하는 태그를 추가하여 동영상 콘텐트를 생성할 수 있다. 예를 들어, 동영상 콘텐트의 재생 시간을 나타내는 타임 바(time bar) 또는 프로그레스 바(progress bar)에서, 콘텐트에 포함되는 내용을 나타내는 목차가 보이거나, 콘텐트에 포함되는 내용을 나타내는 썸네일 이미지가 보이는 경우, 태그가 자체적으로 포함되어 있다고 할 수 있다. 이러한 경우, 프로세서(240)는 동영상 콘텐트에 포함되는 태그를 검색하고, 검색된 태그에 근거하여 복수개의 동작들을 식별할 수 있을 것이다.
이하에서는, 도 12 내지 도 13을 참조하여, S420 단계의 사용자 제스처 감지 동작을 상세히 설명한다. 또한, 도 12 및 도 13에서는, 감지부(230)의 감지 결과가 사용자의 자세를 나타내는 적어도 하나의 이미지인 경우를 예로 들어서 도시 및 설명하도록 한다.
도 12는 개시된 실시예에서의 제스처 감지 동작을 설명하기 위한 일 도면이다.
도 12를 참조하면, 프로세서(240)는 감지부(230)의 감지 결과에 근거하여 사용자(1201)의 제스처를 식별할 수 있다. 여기서, 감지부(230)의 감지 결과는 연속적으로 캡쳐된 적어도 하나의 프레임이 될 수 있다.
구체적으로, 감지부(230)에서 획득된 프레임(예를 들어, 1210)은 사용자(1201)가 데드리프트 동작을 따라하면서 촬영된 이미지가 될 수 있다. 구체적으로, 감지부(230)는 사용자(1201)이 데드리프트 동작을 수행할 때, 연속적으로 복수개의 프레임들을 획득하고, 획득된 복수개의 프레임들을 프로세서(240)로 전송할 수 있다.
프로세서(240)는 감지부(230)에서 획득된 복수개의 프레임들을 분석하여, 사용자의 제스처를 식별할 수 있다. 사용자의 제스처 식별은 다양한 모션 인식 기술을 이용하여 수행될 수 있다.
예를 들어, 프로세서(240)는 획득된 프레임(1210)을 분석하여, 사용자(1201)의 제스처를 식별하기 위한 적어도 하나의 특징점들(1231, 1232, 1233)을 나타내는 정보(1230)를 생성하고, 특징점들(1231, 1232, 1233)을 기준으로 신체 부위의 이동을 식별하는 방식으로, 제스처를 식별할 수 있다.
전술한 예에서, 특징점들(1231, 1232, 1233)은 사용자(1201)의 움직임 또는 제스처를 구별하기 위한 기준점으로, 신체 부위 별로 다양한 방식으로 다양한 빈도로 설정될 수 있다. 예를 들어, 손바닥의 움직임과 같은 경우, 손바닥에 포함되는 관절들 각각이 특징점으로 설정될 수 있을 것이다. 또 다른 예로, 골반을 포함하는 하체의 경우, 골반에서 분기되는 다리뼈의 관절 부위에 대응되는 특징점(1233)을 설정할 수 있을 것이다. 그러면, 프로세서(240)는 연속적으로 획득되는 복수개의 프레임들 각각에서의 특징점들에 근거한 신체 부위의 이동을 분석하여, 사용자가 어떠한 자세를 따라하고 있는지, 사용자의 제스처가 어떠한 동작에 대응되는 것인지 식별할 수 있다.
도 13은 개시된 실시예에서의 제스처 감지 동작을 설명하기 위한 다른 도면이다. 도 13에서는, 도 3에 도시된 디스플레이 장치(300)를 참조하여, 제스처 감지 동작을 설명하도록 한다.
개시된 실시예에서, S420 단계의 제스처 감지를 모션 인식(motion detection)을 위한 기계 학습 기술이 이용될 수 있다.
구체적으로, 제스처 감지를 위해서, 딥 러닝(deep learning) 에 따른 모션 인식 기법이 이용될 수 있다. 구체적으로, 신경망(neural network)을 통한 연산을 수행하는 인공지능(AI: Artificial Intelligence) 기술을 이용하여, 객체 인식, 객체 추적 및 객체 구별 등을 수행하여 제스처를 인식하기 위한 방법이 개발 및 이용되고 있다. 이하에서는 설명의 편의 상, 이미지를 분석하여 객체 인식, 객체 추적 및 객체 구별 등을 수행하여 제스처를 감지하기 위한 동작들을 '제스처 감지 동작' 이라 통칭하도록 한다.
AI 기술은 알고리즘을 활용하여 구현될 수 있다. 여기서, AI 기술을 구현하기 위한 알고리즘 또는 알고리즘의 집합을 신경망(Neural Network)이라 한다. 여기서, 신경망은 입력 데이터를 입력받고, 전술한 분석 및 분류를 위한 연산을 수행하여, 결과 데이터를 출력할 수 있다. 이렇게, 신경망이 입력 데이터에 대응되는 결과 데이터를 정확하게 출력하기 위해서는, 신경망을 트레이닝 시킬 필요가 있다. 여기서, '트레이닝(training)'은 신경망으로 다양한 데이터들을 입력시키고, 입력된 데이터들을 분석하는 방법, 입력된 데이터들을 분류하는 방법, 및/또는 입력된 데이터들에서 결과 데이터 생성에 필요한 특징을 추출하는 방법 등을 신경망이 스스로 발견 또는 터득할 수 있도록 신경망을 훈련시키는 것을 의미할 수 있다. 여기서, '트레이닝(training)'은 국문으로 '학습' 또는 '훈련'으로 표현될 수 있다.
또한, 전술한 신경망을 통하여 입력 데이터에 대응되는 출력 데이터를 출력하도록 하는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어를 'AI 모델'(또는, '인공지능 모델')이라 칭할 수 있을 것이다.
AI 모델은 매우 다양한 형태로 존재할 수 있다. 구체적으로, 이미지를 입력받고, 입력된 이미지를 분석하여 이미지에 포함되는 객체의 제스처를 적어도 하나의 부류로 분류하는 동작을 수행하는 다양한 AI 모델들이 존재할 수 있다.
AI 모델은 적어도 하나의 신경망을 포함할 수 있으며, 도 13에서는 설명의 편의 상, 제스처 감지 동작을 수행하기 위한 AI 모델이 하나의 신경망(1320)의 형성되는 경우를 예로 들어서 도시하였다.
신경망은 복수의 레이어(layer)를 포함하여 다단의 연산을 수행하는 심층 신경망(DNN: Deep Neural Network)이 될 수 있다. 또한, 심층 신경망(DNN) 연산은 컨볼루션 신경망(CNN: Convolution Neural Network) 연산 등을 포함할 수 있다. 구체적으로, 예시된 신경망을 통하여 객체 인식을 위한 데이터 인식 모델을 구현하고, 구현된 인식 모델을 학습 데이터를 이용하여 학습(training)시킬 수 있다. 그리고, 학습된 데이터 인식 모델을 이용하여 입력되는 데이터, 예를 들어, 카메라에서 촬영된 이미지들을 분석 또는 분류하여, 입력된 이미지들 각각에서 객체를 인식하고 인식된 객체에 대응되는 제스처를 인식하여 출력 데이터로써 출력할 수 있다. 또한, 컨볼루션 신경망(CNN)은 이미지를 분석하여 패턴을 찾는 알고리즘을 수행하는 신경망을 모두 지칭하는 것으로, 다양한 종류들의 신경망들이 존재할 수 있다.
도 13을 참조하면, 신경망(1320)은 입력 레이어(1321)을 통하여 감지부(230)에서 획득된 적어도 하나의 이미지(1310)를 입력받고, 입력된 이미지(1310) 내의 객체를 추출하고 추출된 객체에 대응되는 제스처를 식별하고, 식별된 제스처를 출력단(1325)으로 출력하도록 학습된 신경망이 될 수 있다. 출력단(1325)으로 출력되는 정보는, 구별된 동작에 대응되는 제스처를 나타내는 동작 정보(1350)가 될 수 있다.
신경망(1320)이 사용자(1301)가 스쿼트 동작을 따라하고 있을 때 감지부(230)에서 획득된 이미지(1310)를 입력 받는 경우, 신경망(1320)은 입력된 이미지(1310)을 분석하여, '스쿼트 동작'을 나타내는 동작 정보(1350)를 출력할 수 있을 것이다.
신경망(1320)을 포함하는 AI 모델은 프로세서(240) 내에 저장될 수 있다. 또는, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(예를 들어, 300) 내에 포함되는 별도의 프로세서(미도시)로 형성될 수도 있다. 또는, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(300) 내에 포함되는 별도의 저장 장치(예를 들어, 메모리(250))에 저장될 수도 있을 것이다. 전술한 예들과 같이, 전자 장치(300) 내에 신경망(1320)을 포함하는 AI 모델이 저장되어 있는 경우, 전자 장치(300)의 프로세서(240)는 신경망(1320)을 포함하는 AI 모델로 감지부(230)에서 획득된 적어도 하나의 이미지를 입력하여, 사용자의 제스처를 감지할 수 있을 것이다.
또한, 개시된 실시예에서, 프로세서(240)는 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하기 위해서 신경망(1320)을 포함하는 AI 모델을 이용할 수 있다.
구체적으로, 신경망(1320)은 입력단(1321)을 통하여 동영상 콘텐트에 포함되는 복수개의 프레임들을 순차적으로 입력받고, 입력받은 프레임들을 분석하여 복수개의 프레임들에 포함되는 복수개의 동작들을 구별하는 정보를 출력단(1325)으로 출력할 수 있다.
또한, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(300)와 별도의 장치에 포함 또는 저장될 수 있다. 예를 들어, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(300)와 유무선의 통신 네트워크를 통하여 연결되는 외부 장치(미도시)에 저장될 수 있다. 이 경우, 디스플레이 장치(300)는 감지부(230)에서 획득된 사용자를 촬영한 적어도 하나의 이미지를 통신부(260)를 외부 장치로 전송할 수 있다. 그러면, 외부 장치(미도시)는 적어도 하나의 이미지를 수신하고, 내부에 포함되는 AI 모델을 이용하여, 동작 정보(1350)을 획득할 수 있다. 외부 장치(미도시)는 획득된 동작 정보(1350)을 디스플레이 장치(300)의 통신부(260)로 전송할 수 있다. 그러면, 통신부(260)는 전송되는 동작 정보(1350)를 수신하여 프로세서(240)로 전달할 수 있다. 그에 따라서, 프로세서(240)는 동작 정보(1350)에 근거하여 사용자 제스처를 감지할 수 있다.
도 14는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 다른 흐름도이다. 구체적으로, 도 14에 도시된 디스플레이 장치의 동작 방법(1400)은 도 1 내지 도 5을 참조하여 설명한 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)의 동작 방법이 될 수 있다. 즉, 도 14는 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)의 동작들을 나타내는 흐름도가 될 수 있다. 또한, 도 14에 있어서, 도 4에서와 동일한 구성은 동일한 도면 기호를 이용하여 도시하였다.
따라서, 디스플레이 장치의 동작 방법(1400)에 포함되는 동작들을 설명함에 있어서, 전술한 설명들과 중복되는 설명은 생략한다.
도 14를 참조하면, 디스플레이 장치의 동작 방법(1400)은 디스플레이(220)를 통하여 동영상 콘텐트를 재생한다(S410). S410 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다.
그리고, 디스플레이 장치의 동작 방법(1400)은 동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지한다(S420). 구체적으로, S420 단계는 S421 및 S422 단계를 포함할 수 있다.
구체적으로, 디스플레이 장치의 동작 방법(1400)은 감지부(230)에 포함되는 적어도 하나의 카메라에서 획득된 사용자 영상을 수신할 수 있다(S421). 구체적으로, 프로세서(240)는 사용자 영상을 수신할 수 있다. 여기서, 사용자 영상은 동영상 컨텐트에서 표현되는 동작을 따라하는 사용자를 촬영한 이미지로, 도 12 및 도 13에서 설명한 이미지(1210, 1310)를 포함할 수 있다.
그리고, 디스플레이 장치의 동작 방법(1400)은 S421 단계에서 수신된 사용자 영상을 분석하여 사용자가 현재 수행하는 동작에 대응되는 제스처를 식별할 수 있다(S422). S422 단계는 프로세서(240)에서 수행될 수 있다. 또는, S422 단계는 프로세서(240)의 제어에 근거하여 외부 장치(미도시)에서 수행될 수 있다.
구체적으로, S422 단계의 동작은 도 13에서 설명한 AI 모델을 이용하여 수행될 수 있다. 예를 들어, 프로세서(240)가 AI 모델을 포함하는 경우, S422 단계의 동작은 프로세서(240)에서 자체적으로 수행될 수 있다. 또 다른 예로, 프로세서(240)를 포함하여 디스플레이 장치(예를 들어, 300)이 AI 모델을 포함하지 않는 경우, S422 단계의 동작은 도 13에서 설명한 외부 장치(미도시)에서 수행될 수 있다. 이 경우, 식별된 제스처에 대한 정보는 통신부(260)를 통하여 프로세서(240)로 전달될 수 있다.
계속하여, 디스플레이 장치의 동작 방법(1400)은 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 S420 단계에서 감지된 제스처에 대응되는 적어도 하나의 프레임을 디스플레이(220)를 통하여 재생한다(S430). S430 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다.
구체적으로, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생을 일시적으로 중단하거나, 재생의 속도를 조절하거나, 또는 재생의 위치를 이동할 수 있다.
구체적으로, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생을 일시적으로 중단할 수 있다. 예를 들어, 사용자가 동영상 콘텐트에서 재생되는 동작들의 진행 속도를 따라가지 못하는 경우가 존재할 수 있다. 이 경우, 프로세서(240)는 사용자가 현재 재생중인 동작을 완료할 때까지, 동영상 콘텐트의 재생을 일시적으로 중단할 수 있다.
또한, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생 속도를 조절할 수 있다. 예를 들어, 예를 들어, 사용자가 동영상 콘텐트에서 재생되는 동작들을 따라하는데 있어서, 전체적으로 진행 속도가 느린 경우가 존재할 수 있다. 이 경우, 프로세서(240)는 동영상 컨텐트에서 재생 중인 동작과 사용자의 동작이 동기화되도록, 동영상 콘텐트의 재생 속도를 느리게 조절할 수 있다. 또 예를 들어, 예를 들어, 사용자가 동영상 콘텐트에서 재생되는 동작들을 따라하는데 있어서, 전체적으로 진행 속도가 빠른 경우가 존재할 수 있다. 이 경우, 프로세서(240)는 동영상 컨텐트에서 재생 중인 동작과 사용자의 동작이 동기화되도록, 동영상 콘텐트의 재생 속도를 빠르게 조절할 수 있다.
또한, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생 위치를 이동할 수 있다. 구체적으로, 프로세서(240)는 프로세서(240)는 동영상 컨텐트에서 재생 중인 동작과 사용자의 동작이 동기화되도록, 동영상 콘텐트의 재생 위치를 사용자의 제스처에 대응되는 동작 또는 제스처를 표현하는 적어도 하나의 프레임으로 이동할 수 있다.
구체적으로, 디스플레이 장치의 동작 방법(1400)은 사용자의 제스처가 식별되면, 식별된 제스처에 대응되는 동영상 컨텐트의 동작을 검색할 수 있다(S431). S431 단계의 동작은 전술한 재생 시간 정보 및 태그 정보 중 적어도 하나에 근거하여 수행될 수 있다.
예를 들어, 프로세서(240)는 동영상 콘텐트를 분석하여, 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득할 수 있다. 이 경우, 프로세서(240)는 재생 시간에 대한 정보에 근거하여, 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임을 식별할 수 있다. 구체적으로, 도 12에 도시된 예시와 같이, 사용자의 제스처가 런지 동작에 대응되는 제스처로 식별된 경우, 프로세서(240)는 런지 동작에 대한 재생 시간 정보에 근거하여, 런지 동작에 대응되는 프레임을 검색하고 검색된 프레임이 표시되도록 동영상 콘텐트의 재생을 제어할 수 있다. 구체적으로, 도 6을 참조하면, 런지 동작에 대응되는 재생 시간은 t=75 초 내지 t=130 초 이므로, 프로세서(240)는 해당 재생 시간에 존재하는 프레임들(650)을 검색하고, 사용자의 제스처에 대응되는 적어도 하나의 프레임이 표시되도록 동영상 콘텐트의 재생을 제어할 수 있다.
그리고, 디스플레이 장치의 동작 방법(1400)은 식별된 사용자의 제스처에 대응하는 시간(예를 들어, 제1 시간)과 S431 단계에서 검색된 동영상 컨텐트의 동작에 포함되는 재생 시간(예를 들어, 제2 시간)을 비교할 수 있다(S432). S431 단계의 동작은 전술한 재생 시간 정보 및 태그 정보 중 적어도 하나에 근거하여 수행될 수 있다.
예를 들어, 도 13에 도시된 예에서, 사용자의 제스처가 스쿼트 동작으로 식별된 경우, 해당 제스처가 감지된 시점인 제1 시간과 동영상 컨텐트에 포함되는 스쿼트 동작 중 감지된 제스처에 대응되는 프레임의 재생 시간에 대응되는 제2 시간을 비교할 수 있다(S432).
S432 단계의 비교 결과, 식별된 사용자의 제스처에 대응하는 시간(예를 들어, 제1 시간)과 S431 단계에서 검색된 동영상 컨텐트의 동작에 포함되는 재생 시간(예를 들어, 제2 시간)이 대응되는지 판단할 수 있다(S433).
S433 의 판단 결과 대응되는 것으로 판단되면, 사용자의 동작과 동영상 컨텐트의 재생 동작이 동기화된 것으로 판단할 수 있다. 그에 따라서, 동영상 콘텐트의 재생을 조절할 필요 없이, 동영상 콘텐트의 재생을 계속할 수 있다(S435).
S433 의 판단 결과 대응되지 않는 것으로 판단되면, 사용자의 동작과 동영상 컨텐트의 재생 동작이 동기화되지 못한 것으로 판단할 수 있다. 그에 따라서, 동영상 콘텐트의 재생을 조절할 수 있다(S437). S437 단계의 재생 조절은, 전술한 재생 시점의 이동, 재생의 일시 중지, 및 재생 속도의 조절 중 적어도 하나가 될 수 있다.
예를 들어, 사용자의 제스처는 스쿼트 동작에 대응되는데, 현재 재생되는 동영상 콘텐트는 런지 동작에 대한 것일 수 있다. 이 경우, 프로세서(240)는 현재 동영상 콘텐트의 재생 동작이 사용자의 제스처에 맞춰지도록, 태그 및 재생 시간 정보 중 적어도 하나에 근거하여, 동영상 콘텐트의 재생 시점을 스쿼트 동작의 재생 시점으로 이동할 수 있다. 또는, 프로세서(240)는 현재 동영상 콘텐트의 재생 동작이 사용자의 제스처에 맞춰지도록, 동영상 콘텐트의 재생을 일시 중단하여, 사용자가 스쿼트 동작을 완료하고 런지 동작을 시작할 때까지 대기할 수 있다.
또한, 개시된 실시예에서, 프로세서(240)는 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지가 중첩되어 디스플레이 되도록 제어할 수 있다.
구체적으로, 프로세서(240)는 감지된 제스처에 대응되는 이미지로, 캡쳐된 이미지를 획득할 수 있다. 또는, 프로세서(240)는 감지된 제스처에 대응되는 아바타 이미지를 생성할 수 있다. 그리고, 획득된 이미지가 재생 화면의 서브 화면으로 포함되도록 할 수 있다. 그러면, 사용자는 재생 화면을 보고 자신의 자세가 정확한지 부정확 한지, 아니면 자신이 동작을 잘 따라하고 있는지 여부를 인식할 수 있을 것이다.
또한, 개시된 실시예에서, 프로세서(240)는 동영상 콘텐트의 재생 화면 상에, 상기 감지된 제스처에 대한 가이드 정보가 표시되도록 제어할 수 있다. 예를 들어서, 가이드 정보는 감지된 제스처가 어떠한 동작인지, 좀 더 빠르게 따라해야 하는지, 신체의 일부를 어떻게 움직여야 하는지 등을 가이드 하기 위한 정보를 포함할 수 있다.
도 15는 개시된 실시예에 따른 디스플레이 장치와 통신하는 서버를 설명하기 위한 도면이다. 도 15에 있어서, 도 2 내지 도 3에서와 동일한 구성은 동일한 도면 기호를 이용하여 도시하였다. 또한, 도 15에 도시된 디스플레이 장치(1550)는 도 1 내지 도 14를 참조하여 설명한 개시된 실시예에 따른 디스플레이 장치(100, 200, 300, 또는 500)에 대응될 수 있다. 따라서, 전술한 설명들과 중복되는 설명은 생략한다.
도 15에서는 설명의 편의 상, 디스플레이 장치(1550)에 포함되는 통신부(260)를 '제1 통신부(260)'로 칭하고, 외부 장치인 서버(1500)에 포함되는 통신부(1520)은 '제2 통신부(1520)'로 칭하였다.
디스플레이 장치(1550)는 외부 장치와 유무선의 통신 네트워크를 통하여 통신을 수행할 수 있다. 여기서, 외부 장치는 디스플레이 장치(1550)와 물리적으로 구별되는 별도의 전자 장치(미도시) 또는 서버(1500)가 될 수 있다. 도 15에서는, 외부 장치가 서버(1500)인 경우를 예로 들어 도시 및 설명하도록 한다.
도 15에서는, 디스플레이 장치(1550)가 프로세서(240) 및 제1 통신부(260)를 포함하는 것으로 도시하였으나, 도 3 및 도 5에 도시된 구성들 중 적어도 하나를 더 포함할 수 있다. 다만, 설명의 상 미도시 하였다.
도 15를 참조하면, 서버(1500)는 프로세서(1510) 및 제2 통신부(1520)을 포함할 수 있다. 예를 들어, 서버(1500)은 이미지를 분석하여, 이미지 내에 포함되는 객체 인식, 및 제스처 인식 중 적어도 하나를 수행하기 위한 AI 모델을 통산 연산을 수행하는 서버가 될 수 있다.
프로세서(1510)은 내부 메모리(미도시) 및 저장된 적어도 하나의 프로그램을 실행하는 적어도 하나의 프로세서(미도시)를 포함할 수 있다. 여기서, 프로세서(240)의 내부 메모리(미도시)는 하나 이상의 인스트럭션을 저장할 수 있다. 그리고, 프로세서(240)는 내부 메모리(미도시)에 저장된 하나 이상의 인스트럭션 중 적어도 하나를 실행하여, 소정 동작을 실행할 수 있다. 프로세서(1510)의 내부 구성은 도 2 에서 설명한 프로세서(240)에 동일 대응되므로, 상세 설명은 생략한다.
구체적으로, 프로세서(1510)는 도 13에서 설명한 AI 모델을 포함할 수 있다. 그리고, AI 모델을 통한 서로 다른 동작들의 구별, 객체 인식 및 제스처 인식 중 적어도 하나의 동작을 수행할 수 있다.
제2 통신부(1520)는 적어도 하나의 유선 또는 무선 통신 네트워크를 통해서 디스플레이 장치(1550)와 통신을 수행한다. 구체적으로, 제2 통신부(1520)는 적어도 하나의 통신 모듈, 통신 회로 등을 포함하는 형태로 형성될 수 있으며, 통신 모듈 및/또는 통신 회로를 통하여 외부 장치와 데이터를 송수신할 수 있다. 제2 통신부(1520)의 내부 구성은 도 3 에서 설명한 통신부(260)에 동일 대응되므로, 상세 설명은 생략한다.
디스플레이 장치(1550)는 제1 통신부(260)를 통하여 사용자의 자세, 몸짓, 동작 또는 모습을 촬영하여 획득되는 복수개의 이미지들을 실시간으로 서버(1500)의 제2 통신부(1520)로 전송할 수 있다. 그러면, 서버(1500)의 프로세서(1510)는 수신된 이미지들에 근거하여 사용자의 제스처를 식별하고, 식별된 제스처에 대한 정보를 제2 통신부(1520)를 통하여 제1 통신부(260)로 전송할 수 있다.
또한, 디스플레이 장치(1550)는 제1 통신부(260)를 통하여 동영상 컨텐트를 실시간으로 서버(1500)의 제2 통신부(1520)로 전송할 수 있다. 그러면, 서버(1500)의 프로세서(1510)는 AI 모델을 이용하여 수신된 동영상 컨텐트를 분석하여, 복수개의 동작들을 식별하고, 식별된 동작들에 대응되는 재생 시간 정보를 획득할 수 있다. 그리고, 획득된 정보를 제2 통신부(1520)를 통하여 제1 통신부(260)로 전송할 수 있다. 또는, 서버(1500)의 프로세서(1510)는 AI 모델을 이용하여 수신된 동영상 컨텐트를 분석하여, 복수개의 동작들을 구별하고, 구별된 동작들에 대응되는 태그들을 추가하여 태그된 동영상 컨텐트를 생성할 수 있다. 그리고, 태그된 동영상 컨텐트를 제2 통신부(1520)를 통하여 제1 통신부(260)로 전송할 수 있다.
도 16은 개시된 실시예에 따른 동영상 콘텐트의 재생 조절 동작을 설명하기 위한 도면이다. 구체적으로, 도 16은 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)의 재생 조절 동작을 설명하기 위한 도면이다. 도 16에서는 도 6 내지 도 10을 참조하여 예시한 동영상 컨텐트가 개시된 실시예에 다른 디스플레이 장치(100, 200, 300 또는 500)에서 재생되는 경우를 예로 들어서 설명한다.
이하에서는, 설명의 편의 상, 도 16에서의 재생 조절 동작이 도 3에 도시된 디스플레이 장치(300)에서 수행되는 경우를 예로 들어서 설명하도록 한다.
도 16을 참조하면, 1630 블록은 개시된 실시예에 따른 재생 조절이 수행되기 이전에 디스플레이(220)에서 재생되는 동영상 컨텐트를 나타낸다. 그리고, 1610 은 사용자가 디스플레이(220)에서 재생되는 동영상 컨텐트를 따라하는 모습을 나타내는다. 그리고, 1650 블록은 개시된 실시예에 따른 재생 조절이 수행될 때 디스플레이(220)에서 재생되는 동영상 컨텐트를 나타낸다. 또한, 도 16에서는 설명의 편의 상 수 개의 프레임들이 디스플레이(220) 상에서 재생되는 경우를 예로 들어 도시하였으나, 수십 내지 수백 개의 프레임들이 데드리프트 동작을 표현할 수 있다.
먼저, 1630 블록을 참조하면, 디스플레이 장치(300)는 디스플레이(220)를 통하여 데드리프트 동작을 표현하는 복수개의 프레임들(1631, 1632, 1633, 1634)이 t1 내지 t4 시점에서 순차적으로 재생될 수 있다.
그리고, t1 시점에서 사용자는 디스플레이되는 이미지(1631)을 시청하며 데드리프트 동작을 따라할 수 있다. 사용자는 이미지(1631)를 보고 자세(1601_1)를 취하고, 동영상 콘텐트의 재생이 진행됨에 따라서, t2 시점에서 사용자는 디스플레이되는 이미지(1632)을 시청하며 데드리프트 동작을 따라할 수 있다. 도시된 바와 같이, t1 및 t2 시점까지는 재생되는 동영상 콘텐트에서 표현하는 동작을 사용자가 잘 따라고 있다. 그러나, 후속되는 t3 시점에서 재생되는 이미지(1633)는 데드리프트 동작 중 일어서는 자세에 대응되나, t3 시점에서 사용자는 아직 일어서는 동작을 따라서 일어서지 못하고 t2 시점에서 디스플레이되는 이미지에서 표현되는 자세(1602_3)를 취하고 있다.
이 경우, 일반적인 디스플레이 장치는 사용자가 재생되는 동작들을 따라하는지 못 따라하는지 여부와 무관하게, 동영상 콘텐트의 재생을 진행한다. 따라서, t3 시점에서 재생되는 이미지(1633)와 동일 시점에서 사용자가 따라하는 자세(1602_3)가 달라지기 시작하여, t4 시점에서도 재생되는 동영상 콘텐트의 동작 자세와 사용자의 자세는 달라질 수 밖에 없다. 이러한 경우, 기존에는 사용자는 별도의 제어 장치를 이용하여 동영상 콘텐트의 재생을 수동적으로 일시 중단하거나, 아니면 도중에 자신의 자세를 변경하여야만 했다.
따라서, 사용자에 맞춰서 사용자의 운동 상태에 따른 동영상 콘텐트의 재생 및 시청이 불가능하였다.
개시된 실시예에서는, 사용자의 제스처를 인식하고, 인식된 제스처에 대응되는 프레임이 표시되도록, 동영상 콘텐트의 재생을 사용자의 개입 없이 자동적으로 조절할 수 있다. 그에 따라서, 사용자의 운동 상태, 또는 사용자의 의도에 맞춰서 최적화된 동영상 콘텐트의 재생 속도 또는 재생 상태를 제공함으로써, 사용자의 만족도를 증가시킬 수 있다.
구체적으로, 도 1650 블록을 참조하면, 프로세서(240)는 t3 시점에서 실시간으로 감지되는 사용자의 제스처에 동기화되는 적어도 하나의 프레임을 검색하고, 검색된 적어도 하나의 프레임(1632)가 t3 시점에서 디스플레이(220)에서 표시되도록 제어할 수 있다. 참고로, 사용자의 제스처가 감지되는 시점(t3)과 감지된 제스처에 대응되는 프레임(1632)이 표시되는 시점이 모두 t3 시점으로 동일한 것으로 도시하였으나, 사용자의 제스처 감지 동작 및 대응되는 프레임 검색 동작을 수행하는 시간 간격이 존재할 수 있을 것이다. 그러나, 이러한 시간 간격은 AI 모델을 통하여 빠른 연산을 통하여 최소화될 수 있으며, 실제로 사용자가 시간 지연으로 인식하지 못하는 범위 내에서 이뤄질 수 있다.
따라서, 개시된 실시예에서는, 사용자의 제스처에 맞춰서 사용자의 동작과 동기화되는 동작들이 표시되도록 제어할 수 있다. 즉, t4 시점에서 사용자의 제스처(1602_4)가 감지된 경우, t4 시점에서 감지된 제스처(1602_4)에 대응되는 프레임(1633)이 표시되도록 동영상 콘텐트의 재생이 제어될 수 있다. 그에 따라서, 디스플레이 장치(300)의 디스플레이(220)는 t4 시점에서 감지된 제스처(1602_4)에 대응되는 프레임(1633)을 표시할 수 있다.
그러면, 다시 사용자는 후속 시점인 t5 시점에서 표시되는 프레임(1634)을 보며, 후속되는 동작 또는 제스처를 따라할 수 있다.
본 개시의 일 실시예에 따른 디스플레이 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 또한, 본 개시의 실시예는, 디스플레이 장치의 동작 방법을 실행하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체가 될 수 있다.
상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
여기서, 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체'는가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
구체적으로, 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 수행하도록 하는 프로그램이 저장된 기록 매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.
이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims (15)

  1. 디스플레이;
    동영상 콘텐트를 획득하는 영상 입력부;
    적어도 하나의 센서를 포함하는 감지부; 및
    적어도 하나의 인스트럭션을 실행하는 프로세서를 포함하며,
    상기 프로세서는
    상기 적어도 하나의 인스트럭션을 실행하여,
    상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고,
    상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 상기 동영상 콘텐트의 재생을 제어하는, 디스플레이 장치.
  2. 제1항에 있어서, 상기 프로세서는
    상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어하는, 디스플레이 장치.
  3. 제1항에 있어서, 상기 프로세서는
    상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록, 상기 동영상 콘텐트의 재생을 일시적으로 중단하는, 디스플레이 장치.
  4. 제1항에 있어서, 상기 프로세서는
    상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록, 상기 동영상 콘텐트의 재생 속도를 조절하는, 디스플레이 장치.
  5. 제1항에 있어서, 상기 프로세서는
    상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록, 상기 동영상 콘텐트의 재생 위치를 이동하는, 디스플레이 장치.
  6. 제1항에 있어서, 상기 프로세서는
    상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 상기 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하며,
    상기 재생 시간에 대한 정보에 근거하여, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 제어하는, 디스플레이 장치.
  7. 제1항에 있어서, 상기 프로세서는
    상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고,
    상기 식별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그를 상기 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트가 생성되도록 제어하는, 디스플레이 장치.
  8. 제7항에 있어서, 상기 프로세서는
    상기 복수개의 태그에 근거하여, 상기 태그된 동영상 콘텐트에 포함되는 상기 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 제어하는, 디스플레이 장치.
  9. 제1항에 있어서, 상기 프로세서는
    상기 감지부의 감지 결과를 신경망으로 입력하고, 상기 신경망을 통한 연산의 결과 출력되는 정보인 상기 사용자의 제스처에 대한 정보를 획득하는, 디스플레이 장치.
  10. 제1항에 있어서, 상기 프로세서는
    상기 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지가 중첩되어 디스플레이 되도록 제어하는, 디스플레이 장치.
  11. 제1항에 있어서, 상기 프로세서는
    상기 동영상 콘텐트의 재생 화면 상에, 상기 감지된 제스처에 대한 가이드 정보가 표시되도록 제어하는, 디스플레이 장치.
  12. 디스플레이를 통하여 동영상 콘텐트를 재생하는 단계;
    동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하는 단계; 및
    상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 상기 동영상 콘텐트의 재생을 제어하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
  13. 제12항에 있어서,
    상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하는 단계를 더 포함하고,
    상기 재생을 제어하는 단계는
    상기 식별된 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이에서 표시하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
  14. 제12항에 있어서, 상기 재생을 제어하는 단계는
    상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 속도, 재생 위치 이동, 및 재생 중지 중 적어도 하나의 동작을 수행하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
  15. 제12항에 있어서,
    상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 상기 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하는 단계를 더 포함하며,
    상기 재생을 제어하는 단계는
    상기 재생 시간에 대한 정보에 근거하여, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이에서 표시하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
PCT/KR2021/017924 2020-12-01 2021-11-30 디스플레이 장치 및 그의 동작 방법 WO2022119288A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/327,570 US20230328298A1 (en) 2020-12-01 2023-06-01 Display device and operation method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200165944A KR20220076945A (ko) 2020-12-01 2020-12-01 디스플레이 장치 및 그의 동작 방법
KR10-2020-0165944 2020-12-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/327,570 Continuation US20230328298A1 (en) 2020-12-01 2023-06-01 Display device and operation method thereof

Publications (1)

Publication Number Publication Date
WO2022119288A1 true WO2022119288A1 (ko) 2022-06-09

Family

ID=81854266

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017924 WO2022119288A1 (ko) 2020-12-01 2021-11-30 디스플레이 장치 및 그의 동작 방법

Country Status (3)

Country Link
US (1) US20230328298A1 (ko)
KR (1) KR20220076945A (ko)
WO (1) WO2022119288A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230353798A1 (en) * 2022-04-29 2023-11-02 Rajiv Trehan Method and system of generating on-demand video of interactive activities

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160059802A (ko) * 2014-11-19 2016-05-27 주식회사 경희스포츠패나틱 스마트 피트니스 시스템
JP2016208422A (ja) * 2015-04-27 2016-12-08 パナソニックIpマネジメント株式会社 トレーニング実施状況判定方法、サーバ装置及びトレーニング実施状況判定システム
KR20200072931A (ko) * 2018-12-13 2020-06-23 (주)아이유웰 피트니스 컨텐츠의 재생 방법
KR102123869B1 (ko) * 2019-02-12 2020-06-23 장성철 인지 반응 향상을 위한 훈련 장치 및 그 방법
KR20200083104A (ko) * 2018-12-27 2020-07-08 주식회사 쏘그웨어 댄스 동작의 자동 난이도 조절을 이용한 댄스 트레이닝 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160059802A (ko) * 2014-11-19 2016-05-27 주식회사 경희스포츠패나틱 스마트 피트니스 시스템
JP2016208422A (ja) * 2015-04-27 2016-12-08 パナソニックIpマネジメント株式会社 トレーニング実施状況判定方法、サーバ装置及びトレーニング実施状況判定システム
KR20200072931A (ko) * 2018-12-13 2020-06-23 (주)아이유웰 피트니스 컨텐츠의 재생 방법
KR20200083104A (ko) * 2018-12-27 2020-07-08 주식회사 쏘그웨어 댄스 동작의 자동 난이도 조절을 이용한 댄스 트레이닝 장치
KR102123869B1 (ko) * 2019-02-12 2020-06-23 장성철 인지 반응 향상을 위한 훈련 장치 및 그 방법

Also Published As

Publication number Publication date
US20230328298A1 (en) 2023-10-12
KR20220076945A (ko) 2022-06-08

Similar Documents

Publication Publication Date Title
WO2018034462A1 (en) Image display apparatus and method of operating the same
WO2014025185A1 (en) Method and system for tagging information about image, apparatus and computer-readable recording medium thereof
WO2018194273A1 (en) Image display apparatus and method
WO2015178692A1 (en) Display apparatus, remote control apparatus, system and controlling method thereof
WO2022191542A1 (ko) 홈 트레이닝 서비스 제공 방법 및 그를 수행하는 디스플레이 장치
WO2021261836A1 (en) Image detection apparatus and operation method thereof
WO2021060590A1 (ko) 디스플레이 장치 및 인공 지능 시스템
WO2019135433A1 (ko) 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템
WO2018155859A1 (en) Image display device and operating method of the same
WO2020145615A1 (en) Method of providing recommendation list and display device using the same
WO2022119288A1 (ko) 디스플레이 장치 및 그의 동작 방법
EP3593539A1 (en) Image display apparatus and method
WO2021060575A1 (ko) 인공 지능 서버 및 그의 동작 방법
WO2022181865A1 (ko) 디스플레이 장치 및 그 동작방법
WO2021033785A1 (ko) 사용자의 음성을 통해 가전 기기를 제어할 수 있는 디스플레이 장치 및 인공 지능 서버
WO2019088592A1 (ko) 전자 장치 및 이의 제어방법
WO2022045613A1 (ko) 비디오 품질 향상 방법 및 장치
WO2017160062A1 (ko) 컨텐트를 인식하는 방법 및 장치
WO2020111567A1 (en) Electronic device and operation method thereof
WO2021060570A1 (ko) 가전 기기 및 서버
WO2019093763A1 (en) Display apparatus, control system for the same, and method for controlling the same
WO2021010522A1 (ko) 시청 상황을 고려하여, 하나 이상의 가전 기기를 제어하는 디스플레이 장치
WO2019164020A1 (ko) 디스플레이 장치
WO2020235724A1 (ko) 디스플레이 장치
WO2021261874A1 (ko) 디스플레이 장치 및 그의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21900976

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21900976

Country of ref document: EP

Kind code of ref document: A1