WO2022119288A1

WO2022119288A1 - 디스플레이 장치 및 그의 동작 방법

Info

Publication number: WO2022119288A1
Application number: PCT/KR2021/017924
Authority: WO
Inventors: 김나영; 박성식; 윤종희; 박정훈; 최소희
Original assignee: 삼성전자 주식회사
Priority date: 2020-12-01
Filing date: 2021-11-30
Publication date: 2022-06-09
Also published as: US20230328298A1; KR20220076945A

Abstract

개시된 실시예에 따른 디스플레이 장치는 디스플레이; 동영상 콘텐트를 획득하는 영상 입력부; 적어도 하나의 센서를 포함하는 감지부; 및 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함한다. 상기 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 상기 동영상 콘텐트의 재생을 제어한다.

Description

디스플레이 장치 및 그의 동작 방법

동영상 콘텐트를 재생하는 디스플레이 장치 및 그의 동작 방법에 대한 것이다.

구체적으로, 사용자가 소정 동작을 취하도록 유도하는 동영상 콘텐트를 재생하는 디스플레이 장치 및 그의 동작 방법에 대한 것이다.

디스플레이의 보급 및 기술 개발로 인하여, 다양한 형태 및 다양한 기능을 갖는 디스플레이 장치들이 개발되고 있다.

그에 따라서, 디스플레이 장치를 활용하여 소비자의 다양한 욕구 또는 의도에 부합되는 기능을 실현할 수 있다.

디스플레이 장치는 다양한 유선 또는 무선의 통신 네트워크와 연결되어, 연결된 통신 네트워크를 통하여 복수개의 컨텐츠 중 적어도 하나를 수신할 수 있다. 최근에는, 디스플레이 장치를 통해서 디스플레이 가능한 컨텐츠의 종류 및 개수가 매우 다양해지고 있다. 예를 들어, 디스플레이 장치는 인터넷을 통하여 적어도 하나의 서버에 접속할 수 있고, 접속된 적어도 하나의 서버에서 적어도 하나의 컨텐츠를 수신하여 표시할 수 있다. 또한, 디스플레이 장치는 다양한 유무선 네트워크를 통하여 연결되는 외부 장치, 예를 들어, 방송국 서버, 인터넷 서버, 컨텐츠 서버, 컨텐츠 제공 장치, 또는 컨텐츠 저장 장치 등으로부터 다양하고 많은 종류의 컨텐츠들 중 적어도 하나를 선택하여 수신 및 디스플레이 할 수 있다.

디스플레이 장치가 수신하여 재생하는 콘텐트로는, 홈 트레이닝을 위한 콘텐트, 댄스 관련 콘텐트, 댄스 강의 콘텐트, 헬스 케어 관련 콘텐트 등을 예로 들 수 있다. 전술한 콘텐트는, 운동 또는 댄스 등에 있어서 연속적으로 이뤄지는 동작들을 제공하는 콘텐트다.

예를 들어, 홈트레이닝 콘텐트는, 사용자가 쉽게 이용할 수 있는 도구를 이용하거나 또는 별도의 도구 없이 실내 공간(예를 들어, 집) 내에서 할 수 있는 운동을 표현하는 콘텐트다. 디스플레이 장치의 사용자는 홈 트레이닝 콘텐트를 시청하면서 콘텐트 내에서 표현되는 운동 동작들 따라함으로써, 실내에서도 손쉽게 운동을 할 수 있다.

전술한 홈 트레이닝 콘텐트는, 일반적으로 별도의 재생 속도 조절 없이 디스플레이 장치를 통하여 재생된다. 따라서, 사용자가 홈트레이닝 콘텐트에서 표현된 동작을 제때에 따라가지 못하는 경우에는, 사용자는 별도의 제어 장치를 이용하여 그때 그때 홈 트레이닝 콘텐트의 재생을 일시 중단하거나 재 시작해야 하는 불편함이 있다.

개시된 실시예는 동영상 콘텐트를 시청하는 사용자 만족도를 높일 수 있도록 하는 디스플레이 장치 및 그의 동작 방법의 제공을 목적으로 한다.

구체적으로, 개시된 실시예는 동영상 콘텐트를 따라하는 사용자에 맞춰서 상기 동영상 콘텐트의 재생을 자동적으로 조절함으로써, 사용자의 만족도를 높일 수 있는 디스플레이 장치 및 그의 동작 방법의 제공을 목적으로 한다.

개시된 실시예에 따른 디스플레이 장치 및 그의 동작 방법은 동영상 콘텐트를 따라하는 사용자에 맞춰서 상기 동영상 콘텐트의 재생을 자동적으로 조절할 수 있다. 그에 따라서, 동영상 콘텐트를 시청하는 사용자의 만족도를 높일 수 있다.

개시된 실시예에 따른 디스플레이 장치는 디스플레이; 동영상 콘텐트를 획득하는 영상 입력부; 적어도 하나의 센서를 포함하는 감지부; 및 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함한다. 상기 프로세서는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어한다.

또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어할 수 있다.

또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생을 일시적으로 중단할 수 있다.

또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 속도를 조절할 수 있다.

또한, 상기 프로세서는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 위치를 이동할 수 있다.

또한, 상기 프로세서는 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하며, 상기 재생 시간에 대한 정보에 근거하여, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록 제어할 수 있다.

또한, 상기 프로세서는 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그를 상기 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트가 생성되도록 제어할 수 있다.

또한, 상기 프로세서는 상기 복수개의 태그에 근거하여, 상기 태그된 동영상 콘텐트에 포함되는 상기 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록 제어할 수 있다.

또한, 상기 프로세서는 상기 감지부의 감지 결과를 신경망으로 입력하고, 상기 신경망을 통한 연산의 결과 출력되는 정보인 상기 사용자의 제스처에 대한 정보를 획득할 수 있다.

또한, 상기 프로세서는 상기 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지가 중첩되어 디스플레이 되도록 제어할 수 있다.

또한, 상기 프로세서는 상기 재생 화면 상에, 상기 감지된 제스처에 대한 가이드 정보가 표시되도록 제어할 수 있다.

개시된 실시예에 따른 디스플레이 장치의 동작 방법은 디스플레이를 통하여 동영상 콘텐트를 재생하는 단계; 동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하는 단계; 및 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어하는 단계를 포함한다.

또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하는 단계를 더 포함할 수 있다. 또한, 상기 재생을 제어하는 단계는 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이를 통하여 표시하는 단계를 포함할 수 있다.

또한, 상기 재생을 제어하는 단계는 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 속도, 재생 위치 이동, 및 재생 중지 중 적어도 하나의 동작을 수행하는 단계를 포함할 수 있다.

또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하는 단계를 더 포함할 수 있다. 또한, 상기 재생을 제어하는 단계는 상기 재생 시간에 대한 정보에 근거하여, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이를 통하여 표시하는 단계를 포함할 수 있다.

또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하고, 상기 구별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그를 상기 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트를 생성하는 단계를 더 포함할 수 있다.

또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지를 중첩하여 디스플레이하는 단계를 더 포함할 수 있다.

또한, 개시된 실시예에 따른 디스플레이 장치의 동작 방법은 상기 동영상 컨텐트의 재생 화면 상에, 감지된 제스처에 대한 가이드 정보를 표시하는 단계를 더 포함할 수 있다.

도 1은 사용자가 소정 동작을 취하도록 유도하는 동영상 콘텐트를 설명하기 위한 도면이다.

도 2는 개시된 실시예에 따른 디스플레이 장치를 나타내는 일 블록도이다.

도 3은 개시된 실시예에 따른 디스플레이 장치를 나타내는 다른 블록도이다.

도 4는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 일 흐름도이다.

도 5는 개시된 실시예에 따른 디스플레이 장치를 나타내는 다른 블록도이다.

도 6은 개시된 실시예에 따른 디스플레이 장치에서 재생되는 동영상 콘텐트를 설명하기 위한 도면이다.

도 7은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 일 도면이다.

도 8은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다.

도 9는 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다.

도 10은 동영상 콘텐트에 대응되는 시간 별 재생 동작들을 나타내는 도면이다.

도 11은 개시된 실시예에서 이용되는 동영상 콘텐트의 태그를 설명하기 위한 도면이다.

도 12는 개시된 실시예에서의 제스처 감지 동작을 설명하기 위한 일 도면이다.

도 13은 개시된 실시예에서의 제스처 감지 동작을 설명하기 위한 다른 도면이다.

도 14는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 다른 흐름도이다.

도 15는 개시된 실시예에 따른 디스플레이 장치와 통신하는 서버를 설명하기 위한 도면이다.

도 16은 개시된 실시예에 따른 동영상 콘텐트의 재생 조절 동작을 설명하기 위한 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 도면 전체에 있어서, 동일한 구성에 대하여는 동일한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.

일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 프로세서 또는 마이크로프로세서들에 의해 구현되거나, 의도하는 기능을 수행하기 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립트 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. 모듈 및 구성등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

또한, 'A, B, 및 C 중 적어도 하나'라는 기재는 'A', 'B', 'C', 'A 및 B', 'A 및 C', 'B 및 C', 및 'A, B, 및 C' 중 어느 하나가 될 수 있음을 의미한다.

개시된 실시예에서, 디스플레이 장치는 동영상 콘텐트에 대응되는 영상 신호를 수신하여, 동영상 콘텐트를 재생할 수 있는 모든 전자기기를 지칭할 수 있다.

구체적으로, 개시된 실시예에서 디스플레이 장치는 TV, 디지털 TV, 스마트 TV, 디지털 간판(digital signage), 디지털 표지판, 스마트 폰, 태블릿 PC, PDA(personal digital assistant), 랩탑 컴퓨터, 미디어 플레이어 등이 될 수 있다.

이하에서는, 첨부된 도면들을 참조하며, 개시된 실시예에 따른 디스플레이 장치 및 그 동작 방법을 상세히 설명하도록 한다. 첨부된 도면들에 있어서, 동일한 구성 요소는 동일한 도면 기호를 이용하여 도시하였다. 또한, 상세한 설명 전체적으로, 동일한 구성은 동일한 용어로 기재하였다.

이하에서는 도 1 내지 도 16을 참조하여, 개시된 실시예에 따른 디스플레이 장치의 구성 및 그의 수행 동작들을 상세하게 설명한다.

영상 기술의 발달 및 개인 방송, 영상 전문 어플리케이션의 발달로 다양한 영상 콘텐트 및 영상 기반 서비스가 제공되고 있다. 이러한 영상 콘텐트 및 영상 기반 서비스는 디스플레이 장치를 통하여 제공될 수 있다. 여기서, 영상 콘텐트는 동영상 콘텐트를 포함할 수 있으며, 이러한 동영상 콘텐트는 디스플레이 장치를 통하여 재생 또는 출력될 수 있다.

예를 들어, 동영상 콘텐트는 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 표현하는 콘텐트 일 수 있다. 또 다른 예로, 동영상 콘텐트는, 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 시청자들에게 가르치거나 가이드 하기 위한 강습 콘텐트일 수 있다. 디스플레이 장치(100)의 디스플레이(110) 상으로 전술한 동영상 콘텐트가 재생되면, 사용자는 동영상 콘텐트에서 표현되는 동작을 따라서 움직일 수 있다.

도 1을 참조하면, 디스플레이 장치(100)를 통하여 재생되는 동영상 콘텐트는 스쿼트 동작을 표현하는 홈 트레이닝 콘텐트가 될 수 있다. 이 경우, 디스플레이 장치(100)는 디스플레이(110)를 통하여 스쿼트 동작을 표현하는 이미지들을 실시간으로 표시 또는 출력함으로써, 해당 동영상 콘텐트를 재생할 수 있다. 그러면, 사용자(150)는 디스플레이(110) 상으로 재생되는 동영상 콘텐트를 시청하고, 스쿼트 동작을 따라할 수 있다.

전술한 바와 같이 적어도 하나의 동작을 표현하거나 적어도 하나의 동작을 가이드하기 위한 동영상 콘텐트가 디스플레이 장치(100)를 통하여 재생될 때, 일반적으로 동영상 콘텐트는 사용자의 상태와 무관하게 재생이 진행된다. 예를 들어, 동영상 콘텐트에서 표현하는 동작이 따라하기 쉽지 않은 경우, 사용자는 해당 동작을 따라하지 못하거나 해당 동작을 놓칠 수 있다. 또는, 동영상에서 표현하는 동작이 따라하기 쉽지 않은 경우, 사용자는 해당 동작을 느리게 따라해서, 동영상의 재생 속도에 대응되는 동작의 변화를 실시간으로 따라하지 못하는 경우가 있을 수 있다.

개시된 실시예는, 전술한 바와 같이 사용자가 동영상에서 표현된 동작을 제대로 따라하지 못하는 경우에 발생하는 사용자의 어려움 및 불편함을 감소시키기 위해서, 동영상 콘텐트를 따라하는 사용자에 맞춰서 상기 동영상 콘텐트의 재생을 자동적으로 조절할 수 있는 디스플레이 장치 및 그의 동작 방법을 제공한다.

도 2는 개시된 실시예에 따른 디스플레이 장치를 나타내는 일 블록도이다. 도 2에 도시된 디스플레이 장치(200)는 도 1에서 설명한 디스플레이 장치(100)에 동일 대응되므로, 중복되는 설명은 생략한다.

개시된 실시예에서, 디스플레이 장치(200)는 동영상 콘텐트를 시각적으로 디스플레이하는 모든 전자 장치를 포함할 수 있다. 구체적으로, 디스플레이 장치(200)는 적어도 하나의 동영상 콘텐트를 선택적으로 디스플레이 할 수 있는 모든 전자 장치로, TV, 디지털 방송용 단말기, 태블릿 PC, 스마트 폰, 모바일 폰, 컴퓨터, 노트북 등과 같이 다양한 형태로 존재할 수 있다. 또한, 디스플레이 장치(200)는 고정형뿐만 아니라, 이동 가능하거나 사용자가 휴대 가능한 형태를 가질 수 있을 것이다.

도 2를 참조하면, 디스플레이 장치(200)는 영상 입력부(210), 디스플레이(220), 감지부(230), 및 프로세서(240)를 포함한다.

구체적으로, 디스플레이 장치(200)는 디스플레이(220), 동영상 콘텐트를 획득하는 영상 입력부(210), 적어도 하나의 센서를 포함하는 감지부(230), 및 적어도 하나의 인스트럭션을 실행하는 프로세서(240)를 포함한다. 여기서, 프로세서(240)는 상기 적어도 하나의 인스트럭션을 실행하여, 상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록 상기 동영상 콘텐트의 재생을 제어한다.

구체적으로, 영상 입력부(210)는 동영상 콘텐트를 획득할 수 있다.

여기서, 동영상 콘텐트는 소정 동작을 표현하는 콘텐트일 수 있다. 예를 들어, 동영상 콘텐트는 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 표현하는 내용이 포함되는 콘텐트 일 수 있다. 또 다른 예로, 동영상 콘텐트는, 댄스, 헬스, 운동 치료, 홈 트레이닝 중 적어도 하나와 관련된 동작을 시청자들에게 가르치거나 가이드 하기 위한 강습 콘텐트일 수 있다. 또 다른 예로, 동영상 콘텐트는, 수화 등과 같이 사람의 신체의 움직임 또는 제스처로 언어 또는 기호를 표현하기 위한 동작을 나타내는 내용이 포함되는 콘텐트가 될 수 있다.

또한, 동영상 콘텐트에 등장하는 객체는 동작을 표현하는 사람이 될 수 있으며, 동작을 표현하는 텍스트, 가공의 객체, 가공의 아바타, 가공의 인물 등이 될 수도 있을 것이다.

영상 입력부(210)는 디스플레이 장치(200)의 외부에서부터 영상 데이터를 수신할 수 있다. 여기서, 영상 데이터는 동작을 나타내는 내용이 포함되는 동영상 콘텐트에 대응되는 동영상 데이터가 될 수 있다. 즉, 동영상 콘텐트는 동영상 데이터 또는 비디오 데이터의 형태로 입력, 전송 또는 전달될 수 있다.

예를 들어, 영상 입력부(210)는 외부 장치(미도시)와 통신을 수행하여, 소정 채널을 통하여 송출되는 동영상 콘텐트를 적어도 하나 수신할 수 있다. 구체적으로, 영상 입력부(210)는 복수개의 채널에 대응되는 복수개의 컨텐츠 중 적어도 하나를 수신할 수 있다. 여기서, 채널은 방송 채널이 될 수 있다. 또한, 채널은 방송 채널 이외에도, 소정 컨텐츠를 송신하는 컨텐츠 제공자에 대응되는 컨텐트 전송 경로를 의미할 수도 있다. 예를 들어, 채널은 방송 채널 이외에도 VoD(Video on Demand) 서비스 및/또는 스트리밍 컨텐트 제공 서비스 등을 송신받는 전송 경로를 의미할 수 있으며, 방송 채널과 같이 소정 숫자, 소정 문자, 또는 소정 문자 및 소정 숫자의 결합된 형태로 표기될 수 있을 것이다. 예를 들어, 영상 입력부(210)는 홈 트레이닝을 위한 동영상 컨텐트를 제공하는 스포츠 채널로부터 동영상 컨텐트를 수신할 수 있을 것이다.

구체적으로, 영상 입력부(210)는 유무선의 네트워크를 통하여 외부 장치(미도시)들과 통신할 수 있다. 일 실시예에 따른 영상 입력부(210)는 유무선 네트워크를 통한 통신을 수행하기 위하여, 근거리 통신 모듈, 유선 통신 모듈, 이동 통신 모듈, 방송 수신 모듈 등과 같은 적어도 하나의 통신 모듈을 포함한다. 예를 들어, 적어도 하나의 통신 모듈은, 방송 수신을 수행하는 튜너, 블루투스, WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), CDMA, WCDMA 등과 같은 통신 규격을 따르는 네트워크를 통하여 데이터 송수신을 수행할 수 있는 통신 모듈을 뜻한다.

또한, 영상 입력부(210)는 HDMI 포트(High-Definition Multimedia Interface port, 미도시), 컴포넌트 잭(component jack, 미도시), PC 포트(PC port, 미도시), 및 USB 포트(USB port, 미도시) 중 하나를 포함할 수 있다. 또한, 영상 입력부(210)는 HDMI 포트, 컴포넌트 잭, PC 포트, 및 USB 포트의 조합을 포함할 수 있다. 이 경우, 영상 입력부(210)는 디스플레이 장치(200)에 재생될 동영상 데이터를 HDMI 포트, 컴포넌트 잭, PC 포트, 또는 USB 포트 등을 통하여 직접 수신할 수 있다.

그리고, 디스플레이(220)는 이미지를 시각적으로 출력한다. 예를 들어, 디스플레이(220)는 동영상 콘텐트를 사용자가 시각적으로 인식할 수 있도록, 내부적으로 포함되는 디스플레이 패널(미도시)을 통하여, 비디오 데이터에 대응되는 이미지를 디스플레이 할 수 있다. 구체적으로, 동영상 데이터는 복수개의 프레임 이미지들을 포함할 수 있으며, 디스플레이(220)는 프로세서(240)의 제어에 따라서 복수개의 프레임 이미지들을 연속적으로 표시함으로써, 동영상 콘텐트를 재생할 수 있다.

감지부(230)는 적어도 하나의 센서를 포함한다.

구체적으로, 감지부(230)에 포함되는 적어도 하나의 센서는 사용자의 제스처를 식별하기 위해서 이용되는 데이터들을 획득할 수 있다. 구체적으로, 적어도 하나의 센서는 이미지 센서, 모션 센서, 적외선 센서 중 적어도 하나를 포함할 수 있다.

예를 들어, 이미지 센서는 카메라가 될 수 있으며, 제스처를 취하는 사용자에 대한 이미지를 획득할 수 있다. 구체적으로, 감지부(230)는 적어도 하나의 카메라를 포함하여, 사용자의 제스처를 감지하기 위하여 사용자에 대한 이미지를 획득할 수 있다. 예를 들어, 사용자가 동영상 콘텐트를 시청하며 동영상 콘텐트 내에서 표현되는 동작들을 따라할 때, 감지부(230)에 포함되는 적어도 하나의 카메라 각각은 사용자의 동작에 대응되는 사용자의 제스처, 몸짓, 자세, 모습을 나타내는 이미지를 촬영할 수 있다. 그러면, 프로세서(240)는 획득된 이미지를 분석하여 사용자의 제스처를 식별할 수 있다.

구체적으로, 감지부(230)에 포함되는 적어도 하나의 카메라 각각은 2차원 이미지를 획득하는 2차원 카메라 또는 촬영된 대상체에 대한 깊이(depth) 정보를 포함하여 대상체에 대한 이미지를 획득하는 3차원 카메라가 될 수 있다. 그러면, 디스플레이 장치(200)는 감지부(230)에 포함되는 적어도 하나의 센서를 이용하여, 사용자의 제스처(gesture)를 감지할 수 있다. 구체적으로, 프로세서(240)는 감지부(230)에 포함되는 적어도 하나의 카메라에서 획득된 이미지에 근거하여, 사용자의 제스처를 감지할 수 있다.

또한, 도 2에서는 감지부(230)가 디스플레이 장치(200)에 포함되는 경우를 예로 들어 설명 및 도시하였으나, 감지부(230)는 디스플레이 장치(200)와 물리적으로 구별되는 별도의 장치로 형성될 수도 있을 것이다. 이 경우, 감지부(230)는 디스플레이 장치(200)와 전기적으로 연결될 수 있으며, 디스플레이 장치(200)는 통신부(260)를 통하여 감지부(230)의 감지 결과를 수신할 수 있다.

다시 도 1을 참조하면, 감지부(230)는 디스플레이 장치(100 또는 200)의 전면 배치되어, 사용자(150)에 대한 이미지를 캡쳐할 수 잇는 카메라(105)를 포함할 수 있다. 이하에서는, 감지부(230)에 포함되는 적어도 하나의 센서가, 이미지를 획득하는 카메라(예를 들어, 도 1의 105)인 경우를 예로 들어서 설명하도록 한다. 그리고, 카메라에서 획득된 이미지는 사용자의 자세, 제스처, 모션, 포즈, 움직임 및/또는 몸짓을 나타내는 이미지가 될 수 있다. 이하에서는 설명의 편의 상, 자세, 제스처, 모션, 포즈, 움직임 및/또는 몸짓을 모두 통칭하여 '제스처'라고 칭하도록 한다.

프로세서(240)는 적어도 하나의 인스트럭션을 수행하여, 의도하는 동작이 수행되도록 제어한다. 또한, 프로세서(240)는 디스플레이 장치(200)의 동작을 전반적으로 제어할 수 있다. 또한, 프로세서(240)는 소정 동작이 수행되도록 디스플레이 장치(200) 내에 포함되는 다른 구성들을 제어할 수 있다.

구체적으로, 프로세서(240)는 내부 메모리(미도시) 및 저장된 적어도 하나의 프로그램을 실행하는 적어도 하나의 프로세서(미도시)를 포함할 수 있다. 여기서, 프로세서(240)의 내부 메모리(미도시)는 하나 이상의 인스트럭션을 저장할 수 있다. 그리고, 프로세서(240)는 내부 메모리(미도시)에 저장된 하나 이상의 인스트럭션 중 적어도 하나를 실행하여, 소정 동작을 실행할 수 있다.

구체적으로, 프로세서(240)는 디스플레이 장치(200)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 디스플레이 장치(200)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 RAM(미도시), 디스플레이 장치(200)의 제어를 위한 제어 프로그램 및/또는 복수개의 인스트럭션이 저장된 ROM(미도시) 및 적어도 하나의 프로세서(미도시)를 포함할 수 있다.

또한, 프로세서(240)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 미도시)를 포함할 수 있다. 프로세서(240)는 코어(core, 미도시)와 GPU(미도시)를 통합한 SoC(System On Chip)로 구현될 수 있다. 또한, 프로세서(240)는 싱글 코어 이상의 멀티 코어를 포함할 수 있다. 예를 들어, 프로세서(240)는 듀얼 코어, 트리플 코어, 쿼드 코어, 헥사 코어, 옥타 코어, 데카 코어, 도데카 코어, 헥사 다시 벌 코어 등을 포함할 수 있다.

또한, 프로세서(240)는 영상 입력부(210)에서 획득된 동영상 콘텐트에 포함되는 복수개의 이미지들(예를 들어, 프레임 이미지들) 중 적어도 하나를 전달받고, 이를 분석, 처리 및/또는 가공할 수 있다. 또한, 프로세서(240)는 감지부(230)에서 획득된 사용자의 제스처를 나타내는 이미지를 전달받고, 이를 분석, 처리 및/또는 가공 할 수 있다.

개시된 실시예의 상세 동작은 이하에서 6 내지 도 16을 참조하여 상세히 설명한다.

도 3에 도시된 디스플레이 장치(300)는 도 2에 도시된 디스플레이 장치(200)에 동일 대응될 수 있다. 따라서, 디스플레이 장치(300)를 설명하는데 있어서, 도 2에서와 중복되는 설명은 생략한다.

도 3을 참조하면, 디스플레이 장치(300)는 도 2에 도시된 디스플레이 장치(300)에 비하여, 메모리(250), 통신부(260), 및 사용자 인터페이스(270) 중 적어도 하나를 더 포함할 수 있다.

메모리(250)는 적어도 하나의 인스트럭션을 저장할 수 있다. 또한, 메모리(250)는 프로세서(240)가 실행하는 적어도 하나의 인스트럭션을 저장하고 있을 수 있다. 또한, 메모리(250)는 프로세서(240)가 실행하는 적어도 하나의 프로그램을 저장하고 있을 수 있다. 또한, 메모리(250)는 디스플레이 장치(300)의 동작에 이용되는 정보 또는 데이터를 저장할 수 있다. 또한, 메모리(250)는 디스플레이 장치(300)에서 재생 가능한 동영상 컨텐트를 저장할 수 있다.

구체적으로, 메모리(250)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

통신부(260)는 적어도 하나의 유선 또는 무선 통신 네트워크를 통해서 외부 장치(미도시)와 통신을 수행한다. 개시된 실시예에서, 통신부(260)는 외부 장치(미도시)와 통신할 수 있다. 여기서, 외부 장치는 서버가 될 수도 있으며, 통신부(260)는 서버(미도시)와 통신을 수행할 수 있다. 여기서, 서버(미도시)는 동영상 컨텐트를 제공하는 컨텐트 제공 서버, 인터넷 서버 등이 될 수도 있다. 또는, 서버(미도시)는 이미지를 분석 또는 처리하는 서버가 될 수도 있다.

구체적으로, 통신부(260)는 적어도 하나의 통신 모듈, 통신 회로 등을 포함하는 형태로 형성될 수 있으며, 통신 모듈 및/또는 통신 회로를 통하여 외부 장치와 데이터를 송수신할 수 있다.

구체적으로, 통신부(260)는 블루투스, 와이파이, BLE(Bluetooth Low Energy), NFC/RFID, 와이파이 다이렉트(Wifi Direct), UWB, 또는 ZIGBEE 등의 통신 규격에 따른 통신을 수행하는 적어도 하나의 근거리 통신 모듈(미도시)를 포함할 수 있다.

또한, 통신부(260)는 원거리 통신 규격에 따라서 원거리 통신을 지원하기 위한 서버(미도시)와 통신을 수행하는 원거리 통신 모듈(미도시)를 더 포함할 수 있다. 구체적으로, 통신부(260)는 인터넷 통신을 위한 네트워크를 통하여 통신을 수행하는 원거리 통신 모듈(미도시)를 포함할 수 있다. 또한, 통신부(260)는 3G, 4G, 5G, 및/또는 6G 등의 통신 규격에 따르는 통신 네트워크를 포함할 수 있다.

또한, 통신부(260)는 원격 제어 장치(remote controller)(미도시)로부터 제어 명령을 수신할 수 있는 근거리 통신 모듈, 예를 들어, IR(infrared) 통신 모듈 등을 포함할 수 있다. 이 경우, 통신부(260)는 원격 제어 장치(미도시)로부터 제어 명령을 수신할 수 있다. 예를 들어, 원격 제어 장치(미도시)로부터 수신되는 제어 명령은 턴 온 또는 턴 오프 명령 등을 포함할 수 있다.

전술한 바와 같이, 통신부(260)는 도 2에서 설명한 영상 입력부(210)의 기능 중 일부를 수행할 수 있다. 예를 들어, 도 2에서 설명한 영상 입력부(210)의 데이터 획득 기능 중에서, 통신부(260)는 유무선의 통신 네트워크를 통하여 동영상 컨텐트에 대응되는 데이터를 수신함으로써, 동영상 컨텐트를 획득할 수 있다.

사용자 인터페이스(270)는 디스플레이 장치(300)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 인터페이스(270)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 포함하는 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다.

또한, 사용자 인터페이스(270)는 음성 인식을 위한 음성 인식 장치(미도시)를 포함할 수 있다. 예를 들어, 음성 인식 장치는 마이크가 될 수 있으며, 음성 인식 장치는 사용자의 음성 명령 또는 음성 요청을 수신할 수 있다. 그에 따라서, 프로세서(240)는 음성 명령 또는 음성 요청에 대응되는 동작이 수행되도록 제어할 수 있다.

또한, 사용자 인터페이스(270)는 모션 감지 센서(미도시)를 포함할 수도 있다. 예를 들어, 모션 감지 센서(미도시)는 디스플레이 장치(300)의 움직임을 감지하고, 감지된 움직임을 사용자 입력으로 수신할 수 있다. 또한, 전술한 음성 인식 장치(미도시) 및 모션 감지 센서(미도시)는 사용자 인터페이스(270) 내에 포함되는 형태가 아니라, 사용자 인터페이스(270)와는 독립적인 모듈인 도 1에서 설명한 감지부(230)로 디스플레이 장치(300) 내에 포함될 수 있을 것이다.

도 4는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 일 흐름도이다. 구체적으로, 도 4에 도시된 디스플레이 장치의 동작 방법(400)은 도 1 내지 도 3을 참조하여 설명한 개시된 실시예에 따른 디스플레이 장치(100, 200 또는 300)의 동작 방법이 될 수 있다. 즉, 도 4는 개시된 실시예에 따른 디스플레이 장치(100, 200 또는 300)의 동작들을 나타내는 흐름도가 될 수 있다. 따라서, 디스플레이 장치의 동작 방법(400)에 포함되는 동작들을 설명함에 있어서, 도 1 내지 도 3을 참조하여 설명한 디스플레이 장치(100, 200 또는 300)의 수행 동작들과 중복되는 설명은 생략한다.

이하에서는, 디스플레이 장치의 동작 방법(400)이 도 2에서 디스플레이 장치(200)를 통하여 수행되는 경우를 예로 들어 설명하도록 하겠다.

도 4를 참조하면, 디스플레이 장치의 동작 방법(400)은 디스플레이(220)를 통하여 동영상 콘텐트를 재생한다(S410). S410 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다. 구체적으로, 영상 입력부(210)에서 획득된 동영상 콘텐트는, 프로세서(240)의 제어에 따라서 디스플레이(220)에서 재생될 수 있다.

그리고, 디스플레이 장치의 동작 방법(400)은 동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지한다(S420). S410 단계는 프로세서(240)에서 수행될 수 있다. 구체적으로, 프로세서(240)는 감지부(230)에 포함되는 적어도 하나의 센서의 감지 결과를 수신하고, 수신된 감지 결과에 근거하여 사용자의 제스처를 식별할 수 있다.

계속하여, 디스플레이 장치의 동작 방법(400)은 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이(220)에서 표시되도록 상기 동영상 콘텐트의 재생을 제어한다(S430). 구체적으로, 디스플레이 장치의 동작 방법(400)은 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 S420 단계에서 감지된 제스처에 대응되는 적어도 하나의 프레임을 디스플레이(220)를 통하여 출력할 수 있다(S430). S430 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다.

도 5는 개시된 실시예에 따른 디스플레이 장치를 나타내는 다른 블록도이다. 도 5에 도시된 디스플레이 장치(500)는 도 1 내지 도 3에 도시된 전자 장치(300 또는 400)에 동일 대응될 수 있다. 따라서, 디스플레이 장치(500)를 설명하는데 있어서, 도 3 및 도 4에서와 중복되는 설명은 생략한다.

개시된 실시예에 따른 전자 장치는 디스플레이 장치가 될 수 있으며, 도 5는 개시된 실시예에 따른 전자 장치인 디스플레이 장치(500)를 상세하게 나타내는 블록도이다.

도 5를 참조하면, 디스플레이 장치(500)는 비디오 처리부(510), 디스플레이(515), 오디오 처리부(520), 오디오 출력부(525), 전원부(530), 튜너부(540), 통신부(550), 감지부(미도시), 입/출력부(570), 프로세서(580), 메모리(590)를 포함한다.

여기서, 프로세서(580)는 도 2 내지 도 3에 도시된 프로세서(240)에 대응될 수 있다. 디스플레이 장치(500)의 통신부(550), 디스플레이(515), 감지부(560) 및 메모리(590)는 각각 도 3에 도시된 통신부(260), 디스플레이(220), 감지부(230) 및 메모리(250)에 대응될 수 있다. 또한, 통신부(550) 및 입/출력부(570)의 구성은 도 2 내지 도 3에 도시된 영상 입력부(210)에 대응될 수 있다. 그러므로, 디스플레이 장치(500)를 설명하는데 있어서, 도 2 및 도 3에서와 중복되는 설명은 생략한다. 비디오 처리부(510)는, 디스플레이 장치(500)가 수신한 비디오 데이터에 대한 처리를 수행한다. 비디오 처리부(510)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.

디스플레이(515)는 프로세서(580)의 제어에 의해 튜너부(540)를 통해 수신된 방송 신호에 포함된 비디오를 화면에 표시한다. 또한, 디스플레이(515)는 통신부(550) 또는 입/출력부(570)를 통해 입력되는 컨텐츠(예를 들어, 동영상)를 표시할 수 있다.

또한, 디스플레이(515)는 프로세서(580)의 제어에 의해 메모리(590)에 저장된 영상을 출력할 수 있다. 또한, 디스플레이(515)는 음성 인식에 대응되는 음성 인식 태스크를 수행하기 위한 음성 UI(User Interface: 예를 들어, 음성 명령어 가이드를 포함하는) 또는 모션 인식에 대응되는 모션 인식 태스크를 수행하기 위한 모션 UI(예를 들어, 모션 인식을 위한 사용자 모션 가이드를 포함)를 표시할 수 있다.

개시된 실시예에서, 디스플레이(515)는 동작을 나타내는 내용이 포함되는 동영상 콘텐트를 재생할 수 있다.

오디오 처리부(520)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(520)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리부(520)는 복수의 컨텐츠에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 모듈을 구비할 수 있다.

오디오 출력부(525)는 프로세서(580)의 제어에 의해 튜너부(540)를 통해 수신된 방송 신호에 포함된 오디오를 출력한다. 오디오 출력부(525)는 통신부(550) 또는 입/출력부(570)를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부(525)는 프로세서(580)의 제어에 의해 메모리(590)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(525)는 스피커(526), 헤드폰 출력 단자(527) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(528) 중 적어도 하나를 포함할 수 있다. 오디오 출력부(525)는 스피커(526), 헤드폰 출력 단자(527) 및 S/PDIF 출력 단자(528)의 조합을 포함할 수 있다.

전원부(530)는 프로세서(580)의 제어에 의해 디스플레이 장치(500) 내부의 구성 요소들(510 내지 590)로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원부(530)는 프로세서(580)의 제어에 의해 디스플레이 장치(500) 내부에 위치하는 하나 또는 둘 이상의 배터리(미도시)에서부터 출력되는 전원을 내부의 구성 요소들(510 내지 590)에게 공급할 수 있다.

튜너부(540)은 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 디스플레이 장치(500)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.

튜너부(540)는 사용자 입력(예를 들어, 외부의 제어 장치(미도시), 예를 들어, 원격 제어기(remote controller)로부터 수신되는 제어 신호, 예컨대, 채널 번호 입력, 채널의 업다운(up-down) 입력 및 EPG 화면에서 채널 입력)에 따라 채널 번호(예를 들어, 케이블 방송 506번)에 대응되는 주파수 대역에서 방송 신호를 수신할 수 있다.

튜너부(540)은 지상파 방송, 케이블 방송, 위성 방송, 인터넷 방송 등과 같이 다양한 소스로부터 방송 신호를 수신할 수 있다. 튜너부(540)는 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수 도 있다. 튜너부(540)를 통해 수신된 방송 신호는 디코딩(decoding, 예를 들어, 오디오 디코딩, 비디오 디코딩 또는 부가 정보 디코딩)되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(580)의 제어에 의해 메모리(590)에 저장될 수 있다.

디스플레이 장치(500)의 튜너부(540)는 하나이거나 복수일 수 있다. 일 실시예에 따라서 튜너부(540)가 복수개로 이루어지는 경우, 디스플레이(515)에 제공되는 멀티 윈도우 화면을 이루는 복수개의 윈도우에 복수개의 방송 신호를 출력할 수 있을 것이다.

튜너부(540)는 디스플레이 장치(500)와 일체형(all-in-one)으로 구현되거나 또는 디스플레이 장치(500)와 전기적으로 연결되는 튜너부를 가지는 별개의 장치(예를 들어, 셋탑박스(set-top box, 미도시), 입/출력부(570)에 연결되는 튜너부(미도시))로 구현될 수 있다.

통신부(550)는 프로세서(580)의 제어에 의해 디스플레이 장치(500)를 외부 기기(예를 들어, 오디오 장치 등)와 연결할 수 있다. 프로세서(580)는 통신부(550)를 통해 연결된 외부 기기로 컨텐츠를 송/수신, 외부 기기에서부터 어플리케이션(application)을 다운로드 하거나 또는 웹 브라우징을 할 수 있다. 구체적으로, 통신부(550)는 네트워크에 접속하여 외부 기기(미도시)에서 컨텐츠를 수신할 수 있다.

전술한 바와 같이 통신부(550)는 근거리 통신 모듈(미도시), 유선 통신 모듈(미도시), 및 이동 통신 모듈(미도시) 중 적어도 하나를 포함할 수 있다.

도 5에서는 통신부(550)가 무선 랜(551), 블루투스 통신부(552), 및 유선 이더넷(Ethernet, 553) 중 하나를 포함하는 경우를 예로 들어 도시하였다.

또한, 통신부(550)은 무선랜(551), 블루투스 통신부(552), 및 유선 이더넷(Ethernet, 553) 중 어느 하나 이상을 포함하는 모듈 조합을 포함할 수 있다. 또한, 통신부(550)는 프로세서(580)의 제어에 의해 제어 장치(미도시)의 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다.

통신부(550)는 블루투스 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 미도시), 별도의 BLE 모듈(bluetooth low energy, 미도시)을 더 포함할 수 있다.

감지부(560)는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지한다.

개시된 실시예에서, 감지부(560)는 사용자의 제스처를 식별하기 위한 데이터를 획득할 수 있다. 구체적으로, 감지부(560)는 카메라부(562)를 포함하여, 카메라부(562)를 이용하여 사용자의 제스처를 식별하기 위한 데이터(예를 들어, 사용자의 제스처를 나타내는 이미지)를 획득할 수 있다.

감지부(560)는 카메라부(562)를 포함할 수 있다. 그리고, 감지부(560)는 마이크(561) 및 광 수신부(563) 중 적어도 하나를 더 포함할 수 있다.

마이크(561)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(561)는 수신된 음성을 전기 신호로 변환하여 프로세서(580)로 출력할 수 있다. 사용자 음성은 예를 들어, 디스플레이 장치(500)의 메뉴 또는 기능에 대응되는 음성을 포함할 수 있다. 예를 들어, 마이크(561)의 인식 범위는 마이크(561)에서부터 사용자 위치까지 4 m 이내를 권장하며, 마이크(561)의 인식 범위는 사용자 목소리의 크기와 주변 환경(예를 들어, 스피커 소리, 주변 소음)에 대응하여 달라질 수 있다.

마이크(561)는 디스플레이 장치(500)와 일체형 또는 분리형으로 구현될 수 있다. 분리된 마이크(561)는 통신부(550) 또는 입/출력부(570)를 통해 디스플레이 장치(500)와 전기적으로 연결될 수 있다.

디스플레이 장치(500)의 성능 및 구조에 따라 마이크(561)가 제외될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.

카메라부(562)는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신한다. 예를 들어, 카메라부(562)의 인식 범위는 카메라부(562)에서부터 사용자까지 0.1 ~ 5 m 이내 거리가 될 수 있다. 사용자 모션은 예를 들어, 사용자의 얼굴, 표정, 손, 주먹, 손가락과 같은 사용자의 신체 일부분 또는 사용자 일부분의 모션 등을 포함할 수 있다. 카메라부(562)는 프로세서(580)의 제어에 따라 수신된 영상을 전기 신호로 변환하여 프로세서(580)로 출력할 수 있다.

프로세서(580)는 수신된 모션의 인식 결과를 이용하여 디스플레이 장치(500)에 표시되는 메뉴를 선택하거나 모션 인식 결과에 대응되는 제어를 할 수 있다. 예를 들어, 채널 조정, 볼륨 조정, 지시자 이동을 포함할 수 있다.

카메라부(562)는 렌즈(미도시) 및 이미지 센서(미도시)로 구성될 수 있다. 카메라부(562)는 복수의 렌즈와 이미지 프로세싱을 이용하여 광학 줌(optical zoom) 또는 디지털 줌(digital zoom)을 지원할 수 있다. 카메라부(562)의 인식 범위는 카메라의 각도 및 주변 환경 조건에 따라 다양하게 설정될 수 있다. 카메라부(562)가 복수개의 카메라로 구성되는 경우, 복수의 카메라를 이용하여 3차원 정지 이미지 또는 3차원 모션을 수신할 수 있다.

카메라부(562)는 디스플레이 장치(500)와 일체형 또는 분리형으로 구현될 수 있다. 분리된 카메라부(562)를 포함하는 별도의 장치(미도시)는 통신부(550) 또는 입/출력부(570)를 통해 디스플레이 장치(500)와 전기적으로 연결될 수 있다.

디스플레이 장치(500)의 성능 및 구조에 따라 카메라부(562)가 제외될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.

광 수신부(563)는 외부의 제어 장치(미도시)에서부터 수신되는 광 신호(제어 신호를 포함)를 디스플레이(515)의 베젤의 광창(미도시) 등을 통해 수신한다. 광 수신부(563)는 제어 장치(미도시)로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 프로세서(580)의 제어에 의해 제어 신호가 추출될 수 있다.

예를 들어, 광 수신부(563)는 제어 장치(미도시)의 포인팅 위치에 대응하는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 예를 들어, 디스플레이(515)를 통하여 사용자로부터 데이터 또는 명령을 입력받기 위한 사용자 인터페이스 화면이 표시되었으며, 제어 장치(미도시)를 통하여 사용자가 데이터 또는 명령을 디스플레이 장치(500)로 입력하고자 하는 경우, 광 수신부(563)는 사용자가 제어 장치(미도시)에 마련된 터치 패드(미도시)에 손가락을 접촉한 상태에서 제어 장치(미도시)를 움직이면 이 제어 장치(미도시)의 움직임에 대응하는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 또한, 광 수신부(563)는 제어 장치(미도시)에 마련된 특정한 버튼이 눌려졌음을 나타내는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 예를 들어 광수신부(563)는 사용자가 제어 장치(미도시)에 버튼식으로 마련된 터치 패드(미도시)를 손가락으로 누르면, 이러한 버튼식 터치 패드(미도시)이 눌려졌다는 신호를 수신하고 이를 프로세서(580)로 전송할 수 있다. 예를 들어, 버튼식 터치 패드(미도시)가 눌려졌다는 신호는 아이템들 중의 하나를 선택하기 위한 신호로 이용할 수 있다.

입/출력부(570)는 프로세서(580)의 제어에 의해 디스플레이 장치(500)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입/출력부(570)는 HDMI 포트(High-Definition Multimedia Interface port, 571), 컴포넌트 잭(component jack, 572), PC 포트(PC port, 573), 및 USB 포트(USB port, 574) 중 하나를 포함할 수 있다. 입/출력부(570)는 HDMI 포트(571), 컴포넌트 잭(572), PC 포트(573), 및 USB 포트(574)의 조합을 포함할 수 있다.

입/출력부(570)의 구성 및 동작은 본 발명의 실시예에 따라 다양하게 구현될 수 있다는 것은 당해 기술 분야의 통상의 지식을 가진 자에게 용이하게 이해될 것이다.

프로세서(580)는 디스플레이 장치(500)의 전반적인 동작 및 디스플레이 장치(500)의 내부 구성요소들(미도시)사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 프로세서(580)는 사용자의 입력이 있거나 기 설정되어 저장된 조건을 만족하는 경우, 프로세서(580)는 메모리(590)에 저장된 OS(Operation System) 및 다양한 애플리케이션을 실행할 수 있다.

프로세서(580)는 디스플레이 장치(500)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 디스플레이 장치(500)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 RAM(미도시), 디스플레이 장치(500)의 제어를 위한 제어 프로그램이 저장된 ROM(미도시) 및 프로세서(Processor)(미도시)를 포함할 수 있다.

프로세서(미도시)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 미도시)를 포함할 수 있다. 프로세서(미도시)는 코어(core, 미도시)와 GPU(미도시)를 통합한 SoC(System On Chip)로 구현될 수 있다. 프로세서(미도시)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.

또한, 프로세서(미도시)는 복수의 프로세서를 포함할 수 있다. 예를 들어, 프로세서(미도시)는 메인 프로세서(main processor, 미도시) 및 슬립 모드(sleep mode)에서 동작하는 서브 프로세서(sub processor, 미도시)로 구현될 수 있다.

그래픽 처리부(미도시)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 감지부(미도시)를 통해 감지된 사용자 인터랙션을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이(515)의 디스플레이 영역 내에 표시된다.

이하에서는, 도 6 내지 도 10을 참조하여, 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)에서 재생되는 동영상 콘텐트에 대하여 상세히 설명한다. 또한, 도 6 내지 도 10에서는, 동영상 콘텐트가 도 2에서 설명한 디스플레이 장치(200)에서 재생되는 경우를 예로 들어서 설명한다.

개시된 실시예에서, 동영상 콘텐트는 복수개의 이미지들에 각각 대응되는 복수개의 프레임(620)을 포함할 수 있다. 또한, 동영상 콘텐트는 동작을 표현하는 내용이 포함되는 콘텐트가 될 수 있다.

도 6을 포함하여 이하에서 설명할 도면들에서는, 개시된 실시예에서 재생되는 동영상 콘텐트가 적어도 하나의 근력 운동 동작들을 포함하는 홈 트레이닝 강습 콘텐트인 경우를 예로 들어서 도시하였다.

도 6을 참조하면, 동영상 콘텐트를 나타내는 타임 테이블(610)을 참조하면, 동영상 시작 시점인 t=0 에서 t=30 초(second) 동안에는 강습 안내 내용이 포함되며, t=30 에서 t=75 초 동안에는 스쿼트 동작에 대한 강습 내용이 포함되며, t=75 에서 t=130 초 동안에는 런지 동작에 대한 강습 내용이 포함되고, t=130 에서 t=200 초 동안에는 스쿼트 동작에 대한 강습 내용이 포함될 수 있다.

또한, 동영상 콘텐트에 포함되는 복수개의 프레임(620)들은 소정의 프레임 레이트로 형성될 수 있다. 예를 들어, 동영상 콘텐트의 재생 시간 1초 동안에는, 30, 60, 또는 120 프레임이 포함될 수 있다.

또한, 동영상 콘텐트에서 표현되는 동작 별로 적어도 하나의 프레임들이 포함될 수 있다. 예를 들어, t=0 에서 t=30 초 동안에는 강습 안내 내용에 대응되는 복수개의 프레임들(630)이 포함되며, t=30 에서 t=75 초 동안에는 스쿼트 동작에 대한 강습 내용에 대응되는 복수개의 프레임들(640)이 포함될 수 있다. 그리고, t=75 에서 t=130 초 동안에는 런지 동작에 대한 강습 내용에 대응되는 복수개의 프레임들(650)이 포함되고, t=130 에서 t=200 초 동안에는 스쿼트 동작에 대한 강습 내용에 대응되는 복수개의 프레임들(660)이 포함될 수 있다.

도 7은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 일 도면이다. 구체적으로, 도 7은, 도 6에서 설명한 동영상 콘텐트에 포함되는 스쿼트 강습 내용을 설명하기 위한 도면이다. 따라서, 도 7에 도시된 동작을 설명하는데 있어서 도 6을 함께 참조하도록 한다.

도 7을 참조하면, 스쿼트 강습 내용에 대응되는 복수개의 프레임들(640)은 스쿼트 동작을 표현하기 위한 이미지 프레임들이 될 수 있다. 구체적으로, 복수개의 프레임들(640)은 스쿼트 동작에 따른 제스처(또는 몸짓)의 변화를 타나내는 복수개의 이미지 프레임들을 포함할 수 있다.

구체적으로, 스쿼트 동작은, 제1 제스처(710), 제2 제스처(720), 제3 제스처(730) 및 제4 제스처(740)에 대한 자세를 연속적으로 잡아서 수행될 수 있다. 여기서, 제1 제스처(710), 제2 제스처(720), 제3 제스처(730) 및 제4 제스처(740) 각각에 대응되는 프레임은 적어도 하나의 프레임이 될 수 있다.

디스플레이 장치(예를 들어, 200)가 스쿼트 강습 내용에 대응되는 복수개의 프레임들(640)을 재생하면, 사용자는 재생되는 프레임들(640)을 시청하고 스쿼트 동작을 실시간으로 따라할 수 있다.

도 8은 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다. 구체적으로, 도 8은, 도 6에서 설명한 동영상 콘텐트에 포함되는 런지 강습 내용을 설명하기 위한 도면이다. 따라서, 도 8에 도시된 동작을 설명하는데 있어서 도 6을 함께 참조하도록 한다.

구체적으로, 복수개의 프레임들(650)은 런지 동작에 따른 제스처(또는 몸짓)의 변화를 나타내는 복수개의 이미지 프레임들을 포함할 수 있다.

구체적으로, 런지 동작은, 제1 제스처(810), 및 제2 제스처(820)에 대한 자세를 연속적으로 잡아서 수행될 수 있다. 여기서, 제1 제스처(810), 및 제2 제스처(820) 각각에 대응되는 프레임은 적어도 하나의 프레임이 될 수 있다.

디스플레이 장치(예를 들어, 200)가 런지 강습 내용에 대응되는 복수개의 프레임들(650)을 재생하면, 사용자는 재생되는 프레임들(650)을 시청하고 런지 동작을 실시간으로 따라할 수 있다.

도 9는 동영상 콘텐트의 재생에 따라서 화면 상으로 출력되는 이미지들을 설명하기 위한 다른 도면이다. 구체적으로, 도 9은, 도 6에서 설명한 동영상 콘텐트에 포함되는 데드리프트 강습 내용을 설명하기 위한 도면이다. 따라서, 도 8에 도시된 동작을 설명하는데 있어서 도 6을 함께 참조하도록 한다.

구체적으로, 복수개의 프레임들(650)은 데드리프트 동작에 따른 제스처(또는 몸짓)의 변화를 나타내는 복수개의 이미지 프레임들을 포함할 수 있다.

구체적으로, 데드리프트 동작은, 제1 제스처(910), 제2 제스처(920), 및 제2 제스처(930)에 대한 자세를 연속적으로 잡아서 수행될 수 있다. 여기서, 제1 제스처(910), 제2 제스처(920), 및 제2 제스처(930) 각각에 대응되는 프레임은 적어도 하나의 프레임이 될 수 있다.

디스플레이 장치(예를 들어, 200)가 데드리프트 강습 내용에 대응되는 복수개의 프레임들(660)을 재생하면, 사용자는 재생되는 프레임들(660)을 시청하고 데드리프트 동작을 실시간으로 따라할 수 있다.

도 10을 참조하면, 도 6 내지 도 9를 참조하여 설명한 동영상 콘텐트에 대응되는 타임 테이블(1000)이 도시된다.

개시된 실시예에서, 프로세서(240)는 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별할 수 있다. 전술한 예에서, 프로세서(240)는 영상 입력부(210)에서 획득된 동영상 콘텐트를 전달받고, 동영상 콘텐트에서 복수개의 동작들을 구별 또는 식별할 수 있다. 그리고, 구별된 복수개의 동작들에 대한 정보를 획득할 수 있다.

예를 들어, 동영상 콘텐트가 비실시간으로 전송 또는 저장된 콘텐트인 경우, 동영상 콘텐트는 디스플레이 장치(예를 들어, 300)에 포함되는 메모리(250)에 저장하고, 프로세서(240)는 전송 또는 저장 완료된 동영상 콘텐트를 독출하여 분석할 수 있다.

또한, 동영상 콘텐트가 실시간으로 전송되는 콘텐트인 경우, 프로세서(240)는 실시간으로 전송되는 동영상 콘텐트에 대응되는 스트림(stream)을 실시간으로 분석하여, 해당 동영상 콘텐트의 재생에 앞서서 포함되는 동작들 각각에 대한 재생 시간 정보를 획득할 수 있을 것이다.

예를 들어, 동영상 콘텐트가 라이브 영상 또는 라이브 컨텐트인 경우, 프로세서(240)는 수신되는 스트림을 실시간으로 저장할 수 있다. 구체적으로, 프로세서(240)는 프로세서(240)의 내부에 메모리에 스트림을 저장하거나, 디스플레이 장치(예를 들어, 300) 에 포함되는 메모리(250)에 저장할 수 있다. 그리고, 프로세서(240)는 저장된 스트림을 분석하여, 동영상 콘텐트에 포함되는 동작들이 어떠한 동작에 대한 것인지 분석하여, 복수개의 동작들을 식별할 수 있다. 그리고, 식별된 동작들 각각에 대한 재생 시간 정보를 획득할 수 있다.

또한, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 동작을 구별 또는 식별하기 위해서, 운동, 홈 트레이닝, 댄스 별로 대표적인 동작 또는 대표 자세에 대한 정보를 사전에 저장하고 있을 수 있다. 그리고, 저장된 대표 동작 또는 대표 자세를 이용하여, 동영상 콘텐트에 포함되는 포함되는 복수개의 동작들을 식별할 수 있다.

또는, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 동작을 구별 또는 식별하기 위해서, 기계 학습 또는 AI 에 근거한 신경망을 이용할 수 있을 것이다. 신경망을 통한 동작 구별은 이하에서 도 13 및 도 15를 참조하여 상세히 설명한다.

구체적으로, 프로세서(240)는 동영상 콘텐트를 분석하여, 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득할 수 있다. 그리고, 프로세서(240)는 획득된 재생 시간에 대한 정보에 근거하여, 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록 제어할 수 있다.

여기서, 재생 시간에 대한 정보는 동작 별 재생 시작 시점, 동작 별 재생 종료 시점, 동작 별 재생 시간, 및 동작 별 재생 구간 정보 중 적어도 하나가 포함될 수 있다. 이하에서는, 설명의 편의 상 '재생 시간에 대한 정보'를 '재생 시간 정보'라 칭하도록 한다.

구체적으로, 프로세서(240)는 동영상 콘텐트를 분석하여, 도 10에 도시된 바와 같은 타임 테이블(1000)을 획득할 수 있다. 예를 들어, 프로세서(240)는 영상 분석을 통하여 동영상 콘텐트에 포함되는 복수개의 동작들을 식별하고, 복수개의 동작들에 대응되는 프레임들의 재생 시간 정보를 획득할 수 있다.

또는, 동영상 콘텐트에 포함되는 부가 데이터 또는 메타 데이터에, 포함되는 동작들에 대한 재생 시간 정보가 포함될 수 있다. 예를 들어, 동영상 콘텐트에는, 스쿼트 동작이 시작되는 재생 시점, 런지 동작이 시작되는 재생 시점들 각각에 대한 정보가 포함될 수 있다. 이 경우, 프로세서(240)는 동영상 콘텐트에 포함되는 부가 데이터 또는 메타 데이터를 추출하고, 추출된 부가 데이터 또는 메타 데이터에 근거하여, 복수개의 동작들에 대응되는 프레임들의 재생 시간 정보를 획득할 수 있다.

도 11은 개시된 실시예에서 이용되는 동영상 콘텐트의 태그를 설명하기 위한 도면이다. 도 11에 있어서, 도 6에서와 동일한 구성은 동일한 도면 기호를 이용하여 도시 하였으므로, 중복되는 설명은 생략한다.

개시된 실시예에서, 프로세서(240)는 동영상 콘텐트를 분석하여, 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별할 수 있다. 그리고, 프로세서(2200는 식별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그(tag)를 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트가 생성할 수 있다. 태그된 동영상 콘텐트는 디스플레이 장치(200) 내에 저장될 수 있다.

여기서, 태그는, 동영상 콘텐트에 포함되는 복수개의 동작들을 식별하기 위해 동영상 콘텐트 내에 삽입 또는 추가되는 정보로, 플래그(flag) 등과 같은 다른 명칭으로 호칭 될 수 있을 것이다.

도 11을 참조하면, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들(620) 내에서 서로 다른 더 동작들의 경계에 태그를 삽입할 수 있다. 구체적으로, 태그는 안내 내용에 대응되는 프레임들(630)과 스쿼트 동작에 대응되는 프레임들(640)의 사이에 삽입될 수 있다(S1110). 또한, 태그는 식별된 동작을 나타내는 정보를 포함할 수 있다. 예를 들어, S1110 에서 삽입되는 태그는 '스쿼트' 동작을 나타내는 정보를 포함될 수 있다.

또한, 태그는 스쿼트 동작에 대응되는 프레임들(640)과 런지 동작에 대응되는 프레임들(650)의 사이에 삽입될 수 있다(S1120). 또한, 태그는 식별된 동작을 나타내는 정보를 포함할 수 있다. 예를 들어, S1120 에서 삽입되는 태그는 '런지' 동작을 나타내는 정보를 포함될 수 있다.

또한, 태그는 런지 동작에 대응되는 프레임들(650)과 데드리프트 동작에 대응되는 프레임들(660)의 사이에 삽입될 수 있다(S1130). 또한, 태그는 식별된 동작을 나타내는 정보를 포함할 수 있다. 예를 들어, S1130 에서 삽입되는 태그는 '런지' 동작을 나타내는 정보를 포함될 수 있다.

또 다른 예로, 태그는 식별된 동작 별로, 동작에 대응되는 적어도 하나의 프레임의 첫 번째 프레임 및 마지막 프레임 중 적어도 하나에 추가 또는 삽입될 수도 있다. 예를 들어, 스쿼트 동작에 대응되는 복수개의 프레임들(640)의 첫 번째 프레임(641) 및 마지막 프레임(642) 중 적어도 하나에 스쿼트 동작을 나타내는 태그를 삽입할 수 있다. 또한, 런지 동작에 대응되는 복수개의 프레임들(650)의 첫 번째 프레임(651) 및 마지막 프레임(652) 중 적어도 하나에 런지 동작을 나타내는 태그를 삽입할 수 있다. 또한, 데드리프트 동작에 대응되는 복수개의 프레임들(660)의 첫 번째 프레임(661) 및 마지막 프레임(662) 중 적어도 하나에 데드리프트 동작을 나타내는 태그를 추가할 수 있다.

또한, 프로세서(240)는 생성된 적어도 하나의 태그들을 포함하는 테이블(또는 리스트)를 포함하는 태그 정보를 저장할 수 있다. 태그 정보는 프로세서(240) 내부의 메모리 또는 디스플레이 장치(예를 들어, 200 또는 300)에 포함되는 별도의 메모리(예를 들어, 도 3의 250)에 저장될 수 있다.

또는, 동영상 콘텐트의 제작자는 동영상 콘텐트를 제작할 때, 복수개의 동작들을 식별하는 태그를 추가하여 동영상 콘텐트를 생성할 수 있다. 예를 들어, 동영상 콘텐트의 재생 시간을 나타내는 타임 바(time bar) 또는 프로그레스 바(progress bar)에서, 콘텐트에 포함되는 내용을 나타내는 목차가 보이거나, 콘텐트에 포함되는 내용을 나타내는 썸네일 이미지가 보이는 경우, 태그가 자체적으로 포함되어 있다고 할 수 있다. 이러한 경우, 프로세서(240)는 동영상 콘텐트에 포함되는 태그를 검색하고, 검색된 태그에 근거하여 복수개의 동작들을 식별할 수 있을 것이다.

이하에서는, 도 12 내지 도 13을 참조하여, S420 단계의 사용자 제스처 감지 동작을 상세히 설명한다. 또한, 도 12 및 도 13에서는, 감지부(230)의 감지 결과가 사용자의 자세를 나타내는 적어도 하나의 이미지인 경우를 예로 들어서 도시 및 설명하도록 한다.

도 12를 참조하면, 프로세서(240)는 감지부(230)의 감지 결과에 근거하여 사용자(1201)의 제스처를 식별할 수 있다. 여기서, 감지부(230)의 감지 결과는 연속적으로 캡쳐된 적어도 하나의 프레임이 될 수 있다.

구체적으로, 감지부(230)에서 획득된 프레임(예를 들어, 1210)은 사용자(1201)가 데드리프트 동작을 따라하면서 촬영된 이미지가 될 수 있다. 구체적으로, 감지부(230)는 사용자(1201)이 데드리프트 동작을 수행할 때, 연속적으로 복수개의 프레임들을 획득하고, 획득된 복수개의 프레임들을 프로세서(240)로 전송할 수 있다.

프로세서(240)는 감지부(230)에서 획득된 복수개의 프레임들을 분석하여, 사용자의 제스처를 식별할 수 있다. 사용자의 제스처 식별은 다양한 모션 인식 기술을 이용하여 수행될 수 있다.

예를 들어, 프로세서(240)는 획득된 프레임(1210)을 분석하여, 사용자(1201)의 제스처를 식별하기 위한 적어도 하나의 특징점들(1231, 1232, 1233)을 나타내는 정보(1230)를 생성하고, 특징점들(1231, 1232, 1233)을 기준으로 신체 부위의 이동을 식별하는 방식으로, 제스처를 식별할 수 있다.

전술한 예에서, 특징점들(1231, 1232, 1233)은 사용자(1201)의 움직임 또는 제스처를 구별하기 위한 기준점으로, 신체 부위 별로 다양한 방식으로 다양한 빈도로 설정될 수 있다. 예를 들어, 손바닥의 움직임과 같은 경우, 손바닥에 포함되는 관절들 각각이 특징점으로 설정될 수 있을 것이다. 또 다른 예로, 골반을 포함하는 하체의 경우, 골반에서 분기되는 다리뼈의 관절 부위에 대응되는 특징점(1233)을 설정할 수 있을 것이다. 그러면, 프로세서(240)는 연속적으로 획득되는 복수개의 프레임들 각각에서의 특징점들에 근거한 신체 부위의 이동을 분석하여, 사용자가 어떠한 자세를 따라하고 있는지, 사용자의 제스처가 어떠한 동작에 대응되는 것인지 식별할 수 있다.

도 13은 개시된 실시예에서의 제스처 감지 동작을 설명하기 위한 다른 도면이다. 도 13에서는, 도 3에 도시된 디스플레이 장치(300)를 참조하여, 제스처 감지 동작을 설명하도록 한다.

개시된 실시예에서, S420 단계의 제스처 감지를 모션 인식(motion detection)을 위한 기계 학습 기술이 이용될 수 있다.

구체적으로, 제스처 감지를 위해서, 딥 러닝(deep learning) 에 따른 모션 인식 기법이 이용될 수 있다. 구체적으로, 신경망(neural network)을 통한 연산을 수행하는 인공지능(AI: Artificial Intelligence) 기술을 이용하여, 객체 인식, 객체 추적 및 객체 구별 등을 수행하여 제스처를 인식하기 위한 방법이 개발 및 이용되고 있다. 이하에서는 설명의 편의 상, 이미지를 분석하여 객체 인식, 객체 추적 및 객체 구별 등을 수행하여 제스처를 감지하기 위한 동작들을 '제스처 감지 동작' 이라 통칭하도록 한다.

AI 기술은 알고리즘을 활용하여 구현될 수 있다. 여기서, AI 기술을 구현하기 위한 알고리즘 또는 알고리즘의 집합을 신경망(Neural Network)이라 한다. 여기서, 신경망은 입력 데이터를 입력받고, 전술한 분석 및 분류를 위한 연산을 수행하여, 결과 데이터를 출력할 수 있다. 이렇게, 신경망이 입력 데이터에 대응되는 결과 데이터를 정확하게 출력하기 위해서는, 신경망을 트레이닝 시킬 필요가 있다. 여기서, '트레이닝(training)'은 신경망으로 다양한 데이터들을 입력시키고, 입력된 데이터들을 분석하는 방법, 입력된 데이터들을 분류하는 방법, 및/또는 입력된 데이터들에서 결과 데이터 생성에 필요한 특징을 추출하는 방법 등을 신경망이 스스로 발견 또는 터득할 수 있도록 신경망을 훈련시키는 것을 의미할 수 있다. 여기서, '트레이닝(training)'은 국문으로 '학습' 또는 '훈련'으로 표현될 수 있다.

또한, 전술한 신경망을 통하여 입력 데이터에 대응되는 출력 데이터를 출력하도록 하는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어를 'AI 모델'(또는, '인공지능 모델')이라 칭할 수 있을 것이다.

AI 모델은 매우 다양한 형태로 존재할 수 있다. 구체적으로, 이미지를 입력받고, 입력된 이미지를 분석하여 이미지에 포함되는 객체의 제스처를 적어도 하나의 부류로 분류하는 동작을 수행하는 다양한 AI 모델들이 존재할 수 있다.

AI 모델은 적어도 하나의 신경망을 포함할 수 있으며, 도 13에서는 설명의 편의 상, 제스처 감지 동작을 수행하기 위한 AI 모델이 하나의 신경망(1320)의 형성되는 경우를 예로 들어서 도시하였다.

신경망은 복수의 레이어(layer)를 포함하여 다단의 연산을 수행하는 심층 신경망(DNN: Deep Neural Network)이 될 수 있다. 또한, 심층 신경망(DNN) 연산은 컨볼루션 신경망(CNN: Convolution Neural Network) 연산 등을 포함할 수 있다. 구체적으로, 예시된 신경망을 통하여 객체 인식을 위한 데이터 인식 모델을 구현하고, 구현된 인식 모델을 학습 데이터를 이용하여 학습(training)시킬 수 있다. 그리고, 학습된 데이터 인식 모델을 이용하여 입력되는 데이터, 예를 들어, 카메라에서 촬영된 이미지들을 분석 또는 분류하여, 입력된 이미지들 각각에서 객체를 인식하고 인식된 객체에 대응되는 제스처를 인식하여 출력 데이터로써 출력할 수 있다. 또한, 컨볼루션 신경망(CNN)은 이미지를 분석하여 패턴을 찾는 알고리즘을 수행하는 신경망을 모두 지칭하는 것으로, 다양한 종류들의 신경망들이 존재할 수 있다.

도 13을 참조하면, 신경망(1320)은 입력 레이어(1321)을 통하여 감지부(230)에서 획득된 적어도 하나의 이미지(1310)를 입력받고, 입력된 이미지(1310) 내의 객체를 추출하고 추출된 객체에 대응되는 제스처를 식별하고, 식별된 제스처를 출력단(1325)으로 출력하도록 학습된 신경망이 될 수 있다. 출력단(1325)으로 출력되는 정보는, 구별된 동작에 대응되는 제스처를 나타내는 동작 정보(1350)가 될 수 있다.

신경망(1320)이 사용자(1301)가 스쿼트 동작을 따라하고 있을 때 감지부(230)에서 획득된 이미지(1310)를 입력 받는 경우, 신경망(1320)은 입력된 이미지(1310)을 분석하여, '스쿼트 동작'을 나타내는 동작 정보(1350)를 출력할 수 있을 것이다.

신경망(1320)을 포함하는 AI 모델은 프로세서(240) 내에 저장될 수 있다. 또는, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(예를 들어, 300) 내에 포함되는 별도의 프로세서(미도시)로 형성될 수도 있다. 또는, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(300) 내에 포함되는 별도의 저장 장치(예를 들어, 메모리(250))에 저장될 수도 있을 것이다. 전술한 예들과 같이, 전자 장치(300) 내에 신경망(1320)을 포함하는 AI 모델이 저장되어 있는 경우, 전자 장치(300)의 프로세서(240)는 신경망(1320)을 포함하는 AI 모델로 감지부(230)에서 획득된 적어도 하나의 이미지를 입력하여, 사용자의 제스처를 감지할 수 있을 것이다.

또한, 개시된 실시예에서, 프로세서(240)는 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 구별하기 위해서 신경망(1320)을 포함하는 AI 모델을 이용할 수 있다.

구체적으로, 신경망(1320)은 입력단(1321)을 통하여 동영상 콘텐트에 포함되는 복수개의 프레임들을 순차적으로 입력받고, 입력받은 프레임들을 분석하여 복수개의 프레임들에 포함되는 복수개의 동작들을 구별하는 정보를 출력단(1325)으로 출력할 수 있다.

또한, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(300)와 별도의 장치에 포함 또는 저장될 수 있다. 예를 들어, 신경망(1320)을 포함하는 AI 모델은 디스플레이 장치(300)와 유무선의 통신 네트워크를 통하여 연결되는 외부 장치(미도시)에 저장될 수 있다. 이 경우, 디스플레이 장치(300)는 감지부(230)에서 획득된 사용자를 촬영한 적어도 하나의 이미지를 통신부(260)를 외부 장치로 전송할 수 있다. 그러면, 외부 장치(미도시)는 적어도 하나의 이미지를 수신하고, 내부에 포함되는 AI 모델을 이용하여, 동작 정보(1350)을 획득할 수 있다. 외부 장치(미도시)는 획득된 동작 정보(1350)을 디스플레이 장치(300)의 통신부(260)로 전송할 수 있다. 그러면, 통신부(260)는 전송되는 동작 정보(1350)를 수신하여 프로세서(240)로 전달할 수 있다. 그에 따라서, 프로세서(240)는 동작 정보(1350)에 근거하여 사용자 제스처를 감지할 수 있다.

도 14는 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 나타내는 다른 흐름도이다. 구체적으로, 도 14에 도시된 디스플레이 장치의 동작 방법(1400)은 도 1 내지 도 5을 참조하여 설명한 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)의 동작 방법이 될 수 있다. 즉, 도 14는 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)의 동작들을 나타내는 흐름도가 될 수 있다. 또한, 도 14에 있어서, 도 4에서와 동일한 구성은 동일한 도면 기호를 이용하여 도시하였다.

따라서, 디스플레이 장치의 동작 방법(1400)에 포함되는 동작들을 설명함에 있어서, 전술한 설명들과 중복되는 설명은 생략한다.

도 14를 참조하면, 디스플레이 장치의 동작 방법(1400)은 디스플레이(220)를 통하여 동영상 콘텐트를 재생한다(S410). S410 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다.

그리고, 디스플레이 장치의 동작 방법(1400)은 동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지한다(S420). 구체적으로, S420 단계는 S421 및 S422 단계를 포함할 수 있다.

구체적으로, 디스플레이 장치의 동작 방법(1400)은 감지부(230)에 포함되는 적어도 하나의 카메라에서 획득된 사용자 영상을 수신할 수 있다(S421). 구체적으로, 프로세서(240)는 사용자 영상을 수신할 수 있다. 여기서, 사용자 영상은 동영상 컨텐트에서 표현되는 동작을 따라하는 사용자를 촬영한 이미지로, 도 12 및 도 13에서 설명한 이미지(1210, 1310)를 포함할 수 있다.

그리고, 디스플레이 장치의 동작 방법(1400)은 S421 단계에서 수신된 사용자 영상을 분석하여 사용자가 현재 수행하는 동작에 대응되는 제스처를 식별할 수 있다(S422). S422 단계는 프로세서(240)에서 수행될 수 있다. 또는, S422 단계는 프로세서(240)의 제어에 근거하여 외부 장치(미도시)에서 수행될 수 있다.

구체적으로, S422 단계의 동작은 도 13에서 설명한 AI 모델을 이용하여 수행될 수 있다. 예를 들어, 프로세서(240)가 AI 모델을 포함하는 경우, S422 단계의 동작은 프로세서(240)에서 자체적으로 수행될 수 있다. 또 다른 예로, 프로세서(240)를 포함하여 디스플레이 장치(예를 들어, 300)이 AI 모델을 포함하지 않는 경우, S422 단계의 동작은 도 13에서 설명한 외부 장치(미도시)에서 수행될 수 있다. 이 경우, 식별된 제스처에 대한 정보는 통신부(260)를 통하여 프로세서(240)로 전달될 수 있다.

계속하여, 디스플레이 장치의 동작 방법(1400)은 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 S420 단계에서 감지된 제스처에 대응되는 적어도 하나의 프레임을 디스플레이(220)를 통하여 재생한다(S430). S430 단계는 프로세서(240)의 제어에 따라서 디스플레이(220)에서 수행될 수 있다.

구체적으로, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생을 일시적으로 중단하거나, 재생의 속도를 조절하거나, 또는 재생의 위치를 이동할 수 있다.

구체적으로, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생을 일시적으로 중단할 수 있다. 예를 들어, 사용자가 동영상 콘텐트에서 재생되는 동작들의 진행 속도를 따라가지 못하는 경우가 존재할 수 있다. 이 경우, 프로세서(240)는 사용자가 현재 재생중인 동작을 완료할 때까지, 동영상 콘텐트의 재생을 일시적으로 중단할 수 있다.

또한, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생 속도를 조절할 수 있다. 예를 들어, 예를 들어, 사용자가 동영상 콘텐트에서 재생되는 동작들을 따라하는데 있어서, 전체적으로 진행 속도가 느린 경우가 존재할 수 있다. 이 경우, 프로세서(240)는 동영상 컨텐트에서 재생 중인 동작과 사용자의 동작이 동기화되도록, 동영상 콘텐트의 재생 속도를 느리게 조절할 수 있다. 또 예를 들어, 예를 들어, 사용자가 동영상 콘텐트에서 재생되는 동작들을 따라하는데 있어서, 전체적으로 진행 속도가 빠른 경우가 존재할 수 있다. 이 경우, 프로세서(240)는 동영상 컨텐트에서 재생 중인 동작과 사용자의 동작이 동기화되도록, 동영상 콘텐트의 재생 속도를 빠르게 조절할 수 있다.

또한, 프로세서(240)는 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임이 디스플레이(220)를 통하여 표시되도록, 동영상 콘텐트의 재생 위치를 이동할 수 있다. 구체적으로, 프로세서(240)는 프로세서(240)는 동영상 컨텐트에서 재생 중인 동작과 사용자의 동작이 동기화되도록, 동영상 콘텐트의 재생 위치를 사용자의 제스처에 대응되는 동작 또는 제스처를 표현하는 적어도 하나의 프레임으로 이동할 수 있다.

구체적으로, 디스플레이 장치의 동작 방법(1400)은 사용자의 제스처가 식별되면, 식별된 제스처에 대응되는 동영상 컨텐트의 동작을 검색할 수 있다(S431). S431 단계의 동작은 전술한 재생 시간 정보 및 태그 정보 중 적어도 하나에 근거하여 수행될 수 있다.

예를 들어, 프로세서(240)는 동영상 콘텐트를 분석하여, 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득할 수 있다. 이 경우, 프로세서(240)는 재생 시간에 대한 정보에 근거하여, 동영상 콘텐트에 포함되는 복수개의 프레임들 중 감지된 제스처에 대응되는 적어도 하나의 프레임을 식별할 수 있다. 구체적으로, 도 12에 도시된 예시와 같이, 사용자의 제스처가 런지 동작에 대응되는 제스처로 식별된 경우, 프로세서(240)는 런지 동작에 대한 재생 시간 정보에 근거하여, 런지 동작에 대응되는 프레임을 검색하고 검색된 프레임이 표시되도록 동영상 콘텐트의 재생을 제어할 수 있다. 구체적으로, 도 6을 참조하면, 런지 동작에 대응되는 재생 시간은 t=75 초 내지 t=130 초 이므로, 프로세서(240)는 해당 재생 시간에 존재하는 프레임들(650)을 검색하고, 사용자의 제스처에 대응되는 적어도 하나의 프레임이 표시되도록 동영상 콘텐트의 재생을 제어할 수 있다.

그리고, 디스플레이 장치의 동작 방법(1400)은 식별된 사용자의 제스처에 대응하는 시간(예를 들어, 제1 시간)과 S431 단계에서 검색된 동영상 컨텐트의 동작에 포함되는 재생 시간(예를 들어, 제2 시간)을 비교할 수 있다(S432). S431 단계의 동작은 전술한 재생 시간 정보 및 태그 정보 중 적어도 하나에 근거하여 수행될 수 있다.

예를 들어, 도 13에 도시된 예에서, 사용자의 제스처가 스쿼트 동작으로 식별된 경우, 해당 제스처가 감지된 시점인 제1 시간과 동영상 컨텐트에 포함되는 스쿼트 동작 중 감지된 제스처에 대응되는 프레임의 재생 시간에 대응되는 제2 시간을 비교할 수 있다(S432).

S432 단계의 비교 결과, 식별된 사용자의 제스처에 대응하는 시간(예를 들어, 제1 시간)과 S431 단계에서 검색된 동영상 컨텐트의 동작에 포함되는 재생 시간(예를 들어, 제2 시간)이 대응되는지 판단할 수 있다(S433).

S433 의 판단 결과 대응되는 것으로 판단되면, 사용자의 동작과 동영상 컨텐트의 재생 동작이 동기화된 것으로 판단할 수 있다. 그에 따라서, 동영상 콘텐트의 재생을 조절할 필요 없이, 동영상 콘텐트의 재생을 계속할 수 있다(S435).

S433 의 판단 결과 대응되지 않는 것으로 판단되면, 사용자의 동작과 동영상 컨텐트의 재생 동작이 동기화되지 못한 것으로 판단할 수 있다. 그에 따라서, 동영상 콘텐트의 재생을 조절할 수 있다(S437). S437 단계의 재생 조절은, 전술한 재생 시점의 이동, 재생의 일시 중지, 및 재생 속도의 조절 중 적어도 하나가 될 수 있다.

예를 들어, 사용자의 제스처는 스쿼트 동작에 대응되는데, 현재 재생되는 동영상 콘텐트는 런지 동작에 대한 것일 수 있다. 이 경우, 프로세서(240)는 현재 동영상 콘텐트의 재생 동작이 사용자의 제스처에 맞춰지도록, 태그 및 재생 시간 정보 중 적어도 하나에 근거하여, 동영상 콘텐트의 재생 시점을 스쿼트 동작의 재생 시점으로 이동할 수 있다. 또는, 프로세서(240)는 현재 동영상 콘텐트의 재생 동작이 사용자의 제스처에 맞춰지도록, 동영상 콘텐트의 재생을 일시 중단하여, 사용자가 스쿼트 동작을 완료하고 런지 동작을 시작할 때까지 대기할 수 있다.

또한, 개시된 실시예에서, 프로세서(240)는 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지가 중첩되어 디스플레이 되도록 제어할 수 있다.

구체적으로, 프로세서(240)는 감지된 제스처에 대응되는 이미지로, 캡쳐된 이미지를 획득할 수 있다. 또는, 프로세서(240)는 감지된 제스처에 대응되는 아바타 이미지를 생성할 수 있다. 그리고, 획득된 이미지가 재생 화면의 서브 화면으로 포함되도록 할 수 있다. 그러면, 사용자는 재생 화면을 보고 자신의 자세가 정확한지 부정확 한지, 아니면 자신이 동작을 잘 따라하고 있는지 여부를 인식할 수 있을 것이다.

또한, 개시된 실시예에서, 프로세서(240)는 동영상 콘텐트의 재생 화면 상에, 상기 감지된 제스처에 대한 가이드 정보가 표시되도록 제어할 수 있다. 예를 들어서, 가이드 정보는 감지된 제스처가 어떠한 동작인지, 좀 더 빠르게 따라해야 하는지, 신체의 일부를 어떻게 움직여야 하는지 등을 가이드 하기 위한 정보를 포함할 수 있다.

도 15는 개시된 실시예에 따른 디스플레이 장치와 통신하는 서버를 설명하기 위한 도면이다. 도 15에 있어서, 도 2 내지 도 3에서와 동일한 구성은 동일한 도면 기호를 이용하여 도시하였다. 또한, 도 15에 도시된 디스플레이 장치(1550)는 도 1 내지 도 14를 참조하여 설명한 개시된 실시예에 따른 디스플레이 장치(100, 200, 300, 또는 500)에 대응될 수 있다. 따라서, 전술한 설명들과 중복되는 설명은 생략한다.

도 15에서는 설명의 편의 상, 디스플레이 장치(1550)에 포함되는 통신부(260)를 '제1 통신부(260)'로 칭하고, 외부 장치인 서버(1500)에 포함되는 통신부(1520)은 '제2 통신부(1520)'로 칭하였다.

디스플레이 장치(1550)는 외부 장치와 유무선의 통신 네트워크를 통하여 통신을 수행할 수 있다. 여기서, 외부 장치는 디스플레이 장치(1550)와 물리적으로 구별되는 별도의 전자 장치(미도시) 또는 서버(1500)가 될 수 있다. 도 15에서는, 외부 장치가 서버(1500)인 경우를 예로 들어 도시 및 설명하도록 한다.

도 15에서는, 디스플레이 장치(1550)가 프로세서(240) 및 제1 통신부(260)를 포함하는 것으로 도시하였으나, 도 3 및 도 5에 도시된 구성들 중 적어도 하나를 더 포함할 수 있다. 다만, 설명의 상 미도시 하였다.

도 15를 참조하면, 서버(1500)는 프로세서(1510) 및 제2 통신부(1520)을 포함할 수 있다. 예를 들어, 서버(1500)은 이미지를 분석하여, 이미지 내에 포함되는 객체 인식, 및 제스처 인식 중 적어도 하나를 수행하기 위한 AI 모델을 통산 연산을 수행하는 서버가 될 수 있다.

프로세서(1510)은 내부 메모리(미도시) 및 저장된 적어도 하나의 프로그램을 실행하는 적어도 하나의 프로세서(미도시)를 포함할 수 있다. 여기서, 프로세서(240)의 내부 메모리(미도시)는 하나 이상의 인스트럭션을 저장할 수 있다. 그리고, 프로세서(240)는 내부 메모리(미도시)에 저장된 하나 이상의 인스트럭션 중 적어도 하나를 실행하여, 소정 동작을 실행할 수 있다. 프로세서(1510)의 내부 구성은 도 2 에서 설명한 프로세서(240)에 동일 대응되므로, 상세 설명은 생략한다.

구체적으로, 프로세서(1510)는 도 13에서 설명한 AI 모델을 포함할 수 있다. 그리고, AI 모델을 통한 서로 다른 동작들의 구별, 객체 인식 및 제스처 인식 중 적어도 하나의 동작을 수행할 수 있다.

제2 통신부(1520)는 적어도 하나의 유선 또는 무선 통신 네트워크를 통해서 디스플레이 장치(1550)와 통신을 수행한다. 구체적으로, 제2 통신부(1520)는 적어도 하나의 통신 모듈, 통신 회로 등을 포함하는 형태로 형성될 수 있으며, 통신 모듈 및/또는 통신 회로를 통하여 외부 장치와 데이터를 송수신할 수 있다. 제2 통신부(1520)의 내부 구성은 도 3 에서 설명한 통신부(260)에 동일 대응되므로, 상세 설명은 생략한다.

디스플레이 장치(1550)는 제1 통신부(260)를 통하여 사용자의 자세, 몸짓, 동작 또는 모습을 촬영하여 획득되는 복수개의 이미지들을 실시간으로 서버(1500)의 제2 통신부(1520)로 전송할 수 있다. 그러면, 서버(1500)의 프로세서(1510)는 수신된 이미지들에 근거하여 사용자의 제스처를 식별하고, 식별된 제스처에 대한 정보를 제2 통신부(1520)를 통하여 제1 통신부(260)로 전송할 수 있다.

또한, 디스플레이 장치(1550)는 제1 통신부(260)를 통하여 동영상 컨텐트를 실시간으로 서버(1500)의 제2 통신부(1520)로 전송할 수 있다. 그러면, 서버(1500)의 프로세서(1510)는 AI 모델을 이용하여 수신된 동영상 컨텐트를 분석하여, 복수개의 동작들을 식별하고, 식별된 동작들에 대응되는 재생 시간 정보를 획득할 수 있다. 그리고, 획득된 정보를 제2 통신부(1520)를 통하여 제1 통신부(260)로 전송할 수 있다. 또는, 서버(1500)의 프로세서(1510)는 AI 모델을 이용하여 수신된 동영상 컨텐트를 분석하여, 복수개의 동작들을 구별하고, 구별된 동작들에 대응되는 태그들을 추가하여 태그된 동영상 컨텐트를 생성할 수 있다. 그리고, 태그된 동영상 컨텐트를 제2 통신부(1520)를 통하여 제1 통신부(260)로 전송할 수 있다.

도 16은 개시된 실시예에 따른 동영상 콘텐트의 재생 조절 동작을 설명하기 위한 도면이다. 구체적으로, 도 16은 개시된 실시예에 따른 디스플레이 장치(100, 200, 300 또는 500)의 재생 조절 동작을 설명하기 위한 도면이다. 도 16에서는 도 6 내지 도 10을 참조하여 예시한 동영상 컨텐트가 개시된 실시예에 다른 디스플레이 장치(100, 200, 300 또는 500)에서 재생되는 경우를 예로 들어서 설명한다.

이하에서는, 설명의 편의 상, 도 16에서의 재생 조절 동작이 도 3에 도시된 디스플레이 장치(300)에서 수행되는 경우를 예로 들어서 설명하도록 한다.

도 16을 참조하면, 1630 블록은 개시된 실시예에 따른 재생 조절이 수행되기 이전에 디스플레이(220)에서 재생되는 동영상 컨텐트를 나타낸다. 그리고, 1610 은 사용자가 디스플레이(220)에서 재생되는 동영상 컨텐트를 따라하는 모습을 나타내는다. 그리고, 1650 블록은 개시된 실시예에 따른 재생 조절이 수행될 때 디스플레이(220)에서 재생되는 동영상 컨텐트를 나타낸다. 또한, 도 16에서는 설명의 편의 상 수 개의 프레임들이 디스플레이(220) 상에서 재생되는 경우를 예로 들어 도시하였으나, 수십 내지 수백 개의 프레임들이 데드리프트 동작을 표현할 수 있다.

먼저, 1630 블록을 참조하면, 디스플레이 장치(300)는 디스플레이(220)를 통하여 데드리프트 동작을 표현하는 복수개의 프레임들(1631, 1632, 1633, 1634)이 t1 내지 t4 시점에서 순차적으로 재생될 수 있다.

그리고, t1 시점에서 사용자는 디스플레이되는 이미지(1631)을 시청하며 데드리프트 동작을 따라할 수 있다. 사용자는 이미지(1631)를 보고 자세(1601_1)를 취하고, 동영상 콘텐트의 재생이 진행됨에 따라서, t2 시점에서 사용자는 디스플레이되는 이미지(1632)을 시청하며 데드리프트 동작을 따라할 수 있다. 도시된 바와 같이, t1 및 t2 시점까지는 재생되는 동영상 콘텐트에서 표현하는 동작을 사용자가 잘 따라고 있다. 그러나, 후속되는 t3 시점에서 재생되는 이미지(1633)는 데드리프트 동작 중 일어서는 자세에 대응되나, t3 시점에서 사용자는 아직 일어서는 동작을 따라서 일어서지 못하고 t2 시점에서 디스플레이되는 이미지에서 표현되는 자세(1602_3)를 취하고 있다.

이 경우, 일반적인 디스플레이 장치는 사용자가 재생되는 동작들을 따라하는지 못 따라하는지 여부와 무관하게, 동영상 콘텐트의 재생을 진행한다. 따라서, t3 시점에서 재생되는 이미지(1633)와 동일 시점에서 사용자가 따라하는 자세(1602_3)가 달라지기 시작하여, t4 시점에서도 재생되는 동영상 콘텐트의 동작 자세와 사용자의 자세는 달라질 수 밖에 없다. 이러한 경우, 기존에는 사용자는 별도의 제어 장치를 이용하여 동영상 콘텐트의 재생을 수동적으로 일시 중단하거나, 아니면 도중에 자신의 자세를 변경하여야만 했다.

따라서, 사용자에 맞춰서 사용자의 운동 상태에 따른 동영상 콘텐트의 재생 및 시청이 불가능하였다.

개시된 실시예에서는, 사용자의 제스처를 인식하고, 인식된 제스처에 대응되는 프레임이 표시되도록, 동영상 콘텐트의 재생을 사용자의 개입 없이 자동적으로 조절할 수 있다. 그에 따라서, 사용자의 운동 상태, 또는 사용자의 의도에 맞춰서 최적화된 동영상 콘텐트의 재생 속도 또는 재생 상태를 제공함으로써, 사용자의 만족도를 증가시킬 수 있다.

구체적으로, 도 1650 블록을 참조하면, 프로세서(240)는 t3 시점에서 실시간으로 감지되는 사용자의 제스처에 동기화되는 적어도 하나의 프레임을 검색하고, 검색된 적어도 하나의 프레임(1632)가 t3 시점에서 디스플레이(220)에서 표시되도록 제어할 수 있다. 참고로, 사용자의 제스처가 감지되는 시점(t3)과 감지된 제스처에 대응되는 프레임(1632)이 표시되는 시점이 모두 t3 시점으로 동일한 것으로 도시하였으나, 사용자의 제스처 감지 동작 및 대응되는 프레임 검색 동작을 수행하는 시간 간격이 존재할 수 있을 것이다. 그러나, 이러한 시간 간격은 AI 모델을 통하여 빠른 연산을 통하여 최소화될 수 있으며, 실제로 사용자가 시간 지연으로 인식하지 못하는 범위 내에서 이뤄질 수 있다.

따라서, 개시된 실시예에서는, 사용자의 제스처에 맞춰서 사용자의 동작과 동기화되는 동작들이 표시되도록 제어할 수 있다. 즉, t4 시점에서 사용자의 제스처(1602_4)가 감지된 경우, t4 시점에서 감지된 제스처(1602_4)에 대응되는 프레임(1633)이 표시되도록 동영상 콘텐트의 재생이 제어될 수 있다. 그에 따라서, 디스플레이 장치(300)의 디스플레이(220)는 t4 시점에서 감지된 제스처(1602_4)에 대응되는 프레임(1633)을 표시할 수 있다.

그러면, 다시 사용자는 후속 시점인 t5 시점에서 표시되는 프레임(1634)을 보며, 후속되는 동작 또는 제스처를 따라할 수 있다.

본 개시의 일 실시예에 따른 디스플레이 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 또한, 본 개시의 실시예는, 디스플레이 장치의 동작 방법을 실행하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체가 될 수 있다.

상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

여기서, 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체'는가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

구체적으로, 개시된 실시예에 따른 디스플레이 장치의 동작 방법을 수행하도록 하는 프로그램이 저장된 기록 매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.

이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims

디스플레이;

동영상 콘텐트를 획득하는 영상 입력부;

적어도 하나의 센서를 포함하는 감지부; 및

적어도 하나의 인스트럭션을 실행하는 프로세서를 포함하며,

상기 프로세서는

상기 적어도 하나의 인스트럭션을 실행하여,

상기 동영상 콘텐트가 재생되는 동안에 상기 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하고,

상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 상기 동영상 콘텐트의 재생을 제어하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임이 표시되도록 상기 동영상 콘텐트의 재생을 제어하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록, 상기 동영상 콘텐트의 재생을 일시적으로 중단하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록, 상기 동영상 콘텐트의 재생 속도를 조절하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록, 상기 동영상 콘텐트의 재생 위치를 이동하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 상기 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하며,

상기 재생 시간에 대한 정보에 근거하여, 상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 제어하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고,

상기 식별된 복수개의 동작들 각각에 대응되는 적어도 하나의 태그를 상기 동영상 콘텐트에 삽입하여 태그된 동영상 콘텐트가 생성되도록 제어하는, 디스플레이 장치.
제7항에 있어서, 상기 프로세서는

상기 복수개의 태그에 근거하여, 상기 태그된 동영상 콘텐트에 포함되는 상기 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 제어하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 감지부의 감지 결과를 신경망으로 입력하고, 상기 신경망을 통한 연산의 결과 출력되는 정보인 상기 사용자의 제스처에 대한 정보를 획득하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 감지된 제스처에 대응되는 이미지를 획득하고, 상기 동영상 콘텐트의 재생 화면 상에 상기 획득된 이미지가 중첩되어 디스플레이 되도록 제어하는, 디스플레이 장치.
제1항에 있어서, 상기 프로세서는

상기 동영상 콘텐트의 재생 화면 상에, 상기 감지된 제스처에 대한 가이드 정보가 표시되도록 제어하는, 디스플레이 장치.
디스플레이를 통하여 동영상 콘텐트를 재생하는 단계;

동영상 콘텐트가 재생되는 동안에 적어도 하나의 센서의 감지 결과에 근거하여 사용자의 제스처(gesture)를 감지하는 단계; 및

상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이에서 표시되도록 상기 동영상 콘텐트의 재생을 제어하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
제12항에 있어서,

상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하는 단계를 더 포함하고,

상기 재생을 제어하는 단계는

상기 식별된 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이에서 표시하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
제12항에 있어서, 상기 재생을 제어하는 단계는

상기 동영상 콘텐트에 포함되는 복수개의 프레임들 중 상기 감지된 제스처에 대응되는 적어도 하나의 프레임이 상기 디스플레이를 통하여 표시되도록, 상기 동영상 콘텐트의 재생 속도, 재생 위치 이동, 및 재생 중지 중 적어도 하나의 동작을 수행하는 단계를 포함하는, 디스플레이 장치의 동작 방법.
제12항에 있어서,

상기 동영상 콘텐트를 분석하여, 상기 동영상 콘텐트에 포함되는 서로 다른 복수개의 동작들을 식별하고, 상기 식별된 복수개의 동작들의 재생 시간에 대한 정보를 획득하는 단계를 더 포함하며,

상기 재생을 제어하는 단계는

상기 재생 시간에 대한 정보에 근거하여, 상기 복수개의 동작들 중 상기 감지된 제스처에 대응되는 동작을 표현하는 상기 적어도 하나의 프레임을 상기 디스플레이에서 표시하는 단계를 포함하는, 디스플레이 장치의 동작 방법.