WO2023068849A1

WO2023068849A1 - 디스플레이 장치 및 그 동작 방법

Info

Publication number: WO2023068849A1
Application number: PCT/KR2022/016054
Authority: WO
Inventors: 이종인; 김세현; 양관식; 최길수
Original assignee: 삼성전자 주식회사
Priority date: 2021-10-20
Filing date: 2022-10-20
Publication date: 2023-04-27
Also published as: KR20230056452A

Abstract

실시예들에 따라, 디스플레이 장치 및 그 동작 방법이 개시된다. 개시된 디스플레이 장치는, 디스플레이, 입출력 인터페이스, 통신 인터페이스, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 연결된 전자 장치로부터 수신된 영상의 화면을 표시하고, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하고, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하고, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하고, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어한다.

Description

디스플레이 장치 및 그 동작 방법

다양한 실시예들은 디스플레이 장치 및 그 동작 방법에 관한 것으로, 보다 구체적으로는, 디스플레이 장치에서 실행되는 컨텐츠에 기반하여 컨텐츠 실행 환경을 제공할 수 있는 디스플레이 장치 및 그 동작 방법에 관한 것이다.

근래 들어 게임 사용자가 증가하고 게임의 몰입도를 위해 게임 컨텐츠를 대화면 TV를 통해 즐기고자 하는 수요가 증가하고 있다.

종래에 TV 상에서 소프트웨어적으로 실행되는 클라우드 게임과 같은 경우에는 해당 게임의 타이틀이나 장르 등 메타데이터를 기반으로 해당 게임에 적절한 화질이나 음향을 설정하고 시청 연령 제한 등의 서비스를 제공할 수 있다.

또한, 이러한 클라우드 게임 뿐만 아니라 TV 에 유선 연결하여 게임 콘솔에서 게임을 실행하는 수요도 많이 있다. 그러나, 이와 같이 유선 연결된 게임 콘솔에서 실행되는 게임의 경우에 TV는 게임 콘솔에서 실행되는 게임의 실행 화면을 수신할 뿐이기 때문에 TV에서 게임의 타이틀이나 장르 등의 메타데이터를 얻는 것이 불가능하다. 따라서 TV에 유선 연결된 게임 콘솔에서 실행되는 게임의 경우에 실행되는 게임의 특성에 맞는 게임 실행 환경을 제공하기 위해 실행되는 게임의 특성 정보를 획득할 수 있는 방안이 요구된다.

다양한 실시예들은, 디스플레이 장치에 연결된 외부 장치에서 실행되는 컨텐츠를 수신하여 표시하는 디스플레이 장치에서, 수신된 컨텐츠로부터 컨텐츠의 특성 정보를 획득하여, 디스플레이 장치의 컨텐츠 실행 환경을 제어할 수 있도록 하는 디스플레이 장치 및 그 동작 방법을 제공하는 것을 목적으로 한다.

일 실시예에 따른 디스플레이 장치는, 디스플레이, 입출력 인터페이스, 통신 인터페이스, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 연결된 전자 장치로부터 수신된 영상의 화면을 표시할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득할 수 있다. 일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어할 수 있다.

일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 전자 장치로부터 HDMI (High Definition Multimedia Interface) 통신을 통해 수신되는 HDMI CEC (Consumer Electronics Control) 로부터 상기 전자 장치를 식별하고, 상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득할 수 있다.

일 실시예에 따라 상기 제1신경망 모델은, 상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI:User Interface) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함할 수 있다.

일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하고, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단할 수 있다.

일 실시예에 따라 상기 제2신경망 모델은 복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함할 수 있다.

일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 영상 화면을 상기 제2신경망 모델에 입력하여 분석함으로써, 상기 영상 화면으로부터 상기 텍스트 영역 또는 상기 로고 영역을 추출하고, 상기 텍스트 영역 또는 상기 로고 영역에 기반하여 상기 컨텐츠의 속성 정보를 획득할 수 있다.

일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 텍스트 영역으로부터 추출된 텍스트 또는 상기 로고 영역을 서버로 전송하고, 상기 서버로부터 상기 텍스트나 상기 로고 영역에 관련된 상기 컨텐츠의 속성 정보를 수신함으로써 상기 컨텐츠의 속성 정보를 획득할 수 있다.

일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠에 적합한 화질 설정, 음향 설정, 시청 연령 제한 설정, 디스플레이 장치 환경 설정 중 적어도 하나를 제어함으로써 상기 컨텐츠의 실행 환경을 제어할 수 있다.

일 실시예에 따라 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 컨텐츠의 실행 환경 제어 후 상기 컨텐츠의 실행이 종료되는지 판단하고, 상기 컨텐츠의 실행이 종료된다고 판단됨에 따라 상기 제1신경망 모델을 이용하여 영상 화면을 분석함으로써 새로운 컨텐츠 실행이 시작되는지를 판단할 수 있다.

일 실시예에 따라 디스플레이 장치의 동작 방법은, 연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작을 포함할 수 있다. 일 실시예에 따라 디스플레이 장치의 동작 방법은, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함할 수 있다.

일 실시예에 따라 디스플레이 장치의 동작 방법의 구현을 위해 디스플레이 장치의 프로세서에 의해 실행되는 하나 이상의 프로그램이 기록된 컴퓨터 판독가능 기록 매체에 있어서, 상기 디스플레이 장치의 동작 방법은, 연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작, 및 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함한다.

본 개시서의 다양한 실시예들에 따르면, 디스플레이 장치가, 디스플레이 장치에 연결된 외부 장치에서 실행되는 컨텐츠를 수신하여 표시하는 경우에도, 수신된 컨텐츠로부터 컨텐츠의 특성 정보를 획득하는 방안을 마련함으로써, 컨텐츠의 특성에 맞게 디스플레이 장치의 컨텐츠 실행 환경을 제어할 수 있다. 따라서, 디스플레이 장치는 컨텐츠의 특성에 부합하는 컨텐츠 경험을 사용자들에게 제공할 수 있다.

도 1은 일 실시예에 따라 디스플레이 장치의 실행 환경을 제어하는 시스템을 설명하기 위한 참고도이다.

도 2는 일 실시예에 따라 디스플레이 장치, 전자 장치 및 서버 컴퓨터를 포함하는 시스템의 일 예를 나타낸다.

도 3은 일 실시예에 따라 디스플레이 장치의 구체적인 구성을 나타내는 블록도이다.

도 4a는 일 실시예에 따라 각 전자 장치에 대응하여 제1신경망 모델을 학습시키는 방법을 설명하기 위한 참고도이다.

도 4b는 일 실시예에 따라 제1전자 장치에 대응하는 제1신경망 모델을 획득하는 방법을 설명하기 위한 참고도이다.

도 5는 일 실시예에 따라 디스플레이 장치의 동작 방법의 일 예를 나타내는 흐름도이다.

도 6은 일 실시예에 따라 도 5에 도시된 동작 방법을 설명하기 위한 참고도이다.

도 7은 일 실시예에 따라 디스플레이 장치에서 제1신경망 모델을 획득하는 방법의 과정을 나타내는 흐름도이다.

도 8은 일 실시예에 따라 디스플레이 장치 100에서 컨텐츠 실행 시작 시점을 검출하는 방법의 과정을 나타내는 흐름도이다. 도 9는 일 예에 따라 컨텐츠 실행 시점을 판단하는 방법을 설명하기 위한 참고도이다.

도 9는 일 예에 따라 컨텐츠 실행 시점을 판단하는 방법을 설명하기 위한 참고도이다.

도 10은 일 실시예에 따라 영상 화면을 분류하는 신경망 모델의 일 예를 나타낸다.

도 11은 일 실시예에 따라 디스플레이 장치에서 컨텐츠 실행 시작 시점 이후 컨텐츠를 인식하는 방법을 설명하기 위한 참고도이다.

도 12는 일 예에 따른 오브젝트 검출 모델의 일 예를 나타낸다.

도 13은 일 예에 따라 영상 화면을 분석하여 컨텐츠의 속성 정보를 획득하는 과정을 설명하기 위한 참고도이다.

도 14는 일 실시예에 따라 컨텐츠의 장르에 따라 설정되는 화질 설정값과 음향 설정값을 포함하는 테이블의 일 예를 나타낸다.

도 15는 일 실시예에 따라 컨텐츠의 속성 정보로서 시청 연령 정보를 수신한 경우의 디스플레이 장치의 동작을 설명하기 위한 참고도이다.

도 16은 일 실시예에 따라 컨텐츠 실행 시점 판단 모드와 컨텐츠 속성 인식 모드 간의 전환을 설명하기 위한 참고도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서의 실시예에서 "사용자"라는 용어는 제어 장치를 이용하여 컴퓨팅 장치 또는 전자 장치의 기능 또는 동작을 제어하는 사람을 의미하며, 시청자, 관리자 또는 설치 기사를 포함할 수 있다.

도 1을 참조하면, 시스템은 디스플레이 장치 100, 전자 장치 200, 서버 컴퓨터 300을 포함할 수 있다.

도 1을 참조하면, 일 실시예에 따른 디스플레이 장치 100는 다양한 소스로부터 컨텐츠를 수신하고 수신된 컨텐츠를 표시하는 전자 장치일 수 있다. 디스플레이 장치 100는, TV, 셋탑 박스, 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 장치(wearable device) 등과 같은 다양한 형태로 구현될 수 있다.

또한, 디스플레이 장치 100는 고정된 위치에 배치되는 고정형 전자 장치 또는 휴대 가능한 형태를 갖는 이동형 전자 장치일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.

또한 디스플레이 장치 100는 리모컨 또는 휴대폰과 같은 다양한 형태의 장치에 의해 IR(Infrared), BT(Bluetooth), Wi-Fi 등을 이용하여 제어될 수 있다.

전자 장치 200는 컨텐츠를 실행하고 컨텐츠 실행 화면을 유무선 통신을 통하여 디스플레이 장치 100로 전송할 수 있다. 예를 들어, 전자 장치 200는 다양한 제조사에 의해 제조된 게임 콘솔을 포함할 수 있다. 사용자가 전자 장치 200를 이용하여 게임 컨텐츠가 실행되도록 하고 전자 장치 200를 디스플레이 장치 100에 유무선 통신을 이용하여 연결함으로써 실행된 게임 컨텐츠 화면이 디스플레이 장치 100에 표시되게 할 수 있다.

디스플레이 장치 100는 디스플레이 장치 100에서 표시되는 컨텐츠에 관한 특성 또는 컨텐츠이 속성 정보에 맞게 디스플레이 장치 100의 환경을 제어할 수 있다. 예를 들어, 디스플레이 장치 100는 디스플레이 장치 100에서 표시되는 컨텐츠의 속성에 맞게 적절한 화질 처리를 하거나 음향을 설정하거나 시청 연령 제한 등의 서비스를 제공할 수 있다.

그러나, 디스플레이 장치 100가 전자 장치 200로부터 컨텐츠를 실행한 결과 화면을 수신하는 경우에, 디스플레이 장치 100는 수신된 화면에 대응하는 컨텐츠에 대한 속성 정보를 전자 장치 200로부터 직접적으로 얻기 어려울 수 있다. 따라서, 이러한 상항에서 디스플레이 장치 100는 전자 장치 200로부터 수신된 컨텐츠 실행 화면으로부터 수신되는 컨텐츠에 대한 정보나 컨텐츠의 속성 정보를 획득하는 방안이 요구된다.

디스플레이 장치 100가 전자 장치 200로부터 수신하는 컨텐츠 실행 화면으로부터 컨텐츠에 대한 속성 정보를 얻기 위해서는 전자 장치 200로부터 수신되는 컨텐츠 실행 화면을 분석하여야 한다. 이때 디스플레이 장치 200가 전자 장치 200로부터 수신하는 모든 이미지 프레임들을 분석하여 컨텐츠 속성 정보를 획득하려고 한다면 분석의 정확도도 떨어지고 또한 분석하는데 시간과 자원 등의 리소스 낭비가 크게 될 수 있다.

따라서 일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신되는 컨텐츠 실행 화면을 분석하는 과정을 체계화하여 컨텐츠를 인식 (30)하고, 인식된 컨텐츠의 속성 정보를 이용하여 디스플레이 장치 100의 컨텐츠 실행 환경을 제어 (50)하고자 한다. 본 개시서에서 "컨텐츠 실행 환경의 제어"는 전자 장치 200로부터 수신된 영상 화면을 디스플레이 장치 100가 표시할 때, 디스플레이 장치 100에 표시되는 영상 화면의 특징에 적합하게 사용자게 더 좋은 경험을 제공할 수 있도록 디스플레이 장치 100의 설정 환경을 제어하는 것을 의미한다. 실제로 컨텐츠의 실행은 전자 장치 200에서 수행되고 디스플레이 장치 100는 전자 장치 200로부터 컨텐츠 실행 화면을 제공받아서 표시하는 것이지만, 편의상 디스플레이 장치 100에서 실행 화면에 맞게 설정 정보를 제어하는 것을 "컨텐츠 실행 환경 제어"라고 칭하기로 한다.

일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면을 분석하여 컨텐츠 실행이 시작되는지를 판단할 수 있다. 컨텐츠의 속성 정보를 얻기 위해서는 사용자로부터 특정한 컨텐츠가 선택되어 실행된 이후의 화면을 분석하는 것이 바람직하다. 실제 컨텐츠의 선택 및 실행 전에는 다양한 영상 화면 예를 들어 설정 화면이나 컨텐츠의 실행을 선택할 수 있는 UI 화면 등이 선행할 수 있는데 이 상태에서는 아직 실행할 컨텐츠가 선택된 상태가 아니기 때문에 이 단계의 UI 화면에서 컨텐츠의 속성을 추출하는 분석 작업을 할 필요가 없을 것이다. 따라서 디스플레이 장치 100는 실제 컨텐츠의 속성 정보 추출을 위한 작업 전에 컨텐츠의 실행이 시작되는 지점을 찾고, 찾아진 지점 이후에 컨텐츠 속성 정보 추출을 위한 분석 작업을 하는 것이 바람직하다.

일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면으로부터 컨텐츠 실행이 시작되는지 분석하기 위해 제1신경망 모델을 이용할 수 있다. 제1신경망 모델은 전자 장치 200에서 제공되는 영상 화면들을 기반으로 훈련함으로써 전자 장치 200에서 제공되는 영상 화면들로부터 컨텐츠 실행이 시작되는지를 판단하는데 이용되는, 전자 장치 200에 특화된 제1신경망 모델일 수 있다.

일 실시예에 따라 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면을 분석함으로써 컨텐츠 실행이 시작된다고 판단되면 제2신경망 모델을 호출하여 전자 장치 200로부터 수신되는 영상 화면으로부터 컨텐츠의 속성 정보를 획득하는 동작을 수행할 수 있다. 구체적으로 디스플레이 장치 100는 전자 장치 200로부터 수신되는 영상 화면으로부터 텍스트 영역이나 로고 영역을 인식하고 인식된 텍스트 영역이나 로고 영역에 기반하여 컨텐츠의 속성 정보를 획득할 수 있다. 컨텐츠의 속성 정보는 예를 들어 컨텐츠의 타이틀이나 장르, 또는 컨텐츠의 시청 연령 가능 정보 등 컨텐츠의 메타데이터 등을 포함할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 획득된 컨텐츠의 속성 정보에 기반하여 컨텐츠의 실행 환경을 제어할 수 있다. 컨텐츠의 실행 환경은 디스플레이 장치 100가 컨텐츠에 포함된 오디오 비디오 데이터를 재생하는 동안 디스플레이 장치 100에서 표시되는 비디오 데이터의 처리나 제어를 위한 화질 처리 부분, 디스플레이 장치 100에서 출력되는 오디오 데이터의 처리나 제어를 위한 음향 설정 부분, 시청 연령 제한 등의 서비스를 포함할 수 있다.

서버 컴퓨터 300는 통신 네트워크 70를 통해 디스플레이 장치 100와 통신할 수 있다. 서버 컴퓨터 300는 통신 네트워크 70를 통해 디스플레이 장치 100로부터 요청을 수신하고, 요청에 대응하는 응답을 디스플레이 장치 100로 전송할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 앞서 전자 장치 200로부터 수신된 영상 화면을 분석할 때 이용되는 제1신경망 모델 이나 제2신경망 모델을 디스플레이 장치 100 자체적으로 저장하고 있을 수도 있지만, 디스플레이 장치 100는 이러한 제1신경망 모델이나 제2신경망 모델을 서버 컴퓨터 300에 요청하여 수신할 수 있다. 또한 디스플레이 장치 100는 주기적으로 또는 요청에 위해 이러한 제1신경망 모델이나 제2신경망 모델의 업데이트 버전을 서버 컴퓨터 300로부터 수신할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 앞서 전자 장치 200로부터 수신된 영상 화면을 분석하여 텍스트 영역이나 로고 영역을 인식함으로써 컨텐츠에 대한 속성 정보를 획득할 때, 인식된 텍스트 영역에서 추출된 텍스트나 로고 영역에 대한 정보를 서버 컴퓨터 300에 전송하고 서버 컴퓨터 300로부터 전송된 텍스트나 로고 영역에 기반하여 얻어진 컨텐츠의 속성 정보를 수신할 수 있다.

일 실시예에 따라 제1신경망 모델이나 제2신경망 모델을 제공하는 서버 컴퓨터는 텍스트나 로고 영역에 기반하여 얻어진 컨텐츠의 속성 정보를 제공하는 서버 컴퓨터와 동일할 수도 있고, 서로 다를 수도 있다.

도 2를 참조하면, 시스템은 디스플레이 장치 100, 전자 장치 200, 서버 컴퓨터 300를 포함할 수 있다.

전자 장치 200는 디스플레이 장치 100와 유선 또는 무선으로 연결하여 데이터 및/또는 컨텐츠를 송수신하는 전자 장치로서, 예를 들어 게임 컨텐츠를 실행하고 컨텐츠 실행 화면을 디스플레이 장치 100로 전송할 수 있다. 물론 전자 장치 200가 게임 컨텐츠 이외의 다른 비디오 컨텐츠 및/또는 오디오 컨텐츠를 전송할 수 있음은 물론이다.

전자 장치 200는 디스플레이 장치 100와 연결하여 데이터를 송수신할 수 있는 어떤 장치라도 가능하다. 전자 장치 200는, 예를 들어, 셋톱박스, DVD 플레이어, 블루레이 디스크 플레이어, PC, 게임기 등과 같이 디스플레이 장치 100로 컨텐츠를 제공할 수 있는 다양한 유형의 전자 장치를 포함할 수 있다. 전자 장치 200와 디스플레이 장치 100는 다양한 연결 수단을 통해 연결됨으로써 컨텐츠 송수신을 수행할 수 있다. 다양한 연결 수단은 예를 들어, 케이블을 포함할 수 있으며, 전자 장치 200과 디스플레이 장치 100는 케이블 접속을 위한 하나 이상의 포트를 포함할 수 있다. 하나 이상의 포트는 예를 들어, HDMI 포트, 디스플레이포트, 타입-C 등의 디지털 입력 인터페이스를 포함할 수 있다.

예를 들어, 전자 장치 200는 게임 콘솔 등과 같이 게임 컨텐츠 전용의 디바이스가 될 수 있다. 그러나 전자 장치 200는 게임 콘솔에 한정되는 것은 아니고, 게임 컨텐츠, 영화 컨텐츠, 비디오 컨텐츠 등 다양한 컨텐츠를 제공하는 어떠한 형태의 디바이스가 될 수 있음은 물론이다.

전자 장치 200는 입출력부 210, 통신부 220, 메모리 230, 제어부 240를 포함할 수 있다.

입출력부 210는 외부 장치와 유선으로 연결하여 데이터를 입력하거나 출력할 수 있도록 할 수 있다. 일 실시예에 따라 입출력부 210는 디스플레이 장치 100의 입출력부 110과 유선으로 연결되어 전자 장치 200에서 실행되는 컨텐츠의 실행 화면을 디스플레이 장치 100로 전송할 수 있다. 입출력부 210는 HDMI 포트를 포함할 수 있다.

일 실시예에 따라 입출력부 210는 전자 장치 200가 디스플레이 장치 100와 연결되면 HDMI 포토콜을 통해서 전자 장치 200에 대한 기기 정보를 디스플레이 장치 100로 전송할 수 있다.

통신부 220는 외부 장치와 무선으로 연결하여 데이터를 입력하거나 출력할 수 있도록 할 수 있다. 일 실시예에 따라 통신부 220는 디스플레이 장치 100의 통신부 110와 무선으로 연결되어 전자 장치 200에서 실행되는 영상 화면을 디스플레이 장치 100로 전송할 수 있다.

메모리 230는 제어부 240에 의해 처리되는 데이터, 제어부 240의 처리에 이용되는 어플리케이션들을 포함할 수 있다. 예를 들어, 제어부 240에 의해 실행되는 하나 이상의 게임 어플리케이션 및 게임 어플리케이션의 실행 결과 데이터를 저장할 수 있다.

제어부 240는 전자 장치 200의 구성요소들을 전체적으로 제어할 수 있다. 또한 제어부 240는 메모리 230에 저장된 인스트럭션들을 실행함으로써 게임 어플리케이션을 실행할 수 있다.

전자 장치 200에서 게임 컨텐츠가 실행될 때, 게임 컨텐츠의 실행 제어를 위한 사용자 입력은 전자 장치 200를 제어하는 원격 디바이스 콘트롤러로부터 수신할 수 있다. 전자 장치 200는 전자 장치 200를 제어하는 원격 디바이스 콘트롤러부터의 사용자 입력을 원격 디바이스 콘트롤러로부터 직접 수신할 수도 있거나, 또는 원격 디바이스 콘트롤러가 디스플레이 장치 100가 연결되어, 원격 디바이스 콘트롤러로부터의 사용자 입력을 디스플레이 장치 100를 통해서 수신할 수도 있다.

디스플레이 장치 100는 디스플레이를 구비하여 영상 컨텐츠, 비디오 컨텐츠, 게임 컨텐츠, 그래픽 컨텐츠 등을 표시할 수 있는 장치를 나타낼 수 있다. 디스플레이 장치 100는 전자 장치 200로부터 수신되는 영상이나 컨텐츠를 출력 또는 표시할 수 있다. 디스플레이 장치 100는 예를 들어, 네트워크 TV, 스마트 TV, 인터넷 TV, 웹 TV, IPTV, PC 등과 같이 컨텐츠를 수신하여 출력할 수 있는 다양한 형태의 전자 장치를 포함할 수 있다. 디스플레이 장치 100는 컨텐츠를 수신하여 표시하는 측면이라는 점에서 디스플레이 장치로 언급될 수 있는 것이고, 그 외에도 컨텐츠 수신 장치, 싱크 장치, 전자 장치, 컴퓨팅 장치 등으로 언급될 수도 있다.

디스플레이 장치 100는 입출력부 110, 통신부 120, 비디오 처리부 130, 디스플레이 140, 오디오 처리부 150, 오디오 출력부 160, 메모리 170, 제어부 180을 포함할 수 있다.

입출력부 110는 제어부 180의 제어에 따라 전자 장치 200로부터 영상신호 및/또는 오디오신호를 연결된 프로토콜에 따라 수신할 수 있다.

통신부 120는 디스플레이 장치 100과 무선 통신 시스템 사이 또는 디스플레이 장치 100과 다른 전자 장치가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다.

통신부 120는 제어부 180의 제어에 따라 전자 장치 200로부터 수신되는 영상 신호 및/또는 오디오 신호를 무선 통신 프로토콜에 따라 수신할 수 있다.

또한 통신부 120는 제어부 180의 제어에 따라 서버 컴퓨터 300와 연결하여 서버 컴퓨터 300에 요청을 전송하고, 서버 컴퓨터 300로부터 요청에 대한 응답을 수신할 수 있다.

비디오 처리부 130는 제어부 180의 제어에 따라, 입출력부 110 또는 통신부 120로부터 수신되는 영상신호를 처리하여 디스플레이 140로 출력할 수 있다.

디스플레이 140는 비디오 처리부 130로부터 수신된 영상 신호를 화면에 표시할 수 있다.

오디오 처리부 150는 제어부 180의 제어에 따라, 입출력부 110 또는 통신부 120로부터 수신되는 오디오 신호를 아날로그 오디오 신호로 변환하여 오디오 출력부 160로 출력할 수 있다.

오디오 출력부 160는 수신되는 아날로그 오디오 신호를 스피커를 통해 출력할 수 있다.

메모리 170는 디스플레이 장치 100의 동작에 관련된 프로그램, 디스플레이 장치 100의 동작 중에 발생하는 각종 데이터를 저장할 수 있다.

일 실시예에 따라 메모리 170는 본 개시서에 개시된 디스플레이 장치 100의 기능 즉, 전자 장치 200로부터 수신된 영상 화면을 분석하여 컨텐츠의 실행 시작 시점을 검출하고, 컨텐츠의 실행 시작 시점이 검출되는 영상 화면을 분석하여 실행되는 컨텐츠의 속성 정보를 획득하고, 획득된 컨텐츠의 속성 정보에 기반하여 컨텐츠 실행 환경을 제어하는 기능을 구현하기 위한 하나 이상의 인스트럭션을 저장할 수 있다.

제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써 디스플레이 장치 100의 전반적인 동작을 제어할 수 있다.

일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 디스플레이 장치 100에 연결된 전자 장치로부터 수신된 영상의 화면을 표시하고, 제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하고, 상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하고, 상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하고, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어할 수 있다.

일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 전자 장치로부터 HDMI 통신을 통해 수신되는 HDMI CEC로부터 상기 전자 장치를 식별하고, 상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득할 수 있다. 일 실시예에 따라 상기 제1신경망 모델은, 상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함할 수 있다.

일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하고, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단할 수 있다. 일 실시예에 따라 상기 제2신경망 모델은 복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함할 수 있다.

일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 영상 화면을 상기 제2신경망 모델에 입력하여 분석함으로써, 상기 영상 화면으로부터 상기 텍스트 영역 또는 상기 로고 영역을 추출하고, 상기 텍스트 영역 또는 상기 로고 영역에 기반하여 상기 컨텐츠의 속성 정보를 획득할 수 있다.

일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 텍스트 영역으로부터 추출된 텍스트 또는 상기 로고 영역을 서버로 전송하고, 상기 서버로부터 상기 텍스트나 상기 로고 영역에 관련된 상기 컨텐츠의 속성 정보를 수신함으로써 상기 컨텐츠의 속성 정보를 획득할 수 있다.

일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 획득된 속성 정보에 기반하여 상기 컨텐츠에 적합한 화질 설정, 음향 설정, 시청 연령 제한 설정, 디스플레이 장치 환경 설정 중 적어도 하나를 제어함으로써 상기 컨텐츠의 실행 환경을 제어할 수 있다.

일 실시예에 따라 제어부 180는 메모리 170에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 컨텐츠의 실행 환경 제어 후 상기 컨텐츠의 실행이 종료되는지 판단하고, 상기 컨텐츠의 실행이 종료된다고 판단됨에 따라 상기 제1신경망 모델을 이용하여 영상 화면을 분석함으로써 새로운 컨텐츠 실행이 시작되는지를 판단할 수 있다.

서버 컴퓨터 300는 디스플레이 장치 100로부터의 요청을 수신하고, 수신된 요청에 대응하는 응답을 제공하는 역할을 할 수 있다.

서버 컴퓨터 300는 통신부 310, 메모리 320, 제어부 330을 포함할 수 있다.

통신부 310는 디스플레이 장치와 유무선 통신 방법에 의해 통신을 수행할 수 있다.

메모리 320는 제어부 330에 의해 처리되는 데이터, 제어부 330의 처리에 이용되는 어플리케이션들을 포함할 수 있다.

일 실시예에 따라 메모리 320는 텍스트 인식이나 이미지 인식을 수행하는 하나 이상의 프로그램을 저장할 수 있다.

일 실시예에 따라 메모리 320는 컨텐츠에 대한 속성 정보를 저장하는 데이터베이스를 포함할 수 있다.

제어부 330는 서버 컴퓨터 300의 구성요소들을 전체적으로 제어할 수 있다. 또한 제어부 330는 메모리 320에 저장된 인스트럭션들을 실행함으로써 어플리케이션을 실행할 수 있다.

일 실시예에 따라 제어부 330는 디스플레이 장치 100로부터 영상 화면으로부터 추출된 텍스트, 텍스트 영역, 로고 이미지 등의 데이터를 수신하고, 수신된 데이터에 기반하여 텍스트 인식이나 이미지 인식을 수행함으로써 영상 화면에 대응하는 텍스트나 이미지를 획득할 수 있다.

일 실시예에 따라 제어부 330는 획득된 텍스트나 이미지에 대응하는 컨텐츠의 속성 정보를 컨텐츠 속성 저장 데이터베이스로부터 검색함으로써, 디스플레이 장치 100로부터 수신된 텍스트나, 텍스트 영역, 또는 로고 이미지 에 대응하는 컨텐츠 속성 정보를 획득할 수 있다. 컨텐츠 속성 정보는, 컨텐츠의 카데고리, 장르, 시청 가능 연령 정보 등 컨텐츠에 대한 다양한 메타 데이터를 포함할 수 있다.

도 3을 참조하면, 디스플레이 장치 100는 입출력부 110, 통신부 120, 비디오 처리부 130, 디스플레이 140, 오디오 처리부 150, 오디오 출력부 160, 메모리 170, 제어부 180, 감지부 190를 포함할 수 있다.

입출력부 110는 제어부 180의 제어에 의해 디스플레이 장치 100의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신할 수 있다. 입출력부 110는 HDMI 포트(High-Definition Multimedia Interface port), 컴포넌트 잭(component jack), PC 포트(PC port), 및 USB 포트(USB port) 중 하나를 포함하거나, 하나 이상의 조합을 포함할 수 있다. 입출력부 110는 HDMI 포트 이외에도 디스플레이 포트 (DisplayPort; DP), 썬더볼트 (Thunderbolt), MHL (Mobile High-Definition Link)를 더 포함할 수 있다.

통신부 120는 디스플레이 장치 100과 무선 통신 시스템 사이 또는 디스플레이 장치 100과 다른 전자 장치가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 통신부 120는 방송 수신 모듈 121, 이동통신 모듈 122, 무선 인터넷 모듈 123 및 근거리 통신 모듈 124을 포함할 수 있다.

방송 수신 모듈 121은, 방송 신호를 수신하기 위한 모듈을 포함할 수 있다.

이동통신 모듈 122는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

무선 인터넷 모듈 123은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 디바이스에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(WiFi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 상기 무선 인터넷 모듈을 통해서 상기 디바이스는 다른 디바이스와 와이 파이(Wi-Fi) P2P(Peer to Peer)연결을 할 수 있다.

근거리 통신 모듈 124는 근거리 통신을 위한 모듈을 말한다. 근거리 통신 기술로 블루투스(Bluetooth), BLE(Bluetooth Low Energy), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.

비디오 처리부 130, 디스플레이 140, 오디오 처리부 150는 앞서 도 2에서 설명한 바와 같다.

오디오 출력부 160는 통신부120 또는 입출력부110를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부165는 제어부180의 제어에 의해 메모리 170에 저장된 오디오를 출력할 수 있다. 오디오 출력부160는 스피커161, 헤드폰 출력 단자162 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자163 중 적어도 하나 또는 그 조합을 포함할 수 있다.

감지부190는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지하며, 마이크191, 카메라부192 및 광 수신부193를 포함할 수 있다.

마이크191는 사용자의 발화(utterance)된 음성을 수신한다. 마이크191는 수신된 음성을 전기 신호로 변환하여 제어부180로 출력할 수 있다. 사용자 음성은 예를 들어, 디스플레이 장치 100의 메뉴 또는 기능에 대응되는 음성을 포함할 수 있다.

카메라부192는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신할 수 있다. 제어부180는 수신된 모션의 인식 결과를 이용하여 디스플레이 장치 100에 표시되는 메뉴를 선택하거나 모션 인식 결과에 대응되는 제어를 할 수 있다.

광 수신부193는 외부의 제어 장치에서부터 수신되는 광 신호(제어 신호를 포함)를 수신한다. 광 수신부193는 제어 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 제어부180의 제어에 의해 제어 신호가 추출될 수 있다.

일 실시예에 따라 메모리 170는 컨텐츠 실행 환경 제어 모듈 171, 제1신경망 모델 데이터베이스 172, 제2신경망 모델 데이터베이스 173을 포함할 수 있다.

컨텐츠 실행 환경 제어 모듈 171은 디스플레이 130에 표시되는 컨텐츠에 적합하게 디스플레이 장치 100의 환경 정보를 관리하고 제어하는 하나 이상의 인스트럭션을 포함할 수 있다. 컨텐츠 실행 환경 제어 모듈 171은 제1신경망 모델 데이터베이스 172 및 제2신경망 모델 데이터베이스 173을 참조하여, 전자 장치 200로부터 수신되는 영상 화면을 분석함으로써 컨텐츠의 실행 시작 시점을 검출하고, 컨텐츠의 실행 시작 시점 이후에 수신되는 영상 화면을 분석하여 컨텐츠를 속성 정보를 획득하고, 획득된 컨텐츠의 속성 정보를 기반으로 컨텐츠의 실행환경을 제어하는 하나 이상의 인스트럭션을 포함할 수 있다. 본 개시서에서 "컨텐츠 실행 환경의 제어"는 전자 장치 200로부터 수신된 영상 화면을 디스플레이 장치 100가 표시할 때, 디스플레이 장치 100에 표시되는 영상 화면의 특징에 적합하게 사용자게 더 좋은 경험을 제공할 수 있도록 디스플레이 장치 100의 설정 환경을 제어하는 것을 의미한다. 실제로 컨텐츠의 실행은 전자 장치 200에서 수행되고 디스플레이 장치 100는 전자 장치 200로부터 컨텐츠 실행 화면을 제공받아서 표시하는 것이지만, 편의상 디스플레이 장치 100에서 실행 화면에 맞게 설정 정보를 제어하는 것을 "컨텐츠 실행 환경 제어"라고 칭하기로 한다.

제1신경망 모델 데이터베이스 172는 전자 장치 200로부터 수신되는 영상을 분석하여 컨텐츠의 실행이 시작되는 지를 판단하기 위해 이용되는 복수의 제1신경망 모델을 포함할 수 있다. 디스플레이 장치 100에 복수의 서로 다른 전자 장치가 연결될 수 있는 경우에, 복수의 서로 다른 전자 장치는 각 전자 장치 마다 해당 전자 장치 전용의 유저 인터페이스 화면을 이용하기 때문에, 제1신경망 모델은 각 전자 장치 마다 대응되게 학습되는 것이 바람직할 수 있다. 따라서, 제1신경망 모델 데이터베이스 172는 복수의 전자 장치의 각 전자 장치에 대응되게 학습된 복수의 제1신경망 모델을 포함할 수 있다. 도 3에서는 제1신경망 모델 데이터베이스 172는 제1전자 장치의 유저 인터페이스 화면을 이용하여 학습된 제1신경망 모델 410, 제2전자 장치의 유저 인터페이스 화면을 이용하여 학습된 제1신경망 모델 420, 제3전자 장치의 유저 인터페이스 화면을 이용하여 학습된 제1신경망 모델 430을 포함할 수 있다. 예를 들어, 제1게임 콘솔 장치에 대해서 제1게임 콘솔 장치에서 출력하는 유저 인터페이스 화면들을 이용하여 제1신경망 모델을 학습시킴으로써 제1게임 콘솔 장치에 대응하는 제1신경망 모델을 획득할 수 있고, 제2게임 콘솔 장치에 대해서 제2게임 콘솔 장치에서 출력하는 유저 인터페이스 화면들을 이용하여 제1신경망 모델을 학습시킴으로써 제2게임 콘솔 장치에 대응하는 제1신경망 모델을 획득할 수 있다.

제2신경망 모델 1300은 전자 장치 200로부터 수신되는 영상을 분석하여 컨텐츠의 속성 정보를 획득하기 위해 이용되는 신경망 모델을 나타낼 수 있다.

이와 같이 제1신경망 모델 데이터베이스 172에 포함되는 신경망 모델은 디스플레이 장치 100의 제조시에 메모리에 저장될 수 있거나, 또는 디스플레이 장치 100의 제조 후에 서버로부터 다운로드 되어 저장될 수 있다. 또한 이와 같은 신경망 모델은 주기적으로 또는 비주기적으로 서버를 통해서 업데이트될 수 있다.

도 3에 도시된 디스플레이 장치 100에는 메모리 170가 제1신경망 모델 데이터베이스 172 및 제2신경망 모델 데이터베이스 173을 저장하는 것으로 도시되어 있지만, 제1신경망 모델 데이터베이스 172와 제2신경망 모델 데이터베이스 173은 반드시 디스플레이 장치 100에 저장될 필요는 없다. 제1신경망 모델 데이터베이스 172와 제2신경망 모델 데이터베이스 173은 서버 컴퓨터에 존재하고 디스플레이 장치 100는 서버 컴퓨터에 제1신경망 모델을 참조하는 질의 나 제2신경망 모델을 참조하는 질의를 전송하고 서버 컴퓨터로부터 질의에 대한 응답을 수신할 수도 있을 것이다.

디스플레이 장치 100는 복수의 서로 다른 전자 장치들이 연결될 수 있고, 디스플레이 장치 100는 서로 다른 전자 장치들 각각으로부터 영상을 수신하여 표시할 수 있다.

전자 장치들은 각각 전자 장치 자신이 제공하는 유저 인터페이스 환경을 사용할 수 있다. 예를 들어 도 4a를 참조하면, 제1전자 장치 200a가 제공하는 메인 화면 411의 포맷과, 제2전자 장치 200b가 제공하는 메인 화면 421의 포맷과, 제3전자 장치 200c가 제공하는 메인 화면 431의 포맷은 모두 서로 상이하다. 이와 같이 각 전자 장치에서 제공되는 UI 화면은 모두 상이하기 때문에, 디스플레이 장치 100에 어떤 전자 장치가 연결된 경우에, 디스플레이 장치 100는 연결된 전자 장치에서 제공하는 UI 화면을 이용하여 학습된 신경망 모델을 이용하여, 해당 전자 장치에서 수신되는 영상을 분석하는 것이 보다 정확한 결과를 얻을 수 있다.

따라서 제1전자 장치 200a에 대응하는 제1신경망 모델은 제1전자 장치 200에서 제공되는 UI 화면들 411을 훈련 데이터로 이용하여 학습함으로써 얻어질 수 있다. 마찬가지로 제2전자 장치 200b에 대응하는 제2신경망 모델 420는 제2전자 장치 200에서 제공되는 UI 화면 421들을 훈련 데이터로 이용하여 학습함으로써 얻어질 수 있다. 또한 제3전자 장치 200c에 대응하는 제3신경망 모델 430은 제3전자 장치 200c에서 제공되는 UI 화면들 431을 훈련 데이터로 이용하여 학습함으로써 얻어질 수 있다.

도 4b를 참조하면, 제1전자 장치에 대응하는 신경망 모델 410은 제1전자 장치에서 제공하는 UI 화면들을 이용하여 학습함으로써 얻어질 수 있다. 구체적으로, 제1전자 장치에 대응하는 신경망 모델 410는 제1전자 장치에서 제공하는 UI 화면들 중 컨텐츠 실행 불가능 UI 화면들 412과 컨텐츠 실행 가능 UI 화면들 413을 분류하여 학습시킴으로써 얻어질 수 있다.

제1전자 장치에서는 컨텐츠의 실행을 위해 다양한 UI 화면들을 제공할 수 있다. 예를 들어, 예를 들어 제1전자 장치는 제1전자 장치의 설정을 변경할 수 있도록 하는 설정 UI 화면, 제1전자 장치에서 실행할 수 있는 컨텐츠의 아이템들을 표시하여 선택할 수 있도록 하는 메뉴 UI 화면, 제1전자 장치의 로고를 표시하는 화면, 선택된 컨텐츠 제작사의 로고 화면, 선택된 컨텐츠 로고 화면 등을 제공할 수 있다. 이러한 화면들 중에서 설정 UI 화면이나 로고 표시 화면에서는 컨텐츠의 실행을 위한 조작을 할 수 없으므로 컨텐츠 실행 불가능 UI 화면 412으로 분류되고, 메뉴 UI 화면에서는 컨텐츠의 실행을 위한 조작을 할 수 있으므로 컨텐츠 실행 가능 UI 화면 413으로 분류될 수 있다.

제1전자 장치에 대응하는 신경망 모델은 이와 같이 제1전자 장치에서 제공하는 UI 화면들 중 컨텐츠 실행 가능 UI 화면 413으로 태그가 붙여진 UI 화면들과 컨텐츠 실행 불가능 UI 화면 412으로 태그가 붙여진 UI 화면들을 입력받아 학습함으로써, 컨텐츠 실행 가능 UI 화면일 확률 또는 컨텐츠 실행 불가능 UI 화면일 확률 중 적어도 하나를 결과 414로 출력할 수 있다.

도 4b에서는 제1전자 장치에 대응하는 신경망 모델을 도시하였다. 각 전자 장치는 각 전자 장치에서 각각 사용되는 고유 UI 화면들이 있을 것이므로, 이와 같이 컨텐츠 실행 가능 UI 화면인지 컨텐츠 실행 불가능 UI 화면인지를 판단하는 신경망 모델은 각 전자 장치 마다 학습시키는 것이 바람직할 수 있다. 따라서, 제2전자 장치에 대응하는 신경망 모델은 제2전자 장치에서 제공하는 UI 화면들 중 컨텐츠 실행 가능 UI 화면으로 태그가 붙여진 UI 화면들과 컨텐츠 실행 불가능 UI 화면으로 태그가 붙여진 UI 화면들을 입력받아 학습함으로써, 컨텐츠 실행 가능 UI 화면일 확률 또는 컨텐츠 실행 불가능 UI 화면일 확률 중 적어도 하나를 결과로 출력할 수 있다.

태그가 붙여진 UI 화면들을 입력받아 학습함으로써 입력된 UI 화면의 카테고리를 결과로 출력하는 신경망 모델은 DNN (Deep Neural Network)등을 이용할 수 있다.

도 5를 참조하면, 동작 510에서, 디스플레이 장치 100는 연결된 전자 장치로부터 수신된 영상의 화면을 표시할 수 있다.

디스플레이 장치 100는 전자 장치 200와 유선 또는 무선으로 통신 연결 후 전자 장치 200로부터 영상 화면을 수신하고, 수신된 영상 화면을 디스플레이에 표시할 수 있다. 디스플레이 장치 100가 전자 장치 200로부터 수신되는 영상 화면은 예를 들어, 설정 UI 화면, 메뉴 UI 화면, 로고 표시 화면, 실제 컨텐츠 영상 화면 등을 포함할 수 있다.

동작 520에서, 디스플레이 장치 100는 제1신경망 모델을 이용하여, 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단할 수 있다.

제1신경망 모델은 표시된 영상 화면을 입력받아 분석함으로써 입력된 화면이 컨텐츠 실행 가능 UI 화면 인지 컨텐츠 실행 불가능 UI 화면인지 판단하도록 학습된 신경망 모델을 나타낼 수 있다. 구체적으로 제1신경망 모델은 영상 화면을 입력받아 분석함으로써 입력된 화면이 컨텐츠 실행 가능 UI 화면일 확률 또는 컨텐츠 실행 불가능 UI 화면일 확률 중 적어도 하나를 출력함으로써 입력된 화면이 컨텐츠 실행 가능 UI 화면 인지 컨텐츠 실행 불가능 UI 화면 인지를 판단할 수 있다. 예를 들어, 제1신경망 모델이 영상 화면을 분석하여 컨텐츠 실행 가능 UI 화면일 확률이 90% 이상으로 나오면, 이 영상 화면은 컨텐츠 실행 가능 UI 화면인 것으로 판단할 수 있다.

디스플레이 장치 100는 표시된 영상 화면이 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환된 경우에 컨텐츠 실행이 시작되는 것으로 판단할 수 있다. 예를 들어, 디스플레이 장치 100는 제1신경망 모델을 통해 영상 분석한 결과가 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환된 경우에 컨텐츠 실행이 시작되는 것으로 판단할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 연결된 전자 장치 200에 대응하여 학습된 제1신경망 모델을 이용하여, 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단할 수 있다.

동작 520에서, 디스플레이 장치 100는 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단한 결과, 컨텐츠 실행이 시작된다고 판단되지 않은 경우에 지속적으로 영상 화면을 분석할 수 있다.

동작 520에서, 디스플레이 장치 100는 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지를 판단한 결과, 컨텐츠 실행이 시작된다고 판단된 경우에 동작 530으로 진행할 수 있다.

동작 530에서, 컨텐츠 실행이 시작된다고 판단됨에 따라 디스플레이 장치 100는 제2신경망 모델을 호출할 수 있다.

제2신경망 모델은 영상 화면을 입력받아 분석함으로써 입력된 화면으로부터 컨텐츠의 속성 정보를 도출할 수 있는 텍스트 영역이나 로고 영역을 추출하도록 학습된 신경망 모델을 나타낼 수 있다.

동작 540에서, 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면을 분석함으로써 컨텐츠의 속성 정보를 획득할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면의 텍스트 영역이나 로고 영역으로부터 텍스트나 로고를 획득하고, 이와 같이 획득된 텍스트나 로고를 이용하여 컨텐츠의 속성 정보를 획득할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면의 텍스트 영역이나 로고 영역 또는 텍스트 영역이나 로고 영역에서 추출된 텍스트나 로고를 서버에 전송하고, 서버로부터 텍스트나 로고에 매칭되는 컨텐츠의 속성 정보를 획득할 수 있다. 컨텐츠의 속성 정보는 컨텐츠의 타이틀, 컨텐츠의 카테고리 등을 포함하는 메타데이터를 포함할 수 있다.

동작 550에서, 디스플레이 장치 100는 획득된 컨텐츠의 속성 정보에 기초하여 컨텐츠의 영상의 실행 환경을 제어할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 컨텐츠의 속성 정보에 기초하여 해당 컨텐츠에 적합한 화질을 설정하거나, 해당 컨텐츠에 적합한 음향을 설정하거나, 또는 해당 컨텐츠에 적합한 시청 연령 제한 서비스 등을 제공할 수 있다.

도 6을 참조하면, 디스플레이 장치 100에 전자 장치 200의 연결에 디스플레이 장치 100는 전자 장치 200로부터 전자 장치 200에서 출력하는 영상 600을 수신할 수 있다. 디스플레이 장치 100는 영상 600을 프레임 단위로 수신할 수 있다.

디스플레이 장치 100는 연결된 전자 장치 200로부터 프레임 단위의 영상을 수신하면 수신된 영상을 분석하여 컨텐츠 실행 시작을 검출하기 까지 컨텐츠 실행 시점 판단 모드 610로 동작할 수 있다.

컨텐츠 실행 시점 판단 모드 610에서 디스플레이 장치 100는 제1신경망 모델을 이용하여 컨텐츠 실행 시점 판단 동작 630을 수행할 수 있다. 예를 들어, 디스플레이 장치 100는 수신된 영상 프레임을 제1신경망 모델에 입력하여 분석한 결과 k-1 번째 프레임이 컨텐츠 실행 가능 UI 화면으로 판단되고 k번째 프레임이 컨텐츠 실행 불가능 UI 화면으로 판단된 경우, 디스플레이 장치 100는 컨텐츠 실행이 시작되었음을 검출 (640) 할 수 있다. 디스플레이 장치 100는 컨텐츠 실행 시점 검출되기 까지 전자 장치 200로부터 수신되는 프레임에 대해서 매 프레임 마다 또는 일정한 시간 간격, 예를 들어 100ms 간격으로 샘플링하여 프레임을 분석할 수 있다.

디스플레이 장치 100는 컨텐츠 실행 시작 검출 (640)이 된 경우, 더 이상 제1신경망 모델을 이용하지 않고 제2신경망 모델을 호출하여 컨텐츠 속성 인식 동작 650을 수행할 수 있다. 디스플레이 장치 100는 제2신경망 모델을 이용하여 컨텐츠 속성 인식 동작 650을 수행하는 컨텐츠 속성 인식 모드 620를 컨텐츠 속성 인식이 성공할 때까지 유지할 수 있다. 디스플레이 장치 100는 컨텐츠 속성 인식이 성공할 때까지 전자 장치 200로부터 수신되는 프레임에 대해서 일정한 간격으로 샘플링하여 프레임을 분석할 수 있다.

컨텐츠 속성 인식 모드 620에서 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상 화면으로부터 텍스트 영역이나 로고 영역을 검출하고, 검출된 텍스트 영역이나 로고 영역에서 추출된 텍스트나 로고에 기반하여 컨텐츠 속성 정보를 획득할 수 있다. 디스플레이 장치 100는 제2신경망 모델을 이용하여 영상을 분석함으로써 컨텐츠 속성 인식에 성공 (660) 하면 컨텐츠의 속성에 기반하여 컨텐츠의 실행 환경을 제어 (670) 할 수 있다.

이하에서는 도 7 내지 도 16을 참조하여 본 개시서에 개시된 디스플레이 장치의 동작을 구체적으로 설명한다.

도 7을 참조하면, 동작 710에서 전자 장치 200와 디스플레이 장치 100는 연결할 수 있다.

일 실시예에 따라 디스플레이 장치 100와 전자 장치 200는 유선 통신을 통해 연결할 수 있다. 예를 들어, 디스플레이 장치 100와 전자 장치 200는 HDMI 케이블을 통해 연결될 수 있으며 이때 디스플레이 장치 100의 입출력부 110와 전자 장치 100의 입출력부 210는 HDMI 통신 프로토콜에 따라 통신할 수 있다.

일 실시예에 따라 디스플레이 장치 100와 전자 장치 200는 무선 통신을 통해 연결할 수 있다. 예를 들어, 디스플레이 장치 100와 전자 장치 200는 블루투스, BLE, 지그비, 와이파이 등의 무선 통신을 통해 연결할 수 있으며 이때 디스플레이 장치 100와 전자 장치 200는 각 통신 프로토콜에 따라 통신할 수 있다.

동작 720에서, 디스플레이 장치 100는 전자 장치 200로부터 전자 장치 200의 기기 정보를 수신할 수 있다.

일 실시예에 따라 디스플레이 장치 100와 전자 장치 200가 HDMI 케이블로 연결된 경우, 디스플레이 장치 100는 HDMI-CEC 또는 HDMI Info frame을 이용하여, 전자 장치 200에 대한 기기 정보를 수신할 수 있다. 이때, 기기 정보는, 전자 장치 200의 디바이스 타입, 제조사, 사업자 명 및 모델명 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다.

일 실시예에 따라 디스플레이 장치 100와 전자 장치 200가 무선 통신으로 연결된 경우, 디스플레이 장치 100는 연결된 무선 통신 프로토콜에 따라서, 전자 장치 200에 대한 기기 정보를 수신할 수 있다. 이때, 기기 정보는, 전자 장치 200의 디바이스 타입, 제조사, 사업자 명 및 모델명 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다.

동작 730에서, 디스플레이 장치 100는 전자 장치 200로부터 수신된 기기 정보로부터 전자 장치 200를 식별할 수 있다.

동작 740에서, 디스플레이 장치 100는 식별된 전자 장치 200에 대응하는 제1신경망 모델을 획득할 수 있다. 디스플레이 장치 100는 도 3을 참조하여 설명한 바와 같이, 디스플레이 장치 100에 연결될 수 있는 하나 이상의 전자 장치 각각에 대해서 학습된 제1신경망 모델을 포함하는 제1신경망 모델 데이터베이스 172를 포함할 수 있다. 디스플레이 장치 100는 이러한 제1신경망 모델 데이터베이스 172로부터 식별된 전자 장치에 대응하는 신경망 모델을 획득할 수 있다. 예를 들어 디스플레이 장치 100는 전자 장치가 제1전자 장치로 식별된 경우, 제1전자 장치에 대응하는 제1신경망 모델을 획득할 수 있다.

도 8은 일 실시예에 따라 디스플레이 장치 100에서 컨텐츠 실행 시작 시점을 검출하는 방법의 과정을 나타내는 흐름도이다. 도 8에 도시된 동작은 도 7에 도시된 동작 이후 수행될 수 있다.

도 8을 참조하면, 동작 810에서, 디스플레이 장치 100와 전자 장치 200의 연결되고 나서 전자 장치 200는 디스플레이 장치 100로 영상을 전송할 수 있다.

동작 820에서, 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상을 화면에 표시함과 함께, 제1신경망 모델을 이용하여, 표시된 영상 화면을 분석할 수 있다. 제1신경망 모델은 예를 들어 도 7에 도시된 동작을 통해 획득될 수 있다.

동작 830에서, 디스플레이 장치 100는 영상 화면 분석에 따라 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환되는지를 판단할 수 있다.

디스플레이 장치 100는 전자 장치 200로부터 수신된 영상을 프레임 단위로 분석하는데 수신된 영상 프레임을 제1신경망 모델에 입력함으로써 입력된 영상 프레임이 컨텐츠 실행 가능 UI 화면인지 컨텐츠 실행 불가능 UI 인지를 판단할 수 있다. 디스플레이 장치 100는 제1신경망 모델로부터 출력되는 결과를 이용하여 영상 화면이 컨텐츠 실행 가능 UI 화면으로부터 컨텐츠 실행 불가능 UI 화면으로 전환되는 지를 판단할 수 있다. 컨텐츠 실행 가능 UI 화면에 이어서 컨텐츠 실행 불가능 UI 화면이 나오는 경우 이는 사용자가 컨텐츠 실행 가능 UI 화면에서 어떤 컨텐츠를 선택하여 해당 컨텐츠가 실행된 것으로, 즉, 컨텐츠 실행이 시작된 것으로 판단될 수 있다.

도 9를 참조하면, 디스플레이 장치 100는 디스플레이 장치 100에 연결된 전자 장치 200로부터 영상 화면 즉, 설정 UI 910, 메뉴 UI 화면 920, 장치 로고 표시 화면 930을 순차적으로 수신한다고 가정한다.

디스플레이 장치 100는 전자 장치 200로부터 수신된 설정 UI 화면 910을 전자 장치 200에 대응하는 제1신경망 모델 400에 입력함으로써 해당 입력 화면이 컨텐츠 실행 불가능 UI 화면이라는 결과를 얻을 수 있다. 디스플레이 장치 100는 이어서 수신된 메뉴 UI 화면 920을 전자 장치 200에 대응하는 제1신경망 모델 400에 입력함으로써 해당 입력 화면이 컨텐츠 실행 가능 UI 화면이라는 결과를 얻을 수 있다. 이 경우에 설정 UI 화면 910에서 메뉴 UI 화면 920로의 전환은 컨텐츠 실행 불가능 UI 화면에서 컨텐츠 실행 가능 UI 화면으로 전환된 것이므로 동작 830의 조건을 만족하지 않는 것으로 판단할 수 있다.

다음 디스플레이 장치 100는 이어서 수신된 장치 로고 출력 화면 930을 전자 장치 200에 대응하는 제1신경망 모델 400에 입력함으로써 해당 입력 화면이 컨텐츠 실행불 가능 UI 화면이라는 결과를 얻을 수 있다. 이 경우에 메뉴 UI 화면 920에서 장치 로고 출력 화면 930으로의 전환은 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환된 것이므로 동작 830의 조건을 만족하는 것으로 판단할 수 있다.

다시 도 8로 돌아가서, 동작 830의 판단 결과 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환되었다고 판단되지 않는 경우에 디스플레이 장치 100는, 전자 장치 200로부터 수신되는 영상을 분석하기 위해 동자 820으로 진행할 수 있다.

동작 830의 판단 결과 컨텐츠 실행 가능 UI 화면에서 컨텐츠 실행 불가능 UI 화면으로 전환되었다고 판단된 경우에 동작 840으로 진행할 수 있다.

동작 840에서, 디스플레이 장치 100는 컨텐츠 실행 시작 시점을 검출한 것으로 판단할 수 있다.

동작 850에서, 디스플레이 장치 100는 컨텐츠 실행 시작 시점 검출에 따라서, 실행된 컨텐츠를 인식하기 위해 제2신경망을 호출할 수 있다. 제2신경망은 영상 화면을 분석하여 텍스트 영역이나 로고 영역을 검출하도록 학습된 신경망을 나타낼 수 있다.

딥 뉴럴 네트워크는 학습 데이터를 통한 학습을 수행할 수 있다. 그리고, 학습된 딥 뉴럴 네트워크는 객체 인식을 위한 연산인 추론 연산을 수행할 수 있다. 여기서, 딥 뉴럴 네트워크는 모델의 구현 방식(예를 들어, CNN(Convolution Neural Network) 등), 결과의 정확도, 결과의 신뢰도, 프로세서의 연산 처리 속도 및 용량 등에 따라 매우 다양하게 설계될 수 있다.

도 10은 일 실시예에 따른 컨볼루션 신경망의 구조를 나타내는 도면이다.

도 10을 참조하면, 컨볼루션 신경망 1000은, 입력 영상 1010가 입력되고, N개의 컨볼루션 레이어들 1020을 통과하여, 출력 데이터 1030가 출력되는 구조를 가진다. 이때, 컨볼루션 신경망 1000은 2개 이상의 컨볼루션 레이어를 포함하는 딥 컨볼루션 신경망일 수 있다.

일 실시예에 따른 디스플레이 장치 100는 컨볼루션 신경망 1000을 이용하여, 입력 영상으로부터 테두리, 선, 색 등과 같은 "특징들(features)"을 추출할 수 있다. 컨볼루션 신경망 1000에 포함되는 N개의 컨볼루션 레이어들 1020 각각에서는 데이터를 수신하고, 수신된 데이터를 처리하여, 출력 데이터를 생성할 수 있다. 예를 들어, 신경망은 컨볼루션 레이어에 입력된 영상을 하나 이상의 커널들 또는 필터들과 컨볼루션하여, 제1 특징 맵 1021을 생성할 수 있다. 또한, 생성된 제1특징 맵을 서브샘플링하여 제2특징 맵 1022를 획득하고, 제2 특징 맵 1022를 제2 컨볼루션 레이어로 입력하여, 제2 컨볼루션 레이어에서 입력된 제2 특징 맵을 하나 이상의 커널들 또는 필터들과 컨볼루션하여, 제3 특징 맵 1023을 생성할 수 있다.

컨볼루션 신경망 1000의 초기 컨볼루션 레이어들은 입력 영상으로부터 에지들 또는 그레디언트들과 같은 낮은 레벨의 특징들을 추출하도록 동작될 수 있다. 후기 컨볼루션 레이어들로 갈수록 점진적으로 복잡한 특징들을 추출할 수 있다.

컨볼루션 신경망 1000 내에서 특징 맵을 입력받고 출력하는 하나 이상의 컨볼루션 레이어들은 히든(hidden) 레이어들(예를 들어, 히든 컨볼루션 레이어들)일 수 있다. 또한, 컨볼루션 신경망 1000 에서는 특징 맵에 하나 이상의 커널들을 적용하여 컨볼루션하는 연산 이외에 다른 프로세싱 연산들이 수행될 수 있다. 예를 들어, 활성화 함수(activation function), 풀링(pooling) 등의 연산들이 수행될 수 있다. 영상 처리 장치는 컨볼루션 연산을 수행한 결과 추출된 특징 맵의 값들을 컨텐츠 실행 가능 UI 화면의 특징이 "있다 또는 없다"의 비선형적인 값으로 바꿔주기 위해 활성화 함수를 적용할 수 있다. 이때, ReLu 함수가 사용될 수 있으나, 이에 한정되지 않는다.

도 11을 참조하면, 동작 1110에서, 디스플레이 장치 100는 제2신경망 모델을 이용하여 컨텐츠 영상 화면을 분석할 수 있다. 일 예에 따라 디스플레이 장치 100는 도 8에 도시된 동작에 따라 획득될 수 있다.

제2신경망 모델은 입력 영상으로부터 하나 이상의 오브젝트를 검출하는데 이용되는 신경망으로서, 예를 들어, Faster R-CNN, R_FCN[Region-based Fully Convolutional Networks] and FPN-FRCN 같은 이 단계 방식 알고리즘(two stage methods) 나 YOLO, SSD[Single Shot Mutibox Detector], RetinaNet와 같은 일 단계 방식 (Single stage methods) 알고리즘을 포함할 수 있다.

일 실시예에 따라 제2신경망 모델은 텍스트가 포함된 복수의 입력 영상과 로고 이미지가 포함된 복수의 입력 영상을 학습함으로써, 입력 화면으로부터 텍스트나 로고가 포함된 오브젝트를 검출하는 오브젝트 검출 모델을 포함할 수 있다.

오브젝트 검출 모델은 하나 이상의 뉴럴 네트워크를 이용하여 입력 영상으로부터 하나 이상의 오브젝트를 검출하고, 검출된 하나 이상의 오브젝트에 대응하는 오브젝트 클래스 및 오브젝트 위치를 포함하는 오브젝트 정보를 출력할 수 있다.

오브젝트 검출 (object detection)은 주어진 이미지에서 오브젝트들이 어디에 위치하는지 결정하고(object localization), 각 오브젝트가 어느 카테고리에 속하는지를 결정(object classification) 하는 것이다. 따라서 일반적으로 오브젝트 검출 모델은 세가지 단계, 즉, 오브젝트 후보 영역 선택(informative region selection), 각 후보 영역으로부터 특징 추출(feature extraction), 및 추출한 특징에 분류기를 적용하여 오브젝트 후보 영역의 클래스 분류(classification)를 거칠 수 있다. 검출 방법에 따라 이후 바운딩 박스 리그레션과 같은 후 처리를 통해 localization 성능을 높일 수 있다.

도 12를 참조하면, 오브젝트 검출 모델의 일 예에 따라 영역 제안과 CNN을 결합한 오브젝트 검출 방법인 R-CNN의 네트워크 구조를 나타낸다.

도 12를 참조하면, 오브젝트 검출 모델 1200은 영역 제안 모듈 1210, CNN 1220, 분류기 모듈 1230, 바운딩 박스 리그레션 모듈 1240을 포함할 수 있다.

영역 제안 모듈 (Region proposal module) 1210은 입력 영상 200에서 후보 영역을 추출한다. 후보 영역은 일정한 개수가 될 수 있는데 예를 들어 2000개가 될 수 있다. R-CNN은 영역 제안 알고리즘(Region proposal algorithm) 중 하나인 선택적 서치(selective-search)를 이용한다.

CNN (Convolutional Neural Network) 1220은 영역 제안 모듈 1210이 생성한 영역에서 고정 길이 특징 벡터(fixed-length feature vector) 를 추출한다. CNN (eg. AlexNet, VggNet 등)은 일정한 크기의 입력을 받으므로, 영역 제안 알고리즘이 이미지에 대해서 주는 다양한 직사각형 모양의 영역을 크기나 종횡비에 상관없이 와핑(warping)하여 일정한 크기에 맞추는 것이 필요하다. CNN은 와핑(warping)된 영역을 수신하여 분류기 모듈 이전의 레이어의 결과를 추출한다.

분류기 모듈 (Linear svm module) 1230은 고정 길이 특징 벡터를 입력으로 받아 분류(classification)을 수행한다. 예를 들어 분류기 모듈 1230은 오브젝트가 텍스트에 해당하는지 로고에 해당하는지 분류할 수 있을 것이다.

바운딩 박스 리그레션 모듈 (Bounding-box regression module) 1240은 고정 길이 특징 벡터를 입력으로 받아 박스(box)를 표현하는 네 가지의 숫자 (x, y, w, h)를 계산한다. 박스를 표현하는 네 가지 숫자 (x, y, w, h)에 의해 오브젝트의 위치가 특정될 수 있다.

즉, R-CNN은 영역 제안 추출을 통해 오브젝트의 로컬리제이션을 수행하고, 추출된 특징의 분류를 통해 오브젝트의 클래스를 인식함으로써 객체 검출을 수행하게 된다. 그리고 바운딩 박스 리그레션을 수행함으로써 로컬리제이션 에러를 줄이는 과정을 거칠 수 있다.

이러한 오브젝트 검출 모델 1200의 학습(training)은, 미리 학습된 CNN을 오브젝트 검출 작업에 맞게 변형하기 위해서 기존에 미리 학습된 CNN에서 분류 층(예를 들어 출력 층)을 새롭게 오브젝트 검출을 위해 "오브젝트의 개수 + 배경" 로 바꾸고, 해당 부분만 가중치 초기화(weight initialization)를 한다.

예를 들어, 이와 같은 오브젝트 검출 모델에 의해 입력 이미지로부터 하나 이상의 오브젝트를 검출할 수 있다. 오브젝트 정보 1250는 하나 이상의 오브젝트에 대한 정보를 포함하며, 각 오브젝트 정보는 (오브젝트 클래스, 위치)로 표시될 수 있다. 여기서 오브젝트 클래스는 로고 인지 텍스트 인지를 나타낼 수 있다.

다시 도 11로 돌아가서, 동작 1120에서, 디스플레이 장치 100는 컨텐츠 영상 화면으로부터 텍스트 영역 또는 로고 영역이 추출되었는지를 판단할 수 있다.

동작 1120의 판단 결과, 컨텐츠 영상 화면으로부터 텍스트 영역이나 로고 영역이 검출되지 않은 경우에는 다음 화면을 분석하기 위해 동작 1110으로 진행할 수 있다.

동작 1120의 판단 결과, 컨텐츠 영상 화면으로부터 텍스트 영역이나 로고 영역이 검출된 경우 동작 1130으로 진행할 수 있다.

동작 1130에서, 디스플레이 장치 100는 검출된 로고 텍스트 영역 또는 로고 영역에 기반하여 컨텐츠의 속성 정보를 획득할 수 있다.

일 실시예에 따라 디스플레이 장치 100는 영상 화면으로부터 텍스트 영역을 검출한 경우에, 텍스트 영역으로부터 텍스트를 추출하고, 추출된 텍스트를 기반으로 컨텐츠의 속성 정보를 획득할 수 있다. 디스플레이 장치 100는 OCR (Optical Character Recognition) 등의 기술을 이용하여 텍스트 영역으로부터 텍스트를 추출할 수 있다. 디스플레이 장치 100는 텍스트 영역으로부터 추출된 텍스트를 컨텐츠들에 대한 정보를 관리하는 서버 300로 전송하고, 서버 300로부터 텍스트에 대응하는 컨텐츠의 속성 정보를 수신할 수 있다. 예를 들어, 서버는 디스플레이 장치 100로부터 텍스트를 수신하고, 텍스트에 대응하는 컨텐츠를 검색하여 해당 컨텐츠에 대한 정보를 찾으면, 컨텐츠에 관한 정보, 예를 들어, 컨텐츠의 카테고리, 장르, 시청 연령 가능 정보 등의 속성 정보를 추출하고 추출된 컨텐츠의 속성 정보를 디스플레이 장치 100로 전송할 수 있다. 만약 서버는 디스플레이 장치 100로부터 수신된 텍스트가, 완전한 텍스트가 아니거나 또는 텍스트를 이용하여 컨텐츠를 검색하였지만 관련 컨텐츠를 찾지 못한 경우에 서버 300는 디스플레이 장치 100로 검색 실패 라는 결과를 전송할 수 있다.

도 13을 참조하면, 디스플레이 장치 100는 디스플레이 장치 100에 연결된 전자 장치 200로부터 영상 화면 930 내지 980을 순차적으로 수신한다고 가정한다.

디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 930을 영상으로부터 오브젝트 영역, 예를 들어, 텍스트 영역이나 로고 영역을 검출하도록 학습된 제2신경망 모델 1300에 입력함으로써 해당 영상 화면 930으로부터 로고 영역 검출 결과 931를 얻을 수 있다. 디스플레이 장치 100는 이어서 검출된 로고 영역 이미지를 서버 300로 전송할 수 있다. 서버 300는 디스플레이 장치 100로부터 수신한 로고 영역 이미지를 이용하여 이미지 검색 등의 동작을 수행하여 해당 로고 영역 이미지가 어떤 컨텐츠와 관련된 것인지를 분석할 수 있다. 로고 영역 이미지 931은 어떤 특정한 컨텐츠와 관련된 것이 아니라 특정한 전자 장치에 관련된 로고 이미지 라면 서버는 검색 실패라는 결과를 디스플레이 장치 100로 전송할 수 있다.

디스플레이 장치 100는 서버 300로부터 검색 실패라는 결과를 수신하였기 때문에 전자 장치 200로부터 수신된 영상을 계속하여 분석한다.

다음 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 940을 제2신경망 모델 1300에 입력하는데, 영상 화면 940은 블랙 화면이므로 제2신경망 모델은 오브젝트 검출 결과로서 아무런 오브젝트 검출되지 않았음을 출력할 수 있다.

디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 950을 제2신경망 모델 1300에 입력함으로써 해당 영상 화면 950으로부터 로고 영역 검출 결과 951를 얻을 수 있다. 디스플레이 장치 100는 이어서 검출된 로고 영역 이미지 951를 서버 300로 전송할 수 있다. 서버 300는 디스플레이 장치 100로부터 수신한 로고 영역 이미지를 이용하여 이미지 검색 등의 동작을 수행하여 해당 로고 영역 이미지가 어떤 컨텐츠와 관련된 것인지를 분석할 수 있다. 로고 영역 이미지 951은 어떤 특정한 컨텐츠와 관련된 것이 아니라 특정한 컨텐츠 제작사와 관련된 로고 이미지 라면 서버는 검색 실패라는 결과를 디스플레이 장치 100로 전송할 수 있다.

다음 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 960을 제2신경망 모델 1300에 입력하는데, 영상 화면 960은 블랙 화면이므로 제2신경망 모델은 오브젝트 검출 결과로서 아무런 오브젝트 검출되지 않았음을 출력할 수 있다.

다음 디스플레이 장치 100는 전자 장치 200로부터 수신된 영상 화면 970을 제2신경망 모델 1300에 입력함으로써 해당 영상 화면 970으로부터 텍스트 영역 검출 결과 971를 얻을 수 있다. 디스플레이 장치 100는 이어서 검출된 텍스트 영역 이미지 971를 OCR 등의 기술을 이용하여 분석함으로써 텍스트 영역 이미지 971로부터 텍스트를 추출할 수 있다. 디스플레이 장치 100는 추출된 텍스트를 서버 300로 전송할 수 있다. 서버 300는 디스플레이 장치 100로부터 수신한 텍스트에 대응하는 컨텐츠를 검색할 수 있다. 서버 300는 텍스트에 대응하는 컨텐츠를 검색한 결과, 검색된 컨텐츠에 대한 속성 정보를 디스플레이 장치 100로 전송할 수 있다.

디스플레이 장치 100는 텍스트 영역 이미지 로부터 자신이 텍스트를 추출하여 추출된 텍스트를 서버 300로 전송하는 것으로 설명하였지만 이에 한정되지 않는다. 디스플레이 장치 100는 텍스트 영역 이미지 전체를 서버 300로 전송하고, 서버 300는 디스플레이 장치 100로부터 추출한 텍스트 영역 이미지로부터 텍스트를 추출할 수도 있을 것이다.

다시 도 11로 돌아가서, 동작 1140에서, 디스플레이 장치 100는 동작 1130에서 획득된 컨텐츠의 속성 정보에 기반하여 컨텐츠의 실행 환경을 제어할 수 있다. 컨텐츠의 실행 환경 제어는 컨텐츠의 속성에 적합하게 화질을 설정하거나 음향을 설정하거나 사용자 시청 연령 제한 서비스를 제공하는 것을 포함할 수 있다. 디스플레이 장치 100는 컨텐츠의 속성 정보로서 컨텐츠의 장르나 카테고리 정보를 수신한 경우에 컨텐츠의 장르나 카테고리에 맞게 화질이나 음향을 설정할 수 있다. 또한 디스플레이 장치 100는 컨텐츠의 속성 정보로서 시청 가능 연령 정보를 수신한 경우에, 이러한 시청 가능 연령 정보에 기반하여 적절한 안내 메시지를 출력한다든지 패스워드 입력을 요청하는 메시지를 출력한다든지 시청 제한을 제어할 수 있다.

도 14를 참조하면, 디스플레이 장치 100는 컨텐츠가 예를 들어 게임 컨텐츠 인 경우, 게임 컨텐츠의 장르에 따라 서로 다르게 설정되는 화질 설정값과 음향 설정값을 포함하는 화질/음향 설정 테이블 1400를 저장할 수 있다.

화질/음향 설정 테이블 1400는 예를 들어, 게임 컨텐츠의 장르로서 일반적인 베이직 1410, 유저가 게임 속 캐릭터들을 연기하며 즐기는 역할 수행 게임인 RPG (Role Playing Game) 1420, 플레이어의 시점, 내가 사물을 보는 시점과 같은 화면에서 무기나 도구를 이용해 전투를 벌이는 슈팅게임 인 1인칭 슈팅 게임 (FPS(First-person shooter) 1430, 실시간으로 진행되는 전략 게임으로서, 자원을 채취하고, 그 자원으로 건물을 짓거나 병력을 생산하고, 문명을 발전시키거나 전쟁에서 승리하면 끝나는 전략 게임의 형태인 RTS(Real-time strategy, 실시간전략게임) 1440, 스포츠 1450 등을 포함할 수 있다.

디스플레이 장치 100는 테이블 1400에 포함된 각 장르의 게임 컨텐츠의 속성에 맞게 서로 다른 화질 값을 매핑시켜 놓을 수 있다. 베이직 장르 1410에 대해서는 제1화질 값, RPG 장르 1420에 대해서는 제2화질 값, FPS 장르 1430에 대해서는 제3화질 값, RTS 장르 1440에 대해서는 제4화질 값, 스포츠 장르 1450에 대해서는 제 5화질 값을 매핑시켜 놓을 수 있다. 예를 들어, FPS와 같은 1인칭 슈팅 게임은 게임 속 캐릭터의 시점과 플레이어의 시점이 동일해야 하기 때문에, 다른 게임에 비해 높은 사실감이 요구되므로, 상대적으로 더 사실감을 표현할 수 있는 화질 값들로 구성된 제3화질 값을 설정할 수 있다.

디스플레이 장치 100는 테이블 1400에 포함된 각 장르의 게임 컨텐츠의 속성에 맞게 서로 다른 음향 값을 매핑시켜 놓을 수 있다. 베이직 장르 1410에 대해서는 제1음향 값, RPG 장르 1420에 대해서는 제2음향 값, FPS 장르 1430에 대해서는 제3음향 값, RTS 장르 1440에 대해서는 제4음향 값, 스포츠 장르 1450에 대해서는 제 5음향 값을 매핑시켜 놓을 수 있다.

디스플레이 장치 100는 이와 같은 테이블 1400을 참조하여, 컨텐츠의 속성 정보로서 게임 컨텐츠의 장르가 RPG 인 것으로 인식된 경우, 디스플레이 장치 100는 RPG 장르에 대응하는 제2화질 값 및 제2음향 값을 추출하고, 제2화질 값 및 제2음향 값에 따라 디스플레이 장치 100의 화질을 설정하고 음향을 설정할 수 있다.

도 15를 참조하면, 디스플레이 장치 100가 컨텐츠의 속성 정보로서 컨텐츠의 시청 연령 가능 정보를 수신한 경우 디스플레이 장치 100는 수신된 시청 연령 가능 정보를 기반으로 시청 연령 제한 서비스를 제공할 수 있다. 예를 들어, 디스플레이 장치 100는 컨텐츠의 속성 정보로서 컨텐츠의 시청 연령이 19세 시청 연령 가능 임을 나타내는 정보를 수신한 경우에 디스플레이 장치 100는 도 15에 도시된 바와 같은 사용자 인터페이스 1500를 출력할 수 있다.

사용자 인터페이스 1500는 "표시되는 컨텐츠는 19세 시청 연령 가능합니다. 시청을 계속하시려면 성인인증을 위해 비밀번호를 입력해주세요!" 라는 메시지와 함께 성인 인증 비밀번호 4자리를 입력할 수 있는 입력창을 제공할 수 있다. 이와 같은 사용자 인터페이스 1500의 입력창에 사용자는 비밀번호를 입력함으로써 컨텐츠의 표시를 가능하게 할 수 있다.

도 16을 참조하면, 디스플레이 장치 100는 컨텐츠 실행 시점 판단 모드 610에서 디스플레이 장치 100에 연결된 전자 장치에 대응하는 제1신경망 모델을 이용하여 컨텐츠의 실행 시작 시점을 판단할 수 있다. 디스플레이 장치 100가 컨텐츠 실행 시점 판단 모드 610에서 컨텐츠 실행 시작을 검출하면, 디스플레이 장치 100 실행된 컨텐츠의 속성 정보를 획득하기 위해 컨텐츠 속성 인식 모드 620로 진입 1610할 수 있다. 디스플레이 장치 100는 컨텐츠 속성 인식 모드 620에서 제2신경망 모델을 이용하여 전자 장치 200로부터 수신되는 영상 화면을 분석함으로써 영상 화면으로부터 로고 영역이나 텍스트 영역을 추출하고, 추출된 로고 영역이나 텍스트 영역에 기반하여 실행되는 컨텐츠의 속성 정보를 얻을 수 있다. 이와 같이 얻어진 컨텐츠의 속성 정보에 따라 컨텐츠 실행 환경을 제어하고 다시 컨텐츠 실행 시점 판단 모드 610로 진입 1620할 수 있다.

또는, 디스플레이 장치 100는 이와 같이 얻어진 컨텐츠의 속성 정보에 따라 컨텐츠 실행 환경을 제어하고 컨텐츠 실행 종료 판단 모드 630로 진입 630할 수 있다. 컨텐츠 실행 종료 판단 모드 630에서는, 전자 장치 200로부터 수신되는 영상 화면을 분석하여 컨텐츠의 실행 종료를 나타내는 화면을 검출하도록 학습된 제3신경망 모델을 이용하여 컨텐츠의 실행이 종료되는지를 검출할 수 있다. 디스플레이 장치 100가 컨텐츠 실행 종료 판단 모드 630에서 컨텐츠의 실행이 종료된 것을 검출하면, 디스플레이 장치 100는 다음 새로운 컨텐츠의 실행이 시작되는지를 모니터링하기 위해 컨텐츠 실행 시점 판단 모드 610으로 진입 1640할 수 있다.

컨텐츠 실행 시점 판단 모드 610에서 컨텐츠 실행 시작을 검출하는 것이나 컨텐츠 속성 인식 모드 620에서 컨텐츠 속성을 검출하는 것은 상대적으로 짧은 시간 구간에서 행해지는 것이므로 분석 대상이 되는 영상 화면을 보다 짧은 시간 주기 간격으로 샘플링하여 분석하는 것이 적절할 수 있다. 반면, 컨텐츠 실행 종료 판단 모드 630에서 컨텐츠 실행의 종료를 판단하는 것은 일반적으로 상대적으로 긴 시간 구간 동안 즉 컨텐츠의 실행이 계속되는 동안 수행될 수 있다. 따라서 이 경우에는 분석 대상이 되는 영상 화면을 보다 긴 시간 주기 간격으로 샘플링하여 분석하는 것이 가능할 수 있다.

일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

개시된 실시예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 S/W 프로그램으로 구현될 수 있다.

컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시예에 따른 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치를 포함할 수 있다.

컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서,‘비일시적’은 저장 매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 개시된 실시예들에 따른 제어 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 디바이스의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.

컴퓨터 프로그램 제품은, 서버 및 디바이스로 구성되는 시스템에서, 서버의 저장매체 또는 디바이스의 저장매체를 포함할 수 있다. 또는, 서버 또는 디바이스와 통신 연결되는 제 3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제 3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 디바이스 또는 제 3 장치로 전송되거나, 제 3 장치로부터 디바이스로 전송되는 S/W 프로그램 자체를 포함할 수 있다.

이 경우, 서버, 디바이스 및 제 3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 디바이스 및 제 3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.

예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 디바이스가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.

또 다른 예로, 제 3 장치가 컴퓨터 프로그램 제품을 실행하여, 제 3 장치와 통신 연결된 디바이스가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다. 제 3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제 3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드 된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제 3 장치는 프리로드 된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.

또한, 본 명세서에서, "부"는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims

디스플레이 장치에 있어서,

디스플레이,

입출력 인터페이스,

통신 인터페이스,

하나 이상의 인스트럭션을 저장하는 메모리, 및

상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

연결된 전자 장치로부터 수신된 영상의 화면을 표시하고,

제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하고,

상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하고,

상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하고,

상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는, 디스플레이 장치.
제1항에 있어서,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 전자 장치로부터 HDMI 통신을 통해 수신되는 HDMI CEC로부터 상기 전자 장치를 식별하고,

상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득하는, 디스플레이 장치.
제1항 내지 제2항 중 어느 한 항에 있어서,

상기 제1신경망 모델은,

상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함하는, 디스플레이 장치.
제3항에 있어서,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하고,

상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단하는, 디스플레이 장치.
제1항 내지 제4항 중 어느 한 항에 있어서,

상기 제2신경망 모델은

복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함하는, 디스플레이 장치.
제5항에 있어서,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 영상 화면을 상기 제2신경망 모델에 입력하여 분석함으로써, 상기 영상 화면으로부터 상기 텍스트 영역 또는 상기 로고 영역을 추출하고,

상기 텍스트 영역 또는 상기 로고 영역에 기반하여 상기 컨텐츠의 속성 정보를 획득하는, 디스플레이 장치.
제6항에 있어서,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 텍스트 영역으로부터 추출된 텍스트 또는 상기 로고 영역을 서버로 전송하고,

상기 서버로부터 상기 텍스트나 상기 로고 영역에 관련된 상기 컨텐츠의 속성 정보를 수신함으로써 상기 컨텐츠의 속성 정보를 획득하는, 디스플레이 장치.
제1항 내지 제7항 중 어느 한 항에 있어서,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 획득된 속성 정보에 기반하여 상기 컨텐츠에 적합한 화질 설정, 음향 설정, 시청 연령 제한 설정, 디스플레이 장치 환경 설정 중 적어도 하나를 제어함으로써 상기 컨텐츠의 실행 환경을 제어하는, 디스플레이 장치.
제1항 내지 제8항 중 어느 한 항에 있어서,

상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 컨텐츠의 실행 환경 제어 후 상기 컨텐츠의 실행이 종료되는지 판단하고,

상기 컨텐츠의 실행이 종료된다고 판단됨에 따라 상기 제1신경망 모델을 이용하여 영상 화면을 분석함으로써 새로운 컨텐츠 실행이 시작되는지를 판단하는, 디스플레이 장치.
디스플레이 장치의 동작 방법에 있어서,

연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작,

제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작,

상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작,

상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작, 및

상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함하는, 디스플레이 장치의 동작 방법.
제10항에 있어서,

상기 전자 장치로부터 HDMI 통신을 통해 수신되는 HDMI CEC로부터 상기 전자 장치를 식별하는 동작, 및

상기 식별된 전자 장치에 대응하여 학습된 상기 제1신경망 모델을 획득하는 동작을 더 포함하는, 디스플레이 장치의 동작 방법.
제10항 내지 제11항 중 어느 한 항에 있어서,

상기 제1신경망 모델은,

상기 전자 장치로부터 수신될 수 있는, 복수의 유저 인터페이스 (UI) 화면을 훈련 데이터로 입력 받아, 상기 컨텐츠 실행 가능 UI 화면과 상기 컨텐츠 실행 불가능 UI 화면을 분류하도록 학습된 모델을 포함하는, 디스플레이 장치의 동작 방법.
제12항에 있어서,

상기 표시된 영상 화면을 상기 제1신경망 모델에 입력하여 분석함으로써, 상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환되는지 여부를 판단하는 동작, 및

상기 컨텐츠 실행 가능 UI 화면으로부터 상기 컨텐츠 실행 불가능 UI 화면으로 전환된다고 판단됨에 따라 상기 컨텐츠 실행이 시작되는 것으로 판단하는 동작을 더 포함하는, 디스플레이 장치의 동작 방법.
제10항 내지 제13항 중 어느 한 항에 있어서,

상기 제2신경망 모델은

복수의 영상 화면을 훈련 데이터로 입력 받아, 상기 영상 화면으로부터 텍스트 영역 또는 로고 영역을 검출하도록 학습된 모델을 포함하는, 디스플레이 장치의 동작 방법.
디스플레이 장치의 동작 방법의 구현을 위해 디스플레이 장치의 프로세서에 의해 실행되는 하나 이상의 프로그램이 기록된 컴퓨터 판독 가능 기록 매체에 있어서, 상기 디스플레이 장치의 동작 방법은,

연결된 전자 장치로부터 수신된 영상의 화면을 표시하는 동작,

제1신경망 모델을 이용하여 상기 표시된 영상 화면을 분석함으로써 컨텐츠 실행이 시작되는지 판단하는 동작,

상기 컨텐츠 실행이 시작된다고 판단됨에 따라 제2신경망 모델을 호출하는 동작,

상기 제2신경망 모델을 이용하여 상기 컨텐츠의 영상 화면을 분석함으로써 상기 컨텐츠의 속성 정보를 획득하는 동작, 및

상기 획득된 속성 정보에 기반하여 상기 컨텐츠의 실행 환경을 제어하는 동작을 포함하는, 컴퓨터 판독가능 기록 매체.