KR102579452B1

KR102579452B1 - 영상 표시 장치 및 그 동작방법

Info

Publication number: KR102579452B1
Application number: KR1020180106046A
Authority: KR
Inventors: 아난트 바이잘; 현대은; 권미정
Original assignee: 삼성전자주식회사
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2023-09-15
Also published as: US11514107B2; WO2020050508A1; KR20200027794A; US20200073885A1

Abstract

복수의 이미지들을 표시하는 디스플레이, 하나 이상의 인스트럭션들을 저장하는 메모리 및 메모리에 저장된 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고, 프로세서는, 제1 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 시맨틱 정보를 획득하고, 제2 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 감정 정보를 획득하며, 시맨틱 정보와 감정 정보에 기초하여, 복수의 이미지들에 대응하는 적어도 하나의 오디오를 결정하며, 오디오를 출력하는 영상 표시 장치가 개시된다.

Description

영상 표시 장치 및 그 동작방법{Image display device and operating method for the same}

다양한 실시예들은 영상 표시 장치 및 그 동작방법에 관한 것으로서, 더욱 상세하게는 영상 표시 장치에 표시되는 이미지에 대응하는 적어도 하나의 오디오를 출력할 수 있는 영상 표시 장치 및 그 동작방법에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다. 기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 딥러닝 등의 기계학습 알고리즘을 활용하여, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

다양한 실시예들은, 복수의 이미지들에 대응하는 적어도 하나의 오디오를 결정하여, 출력할 수 있는 영상 표시 장치 및 그 동작방법을 제공할 수 있다.

일 실시예에 따른 영상 표시 장치는, 복수의 이미지들을 표시하는 디스플레이, 하나 이상의 인스트럭션들을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고, 상기 프로세서는, 제1 뉴럴 네트워크를 이용하여, 상기 복수의 이미지들 각각에 대응하는 시맨틱 정보를 획득하고, 제2 뉴럴 네트워크를 이용하여, 상기 복수의 이미지들 각각에 대응하는 감정 정보를 획득하며, 상기 시맨틱 정보와 상기 감정 정보에 기초하여, 상기 복수의 이미지들에 대응하는 적어도 하나의 오디오를 결정하며, 상기 오디오를 출력할 수 있다.

일 실시예에 따른 프로세서는 제3 뉴럴 네트워크를 이용하여, 상기 시맨틱 정보와 상기 감정 정보에 대응하는 상기 적어도 하나의 오디오를 결정할 수 있다.

일 실시예에 따른 프로세서는, 상기 시맨틱 정보에 기초하여, 상기 복수의 이미지들 각각에 대응하는 오디오 정보를 획득하고, 상기 획득된 오디오 정보에 기초하여, 상기 적어도 하나의 오디오를 결정할 수 있다.

일 실시예에 따른 프로세서는, 상기 복수의 이미지들 중 제1 이미지에 대응하는 시맨틱 정보와 감정 정보에 기초하여, 제1 오디오를 결정하고, 상기 제1 오디오를 포함하는 제1 플레이 리스트를 생성하고, 상기 복수의 이미지들 중 제2 이미지에 대응하는 시맨틱 정보와 감정 정보에 기초하여, 제2 오디오를 결정하고, 상기 제2 오디오를 포함하는 제2 플레이 리스트를 생성할 수 있다.

일 실시예에 따른 프로세서는, 사용자 입력에 기초하여, 상기 제1 플레이 리스트 및 제2 플레이 리스트 중 적어도 하나를 선택하고, 선택된 플레이 리스트에 포함되는 오디오를 출력할 수 있다.

일 실시예에 따른 프로세서는, 상기 복수의 이미지들 각각에 대응하는 감정 정보에 기초하여, 상기 복수의 이미지들 각각에 대응하는 가중치들을 결정하고, 결정된 가중치들을 상기 시맨틱 정보 및 상기 감정 정보 중 적어도 하나에 적용하여, 상기 적어도 하나의 오디오를 결정할 수 있다.

일 실시예에 따른 프로세서는, 상기 복수의 이미지들 중 제1 이미지에 대응하는 제1 가중치, 제1 시맨틱 정보 및 제1 감정 정보에 기초하여, 제1 오디오를 결정하고, 상기 복수의 이미지들 중 제2 이미지에 대응하는 제2 가중치, 제2 시맨틱 정보, 및 제2 감정 정보에 기초하여, 제2 오디오를 결정하며, 상기 제1 오디오 및 제2 오디오를 포함하는 플레이리스트를 생성하고, 제1 오디오의 개수 및 제2 오디오의 개수는 상기 제1 가중치 및 제2 가중치에 기초하여 결정될 수 있다.

일 실시예에 따른 프로세서는, 상기 가중치들에 기초하여, 상기 복수의 이미지들의 크기를 변경하여 표시할 수 있다.

일 실시예에 따른 프로세서는, 상기 복수의 이미지들 각각에 대응하는 감정 정보 및 상기 가중치들에 기초하여, 상기 복수의 이미지들을 대표하는 대표 감정 정보를 획득하고, 상기 대표 감정 정보에 기초하여, 상기 적어도 하나의 오디오를 결정할 수 있다.

일 실시예에 따른 프로세서는, 상기 가중치들 및 상기 대표 감정 정보 중 적어도 하나에 기초하여, 상기 복수의 이미지들을 합성하여 대표 이미지를 생성하고, 상기 대표 이미지를 표시할 수 있다.

일 실시예에 따른 프로세서는, 상기 디스플레이에 표시되는 배경 이미지에 기초하여, 상기 대표 감정 정보를 획득할 수 있다.

일 실시예에 따른 영상 표시 장치의 동작방법은, 복수의 이미지들을 표시하는 단계, 제1 뉴럴 네트워크를 이용하여, 상기 복수의 이미지들 각각에 대응하는 시맨틱 정보를 획득하는 단계, 제2 뉴럴 네트워크를 이용하여, 상기 복수의 이미지들 각각에 대응하는 감정 정보를 획득하는 단계, 상기 시맨틱 정보 및 상기 감정 정보에 기초하여, 적어도 하나의 오디오를 결정하는 단계 및 상기 오디오를 출력하는 단계를 포함할 수 있다.

일 실시예에 따른 영상 표시 장치는, 이미지를 표시하고, 표시되는 이미지에 대응하는 오디오를 함께 출력함으로써, 사용자에게 다양한 심미적 경험을 제공할 수 있다.

일 실시예에 따른 영상 표시 장치는, 영상 표시 장치에 표시되는 복수의 이미지들에 적합한 오디오를 결정하여 출력할 수 있다.

도 1은 일 실시예에 따른 영상 표시 장치를 나타내는 도면이다.
도 2는 일 실시예에 따른 영상 표시 장치의 동작방법을 나타내는 흐름도이다.
도 3은 일 실시예에 따른 영상 표시 장치가 시맨틱 정보를 획득하는 방법을 나타내는 도면이다.
도 4는 일 실시예에 따른 영상 표시 장치가 감정 정보를 획득하는 방법을 나타내는 도면이다.
도 5는 일 실시예에 따른 오디오의 메타 데이터 테이블을 나타낸다.
도 6은 일 실시예에 따른 영상 표시 장치가 적어도 하나의 오디오를 결정하는 방법을 설명하기 위해 참조되는 도면이다.
도 7은 일 실시예에 따른 영상 표시 장치가 복수의 이미지들 각각에 대응하는 플레이리스트를 생성하는 방법을 설명하기 위해 참조되는 도면이다.
도 8은 일 실시예에 따른 영상 표시 장치가 복수의 이미지들에 대응하는 적어도 하나의 오디오를 결정하고 출력하는 방법을 나타내는 흐름도이다.
도 9는 일 실시예에 따른 영상 표시 장치가 복수의 이미지들 각각에 대응하는 가중치를 결정하는 방법을 설명하기 위해 참조되는 도면이다.
도 10은 일 실시예에 따른 영상 표시 장치가 가중치들에 기초하여, 복수의 이미지들을 표시한 예를 나타내는 도면이다.
도 11은 일 실시예에 따른 영상 표시 장치가 플레이리스트를 생성하는 방법을 나타내는 도면이다.
도 12는 일 실시예에 따른 영상 표시 장치가 대표 감정 정보를 획득하는 방법을 나타내는 도면이다.
도 13은 일 실시예에 따른 영상 표시 장치가 대표 이미지를 생성하는 방법을 나타내는 도면이다.
도 14는 일 실시예에 따른 영상 표시 장치가 배경 이미지에 기초하여, 적어도 하나의 오디오를 결정하는 방법을 설명하기 위해 참조되는 도면이다.
도 15는 일 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.
도 16은 일 실시예에 따른 프로세서의 구성을 나타내는 블록도이다.
도 17은 일 실시예에 따른 영상 표시 장치 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 18은 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서의 실시예에서 “사용자”라는 용어는 시스템, 기능 또는 동작을 제어하는 사람을 의미하며, 개발자, 관리자 또는 설치 기사를 포함할 수 있다.

도 1은 일 실시예에 따른 영상 표시 장치를 나타내는 도면이다.

일 실시예에 따른 영상 표시 장치(100)는, TV일 수 있으나, 이는 일 실시예에 불과하며, 디스플레이를 포함하는 다양한 형태로 구현될 수 있다. 예를 들어, 영상 표시 장치(100)는 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 태블릿 PC, 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다. 특히, 실시예들은 사이니지나 TV와 같이 디스플레이가 대형인 영상 표시 장치에서 용이하게 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 영상 표시 장치(100)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.

영상 표시 장치(100)는 평면(flat) 디스플레이 장치뿐만 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률을 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 전자 장치(100)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도를 포함할 수 있다.

본 명세서의 실시예에서 “사용자”라는 용어는 영상 표시 장치의 기능 또는 동작을 제어하는 사람을 의미하며, 관리자 또는 설치 기사를 포함할 수 있다.

일 실시예에 따른 영상 표시 장치(100)는 주변 모드(ambient mode)로 동작할 수 있다. 주변 모드는, 영상 표시 장치(100)를 시청하지 않을 때, 그림이나 사진 등의 이미지를 표시하거나, 시간, 날씨, 뉴스 등 생활 정보를 표시할 수 있는 기능이다. 또한, 영상 표시 장치(100)는 이미지 표시와 함께, 오디오를 출력함으로써, 사용자에게 심미적 경험을 다양하게 제공할 수 있다.

일 실시예에 따른 오디오는, 음악, 소리(예를 들어, 자연음, 인공음, 음성 등) 등을 포함할 수 있으나, 이에 한정되지 않는다.

도 1에 도시된 바와 같이, 영상 표시 장치(100)는 복수의 이미지들을 표시할 수 있다. 또한, 복수의 이미지들은 배경 이미지 위에 표시될 수 있으며, 배경 이미지는 영상 표시 장치(100)가 설치된 벽 등의 주변 환경과 동일 또는 유사한 이미지일 수 있다. 다만, 이에 한정되지 않는다.

일 실시예에 따른 영상 표시 장치(100)는 하나 이상의 뉴럴 네트워크들을 이용하여, 표시된 복수의 이미지들 각각에 대응하는 시맨틱 정보와 감정 정보를 획득할 수 있다. 또한, 영상 표시 장치(100)는 획득된 시맨틱 정보와 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있으며, 결정된 오디오를 복수의 이미지들과 함께 출력할 수 있다. 이때, 영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 오디오를 결정하고, 결정된 오디오를 포함하는 플레이리스트를 생성할 수 있다.

영상 표시 장치(100)는 하나 이상의 뉴럴 네트워크들을 이용하여, 복수의 이미지들 각각에 대응하는 가중치를 결정할 수 있으며, 결정된 가중치들에 기초하여, 적어도 하나의 오디오를 결정할 수 있다.

예를 들어, 영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 감정 정보와 가중치들에 기초하여, 대표 감정 정보를 획득할 수 있으며, 대표 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다. 또한, 영상 표시 장치(100)는 복수의 이미지들뿐만 아니라 배경 이미지도 함께 고려하여, 대표 감정 정보를 획득할 수 있다. 다만, 이에 한정되지 않는다.

도 2는 일 실시예에 따른 영상 표시 장치의 동작방법을 나타내는 흐름도이다.

도 2를 참조하면, 일 실시예에 따른 영상 표시 장치(100)는 복수의 이미지들을 표시할 수 있다(S210).

영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 시맨틱 정보 및 감정 정보를 획득할 수 있다(S220).

일 실시예에 따른 영상 표시 장치(100)는 제1 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 시맨틱 정보를 획득할 수 있다. 이때, 제1 뉴럴 네트워크는, 이미지를 입력 받아 이미지에 대응하는 시맨틱 정보를 출력하도록 학습된 모델일 수 있다. 예를 들어, 영상 표시 장치(100)는 이미지가 아트웍인지 포토그래프인지 여부, 이미지가 풍경인지, 추상화인지, 클래식인지 등에 대한 시맨틱 정보를 획득할 수 있다. 다만, 이에 한정되지 않는다.

또한, 영상 표시 장치(100)는 제2 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 감정 정보를 획득할 수 있다. 이때, 제2 뉴럴 네트워크는 이미지를 입력 받아 이미지에 대응하는 감정 정보를 출력하도록 학습된 모델일 수 있다. 예를 들어, 영상 표시 장치(100)는 이미지에 의해 표현되는 감정(예를 들어, “행복함”, “기쁨”, “화남”, “슬픔” 등의 감정)을 획득할 수 있다. 다만, 이에 한정되지 않는다.

영상 표시 장치(100)는 시맨틱 정보 및 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다(S230).

영상 표시 장치(100)는 제3 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 적어도 하나의 오디오를 결정할 수 있다. 제3 뉴럴 네트워크는 시맨틱 정보와 감정 정보가 입력 데이터로 입력되면, 적어도 하나의 오디오를 출력하도록 학습된 모델일 수 있다.

또한, 영상 표시 장치(100)는 시맨틱 정보에 기초하여, 오디오 메타 데이터(오디오 정보)를 추출할 수 있다. 오디오 메타 데이터는 오디오의 장르 정보, 시대 정보 및 아티스트 정보 중 적어도 하나를 포함할 수 있다. 영상 표시 장치(100)는 오디오 메타 데이터와 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다.

또한, 영상 표시 장치(100)는 복수의 이미지들에 대응하는 대표 감정 정보를 획득하고, 대표 감정 정보 및 복수의 이미지들 각각에 대응하는 시맨틱 정보에 기초하여, 복수의 이미지들에 대응하는 적어도 하나의 오디오를 결정할 수 있다.

영상 표시 장치(100)는 결정된 적어도 하나의 오디오를 출력할 수 있다(S240).

예를 들어, 영상 표시 장치(100)는 스피커, 헤드폰 출력 단자, 또는 S/PDIF(Sony/Philips Digital Interface) 출력 단자 중 적어도 하나를 이용하여, 오디오를 출력할 수 있으나, 이에 한정되지 않는다.

도 3은 일 실시예에 따른 영상 표시 장치가 시맨틱 정보를 획득하는 방법을 나타내는 도면이다.

도 3을 참조하면, 영상 표시 장치(100)는 제1 뉴럴 네트워크(300)를 이용하여, 복수의 이미지들 각각에 대응하는 시맨틱 정보들을 획득할 수 있다.

시맨틱 정보는 이미지로부터 추출되는 의미론적인 정보를 포함할 수 있다. 예를 들어, 시맨틱 정보는 이미지가 아트웍(artwork)인지, 사진(photograph)인지 여부에 대한 정보, 이미지 또는 이미지에 의해 표현되는 오브젝트의 분류에 대한 정보(예를 들어, 추상화, 현실주의, 풍경, 가족, 여행, 스포츠 등)를 포함할 수 있다. 다만, 이에 한정되지 않는다.

일 실시예에 따른 제1 뉴럴 네트워크(300)는, 이미지를 입력 받아 이미지에 대응하는 시맨틱 정보를 출력하도록 학습된 모델일 수 있다. 제1 뉴럴 네트워크(300)는 데이터(입력 데이터)가 입력되고, 입력된 데이터가 히든 레이어들을 통과하여 처리됨으로써, 처리된 데이터가 출력되는 구조를 포함할 수 있다. 제1 뉴럴 네트워크는 2개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(DNN)일 수 있다. 영상 표시 장치(100)는 제1 뉴럴 네트워크(300)를 이용하여, 이미지로부터 테두리, 선, 색 등과 같은 “특징들”을 추출할 수 있다. 예를 들어, 영상 표시 장치(100)는 이미지의 색상을 기반으로 한 특징들, 이미지에 나타나는 모양(shape)을 기반으로 한 특징들, 이미지에 나타나는 전경(foreground) 또는 배경(background)을 기반으로 한 특징들을 추출할 수 있다.

제1 뉴럴 네트워크(300)에 포함되는 히든 레이어들 각각에서는 데이터를 수신하고, 수신된 데이터를 처리하여, 출력 데이터를 생성할 수 있다. 예를 들어, 제1 히든 레이어에 입력된 이미지를 하나 이상의 가중치들과 연산(예를 들어, 컨볼루션 연산)을 수행함으로써, 제1 특징 맵을 생성할 수 있으며, 제1 특징 맵을 제2 히든 레이어에 입력하여, 하나 이상의 가중치들과 연산을 수행함으로써, 제2 특징 맵을 생성할 수 있다.

이에 따라, 영상 표시 장치(100)는 제1 뉴럴 네트워크(300)를 이용하여, 이미지의 특징들을 추출하고, 추출된 특징들에 기초하여, 이미지가 아트웍(artwork)인지, 사진(photograph)인지를 분류하고, 이미지가 아트웍인지 사진인지에 따라, 서로 다른 시맨틱 정보를 추출할 수 있다. 예를 들어, 제1 이미지(310)는, 제1 이미지(310)에서 추출된 특징들에 기초하여, 사진으로 분류될 수 있으며, 제1 이미지(310)의 시맨틱 정보는 “풍경(landscape)”으로 결정될 수 있다. 또한, 제2 이미지(320)는, 제2 이미지(320)에서 추출된 특징들에 기초하여, 아트웍으로 분류될 수 있으며, 제2 이미지(320)의 시맨틱 정보는 “고전적인(classical)” 및 “풍경(landscape)”으로 결정될 수 있다. 또한, 제3 이미지(330)는 제3 이미지(330)에서 추출된 특징들에 기초하여, 아트웍으로 분류될 수 있으며, 제3 이미지(330)의 시맨틱 정보는 “추상적인(abstract)”으로 결정될 수 있다. 또한, 시맨틱 정보는 이미지가 아트웍인지 사진인지 여부에 대한 정보도 포함할 수 있다.

한편, 제1 뉴럴 네트워크(300)는 복수의 뉴럴 네트워크들을 포함할 수도 있다. 예를 들어, 제1 뉴럴 네트워크(300)는 이미지에서 특징들을 추출하는 하나 이상의 뉴럴 네트워크들과, 특징들에 기초하여, 시맨틱 정보를 결정하는 하나 이상의 뉴럴 네트워크들을 포함할 수 있다. 다만, 이에 한정되지 않는다.

도 4는 일 실시예에 따른 영상 표시 장치가 감정 정보를 획득하는 방법을 나타내는 도면이다.

도 4를 참조하면, 영상 표시 장치(100)는 제2 뉴럴 네트워크(400)를 이용하여, 복수의 이미지들 각각에 대응하는 감정 정보들을 획득할 수 있다.

감정 정보는, 이미지에 의해 표현되는 감정을 나타내는 정보일 수 있다. 예를 들어, “행복함”, “기쁨”, “화남”, “슬픔” 등의 감정을 포함할 수 있다.

일 실시예에 따른 제2 뉴럴 네트워크(400)는, 이미지를 입력 받아 이미지에 대응하는 감정 정보를 출력하도록 학습된 모델일 수 있다. 제2 뉴럴 네트워크(400)는 데이터(입력 데이터)가 입력되고, 입력된 데이터가 히든 레이어들을 통과하여 처리됨으로써, 처리된 데이터가 출력되는 구조를 포함할 수 있다. 제2 뉴럴 네트워크(400)는 2개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(DNN)일 수 있다. 영상 표시 장치(100)는 제2 뉴럴 네트워크(400)를 이용하여, 이미지로부터 테두리, 선, 색 등과 같은 “특징들”을 추출할 수 있다. 예를 들어, 영상 표시 장치(100)는 이미지의 색상을 기반으로 한 특징들, 이미지에 나타나는 모양(shape)을 기반으로 한 특징들, 이미지에 나타나는 전경(foreground) 또는 배경(background)을 기반으로 한 특징들을 추출할 수 있다.

제2 뉴럴 네트워크(400)에 포함되는 히든 레이어들 각각에서는 특징들을 추출할 수 있으며, 제2 뉴럴 네트워크(400)는 추출된 특징들을 이용하여, 이미지에서 나타나는 감정을 결정할 수 있다.

예를 들어, 영상 표시 장치(100)는 제1 이미지(310)에서 추출된 특징들(예를 들어, 제1 이미지에 포함된 색상, 모양 등)에 기초하여, 제1 이미지(310)의 감정 정보를 “행복함”(410)으로 결정할 수 있다. 또한, 영상 표시 장치(100)는 제2 이미지(320)에서 추출된 특징들에 기초하여, 제2 이미지(320)의 감정 정보를 “우울함”(420)으로 결정할 수 있다. 또한, 영상 표시 장치(100)는 제3 이미지(330)에서 추출된 특징들에 기초하여, 제3 이미지(330)의 감정 정보를 “슬픔”(430)으로 결정할 수 있다.

도 5는 일 실시예에 따른 오디오의 메타 데이터 테이블을 나타낸다.

영상 표시 장치(100)는 도 3에서 획득된 시맨틱 정보에 기초하여, 오디오의 메타 데이터(오디오 정보)를 추출할 수 있다. 예를 들어, 도 5에 도시된 메타 데이터 테이블(500)을 이용하여, 시맨틱 정보에 대응하는 오디오의 메타 데이터를 추출할 수 있다. 예를 들어, 이미지의 시맨틱 정보가 “아트웍”, “추상적인(abstract)”인 경우, 이에 대응하는 오디오의 메타 데이터는, 장르 1, 시대 정보(1600-1700”) 및 아티스트 1로 결정될 수 있다.

또한, 이미지의 시맨틱 정보가 “포토그래프”, “풍경(lansdscape)”인 경우, 이에 대응하는 오디오의 메타 데이터는 장르 n, 시대 정보(2000), 및 아티스트 n으로 결정될 수 있다.

한편, 영상 표시 장치(100)는 오디오 메타 테이블을 이용하는 대신, 시맨틱 정보를 입력 데이터로 입력하면, 그에 대응하는 오디오 메타 데이터를 출력하도록 학습된 모델을 이용하여, 오디오 메타 데이터를 결정할 수 있다. 다만, 이에 한정되지 않는다.

도 6은 일 실시예에 따른 영상 표시 장치가 적어도 하나의 오디오를 결정하는 방법을 설명하기 위해 참조되는 도면이다.

도 6을 참조하면, 일 실시예에 따른 영상 표시 장치는 이미지에 대응하는 시맨틱 정보와 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다. 이때, 영상 표시 장치(100)는 제3 뉴럴 네트워크(600)를 이용하여, 적어도 하나의 오디오를 결정할 수 있다. 예를 들어, 제3 뉴럴 네트워크(600)는, 시맨틱 정보와 감정 정보가 입력 데이터로 입력되면, 적어도 하나의 오디오를 출력하도록 학습된 모델일 수 있다. 또한, 제3 뉴럴 네트워크(600)는, 입력 데이터(예를 들어, 시맨틱 정보와 감정 정보)가 입력되고, 히든 레이어들을 통과하여, 출력 데이터(예를 들어, 적어도 하나의 오디오)가 출력되는 구조를 포함할 수 있다. 제3 뉴럴 네트워크(600)는 2개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(DNN)일 수 있다. 또한, 제3 뉴럴 네트워크(600)에 포함되는 히든 레이어들 각각에서는 데이터를 수신하고, 수신된 데이터를 처리하여, 출력 데이터를 생성할 수 있다.

이에 따라, 영상 표시 장치(100)는 시맨틱 정보와 감정 정보를 제3 뉴럴 네트워크(600)에 입력함으로써, 적어도 하나의 오디오를 결정할 수 있다. 또한, 영상 표시 장치(100)는 결정된 적어도 하나의 오디오를 포함하는 플레이리스트를 생성할 수 있다.

또는, 영상 표시 장치(100)는 오디오의 메타 데이터 정보와 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다. 예를 들어, 일 실시예에 따른 제3 뉴럴 네트워크(600)는 오디오의 메타 데이터 정보와 감정 정보가 입력 데이터로 입력되면, 적어도 하나의 오디오를 출력하도록 학습된 모델일 수 있으며, 영상 표시 장치(100)는 오디오의 메타 데이터와 감정 정보를 제3 뉴럴 네트워크(600)에 입력함으로써, 적어도 하나의 오디오를 결정할 수 있다. 또한, 영상 표시 장치(100)는 결정된 적어도 하나의 오디오를 포함하는 플레이리스트를 생성할 수 있다.

도 7은 일 실시예에 따른 영상 표시 장치가 복수의 이미지들 각각에 대응하는 플레이리스트를 생성하는 방법을 설명하기 위해 참조되는 도면이다.

도 7을 참조하면, 영상 표시 장치(100)는 제1 내지 제3 이미지들(310, 320, 330)을 표시할 수 있다. 영상 표시 장치(100)는 일 실시예에 따른 제1 뉴럴 네트워크(300) 및 제2 뉴럴 네트워크(400)를 이용하여, 제1 내지 제3 이미지들(310, 320, 330) 각각에 대응하는 시맨틱 정보 및 감정 정보를 획득할 수 있다.

예를 들어, 영상 표시 장치(100)는 제1 이미지(310)에 대응하는 제1 시맨틱 정보와 제1 감정 정보를 획득할 수 있다. 또한, 영상 표시 장치(100)는 제2 이미지(320)에 대응하는 제2 시맨틱 정보와 제2 감정 정보를 획득할 수 있으며, 제3 이미지(330)에 대응하는 제3 시맨틱 정보와 제3 감정 정보를 획득할 수 있다.

영상 표시 장치(100)는 제1 시맨틱 정보 및 제1 감정 정보에 기초하여, 제1 이미지(310)에 대응하는 적어도 하나의 오디오를 결정할 수 있으며, 적어도 하나의 오디오를 포함하는 제1 플레이리스트(playlist 1)를 생성할 수 있다. 또한, 영상 표시 장치(100)는 제2 시맨틱 정보 및 제2 감정 정보에 기초하여, 제2 이미지(320)에 대응하는 적어도 하나의 오디오를 결정할 수 있으며, 적어도 하나의 오디오를 포함하는 제2 플레이리스트(playlist 2)를 생성할 수 있다. 또한, 영상 표시 장치(100)는 제3 시맨틱 정보 및 제3 감정 정보에 기초하여, 제3 이미지(330)에 대응하는 적어도 하나의 오디오를 결정할 수 있으며, 적어도 하나의 오디오를 포함하는 제3 플레이리스트(playlist 3)를 생성할 수 있다.

영상 표시 장치(100)는 제1 내지 제3 이미지들(310, 320, 330)을 표시하면서, 제1 내지 제3 플레이리스트들(playlist 1, playlist 2, playlist 3)에 포함된 적어도 하나의 오디오를 출력할 수 있다. 예를 들어, 영상 표시 장치(100)는 제1 내지 제3 플레이리스트들(playlist 1, playlist 2, playlist 3)에 포함된 오디오들을 순서대로 출력하거나, 사용자 입력에 기초하여 선택된 플레이리스트(예를 들어, 제2 플레이리스트(playlist 2))에 포함된 적어도 하나의 오디오를 출력할 수 있다. 다만, 이에 한정되지 않는다.

또한, 영상 표시 장치(100)는 현재 출력(재생)중인 오디오에 대응하는 이미지를 확대시켜 표시하거나, 현재 출력중인 오디오에 대응하는 이미지에 특정 오브젝트를 표시할 수 있다. 예를 들어, 도 7에 도시된 바와 같이, 제2 플레이리스트에 포함된 오디오가 재생 중인 경우, 영상 표시 장치(100)는 제2 플레이리스트에 대응하는 제2 이미지(320)를 확대하여 표시할 수 있다. 또한, 제2 이미지(320)에 음표 오브젝트(750)를 표시할 수 있다. 다만, 이에 한정되지 않는다.

도 8은 일 실시예에 따른 영상 표시 장치가 복수의 이미지들에 대응하는 적어도 하나의 오디오를 결정하고 출력하는 방법을 나타내는 흐름도이다.

도 8을 참조하면, 일 실시예에 따른 영상 표시 장치(100)는 복수의 이미지들을 표시할 수 있다(S810).

영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 시맨틱 정보 및 감정 정보를 획득할 수 있다(S820).

820 단계(S820)는 도 2의 220 단계(S220)에 대응하므로, 동일한 설명은 생략하기로 한다.

영상 표시 장치(100)는 복수의 이미지들 각각의 가중치를 결정할 수 있다(S830).

영상 표시 장치(100)는 제4 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 가중치를 결정할 수 있다. 예를 들어, 복수의 이미지들은 다양한 감정들을 나타낼 수 있고, 다양한 감정들은 서로 다른 강도로 인지될 수 있으며, 인지되는 정도에 따라 서로 다른 가중치가 적용될 수 있다.

일 실시예에 따른 제4 뉴럴 네트워크는 이미지를 입력 데이터로 입력 받아, 이미지의 감정 정보에 대응하는 가중치를 출력하도록 학습된 모델일 수 있다. 또는, 제4 뉴럴 네트워크는 감정 정보를 입력 데이터로 입력 받아, 감정 정보에 대응하는 가중치를 출력하도록 학습된 모델일 수도 있다. 다만, 이에 한정되지 않는다.

영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 가중치, 시맨틱 정보 및 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다(S840).

예를 들어, 영상 표시 장치(100)는 제1 이미지에 대응하는 제1 시맨틱 정보와 제1 감정 정보에 기초하여, 적어도 하나의 오디오(제1 오디오)를 결정하고, 제2 이미지에 대응하는 제2 시맨틱 정보와 제2 감정 정보에 기초하여, 적어도 하나의 오디오(제2 오디오)를 결정하며, 제3 이미지에 대응하는 제3 시맨틱 정보와 제3 감정 정보에 기초하여, 적어도 하나의 오디오(제3 오디오)를 결정할 수 있다. 또한, 영상 표시 장치(100)는 결정된 오디오들을 포함하는 플레이리스트를 생성할 수 있다. 이때, 플레이리스트에 포함되는 제1 내지 제3 오디오의 개수의 비율은 제1 내지 제3 가중치들에 기초하여 결정될 수 있다.

영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 가중치 및 감정 정보에 기초하여, 대표 감정 정보를 획득할 수 있다(S850). 이에 대해서는 도 12를 참조하여, 자세히 설명하기로 한다.

한편, 영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 가중치, 감정 정보 및 배경 이미지에 기초하여, 대표 감정 정보를 획득할 수 있다(S860). 이에 대해서는, 도 14를 참조하여, 자세히 설명하기로 한다.

영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 가중치, 시맨틱 정보 및 대표 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다(S870).

예를 들어, 영상 표시 장치(100)는 제1 이미지에 대응하는 제1 시맨틱 정보와 대표 감정 정보에 기초하여, 적어도 하나의 오디오(제1 오디오)를 결정하고, 제2 이미지에 대응하는 제2 시맨틱 정보와 대표 감정 정보에 기초하여, 적어도 하나의 오디오(제2 오디오)를 결정하며, 제3 이미지에 대응하는 제3 시맨틱 정보와 대표 감정 정보에 기초하여, 적어도 하나의 오디오(제3 오디오)를 결정할 수 있다. 또한, 영상 표시 장치(100)는 결정된 오디오들을 포함하는 플레이리스트를 생성할 수 있다. 이때, 플레이리스트에 포함되는 제1 내지 제3 오디오의 개수의 비율은 제1 내지 제3 가중치들에 기초하여 결정될 수 있다.

도 9는 일 실시예에 따른 영상 표시 장치가 복수의 이미지들 각각에 대응하는 가중치를 결정하는 방법을 설명하기 위해 참조되는 도면이다.

도 9를 참조하면, 영상 표시 장치는 제4 뉴럴 네트워크(900)를 이용하여, 복수의 이미지들 각각에 대응하는 가중치를 결정할 수 있다.

예를 들어, 복수의 이미지들은 다양한 감정들을 나타낼 수 있고, 다양한 감정들은 서로 다른 강도로 인지될 수 있으며, 인지되는 정도에 따라 서로 다른 가중치가 적용될 수 있다.

일 실시예에 따른 제4 뉴럴 네트워크(900)는 이미지를 입력 데이터로 입력 받아, 이미지의 감정 정보에 대응하는 가중치를 출력하도록 학습된 모델일 수 있다. 또는, 제4 뉴럴 네트워크(900)는 감정 정보를 입력 데이터로 입력 받아, 감정 정보에 대응하는 가중치를 출력하도록 학습된 모델일 수도 있다. 또한, 일 실시예에 따른 제4 뉴럴 네트워크(900)는 비쥬얼-이모션 샐리언시 모델(visual-emotion saliency model)을 포함하는 모델일 수 있으며, 감정들이 인지되는 강도들을 학습하여, 감정들에 대한 가중치들을 결정하는 모델일 수 있다. 다만, 이에 한정되지 않는다.

예를 들어, 제1 이미지(310)에 대응하는 “행복함”의 감정(910)이 제2 이미지(320)에 대응하는 “우울함”의 감정(920)보다 더 큰 강도로 인지되는 경우, 제1 이미지(310)에 대응되는 제1 가중치(w1)가, 제2 이미지(320)에 대응되는 제2 가중치(w2)보다 크게 결정될 수 있다. 또한, 제2 이미지(320)에 대응하는 “우울함”의 감정(920)이 제3 이미지(330)에 대응하는 “슬픔”의 감정(930)보다 더 큰 강도로 인지되는 경우, 제3 이미지(330)에 대응되는 제3 가중치(w3)는 제2 이미지(320)에 대응되는 제2 가중치(w2)보다 작게 결정될 수 있다. 다만, 이에 한정되지 않는다.

도 10은 일 실시예에 따른 영상 표시 장치가 가중치들에 기초하여, 복수의 이미지들을 표시한 예를 나타내는 도면이다.

도 10을 참조하면, 영상 표시 장치(100)는 복수의 이미지들(제1 내지 제3 이미지들(310, 320, 330)) 각각에 대응하는 가중치들에 기초하여, 복수의 이미지들의 크기를 결정할 수 있다.

일 실시예에 따른 제1 이미지(310)의 가중치는 w1으로, 제2 이미지(320)의 가중치는 w2로, 제3 이미지(330)의 가중치는 w3으로 결정될 수 있다. 영상 표시 장치(100)는 가중치의 크기에 따라, 표시되는 이미지의 크기를 결정할 수 있다. 예를 들어, w1>w2>w3인 경우, 제1 이미지의 크기(S1)>제2 이미지의 크기(S2)>제3 이미지의 크기(S3)가 되도록 복수의 이미지들의 크기를 결정할 수 있다.

또한, 영상 표시 장치는 제1 이미지(310), 제2 이미지(320) 및 제3 이미지(330) 각각의 크기를 w1, w2 및 w3에 비례하도록 조정할 수 있다. 예를 들어, 제1 이미지(310)의 크기(S1)는 w1*S일 수 있으며, 제2 이미지(320)의 크기(S2)는 w2*S, 제3 이미지(330)의 크기(S3)는 w3*S일 수 있다.

또한, 영상 표시 장치(100)는 복수의 이미지들(310, 320, 330)의 밝기도 가중치에 따라 조정할 수 있다. 예를 들어, w1>w2>w3인 경우, 제1 이미지(310)의 밝기를 가장 밝게, 제3 이미지(330)의 밝기를 가장 어둡게 조정할 수 있다.

또한, 영상 표시 장치(100)는 이미지들의 크기 또는 밝기뿐 아니라 이미지들의 다른 특성들도 가중치에 따라 적응적으로 조정할 수 있다.

도 11은 일 실시예에 따른 영상 표시 장치가 플레이리스트를 생성하는 방법을 나타내는 도면이다.

도 11을 참조하면, 복수의 이미지들 각각의 가중치는 w1, w2 및 w3으로 결정될 수 있다. 영상 표시 장치(100)는 도 9에서 설명한 바와 같이, 일 실시예에 따른 제4 뉴럴 네트워크(900)를 이용하여, 복수의 이미지들 각각의 가중치를 결정할 수 있다.

영상 표시 장치(100)는 복수의 이미지들 각각의 시맨틱 정보, 감정 정보 및 가중치에 기초하여, 플레이리스트를 생성할 수 있다. 예를 들어, 영상 표시 장치(100)는 제1 이미지(310)에 대응하는 제1 시맨틱 정보와 제1 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다.

이때, 영상 표시 장치(100)는 제1 시맨틱 정보와 제1 감정 정보에 기초하여 결정되는 오디오의 개수를 플레이리스트에 포함되는 전체 오디오의 개수와 제1 내지 제3 가중치들(w1, w2, w3)에 기초하여 결정할 수 있다. 예를 들어, 플레이리스트에 포함되는 전체 오디오의 개수가 N이고, 제1 가중치(w1)는 0.6, 제2 가중치(w2)는 0.3, 제3 가중치(w3)는 0.1인 경우, 영상 표시 장치(100)는 제1 시맨틱 정보와 제1 감정 정보에 기초하여, N1(=0.6*N)개의 오디오들을 결정할 수 있다. 또한, 영상 표시 장치(100)는 제2 이미지(320)에 대응하는 제2 시맨틱 정보와 제2 감정 정보에 기초하여, N2(=0.3*N)개의 오디오들을 결정할 수 있으며, 제3 이미지(330)에 대응하는 제3 시맨틱 정보와 제3 감정 정보에 기초하여, N3(=0.1*N)개의 오디오들을 결정할 수 있다.

예를 들어, 제1 시맨틱 정보와 제2 시맨틱 정보는 “고전적인(classical)”이고, 제3 시맨틱 정보는 “현대적인(Moedern)”인 경우, 플레이리스트에 포함되는 전체 오디오의 90%의 음악 장르는 클래식이고, 10%의 음악 장르는 현대 음악일 수 있다. 또한, 제1 감정 정보는 “행복함(happy)”이고, 제2 감정 정보 및 제3 감정 정보는 “슬픔(sad)”인 경우, 플레이리스트에 포함되는 전체 오디오의 60%는 경쾌한 리듬 또는 템포를 가지는 오디오들일 수 있으며, 40%는 느리고 무거운 리듬 또는 템포를 가지는 오디오들일 수 있다. 다만, 이에 한정되지 않는다.

도 12는 일 실시예에 따른 영상 표시 장치가 대표 감정 정보를 획득하는 방법을 나타내는 도면이다.

도 12의 감정 그래프(1210)는, 인간의 감정을 각성도(arousal)와 긍정도(valence)의 척도를 이용하여, 좌표로 나타낸 그래프이다. 예를 들어, 감정의 각성의 정도와 각성이 긍정인지 부정인지에 따라 좌표계에서 감정의 위치를 결정할 수 있다. 예를 들어, “행복한(happy)”, “기쁜(pleased)”, “만족하는(satisfied)” 등의 감정은 긍정도(arousal) 축에서 양(positive)의 값을 가지며, “화난(angry)”, “우울한(depressed)”, “슬픈(sad)” 등의 감정은 긍정도(valence) 축에서 음(negative)의 값을 가질 수 있다. 또한, “깜짝 놀란(astonished)”, “두려운(afraid)”, “화난(angry)”의 경우, 각성도(arousal) 축에서 양(positive)의 값을 가지며, “피곤한(tired)”, “졸린(sleepy)”, “지루한(bored)”의 경우, 각성도(arousal) 축에서 음(negative)의 값을 가진다.

예를 들어, 행복함(happy)”의 경우, 각성도(arousal)와 긍정도(valence) 모두 포지티브 값을 가진다.

한편, 일 실시예에 따른 영상 표시 장치(100)는 복수의 이미지들 각각의 감정 정보들에 기초하여, 대표 감정 정보를 획득할 수 있다. 예를 들어, 도 12에 도시된 바와 같이, 복수의 이미지들 각각에 대응하는 감정 정보들은 감정 그래프(1210)를 이용하여, 좌표계에 표시될 수 있다. 예를 들어, 제1 이미지에 대응하는 제1 감정(1231)은 제1 위치에 표시될 수 있으며, 제2 이미지에 대응하는 제2 감정(1232)은 제2 위치에, 제3 이미지에 대응하는 제3 감정(1233)은 제3 위치에 표시될 수 있다. 영상 표시 장치(100)는 제1 위치, 제2 위치 및 제3 위치에 대한 대표 위치(대표 값)을 계산할 수 있다. 예를 들어, 평균, 유클리드 거리(Euclidean distance) 등을 이용하여, 대표 위치(대표 값)을 계산할 수 있으나, 이에 한정되지 않는다. 대표 위치(대표 값)가 계산되면, 대표 위치(1240)에 대응하는 감정을 제1 내지 제3 이미지들의 대표 감정으로 결정할 수 있다.

또한, 영상 표시 장치(100)는 복수의 이미지들 각각의 가중치들에 기초하여, 대표 감정 정보를 획득할 수 있다. 예를 들어, 제1 위치, 제2 위치 및 제3 위치에 대한 대표 위치(대표 값)을 계산할 때, 가중치들을 적용하여 계산할 수 있으며, 계산된 대표 위치(1250)에 대응하는 감정을 제1 내지 제3 이미지들의 대표 감정으로 결정할 수 있다. 예를 들어, 영상 표시 장치(100)는 대표 위치(1250)에 대응하는 “기쁜(glad)”을 대표 감정으로 결정할 수 있다.

영상 표시 장치(100)는 대표 감정 정보를 이용하여, 플레이리스트를 생성할 수 있다. 예를 들어, 영상 표시 장치(100)는 제1 이미지에 대응하는 제1 시맨틱 정보와 대표 감정 정보에 기초하여, 적어도 하나의 오디오를 결정하고, 제2 이미지에 대응하는 제2 시맨틱 정보와 대표 감정 정보에 기초하여, 적어도 하나의 오디오를 결정하며, 제3 이미지에 대응하는 제3 시맨틱 정보와 대표 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다. 이때, 플레이리스트에 포함되는 오디오들의 음악 장르의 비율은 제1 내지 제3 가중치들에 기초하여 결정될 수 있다.

예를 들어, 대표 감정 정보가 “기쁜(glad)”이고, 제1 시맨틱 정보 및 제2 시맨틱 정보는 “고전적인(classical)”이고, 제3 시맨틱 정보는 “현대적인(Moedern)”이며, 제1 가중치(w1)는 0.6, 제2 가중치(w2)는 0.3, 제3 가중치(w3)는 0.1인 경우, 플레이리스트에 포함되는 오디오들 중 90&의 오디오들의 음악 장르는 클래식이고, 10%의 오디오들의 음악 장르는 현대 음악일 수 있다. 또한, 플레이리스트에 포함되는 모든 오디오들은 경쾌한 리듬 또는 템포를 가지는 오디오들(기쁜 감정을 나타내는 오디오들)일 수 있다. 다만, 이에 한정되지 않는다.

도 13은 일 실시예에 따른 영상 표시 장치가 대표 이미지를 생성하는 방법을 나타내는 도면이다.

도 13을 참조하면, 영상 표시 장치(100)는 복수의 이미지들 각각에 대응하는 가중치들에 기초하여, 대표 이미지를 생성할 수 있다. 예를 들어, 영상 표시 장치(100)는 제1 이미지(1310)에 대응하는 제1 가중치와 제2 이미지(1320)에 대응하는 제2 가중치를 적용하여, 제1 이미지 및 제2 이미지를 합성할 수 있다. 도 14에 도시된 바와 같이, 제1 가중치가 제2 가중치보다 큰 경우, 제1 이미지(1310)를 전체 이미지로 하여, 제2 이미지(1320)에 포함된 새들이 제1 이미지 일부에 합성하여, 제3 이미지(1330)를 생성하고 표시할 수 있다. 다만, 이에 한정되지 않는다.

또한, 영상 표시 장치(100)는 대표 감정 정보에 기초하여, 대표 이미지를 생성할 수 있다. 이때, 대표 감정 정보는 도 12에서 설명한 방법으로 계산될 수 있다. 예를 들어, 영상 표시 장치(100)는 대표 감정 정보를 나타내는 색상, 음영, 밝기 등의 효과를 제1 이미지(1310) 및 제2 이미지(1320)가 합성된 제3 이미지(1330)에 적용함으로써 대표 이미지를 생성할 수 있다.

또한, 영상 표시 장치(100)는 대표 이미지를 표시하면서, 제1 이미지(1310) 및 제2 이미지(1320)에 대응하는 대표 감정 정보, 제1 이미지의 시맨틱 정보, 제2 이미지의 시맨틱 정보, 제1 가중치 및 제2 가중치에 기초하여, 결정된 적어도 하나의 오디오를 함께 출력할 수 있다. 이때, 적어도 하나의 오디오는 도 12에서 설명한 방법으로 결정될 수 있다. 다만, 이에 한정되지 않는다.

도 14는 일 실시예에 따른 영상 표시 장치가 배경 이미지에 기초하여, 적어도 하나의 오디오를 결정하는 방법을 설명하기 위해 참조되는 도면이다.

도 14를 참조하면, 영상 표시 장치(100)는 복수의 이미지들(310, 320, 330) 및 복수의 이미지들이 표시되는 배경 이미지(1450)에 기초하여, 대표 감정 정보를 획득할 수 있다.

예를 들어, 영상 표시 장치(100)는 제1 이미지의 감정 정보(1410), 제2 이미지의 감정 정보(1420), 제3 이미지의 감정 정보(1430)와 제1 내지 제3 이미지들에 대응하는 가중치들(w1, w2, w3)에 기초하여, 제1 대표 감정(1460)을 결정할 수 있다. 제1 대표 감정은 “기쁜(glad)”일 수 있다. 영상 표시 장치(100)는 제1 내지 제3 이미지들에 대응하는 감정 정보(1410, 1420, 1430)뿐만 아니라, 배경 이미지(1450)를 추가적으로 고려하여, 대표 감정을 결정할 수 있다. 이때, 배경 이미지(1450)는, 영상 표시 장치(100)에 전체적으로 표시되는 이미지로써, 도 14에 도시된 바와 같이, 제1 내지 제3 이미지들(310, 320, 330)은 배경 이미지(1450) 상에 표시될 수 있다.

영상 표시 장치(100)는 배경 이미지(1450)의 색상, 밝기, 배경 이미지(1450)에 포함되는 오브젝트들의 모양, 오브젝트들이 배열 등에 기초하여, 배경 이미지(1450)가 나타내는 감정 정보를 결정할 수 있다. 예를 들어, 영상 표시 장치(100)는 배경 이미지(1450)의 색상이 빨간색이고, 배경 이미지(1450)에 포함된 오브젝트들 무질서하게 배열된 경우, 배경 이미지(1450)에 대응하는 감정 정보를 “흥분한(excited)으로 결정할 수 있다. 또한, 배경 이미지(1450)에 대응하는 감정 정보에 따라, 배경 이미지(1450)에 대응하는 가중치를 결정할 수 있다.

영상 표시 장치(100)는 제1 내지 제3 이미지들에 대응하는 감정 정보 및 가중치들, 배경 이미지의 감정 정보 및 가중치에 기초하여, 제2 대표 감정(1470)을 결정할 수 있다. 제2 대표 감정은 “아주 기쁜(delighted)”일 수 있다.

도 15는 일 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.

도 15를 참조하면, 일 실시예에 따른 영상 표시 장치(100)는 프로세서(120), 메모리(130) 및 디스플레이(140)를 포함할 수 있다.

일 실시예에 따른 프로세서(120)는 메모리(130)에 저장되는 하나 이상의 프로그램들을 실행할 수 있다. 프로세서(120)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다. 또한, 프로세서(120)는 복수의 프로세서를 포함할 수 있다. 예를 들어, 프로세서(120)는 메인 프로세서(main processor, 도시되지 아니함) 및 슬립 모드(sleep mode)에서 동작하는 서브 프로세서(sub processor, 도시되지 아니함)로 구현될 수 있다.

일 실시예에 따른 메모리(130)는 영상 표시 장치(100)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다.

또한, 메모리(130)에 저장되는 프로그램은 하나 이상의 인스트럭션들을 포함할 수 있다. 메모리(130)에 저장된 프로그램(하나 이상의 인스트럭션들) 또는 어플리케이션은 프로세서(120)에 의해 실행될 수 있다.

일 실시예에 따른 프로세서(120)는 메모리(130)에 저장되는 하나 이상의 인스트럭션들을 실행함으로써, 제1 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 시맨틱 정보를 획득하고, 제2 뉴럴 네트워크를 이용하여, 복수의 이미지들 각각에 대응하는 감정 정보를 획득할 수 있다. 또한, 프로세서(120)는 시맨틱 정보와 감정 정보에 기초하여, 복수의 이미지들에 대응하는 적어도 하나의 오디오를 결정할 수 있다. 예를 들어, 프로세서(120)는 제3 뉴럴 네트워크를 이용하여, 적어도 하나의 오디오를 결정할 수 있다. 이때, 제1 내지 제3 뉴럴 네트워크들은 입력된 데이터가 히든 레이어들을 통과하면서, 처리됨으로써, 처리된 데이터가 출력되는 구조를 포함할 수 있다. 이때, 프로세서(120)는 히든 레이어들 각각에서, 이전 레이어로부터 수신한 데이터를 처리하여, 처리된 데이터를 다음 레이어로 출력할 수 있다.

또한, 프로세서(120)는 시맨틱 정보에 기초하여, 오디오 정보를 획득할 수 있으며, 오디오 정보와 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다.

프로세서(120)는, 복수의 이미지들 각각에 대응하는 시맨틱 정보와 감정 정보에 기초하여, 복수의 이미지들 각각에 대응하는 오디오를 결정하고, 오디오를 포함하는 플레이 리스트를 생성할 수 있다. 프로세서(120)는 복수의 이미지들 각각에 대응하는 플레이 리스트 중 사용자 입력에 기초하여, 적어도 하나를 선택하고, 선택된 플레이 리스트에 포함되는 오디오가 출력되도록 제어할 수 있다.

프로세서(120)는 복수의 이미지들 각각에 대응하는 감정 정보에 기초하여, 복수의 이미지들 각각에 대응하는 가중치들을 결정하고, 결정된 가중치들을 시맨틱 정보 및 상기 감정 정보 중 적어도 하나에 적용하여, 적어도 하나의 오디오를 결정할 수 있다. 예를 들어, 프로세서(120)는, 복수의 이미지들 각각에 대응하는 감정 정보 및 가중치들에 기초하여, 복수의 이미지들을 대표하는 대표 감정 정보를 획득하고, 대표 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다.

또한, 프로세서(120)는 복수의 이미지들 및 복수의 이미지들이 표시되는 배경 이미지 각각에 대응하는 감정 정보, 가중치들에 기초하여, 대표 감정 정보를 획득하고, 대표 감정 정보에 기초하여, 적어도 하나의 오디오를 결정할 수 있다.

일 실시예에 따른 디스플레이(140)는 프로세서(120)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성한다. 디스플레이(140)는 PDP, LCD, OLED, 플렉시블 디스플레이(flexible display)등으로 구현될 수 있으며, 또한, 3차원 디스플레이(3D display)로 구현될 수 있다. 또한, 디스플레이(140)는, 터치 스크린으로 구성되어 출력 장치 이외에 입력 장치로 사용되는 것도 가능하다.

일 실시예에 따른 디스플레이(140)는 주변 모드로 동작하여, 영상 표시 장치를 시청하지 않을 때, 그림이나 사진 등의 이미지를 표시하거나, 시간, 날씨, 뉴스 등 생활 정보를 표시할 수 있다. 또한, 디스플레이(140)는 복수의 이미지들을 표시할 수 있으며, 복수의 이미지들을 배경 이미지 위에 표시할 수 있다. 이 때, 배경 이미지는 영상 표시 장치(100)가 설치된 벽 등의 주변 환경과 동일 또는 유사한 이미지일 수 있다. 다만, 이에 한정되지 않는다.

도 16은 일 실시예에 따른 프로세서의 구성을 나타내는 블록도이다.

도 16을 참조하면, 일 실시예에 따른 프로세서(120)는 데이터 학습부(1610) 및 데이터 처리부(1620)를 포함할 수 있다.

데이터 학습부(1610)는 일 실시예에 따른 제1 뉴럴 네트워크를 학습시키기 위하여, 이미지로부터 시맨틱 정보를 획득하기 위한 기준을 학습할 수 있다. 데이터 학습부(1610)는 시맨틱 정보를 획득하기 위해 이미지의 어떤 정보(예를 들어, 특징 정보)를 이용하는지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1310)는 이미지의 특징 정보를 이용하여, 어떻게 시맨틱 정보를 획득할지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터(예를 들어, 이미지)를 획득하고, 획득된 데이터를 데이터 처리 모델(제1 뉴럴 네트워크)에 적용함으로써, 이미지로부터 시맨틱 정보를 획득하기 위한 기준을 학습할 수 있다.

또한, 데이터 학습부(1610)는 일 실시예에 따른 제2 뉴럴 네트워크를 학습시키기 위하여, 이미지로부터 감정 정보를 획득하기 위한 기준을 학습할 수 있다. 데이터 학습부(1610)는 감정 정보를 획득하기 위하여 이미지의 어떤 정보(예를 들어, 특징 정보)를 이용하는지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1310)는 이미지의 특징 정보를 이용하여, 어떻게 감정 정보를 획득할지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터(예를 들어, 이미지)를 획득하고, 획득된 데이터를 데이터 처리 모델(제2 뉴럴 네트워크)에 적용함으로써, 이미지로부터 감정 정보를 획득하기 위한 기준을 학습할 수 있다.

또한, 데이터 학습부(1610)는 일 실시예에 따른 제3 뉴럴 네트워크를 학습시키기 위하여, 시맨틱 정보 및 감정 정보를 이용하여, 적어도 하나의 오디오를 결정하기 위한 기준을 학습할 수 있다. 데이터 학습부(1610)는 데이터 학습부(1310)는 시맨틱 정보 및 감정 정보 이용하여, 어떻게 적어도 하나의 오디오를 결정할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터(예를 들어, 시맨틱 정보, 감정 정보)를 획득하고, 획득된 데이터를 데이터 처리 모델(제3 뉴럴 네트워크)에 적용함으로써, 적어도 하나의 오디오를 결정하기 위한 기준을 학습할 수 있다. 또는, 데이터 학습부(1610)는 제3 뉴럴 네트워크를 학습시키기 위하여, 오디오 메타 데이터 및 감정 정보를 이용하여, 적어도 하나의 오디오를 결정하기 위한 기준을 학습할 수도 있다.

또한, 데이터 학습부(1610)는 일 실시예에 따른 제4 뉴럴 네트워크를 학습시키기 위하여, 이미지로부터, 가중치를 결정하기 위한 기준을 학습할 수 있다. 데이터 학습부(1610)는 이미지 또는 이미지의 감정 정보를 이용하여, 어떻게 가중치를 결정할 지에 관한 기준을 학습할 수 있다. 데이터 학습부(1310)는 학습에 이용될 데이터(예를 들어, 이미지 또는 이미지의 감정 정보)를 획득하고, 획득된 데이터를 데이터 처리 모델(제4 뉴럴 네트워크)에 적용함으로써, 가중치를 결정하기 위한 기준을 학습할 수 있다.

데이터 처리 모델들(예를 들어, 제1 내지 제4 뉴럴 네트워크들)은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 처리 모델들은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 처리 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

또한, 데이터 학습부(1610)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 처리 모델들을 학습시킬 수 있다.

또한, 데이터 학습부(1610)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 처리 모델을 학습시킬 수 있다. 또한, 데이터 학습부(1610)는, 예를 들어, 별다른 지도 없이 데이터 처리를 위해 필요한 데이터의 종류를 스스로 학습함으로써, 데이터 처리를 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 처리 모델을 학습시킬 수 있다. 또한, 데이터 학습부(1610)는, 예를 들어, 학습에 따른 결과값이 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 처리 모델을 학습시킬 수 있다.

또한, 데이터 처리 모델이 학습되면, 데이터 학습부(1610)는 학습된 데이터 처리 모델을 저장할 수 있다. 이 경우, 데이터 학습부(1610)는 학습된 데이터 처리 모델들을 영상 표시 장치의 메모리에 저장할 수 있다. 또는, 데이터 학습부(1610)는 학습된 데이터 처리 모델을 영상 표시 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 처리 모델이 저장되는 메모리는, 예를 들면, 영상 표시 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.

데이터 처리부(1620)는 학습된 제1 뉴럴 네트워크를 포함하는 데이터 처리 모델에 이미지를 입력하고, 데이터 처리 모델은 결과값으로 이미지에 대응하는 시맨틱 정보를 출력할 수 있다. 출력된 결과 값은 제1 뉴럴 네트워크를 포함하는 데이터 처리 모델을 업데이트하는데 이용될 수 있다.

데이터 처리부(1620)는 학습된 제2 뉴럴 네트워크를 포함하는 데이터 처리 모델에 이미지를 입력하고, 데이터 처리 모델은 결과값으로 이미지에 대응하는 감정 정보를 출력할 수 있다. 출력된 결과 값은 제2 뉴럴 네트워크를 포함하는 데이터 처리 모델을 업데이트하는데 이용될 수 있다.

데이터 처리부(1620)는 학습된 제3 뉴럴 네트워크를 포함하는 데이터 처리 모델에 시맨틱 정보(또는 오디오 메타 데이터) 및 감정 정보를 입력하고, 데이터 처리 모델은 결과값으로 적어도 하나의 오디오에 대한 정보를 출력할 수 있다. 출력된 결과 값은 제3 뉴럴 네트워크를 포함하는 데이터 처리 모델을 업데이트하는데 이용될 수 있다.

데이터 처리부(1620)는 학습된 제4 뉴럴 네트워크를 포함하는 데이터 처리 모델에 이미지(또는 이미지의 감정 정보)를 입력하고, 데이터 처리 모델은 결과값으로 가중치를 출력할 수 있다. 출력된 결과 값은 제4 뉴럴 네트워크를 포함하는 데이터 처리 모델을 업데이트하는데 이용될 수 있다.

데이터 학습부(1610) 및 데이터 처리부(1620) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 영상 표시 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1610) 및 데이터 처리부(1620) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

이 경우, 데이터 학습부(1610) 및 데이터 처리부(1620)는 하나의 영상 표시 장치에 탑재될 수도 있으며, 또는 별개의 영상 표시 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1610) 및 데이터 처리부(1620) 중 하나는 영상 표시 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1610) 및 데이터 처리부(1620)는 유선 또는 무선으로 통하여, 데이터 학습부(1610)가 구축한 모델 정보를 데이터 처리부(1620)로 제공할 수도 있고, 데이터 처리부(1620)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1610)로 제공될 수도 있다.

한편, 데이터 학습부(1610) 및 데이터 처리부(1620) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1610) 및 데이터 처리부(1620) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 17은 일 실시예에 따른 영상 표시 장치 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.

도 17을 참조하면, 서버(2000)는 이미지로부터 시맨틱 정보를 획득하기 위한 기준을 학습하여 제1 뉴럴 네트워크를 학습시킬 수 있다. 또한, 서버(2000)는 이미지로부터 감정 정보를 획득하기 위한 기준을 학습하여, 제2 뉴럴 네트워크를 학습시킬 수 있다. 서버(2000)는 시맨틱 정보 및 감정 정보로부터 적어도 하나의 오디오를 결정하기 위한 기준을 학습하여, 제3 뉴럴 네트워크를 학습시킬 수 있다. 서버(2000)는 이미지 또는 이미지의 감정 정보로부터 가중치를 결정하기 위한 기준을 학습하여, 제4 뉴럴 네트워크를 학습시킬 수 있다. 영상 표시 장치(100)는 서버(2000)에 의한 학습 결과에 기초하여 이미지로부터 시맨틱 정보를 획득하고, 이미지로부터 감정 정보를 획득하며, 시맨틱 정보 및 감정 정보로부터 적어도 하나의 오디오를 결정하고, 이미지 또는 이미지의 감정 정보로부터 가중치를 결정할 수 있다.

이 경우, 서버(2000)는 도 16에 도시된 데이터 학습부(1610)의 기능을 수행할 수 있다. 서버(2000)는 이미지로부터 시맨틱 정보를 획득하기 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준, 이미지로부터 감정 정보를 획득하기 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준, 시맨틱 정보 및 감정 정보로부터 적어도 하나의 오디오를 결정하기 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준, 이미지 또는 이미지의 감정 정보로부터 가중치를 결정하기 위하여 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다. 또한, 서버(2000)는 데이터를 이용하여 이미지로부터 시맨틱 정보를 획득하기 위한 기준, 이미지로부터 감정 정보를 획득하기 위한 기준, 시맨틱 정보 및 감정 정보로부터 적어도 하나의 오디오를 결정하기 위한 기준, 이미지 또는 이미지의 감정 정보로부터 가중치를 결정하기 위한 기준을 학습할 수 있다.

또한, 서버(2000)는 시맨틱 정보를 획득하는데 이용되는 데이터 처리 모델(제1 뉴럴 네트워크), 이미지로부터 감정 정보를 획득하는데 이용되는 데이터 처리 모델(제2 뉴럴 네트워크), 시맨틱 정보 및 감정 정보로부터 적어도 하나의 오디오를 결정하는데 이용되는 데이터 처리 모델(제3 뉴럴 네트워크), 이미지 또는 이미지의 감정 정보로부터 가중치를 결정하는데 이용되는 데이터 처리 모델(제4 뉴럴 네트워크)을 학습 데이터를 이용하여 학습시킬 수 있다.

또한, 영상 표시 장치(100)는 데이터를 서버(2000)에게 전송하고, 서버(2000)가 데이터를 데이터 처리 모델들(제1 내지 제4 뉴럴 네트워크들)에 적용하여 처리할 것을 요청할 수 있다. 예를 들어, 서버(2000)는 데이터 처리 모델들(제1 내지 제4 뉴럴 네트워크들)을 이용하여, 이미지로부터 시맨틱 정보를 획득하고, 이미지로부터 감정 정보를 획득하며, 시맨틱 정보 및 감정 정보로부터 적어도 하나의 오디오를 결정하고, 이미지 또는 이미지의 감정 정보로부터 가중치를 결정할 수 있다.

또는, 영상 표시 장치(100)는 서버(2000)에 의해 생성된 데이터 처리 모델들을 서버(2000)로부터 수신하고, 수신된 데이터 처리 모델들을 이용하여, 데이터를 처리할 수 있다. 예를 들어, 영상 표시 장치(100)는 수신된 데이터 처리 모델들(제1 내지 제4 뉴럴 네트워크들)을 이용하여, 이미지로부터 시맨틱 정보를 획득하고, 이미지로부터 감정 정보를 획득하며, 시맨틱 정보 및 감정 정보로부터 적어도 하나의 오디오를 결정하고, 이미지 또는 이미지의 감정 정보로부터 가중치를 결정할 수 있다.

도 18은 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다. 도 18의 영상 표시 장치(1700)는 도 15의 영상 표시 장치(100)의 일 실시예일 수 있다.

도 18을 참조하면, 일 실시예에 따른 영상 표시 장치(1700)는, 튜너부(1740), 제어부(1710), 디스플레이부(1720), 통신부(1750), 감지부(1730), 입/출력부(1770), 비디오 처리부(1780), 오디오 처리부(1715), 저장부(1790), 전원부(1760)를 포함할 수 있다.

튜너부(1740)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 영상 표시 장치(1100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.

튜너부(1740)는 사용자 입력(예를 들어, 제어 장치로부터 수신되는 제어 신호, 예컨대, 채널 번호 입력, 채널의 업/다운(up/down) 입력 및 EPG 화면에서 채널 입력)에 따라 채널 번호에 대응되는 주파수 대역에서 방송 신호를 수신할 수 있다.

튜너부(1740)는 지상파 방송, 케이블 방송, 위성 방송, 인터넷 방송 등과 같이 다양한 소스로부터 방송 신호를 수신할 수 있다. 튜너부(1740)는 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.

통신부(1750)는 제어부(1710)의 제어에 의해 외부 장치 또는 서버와 데이터 또는 신호를 송수신할 수 있다. 제어부(1710)는 통신부(1750)를 통해 연결된 외부 장치로 컨텐츠를 송/수신, 외부 장치로부터 어플리케이션(application)을 다운로드 하거나 또는 웹 브라우징을 할 수 있다. 통신부(1750)는 영상 표시 장치(1700)의 성능 및 구조에 대응하여 무선랜(1751, 예를 들어, 와이- 파이(Wi-Fi)), 블루투스(1752), 및 유선 이더넷(Ethernet)(1753) 중 적어도 하나의 방식으로 데이터 또는 신호를 송수신할 수 있다.

비디오 처리부(1780)는, 영상 표시 장치(1700)가 수신한 비디오 데이터에 대한 처리를 수행한다. 비디오 처리부(1780)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.

감지부(1730)는 사용자의 음성, 사용자의 영상 또는 사용자의 인터랙션을 감지하며, 마이크(1731), 카메라부(1732) 및 광 수신부(1733)를 포함할 수 있다.

마이크(1731)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(1731)는 수신된 음성을 전기 신호로 변환하여 제어부(1710)로 출력할 수 있다. 사용자 음성은 예를 들어, 영상 표시 장치(1700)의 메뉴 또는 기능에 대응되는 음성을 포함할 수 있다.

카메라부(1732)는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신할 수 있다. 제어부(1110)는 수신된 모션의 인식 결과를 이용하여 영상 표시 장치(1700)에 표시되는 메뉴를 선택하거나 모션 인식 결과에 대응되는 제어를 할 수 있다.

광 수신부(1733)는 외부의 제어 장치에서부터 수신되는 광 신호(제어 신호를 포함)를 디스플레이부(1720)의 베젤의 광창(도시되지 아니함) 등을 통해 수신한다. 광 수신부(1733)는 제어 장치로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 제어부(1710)의 제어에 의해 제어 신호가 추출될 수 있다.

입/출력부(1770)는 제어부(1710)의 제어에 의해 영상 표시 장치(1700)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입/출력부(1770)는 HDMI 포트(High-Definition Multimedia Interface port, 1771), 컴포넌트 잭(component jack, 1772), PC 포트(PC port, 1773), 및 USB 포트(USB port, 1774) 중 하나를 포함할 수 있다. 입/출력부(1770)는 HDMI 포트(1771), 컴포넌트 잭(1772), PC 포트(1773), 및 USB 포트(1774)의 조합을 포함할 수 있다.

제어부(1710)는 영상 표시 장치(1700)의 전반적인 동작 및 디스플레이 장치(1700)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 제어부(1710)는 사용자의 입력이 있거나 기 설정되어 저장된 조건을 만족하는 경우, 저장부(1790)에 저장된 OS(Operation System) 및 다양한 애플리케이션을 실행할 수 있다.

제어부(1710)는 영상 표시 장치(1700)의 외부에서부터 입력되는 신호 또는 데이터를 저장하거나, 영상 표시 장치(1700)에서 수행되는 다양한 작업에 대응되는 저장 영역으로 사용되는 램(RAM, 1781), 영상 표시 장치(1700)의 제어를 위한 제어 프로그램이 저장된 롬(ROM, 1782) 및 프로세서(Processor, 1783)를 포함할 수 있다.

그래픽 처리부(1784)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 감지부(1730)를 통해 감지된 사용자 입력을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이부(1720)의 디스플레이 영역 내에 표시된다.

제1 내지 n 인터페이스(1785-1 내지 1785-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.

램(1781), 롬(1782), 프로세서(1783), 그래픽 처리부(1784), 제1 내지 n 인터페이스(1785-1 내지 1785-n)는 내부 버스(bus)(1786)를 통해 상호 연결될 수 있다.

본 실시예에서 “영상 표시 장치의 제어부”라는 용어는 프로세서(1783), 롬(1782) 및 램(1781)을 포함한다.

디스플레이부(1720)는, 제어부(1710)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성한다. 디스플레이부(1720)는 PDP, LCD, OLED, 플렉시블 디스플레이(flexible display)등으로 구현될 수 있으며, 또한, 3차원 디스플레이(3D display)로 구현될 수 있다. 또한, 디스플레이부(1720)는, 터치 스크린으로 구성되어 출력 장치 이외에 입력 장치로 사용되는 것도 가능하다.

오디오 처리부(1715)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(1715)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리부(1715)는 복수의 컨텐츠에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 모듈을 구비할 수 있다.

오디오 출력부(1725)는 제어부(1710)의 제어에 의해 튜너부(1740)를 통해 수신된 방송 신호에 포함된 오디오를 출력한다. 오디오 출력부(1725)는 통신부(1750) 또는 입/출력부(1770)를 통해 입력되는 오디오(예를 들어, 음성, 사운드)를 출력할 수 있다. 또한, 오디오 출력부(1725)는 제어부(1710)의 제어에 의해 저장부(1790)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(1725)는 스피커(1726), 헤드폰 출력 단자(1727) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(1728) 중 적어도 하나를 포함할 수 있다. 오디오 출력부(1725)는 스피커(1726), 헤드폰 출력 단자(1727) 및 S/PDIF 출력 단자(1728)의 조합을 포함할 수 있다.

전원부(1760)는 제어부(1710)의 제어에 의해 영상 표시 장치(1700) 내부의 구성 요소들로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원부(1760)는 제어부(1710)의 제어에 의해 영상 표시 장치(1700) 내부에 위치하는 하나 또는 둘 이상의 배터리(도시되지 아니함)에서부터 출력되는 전원을 내부의 구성 요소들에게 공급할 수 있다.

저장부(1790)는 제어부(1710)의 제어에 의해 영상 표시 장치(1700)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 저장부(1790)는 도시되지 아니한 방송 수신 모듈, 채널 제어 모듈, 볼륨 제어 모듈, 통신 제어 모듈, 음성 인식 모듈, 모션 인식 모듈, 광 수신 모듈, 디스플레이 제어 모듈, 오디오 제어 모듈, 외부 입력 제어 모듈, 전원 제어 모듈, 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 모듈, 음성 데이터베이스(DB), 또는 모션 데이터베이스(DB)를 포함할 수 있다. 저장부(1790)의 도시되지 아니한 모듈들 및 데이터 베이스는 영상 표시 장치(1700)에서 방송 수신의 제어 기능, 채널 제어 기능, 볼륨 제어 기능, 통신 제어 기능, 음성 인식 기능, 모션 인식 기능, 광 수신 제어 기능, 디스플레이 제어 기능, 오디오 제어 기능, 외부 입력 제어 기능, 전원 제어 기능 또는 무선(예를 들어, 블루투스)으로 연결되는 외부 장치의 전원 제어 기능을 수행하기 위하여 소프트웨어 형태로 구현될 수 있다. 제어부(1710)는 저장부(1790)에 저장된 이들 소프트웨어를 이용하여 각각의 기능을 수행할 수 있다.

한편, 도 15 및 도 18에 도시된 영상 표시 장치(100, 1700)의 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 영상 표시 장치(100, 1700)의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.

일 실시예에 따른 영상 표시 장치의 동작방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

또한, 개시된 실시예들에 따른 전자 장치 또는 전자 장치의 동작방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.

컴퓨터 프로그램 제품은, 서버 및 클라이언트 장치로 구성되는 시스템에서, 서버의 저장매체 또는 클라이언트 장치의 저장매체를 포함할 수 있다. 또는, 서버 또는 클라이언트 장치와 통신 연결되는 제3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 클라이언트 장치 또는 제3 장치로 전송되거나, 제3 장치로부터 클라이언트 장치로 전송되는 S/W 프로그램 자체를 포함할 수 있다.

이 경우, 서버, 클라이언트 장치 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 클라이언트 장치 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.

예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 클라이언트 장치가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.

이상에서 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims

영상 표시 장치에 있어서,
제1 이미지 및 제2 이미지를 포함하는 복수의 이미지들을 표시하는 디스플레이;
하나 이상의 인스트럭션들을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션들을 실행하는 프로세서를 포함하고,
상기 프로세서는,
제1 뉴럴 네트워크를 이용하여, 상기 제1 이미지에 대응하는 제1 시맨틱 정보 및 상기 제2 이미지에 대응하는 제2 시맨틱 정보를 포함하는 시맨틱 정보를 획득하고,
제2 뉴럴 네트워크를 이용하여, 상기 제1 이미지에 대응하는 제1 감정 정보 및 상기 제2 이미지에 대응하는 제2 감정 정보를 포함하는 감정 정보를 획득하며,
상기 제1 감정 정보에 기초하여, 상기 제1 이미지에 대응하는 제1 가중치를 결정하고, 상기 제2 감정 정보에 기초하여, 상기 제2 이미지에 대응하는 제2 가중치를 결정하며,
상기 제1 가중치, 상기 제2 가중치, 상기 제1 시맨틱 정보, 상기 제2 시맨틱 정보, 상기 제1 감정 정보 및 상기 제2 감정 정보에 기초하여, 상기 제1 이미지 및 상기 제2 이미지에 대응하는 적어도 하나의 오디오를 결정하며,
상기 오디오를 출력하는 영상 표시 장치.
제1항에 있어서,
상기 프로세서는,
제3 뉴럴 네트워크를 이용하여, 상기 제1 시맨틱 정보, 상기 제2 시맨틱 정보, 상기 제1 감정 정보, 및 상기 제2 감정 정보에 대응하는 상기 적어도 하나의 오디오를 결정하는, 영상 표시 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 시맨틱 정보에 기초하여, 상기 제1 이미지에 대응하는 제1 오디오 정보를 획득하고, 상기 제2 시맨틱 정보에 기초하여, 상기 제2 이미지에 대응하는 제2 오디오 정보를 획득하고, 상기 획득된 제1 오디오 정보 및 제2 오디오 정보에 기초하여, 상기 적어도 하나의 오디오를 결정하는, 영상 표시 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 이미지에 대응하는 상기 제1 시맨틱 정보와 상기 제1 감정 정보에 기초하여, 제1 오디오를 결정하고, 상기 제1 오디오를 포함하는 제1 플레이 리스트를 생성하고,
상기 제2 이미지에 대응하는 상기 제2 시맨틱 정보와 상기 제2 감정 정보에 기초하여, 제2 오디오를 결정하고, 상기 제2 오디오를 포함하는 제2 플레이 리스트를 생성하는, 영상 표시 장치.
제4항에 있어서,
상기 프로세서는,
사용자 입력에 기초하여, 상기 제1 플레이 리스트 및 제2 플레이 리스트 중 적어도 하나를 선택하고, 선택된 플레이 리스트에 포함되는 오디오를 출력하는, 영상 표시 장치.
삭제
제1항에 있어서,
상기 프로세서는,
상기 제1 가중치, 상기 제1 시맨틱 정보 및 상기 제1 감정 정보에 기초하여, 제1 오디오를 결정하고,
상기 제2 가중치, 상기 제2 시맨틱 정보, 및 상기 제2 감정 정보에 기초하여, 제2 오디오를 결정하며,
상기 제1 오디오 및 제2 오디오를 포함하는 플레이리스트를 생성하며, 상기 제1 오디오의 개수 및 상기 제2 오디오의 개수는 상기 제1 가중치 및 상기 제2 가중치에 기초하여 결정되는, 영상 표시 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 가중치 및 상기 제2 가중치에 기초하여, 상기 제1 이미지 및 상기 제2 이미지의 크기를 변경하여 표시하는, 영상 표시 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 감정 정보, 상기 제2 감정 정보, 상기 제1 가중치 및 상기 제2 가중치에 기초하여, 상기 제1 이미지 및 상기 제2 이미지를 대표하는 대표 감정 정보를 획득하고,
상기 대표 감정 정보에 기초하여, 상기 적어도 하나의 오디오를 결정하는, 영상 표시 장치.
제9항에 있어서,
상기 프로세서는,
상기 제1 가중치, 상기 제2 가중치 및 상기 대표 감정 정보 중 적어도 하나에 기초하여, 상기 제1 이미지 및 상기 제2 이미지를 합성하여 대표 이미지를 생성하고, 상기 대표 이미지를 표시하는, 영상 표시 장치.
제9항에 있어서,
상기 프로세서는,
상기 디스플레이에 표시되는 배경 이미지에 기초하여, 상기 대표 감정 정보를 획득하는, 영상 표시 장치.
영상 표시 장치의 동작방법에 있어서,
제1 이미지 및 제2 이미지를 포함하는 복수의 이미지들을 표시하는 단계;
제1 뉴럴 네트워크를 이용하여, 상기 제1 이미지에 대응하는 제1 시맨틱 정보 및 상기 제2 이미지에 대응하는 제2 시맨틱 정보를 포함하는 시맨틱 정보를 획득하는 단계;
제2 뉴럴 네트워크를 이용하여, 상기 제1 이미지에 대응하는 제1 감정 정보 및 상기 제2 이미지에 대응하는 제2 감정 정보를 포함하는 감정 정보를 획득하는 단계;
상기 제1 감정 정보에 기초하여, 상기 제1 이미지에 대응하는 제1 가중치를 결정하고, 상기 제2 감정 정보에 기초하여, 상기 제2 이미지에 대응하는 제2 가중치를 결정하는 단계;
상기 제1 가중치, 상기 제2 가중치, 상기 제1 시맨틱 정보, 상기 제2 시맨틱 정보, 상기 제1 감정 정보 및 상기 제2 감정 정보에 기초하여, 적어도 하나의 오디오를 결정하는 단계; 및
상기 오디오를 출력하는 단계를 포함하는 영상 표시 장치의 동작방법.
제12항에 있어서,
상기 적어도 하나의 오디오를 결정하는 단계는,
제3 뉴럴 네트워크를 이용하여, 상기 제1 시맨틱 정보, 상기 제2 시맨틱 정보, 상기 제1 감정 정보 및 상기 제2 감정 정보에 대응하는 상기 적어도 하나의 오디오를 결정하는 단계를 포함하는, 영상 표시 장치의 동작방법.
제12항에 있어서,
상기 적어도 하나의 오디오를 결정하는 단계는,
상기 제1 시맨틱 정보에 기초하여, 상기 제1 이미지에 대응하는 제1 오디오 정보를 획득하고, 상기 제2 시맨틱 정보에 기초하여, 상기 제2 이미지에 대응하는 제2 오디오 정보를 획득하고, 상기 획득된 제1 오디오 정보 및 제2 오디오 정보에 기초하여, 상기 적어도 하나의 오디오를 결정하는, 영상 표시 장치의 동작방법.
제12항에 있어서,
상기 적어도 하나의 오디오를 결정하는 단계는,
상기 제1 이미지에 대응하는 상기 제1 시맨틱 정보와 상기 제1 감정 정보에 기초하여, 제1 오디오를 결정하고, 상기 제1 오디오를 포함하는 제1 플레이 리스트를 생성하는 단계; 및
상기 제2 이미지에 대응하는 상기 제2 시맨틱 정보와 상기 제2 감정 정보에 기초하여, 제2 오디오를 결정하고, 상기 제2 오디오를 포함하는 제2 플레이 리스트를 생성하는 단계를 포함하는, 영상 표시 장치의 동작방법.
제15항에 있어서,
상기 동작방법은,
사용자 입력에 기초하여, 상기 제1 플레이 리스트 및 제2 플레이 리스트 중 적어도 하나를 선택하는 단계; 및
상기 선택된 플레이 리스트에 포함되는 오디오를 출력하는 단계를 더 포함하는, 영상 표시 장치의 동작방법.
삭제
제12항에 있어서,
상기 적어도 하나의 오디오를 결정하는 단계는,
상기 제1 가중치, 상기 제1 시맨틱 정보 및 상기 제1 감정 정보에 기초하여, 제1 오디오를 결정하는 단계;
상기 제2 가중치, 상기 제2 시맨틱 정보, 및 상기 제2 감정 정보에 기초하여, 제2 오디오를 결정하는 단계; 및
상기 제1 오디오 및 제2 오디오를 포함하는 플레이리스트를 생성하는 단계를 포함하고,
상기 제1 오디오의 개수 및 상기 제2 오디오의 개수는 상기 제1 가중치 및 상기 제2 가중치에 기초하여 결정되는, 영상 표시 장치의 동작방법.
제12항에 있어서,
상기 동작방법은,
상기 제1 가중치 및 상기 제2 가중치에 기초하여, 상기 제1 이미지 및 상기 제2 이미지의 크기를 변경하여 표시하는 단계를 더 포함하는, 영상 표시 장치의 동작방법.
제12항에 있어서,
상기 적어도 하나의 오디오를 결정하는 단계는,
상기 제1 감정 정보, 상기 제2 감정 정보, 상기 제1 가중치 및 상기 제2 가중치에 기초하여, 상기 제1 이미지 및 상기 제2 이미지를 대표하는 대표 감정 정보를 획득하는 단계; 및
상기 대표 감정 정보에 기초하여, 상기 적어도 하나의 오디오를 결정하는 단계를 포함하는, 영상 표시 장치의 동작방법.
제20항에 있어서,
상기 동작방법은,
상기 제1 가중치, 상기 제2 가중치 및 상기 대표 감정 정보 중 적어도 하나에 기초하여, 상기 제1 이미지 및 상기 제2 이미지를 합성하여 대표 이미지를 생성하는 단계; 및
상기 대표 이미지를 표시하는 단계를 더 포함하는, 영상 표시 장치의 동작방법.
제20항에 있어서,
상기 대표 감정 정보를 획득하는 단계는,
상기 영상 표시 장치의 디스플레이에 표시되는 배경 이미지에 기초하여, 상기 대표 감정 정보를 획득하는 단계를 포함하는, 영상 표시 장치의 동작방법.
제12항의 방법을 수행하도록 하는 프로그램이 저장된 하나 이상의 컴퓨터로 읽을 수 있는 기록매체.