KR101999607B1

KR101999607B1 - 영상의 출력 특성 조정을 위한 방법 및 장치

Info

Publication number: KR101999607B1
Application number: KR1020180000877A
Authority: KR
Inventors: 나태영; 김윤관; 배주한
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2019-07-12
Also published as: KR20190083216A

Abstract

본 실시예는 컨텐츠를 구성하고 있는 영상 정보와 오디오 정보를 동시에 활용하여 영상의 장르 정보를 산출하고, 산출한 장르 정보에 따라 적절한 화면 및 음장 모드가 자동으로 적용될 수 있도록 함으로써 시청자로 하여금 항시 고품질의 영상을 시청 가능토록 하는 영상의 출력 특성 조정을 위한 방법 및 장치에 관한 것이다.

Description

영상의 출력 특성 조정을 위한 방법 및 장치{Method and Apparatus for Adjusting Output Characteristics of Video}

본 실시예는 영상의 출력 특성 조정을 위한 방법 및 장치에 관한 것이다. 더욱 상세하게는, 영상의 장르 정보를 활용하여 영상의 화질 및 음향과 같은 출력 특성을 자동으로 조정하는 방법 및 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

종래의 디스플레이 장치의 경우 영상의 화질 및 음향에 대한 설정 기능을 제공하며, 이를 통해, 시청자로 하여금 취향에 맞는 화질 및 음향을 선택 가능하도록 구현된다. 일반적으로, 화질 설정의 경우 장르 선택, 화면 모드(명암, 밝기, 채도, 선명도 등), 영상 압축방식에 따른 화질 보정 등을 시청자가 수동으로 조절함으로써, 시청자의 취향에 맞는 화질을 설정할 수 있다. 음향 설정의 경우도, 시청자가 장르별 선택 옵션(표준 모드, 뉴스, 영화, 스포츠 등) 또는 이퀄라이저(equalizer) 메뉴 등을 통해 시청자의 취향에 맞게 음향을 조절할 수 있다.

하지만, 시청자들은 화질 및 음향에 대한 설정 기능이 존재함에도 불구하고, 그 조작의 불편함 등의 이유로 기 설정된 화질 및 음향의 상태로 영상을 시청하는 경우가 대부분이다. 이는 자칫, 영상의 제작자가 의도하는 바와 무관하게 저품질의 영상이 시청자에게 제공됨에 따라 시청자로 하여금 영상에 대한 몰입감과 현장감을 감소시킬 수 있다는 문제점이 존재한다.

이에, 설정 수단에 대한 별도 조작 과정없이도, 상황에 맞는 적절한 화질 및 음향이 자동으로 선택될 수 있도록 함으로써 시청자로 하여금 항시 고품질의 영상을 시청 가능토록 하는 새로운 기술을 필요로 한다.

본 실시예는 컨텐츠를 구성하고 있는 영상 정보와 오디오 정보를 동시에 활용하여 영상의 장르 정보를 산출하고, 산출한 장르 정보에 따라 적절한 화면 및 음장 모드가 자동으로 적용될 수 있도록 함으로써 시청자로 하여금 항시 고품질의 영상을 시청 가능토록 하는 데 그 목적이 있다.

또한, 본 실시예는, 화질 개선 대상이 되는 영상 프레임을 객체 인식결과에 따라 복수 개의 영역으로 분할하고, 각 분할 영역에 대하여 파악된 장르 정보에 따라 분할 영역별 서로 다른 출력 특성이 적용될 수 있도록 함으로써 시청자로 하여금 영상에 대한 몰입감과 현장감이 극대화될 수 있도록 하는 데 그 목적이 있다.

본 실시예는, 영상 프레임 내 객체 인식결과에 따라 상기 영상 프레임을 복수 개의 영역으로 분할하고, 각 분할 영역에 상응하는 객체 이미지를 출력하는 처리부; 상기 분할 영역별 상기 객체 이미지를 수신하여 인공 신경망 모델에 적용하고, 적용결과에 따라 상기 각 분할 영역에 대한 장르(Genre) 정보를 산출하는 학습부; 및 상기 학습부를 이용하여 산출된 상기 장르 정보를 기반으로 상기 각 분할 영역의 화질 조정을 위한 메타 데이터를 생성하고, 상기 메타 데이터를 포함한 화질 조정신호를 출력하는 제어부를 포함하는 것을 특징으로 하는 컨텐츠 제공장치를 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 화질 조정 기능을 제공하는 컨텐츠 출력 지원장치에 있어서, 화질 조정 대상이 되는 영상 프레임과 관련하여 컨텐츠 제공장치로부터 생성된 메타 데이터를 수신하는 통신부; 상기 메타 데이터를 파싱하고, 파싱결과에 따라 상기 영상 프레임 내 기 정의된 분할 영역 각각에 상응하는 화면모드 정보를 산출하는 산출부; 및 상기 화면모드 정보에 기반하여 상기 영상 프레임 내 상기 분할 영역 각각에 대하여 서로 다른 화면 모드를 적용하는 설정부를 포함하는 것을 특징으로 하는 컨텐츠 출력 지원장치를 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 컨텐츠 제공장치의 화질 조정 방법에 있어서, 영상 프레임 내 객체 인식결과에 따라 상기 영상 프레임을 복수 개의 영역으로 분할하고, 각 분할 영역에 상응하는 객체 이미지를 출력하는 과정; 상기 분할 영역별 상기 객체 이미지를 수신하여 인공 신경망 모델에 적용하고, 적용결과에 따라 상기 각 분할 영역에 대한 장르 정보를 산출하는 과정; 및 상기 산출하는 과정을 이용하여 산출된 상기 장르 정보를 기반으로 상기 각 분할 영역의 화질 조정을 위한 메타 데이터를 생성하고, 상기 메타 데이터를 포함한 화질 조정신호를 출력하는 과정을 포함하는 것을 특징으로 하는 화질 조정 방법을 제공한다.

또한, 본 실시예의 다른 측면에 의하면, 컨텐츠 출력 지원장치의 화질 조정 방법에 있어서, 화질 조정 대상이 되는 영상 프레임과 관련하여 컨텐츠 제공장치로부터 생성된 메타 데이터를 수신하는 과정; 상기 메타 데이터를 파싱하고, 파싱결과에 따라 상기 영상 프레임 내 기 정의된 분할 영역 각각에 상응하는 화면모드 정보를 산출하는 과정; 및 상기 화면모드 정보에 기반하여 상기 영상 프레임 내 상기 분할 영역 각각에 대하여 서로 다른 화면 모드를 적용하는 과정을 포함하는 것을 특징으로 하는 화질 조정 방법을 제공한다.

본 실시예에 따르면, 컨텐츠를 구성하고 있는 영상 정보와 오디오 정보를 동시에 활용하여 영상의 장르 정보를 산출하고, 산출한 장르 정보에 따라 적절한 화면 및 음장 모드가 자동으로 적용될 수 있도록 함으로써 시청자로 하여금 항시 고품질의 영상을 시청 가능토록 하는 효과가 있다.

또한, 본 실시예는, 화질 개선 대상이 되는 영상 프레임을 객체 인식결과에 따라 복수 개의 영역으로 분할하고, 각 분할 영역에 대하여 파악된 장르 정보에 따라 분할 영역별 서로 다른 출력 특성이 적용될 수 있도록 함으로써 시청자로 하여금 영상에 대한 몰입감과 현장감이 극대화될 수 있도록 하는 효과가 있다.

도 1은 본 실시예에 따른 컨텐츠 서비스 시스템의 구조를 도시한 도면이다.
도 2는 본 실시예에 따른 컨텐츠 제공장치를 개략적으로 나타낸 블록 구성도이다.
도 3은 본 실시예에 따른 컨텐츠 출력 지원장치를 개략적으로 나타낸 블록 구성도이다.
도 4 및 도 5는 본 실시예에 따른 학습부의 구조 및 이를 이용한 학습 방법을 도시한 도면이다.
도 6은 본 실시예에 따른 컨텐츠 제공장치의 영상 출력 특성 조정방법을 설명하기 위한 순서도이다.
도 7은 본 실시예에 따른 컨텐츠 출력 지원장치의 영상 출력 특성 조정방법을 설명하기 위한 순서도이다.
도 8은 본 실시예에 따른 메타 데이터를 예시한 예시도이다.
도 9는 본 실시예에 따른 영상 출력 특성 조정 방법을 설명하기 위한 개념도이다.

이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 실시예에 따른 컨텐츠 서비스 시스템(100)의 구조를 도시한 도면이다.

도 1에 도시하듯이, 본 실시예에 따른 컨텐츠 서비스 시스템(100)은 컨텐츠 제공장치(110), 컨텐츠 중계장치(120) 및 디스플레이 장치(130)를 포함하는 형태로 구현된다. 한편, 본 실시예에 따른 컨텐츠 서비스 시스템(100)의 경우 실시예에 따라 컨텐츠 중계장치(120) 및 디스플레이 장치(130) 중 어느 하나의 장치가 컨텐츠 출력 지원장치로서 동작할 수 있다. 이하, 컨텐츠 중계장치(120)가 컨텐츠 출력 지원장치로서 동작하는 경우를 제1 실시예로, 디스플레이 장치(130)가 컨텐츠 출력 지원장치로서 동작하는 경우를 제2 실시예로 명시하여 설명하도록 한다.

컨텐츠 제공장치(110)는 컨텐츠 공급자로부터 복수의 방송 컨텐츠 정보를 수신하고, 수신한 컨텐츠 정보를 컨텐츠 중계장치(120) 및 디스플레이 장치(130)로 전송하여 서비스 가입자에게 제공하는 장치를 의미한다. 이러한, 컨텐츠 제공장치(110)는 본 실시예에 따른 영상 서비스가 IPTV를 기반으로 제공되는 서비스인 경우 IPTV 가입자에게 제공되는 실시간 방송 및 VOD(Video On Demand) 등의 컨텐츠를 지원하는 장치일 수 있다.

본 실시예에 따른 컨텐츠 제공장치(110)는 영상을 분석하고, 분석결과에 따라 영상의 특징을 검출하는 기능을 수행한다. 즉, 본 실시예에 따른 컨텐츠 제공장치(110)는 컨텐츠 공급자로부터 수신한 컨텐츠 정보 내 영상 프레임을 분석하여, 객체를 탐지 및 인식하고, 분석결과를 기초로 영상의 장르(Genre) 정보를 담은 메타 데이터를 생성한다.

한편, 본 실시예에 따른 컨텐츠 서비스 시스템(100)에 의하는 경우 하나의 영상 프레임 내에서도 영역별로 서로 다른 출력 특성이 적용될 수 있도록 구현된다. 이를 위해, 컨텐츠 제공장치(110)는 영상 프레임 내 각 영역의 출력 특성 조정을 위한 메타 데이터를 생성한다.

이러한, 메타 데이터는 영상 프레임 내 각 영역별로 장르를 구분하고, 구분된 장르에 따라 해당 영역에 적용될 수 있는 최적의 출력 특성을 정의하여 제공한다.

이를 위해, 컨텐츠 제공장치(110)는 영상 프레임 내 객체를 인식하고, 인식결과에 따라 영상 프레임을 복수 개의 영역으로 분할할 수 있다.

또한, 컨텐츠 제공장치(110)는 영상의 특징을 탐지하고 인식하도록 미리 설계된 인공 신경망 모델을 기 학습(Training)하고, 학습된 인공 신경망 모델을 기반으로 딥러닝 프로세서를 수행하여 각 분할 영역에 대한 장르 정보를 산출할 수 있다.

이후, 컨텐츠 제공장치(110)는 산출된 장르 정보를 기반으로 각 분할 영역의 출력 특성 조정을 위한 메타 데이터를 생성하고, 생성된 메타 데이터를 포함한 조정신호를 출력할 수 있다.

한편, 본 실시예에 따른 컨텐츠 제공장치(110)는 영상 프레임에 대응되는 오디오 신호를 추가로 분석하고, 이를 상기의 장르 정보를 산출하는 과정 및 상기의 메타 데이터를 생성하는 과정에서 활용할 수 있다.

컨텐츠 중계장치(120)는 컨텐츠 제공장치(110)와 디스플레이 장치(130) 사이에 위치하며, 이를 통해 컨텐츠 제공장치(110)로부터 제공되는 방송 컨텐츠에 대한 디스플레이 장치(130)로의 전송을 중계하는 기능을 수행한다. 예컨대, 컨텐츠 중계장치(120)는 본 실시예에 따른 영상 서비스가 IPTV를 기반으로 제공되는 서비스인 경우 셋탑박스(STB: Set-top Box) 또는 전용 모뎀일 수 있다.

이러한, 컨텐츠 중계장치(120)가 수행하는 컨텐츠 중계 기능을 해당 분야에서 일반적인 바 자세할 설명은 생략하도록 한다.

본 실시예에 따른 컨텐츠 중계장치(120)는 컨텐츠 제공장치(110)로부터 컨텐츠 및 이와 관련하여 생성된 메타 데이터를 수신하고, 이를 활용하여, 영상의 출력 특성을 상황에 맞게 자동 조정하는 기능을 수행한다. 본 실시예의 경우 영상의 출력 특성은 영상의 화질 및 음장과 관련한 모드 정보 및 이에 상응하는 파라미터 값인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.

컨텐츠 중계장치(120)는 해당 장치가 컨텐츠 출력 지원장치로서 동작하는 지 여부에 따라 상이한 프로세스를 수행한다.

예컨대, 제1 실시예에 의하는 경우, 컨텐츠 중계장치(120)는 컨텐츠 제공장치(110)로부터 수신한 메타 데이터를 파싱하고, 파싱 결과에 따라 영상 프레임 내 기 정의된 분할 영역 각각에 상응하는 출력 특성 정보를 산출한다.

컨텐츠 중계장치(120)는 산출한 출력 특성 정보에 기반하여 영상 프레임 내 분할 영역 각각에 대하여 서로 다른 출력 특성을 적용한다. 이를 위해, 컨텐츠 중계장치(120)는 영상의 출력 특정 조정을 위한 기능 수단을 기기 내 자체 구비할 수 있다.

이후, 컨텐츠 중계장치(120)는 분할 영역별 서로 다른 출력 특성이 적용된 영상 프레임을 디스플레이 장치(130)로 제공한다.

실시예에 따라, 컨텐츠 중계장치(120)는 컨텐츠 제공장치(110)로부터 수신한 메타 데이터를 파싱하고, 파싱 결과에 따라 영상 프레임에 상응하는 음장모드 정보를 추가로 산출할 수 있다. 이 경우, 컨텐츠 중계장치(120)는 산출한 음장모드 정보에 기반하여 영상 프레임 내 특정 음장모드를 적용한다.

제2 실시예에 의하는 경우 컨텐츠 중계장치(120)는 컨텐츠 제공장치(110)로부터 수신한 메타 데이터를 디스플레이 장치(130)로 전송하는 기능을 수행한다. 이때, 컨텐츠 중계장치(120)는 메타 데이터를 디스플레이 장치(130)로 전송함에 앞서 그 형식을 디스플레이 장치(130)가 지원 가능한 형식으로 변경하여 제공할 수 있다.

디스플레이 장치(130)는 컨텐츠 제공장치(110) 및 컨텐츠 중계장치(120)를 통해 제공되는 컨텐츠를 실제 서비스 가입자에게 제공하는 장치를 의미한다.

디스플레이 장치(130)는 통신 중개장치를 이용하여 각종 데이터를 송수신할 수 있는 장치를 말하는 것이며, 태블릿 PC(Tablet PC), 랩톱(Laptop), 개인용 컴퓨터(PC: Personal Computer), 스마트폰(Smart Phone), 개인휴대용 정보단말기(PDA: Personal Digital Assistant), 이동통신 단말기(Mobile Communication Terminal) 및 TV 등 중 어느 하나일 수 있다.

마찬가지로, 본 실시예에 따른 디스플레이 장치(130)는 해당 장치가 컨텐츠 출력 지원장치로서 동작하는 지 여부에 따라 상이한 프로세스를 수행한다.

예컨대, 제1 실시예에 의하는 경우, 디스플레이 장치(130)는 컨텐츠 중계장치(120)로부터 그 출력 특성이 조정된 영상 프레임을 수신하고, 이를 장치 내 디스플레이 수단을 통해 출력한다.

제2 실시예에 의하는 경우, 디스플레이 장치(130)는 컨텐츠 제공장치(110)로부터 컨텐츠 중계장치(120)를 경유하여 전송되는 메타 데이터를 수신하고, 이를 기반으로 영상의 출력 특성을 조정하는 기능을 수행한다.

한편, 제2 실시예에서, 디스플레이 장치(130)가 메타 데이터를 기반으로 영상의 출력 특성을 조정하는 구체적인 동작은 앞서, 제1 실시예에서, 컨텐츠 중계장치(120)가 메타 데이터를 기반으로 영상의 출력 특성을 조정하는 동작과 동일하며 이에 자세한 설명은 생략하도록 한다.

도 2는 본 실시예에 따른 컨텐츠 제공장치를 개략적으로 나타낸 블록 구성도이다.

도 2에 도시하듯이, 본 실시예에 따른 컨텐츠 제공장치(110)는 처리부(200), 학습부(210) 및 제어부(220)를 포함한다.

처리부(200)는 본 실시예에 따른 메타 데이터를 생성하기 앞서, 그 대상이 되는 영상 프레임을 수신하고, 이에 대한 선처리 절차를 수행하는 장치를 의미한다. 이를 위해, 처리부(200)는 외부 장치와의 통신을 위한 통신 수단을 구성요소로서 포함하는 형태로 구현될 수 있다.

본 실시예에 따른 처리부(200)는 영상 프레임 내 객체 인식결과에 따라 영상 프레임을 복수 개의 영역으로 분할한다. 예컨대, 처리부(200)는 영상 프레임 내 객체 인식결과에 따라 영상 프레임을 사람이 존재하는 제1 영역, 잔디가 존재하는 제2 영역, 나무가 존재하는 제3 영역 및 하늘이 존재하는 제4 영역 등으로 분할할 수 있다.

이러한, 처리부(200)는 기존에 영상 인식 분야에서 기 사용되던 다양한 객체 검출 기술을 활용하여 영상 프레임 내 객체를 인식할 수 있다. 본 실시예에서는 이러한, 객체 검출 기술에 대해 특정 기술로서 한정하지는 않는다.

처리부(200)는 객체 인식결과에 따라 분할된 각 영역(이하, 분할 영역으로 명시하여 설명하도록 한다.)에 상응하는 객체 이미지를 출력한다. 이때, 처리부(200)는 영상 프레임 내 관심 영역을 상이하게 특정하는 방식을 통해 각 분할 영역에 상응하는 객체 이미지를 출력할 수 있다.

예컨대, 처리부(200)는 영상 프레임을 복수 개의 영역으로 분할 후 영상 프레임 내 각 분할 영역에 해당하는 지점을 하이라이트 처리 하는 방식을 통해 상기의 객체 이미지를 생성할 수 있다.

한편, 실시예에 따라 처리부(200)는 영상 프레임에 대응되는 오디오 신호를 수집하고, 이를 분석하여 각 분할 영역에 상응하는 오디오 신호를 추가로 출력할 수 있다. 이러한, 처리부(200)에 의해 출력되는 오디오 신호는 이후 학습부(210)가 각 분할 영역에 대한 장르 정보를 산출하는 과정 제어부(220)가 메타 데이터를 생성하는 과정에 있어서 기준 데이터로서 이용될 수 있다.

학습부(210)는 처리부(200)로부터 출력되는 분할 영역별 객체 이미지를 입력으로 하여 학습절차를 수행하고, 학습 결과에 따라 각 분할 영역에 대한 장르 정보를 산출하는 장치를 의미한다.

보다 자세하게는 학습부(210)는 상기의 학습 결과로서, 기 정의된 복수 개의 후보 장르 각각에 대하여 객체 이미지에 대한 장르 정보로서의 선택 확률을 산출할 수 있다.

본 실시예에 따른 학습부(210)는 바람직하게는 컨볼루션 신경망을 구비하고, 구비된 컨볼루션 신경망을 활용하여 분할 영역별 객체 이미지에 대한 학습절차를 수행할 수 있다. 이러한, 컨볼루션 신경망은 영상의 특징 예컨대, 장르 정보를 탐지하고, 인식하도록 미리 설계된 적어도 하나의 인공 신경망 모델을 기 학습하고, 학습된 인공 신경망 모델을 기반으로 각 분할 영역에 대한 장르 정보를 보다 효율적으로 산출 가능한 구조로 구현될 수 있다.

실시예에 따라, 학습부(210)는 각 분할 영역에 대한 장르 정보를 산출하는 과정에서 앞서, 처리부(200)에서 추가로 출력되는 오디오 신호를 활용할 수 있다.

한편, 본 실시예에 따른 학습부(210)가 구비하는 컨볼루션 신경망의 구조 및 이를 활용하여 상기의 각 분할 영역에 대한 장르 정보를 산출하는 구체적인 방법에 대해서는 도 4 및 도 5에서 후술토록 한다.

제어부(220)는 학습부(230)를 이용하여 산출된 각 분할 영역에 대한 장르 정보를 기반으로 각 분할 영역의 화질 조정을 위한 메타 데이터를 생성하는 장치를 의미한다.

예컨대, 본 실시예에 따른 제어부(220)는 각 분할 영역에 대한 위치정보, 장르 정보 및 장르 정보에 상응하는 화면모드 정보를 포함한 메타 데이터를 생성할 수 있다. 이때, 화면모드 정보는 장르 정보에 상응하여 기 선별된 화면모드에 대한 종류를 지시하는 정보일 수 있으며, 실시예에 따라 해당 화면모드 종류에 대응하여 기 수집 또는 사용자로부터 입력된 설정값일 수 있다.

제어부(220)는 메타 데이터를 생성하는 과정에서 외부로부터 수집된 정보를 추가로 활용할 수 있다.

실시예에 따라, 제어부(220)가 생성하는 메타 데이터 내에는 음장모드 정보가 추가로 포함될 수 있다. 이러한, 음장모드 정보는 학습부(210)를 통해 산출된 각 분할 영역에 대한 장르 정보 중 대표 장르 정보로서 선별된 특정 장르 정보에 상응하여 결정되는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.

이후, 제어부(220)는 메타 데이터를 포함한 조정신호를 생성하고, 이를 컨텐츠 중계장치(120)로 출력한다. 이러한, 조정신호는 메타 데이터를 기반으로 각 분할 영역에 대하여 서로 다른 화면 모드를 적용하도록 하는 제어신호일 수 있다. 실시예에 따라 조정신호는 메타 데이터를 기반으로 특정 영상 프레임에 대하여 특정 음장 모드를 적용하도록 하는 제어신호일 수도 있다.

도 3은 본 실시예에 따른 컨텐츠 출력 지원장치를 개략적으로 나타낸 블록 구성도이다. 한편, 도 3에서는 본 실시예에 따른 컨텐츠 중계장치(120) 또는 디스플레이 장치(130)가 컨텐츠 출력 지원장치로 동작 시의 구성요소를 도시하였다.

도 3에 도시하듯이, 본 실시예에 따른 컨텐츠 출력 지원장치는 통신부(300), 산출부(310) 및 설정부(320)를 포함한다.

통신부(300)는 출력 특성 조정 대상이 되는 영상 프레임과 관련하여 컨텐츠 제공장치(110)로부터 생성된 메타 데이터를 수신한다. 이러한, 메타 데이터는 조정신호 내 포함되는 형태로 통신부(300)로 제공될 수 있다.

산출부(310)는 통신부(300)를 이용하여 수신한 메타 데이터를 파싱하고, 파싱 결과에 따라 영상 프레임 내 기 정의된 분할 영역 각각에 상응하는 화면모드 정보를 산출한다.

실시예에 따라 산출부(310)는 파싱 결과에 따라 해당 영상 프레임에 상응하는 음장모드 정보를 산출할 수도 있다.

설정부(320)는 산출부(310)를 이용하여 산출된 화면모드 정보에 기반하여 영상 프레임 내 분할 영역 각각에 대하여 서로 다른 화면 모드를 적용한다. 예컨대, 설정부(320)는 화면모드 정보가 특정 화면모드에 대한 종류를 지시하는 정보인 경우 설정부(320) 내 해당 화면모드와 매칭되어 기 저장된 설정값을 추출하고, 추출된 설정값을 대응되는 분할 영역에 적용하여 출력한다.

설정부(320)는 화면모드 정보가 화면모드의 종류에 대응하여 기 수집 또는 사용자로부터 입력된 설정값인 경우 해당 설정값을 대응되는 분할 영역에 적용하여 출력한다.

다른 실시예에서, 설정부(320)는 산출부(310)를 이용하여 산출된 음장모드 정보에 기반하여 영상 프레임 내 특정 음장모드를 적용하여 출력할 수 있다.

도 4 및 도 5는 본 실시예에 따른 학습부의 구조 및 이를 이용한 학습 방법을 도시한 도면이다.

도 4 및 도 5에 도시하듯이, 본 실시예에 따른 학습부(210)는 컨볼루션 신경망을 구비하고, 구비된 컨볼루션 신경망을 활용하여 영상 프레임의 분할 영역별 객체 이미지에 대한 학습절차를 수행할 수 있다.

이러한, 컨볼루션 신경망은 영상의 특징 예컨대, 장르 정보를 탐지하고, 인식하도록 미리 설계된 적어도 하나의 인공 신경망 모델을 기 학습하고, 학습된 인공 신경망 모델을 기반으로 각 분할 영역에 대한 장르 정보를 보다 효율적으로 산출 가능한 구조로 구현될 수 있다. 이를 위해, 학습부(210)는 개별 장르 추출에 특화된 인경 신경망 모델을 갖는 복수 개의 이미지 기반 인식 수단을 구비하는 형태로 구현될 수 있다.

이와 더불어, 학습부(210)는 각 분할 영역에 대한 장르 정보를 산출하는 과정에서 각 분할 영역에 상응하는 오디오 신호가 활용되는 경우, 이에 대한 학습절차를 수행하는 오디오 기반 인식 수단을 추가로 구비할 수 있다. 이러한, 오디오 기반 인식 수단을 통해 산출되는 학습결과는 이미지 기반 인식 수단을 통해 산출되는 학습결과와 더불어 각 분할 영역에 대한 장르 정보를 산출하는 과정에서 이용될 수 있다. 예컨대, 본 실시예에 따른 학습부(210)는 도 5에 도시된 바와 같이 이미지 기반 인식 수단을 통해 산출되는 학습결과와 오디오 기반 인식 수단을 통해 산출되는 학습결과에 각각 기 설정된 가중치를 곱하고, 이를 합산한 결과를 기반으로 최종적인 학습결과를 산출할 수 있다.

또한, 학습부(210)는 산출된 각 분할 영역에 대한 장르 정보 중 그 개수가 최대값을 갖는 장르 정보를 대표 장르로서 선별하고, 이를 이후, 영상 프레임에 대한 음장 모드를 결정하는 과정에서 기준 데이터로서 활용할 수 있다. 예컨대, 도 4를 기준으로 설명하자면, 학습부(210)는 이미지에 기반하여 결정된 복수 개의 장르 정보(인물 장르 1, 자연 장르 3) 중 자연 장르 정보를 대표 장르로서 선별할 수 있다.

도 6은 본 실시예에 따른 컨텐츠 제공장치의 영상 출력 특성 조정방법을 설명하기 위한 순서도이다.

컨텐츠 제공장치(110)는 영상 프레임 내 객체 인식결과에 따라 영상 프레임을 복수 개의 영역으로 분할하고, 각 분할 영역에 상응하는 객체 이미지를 출력한다(S602). 단계 S602에서 컨텐츠 제공장치(110)는 영상 프레임에 대응되는 오디오 신호를 수집하고, 이를 분석하여 각 분할 영역에 상응하는 오디오 신호를 추가로 출력할 수 있다.

컨텐츠 제공장치(110)는 단계 S602의 분할 영역별 객체 이미지를 인공 신경망 모델에 적용하고 적용결과에 따라 각 분할 영역에 대한 장르 정보를 산출한다(S604). 단계 S604에서 컨텐츠 제공장치(110)는 각 분할 영역에 대한 장르 정보를 산출하는 과정에서 단계 S602의 오디오 신호를 추가로 활용할 수 있다.

컨텐츠 제공장치(110)는 단계 S604에서 산출한 각 분할 영역에 대한 장르 정보를 기반으로 각 분할 영역의 화질 조정을 위한 메타 데이터를 생성한다(S606). 단계 S606에서 컨텐츠 제공장치(110)는 단계 S602의 오디오 신호를 기반으로 영상 프레임에 대한 음장 조정을 위한 메타 데이터를 생성할 수 있다.

컨텐츠 제공장치(110)는 단계 S606에서 생성한 메타 데이터를 포함한 조정신호를 생성하고, 생성된 조정신호를 컨텐츠 중계장치(120)로 출력한다(S608).

여기서, 단계 S602 내지 S608은 앞서 설명된 컨텐츠 제공장치(110)의 각 구성요소의 동작에 대응되므로 더 이상의 상세한 설명은 생략한다.

도 7은 본 실시예에 따른 컨텐츠 출력 지원장치의 영상 출력 특성 조정방법을 설명하기 위한 순서도이다.

컨텐츠 출력 지원장치는 화질 조정 대상이 되는 영상 프레임과 관련하여 컨텐츠 제공장치(110)로부터 생성된 메타 데이터를 수신한다(S702). 한편, 컨텐츠 추력 지원장치가 컨텐츠 제공장치(110)로부터 수신하는 메타 데이터 내에는 각 분할 영역에 대한 위치정보, 장르 정보 및 장르 정보에 상응하는 화면모드 정보가 포함된다. 실시예에 따라 메타 데이터 내에는 영상 프레임에 상응하는 음장모드 정보가 포함될 수 있다.

컨텐츠 출력 지원장치는 단계 S702에서 수신한 메타 데이터를 파싱하고, 파싱결과에 따라 영상 프레임 내 기 정의된 분할 영역 각각에 상응하는 화면모드 정보를 산출한다(S704).

컨텐츠 출력 지원장치는 단계 S704에서 산출한 화면모드 정보에 기반하여 영상 프레임 내 분할 영역 각각에 대하여 서로 다른 화면 모드를 적용한다(S706). 단계 S706에서 컨텐츠 출력 지원장치는 단계 S702의 메타 데이터 내 음장모드 정보가 포함된 경우 이를 기반으로 영상 프레임 내 특정 음장모드를 적용하여 출력한다.

여기서, 단계 S702 내지 S704은 앞서 설명된 컨텐츠 출력 지원장치의 각 구성요소의 동작에 대응되므로 더 이상의 상세한 설명은 생략한다.

도 6 및 도 7에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 6 및 도 7에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 6 및 도 7은 시계열적인 순서로 한정되는 것은 아니다.

전술한 바와 같이 도 6 및 도 7에 기재된 영상 출력 특성 조정방법은 프로그램으로 구현되고 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 기록될 수 있다.

도 8은 본 실시예에 따른 메타 데이터를 예시한 예시도이다.

도 8에 도시하듯이, 본 실시예에 따른 메타 데이터는 영상 프레임 내 각 영역별로 장르를 구분하고, 구분된 장르에 따라 각 영역에 적용될 수 있는 최적의 출력 특성을 정의하여 제공한다.

이러한, 메타 데이터 내에는 각 분할 영역에 대한 위치정보, 장르 정보 및 장르 정보에 상응하는 화면모드 정보 등이 포함될 수 있으며, 실시예에 따라 영상 프레임에 상응하는 음장모드 정보가 포함될 수 있다.

도 9는 본 실시예에 따른 영상 출력 특성 조정 방법을 설명하기 위한 개념도이다.

도 9에 도시하듯이, 본 실시예에 따른 영상 출력 특성 조정 방법에 의하는 경우 하나의 영상 프레임 내에서도 영역별로 서로 다른 출력 특성이 적용된다.

예컨대, 도 9를 참조하면, 영상 프레임 내 사람이 존재하는 영역에 대해서는 사람이라는 장르에 특화된 화면 모드가 적용되고, 자연이 존재하는 영역에 대해서는 자연이라는 장르에 특화된 화면 모드가 적용되는 것을 확인할 수 있다.

또한, 본 실시예에 따른 영상 출력 특성 조정 방법에 의하는 경우 각 분할 영역에 대해여 책정된 장르 정보 중 그 개수가 최대값을 갖는 장르 정보를 대표 장르로서 선별하고, 선별된 대표 장르에 따라 영상 프레임에 대한 음장 모드가 결정될 수 있다.

예컨대, 도 9를 참조하면, 대표 장르로서 자연이 선별되고, 이에 따라 영상 프레임 내 자연이라는 장르에 특화된 음장 모드가 적용되는 것을 확인할 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 컨텐츠 서비스 시스템 110: 컨텐츠 제공장치
120: 컨텐츠 중계장치 130: 디스플레이 장치
200: 처리부 210: 학습부
220: 제어부 300: 통신부
310: 산출부 320: 설정부

Claims

영상 프레임 내 객체 인식결과에 따라 상기 영상 프레임을 복수 개의 영역으로 분할하고, 각 분할 영역에 상응하는 객체 이미지를 출력하는 처리부;
상기 분할 영역별 상기 객체 이미지를 수신하여 인공 신경망 모델에 적용하고, 적용결과에 따라 상기 각 분할 영역에 대한 장르(Genre) 정보를 산출하는 학습부; 및
상기 학습부를 이용하여 산출된 상기 장르 정보를 기반으로 상기 각 분할 영역별 화질 조정을 위한 메타 데이터를 생성하고, 상기 메타 데이터를 기반으로 상기 각 분할 영역에 대하여 서로 다른 화면 모드를 적용하도록 하는 화질 조정신호를 출력하는 제어부
를 포함하는 것을 특징으로 하는 컨텐츠 제공장치.
제 1항에 있어서,
상기 처리부는,
상기 영상 프레임 내 관심 영역을 상이하게 특정하여 상기 각 분할 영역에 상응하는 객체 이미지를 출력하는 것을 특징으로 하는 컨텐츠 제공 장치.
제 1항에 있어서,
상기 학습부는,
상기 적용결과로서, 기 정의된 복수 개의 후보 장르 각각에 대한 상기 장르 정보로서의 선택 확률을 산출하는 것을 특징으로 하는 컨텐츠 제공장치.
제 1항에 있어서,
상기 처리부는, 상기 영상 프레임에 대응되는 오디오 신호를 분석하여 상기 각 분할 영역에 상응하는 오디오 신호를 추가로 출력하며,
상기 학습부는, 상기 각 분할 영역에 상응하는 오디오 신호를 상기 인공 신경망 모델에 적용한 적용결과를 추가로 활용하여 상기 각 분할 영역에 대한 장르 정보를 산출하는 것을 특징으로 하는 컨텐츠 제공장치.
제 1항에 있어서,
상기 제어부는,
상기 각 분할 영역에 대한 위치정보, 상기 장르 정보 및 상기 장르 정보에 상응하는 화면모드 정보를 포함한 상기 메타 데이터를 생성하는 것을 특징으로 하는 컨텐츠 제공장치.
삭제
화질 조정 기능을 제공하는 컨텐츠 출력 지원장치에 있어서,
화질 조정 대상이 되는 영상 프레임과 관련하여 컨텐츠 제공장치로부터 생성된 메타 데이터를 수신하는 통신부;
상기 메타 데이터를 파싱하고, 파싱결과에 따라 상기 영상 프레임 내 기 정의된 분할 영역 각각에 대하여 파악된 장르 정보에 상응하는 화면모드 정보를 산출하는 산출부; 및
상기 화면모드 정보에 기반하여 상기 영상 프레임 내 상기 분할 영역 각각에 대하여 상기 장르 정보에 따른 서로 다른 화면 모드를 적용하는 설정부
를 포함하는 것을 특징으로 하는 컨텐츠 출력 지원장치.
제 7항에 있어서,
상기 통신부는,
상기 분할 영역 각각에 대한 위치정보, 장르 정보 및 상기 장르 정보에 상응하여 화면 모드 정보를 포함하는 상기 메타 데이터를 수신하는 것을 특징으로 하는 컨텐츠 출력 지원장치.
컨텐츠 제공장치의 화질 조정 방법에 있어서,
영상 프레임 내 객체 인식결과에 따라 상기 영상 프레임을 복수 개의 영역으로 분할하고, 각 분할 영역에 상응하는 객체 이미지를 출력하는 과정;
상기 분할 영역별 상기 객체 이미지를 수신하여 인공 신경망 모델에 적용하고, 적용결과에 따라 상기 각 분할 영역에 대한 장르 정보를 산출하는 과정; 및
상기 산출하는 과정을 이용하여 산출된 상기 장르 정보를 기반으로 상기 각 분할 영역별 화질 조정을 위한 메타 데이터를 생성하고, 상기 메타 데이터를 기반으로 상기 각 분할 영역에 대하여 서로 다른 화면 모드를 적용하도록 하는 화질 조정신호를 출력하는 과정
을 포함하는 것을 특징으로 하는 화질 조정 방법.
컨텐츠 출력 지원장치의 화질 조정 방법에 있어서,
화질 조정 대상이 되는 영상 프레임과 관련하여 컨텐츠 제공장치로부터 생성된 메타 데이터를 수신하는 과정;
상기 메타 데이터를 파싱하고, 파싱결과에 따라 상기 영상 프레임 내 기 정의된 분할 영역 각각에 대하여 파악된 장르 정보에 상응하는 화면모드 정보를 산출하는 과정; 및
상기 화면모드 정보에 기반하여 상기 영상 프레임 내 상기 분할 영역 각각에 대하여 상기 장르 정보에 따른 서로 다른 화면 모드를 적용하는 과정
을 포함하는 것을 특징으로 하는 화질 조정 방법.