KR20200121982A

KR20200121982A - 사운드 프로세싱 방법 및 장치

Info

Publication number: KR20200121982A
Application number: KR1020190044636A
Authority: KR
Inventors: 나민수; 이종민; 박경모; 이상민
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2020-10-27
Also published as: KR102273267B1

Abstract

사운드 프로세싱 방법 및 장치를 개시한다.
본 발명의 일 실시예에 의하면, 컨텐츠(contents)에 포함된 사운드를 프로세싱(processing)하는 방법으로서, 상기 컨텐츠에 포함된 영상으로부터 하나 이상의 딥 메타 데이터(deep meta data)를 추출하는 단계; 상기 추출된 딥 메타 데이터 중 상기 사운드를 발생시키는 대상 객체와 관련된 딥 메타 데이터인 객체 메타 데이터를 선별하는 단계; 및 상기 객체 메타 데이터를 기준으로 상기 사운드를 프로세싱하는 단계를 포함하는 것을 특징으로 하는 사운드 프로세싱 방법을 제공한다.

Description

사운드 프로세싱 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING SOUND}

본 발명은 사운드를 처리하는 방법 및 장치에 관한 것으로서, 더욱 구체적으로는 영상으로부터 추출된 딥 메타 데이터를 기반으로 해당 영상과 대응되는 사운드를 업스케일링하거나 해당 사운드에 다양한 이펙트를 적용하여 사운드에 대한 입체감과 실제감을 제공하는 사운드 프로세싱 방법 및 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 발명에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

통신 환경과 하드웨어 기술이 발전함에 따라, 고화질의 영상과 고음질의 사운드를 포함하는 고품질 컨텐츠에 대한 사용자들의 요구가 높아지고 있다.

이러한 요구를 만족시키기 위하여, 딥러닝 기반 영상 업스케일링 기술을 통해 Full HD, 8bit non-HDR(high dynamic range) 영상을 4k UHD, 10bit HDR 영상으로 변환하는 방법, 딥러닝 기반 오디오 업스케일링 기술을 통해 128kbps MP3 음원을 320kbps 음원으로 변환하는 방법 등 다양한 방법들이 개발되고 있다.

그러나, 컨텐츠에 포함된 사운드를 영상 내 객체의 움직임에 따라 변환함으로써 사용자에게 입체감을 제공하거나, 사운드가 발생하는 환경적 특성을 반영하여 해당 사운드를 더욱 실제적으로 표현하는 방법들은 전무한 실정이다.

본 발명의 일 실시예는, 영상의 딥 메타 데이터를 기반으로 사운드의 공간적 변화 또는 사운드가 발생하는 영상 내 환경의 특성을 정확히 파악하고, 이를 기초로 입체적이며 실제적인 사운드를 제공함으로써 고품질 컨텐츠에 대한 요구를 충족시킬 수 있는 사운드 프로세싱 방법 및 장치를 제공하는 데 주된 목적이 있다.

본 발명의 일 실시예에 의하면, 컨텐츠(contents)에 포함된 사운드를 프로세싱(processing)하는 방법으로서, 상기 컨텐츠에 포함된 영상으로부터 하나 이상의 딥 메타 데이터(deep meta data)를 추출하는 단계; 상기 추출된 딥 메타 데이터 중 상기 사운드를 발생시키는 대상 객체와 관련된 딥 메타 데이터인 객체 메타 데이터를 선별하는 단계; 및 상기 객체 메타 데이터를 기준으로 상기 사운드를 프로세싱하는 단계를 포함하는 것을 특징으로 하는 사운드 프로세싱 방법을 제공한다.

본 발명의 다른 일 실시예에 의하면, 컨텐츠(contents)에 포함된 사운드를 프로세싱(processing)하는 장치로서, 상기 컨텐츠에 포함된 영상으로부터 하나 이상의 딥 메타 데이터(deep meta data)를 추출하는 추출부; 상기 추출된 딥 메타 데이터 중 상기 사운드를 발생시키는 대상 객체와 관련된 딥 메타 데이터인 객체 메타 데이터를 선별하는 선별부; 및 상기 객체 메타 데이터를 기준으로 상기 사운드를 프로세싱하는 프로세싱부를 포함하는 것을 특징으로 하는 사운드 프로세싱 장치를 제공한다.

본 발명은 사운드를 대상으로 사운드 소스에 해당하는 대상 객체의 움직임 또는 사운드가 발생하는 환경적 특성을 반영하도록 구성되므로, 더욱 입체적이며 실제적인 사운드를 제공할 수 있어 고품질의 컨텐츠를 제공할 수 있다.

또한, 본 발명은 모바일 엣지 컴퓨팅 서버를 통해 사운드 프로세싱을 수행하도록 구성되므로, 컨텐츠 전송의 지연 문제, 사용자 단말의 오버헤드 문제, 사용자 단말의 가격 상승 문제 등을 일거에 해결할 수 있다.

또한, 본 발명은 딥 메타 데이터의 선택, 대상 객체의 선택, 환경적 특성의 반영 여부 등에 사용자의 의도를 반영할 수 있으므로, 사용자 개개인의 선호도와 요구에 부합하는 컨텐츠를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 의한 사운드 프로세싱 장치와 관련 구성들을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 의한 사운드 프로세싱 장치를 개략적으로 나타낸 블록 구성도이다.
도 3은 사운드 프로세싱 방법에 대한 본 발명의 일 실시예를 설명하기 위한 순서도이다.
도 4는 딥 메타 데이터에 대한 본 발명의 다양한 예를 설명하기 위한 도면이다.
도 5는 대상 객체의 움직임을 기준으로 사운드를 프로세싱하는 본 발명의 일 실시예를 설명하기 위한 순서도이다.
도 6은 사운드가 발생하는 환경적 특성을 반영하여 사운드를 프로세싱하는 본 발명의 일 실시예를 설명하기 위한 순서도이다.
도 7은 대상 객체의 움직임을 기준으로 한 사운드 업스케일링과 환경적 특성을 반영한 이펙트 적용이 유기적으로 수행되는 본 발명의 일 실시예를 설명하기 위한 순서도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일 실시예에 의한 사운드 프로세싱 장치(이하 '프로세싱 장치'라 지칭한다)(100)와 관련 구성들을 나타낸 도면이다. 이하에서는, 도 1을 참조하여 본 발명에 의한 프로세싱 장치(100)와 관련 구성들에 대해 설명하도록 한다.

본 발명의 사운드 프로세싱 방법은 컨텐츠 서버(contents server, 110), 모바일 엣지 컴퓨팅(MEC, mobile edge computing) 서버(120) 및 사용자 단말(UE, user equipment)(130) 중 하나 이상에서 구현될 수 있다. 이를 달리 표현하면, 본 발명의 프로세싱 장치(100)는 컨텐츠 서버(110), 모바일 엣지 컴퓨팅 서버(120) 및 사용자 단말(130) 중 하나 이상의 형태로 구현될 수 있다.

도 1에 도시된 컨텐츠 서버(110)는 다양한 형태의 컨텐츠들을 관리하고 제공하는 구성으로서, 컨텐츠 관리 시스템(contents management system) 등 다양한 명칭으로 지칭될 수 있다. 컨텐츠 서버(110)는 컨텐츠 제공 업체가 소유, 관리 또는 운용하는 서버에 해당할 수 있다.

모바일 엣지 컴퓨팅 서버(120) 및/또는 사용자 단말(130)은 이 컨텐츠 서버(110)로부터 다양한 형태의 컨텐츠를 제공 받으므로, 모바일 엣지 컴퓨팅 서버(120)와 사용자 단말(130)의 입장에서 컨텐츠 서버(110)는 외부 데이터 소스에 해당한다.

모바일 엣지 컴퓨팅 서버(120)는 컨텐츠가 제공되는 방향을 기준으로 컨텐츠 서버(110)와 사용자 단말(130)의 사이에 위치하며, 컨텐츠 서버(110)로부터 전송된 컨텐츠를 저장 및 관리하고, 사용자의 요청에 대응되는 컨텐츠를 사용자 단말(130)로 제공하는 구성에 해당한다. 모바일 엣지 컴퓨팅 서버(120)는 통신 사업자가 제공하는 서버에 해당할 수 있다.

모바일 엣지 컴퓨팅이란, 네트워크 트래픽(network traffic)의 폭발적인 증가에 따른 네트워크의 성능 저하, 과부하, 지연 등의 문제를 해결하기 위해 개발된 개념에 해당한다. 모바일 엣지 컴퓨팅에서는 모바일 엣지 컴퓨팅 서버(120)를 네트워크　엣지(network edge)와 가까운 곳에 위치시키고, 이 서버(120)를 통해 일정 비율 이상의 데이터를 처리한다. 즉, 모바일 엣지 컴퓨팅이란, 클라우드　컴퓨팅　서비스를 네트워크　엣지단으로 확장한 형태라고 볼 수 있다.

사용자 단말(130)은 컨텐츠 사용자가 소유 또는 관리하는 장치로서, 도 1에 표현된 바와 같이 모바일 단말, 랩 탑 컴퓨터, 데스크 탑 컴퓨터 등이 사용자 단말(130)에 포함될 수 있다. 또한, 도 1에는 표현되어 있지 않으나, 사용자 단말(130)에는 TV, 차량에 탑재된 표출 기기, AR(augmented reality)/VR(virtual reality) 기기 등도 포함될 수 있다.

본 발명의 프로세싱 장치(100)가 컨텐츠 서버(110) 형태로 구현되는 경우, 본 발명에서 제안하는 사운드 프로세싱 방법은 컨텐츠 서버(110)에서 수행될 수 있다. 이와 같은 경우, 프로세싱된 사운드는 컨텐츠 서버(110)로부터 사용자 단말(130)로 직접 전송될 수 있다.

본 발명의 프로세싱 장치(100)가 사용자 단말(130)의 형태로 구현되는 경우, 본 발명에서 제안하는 사운드 프로세싱 방법은 사용자 단말(130)에서 수행될 수 있다. 이와 같은 경우, 컨텐츠 서버(110)는 사운드 프로세싱을 수행하지 않고, 사용자의 요청에 대응되는 컨텐츠를 사용자 단말(130)로 전송하는 제한적인 역할만을 수행할 수 있다. 사용자 단말(130)은 전송된 컨텐츠(프로세싱되지 않은 컨텐츠)의 사운드를 자체적으로 프로세싱하여 사용자에게 제공할 수 있다.

본 발명의 프로세싱 장치(100)가 모바일 엣지 컴퓨팅 서버(120) 형태로 구현되는 경우, 본 발명에서 제안하는 사운드 프로세싱 방법은 모바일 엣지 컴퓨팅 서버(120)에서 수행될 수 있다.

본 발명이 모바일 엣지 컴퓨팅 서버(120)에서 구현되면, 상대적으로 가까운 위치(네트워크의 엣지 단)에 자리하는 모바일 엣지 컴퓨팅 서버(120)와 사용자 단말(130) 사이의 통신을 통해 고품질 컨텐츠에 대한 제공이 이루어질 수 있으므로, 종래 클라우드 컴퓨팅 방법에서 발생하는 전송 지연의 문제를 해결할 수 있다.

또한, 데이터 처리(사운드 프로세싱)는 모바일 엣지 컴퓨팅 서버(120)에서 수행되고 사용자 단말(130)은 처리된 데이터를 표출하는 역할만 수행하므로, 사용자 단말(130)의 오버헤드를 감소시킬 수 있다. 따라서, 상대적으로 저사양의 하드웨어로 구성된 사용자 단말(130)에서도 고품질의 사운드(본 발명 사운드 프로세싱 방법이 적용된 사운드)를 구현할 수 있다.

이하에서는, 프로세싱 장치(100)가 모바일 엣지 컴퓨팅 서버(120) 형태로 구현되는 실시예를 중심으로 본 발명에 대해 설명하도록 한다.

모바일 엣지 컴퓨팅 서버(120) 즉, 프로세싱 장치(100)는 코어 네트워크(core network)를 통해 컨텐츠 서버(110)로부터 다양한 형태의 컨텐츠들을 제공 받고, 이 컨텐츠들에 포함된 영상으로부터 딥 메타 데이터를 추출한 후, 추출된 메타 데이터를 기반으로 컨텐츠들에 포함된 (해당 영상과 대응되는) 사운드를 프로세싱하는 장치에 해당한다.

컨텐츠 서버(110)로부터 본 발명의 프로세싱 장치(100)로 제공되는 컨텐츠에는 미디어 컨텐츠, 영화 컨텐츠, 게임 컨텐츠, 드라마 컨텐츠, 교육용 컨텐츠 등과 같이 영상과 해당 영상에 대응되는 사운드가 결합된 복합 컨텐츠가 포함될 수 있다.

영상과 결합된 형태로 컨텐츠를 구성하는 사운드에는 해당 컨텐츠에 등장하는 캐릭터의 음성(voice), 해당 캐릭터의 움직임으로 인하여 발생하는 소리, 해당 컨텐츠의 영상으로 표출되는 물체들 간의 충돌로 인하여 발생하는 소리 등이 포함될 수 있다.

또한, 비가 내리는 소리, 번개로 인하여 발생하는 소리 등과 같이, 캐릭터 또는 물체로 인하여 발생하는 것이 아닌, 영상으로 표출되는 외부 환경적인 요인으로 인하여 발생하는 소리 등도 프로세싱 대상에 해당하는 사운드에 포함될 수 있다.

본 발명에서 제안하는 사운드 프로세싱에는 영상으로부터 추출된 딥 메타 데이터를 기반으로 사운드의 채널 별로 서로 다르거나 동일한 가중치를 적용하여 각 채널의 볼륨을 조절함으로써 입체감을 적용하는 업스케일링, 딥 메타 데이터를 기반으로 사운드에 다양한 이펙트(effect)를 적용하는 방법 등이 포함될 수 있다.

본 발명에서 제안하는 사운드 프로세싱은 원래의 사운드(프로세싱되지 않은 사운드)에 존재하지 않던 입체감 또는 실제감을 적용한다는 측면에서 채널 확장(expansion) 또는 차원(dimension) 업스케일링으로 이해될 수 있다.

본 발명의 프로세싱 장치(100)는 프로세싱된 사운드가 포함된 컨텐츠를 기지국 등을 통하여 사용자 단말(130)로 전송함으로써 고품질 컨텐츠를 사용자에게 제공할 수 있다.

도 2는 본 발명의 일 실시예에 의한 프로세싱 장치(100)를 개략적으로 나타낸 블록 구성도이며, 도 3은 사운드 프로세싱 방법에 대한 본 발명의 일 실시예를 설명하기 위한 순서도이다.

도 2에 도시된 바와 같이, 프로세싱 장치(100)는 I/O 인터페이스부(210), 추출부(220), 선별부(230), 프로세싱부(240) 및 메타 데이터 저장부(250)를 포함하여 구성될 수 있다.

먼저, I/O 인터페이스부(210)를 통해 '영상과 이에 대응되는 사운드가 포함된 컨텐츠'가 획득된다(S310). I/O 인터페이스부(210)를 통한 컨텐츠의 획득은 컨텐츠 서버(110)로부터의 전송을 통해 구현되거나, 컨텐츠 서버(110)로부터 전송된 컨텐츠를 메모리 등에 미리 저장하고 이 메모리에 엑세스(access)하는 방법 등을 통해 구현될 수 있다.

메타 데이터란 데이터의 속성을 설명하기 위한 데이터를 의미하며, 딥 메타 데이터는 컨텐츠에 포함된 유용한 특징(메타 데이터)을 AI(artificial intelligence) 즉, 머신 러닝 또는 딥 러닝 기술을 통해 추출한 메타 데이터를 의미한다.

일반적으로, 영상으로부터 추출되는 딥 메타 데이터에는 영상으로부터 표출되는 인물의 얼굴, 감정, 움직임, 음원, 상황, 대사, 자막, 주변 환경 등이 포함될 수 있다. 이러한 다양한 형태의 딥 메타 데이터는 해당 영상의 유용한 속성을 나타내므로 컨텐츠 경험 제고 및 사용자 편의성 향상을 위해 활용될 수 있다.

딥 메타 데이터를 활용하여 컨텐츠 경험을 제고하고 사용자 편의성을 향상시키는 대표적인 기술들로는 shot identification 기술, intro/ending auto detection 기술, alternative poster 기술, metadata composition 기술 등이 있다.

shot identification 기술은 영상에 포함된 프레임들 간의 유사도를 기반으로 카메라 shot이 변화하는 경계를 구분하는 기술에 해당한다. 이 기술에서는 컨텐츠의 장르(영화, 드라마, 예능 등), 프레임으로부터 인식되는 상황(밤/낮, 이동 속도, fade in/out 등) 등과 같은 영상의 특징을 고려하여 프레임들 간의 유사도를 판단한다.

intro/ending auto detection 기술은 컨텐츠의 intro/ending 구간을 자동적으로 탐지하는 기술에 해당한다. 이 기술은 shot identification 기술을 활용하여 intro/ending 구간을 탐지하는 데 특화되어 있으며, 하나의 드라마를 구성하는 여러 에피소드를 연속적으로 시청하는 binge watching 편의를 위한 인트로/엔딩 부분의 스킵(skip)에 활용될 수 있다.

alternative poster 기술은 컨텐츠를 대표할 수 있는 이미지 후보들을 해당 컨텐츠로부터 추출하는 기술에 해당한다. 이 기술은 여러 이미지 후보들을 활용하여 해당 컨텐츠에 대한 요약 영상을 생성하는데 활용될 수 있다.

metadata composition 기술은 동일하거나 유사한 의미를 가지는 여러 메타 데이터를 결합하여 metadata set를 생성하는 기술에 해당한다. 이 기술은 컨텐츠 내에서 동일하거나 유사한 장면을 포함하는 프레임을 추출 및 제공하는데 활용될 수 있다. 여기서, 동일하거나 유사한 장면을 포함하는 프레임은 사용자가 시청하길 원하는 프레임에 해당할 수 있으며, 사용자의 요구는 음성 인식을 통해 입력될 수 있다. 따라서, 이 기술은 자연어 이해 기술과 결합될 수 있다.

딥 메타 데이터는 위와 같은 대표적인 기술들 이외에도, 컨텐츠 별 배역 이미지 자동 추천, 인물 또는 음원의 장면 별 골라보기, 컨텐츠 내 딥 메타 데이터 추출/검색, 특정 컨텐츠 내 섹션 탐색 등을 위해 활용될 수 있다.

추출부(220)는 획득된 영상으로부터 하나 이상의 딥 메타 데이터를 추출한다(S320). 추출부(220)가 딥 메타 데이터를 추출하는 방법에 대한 일 예를 설명하면 다음과 같다.

특정 영상으로부터 인물, 상황, 장소 등을 구분/인식/인지할 수 있는 기준(baseline) 데이터가 DB화된다. 추출부(220)는 DB화된 기준 데이터(baseline DB)를 이용하여 미리 학습될 수 있다. 한편, 컨텐츠에 포함된 영상(영상신호)의 각 프레임 별로 이미지가 DB화된다.

추출부(220)는 각 프레임 별로 baseline DB와 DB화된 이미지(image DB)를 비교하고, 상호 연관성(co-relation) 연산을 적용함으로써 인물, 상황, 장소 등을 구분/인식/인지할 수 있다. 또한, 추출부(220)는 특정 프레임으로부터 '인지된 인물, 상황, 장소 등'을 추출함으로써 딥 메타 데이터를 추출하는 과정을 마무리할 수 있다. 이 과정에서, 해당 컨텐츠 전체로부터 딥 메타 데이터를 추출하기 위해, moving window 기술이 적용될 수 있다.

추출부(220)는 전체 영상에 대해 미리 설정된 시간 주기 단위로 딥 메타 데이터를 추출하거나, 미리 설정된 하나 이상의 시점마다 딥 메타 데이터를 추출하도록 구성될 수 있다.

딥 메타 데이터가 추출되는 시간 주기 단위와 시점은 사운드 프로세싱의 필요성 존부에 따라 가변적으로 설정될 수 있다. 예를 들어, 추출부(220)는 컨텐츠에 포함된 전체 영상 중 캐릭터의 음성, 캐릭터의 움직임, 물체들 간의 충돌 등과 같은 사운드 프로세싱의 필요성을 가지는 영상들만을 대상으로 딥 메타 데이터를 추출하도록 구성될 수 있다.

선별부(230)는 추출된 딥 메타 데이터 중 대상 객체와 관련된 딥 메타 데이터(객체 메타 데이터)를 선별한다(S330). 여기서, 대상 객체는 컨텐츠에 포함된 사운드를 발생시키는 사운드 소스를 의미하며, 대상 객체에는 해당 컨텐츠에 등장하는 인물, 애니메이션 캐릭터, 게임 캐릭터, 사물 등과 같이 사운드를 발생시킬 수 있는 다양한 요소들이 포함될 수 있다.

프로세싱부(240)는 대상 객체와 관련된 딥 메타 데이터(객체 메타 데이터)를 기준으로 또는 이 객체 메타 데이터가 지시하는 바에 따라, 사운드를 프로세싱한다(S340).

사운드 프로세싱이 완료되면, I/O 인터페이스부(210)는 프로세싱된 사운드가 포함되어 있는 컨텐츠를 사용자 단말(130)로 전송하여 해당 컨텐츠(고품질 컨텐츠)를 사용자에게 제공한다(S350).

실시형태에 따라, 본 발명에서 제안하는 사운드 프로세싱 방법은 컨텐츠 제공에 대한 요청이 사용자로부터 전송됨을 전제로 하여 구현되거나, 컨텐츠 제공에 대한 요청이 사용자로부터 전송되는지 여부와 무관하게 구현될 수 있다.

전자는 컨텐츠 제공 요청이 수신된 후에 이 요청과 대응되는 컨텐츠의 사운드를 대상으로 사운드 프로세싱 방법을 적용한 후, 사운드 프로세싱된 컨텐츠를 사용자 단말(130)로 전송하는 경우를 의미한다. 후자는 컨텐츠 제공 요청의 수신 없이, 획득된 컨텐츠를 대상으로 미리 사운드 프로세싱 방법을 적용한 후, 해당 컨텐츠에 대한 제공 요청이 수신되는 경우에 한하여 해당 컨텐츠를 사용자 단말(130)로 전송하는 경우를 의미한다.

실시형태에 따라, 본 발명에서 제안하는 사운드 프로세싱 방법은 사운드 프로세싱의 필요성에 따라 선택적으로 구현될 수 있다.

캐릭터의 음성 발생 여부, 캐릭터의 움직임 존부, 캐릭터의 영상 내 표출 여부 등과 같이, 대상 객체로부터 발생되는 사운드에 입체감을 부여해야 할 필요성이 영상으로부터 인식되는 경우, 사운드 프로세싱의 필요성이 존재하는 것으로 판단될 수 있다.

또한, 물체들 간의 충돌 여부, 장소 협소 여부, 날씨의 변화, 계절의 변화 등과 같이, 사운드에 대응되는 이펙트를 부여해야 할 필요성이 영상으로부터 인식되는 경우도 사운드 프로세싱의 필요성이 존재하는 것으로 판단될 수 있다.

본 발명의 프로세싱 장치(100)는 위와 같은 사운드 프로세싱 필요성을 자체적으로 판단하고, 그 판단 결과에 따라 본 발명에서 제안하는 사운드 프로세싱 방법을 선택적으로 적용 또는 구현할 수 있다.

실시형태에 따라, 본 발명에서 제안하는 사운드 프로세싱 방법은 사운드 프로세싱에 대한 사용자의 의도에 따라 선택적으로 구현될 수도 있다. 즉, 사운드 프로세싱을 실행시키고자 하는 사용자의 의도가 사용자 단말(130)을 통해 수신됨을 전제로, 본 발명의 프로세싱 장치(100)는 사운드 프로세싱 방법을 적용 또는 구현할 수 있다.

도 4는 딥 메타 데이터에 대한 본 발명의 다양한 예를 설명하기 위한 도면이다.

전술된 바와 같이, 영상으로부터 추출되는 딥 메타 데이터에는 영상으로부터 표출되는 인물의 얼굴, 감정, 움직임, 음원, 상황, 대사, 자막, 주변 환경 등이 포함될 수 있다.

도 4에 표현된 바와 같이, 추출부(220)를 통해 추출되는 딥 메타 데이터에는 사운드를 발생시키는 대상 객체와 관련된 딥 메타 데이터인 객체 메타 데이터, 영상의 배경 음악과 관련된 딥 메타 데이터인 배경 메타 데이터 등이 포함될 수 있다.

객체 메타 데이터에는 대상 객체의 움직임과 관련된 딥 메타 데이터인 움직임 메타 데이터, 사운드가 발생되는 영상의 상황(context)과 관련된 딥 메타 데이터인 컨텍스트 메타 데이터, 대상 객체의 영상 내 존재 여부에 대한 딥 메타 데이터인 인식 메타 데이터 등이 포함될 수 있다.

인식 메타 데이터는 대상 객체가 영상에서 시각적으로 인식되는지 여부를 지시하는 딥 메타 데이터로서, 예를 들어, 대상 객체가 게임 캐릭터이고 해당 게임 캐릭터가 영상에서 인식되지 않는다면, 인식 메타 데이터는 Off에 해당할 수 있다.

움직임 메타 데이터에는 컨텐츠에 등장하는 캐릭터(인물, 게임 캐릭터, 애니메이션 캐릭터 등)의 움직임 여부, 움직임 방향 및 움직임 정도(움직임의 크기)를 나타내는 메타 데이터들이 포함될 수 있다.

도 4에 표현된 바와 같이, 움직임 메타 데이터는 컨텐츠에 등장하는 캐릭터 별로 구분될 수 있으며(대상 객체 1, 대상 객체 2 등), 움직임 메타 데이터가 지시하는 움직임 방향은 영상 또는 화면 내 특정 포인트(기준 포인트)를 기준으로 한 Up/Down, Left/Right 및 Front/Back를 포함할 수 있다.

즉, 움직임 메타 데이터에는 Up/Down, Left/Right 및 Front/Back 각각을 지시하는 메타 데이터들이 포함될 수 있다. 또한, 움직임 메타 데이터가 지시하는 움직임 정도는 Up/Down, Left/Right 및 Front/Back 각각에 대한 수치로 표현될 수 있다.

컨텍스트 메타 데이터가 지시하는 영상의 상황이란 대상 객체 자체로부터 발생하는 고유 사운드에 변형 또는 변경을 유발할 수 있는 환경적 요인으로서, 주변 환경, 주변 여건 등으로 이해될 수 있다.

도 4에 표현된 바와 같이, 컨텍스트 메타 데이터에는 사운드가 발생하는 장소와 관련된 딥 메타 데이터, 사운드가 발생하는 시간과 관련된 딥 메타 데이터, 사운드가 발생하는 날씨 또는 계절과 관련된 딥 메타 데이터(맑음, 흐림, 비 등), 대상 객체들의 충돌 여부와 관련된 딥 메타 데이터 등이 포함될 수 있다. 또한, 장소와 관련된 딥 메타 데이터에는 실내/실외 여부를 지시하는 메타 데이터, 해당 장소의 크기 정도를 지시하는 메타 데이터들이 포함될 수 있다.

이러한 다양한 하위 메타 데이터들을 포함하는 딥 메타 데이터는 영상으로부터 추출된 후, 해당 영상과 링크되어 메타 데이터 저장부(250)에 저장될 수 있다.

도 5는 대상 객체의 움직임을 기준으로 사운드를 프로세싱하는 본 발명의 일 실시예를 설명하기 위한 순서도이다. 이하에서는, 도 5를 참조하여 움직임 메타 데이터를 기준으로 사운드를 업스케일링하여 사운드에 입체감을 적용하는 본 발명의 일 실시예에 대해 설명하도록 한다.

먼저, 도 5에 표현된 바와 같이, 영상과 이에 대응되는 사운드가 포함된 컨텐츠가 컨텐츠 서버(110)로부터 프로세싱 장치(100)로 전송되는 과정(S510)과 영상으로부터 하나 이상의 딥 메타 데이터를 추출하는 과정(S520)이 수행될 수 있다.

선별부(230)는 추출된 딥 메타 데이터 중 움직임 메타 데이터를 선별한다(S540). 실시형태에 따라, 선별부(230)는 사용자가 의도하는 특정 캐릭터에 대한 움직임 메타 데이터를 선택적으로 선별하도록 구성될 수 있다.

이를 위해, 움직임 메타 데이터를 선별하는 과정(S540) 이전에, 컨텐츠에 등장하는 캐릭터들 중 어느 하나를 지시하는 선택신호를 사용자 단말(130)로부터 수신하는 과정(S530)이 수행될 수 있다. 선택신호는 사용자가 사용자 단말(130)을 통해 입력한 신호 또는 데이터에 해당한다.

이와 같이, 본 발명이 사용자가 의도하는 특정 캐릭터에 대한 움직임 메타 데이터를 선택적으로 선별하도록 구성되면, 본 발명은 사용자의 의도에 부합되는 캐릭터에 대한 사운드 프로세싱(업스케일링)을 구현할 수 있다. 따라서, 본 발명은 사용자들 개개인의 다양한 요구를 충족시킬 수 있어 개인화 서비스를 구현할 수 있다.

움직임 메타 데이터에 대한 선별이 완료되면, 프로세싱부(240)는 선별된 움직임 메타 데이터를 기준으로(움직임 메타 데이터가 지시하는 캐릭터의 움직임에 따라) 해당 캐릭터로부터 발생되는 사운드를 업스케일링한다(S550).

예를 들어, 캐릭터가 우상측 방향으로 각각 +2만큼 이동한 경우, 움직임 메타 데이터의 Up/Down, Left/Right 및 Front/Back 각각은 +2/-2, -2/+2, 0/0을 나타낼 수 있다. 따라서, 프로세싱부(240)는 우측 방향과 상측 방향에 대응되는 채널 각각에 +2에 비례하는 가중치를 적용하고, 좌측 방향과 하측 방향에 대응되는 채널 각각에 -2에 비례하는 가중치를 적용하는 방법을 통해 사운드 업스케일링을 수행할 수 있다.

다른 예로, 캐릭터가 영상을 시청하는 사용자와 가까워지는 방향(Front)으로 +3만큼 이동한 경우, 움직임 메타 데이터는 0/0, 0/0, +3/-3을 나타낼 수 있다. 따라서, 프로세싱부(240)는 Front 방향에 대응되는 채널에 +3에 비례하는 가중치를 적용하고 Back 방향과 대응되는 채널에 -3에 비례하는 가중치를 적용하는 방법을 통해 업스케일링을 수행할 수 있다.

움직임 메타 데이터를 기준으로 프로세싱을 수행하는 전술된 실시예에서는 설명과 이해의 편의를 위해 캐릭터의 움직임이 기준 포인트(0, 0)로부터 발생하는 것으로 가정하여 설명하였다. 따라서, 전술된 예에서, +2, -2, +3, -3 등은 캐릭터의 원위치(이전 위치)를 기준으로 한 움직임의 상대적 크기를 의미한다.

한편, 영상이 복수 개의 픽처(프레임)로 구성되는 점을 감안하면, 특정 시점의 픽처로부터 추출되는 움직임 메타 데이터와 이전 시점의 픽처로부터 추출되는 움직임 메타 데이터 사이에 움직임 방향과 움직임 정도에 대한 연속성을 확보할 필요성이 있다.

따라서, 특정 시점에 추출되는 움직임 메타 데이터는 이전 시점에 추출되는 움직임 메타 데이터의 움직임 방향과 움직임 정보를 원점으로 한 벡터 값으로 표현될 수 있다. 즉, 특정 시점의 움직임 메타 데이터는 이전 시점의 움직임 메타 데이터를 기준으로 한 상대적인 값으로 표현될 수 있다.

사운드 프로세싱이 완료되면, I/O 인터페이스부(210)는 프로세싱된(업스케일링된) 사운드가 포함되어 있는 컨텐츠를 사용자 단말(130)로 전송하여 사용자에게 고품질 컨텐츠를 제공한다(S560).

실시형태에 따라, 영상으로부터 딥 메타 데이터를 추출하는 과정(S520)은 움직임 메타 데이터를 선별하는 과정(S540) 및 사운드를 업스케일링하는 과정(S550)과 시간적 차이를 두고 수행될 수 있다.

예를 들어, 프로세싱 장치(100)는 컨텐츠 서버(110)로부터 수신된 영상 전체에 대해 딥 메타 데이터를 추출하여 딥 메타 데이터 저장부(250)에 저장한 후, 사용자 단말(130)로부터 해당 영상에 대한 제공이 요구됨을 조건으로 움직임 메타 데이터를 선별하는 과정(S540)과 사운드를 업스케일링하는 과정(S550)을 수행할 수 있다.

실시형태에 따라, 선택신호를 수신하는 과정(S530)은 딥 메타 데이터를 추출하는 과정(S520) 이전에 수행될 수 있다. 예를 들어, 프로세싱 장치(100)는 사용자 단말(130)로부터 선택신호가 수신됨을 조건으로 하여 딥 메타 데이터 추출(S520), 선택신호에 대응되는 캐릭터의 움직임 메타 데이터 선별(S540) 및 사운드 업스케일링(S550)을 수행할 수 있다. 또 다른 실시형태에 따라, 선택신호를 수신하는 과정(S530)은 컨텐츠 서버(110)로부터 컨텐츠를 수신하는 과정(S510) 이전에 수행될 수도 있다.

실시형태에 따라, 전술된 방법(움직임 메타 데이터를 기준으로 사운드 업스케일링)은 사용자의 의도에 따라 선택적으로 On 또는 Off 될 수 있다. 사용자가 사운드 프로세싱 기능 전체를 Off하거나 후술되는 이펙트 적용 기능만을 On하는 경우, 입체감을 부여하는 업스케일링 방법이 구현되지 않을 수 있다. 이와 달리, 사용자가 사운드 프로세싱 기능 전체를 On하거나 이펙트 적용 기능만을 Off하는 경우, 업스케일링 방법이 구현될 수 있다.

도 6은 사운드가 발생하는 환경적 특성을 반영하여 사운드를 프로세싱하는 본 발명의 일 실시예를 설명하기 위한 순서도이다. 이하에서는, 도 6을 참조하여 컨텍스트 메타 데이터를 기준으로 사운드에 다양한 이펙트를 적용하는 방법에 대해 설명하도록 한다.

먼저, 영상과 이에 대응되는 사운드가 포함된 컨텐츠를 획득하는 과정(S610)과 영상으로부터 하나 이상의 딥 메타 데이터를 추출하는 과정(S620)이 전술된 바와 동일하게 수행될 수 있다.

선별부(230)는 추출된 딥 메타 데이터 중 영상의 상황과 관련된 딥 메타 데이터인 컨텍스트 메타 데이터를 선별한다(S640). 실시형태에 따라, 선별부(230)는 사용자 단말(130)로부터 수신(S630)되는 선택신호를 이용하여 사용자가 의도하는 특정 상황에 대한 컨텍스트 메타 데이터를 선택적으로 선별하도록 구성될 수도 있으며, 이를 통해 본 발명은 개인화 서비스를 구현할 수 있다.

컨텍스트 메타 데이터에 대한 선별이 완료되면, 프로세싱부(240)는 선별된 컨텍스트 메타 데이터가 지시하는 상황에 대응되는 다양한 이펙트를 사운드에 적용한다(S650).

예를 들어, 컨텍스트 메타 데이터가 '사운드가 발생하는 장소의 협소함'을 지시하는 경우, 프로세싱부(240)는 사운드를 대상으로 리버브(reverb) 이펙트를 적용하여 장소의 협소함에 따른 울림 효과(실제감 또는 공간감)를 부여할 수 있다.

컨텍스트 메타 데이터는 장소의 협소함을 On 또는 Off로 나타내거나, 장소의 혐소함 정도 또는 장소의 크기를 수치적으로 나타낼 수 있다. 컨텍스트 메타 데이터가 장소의 협소함 정도를 수치적으로 나타내는 경우, 프로세싱부(240)는 해당 수치에 비례적으로 리버브 이펙트를 적용할 수 있다.

다른 예로, 컨텍스트 메타 데이터가 '대상 객체의 충돌'을 지시하는 경우, 프로세싱부(240)는 사운드를 대상으로 하이패스 필터를 적용하여 사운드의 고주파수 대역을 강조함으로써 대상 객체의 충돌로 인하여 발생하는 사운드를 더욱 실제적으로 표현할 수 있다. 컨텍스트 메타 데이터는 대상 객체의 충돌에 대한 크기를 수치적으로 나타낼 수 있으며, 이와 같은 경우, 프로세싱부(240)는 해당 수치에 비례적으로 사운드 강조 이펙트를 적용할 수 있다.

사운드 프로세싱이 완료되면, I/O 인터페이스부(210)는 프로세싱된 사운드가 포함되어 있는 컨텐츠를 사용자 단말(130)로 전송하여 사용자에게 고품질 컨텐츠를 제공한다(S660).

도 5를 통하여 설명된 실시예와 마찬가지로 도 6을 통하여 설명된 실시예에서도 영상으로부터 딥 메타 데이터를 추출하는 과정(S620)은 컨텍스트 메타 데이터를 선별하는 과정(S640) 및 이펙트를 적용하는 과정(S650)과 시간적 차이를 가지고 수행될 수 있다.

또한, 선택신호를 수신하는 과정(S630)은 딥 메타 데이터를 추출하는 과정(S620) 이전에 수행되거나, 컨텐츠 서버(110)로부터 컨텐츠를 수신하는 과정(S610) 이전에 수행될 수도 있다.

또한, 전술된 방법(컨텍스트 메타 데이터를 기준으로 사운드에 이펙트 적용)은 사용자의 의도에 따라 선택적으로 On 또는 Off 될 수 있다. 사용자가 사운드 프로세싱 기능 전체를 Off하거나 전술된 업스케일링 기능만을 On하는 경우, 이펙트 적용 방법이 구현되지 않을 수 있다. 이와 달리, 사용자가 사운드 프로세싱 기능 전체를 On하거나 업스케일링 기능만을 Off하는 경우, 이펙트 적용 방법이 구현될 수 있다.

도 7은 대상 객체의 움직임을 기준으로 한 사운드 업스케일링과 환경적 특성을 반영한 이펙트 적용이 유기적으로 수행되는 본 발명의 일 실시예를 설명하기 위한 순서도이다.

도 5 및 도 6을 통해, 사운드를 대상으로 입체감을 적용하는 방법과 사운드를 대상으로 이펙트를 적용하는 방법 각각을 개별적으로 설명하였다. 이하에서, 도 7을 통해 설명되는 실시예는 입체감을 적용하는 방법과 이펙트를 적용하는 방법이 동일한 사운드를 대상으로 동시에 구현되는 실시예에 해당한다.

먼저, 영상과 이에 대응되는 사운드가 포함된 컨텐츠를 획득하는 과정(S710) 및 영상으로부터 하나 이상의 딥 메타 데이터를 추출하는 과정(S720)이 앞서 설명된 바와 동일하게 수행될 수 있다.

선별부(230)는 추출된 딥 메타 데이터로부터 객체 메타 데이터를 선별하고(S730), 프로세싱부(240)는 객체 메타 데이터를 기준으로 사운드 업스케일링을 수행한다(S740).

한편, 선별부(230)는 추출된 딥 메타 데이터로부터 컨텍스트 메타 데이터를 선별하고(S750), 프로세싱부(240)는 컨텍스트 메타 데이터가 지시하는 상황에 대응되는 이펙트를 업스케일링된 사운드에 적용한다(S760).

사운드 프로세싱(업스케일링 및 이펙트 적용)이 완료되면, I/O 인터페이스부(210)는 프로세싱된 사운드가 포함되어 있는 컨텐츠를 사용자 단말(130)로 전송하여 사용자에게 고품질 컨텐츠를 제공한다(S770).

도 5 및 도 6을 통하여 설명된 실시예와 마찬가지로 도 7을 통하여 설명된 실시예에서도 영상으로부터 딥 메타 데이터를 추출하는 과정(S720)은 메타 데이터를 선별하는 과정(S730, S750) 및 사운드를 프로세싱하는 과정(S740, S760)과 시간적 차이를 가지고 수행될 수 있다. 또한, 전술된 방법(업스케일링 및 이펙트 적용의 동시 수행)은 사용자의 의도에 따라 선택적으로 On 또는 Off 될 수 있다.

도 3, 도 5, 도 6 및 도 7에서는 각 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 3, 도 5, 도 6 및 도 7에 기재된 순서를 변경하여 실행하거나 각 과정들 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 3, 도 5, 도 6 및 도 7은 시계열적인 순서로 한정되는 것은 아니다.

한편, 도 3, 도 5, 도 6 및 도 7에 도시된 과정들은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 즉, 컴퓨터가 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컨텐츠(contents)에 포함된 사운드를 프로세싱(processing)하는 방법으로서,
상기 컨텐츠에 포함된 영상으로부터 하나 이상의 딥 메타 데이터(deep meta data)를 추출하는 단계;
상기 추출된 딥 메타 데이터 중 상기 사운드를 발생시키는 대상 객체와 관련된 딥 메타 데이터인 객체 메타 데이터를 선별하는 단계; 및
상기 객체 메타 데이터를 기준으로 상기 사운드를 프로세싱하는 단계를 포함하는 것을 특징으로 하는 사운드 프로세싱 방법.
제1항에 있어서,
상기 대상 객체는,
상기 컨텐츠에 등장하는 캐릭터(character)이며,
상기 객체 메타 데이터는,
상기 캐릭터의 움직임과 관련된 딥 메타 데이터인 움직임 메타 데이터를 포함하고,
상기 프로세싱하는 단계는,
상기 움직임 메타 데이터가 지시하는 상기 캐릭터의 움직임에 따라, 상기 사운드의 채널 별로 가중치를 적용하여 상기 사운드를 업스케일링하는 것을 특징으로 하는 사운드 프로세싱 방법.
제2항에 있어서, 상기 캐릭터는,
상기 컨텐츠에 등장하는 하나 이상의 캐릭터 중 사용자로부터 입력된 선택신호가 지시하는 캐릭터인 것을 특징으로 하는 사운드 프로세싱 방법.
제1항에 있어서,
상기 객체 메타 데이터는,
상기 영상의 상황(context)과 관련된 딥 메타 데이터인 컨텍스트 메타 데이터를 포함하고,
상기 프로세싱하는 단계는,
상기 컨텍스트 메타 데이터가 지시하는 상황에 대응되는 이펙트(effect)를 상기 사운드에 적용하는 것을 특징으로 하는 사운드 프로세싱 방법.
제1항 내지 제4항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체.
컨텐츠(contents)에 포함된 사운드를 프로세싱(processing)하는 장치로서,
상기 컨텐츠에 포함된 영상으로부터 하나 이상의 딥 메타 데이터(deep meta data)를 추출하는 추출부;
상기 추출된 딥 메타 데이터 중 상기 사운드를 발생시키는 대상 객체와 관련된 딥 메타 데이터인 객체 메타 데이터를 선별하는 선별부; 및
상기 객체 메타 데이터를 기준으로 상기 사운드를 프로세싱하는 프로세싱부를 포함하는 것을 특징으로 하는 사운드 프로세싱 장치.
제6항에 있어서,
상기 대상 객체는,
상기 컨텐츠에 등장하는 캐릭터(character)이며,
상기 객체 메타 데이터는,
상기 캐릭터의 움직임과 관련된 딥 메타 데이터인 움직임 메타 데이터를 포함하고,
상기 프로세싱부는,
상기 움직임 메타 데이터가 지시하는 상기 캐릭터의 움직임에 따라, 상기 사운드의 채널 별로 가중치를 적용하여 상기 사운드를 업스케일링하는 것을 특징으로 하는 사운드 프로세싱 장치.
제7항에 있어서, 상기 캐릭터는,
상기 컨텐츠에 등장하는 하나 이상의 캐릭터 중 사용자로부터 입력된 선택신호가 지시하는 캐릭터인 것을 특징으로 하는 사운드 프로세싱 장치.
제6항에 있어서,
상기 객체 메타 데이터는,
상기 영상의 상황(context)과 관련된 딥 메타 데이터인 컨텍스트 메타 데이터를 포함하고,
상기 프로세싱부는,
상기 컨텍스트 메타 데이터가 지시하는 상황에 대응되는 이펙트(effect)를 상기 사운드에 적용하는 것을 특징으로 하는 사운드 프로세싱 장치.