WO2018012727A1

WO2018012727A1 - 디스플레이장치와, 기록매체

Info

Publication number: WO2018012727A1
Application number: PCT/KR2017/005265
Authority: WO
Inventors: 이상문; 고상철; 천병근
Original assignee: 삼성전자(주)
Priority date: 2016-07-11
Filing date: 2017-05-22
Publication date: 2018-01-18
Also published as: KR20180006798A; KR102561371B1; EP3468171A4; US20190320114A1; EP3468171A1; EP3468171B1; US10939039B2

Abstract

본 발명의 실시예에 따른 디스플레이장치는, 디스플레이부와; 스피커와; 사용자입력부와; 디스플레이부에 영상이 표시되게 영상신호를 처리하며, 사용자입력부를 통한 사용자 입력에 따라서 디스플레이부에 표시되는 영상의 시점이 변화되도록 처리하는 영상처리 프로세서와; 스피커로부터 오디오가 출력되게 오디오신호를 처리하며, 오디오신호의 음향 특성을 판단하고, 사용자 입력에 대응하는 음향 특성에 따라서 스피커로부터의 오디오 출력을 조정하는 오디오처리 프로세서를 포함하는 것을 특징으로 한다.

Description

디스플레이장치와, 기록매체

본 발명은 콘텐츠신호를 처리함으로써 콘텐츠의 영상 및 오디오를 출력하게 마련된 디스플레이장치와, 기록매체에 관한 것으로서, 상세하게는 사용자가 영상에 대한 시청 정보를 변경하는 것에 응답하여 영상 및 오디오의 출력상태를 조정할 수 있는 구조의 디스플레이장치와, 기록매체에 관한 것이다.

소정의 정보를 특정 프로세스에 따라서 연산 및 처리하기 위해, 연산을 위한 CPU, 칩셋, 메모리 등의 전자부품들을 기본적으로 포함하는 전자장치는, 처리 대상이 되는 정보가 무엇인지에 따라서 다양한 종류로 구분될 수 있다. 예를 들면, 전자장치에는 범용의 정보를 처리하는 PC나 서버 등의 정보처리장치가 있고, 영상 정보를 처리하는 영상처리장치가 있다.

영상처리장치는 영상데이터를 포함하는 콘텐츠 신호를 외부로부터 수신하며, 콘텐츠 신호로부터 추출되는 영상데이터를 다양한 영상처리 프로세스에 따라서 처리한다. 영상처리장치는 처리된 영상데이터를 자체 구비한 디스플레이 패널(display panel) 상에 영상으로 표시하거나, 또는 디스플레이 패널을 구비한 타 디스플레이장치에서 영상으로 표시되도록 이 처리된 영상데이터를 해당 디스플레이장치에 출력한다. 디스플레이 패널을 가지지 않은 영상처리장치의 대표적인 예시로는 셋탑박스(set-top box)가 있다. 디스플레이 패널을 가진 영상처리장치를 특히 디스플레이장치라고 지칭하며 그 예시로는 TV, 모니터, 휴대용 멀티미디어 재생기, 태블릿(tablet), 모바일 폰(mobile phone) 등이 있다.

기술이 발전하고 사용자의 취향이 다양화되는 경향에 따라서, 디스플레이장치가 제공받는 콘텐츠 또한 다양한 형태 및 방식으로 발전하고 있다. 콘텐츠가 발전하는 한 가지 방식으로는 콘텐츠의 영상이 FHD를 넘어서 4K, 8K 등의 고해상도로 변화하는 추세가 있지만, 단순히 해상도가 높아지는 것 이외에도 콘텐츠 자체의 생성에 있어서 새로운 방식이 사용되기도 한다. 그 한 가지 예시가 통칭 360도 카메라로 지칭되는 전방향 카메라에 의해 소정 대상이 촬영됨으로써 전방향 영상 콘텐츠가 생성되는 경우이다.

다만, TV와 같은 일반적인 구조의 디스플레이장치에서 이와 같은 방식으로 생성된 전방향 영상 콘텐츠를 재생하는 것은, 영상 및 오디오 측면 모두에 있어서 여러 가지 고려해야 할 사항이 있다. 예를 들면, 디스플레이장치는 전방향 영상 콘텐츠의 영상을 어떠한 방식으로 표시할 것인가 판단해야 하며, 또한 표시하는 영상에 대응하여 어떠한 방식으로 오디오를 출력할 것인가 판단해야 한다. 디스플레이장치가 종래의 방식으로 영상 및 오디오를 재생할 때에, 경우에 따라서는 영상의 표시 상태와 오디오의 출력 상태가 상호 맞지 않게 됨으로써, 사용자에게 현장감이 떨어지는 환경을 제공하게 될 수도 있다. 이러한 점을 해소하도록, 전방향 영상 콘텐츠를 디스플레이장치에서 재생할 때에 디스플레이장치가 사용자의 의도를 실시간으로 반영하여 콘텐츠를 재생할 수 있는 유저 인터랙티브(user interactive) 환경을 제공할 수 있다면 바람직할 것이다.

본 발명의 실시예에 따른 디스플레이장치는, 디스플레이부와; 스피커와; 사용자입력부와; 상기 디스플레이부에 영상이 표시되게 영상신호를 처리하며, 상기 사용자입력부를 통한 사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점이 변화되도록 처리하는 영상처리 프로세서와; 상기 스피커로부터 오디오가 출력되게 오디오신호를 처리하며, 상기 오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 오디오처리 프로세서를 포함하는 것을 특징으로 한다. 이로써, 디스플레이장치는 오디오신호의 특성에 대응하여 최적화된 음향 환경을 사용자에게 제공할 수 있다.

여기서, 상기 오디오처리 프로세서는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단할 수 있다.

여기서, 상기 오디오처리 프로세서는, 상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하고, 상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단할 수 있다. 또는, 상기 오디오처리 프로세서는, 상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단할 수 있다. 또는, 오디오처리 프로세서는 좌우 패닝과 같이 스튜디오에서 통상적으로 적용되는 믹싱 또는 마스터링 기법을 고려하여, 오디오 데이터가 믹싱 또는 마스터링 신호로 판단되면, 오디오 신호가 현장 녹음 또는 스튜디오에서의 후처리 녹음인지 여부를 판단할 수 있다.

또한, 상기 오디오처리 프로세서는, 후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않을 수 있다. 이로써, 디스플레이장치는 오디오신호가 현장녹음이면 향상된 음장감을 제공하며, 오디오신호가 현장녹음이 아니더라도 오디오가 비정상적으로 출력되는 것을 방지할 수 있다.

또한, 상기 영상신호는 광각 카메라에 의해 촬영된 광각영상을 포함하며, 상기 영상처리 프로세서는 상기 광각영상의 일부 영역이 상기 디스플레이부에 상기 영상으로 표시되게 처리할 수 있다. 이로써, 디스플레이장치는 360도 카메라와 같은 광각 카메라에 의해 촬영된 광각영상을 표시할 수 있다.

여기서, 상기 영상처리 프로세서는, 사용자 시점의 이동을 지시하는 상기 사용자 입력에 응답하여 상기 광각영상을 패닝시킨 영상을 상기 디스플레이부에 표시하며, 상기 오디오처리 프로세서는, 상기 패닝 동작에 따른 음원의 위치 변화를 판단하고, 상기 음원의 변화된 위치에 대응하여 상기 오디오신호 내에서 상기 음원의 채널 별 오디오성분의 출력파워를 조정함으로써 상기 오디오 출력을 조정할 수 있다. 이로써, 디스플레이장치는 광각영상의 패닝에 대응하여 음향 환경을 향상시킬 수 있다.

여기서, 상기 사용자 입력은, 상기 영상에 대한 사용자의 디폴트 시점 및 상기 이동한 사용자 시점 사이의 각도 정보를 포함할 수 있다.

또한, 상기 영상처리 프로세서는, 상기 영상의 줌 깊이의 변화를 지시하는 상기 사용자 입력에 응답하여 상기 영상이 확대 또는 축소되게 조정하여 상기 디스플레이부에 표시하며, 상기 오디오처리 프로세서는, 사용자에 대한 상기 변화된 영상 내 음원의 거리 변화를 판단하고, 상기 음원의 거리 변화에 대응하여 상기 오디오신호 내에서 상기 음원의 오디오성분의 출력파워를 증감시킴으로서 상기 오디오 출력을 조정할 수 있다. 이 외에도, 로우패스 필터링과 같이 음원의 거리 변화에 따라 음원의 주파수 성분을 변화시키는 과정, 또는 거리 및 방향에 따라 해당되는 머리전달함수(Head-related Transfer Function, HRTF) 필터링 등의 과정이 수반될 수 있다. 이로써, 디스플레이장치는 영상의 줌인, 줌아웃에 대응하여 영상의 시청 환경 변화와 연동하여 음향환경을 향상시킬 수 있다.

또한, 상기 오디오처리 프로세서는 콘텐츠 제공자로부터 상기 오디오신호와 함께 제공되는 시청 정보를 취득하고, 상기 시청 정보에 대응하는 상기 음향 특성에 따라서 상기 스피커로부터의 오디오 출력을 조정할 수 있다.

또한, 본 발명의 실시예에 따른 디스플레이부 및 스피커를 포함하는 디스플레이장치의 프로세서에 의해 실행 및 처리 가능하게 마련된 방법의 프로그램 코드를 저장하는 기록매체에 있어서, 상기 방법은, 상기 디스플레이부에 영상을 표시하는 단계와; 상기 스피커로부터 오디오를 출력하는 단계와; 사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점을 변화시키는 단계와; 오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 단계를 포함하는 것을 특징으로 한다. 이로써, 디스플레이장치는 오디오신호의 특성에 대응하여 최적화된 음향 환경을 사용자에게 제공할 수 있다.

여기서, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단하는 단계를 포함할 수 있다.

여기서, 상기 음향 특성을 판단하는 단계는, 상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하는 단계와; 상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함할 수 있다. 또는, 상기 음향 특성을 판단하는 단계는, 상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함할 수 있다.

또한, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않는 단계를 포함할 수 있다.

또한, 상기 영상은 광각 카메라에 의해 촬영된 광각영상을 포함하며, 상기 디스플레이부에 영상을 표시하는 단계는, 상기 광각영상의 일부 영역이 상기 디스플레이부에 상기 영상으로 표시하는 단계를 포함할 수 있다.

여기서, 상기 영상의 시점을 변화시키는 단계는, 사용자 시점의 이동을 지시하는 상기 사용자 입력에 응답하여 상기 광각영상을 패닝시킨 영상을 상기 디스플레이부에 표시하는 단계를 포함하며, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 상기 패닝 동작에 따른 음원의 위치 변화를 판단하는 단계와; 상기 음원의 변화된 위치에 대응하여 상기 오디오신호 내에서 상기 음원의 채널 별 오디오성분의 출력파워를 조정함으로써 상기 오디오 출력을 조정하는 단계를 포함할 수 있다.

또한, 상기 영상의 시점을 변화시키는 단계는, 상기 영상의 줌 깊이의 변화를 지시하는 상기 사용자 입력에 응답하여 상기 영상이 확대 또는 축소되게 조정하여 상기 디스플레이부에 표시하는 단계를 포함하며, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 사용자에 대한 상기 변화된 영상 내 음원의 거리 변화를 판단하는 단계와; 상기 음원의 거리 변화에 대응하여 상기 오디오신호 내에서 상기 음원의 오디오성분의 출력파워를 증감시킴으로서 상기 오디오 출력을 조정하는 단계를 포함할 수 있다.

또한, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 콘텐츠 제공자로부터 상기 오디오신호와 함께 제공되는 시청 정보를 취득하는 단계와; 상기 시청 정보에 대응하는 상기 음향 특성에 따라서 상기 스피커로부터의 오디오 출력을 조정하는 단계를 포함할 수 있다.

도 1은 본 발명의 실시예에 따른 디스플레이장치의 구성 블록도,

도 2는 본 발명의 실시예에 따른 디스플레이장치에서 영상처리부 및 오디오처리부의 개략적인 처리 구조를 나타내는 구성 블록도,

도 3은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호를 처리하는 방법을 나타내는 플로우차트,

도 4는 본 발명의 실시예에 따른 디스플레이장치에 표시되는 광각영상 콘텐츠의 전체영상을 나타내는 예시도,

도 5는 본 발명의 실시예에 따른 디스플레이장치에 소정 오브젝트를 포함한 영상이 표시되는 모습을 나타내는 예시도,

도 6은 도 5의 상태로부터 사용자의 시점이 반시계방향으로 30도 이동하였을 때에 변화하는 영상을 나타내는 예시도,

도 7은 본 실시예에 따른 디스플레이장치가 복수의 오브젝트를 포함한 영상을 표시하는 모습을 나타내는 예시도,

도 8은 도 7의 상태로부터 줌 깊이를 증가시켰을 때에 변화하는 영상을 나타내는 예시도,

도 9는 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 일 과정을 나타내는 플로우차트,

도 10은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 다른 과정을 나타내는 플로우차트,

도 11은 본 발명의 실시예에 따른 디스플레이장치에 적용되는 음향조정부의 구성 블록도이다.

이하에서는 첨부도면을 참조하여 본 발명에 따른 실시예들에 관해 상세히 설명한다. 이하 실시예들의 설명에서는 첨부된 도면들에 기재된 사항들을 참조하는 바, 각 도면에서 제시된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 나타낸다.

만일, 실시예에서 제1구성요소, 제2구성요소 등과 같이 서수를 포함하는 용어가 있다면, 이러한 용어는 다양한 구성요소들을 설명하기 위해 사용되는 것이며, 용어는 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용되는 바, 이들 구성요소는 용어에 의해 그 의미가 한정되지 않는다. 실시예에서 사용하는 용어는 해당 실시예를 설명하기 위해 적용되는 것으로서, 본 발명의 사상을 한정하지 않는다. 또한, 실시예에서는 본 발명의 사상과 직접적인 관련이 있는 구성들에 관해서만 설명하며, 그 외의 구성에 관해서는 설명을 생략한다.

도 1은 본 발명의 실시예에 따른 디스플레이장치(100)의 구성 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 디스플레이장치(100)는 다양한 콘텐츠소스(10)로부터 콘텐츠 신호를 제공받는다. 본 실시예에서는 디스플레이장치(100)가 TV로 구현되는 경우를 고려하지만, 이러한 실시예는 본 발명의 사상이 구현될 수 있는 유일한 예시가 아니며, 콘텐츠 신호를 처리하여 콘텐츠 영상을 표시할 수 있는 태블릿(tablet), PC, 모바일 폰(mobile phone), 웨어러블 디바이스(wearable device) 등 다양한 종류의 장치에 본 발명의 사상이 적용될 수 있다.

디스플레이장치(100)는 콘텐츠소스(10)로부터 콘텐츠 신호를 수신하는 신호수신부(110)와, 신호수신부(110)를 통해 수신되는 콘텐츠 신호를 처리하는 신호처리부(120)와, 신호처리부(120)에 의해 처리되는 콘텐츠 신호에 의한 콘텐츠 영상을 표시하는 디스플레이부(130)와, 신호처리부(120)에 의해 처리되는 콘텐츠 신호에 의한 콘텐츠 오디오를 출력하는 스피커(140)와, 사용자에 의한 입력 동작이 수행되는 사용자입력부(150)와, 데이터가 저장되는 저장부(160)와, 신호처리부(120)의 처리를 위한 연산 및 디스플레이장치(100)의 제반 동작의 제어를 수행하는 제어부(170)을 포함한다. 이들 구성요소들은 시스템 버스를 통해 상호 접속된다.

신호수신부(110)는 콘텐츠소스(10)와 같은 외부장치로부터 콘텐츠 신호를 수신하기 위한 통신모듈을 포함한다. 신호수신부(110)는 기본적으로 외부로부터의 신호나 데이터를 수신하기 위한 구성이지만, 이에 한정되지 않고 양방향 통신을 구현할 수 있다. 신호수신부(110)는 예를 들면 RF 방송신호를 지정된 주파수로 튜닝하게 마련된 튜닝 칩(tuning chip), 인터넷으로부터 패킷 데이터를 유선으로 수신하는 이더넷(Ethernet) 모듈, 패킷 데이터를 무선으로 수신하는 무선통신모듈, USB 메모리와 같은 외부 메모리가 접속되는 접속포트 등의 구성요소 중에서 적어도 하나 이상을 포함한다. 즉, 신호수신부(110)는 다양한 종류의 통신 프로토콜에 각기 대응하는 통신모듈 또는 포트 등이 조합된 데이터 입력 인터페이스를 포함한다.

신호처리부(120)는 신호수신부(110)에 수신되는 콘텐츠 신호에 대해 다양한 프로세스를 수행함으로써 콘텐츠를 재생한다. 신호처리부(120)는 인쇄회로기판 상에 장착되는 칩셋, 버퍼, 회로 등으로 구현되는 하드웨어 프로세서를 포함하며, 설계 방식에 따라서는 SOC(system on chip)으로 구현될 수도 있다. 기본적으로, 신호처리부(120)는 콘텐츠 영상이 디스플레이부(130)에 표시되고 콘텐츠 오디오가 스피커(140)로부터 출력되도록 콘텐츠 신호를 처리한다.

신호처리부(120)는 콘텐츠 신호를 디멀티플렉싱하여 영상신호 및 오디오신호로 분리하는 디먹스(deMUX)(121)와, 디먹스(121)로부터 출력되는 영상신호를 영상처리 프로세스에 따라서 처리함으로써 디스플레이부(130)에 콘텐츠 영상이 표시되게 하는 영상처리부(123)와, 디먹스(121)로부터 출력되는 오디오신호를 오디오신호 프로세스에 따라서 처리함으로써 스피커(140)로부터 콘텐츠 오디오가 출력되게 하는 오디오처리부(125)를 포함한다.

디먹스(121)는 멀티플렉싱된 상태의 콘텐츠 신호 내의 각 패킷들을 PID에 따라서 구분함으로써, 콘텐츠 신호를 영상신호, 오디오신호, 부가데이터신호 등의 하위 신호들로 분류시킨다. 디먹스(121)는 분류된 하위 신호들 중에서, 영상신호는 영상처리부(123)로 출력하고, 오디오신호는 오디오처리부(125)로 출력한다. 다만, 모든 콘텐츠 신호가 디먹스(121)에 의해 분리되어야 하는 것은 아니며, 콘텐츠 신호가 영상신호 및 오디오신호로 각기 구분되어 디스플레이장치(100)에 제공되는 경우라면 디먹스(121)에 의한 디멀티플렉싱 처리가 불필요할 수 있다.

영상처리부(123)는 하드웨어 프로세서 칩으로 구현되며, 영상신호에 대해 디코딩, 영상강화, 스케일링 등의 영상처리 프로세스를 수행하고, 디스플레이부(130)에 출력한다. 영상처리부(123)는 설계 방식에 따라서 복수의 프로세서 칩의 조합을 포함할 수 있다.

오디오처리부(125)는 하드웨어 DSP로 구현되며, 오디오신호에 대해 채널 별 구분, 증폭, 볼륨 조정 등의 오디오처리 프로세스를 수행하고, 스피커(140)에 출력한다. 스피커(140)가 복수 개의 단위 스피커를 포함하는 경우에, 오디오처리부(125)는 오디오신호를 채널 별로 구분 및 처리하고, 처리된 채널 별 신호들을 개별 단위 스피커에 각기 출력한다.

디스플레이부(130)는 영상처리부(123)에 의해 처리되는 영상신호를 영상으로 표시한다. 디스플레이부(130)의 구현 방식은 한정되지 않으며, 액정 방식과 같은 수광 구조 또는 OLED 방식과 같은 자발광 구조의 표시패널을 포함할 수 있다. 또한, 디스플레이부(130)는 표시패널 이외에, 표시패널의 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 액정 방식인 경우에, 디스플레이부(130)는 액정 디스플레이 패널과, 액정 디스플레이 패널에 광을 공급하는 백라이트유닛과, 액정 디스플레이 패널을 구동시키는 패널구동기판 등을 포함한다.

스피커(140)는 신호처리부(120)에 의해 처리되는 오디오데이터를 오디오로 출력한다. 스피커(140)는 어느 한 오디오채널의 오디오데이터에 대응하게 마련된 단위 스피커를 포함하며, 복수 오디오채널의 오디오데이터에 각기 대응하도록 복수의 단위 스피커를 포함할 수 있다.

사용자입력부(150)는 사용자의 조작 또는 입력에 따라서 기 설정된 다양한 제어 커맨드 또는 정보를 제어부(170)에 전달한다. 즉, 사용자입력부(150)는 사용자의 의도에 따라서 사용자의 조작에 의해 발생하는 다양한 이벤트를 신호처리부(120)에 전달함으로써, 제어부(170)가 해당 이벤트에 대응하여 동작하도록 한다.

사용자입력부(150)는 정보의 입력방식에 따라서 다양한 형태로 구현될 수 있는 바, 예를 들면 사용자입력부(150)는 디스플레이장치(100) 외측에 설치된 키, 디스플레이부(130)에 설치된 터치스크린, 사용자의 발화가 입력되는 마이크로폰, 사용자의 제스쳐 등을 촬영 또는 감지하기 위한 카메라, 센서 등과 같은 디스플레이장치(100)에 설치된 사용자 인터페이스 환경을 포함한다. 리모트 컨트롤러 또한 사용자 인터페이스 환경의 한 가지 구성이라고 볼 수 있다. 다만, 리모트 컨트롤러는 디스플레이장치(100)의 본체와 분리된 구성이므로, 디스플레이장치(100) 본체에 마련된 별도의 제어신호 수신부를 통해 디스플레이장치(100)에 제어신호를 전송한다.

저장부(160)는 신호처리부(120) 및 제어부(170)의 처리 및 제어에 따라서 다양한 데이터가 저장된다. 저장부(160)는 신호처리부(120) 및 제어부(170)에 의해 억세스됨으로써, 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다. 저장부(160)는 디스플레이장치(100)의 시스템 전원의 제공 유무와 무관하게 데이터를 보존할 수 있도록 플래시메모리(flash-memory), 하드디스크 드라이브(hard-disc drive), SSD(solid-state drive) 등과 같은 비휘발성 메모리와, 신호처리부(120)에 의해 처리되는 데이터가 임시로 로딩되기 위한 버퍼, 램 등과 같은 휘발성 메모리를 포함한다.

제어부(170)는 CPU, 마이크로 프로세서 등으로 구현됨으로써, 신호처리부(120)를 비롯한 디스플레이장치(100) 내의 구성요소들의 동작을 제어한다.

이하, 영상처리부(123) 및 오디오처리부(125)가 영상신호 및 오디오신호를 각기 처리하는 구체적인 실시예에 관해 설명한다.

도 2는 본 발명의 실시예에 따른 디스플레이장치에서 영상처리부(200) 및 오디오처리부(300)의 개략적인 처리 구조를 나타내는 구성 블록도이다.

도 2에 도시된 바와 같이, 신호입력 인터페이스(410)를 통해 영상신호가 영상처리부(200)에 입력되고 오디오신호가 오디오처리부(300)에 입력된다. 신호입력 인터페이스(410)를 통해 입력되는 영상신호 및 오디오신호는 다양한 형태로 콘텐츠소스로부터 제공될 수 있다. 예를 들면, 신호입력 인터페이스(410)를 통해 제공되는 신호는, 셋탑박스로부터 HDMI 규격에 따라서 전송되거나, 네트워크를 통해 서버로부터 제공되거나, USB 메모리로부터 제공되거나, 무선장치로부터 블루투스 통신을 통해 제공될 수 있다. 또는, 영상을 촬영하고 있는 카메라로부터 촬영영상이 실시간으로 신호입력 인터페이스(410)를 통해 제공될 수도 있다.

사용자 입력 인터페이스(420)는 다양한 형태의 사용자 입력이 수신된다. 디스플레이장치가 TV와 같이 고정 설치된 형태에서 사용자 입력 인터페이스(420)를 통한 사용자 입력신호는, 리모트 컨트롤러의 버튼을 사용자가 누르는 동작에 대응하거나, 리모트 컨트롤러에 설치된 압력센서 또는 터치패드 등에 연동될 수 있다. 또는, 디스플레이장치가 휴대용 기기와 같이 사용자에 의해 휴대 가능한 형태에서 사용자 입력신호는, 디스플레이장치에 설치된 자이로센서 또는 가속도센서에 대응할 수 있다. 그 외에도, 사용자 입력신호는 카메라를 통해 촬영되는 사용자의 제스쳐에 대응하거나, 마이크로폰을 통해 입력되는 사용자의 오디오에 대응할 수 있다.

영상처리부(200)는 영상디코더(210)와, 영상분석부(220)와, 영상조정부(230)와, 화질개선부(240)를 포함한다. 또한, 오디오처리부(300)는 오디오디코더(310)와, 음향분석부(320)와, 음향조정부(330)와, 음질개선부(340)를 포함한다. 물론 상기한 구성요소들은 본 발명의 실시예와 관련있는 것들이므로, 영상처리부(200) 및 오디오처리부(300)가 실제로 구현될 때에는 상기한 구성요소들 이외의 구성요소들도 포함할 수 있다.

영상처리부(200) 및 오디오처리부(300)의 이와 같은 구성요소들은 하드웨어 칩셋으로 구현되거나, 프로그래밍 코드를 포함하는 소프트웨어로 구현되거나, 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다. 예를 들면, 영상처리부(200)가 프로세서 칩으로 구현되고, 상기한 구성요소들은 영상처리부(200)에 의해 처리되는 프로그램 코드일 수 있다.

영상처리부(200)의 영상처리 동작은 다음과 같다. 영상디코더(210)는 신호입력 인터페이스(410)로부터 입력되는 영상신호를 디코딩한다. 영상분석부(220)는 디코딩된 영상신호를 영상으로 표시하기 위해 필요한 영상신호의 여러 특성정보를 분석한다. 영상조정부(230)는 사용자 입력 인터페이스(420)로부터 수신되는 사용자 입력정보에 기초하여, 영상의 표시 상태가 조정되게 영상신호를 처리한다. 화질개선부(240)는 영상신호가 영상으로 표시될 때의 품질을 개선하기 위한 처리를 한다.

한편, 오디오처리부(300)의 오디오처리 동작은 다음과 같다. 오디오디코더(310)는 신호입력 인터페이스(410)로부터 입력되는 오디오신호를 디코딩한다. 음향분석부(320)는 디코딩된 오디오신호를 오디오로 출력하기 위해 필요한 오디오신호의 여러 특성정보를 분석한다. 음향조정부(330)는 영상조정부(230)에 의한 영상의 표시 상태 변화에 대응하여 오디오의 출력 상태가 조정되게 오디오신호를 처리한다. 음질개선부(340)는 오디오신호가 오디오로 출력될 때의 품질을 개선하기 위한 처리를 한다.

이와 같이, 영상조정부(230)가 사용자 입력 인터페이스(420)로부터의 사용자 입력신호에 응답하여 영상의 표시상태가 조정되게 처리하면, 즉 디스플레이부에 대한 영상의 표시 시점이 조정되게 처리하면, 음질개선부(340)는 이러한 영상의 표시상태 조정에 대응하여 오디오의 출력상태가 조정되게 처리한다. 이하, 콘텐츠 신호가 360도 카메라에 의해 촬영된 360도 영상, 즉 광각영상 콘텐츠인 경우에 본 발명의 실시예가 적용되는 형태에 관해 설명한다.

사용자 입력 인터페이스(420)로부터 영상조정부(230)에 전달되는 사용자 입력신호의 패러미터는, 영상에 대한 사용자의 시점(viewpoint) 좌표, 영상의 화각, 영상에 대한 줌 깊이 등을 포함할 수 있다. 영상조정부(230)는 이와 같은 패러미터에 대응하여 영상의 표시상태를 조정하고, 조정 결과에 관한 정보를 음향조정부(330)에 전달한다. 여기서, 영상조정부(230)로부터 음향조정부(330)에 전달되는 정보는, 현재 영상출력모드에 관한 정보, 콘텐츠제공자가 의도하는 시청 정보 등을 더 포함할 수 있다.

영상출력모드는 영상이 현재 디스플레이부에 어떠한 방식으로 표시되고 있는지를 나타낸다. 영상출력모드는 여러 가지 방식이 있으며, 예를 들면 360도 영상모드, 파노라마 모드, 멀티뷰 모드 등이 있다. 360도 영상모드는 카메라에 의해 촬영된 전체영상 중에서 일부 영역이 디스플레이부에 표시되는 상태이다. 사용자가 전체영상에 대한 시점을 조정하면, 전체영상이 패닝(panning)됨으로써 전체영상 중 타 영역이 디스플레이부에 표시된다. 파노라마 모드는 예를 들면 360도 전방향으로 촬영한 영상을 평면으로 펼치고, 펼쳐진 상태의 영상이 디스플레이부에 표시되는 상태이다. 멀티뷰 모드는 디스플레이부의 표시영역이 몇 개의 영역으로 분할되고, 복수 개의 영상이 각 분할영역에 표시되는 상태이다.

콘텐츠제공자가 의도하는 시청 정보의 예시로는, 특정 정보가 콘텐츠의 특정 시점에 표시되는 경우가 있다. 이 경우에, 시청 정보는 시간 함수로 존재하며, 콘텐츠 내에 메타데이터의 형태로 포함된다.

음향조정부(330)는 기본적으로 스피커 출력 레이아웃 정보를 취득하며, 이에 기초하여 채널 별 오디오신호를 각 채널단위 스피커에 출력한다. 스피커 출력 레이아웃 정보는 디스플레이장치에 설치되어 있는 단위 스피커의 채널 정보, 스피커의 특성 정보 등을 포함한다. 여기서, 음향조정부(330)는 영상조정부(230)로부터의 정보가 수신되면, 해당 정보에 기초하여 스피커를 통한 오디오의 출력상태를 조정한다.

영상조정부(230)가 영상의 표시상태를 조정하고 음향조정부(330)가 오디오의 출력상태를 조정하는, 각각의 구체적인 예시에 관해서는 후술한다.

한편, 앞선 설명에서는 사용자 입력 인터페이스(420)로부터의 사용자 입력신호가 영상조정부(230)에 전달되고, 영상조정부(230)로부터의 영상처리 정보가 음향조정부(330)에 전달됨으로써 음향조정부(330)가 영상처리 정보의 대응 처리를 수행하는 것으로 표현하였다. 그러나, 이는 디스플레이장치의 구현 방식의 하나의 예시일 뿐이며, 사용자 입력 인터페이스(420)로부터의 사용자 입력신호가 영상조정부(230) 및 음향조정부(330) 각각에 전달되고, 음향조정부(330)가 사용자 입력신호의 대응 처리를 수행하는 구성도 가능하다.

또한, 사용자 입력 인터페이스(420)로부터의 사용자 입력신호 뿐만 아니라, 콘텐츠 제공자가 의도하는 시청 정보가 존재할 수도 있다. 이러한 시청 정보는 콘텐츠의 영상을 표시하고 콘텐츠의 오디오를 출력함에 있어서, 최적의 상태로 사용자에게 제공될 수 있도록 사전에 마련된 정보로서, 예를 들면 영상에 대한 시점 또는 영상의 줌 깊이, 오디오의 볼륨 또는 주파수 별 증폭 레벨 등의 정보를 지정한다. 시청 정보는 영상조정부(230)에 전달된 이후에 영상조정부(230)로부터 음향조정부(330)로 다시 전달되거나, 또는 영상조정부(230) 및 음향조정부(330)에 각기 전달될 수 있다. 이로써, 디스플레이장치는 해당 시청 정보에 따라서 영상 및 오디오를 제공할 수 있다.

이와 같은 시청 정보는 콘텐츠소스로부터 제공되는 콘텐츠신호 내에 영상신호 및 오디오신호와 함께 메타데이터 또는 부가데이터의 형태로 존재하는 바, 디멀티플렉싱에 의해 콘텐츠신호로부터 추출될 수 있다. 또한, 시청 정보는 콘텐츠신호 내에 시간의 함수로서 존재하는데, 이에 의하여 디스플레이장치는 영상이 표시되는 동안에 각 시청 정보가 어느 시점에 적용되어야 하는지 판단할 수 있다.

영상처리부(200)에서 출력되는 영상신호는 디스플레이부로 전달되며, 오디오처리부(300)에서 출력되는 오디오신호는 스피커로 출력된다. 여기서, 영상처리부(200) 및 오디오처리부(300) 각각의 처리 동작은 디스플레이장치의 시스템 클럭에 따라서 수행된다. 디스플레이부에서 표시되는 영상 및 스피커로부터 출력되는 오디오의 동기를 맞추기 위해, 디스플레이장치는 시스템 클럭에 따라서 영상처리부(200)에서 출력되는 영상신호 및 오디오처리부(300)에서 출력되는 오디오신호 사이의 동기를 맞추는 동기부 등의 구성요소를 더 포함할 수 있다.

이와 같이, 디스플레이장치는 시점, 화각, 줌 깊이 등의 변화와 같은 사용자 요구에 대응하여 영상 및 오디오를 연동시켜 재생시킬 수 있는 바, 보다 현장감이 높은 시청환경을 제공할 수 있다.

그런데, 이와 같이 음향조정부(330)가 영상조정부(230)로부터 전달되는 영상처리 정보에 대응하여 오디오를 처리함에 있어서, 특정 음향특성의 조건을 만족하면 오디오의 출력상태를 조정하고 그렇지 않으면 오디오의 출력상태를 조정하지 않는 프로세스를 추가적으로 수행할 수도 있다. 이와 같은 프로세스는 음향분석부(320)가 수행하는 바, 즉 음향분석부(320)가 해당 조건을 만족한다고 판단하면 음향조정부(330)는 영상의 표시상태 변화에 대응하여 오디오의 출력상태를 조정하며, 음향분석부(320)가 해당 조건을 만족하지 않는다고 판단하면 음향조정부(330)는 영상의 표시상태가 변화하였다고 하더라도 오디오의 출력상태를 조정하지 않는다.

이와 같은 프로세스의 한 가지 예시로서, 음향분석부(320)는 오디오신호가 현장녹음(Live recording)인지 여부를 판단할 수 있다. 음향분석부(320)에 의해 오디오신호가 현장녹음이라고 판단되면, 음향조정부(330)는 영상의 표시상태 변화에 대응하여 오디오의 출력상태를 조정한다. 반면, 음향분석부(320)에 의해 오디오신호가 현장녹음이 아니라고 판단되면, 즉 오디오신호가 믹싱된 것으로 판단되면, 음향조정부(330)는 영상의 표시상태가 변화하였다고 하더라도 오디오의 출력상태를 조정하지 않는다.

카메라에 의해 소정의 대상 또는 환경을 촬영함으로써 콘텐츠 영상을 생성할 때에, 하나 이상의 마이크로폰으로 카메라의 촬영과 동시에 해당 대상 또는 환경으로부터의 오디오를 수집하여 콘텐츠 오디오를 생성할 수 있다. 이와 같이 생성되는 콘텐츠 오디오는 콘텐츠 영상과 동일하게 촬영대상 또는 촬영환경의 변화를 반영하므로, 콘텐츠 오디오가 콘텐츠 영상에 대응한다. 이와 같이 콘텐츠 오디오를 생성하는 방식을 현장녹음이라고 지칭한다.

현장녹음에 대비되는 방식은 믹싱 또는 마스터링 방식과 같은 후처리 녹음이 있다. 믹싱 방식은 두 가지 형태가 가능한데, 한 가지는 콘텐츠 제공자가 현장녹음 방식으로 생성된 오디오신호를, 예를 들어 촬영대상 별로 볼륨 등의 오디오특성을 인위적으로 조정하는 형태가 있다. 이러한 예시로는 음악 콘서트 콘텐츠에서 관객의 목소리의 볼륨을 줄이고 가수의 목소리의 볼륨을 높이는 경우가 있다.

또 한 가지는, 콘텐츠 제공자가 현장녹음 방식으로 생성된 오디오신호에 이와 상이한 별도 녹음된 오디오신호를 추가시키거나, 또는 현장녹음 방식으로 생성된 오디오신호 대신에 별도 녹음된 오디오신호를 콘텐츠에 적용하는 형태가 있다. 이러한 예시로는 다큐멘터리 콘텐츠에 나레이션 및 배경음악을 삽입하는 경우가 있다.

오디오신호가 현장녹음인 경우에는, 콘텐츠 오디오가 콘텐츠 영상과 마찬가지로 촬영환경에 대응하게 마련된다. 따라서, 이러한 경우에 디스플레이장치는 사용자 입력에 대응하여 콘텐츠 오디오의 출력상태를 조정함으로써 사용자에게 보다 개선된 현장감을 제공할 수 있다.

그러나, 오디오신호가 현장녹음이 아닌 경우에는, 콘텐츠 영상은 촬영환경에 대응하게 마련되는 반면에, 콘텐츠 오디오는 촬영환경에 대응하게 마련되지 않을 수 있다. 이러한 경우에 사용자 입력에 대응하여 콘텐츠 오디오의 출력상태를 조정하게 되면, 콘텐츠를 제공하는 콘텐츠 제공자가 의도한 음향 효과를 손상시킬 가능성이 높다. 따라서, 이러한 경우에 디스플레이장치는 사용자 입력이 수신되더라도, 콘텐츠 오디오의 출력상태를 조정하지 않는다.

이로써, 디스플레이장치는 콘텐츠 오디오의 특성에 따라서 보다 발전된 음향 환경을 사용자에게 제공할 수 있다.

이하, 본 발명의 실시예에 따른 디스플레이장치의 제어방법에 관해 설명한다.

도 3은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호를 처리하는 방법을 나타내는 플로우차트이다.

도 3에 도시된 바와 같이, S110 단계에서 디스플레이장치는 콘텐츠 신호를 수신한다. 디스플레이장치는 수신되는 콘텐츠 신호로부터 영상신호 및 오디오신호를 구분하여 각각을 처리한다.

S120 단계에서 디스플레이장치는 영상 조정을 지시하는 사용자 입력을 수신한다.

S130 단계에서 디스플레이장치는 사용자 입력에 대응하여 영상의 표시상태를 조정한다.

S140 단계에서 디스플레이장치는 오디오신호가 현장녹음으로 생성된 것인지 여부를 판단한다.

오디오신호가 현장녹음인 것으로 판단되면, S150 단계에서 디스플레이장치는 영상의 표시상태 조정에 대응하여 오디오의 출력상태를 조정한다.

반면, 오디오신호가 현장녹음이 아닌 것으로 판단되면, S160 단계에서 디스플레이장치는 오디오의 출력상태를 조정하지 않고 원래 상태를 유지한다.

이하, 영상의 표시상태 및 오디오의 출력상태를 조정하는 구체적인 예시에 관해 설명한다.

도 4는 본 발명의 실시예에 따른 디스플레이장치에 표시되는 광각영상 콘텐츠의 전체영상(510)을 나타내는 예시도이다.

도 4에 도시된 바와 같이, 360도 카메라와 같은 광각 카메라는 소정 대상을 촬영함에 있어서, 일반적인 디스플레이장치의 디스플레이부에 실제로 표시되는 크기보다 큰 영역의 전체영상(510)을 생성할 수 있다. 전체영상(510)의 크기 및 해상도는 카메라의 특성에 따라서 달라지는 값이므로 구체적인 수치에 의해 한정되지 않는다.

전체영상(510) 중에서 제1위치(521)가 디폴트로 결정되고, 제1위치(521)를 중심으로 하는 제1영역(520)이 디스플레이부에 디폴트로 표시되는 전체영상(510) 중에서 디스플레이부에 표시되는 영역이 된다. 특별한 사용자 입력이 없다면, 디스플레이장치는 기본적으로 전체영상(510) 중에서 제1영역(520)을 표시한다.

여기서, 만일 사용자의 시선이 제1위치(521)로부터 좌측 및 상측으로 이동하는 것을 나타내는 사용자 입력이 발생하는 경우를 고려한다. 사용자 입력은 전체영상(510)에서 사용자의 시선이 제1위치(521)에서 제2위치(531)로 이동하는 것을 지시한다. 디스플레이장치는 사용자 입력에 응답하여, 제1영역(520) 대신에 제2위치(531)를 중심으로 하는 제2영역(530)을 표시한다. 전체영상(510)의 측면에서 볼 때에 현재 표시되는 영역이 제1영역(520)으로부터 제2영역(530)으로 이동하는 것이므로, 이러한 동작을 영상의 패닝이라고 지칭한다.

또한, 사용자의 시선이 제1위치(521)로부터 우측으로 이동하는 것을 나타내는 사용자 입력이 발생할 수도 있다. 이 경우의 사용자 입력은 전체영상(510)에서 사용자의 시선이 제1위치(521)에서 제3위치(541)로 이동하는 것을 지시한다. 이에, 디스플레이장치는 제1영역(520) 대신에 제3위치(541)를 중심으로 하는 제3영역(540)을 표시한다.

사용자 입력은 다양한 인터페이스를 통해 수행될 수 있다. 만일 디스플레이장치가 TV와 같이 고정 설치된 형태라면, 사용자 입력은 리모트 컨트롤러의 버튼 조작 또는 터치패드 조작을 통해 수행될 수 있다. 또는, 디스플레이장치가 모바일 기기와 같이 사용자가 휴대할 수 있는 형태라면, 사용자 입력은 디스플레이장치 내에 설치된 자이로센서 또는 가속도센서를 통해 수행될 수 있다.

이와 같이, 디스플레이장치는 사용자 시선 변화에 대응하여 영상의 표시상태를 조정할 수 있다.

도 5는 본 발명의 실시예에 따른 디스플레이장치에 소정 오브젝트(611)를 포함한 영상(610)이 표시되는 모습을 나타내는 예시도이다.

도 5에 도시된 바와 같이, 디스플레이장치는 소정 시각 t(0)에 일 오브젝트(611)를 포함하는 영상(610)을 표시한다. 본 영상(610)은 앞선 도 4에서 설명한 바와 같은 광각영상에서 일부 영역이 디스플레이부에 표시되는 모습을 나타낸다. 현 시각에서 사용자의 시점(620)인 φ(0)은 0도이고, 사용자는 오브젝트(611)를 정면으로 보고 있는 상태이다.

이러한 경우에, 디스플레이장치는 사용자의 정면에 오브젝트(611)가 위치하는 상태를 반영하여 오디오를 출력한다. 예를 들면, 디스플레이장치는 스테레오 채널로 오디오를 출력하는 경우에, 오디오신호 내에서 오브젝트(611)에 대응하는 오디오성분의 L 채널 및 R 채널 각각의 출력 파워를 상호 균형적으로 출력할 수 있다.

이와 같은 상태에서, 사용자의 시점(620)이 0도에서 반시계방향으로 30도 회전하는 경우, 즉 시각 t(0)에서의 φ(0)이 0도인 상태에서, 시각 t(1)에서의 φ(1)이 30도로 변화하는 경우를 고려한다. 이는 사용자의 시점이 오브젝트(611)의 좌측으로 이동한다는 것을 뜻하므로, 상대적으로 오브젝트(611)는 사용자를 기준으로 볼 때에 우측, 즉 A 방향으로 이동하는 것처럼 나타난다.

도 6은 도 5의 상태로부터 사용자의 시점이 반시계방향으로 30도 이동하였을 때에 변화하는 영상(630)을 나타내는 예시도이다.

도 6에 도시된 바와 같이, 시각 t(1)에서 사용자 시점(640) φ(1)이 30도가 되면, 디스플레이장치는 전체영상을 패닝함으로써 사용자 시점(640)에 대응하는 영상(630)을 표시한다. 본 영상(630)을 도 5의 경우와 비교하면, 오브젝트(611)가 중앙으로부터 우측으로 이동한 것처럼 나타난다.

만일 사용자 시점(640)의 변화에 대응하여 이와 같이 영상(630)이 변화한 상태에서 오디오출력을 그대로 두는 경우를 고려한다. 이 경우에, 오브젝트(611)가 사용자 시점(640)에서 우측에 있음에도 불구하고, 사용자는 오브젝트(611)로부터의 오디오가 사용자의 정면으로부터 들려오는 것처럼 느낄 것이다. 이는 사용자 입장에서는 영상 및 오디오의 불일치를 초래한다.

이에, 디스플레이장치는 영상(630)의 표시상태 변화에 대응하여 오디오의 출력상태를 조정한다. 본 실시예의 경우에, 디스플레이장치는 오브젝트(611)가 사용자 시점(640)의 우측으로 이동한 상태에 대응하여, 오브젝트(611)로부터의 오디오가 사용자 시점(640)의 우측으로부터 사용자에게 전달되도록 출력한다. 예를 들면, 디스플레이장치는 오디오신호 중 오브젝트(611)의 오디오성분에 있어서 L 채널의 출력 파워에 비해 R 채널의 출력 파워가 높아지도록 조정할 수 있다.

이와 같이, 디스플레이장치는 사용자의 시점 변화에 대응하여 영상의 표시상태 및 오디오의 출력상태를 각각 조정할 수 있다.

도 7은 본 실시예에 따른 디스플레이장치가 복수의 오브젝트(651, 652)를 포함한 영상(650)을 표시하는 모습을 나타내는 예시도이다.

도 7에 도시된 바와 같이, 디스플레이장치는 복수의 오브젝트(651, 652)를 포함한 영상(650)을 표시한다. 예를 들어, 영상(650) 내에 제1오브젝트(651) 및 제2오브젝트(652)가 있을 때, 제1오브젝트(651)는 사용자 시점(660) 상에 위치하고, 제2오브젝트(652)는 사용자 시점(660)으로부터 우측에 위치한다.

또한, 제1오브젝트(651) 및 제2오브젝트(652) 각각으로부터 오디오가 출력되며, 위치 상 제2오브젝트(652)의 오디오가 제1오브젝트(651)의 오디오에 비해 크게 출력된다. 제2오브젝트(652)가 사용자 시점(660)의 축선에 상대적으로 멀리 떨어지지 않으면서도 제1오브젝트(651)보다 사용자 시점(660)에 근접하게 위치하면, 제2오브젝트(652)의 오디오가 제1오브젝트(651)의 오디오보다 클 수 있다.

이와 같은 상태에서, 앞선 실시예처럼 사용자 시점이 변화할 수도 있지만, 사용자의 시점이 그대로 유지되고 줌 깊이만 조정되는 것도 가능하다. 시각 t(0)의 줌 깊이 D(0)가 0%일 때, 사용자 입력은 줌 깊이를 보다 증가시킴으로써 현재 영상을 보다 확대시켜 표시되도록 지시할 수 있다.

도 8은 도 7의 상태로부터 줌 깊이를 증가시켰을 때에 변화하는 영상(670)을 나타내는 예시도이다.

도 8에 도시된 바와 같이, 디스플레이장치는 시각 t(0)이 t(1)로 경과함에 따라서 줌 깊이가 D(1)=90%로 증가하면, 지시되는 줌 깊이에 대응하여 제1오브젝트(651)를 중심으로 확대된 영상(670)을 표시한다. 앞선 도 7의 경우와 비교할 때, 사용자 시점(660)은 변화하지 않았으므로 영상(670)의 중심에는 제1오브젝트(651)가 위치하고 영상(670)의 우측에는 제2오브젝트(652)가 위치한다.

디스플레이장치는 이와 같은 영상(670)의 표시상태 조정에 대응하여, 오디오 출력을 조정한다. 구체적으로, 사용자 시점(660) 상의 제1오브젝트(651)가 보다 근접하게 되는 바, 디스플레이장치는 오디오신호 중에서 제1오브젝트(651)의 오디오성분의 출력 파워를 높이고 그 외의 제2오브젝트(652)의 오디오성분의 출력 파워를 낮춤으로써, 제1오브젝트(651)의 오디오의 명료도를 증가시킨다.

한편, 앞선 실시예에서 설명한 바와 같이, 디스플레이장치는 오디오신호가 현장녹음이라고 판단하면 영상의 표시상태 변화에 대응하여 오디오의 출력상태를 조정하고, 오디오신호가 현장녹음이 아니라고 판단하면 영상의 표시상태가 변화하더라도 오디오의 출력상태를 조정하지 않는다. 여기서, 디스플레이장치는 오디오의 출력상태가 조정되는 경우에는 음질개선부(340, 도 2 참조)에 의한 음질개선 프로세스를 수행하고, 오디오의 출력상태를 조정하지 않는 경우에는 기 설정된 공간 필터링을 수행할 수 있다.

공간 필터링은 오디오신호에 대해 여러 가지 형태의 추가적인 이펙트를 부여하는 것으로서, 예를 들면 Decorrelation, Stereo Widening, Distance Filter, Reverberation/De-reverberation 등의 다양한 프로세스가 적용될 수 있다.

디스플레이장치가 오디오신호를 처리하고 오디오를 출력함에 있어서, 여러 가지정보 또는 패러미터가 참조될 수 있다. 오디오신호를 처리하기 위해 필요한 정보로는 nChannels, chPCM, chType, nMics, micPositions, micType 등이 있다.

여기서, nChannels은 스테레오, 3.1, 5.1 등과 같은 오디오채널의 수를 나타낸다. chPCM은 오디오채널의 Raw 데이터를 나타낸다. chType은 오디오신호 내에서 오브젝트의 음원을 판별하기 위한 오디오성분의 식별값이다. nMics는 오디오를 수집할 때에 사용된 마이크로폰의 타입을 나타내는 바, 예를 들면 무지향성 마이크로폰, 지향성 마이크로폰 등이 있다. micPositions은 마이크로폰이 어레이로 구현되는 경우에, 어레이 내에서 각 마이크로폰 사이의 간격 등을 포함한 마이크로폰 간 절대위치 또는 상대위치를 나타낸다. 그 외에도 오디오의 출력 또는 조정에 필요한 정보 및 파라미터들이 추가로 사용될 수 있다.

한편, 디스플레이장치는 오디오출력 상태를 조정하기 위해, 다양한 정보를 참조할 수 있다. 이러한 정보의 예로는 panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV, userZoomDepth, userOrientation 등이 있다. 이들 정보는 대체적으로 영상표시 상태의 변화를 반영하여 영상조정부(230, 도 2 참조)로부터 음향조정부(330, 도 2 참조)로 전달되는 값이지만, 사용자 입력 인터페이스(420, 도 2 참조)로부터 전달될 수도 있다.

여기서, panoramaFlag는 영상출력모드가 파노라마 모드인지 여부를 나타낸다. 디스플레이장치는 panoramaFlag=0이라면 오디오신호에 대해 좌우 음상 제어가 아닌 상하 음상의 고도감 제어 기능만 적용하는 반면, panoramaFlag=1이라면 좌우 음상 제어 및 상하 음상 제어 기능을 모두 적용한다. 이는 파노라마 모드가 좌우가 확장된 영상 출력하는 모드이기 때문이다.

multiviewFlag는 영상출력모드가 멀티뷰 모드인지 여부를 나타낸다. 디스플레이장치는 multiviewFlag=0일 때에는 한 화면에 여러 시점의 영상을 동시에 표시하며, 이 때에는 음향조정부(330, 도 2 참조)를 동작시키지 않고 오디오신호를 그대로 오디오처리부로부터 출력한다. 예를 들어, 한 화면에 표시되는 멀티뷰의 수가 N개이고 사용자가 n번째 화면을 선택하였다면, multiviewFlag=n이 된다. 이 경우에, 디스플레이장치는 n번째 화면의 사용자 시점에 맞게 음향조정부(330, 도 2 참조)를를 동작시킨 후, 오디오신호를 조정한다.

screenwidth 및 screenHeight는 디스플레이부의 물리적인 크기를 나타낸다. horiFOV 및 vertFOV는 표시되는 영상의 수평방향 및 고도방향의 Field of View를 나타낸다. 만일 screenwidth 및 screenHeight가 horiFOV 및 vertFOV보다 매우 크다면 줌 깊이가 커지는 경우로 판단되는 바, 디스플레이장치는 사용자 시점에 대응하는 오브젝트의 오디오의 출력 파워를 높이고, 그 주위의 오브젝트 또는 환경의 오디오의 출력 파워를 낮추도록 동작할 수 있다. 반면, horiFOV 및 vertFOV가 상대적으로 매우 커진다면 현재 파노라마 모드인 것으로 판단되는 바, 디스플레이장치는 상기 설명한 파노라마 모드에 대응되는 음향 조정을 수행할 수 있다.

userZoomDepth는 앞서 설명한 바와 같이 줌 깊이가 커지는 경우에, 영상의 일부분을 확대하여 볼 때 느껴지는 음향효과를 적용하여야 한다. 예를 들면, 디스플레이장치는 사용자 시점에 대응하는 오브젝트의 존재 여부를 판단하고, 해당 오브젝트의 오디오를 증폭시켜주는 처리를 수행할 수 있다. 사용자가 시청하는 영상 시점, 즉 Orientation 정보가 변화할 때, 디스플레이장치는 이를 역보상하여 음상의 위치를 조정할 수 있다.

이상 설명한 파라미터 외 추가 요소들도 음향의 조정에 사용될 수 있다.

이상의 정보 중에서 nChannels 및 chPCM은 일반적으로 오디오의 디코딩 이후에 취득되는 데이터며, chType, nMics, micPositions, micType는 음향 분석을 위해 필요한 패러미터이다. 한편, panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV, userZoomDepth, userOrientation는 오디오신호 입력 시에 전달되는 패러미터가 아닌, 영상처리부 또는 사용자 입력에 의해 전달되는 패러미터이다. panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV는 영상처리부로부터 입력되는 값이며, userZoomDepth, userOrientation는 사용자 입력에 의해 전달되는 값이다. 또는, 이상의 정보는 오디오신호와 함께 입력되거나, UI를 통해 입력됨으로써 영상신호의 메타데이터와 동일 경로를 통해 전달될 수도 있다.

한편, 앞선 실시예에서는 디스플레이장치가 오디오신호의 현장녹음 여부를 판단한다고 설명하였는데, 현장녹음 여부를 판단하는 구체적인 방법은 여러 가지가 가능한 바, 이하 이러한 실시예에 관해 설명한다.

도 9는 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 일 과정을 나타내는 플로우차트이다.

도 9에 도시된 바와 같이, S210 단계에서 디스플레이장치는 스테레오 채널 오디오신호를 취득한다.

S220 단계에서 디스플레이장치는 오디오신호로부터 좌측(L) 채널, 우측(R) 채널, 센터(C) 채널을 분리한다. 센터 채널은 오디오신호에서 좌측채널 및 우측채널에 공통적으로 포함되는 오디오성분이다.

S230 단계에서 디스플레이장치는 Correlated 신호 및 Ambient 신호의 출력파워 비율을 산출한다. 여기서, Correlated 신호는 센터채널의 오디오성분이다. Ambient 신호는 좌측채널의 오디오성분으로부터 센터채널의 오디오성분을 뺀 오디오성분이거나, 또는 우측채널의 오디오성분으로부터 센터채널의 오디오성분을 뺀 오디오성분을 지칭한다.

Correlated 신호 및 Ambient 신호의 출력파워 비율 Γ는 여러 가지 형태로 표현할 수 있는데, 한 가지 예시로는 다음과 같은 수학식으로 나타낼 수 있다.

[수학식]

Γ=20*log₁₀[(Σ_n｜L'[n])/(Σ_n｜C'[n])]

L은 좌측채널, C는 센터채널을 의미한다. 위 수학식은 L 대신 R로 대체하여 사용될 수도 있다.

S240 단계에서 디스플레이장치는 Correlated 신호 및 Ambient 신호의 출력파워 비율 Γ이 기 설정된 문턱값 Γ_th보다 큰지 여부를 판단한다.

Γ>Γ_th라고 판단되면, S250단계에서 디스플레이장치는 오디오신호가 현장녹음인 것으로 판단한다. 반면, Γ≤Γ_th라고 판단되면, S260 단계에서 디스플레이장치는 오디오신호가 현장녹음이 아니라고 판단한다.

스튜디오에서 오디오가 믹싱된 경우가 아닌, 실제 공간에서 마이크로폰 어레이를 사용하여 현장녹음이 된 경우에는, 오디오가 수집된 환경에 대한 잔향 및 노이즈에 의한 영향이 각각 마이크로폰에 의해 수집된다. 만일 콘텐츠 제공자가 전처리 등을 통해 노이즈 제거가 수행되지 않은 경우라면, 이러한 잔향 및 노이즈 영향이 오디오채널에 포함된다. 따라서, 디스플레이장치는 Correlated 신호 대비 Ambient 신호 파워 비율을 추정함으로써 현장녹음 여부를 판별할 수 있다.

도 10은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 다른 과정을 나타내는 플로우차트이다.

도 10에 도시된 바와 같이, S310 단계에서 디스플레이장치는 스테레오 채널 오디오신호를 취득한다.

S320 단계에서 디스플레이장치는 오디오신호로부터 L채널 및 R채널을 분리한다.

S330 단계에서 디스플레이장치는 채널간 레벨차이(Inter-channel Level Difference, ICLD) σ를 산출한다. 스튜디오에서 오디오 믹싱에 자주 사용되는 기술로서, L/R 신호에 동일한 신호를 Amplitude Panning하는 기술이 적용된다. 이러한 믹싱 방식의 유무를 판별함으로써 오디오신호가 현장녹음이 아니라는 것이 역으로 추정될 수 있다. 예를 들면, 일 시구간의 영상 내에서 오브젝트의 오디오의 L채널 및 R채널 사이의 파워 편차가 상대적으로 크다는 것은 오디오신호가 현장녹음일 확률이 높다는 것을 뜻하고, 오브젝트의 오디오의 L채널 및 R채널 사이의 파워 편차가 미비하다는 것은 오디오신호가 믹싱된 것일 확률이 높다는 것을 뜻한다. 이러한 원리에 따라서, L/R 채널간 전달함수를 기초로 하여, 시간-주파수 영역 또는 시간, 주파수 각각의 독립적인 축을 기준으로 ICLD가 산출될 수 있다.

S340 단계에서 디스플레이장치는 ICLD 값 σ이 기 설정된 문턱값 σ_th보다 큰지 여부를 판단한다.

σ>σ_th라고 판단되면, S350 단계에서 디스플레이장치는 오디오신호가 현장녹음이라고 판단한다. 반면, σ≤σ_th라고 판단되면, S360 단계에서 디스플레이장치는 오디오신호가 현장녹음이 아니라고 판단한다.

또는, 디스플레이장치는 오디오신호가 듀얼 모노(Dual Mono)인지 여부에 따라서 현장녹음 여부를 판단할 수도 있다. 듀얼 모노는 예를 들면 오디오신호의 좌측채널의 오디오성분 및 우측채널의 오디오성분이 상호 동일하거나 유사도가 높은 경우를 나타낸다. 듀얼 모노는 믹싱 방식의 경우에 나타날 수 있는 형태이며, 현장녹음의 경우에는 잘 나타나지 않는다. 이에, 디스플레이장치는 오디오신호가 듀얼 모노이면 현장녹음이 아니라고 판단하고, 오디오신호가 듀얼 모노가 아니면 현장녹음이라고 판단한다.

이와 같은 방법에 따라서, 디스플레이장치는 오디오신호의 현장녹음 여부를 용이하게 판단할 수 있다.

이하, 디스플레이장치의 음향조정부가 음향을 조정하는 구체적인 과정에 관해 설명한다.

도 11은 본 발명의 실시예에 따른 디스플레이장치에 적용되는 음향조정부(700)의 구성 블록도이다.

도 11에 도시된 바와 같이, 사용자 입력에 따른 패러미터, 예를 들면 사용자 시점, 화각, 줌 깊이 등에 의해 영상 및 오디오가 조정되어야 하는 바, 음향조정부(700)는 오디오신호를 처리함으로써 오디오의 출력상태를 조정한다.

오디오신호의 각 채널 데이터는 가상 마이크로폰 신호 생성부(710) 및 음원 방향 감지부(720)에 입력된다.

가상 마이크로폰 신호 생성부(710)는 오디오신호의 오디오성분들 중에서 방향성이 있는 성분과 방향성이 없는 성분을 분리하도록 Channel Separation, Ambience Extraction, 또는 Center Channel Separation 기능이 수행될 수 있다. 또는 가상 마이크로폰 신호 생성부(710)는 M-Nch Format Converter (M<N)가 적용되거나 또는Decorrelation을 통하여, 오디오신호의 실제 채널보다 많은 수의 채널로 변환시키는 up-mix 등을 수행할 수 있다.

음원 방향 감지부(720)는 영상 내에서 각기 음원이 되는 오브젝트들이 있을 때, 각 오브젝트의 방향 정보를 취득한다. 오브젝트의 방향 정보는 ICTD(Inter-channel time difference)를 측정함으로써 취득될 수 있다. ICTD는 주파수 도메인 상에서 오디오신호의 각 주파수 bin별 phase의 slope 연산을 통하거나, 또는 GCC(Generalized Cross Correlation) 중 PHAT-GCC(PHAse-Transform)와 같은 기법의 Peak 위치에 해당되는 time sample의 계산을 통하거나, 그 외에도 Zero-crossing 연산 등을 통해 추정될 수 있다.

인터랙티브 신호 생성부(730)는 음원의 방향 정보, 가상 마이크로폰 신호, 변경된 사용자의 시점 정보를 이용하여, 출력 스피커 레이아웃에 맞게 현 시점에서 시청자에게 전달되어야 할 음상을 재현할 수 있는 오디오 정보를 생성한다.

이 때, 현장 녹음된 오디오 신호를 대상으로 하는 경우, 음원방향 감지부(720)를 통해 음원의 방향(φ_s)을 추정할 수 있다. 현장 녹음이 아닌 스튜디오에서 믹싱 또는 마스터링된 음원을 대상으로 하는 경우엔 φ_s를 0도, 즉 정면으로 가정하여 인터랙티브 신호 생성부(730)를 적용할 수도 있다. 사용자의 시점 정보(φ_v)는 사용자 인터페이스를 통해 측정이 가능하다. 인터랙티브 신호 생성부(730)에서는 최종적으로 가상 마이크로폰 신호 생성부(710)에서 수신받은 오디오 데이터 중 방향성이 있는 오디오 성분 혹은 센터 채널로 분리된 성분에 대해서는 (φ_s-φ_v) 방향에 위치시키는 패닝 계수를 적용하고, ambient 성분 등과 같은 그 외 성분에 대해서는 패닝 계수를 적용하지 않는 방안이 가능하다. 이 때, 패닝계수는 출력 스피커레이아웃 정보에 기반하여 Vector-based Amplitude Panning/Phase Panning 등의 기법을 통해 생성될 수 있다.

한편, 사용자 입력이 줌 깊이 변화를 지시하는 경우에, 음향조정부(700)는 음원 방향 감지부(720)에 의해 감지된 오브젝트의 방향과, 사용자가 줌 깊이를 변화시킨 시점을 비교함으로써, 줌 위치에 오브젝트가 위치하는지 여부를 판단할 수 있다. 오브젝트의 방향과 줌 방향이 일치하면, 음향조정부(700)는 해당 오브젝트의 오디오성분을 증폭시키는 한편 그 외의 Ambient 신호의 파워는 좌우로 패닝하거나 저감시키는 동작을 수행함으로써, 줌 효과를 제공할 수 있다.

이와 같이, 본 실시예에 따른 디스플레이장치는 시점, 화각, 줌 깊이 등과 같이 사용자가 원하는 시청 조건에 대응하게 영상 및 오디오를 연동시켜 사용자에게 실시간으로 전달하는 바, 보다 고실감의 시청환경을 사용자에게 제공할 수 있다.

본 발명의 예시적 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이러한 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 매체는 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 이동 단말 내에 포함될 수 있는 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 본 저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어의 기술 분야에서 숙련된 기술자에게 공지되어 사용 가능한 것일 수도 있다.

상기한 실시예는 예시적인 것에 불과한 것으로, 당해 기술 분야의 통상의 지식을 가진 자라면 다양한 변형 및 균등한 타 실시예가 가능하다. 따라서, 본 발명의 진정한 기술적 보호범위는 하기의 특허청구범위에 기재된 발명의 기술적 사상에 의해 정해져야 할 것이다.

Claims

디스플레이장치에 있어서,

디스플레이부와;

스피커와;

사용자입력부와;

상기 디스플레이부에 영상이 표시되게 영상신호를 처리하며, 상기 사용자입력부를 통한 사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점이 변화되도록 처리하는 영상처리 프로세서와;

상기 스피커로부터 오디오가 출력되게 오디오신호를 처리하며, 상기 오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 오디오처리 프로세서를 포함하는 것을 특징으로 하는 디스플레이장치.
제1항에 있어서,

상기 오디오처리 프로세서는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단하는 것을 특징으로 하는 디스플레이장치.
제2항에 있어서,

상기 오디오처리 프로세서는, 상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하고, 상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 것을 특징으로 하는 디스플레이장치.
제2항에 있어서,

상기 오디오처리 프로세서는, 상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 것을 특징으로 하는 디스플레이장치.
제1항에 있어서,

상기 오디오처리 프로세서는, 후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않는 것을 특징으로 하는 디스플레이장치.
제1항에 있어서,

상기 영상신호는 광각 카메라에 의해 촬영된 광각영상을 포함하며,

상기 영상처리 프로세서는 상기 광각영상의 일부 영역이 상기 디스플레이부에 상기 영상으로 표시되게 처리하는 것을 특징으로 하는 디스플레이장치.
제6항에 있어서,

상기 영상처리 프로세서는, 사용자 시점의 이동을 지시하는 상기 사용자 입력에 응답하여 상기 광각영상을 패닝시킨 영상을 상기 디스플레이부에 표시하며,

상기 오디오처리 프로세서는, 상기 패닝 동작에 따른 음원의 위치 변화를 판단하고, 상기 음원의 변화된 위치에 대응하여 상기 오디오신호 내에서 상기 음원의 채널 별 오디오성분의 출력파워를 조정함으로써 상기 오디오 출력을 조정하는 것을 특징으로 하는 디스플레이장치.
제7항에 있어서,

상기 사용자 입력은, 상기 영상에 대한 사용자의 디폴트 시점 및 상기 이동한 사용자 시점 사이의 각도 정보를 포함하는 것을 특징으로 하는 디스플레이장치.
제6항에 있어서,

상기 영상처리 프로세서는, 상기 영상의 줌 깊이의 변화를 지시하는 상기 사용자 입력에 응답하여 상기 영상이 확대 또는 축소되게 조정하여 상기 디스플레이부에 표시하며,

상기 오디오처리 프로세서는, 사용자에 대한 상기 변화된 영상 내 음원의 거리 변화를 판단하고, 상기 음원의 거리 변화에 대응하여 상기 오디오신호 내에서 상기 음원의 오디오성분의 출력파워를 증감시킴으로서 상기 오디오 출력을 조정하는 것을 특징으로 하는 디스플레이장치.
제1항에 있어서,

상기 오디오처리 프로세서는 콘텐츠 제공자로부터 상기 오디오신호와 함께 제공되는 시청 정보를 취득하고, 상기 시청 정보에 대응하는 상기 음향 특성에 따라서 상기 스피커로부터의 오디오 출력을 조정하는 것을 특징으로 하는 디스플레이장치.
디스플레이부 및 스피커를 포함하는 디스플레이장치의 프로세서에 의해 실행 및 처리 가능하게 마련된 방법의 프로그램 코드를 저장하는 기록매체에 있어서,

상기 방법은,

상기 디스플레이부에 영상을 표시하는 단계와;

상기 스피커로부터 오디오를 출력하는 단계와;

사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점을 변화시키는 단계와;

오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 단계를 포함하는 것을 특징으로 하는 기록매체.
제11항에 있어서,

상기 스피커로부터의 오디오 출력을 조정하는 단계는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단하는 단계를 포함하는 것을 특징으로 하는 기록매체.
제12항에 있어서,

상기 음향 특성을 판단하는 단계는,

상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하는 단계와;

상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 기록매체.
제12항에 있어서,

상기 음향 특성을 판단하는 단계는,

상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 기록매체.
제11항에 있어서,

상기 스피커로부터의 오디오 출력을 조정하는 단계는,

후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않는 단계를 포함하는 것을 특징으로 하는 기록매체.