KR20100028326A

KR20100028326A - 미디어 처리 방법 및 그를 위한 장치

Info

Publication number: KR20100028326A
Application number: KR1020080087309A
Authority: KR
Inventors: 방경구
Original assignee: 엘지전자 주식회사
Priority date: 2008-09-04
Filing date: 2008-09-04
Publication date: 2010-03-12

Abstract

본 발명은 디지털 미디어 기술에 있어서, 특히 영상 내에서 사람, 얼굴 영역 또는 입술 영역의 위치에 기반하여 화면의 외곽 주변에 배치되는 다수 스피커들의 음성 출력 레벨을 조정하는 미디어 처리 방법 및 그를 위한 장치에 관한 것으로, 상기 입력 영상을 출력하는 영상 출력부와, 상기 영상 출력부의 주변에 배치되어 입력 음성을 출력하는 다수 음성 출력부들과, 상기 영상 출력부를 통해 출력될 영상에서 사람, 얼굴 영역 또는 입술 영역의 위치를 검출하고, 상기 다수 음성 출력부들 중에서 상기 검출된 사람, 얼굴 영역 또는 입술 영역의 위치에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 조정하는 제어부를 포함하여 구성되는 것이 특징이다.

미디어, 화면, 모노 사운드, 음성 출력 레벨

Description

미디어 처리 방법 및 그를 위한 장치 {method of processing media, and apparatus for the same}

본 발명은 디지털 미디어 기술에 관한 것으로, 특히 영상 내에서 사람, 얼굴 영역 또는 입술 영역의 위치에 기반하여 화면의 외곽 주변에 배치되는 다수 스피커들의 음성 출력 레벨을 조정하는 미디어 처리 방법 및 그를 위한 장치에 관한 것이다.

최근 디지털 방송 기술은 미디어의 화질 및 음질 면에서 상당한 발전을 보이고 있다.

특히, 음질 면에서 기존 아날로그 방송 기술은 2채널의 스테레오 음향 정도를 제공하는데 불과하지만, 최근 디지털 방송 기술에서는 5.1채널 및 그 이상의 채널의 입체 음향을 제공하고 있다.

스테레오 음향의 생성 및 재생을 위해서는, 먼저 송신측에서 인코딩(Encoding) 시에 우측(R) 및 좌측(L) 2개의 마이크로 음원을 다운 믹싱(down mixing)하여 송신하고, 수신측에서는 디코딩 후에 다시 우측(R) 및 좌측(L) 사운드로 업 믹싱(Up mixing)하여 좌우 양측 스피커로 나누어 출력한다.

다채널의 입체 음향은 상기한 다운 믹싱과 업 믹싱의 개념을 확대한 것으로 이해할 수 있다. 즉, 음원의 생성 시에는 여러 개의 마이크로폰들을 배치하여 음원을 수집하면서 각 음원의 수집 위치에 대한 정보를 포함하는 다운 믹싱(down mixing)을 진행한다. 수신측은 다운 믹싱된 데이터를 수신하여 디코딩하는 과정에서 음원의 수집 위치 정보에 기반한 업 믹싱(up mixing)을 진행하고, 이어 여러 위치에 대응되는 스피커를 통해 출력함으로써 입체 음향을 실현하였다.

그러나, 음원 자체가 모노 사운드로 생성된 경우에는 출력되는 음성을 입체 음향으로써 출력할 수 없다는 단점이 있었다.

본 발명의 목적은 상기한 점을 감안하여 안출한 것으로, 음원 자체가 모노 사운드인 경우에도 입체 음향으로 출력해 주는데 적당한 미디어 처리 방법 및 그를 위한 장치를 제공하는 데 있다.

본 발명의 또다른 목적은 미디어의 음원 자체가 모노 사운드임에도 불구하고 그 미디어의 영상 내에서 검출한 사람, 얼굴 영역 또는 입술 영역의 위치에 기반하여 입체 음향으로 출력해 주는데 적당한 미디어 처리 방법 및 그를 위한 장치를 제공하는 데 있다.

상기한 목적들을 달성하기 위한 본 발명에 따른 미디어 처리 장치의 특징은, 상기 입력 영상을 출력하는 영상 출력부와, 상기 영상 출력부의 주변에 배치되어 입력 음성을 출력하는 다수 음성 출력부들과, 상기 영상 출력부를 통해 출력될 영상에서 사람 위치를 검출하고, 상기 다수 음성 출력부들 중에서 상기 검출된 사람 위치에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 조정하는 제어부를 포함하여 구성되는 것이다.

바람직하게, 상기 제어부는, 상기 영상 출력부를 통해 출력될 영상에서 상기 사람의 얼굴 영역을 검출하고, 상기 다수 음성 출력부들 중에서 상기 검출된 얼굴 영역의 위치에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 조정할 수 있다.

바람직하게, 상기 제어부는 상기 영상 출력부를 통해 출력될 영상에서 상기 사람의 입술 영역을 검출하고, 상기 다수 음성 출력부들 중에서 상기 검출된 입술 영역의 위치에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 조정할 수 있다.

상기에서 상기 제어부는 상기 검출된 사람 위치, 얼굴 영역 또는 입술 영역에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 타방향에 배치된 음성 출력부의 음성 출력 레벨보다 높게 조정할 수 있다. 또는 상기 제어부는 상기 검출된 사람 위치, 얼굴 영역 또는 입술 영역에 상응하는 방향에 배치된 음성 출력부를 제외한 타방향에 배치된 음성 출력부의 음성 출력을 오프(off) 시킬 수 있다.

상기에서 상기 제어부는 상기 사람, 얼굴 영역 또는 입술 영역의 움직임을 검출하여 상기 사람, 얼굴 영역 또는 입술 영역의 위치를 파악할 수 있다.

바람직하게, 상기 입력 음성의 음원은 모노 사운드(mono sound)일 수 있다.

상기한 목적들을 달성하기 위한 본 발명에 따른 미디어 처리 방법의 특징은, 다수 경로를 통해 음성을 출력하는 미디어 처리 장치의 미디어 처리 방법에 있어서, 화면에 디스플레이될 영상에서 객체가 위치하는 방향을 검출하는 단계; 그리고 상기 다수 경로 중 상기 검출된 방향에 대응되는 경로의 음성 출력 레벨을 조정하는 단계로 이루어지는 것이다.

바람직하게, 상기 음성의 음원은 모노 사운드(mono sound)일 수 있다.

바람직하게, 상기 객체는 상기 영상에서의 사람, 얼굴 영역 및 입술 영역 중 어느 하나일 수 있다.

바람직하게, 상기 음성을 출력하는 다수 경로는, 상기 화면의 외곽 주변에 배치되는 다수 스피커들로의 음성 출력 경로일 수 있다.

바람직하게, 상기 음성 출력 레벨을 조정하는 단계는 상기 검출된 방향에 대응되는 경로의 음성 출력 레벨을 타 경로의 음성 출력 레벨보다 높게 조정할 수 있다.

바람직하게, 상기 음성 출력 레벨을 조정하는 단계는 상기 검출된 방향에 대응되는 경로를 제외한 타 경로의 음성 출력을 오프(off) 시킬 수 있다.

본 발명에 따르면, 영상 내에서 사람, 얼굴 영역 또는 입술 영역의 위치에 기반하여 화면의 외곽 주변에 배치되는 다수 스피커들의 음성 출력 레벨을 조정하여, 모노 사운드의 음성인 경우에도 입체적 음향으로의 변환을 실현시켜 준다.

또한, 화면에 해당하는 디스플레이 패널의 외곽 주변에 인비져블 스피 커(Invisible speaker)를 다수 구비하는 미디어 처리 장치가 영상 내에서 사람, 얼굴 영역 또는 입술 영역의 위치 검출하는 기능과 연동하여 다양한 입체 음향 효과를 발휘할 수 있게 해준다.

한편, 본 발명은 방송국으로부터 모노 사운드의 음성을 포함하는 방송 데이터를 수신하여 재생하는 방송 수신 장치에 적용될 수 있으며, 그 방송 수신 장치가 수신 방송 데이터의 영상 내에서 사람, 얼굴 영역 또는 입술 영역의 위치에 기반하여 다양한 입체 음향 효과를 발휘하는 것이 가능하게 할 것이다.

본 발명의 다른 목적, 특징 및 이점들은 첨부한 도면을 참조한 실시 예들의 상세한 설명을 통해 명백해질 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예의 구성과 그 작용을 설명하며, 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시 예로서 설명되는 것이며, 이것에 의해서 상기한 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.

본 발명은 영상 및 음성으로 재생되는 미디어를 처리하는 것으로, 영상 내에 포함되는 사람, 얼굴 영역 및 입술 영역을 하나의 객체로 정의하고, 그 객체를 검출한 위치에 기반하여 모노 사운드를 입체 음향으로 변환하는 것이다.

특히, 본 발명에 따른 미디어 처리 장치는 방송 데이터를 수신하여 그 방송 데이터로부터 영상 및 음성을 출력하는 방송 수신 장치일 수 있으나, 이하에서는 방송 수신 장치로만 한정하지는 않는다. 즉, 본 발명에 따른 미디어 처리 장치는 외부의 소스 디바이스(source device)로부터 출력된 미디어를 수신하고, 그 수신된 미디어를 영상 및 음성으로써 출력하는 싱크 디바이스(sink device)일 수도 있다.

도 1은 본 발명에 따른 미디어 처리 장치의 내부 구성을 나타낸 블록다이어그램이다.

도 1을 참조하면, 본 발명에 따른 미디어 처리 장치는 제어부(10)와 영상 출력부(50)와 다수 음성 출력부(60a~60c)를 포함하여 구성된다.

제어부(10)는 영상 처리부(20)와 객체 검출부(30)와 음성 처리부(40)를 구비한다.

영상 출력부(50)는 영상 처리부(20)로부터 입력되는 영상을 출력한다. 영상 출력부(50)는 화면에 해당하는 디스플레이 패널에 해당하는 것일 수 있다.

영상 출력을 위해, 영상 처리부(20)는 미디어를 구성하는 영상 부분을 디코딩하여 영상 출력부(50)로 출력한다.

다수 음성 출력부(60a~60c)는 영상 출력부(50)의 외곽 주변에 배치되는 것으로, 음성 처리부(40)로부터 입력되는 음성을 출력한다. 상기에서 영상 출력부(50)에 해당하는 디스플레이 패널은 그 패널을 수용하는 하우징(housing)에 의해 보호된다. 예로써, 다수 음성 출력부(60a~60c)는 인비져블 스피커(Invisible speaker)일 수 있으며, 그 인비져블 스피커(Invisible speaker) 다수 개가 디스플레이 패널을 수용하는 하우징에 구비되는 것이 바람직하다. 도 2는 본 발명의 일 실시 예에 따른 인비져블 스피커를 구비한 미디어 처리 장치의 형상을 나타낸 도면으로, 도 2에서는 인비져블 스피커(60)가 디스플레이 패널의 외곽 주변인 상하좌우 및 모서리 에 8개가 구비되는 예를 나타낸 것이다. 상기 인비져블 스피커는 플라스틱 소재의 하우징의 떨림으로 소리를 내는 방식을 사용한다.

음성 출력을 위해, 음성 처리부(40)는 미디어를 구성하는 음성 부분을 디지털 신호로 변환하고, 제어부(10)의 제어에 따라 조정된 음성 출력 레벨로 음성을 출력한다. 특히 음성 처리부(40)는 다수 음성 출력 경로(n)를 통해 다수 음성 출력부(60a~60c)로 음성을 출력한다. 도 1에서는 다수 음성 출력 경로(n)는 다수 음성 출력부(60a~60c)에 대응되며, 도 2와 같이 인비져블 스피커(60)가 8개인 경우에 n=8이다. 한편, 본 발명에 따른 미디어 처리 장치의 설계 시에 다수 음성 출력 경로(n)에 인비져블 스피커(60)가 각각 배치되는 방향을 정의한다.

음성 처리부(40)는 제어부(10)로부터 음성 출력 레벨을 조정하기 위한 명령이 전달되지 않으면, 모든 음성 출력 경로를 통해 동일한 음성 출력 레벨의 음성을 출력한다. 그러나 제어부(10)로부터 특정 경로의 음성 출력 레벨을 조정하기 위한 명령이 전달되면, 음성 처리부(40)는 해당 경로를 통해 출력되는 음성의 음성 출력 레벨을 조정하여 출력한다.

객체 검출부(30)는 영상 처리부(20)와 연동하여 영상 출력부(50)를 통해 출력될 영상에서 객체를 검출하고 또한 그 객체의 화면 상 위치를 검출한다. 여기서, 상기 객체는 영상 출력부(50)의 화면에 영상이 디스플레이될 시에, 그 영상 내에 포함되는 사람, 얼굴 영역 또는 입술 영역일 수 있다. 특히, 객체 검출부(30)는 사람, 얼굴 영역 또는 입술 영역의 움직임을 검출하여 그 사람, 얼굴 영역 또는 입술 영역의 위치를 파악할 수 있다.

한편, 제어부(10)는 음성 처리부(40)와 연동하여 다수 음성 출력부(60a~60c)의 음성 출력 레벨을 조정한다. 제어부(10)는 객체 검출부(30)에서 검출된 객체의 화면 상 위치 정보에 기반하여 음성 처리부(40)에 음성 출력 레벨 조정을 위한 명령을 전달한다. 상세하게, 제어부(10)는 다수 음성 출력부(60a~60c) 중에서 객체 검출부(30)에서 검출된 객체 위치에 상응하는 방향에 배치된 일부 음성 출력부의 음성 출력 레벨을 조정하기 위한 명령을 음성 처리부(40)에 전달한다. 그러면, 음성 처리부(40)는 해당하는 일부 음성 출력부의 음성 출력 레벨을 타방향에 배치된 음성 출력부의 음성 출력 레벨보다 높게 조정하여 출력한다. 여기서 타방향에 배치된 음성 출력부는 객체 검출부(30)에서 검출된 객체 위치에 상응하는 방향에 배치된 일부 음성 출력부를 제외한 것으로, 전술된 바와 같이 일부 음성 출력부에 대한 음성 출력 레벨을 조정할 시에, 음성 처리부(40)는 타방향에 배치된 음성 출력부의 음성 출력 레벨을 보다 낮게 조정할 수 있으며, 또는 타방향에 배치된 음성 출력부의 음성 출력을 오프(off)시킬 수도 있다.

예로써, 도 2에 도시된 바와 같이, 객체 검출부(30)에서 객체(사람)가 화면의 좌측 상단에 위치함에 검출됨에 따라, 제어부(10)는 인비져블 스피커(60) 중에서 좌측 상단과 좌측에 배치된 스피커(1,8)의 음성 출력 레벨을 조정하기 위한 명령을 음성 처리부(40)에 전달한다. 그에 따라 음성 처리부(40)는 좌측 상단과 좌측에 배치된 스피커(1,8)로 출력되는 음성의 음성 출력 레벨을 타방향에 배치된 스피커(2 내지 7)의 음성 출력 레벨보다 높게 조정하여 출력한다. 부가적으로, 음성 처리부(40)는 타방향에 배치된 스피커(2 내지 7)의 음성 출력 레벨을 보다 낮게 조정 할 수 있으며, 또는 타방향에 배치된 스피커(2 내지 7)의 음성 출력을 오프(off)시킬 수도 있다.

전술된 음성 처리부(40)로 입력되는 음성의 음원은 모노 사운드(mono sound)일 수 있다. 따라서, 음원이 모노 사운드이므로 음성 출력 레벨의 조정이 없는 경우에, 음성 처리부(40)는 모든 음성 출력 경로로 동일한 레벨의 음성을 출력한다. 그러나 음성 출력 레벨의 조정이 요구되는 경우라면, 음성 처리부(40)에서의 음성 출력 레벨의 조정에 따라 음원이 모노 사운드임에도 불구하고 입체적 음향으로 변경된다.

한편, 상기에서 언급된 영상 처리부(20)와 객체 검출부(30)와 음성 처리부(40)는 각기 논리적인 구성일 수 있다. 그에 따라 제어부(10)가 영상 처리부(20)와 객체 검출부(30)와 음성 처리부(40)의 각 논리적인 기능을 수용하는 구성일 수 있다.

이하에서는 상기한 도 1 및 2의 구성에 기반하여 미디어 처리 장치의 미디어 처리 절차를 설명한다.

도 3은 본 발명에 따른 미디어 처리 장치의 미디어 처리 절차를 나타낸 플로우챠트로써, 다수 음성 출력 경로를 통해 스피커에 해당하는 다수 음성 출력부로 음성을 출력하기 위한 처리 절차를 나타낸 것이다.

도 3을 참조하면, 일단 미디어 처리 장치로 미디어가 입력된다(S10). 여기서 미디어는 영상 부분과 음성 부분 등을 포함하는 멀티미디어일 수 있다. 특히, 상기 음성 부분의 음원은 모노 사운드(mono)인 것이 바람직하다.

제어부(10)는 입력된 미디어의 영상 부분을 디코딩하여 영상 출력부(50)로 출력함과 동시에 영상 출력부(50)에 디스플레이된 영상 부분에서 객체를 검출한다(S20).

이어, 제어부(10)는 상기 검출된 객체가 화면에 디스플레이될 시에 화면의 어느 위치에 디스플레이되는지를 파악한다(S30). 그에 따라, 화면에 디스플레이될 영상에서 그 객체가 위치하는 방향을 검출한다.

이어, 제어부(10)는 미디어의 음성 부분을 출력하는 다수 음성 출력 경로 중에서 상기 검출된 객체의 방향에 대응되는 경로로 출력되는 음성의 출력 레벨을 조정한다(S40). 여기서, 음성을 출력하는 다수 음성 출력 경로는 화면 외곽 주변의 하우징에 여러 방향으로 배치되는 다수 스피커들로의 음성 출력 경로이다.

그리고, 본 발명에서는 음성 출력 레벨을 조정할 때, 객체가 검출된 방향에 대응되는 경로의 음성 출력 레벨을 타 경로의 음성 출력 레벨보다 높게 조정할 수 있다. 그러면서, 전술된 타 경로의 음성 출력을 오프(off) 시킬 수 있다.

그러나, 음성 부분의 음원이 모노 사운드이므로, 제어부(10)는 상기 객체가 검출되지 않은 경우에 모든 음성 출력 경로를 통해 동일한 음성 출력 레벨의 음성을 출력한다.

이상 설명한 내용을 통해 당업자라면 본 발명의 기술 사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정 가능함을 알 수 있을 것이다.

따라서, 본 발명의 기술적 범위는 실시 예에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정해져야 한다.

도 1은 본 발명에 따른 미디어 처리 장치의 내부 구성을 나타낸 블록다이어그램.

도 2는 본 발명의 일 실시 예에 따른 인비져블 스피커를 구비한 미디어 처리 장치의 형상을 나타낸 도면.

도 3은 본 발명에 따른 미디어 처리 장치의 미디어 처리 절차를 나타낸 플로우챠트.

Claims

상기 입력 영상을 출력하는 영상 출력부;

상기 영상 출력부의 주변에 배치되어 입력 음성을 출력하는 다수 음성 출력부들;

상기 영상 출력부를 통해 출력될 영상에서 사람 위치를 검출하고, 상기 다수 음성 출력부들 중에서 상기 검출된 사람 위치에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 조정하는 제어부를 포함하여 구성되는 것을 특징으로 하는 미디어 처리 장치.
제 1 항에 있어서, 상기 제어부는,

상기 영상 출력부를 통해 출력될 영상에서 상기 사람의 얼굴 영역을 검출하고, 상기 다수 음성 출력부들 중에서 상기 검출된 얼굴 영역의 위치에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 조정하는 것을 특징으로 하는 미디어 처리 장치.
제 1 항에 있어서, 상기 제어부는,

상기 영상 출력부를 통해 출력될 영상에서 상기 사람의 입술 영역을 검출하고, 상기 다수 음성 출력부들 중에서 상기 검출된 입술 영역의 위치에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 조정하는 것을 특징으로 하는 미디어 처리 장치.
제 1 내지 3 항 중 어느 하나의 항에 있어서, 상기 제어부는,

상기 검출된 사람 위치, 얼굴 영역 또는 입술 영역에 상응하는 방향에 배치된 음성 출력부의 음성 출력 레벨을 타방향에 배치된 음성 출력부의 음성 출력 레벨보다 높게 조정하는 것을 특징으로 하는 미디어 처리 장치.
제 1 내지 3 항 중 어느 하나의 항에 있어서, 상기 제어부는,

상기 검출된 사람 위치, 얼굴 영역 또는 입술 영역에 상응하는 방향에 배치된 음성 출력부를 제외한 타방향에 배치된 음성 출력부의 음성 출력을 오프(off) 시키는 것을 특징으로 하는 미디어 처리 장치.
제 1 내지 3 항 중 어느 하나의 항에 있어서, 상기 제어부는,

상기 사람, 얼굴 영역 또는 입술 영역의 움직임을 검출하여 상기 사람, 얼굴 영역 또는 입술 영역의 위치를 파악하는 것을 특징으로 하는 미디어 처리 장치.
제 1 항에 있어서, 상기 입력 음성의 음원은 모노 사운드(mono sound)인 것을 특징으로 하는 미디어 처리 장치.
다수 경로를 통해 음성을 출력하는 미디어 처리 장치의 미디어 처리 방법에 있어서,

화면에 디스플레이될 영상에서 객체가 위치하는 방향을 검출하는 단계; 그리고

상기 다수 경로 중 상기 검출된 방향에 대응되는 경로의 음성 출력 레벨을 조정하는 단계로 이루어지는 것을 특징으로 하는 미디어 처리 장치의 미디어 처리 방법.
제 7 항에 있어서, 상기 음성의 음원은 모노 사운드(mono sound)인 것을 특징으로 하는 미디어 처리 장치의 미디어 처리 방법.
제 7 항에 있어서, 상기 객체는 상기 영상에서의 사람, 얼굴 영역 및 입술 영역 중 어느 하나인 것을 특징으로 하는 미디어 처리 장치의 미디어 처리 방법.
제 7 항에 있어서, 상기 음성을 출력하는 다수 경로는,

상기 화면의 외곽 주변에 배치되는 다수 스피커들로의 음성 출력 경로인 것을 특징으로 하는 미디어 처리 장치의 미디어 처리 방법.
제 7 항에 있어서, 상기 음성 출력 레벨을 조정하는 단계는,

상기 검출된 방향에 대응되는 경로의 음성 출력 레벨을 타 경로의 음성 출력 레벨보다 높게 조정하는 것을 특징으로 하는 미디어 처리 장치의 미디어 처리 방 법.
제 7 항에 있어서, 상기 음성 출력 레벨을 조정하는 단계는,

상기 검출된 방향에 대응되는 경로를 제외한 타 경로의 음성 출력을 오프(off) 시키는 것을 특징으로 하는 미디어 처리 장치의 미디어 출력 방법.