KR20210014755A

KR20210014755A - 정보 처리 장치, 방법, 및 프로그램

Info

Publication number: KR20210014755A
Application number: KR1020217003061A
Authority: KR
Inventors: 아키라 이노우에; 슈스케 다카하시; 마사유키 니시구치
Original assignee: 소니 주식회사
Priority date: 2013-10-21
Filing date: 2014-10-10
Publication date: 2021-02-09
Also published as: KR102212926B1; US20160269762A1; RU2016114565A3; TW201532429A; US20210377582A1; KR20160074475A; WO2015059891A1; US11115694B2; RU2675192C2; US10484728B2; US20200053402A1; TWI646830B; RU2016114565A; JP2015149705A; CN105684085B; TWI695620B; TW201907733A; JP6349977B2; CN110751963A; CN110751963B

Abstract

정보 처리 장치와 상이한 제2 정보 처리 장치에 의해 제1 콘텐츠 -제1 콘텐츠는 오디오 콘텐츠를 포함함- 의 재생과 동기시켜서 제2 콘텐츠를 재생하기 위한 정보 처리 장치를 제공한다. 정보 처리 장치는 오디오 콘텐츠로부터 제1 특징을 추출하고; 오디오 콘텐츠의 제2 특징 -제2 특징은 제2 콘텐츠와 함께 있음- 을 취득하고; 제1 특징과 제2 특징을 비교하고; 비교의 결과들에 기초하여, 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하는데 사용되는 동기 정보를 생성하도록 구성된 회로를 포함한다.

Description

정보 처리 장치, 방법, 및 프로그램{INFORMATION PROCESSING APPARATUS, METHOD, AND PROGRAM}

본 기술은 정보 처리 장치, 방법, 및 프로그램에 관한 것으로, 특히 상이한 경로를 통해 취득한 복수의 콘텐츠를 동기시킬 수 있는 정보 처리 장치, 방법, 및 프로그램에 관한 것이다.

<관련 출원들에 대한 상호 참조>

본 출원은 2013년 10월 21일자로 출원된 일본 우선권 특허출원 JP2013-218267호, 2013년 12월 12일자로 출원된 일본 우선권 특허출원 JP2013-257508호, 2014년 1월 7일자로 출원된 일본 우선권 특허출원 JP2014-000831호, 및 2014년 6월 4일자로 출원된 일본 우선권 특허출원 JP2014-115406호의 이익을 주장하며, 이들 각각의 전체 내용은 본 명세서에서 참조로서 포함된다.

최근 들어, 다기능형 휴대 전화기 및 태블릿형 단말 디바이스와 같이 네트워크 접속을 전제로 하여 다양한 종류의 미디어 콘텐츠를 재생할 수 있는 디바이스들이 증가하였다. 또한, 관련 분야에서 존재하고 있었던 텔레비전 수신기 등을 포함하는, 네트워크 기능을 이용한 복수 디바이스들의 조합에 기초한 활용이 요구된다.

복수의 디바이스의 조합으로서, 이하에 나타낸 (A1) 내지 (A4)와 같은, 시간 동기 관계를 갖는 복수의 미디어 콘텐츠를, 방송이나 인터넷 등을 통해 복수의 디바이스들에 의해 수신하고, 그 콘텐츠를 동기 방식으로 재생하기 위한 애플리케이션 프로그램이 상정될 수 있다.

(A1) 메인 영상 및 사운드 콘텐츠에 대한 외국어 사운드 콘텐츠, 해설 사운드 콘텐츠, 자막(closed captioning), 및 문자 정보

(A2) 각각의 악기에 의해 음악 작곡을 연주하고 각각의 악기가 연주되고 있는 장면을 촬영함으로써 취득된 복수의 영상 및 사운드 콘텐츠

(A3) 하나의 장면을 복수의 각도에서 촬영함으로써 취득된 영상 및 사운드 콘텐츠

(A4) 메인 영상 및 사운드 콘텐츠와 그에 대한 고해상도 버전의 영상 및 사운드 콘텐츠

이러한 복수의 콘텐츠는 재생하는 동안 동기가 유지된 상태에서 재생시킬 필요가 있다. 예를 들어, 상이한 복수의 촬영 장치에 의해 동일한 시간에 촬영된 각각의 콘텐츠로부터 특징량들을 추출하고, 그 특징량들의 유사도를 계산함으로써, 복수의 콘텐츠를 동기시키는 기술은, 복수의 콘텐츠를 동기시키는 기술로서 개시되어 있다(예를 들어, 특허문헌 1을 참조하라).

일본 무심사 특허 출원 공보 제2013-174765호

그런데, 실제로는, 상술한 바와 같은 미디어 콘텐츠를, 복수의 디바이스가 각각 상이한 경로들을 통해 수신하고자 하는 경우, 송신 지연, 송신 및 수신 처리의 지연, 수신 디바이스들의 동작 클럭들의 차이 등에 의해, 동기를 유지하면서 콘텐츠를 재생하는 것은 곤란하다. 특허문헌 1에 개시된 기술에 따르면, 동기시켜서 재생하려고 하는 콘텐츠가 유사한 특징들을 가지고 있지 않은 경우에는, 콘텐츠를 동기시키기 곤란하다.

상이한 경로들을 통해 취득된 복수의 콘텐츠를 동기시킬 수 있도록 하는 것이 바람직하다.

본 기술의 제1 실시예에 따르면, 제1 콘텐츠의 사운드 신호로부터 특징량을 추출하는 특징량 계산 유닛; 및 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 동기된 상태에서 취득된 특징량과 특징량 계산 유닛에 의해 추출되는 특징량을 비교함으로써, 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하기 위해 사운드 특징량에 기초하는 동기 보정 정보를 생성하는 동기 계산 유닛을 포함하는 정보 처리 장치가 제공된다.

상기 특징량 계산 유닛은 재생되고 있는 제1 콘텐츠의 사운드를 수집함으로써 취득되는 사운드 신호로부터 특징량을 추출시킬 수 있다.

정보 처리 장치는 제2 콘텐츠와 이 제2 콘텐츠와 동기시켜서 제2 콘텐츠와 연관되는 특징량을 취득하는 제1 입력 유닛을 더 포함할 수 있다.

제2 콘텐츠와 특징량은 제1 콘텐츠와의 도착 시간의 차이를 고려하여 결정되는 타이밍에 정보 처리 장치에 송신될 수 있다.

제1 입력 유닛은 제2 콘텐츠와 특징량의 송신을 요청하고, 그 요청에 응답하여 송신되는 제2 콘텐츠와 특징량을 수신할 수 있다.

정보 처리 장치는 제1 콘텐츠의 송신을 요청하고, 그 요청에 따라 송신되는 제1 콘텐츠를 수신하는 제2 입력 유닛을 더 포함할 수 있다.

특징량 계산 유닛은 사운드 신호로부터 재생되고 있는 제1 콘텐츠의 특징량을 추출하고, 동기 계산 유닛은 제2 콘텐츠와 연관되는 복수의 제1 콘텐츠의 특징량과 특징량 계산 유닛에 의해 추출되는 특징량을 비교함으로써 재생되고 있는 제1 콘텐츠를 특정하고, 특정된 제1 콘텐츠와 제2 콘텐츠를 서로 동기시켜서 재생하기 위해 사운드 특징량에 기초하는 동기 보정 정보를 생성할 수 있다.

정보 처리 장치는 제2 콘텐츠의 재생을 제어하는 재생 처리 유닛을 더 포함할 수 있다.

상기 재생 처리 유닛은 사운드 특징량에 기초하는 동기 보정 정보에 의존하여 제2 콘텐츠의 재생 위치를 보정할 수 있다.

정보 처리 장치는 제1 콘텐츠의 제시 시간 정보를 취득하는 취득 유닛; 및 제1 콘텐츠의 제시 시간 정보와 제2 콘텐츠의 제시 시간 정보를 비교하고 제시 시간 정보에 기초하는 동기 보정 정보를 생성하는 비교 유닛을 더 포함하고, 동기 계산 유닛은 취득된 특징량들의 계열 중에서 제시 시간 정보에 기초하는 동기 보정 정보에 의해 표시되는 범위 내의 특징량과 특징량 계산 유닛에 의해 추출되는 특징량을 비교함으로써 사운드 특징량에 기초하는 동기 보정 정보를 생성할 수 있다.

동기 계산 유닛은, 취득된 특징량의 프레임 레이트가 특징량 계산 유닛에 의해 추출된 특징량의 프레임 레이트와 일치하도록 취득된 특징량과 특징량 계산 유닛에 의해 추출된 특징량 중 적어도 하나에 대하여 프레임 레이트 변환을 행한 이후에 특징량을 비교할 수 있다.

본 기술의 제1 실시예에 따르면, 제1 콘텐츠의 사운드 신호로부터 특징량을 추출하는 단계; 및 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 동기시켜서 취득된 특징량과 추출 단계에서 추출된 특징량을 비교함으로써 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하기 위해 사운드 특징량에 기초하는 동기 보정 정보를 생성하는 단계를 포함하는 정보 처리 방법 및 프로그램이 제공된다.

본 기술의 제1 실시예에 따르면, 제1 콘텐츠의 사운드 신호로부터 특징량이 추출되고, 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 동기시켜 취득된 특징량과 추출 단계에서 추출된 특징량을 비교함으로써 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하기 위해 사운드 특징량에 기초하는 동기 보정 정보가 생성된다.

본 기술의 제2 실시예에 따르면, 제1 콘텐츠의 사운드 신호로부터 특징량을 추출하는 특징량 계산 유닛; 및 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠 및 제2 콘텐츠와 동기시켜 제2 콘텐츠와 연관되는 특징량을 출력하는 제1 출력 유닛을 포함하는 정보 처리 장치가 제공된다.

정보 처리 장치는 제1 콘텐츠를 출력하는 제2 출력 유닛을 더 포함할 수 있다.

제1 출력 유닛은 제1 콘텐츠와의 도착 시간의 차이를 고려하여 결정되는 타이밍에 제2 콘텐츠와 특징량을 출력할 수 있다.

제1 출력 유닛은, 제2 콘텐츠와 특징량의 송신이 요청되는 경우, 그 요청에 응답하여 제2 콘텐츠와 특징량을 출력할 수 있다.

제2 출력 유닛은, 제1 콘텐츠의 송신이 요청되는 경우, 그 요청에 응답하여 제1 콘텐츠를 출력할 수 있다.

특징량 계산 유닛은 사운드 신호들로부터 복수의 제1 콘텐츠의 특징량을 추출할 수 있고, 제1 출력 유닛은 복수의 제1 콘텐츠의 특징량을 제2 콘텐츠와 연관시켜서 출력할 수 있다.

특징량 계산 유닛은 특징량을 다운샘플링할 수 있고, 제1 출력 유닛은 제2 콘텐츠와 다운샘플링된 특징량을 출력할 수 있다.

본 기술의 제2 실시예에 따르면, 제1 콘텐츠의 사운드 신호로부터 특징량을 추출하는 단계; 및 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 이 제2 콘텐츠와 동기시켜서 제2 콘텐츠와 연관되는 특징량을 출력하는 단계를 포함하는 정보 처리 방법과 프로그램이 제공된다.

본 기술의 제2 실시예에 따르면, 제1 콘텐츠의 사운드 신호로부터 특징량이 추출되고, 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 이 제2 콘텐츠와 동기시켜서 제2 콘텐츠와 연관되는 특징량이 출력된다.

본 기술의 제1 및 제2 실시예에 따르면, 상이한 경로를 통해 취득된 복수의 콘텐츠를 동기시킬 수 있다.

또한, 본 기술은 상술한 효과에 반드시 한정되지 않으며, 이 기술에 기재된 임의의 효과들이 달성될 수도 있다.

도 1은 제공 장치의 구성예를 도시한 도면이다.
도 2는 사운드 동기용 특징량 계산 유닛의 구성예를 도시한 도면이다.
도 3은 사운드 동기용 특징량의 다운샘플링을 예시한 도면이다.
도 4는 콘텐츠 재생 시스템의 구성예를 도시한 도면이다.
도 5는 사운드 동기용 특징량 계산 유닛의 구성예를 도시한 도면이다.
도 6은 동기 계산 유닛의 구성예를 도시한 도면이다.
도 7은 사운드 동기용 특징량의 동기 계산을 예시한 도면이다.
도 8은 사운드 동기용 특징량의 동기 계산을 예시한 도면이다.
도 9는 사운드 동기용 특징량의 동기 계산을 예시한 도면이다.
도 10은 유사도 계산이 대상으로서의 블록들을 예시한 도면이다.
도 11은 유사도 계산을 예시한 도면이다.
도 12는 송신 처리를 예시한 흐름도이다.
도 13은 서브 채널 신호와 사운드 동기용 특징량의 다중화를 예시한 도면이다.
도 14는 사운드 동기용 특징량 계산 처리를 예시한 흐름도이다.
도 15는 메인 콘텐츠 재생 처리를 예시한 흐름도이다.
도 16은 서브 콘텐츠 재생 처리를 예시한 흐름도이다.
도 17은 사운드 동기용 특징량 계산 처리를 예시한 흐름도이다.
도 18은 동기 보정 정보 생성 처리를 예시한 흐름도이다.
도 19는 본 기술의 응용예를 도시한 도면이다.
도 20은 본 기술의 응용예를 도시한 도면이다.
도 21은 본 기술의 응용예를 도시한 도면이다.
도 22는 제공 장치의 구성예를 도시한 도면이다.
도 23은 콘텐츠 재생 시스템의 구성예를 도시한 도면이다.
도 24는 송신 처리를 예시한 흐름도이다.
도 25는 메인 콘텐츠 재생 처리를 예시한 흐름도이다.
도 26은 서브 콘텐츠 재생 처리를 예시한 흐름도이다.
도 27은 동기 보정 정보 생성 처리를 예시한 흐름도이다.
도 28은 유사도 계산이 대상으로서의 블록을 예시한 도면이다.
도 29는 컴퓨터의 구성예를 도시한 도면이다.

이하, 도면들을 참조하여, 본 기술이 적용되는 실시예에 대해서 설명할 것이다.

<제1 실시예>

<본 기술의 특징>

우선, 본 기술의 특징에 대해서 설명할 것이다.

본 기술은 특히, 하기 특징들 B1 내지 B6을 포함한다.

(특징 B1)

본 기술에 따르면, 상이한 콘텐츠를 포함하는 복수의 미디어 콘텐츠가 상이한 송신 경로를 통해 송신되고 상이한 복수의 디바이스에 의해 수신될 때 사운드를 사용해서 자동 동기를 행하기 위한 다음 구성을 갖는 방법 및 장치를 구현할 수 있다.

(1) 미디어 콘텐츠는 영상, 사운드, 화상, 문자 정보 등을 다중화시킴으로써 취득된 데이터 스트림이다.

(2) 송신 대상으로서의 복수 미디어 콘텐츠는 상술한 예들 (A1) 내지 (A4)에서와 같이 시간 동기 관계를 갖는다.

(3) 송신 대상으로서의 복수의 미디어 콘텐츠 중 적어도 하나는 메인 채널 신호인 것으로 결정되고, 사운드 동기용 특징량은 사운드 신호로부터 계산되고, 메인 송신 신호는 시스템에 의해 정의된 송신 포맷의 메인 채널 신호로부터 생성된다.

(4) 나머지의 각각의 미디어 콘텐츠(서브 채널 신호)와 메인 채널 신호 간의 시간 동기 관계가 충족되도록 하기 위해, 시스템에 의해 정의된 송신 포맷으로 메인 채널 신호의 사운드 동기용 특징량과 서브 채널 신호의 다중화 처리를 행하고, 서브 송신 신호를 생성한다.

(5) 메인 송신 신호를 수신하는 메인 수신 디바이스는 메인 채널 신호의 재생 시에 메인 채널 신호의 사운드 신호를 스피커 등을 통해 출력한다.

(6) 메인 채널 신호의 사운드 동기용 특징량을 포함하는 서브 송신 신호를 수신하는 서브 수신 디바이스는 메인 수신 디바이스에 의해 스피커를 통해 출력되는 메인 채널 신호의 사운드를 마이크로폰 등을 통해 수집하고, 사운드 동기용 특징량을 계산하고, 수신된 메인 채널 신호의 사운드 동기용 특징량과의 자동 동기 계산을 행하고, 사운드 특징량에 기초하는 동기 보정 정보(시간차 정보)를 계산한다.

(7) 서브 수신 디바이스는 사운드 특징량에 기초하는 동기 보정 정보를 참조하여 수신된 서브 채널 신호에 대하여 메인 채널 신호와의 동기 보정 처리를 행하여 재생한다.

또한, 상술한 (1)의 데이터 스트림의 송신으로서, 방송 또는 인터넷 등의 네트워크에서의 미디어 콘텐츠의 송신을 상정하고, 다중화 데이터 스트림에 의해 점유되는 논리 송신 경로를 송신 경로라고 칭할 것이다.

또한, 상술한 "사운드 동기용 특징량의 계산"과 "자동 동기 계산"은 예를 들어, 일본 무심사 특허 출원 공보 제2013-174765호에 개시되어 있는 기술에 의해 구현된다. 또한, 송신 전에 사운드 동기용 특징량을 다운샘플링하거나, 사운드 동기용 특징량을 이용한 자동 동기 계산 동안 필요에 따라 사운드 동기용 특징량의 프레임 레이트 변환을 행하도록 할 수 있다.

이러한 기술을 사용함으로써, 서브 수신 디바이스가 메인 채널 신호의 사운드를 수집할 때 노이즈나 원치않는 사운드가 있는 불리한 환경에서도 강건하게 자동 동기 계산을 행할 수 있다. 또한, 반드시 이 기술을 사용할 필요는 없다.

이 경우, 메인 송신 신호의 송신 이전에 서브 송신 신호를 송신할 필요가 있다.

(특징 B2)

상술한 (특징 B1)에서, 송신측 시스템은 메인 송신 신호와 서브 송신 신호를 각각 메인 수신 디바이스와 서브 수신 디바이스에 일방적으로 송신한다.

이 경우, 메인 송신 신호 이전에 서브 송신 신호를 송신할 필요가 있다.

(특징 B3)

상술한 (특징 B1)에서, 송신측 시스템은 메인 송신 신호를 메인 수신 디바이스에 일방적으로 송신하고, 서브 수신 디바이스는 서브 수신 디바이스 자신의 타이밍에 네트워크를 통해 서브 송신 신호를 취득하고, 자동 동기 계산을 행하여, 서브 채널 신호의 동기 재생을 행한다.

이 구성의 이점은 네트워크를 통한 송신 지연 등을 고려하여 서브 수신 디바이스 자신의 펀의에 따라 서브 송신 신호의 취득을 제어할 수 있다.

(특징 B4)

상술한 (특징 B1)에서, 메인 수신 디바이스는 메인 수신 디바이스 자신의 타이밍에 네트워크를 통해 메인 송신 신호를 취득하여 메인 채널 신호의 재생을 행하고, 서브 수신 디바이스도 서브 수신 디바이스 자신의 타이밍에 네트워크를 통해 서브 송신 신호를 취득하고, 자동 동기 계산을 행하여, 서브 채널 신호의 동기 재생을 행한다.

이 구성의 이점은 네트워크를 통한 송신 지연 등을 고려하여 서브 수신 디바이스가 서브 수신 디바이스 자신의 편의에 따라 서브 송신 신호의 취득을 제어할 수 있다.

(특징 B5)

상술한 (특징 B1)에서, 메인 채널 신호의 복수 계열의 사운드 신호가 존재한다.

예를 들어, 복수 계열의 메인 채널 신호는 2개 국어 방송을 위한 메인 사운드과 보조 사운드에 대응한다. 계열의 사운드 신호 모두에 대하여 사운드 동기용 특징량이 산출되어, 서브 채널 신호와 다중화되어서 송신된다. 서브 수신 디바이스는 수집된 사운드와 수신된 모든 사운드 동기용 특징량 간에 동기 계산을 행할 때, 메인 채널 신호의 어느 사운드가 재생되고 있는지를 결정한다. 메인 수신 디바이스에 의해 출력되는 사운드 신호의 스위칭도 동기 계산시 검출된다.

(특징 B6)

상술한 (특징 B1)에서, "동기 어긋남"은 서브 수신 디바이스에 의한 자동 동기 계산시 검출되고, 실시간 보정 처리는 서브 수신 디바이스측에서 행해진다.

메인 수신 디바이스와 서브 수신 디바이스는 독립적으도 동작하기 때문에, 오디오 클럭은 상이하고 동기 어긋남이 발생한다. 따라서, 동기 어긋남을 검출하여 보정함으로써 동기를 유지한 채 복수의 콘텐츠를 재생할 수 있다.

<제공 장치의 구성예>

다음으로, 본 기술이 적용되는 구체적인 실시 형태에 대해서 설명할 것이다.

우선, 상술한 (A1) 내지 (A4)에서와 같이 시간 동기 관계를 갖는 콘텐츠를 제공하는 제공 장치의 구성예에 대해서 설명할 것이다.

도 1은 제공 장치의 구성예를 도시한 도면이다. 제공 장치(11)에는, 주요 콘텐츠(이하, 메인 콘텐츠라고 칭함)를 재생하기 위한 신호인 메인 채널 신호와 메인 콘텐츠와 내용적인 관련성이 있는 콘텐츠(이하, 서브 콘텐츠라고 칭함)를 재생하기 위한 신호인 서브 채널 신호가 공급된다.

여기서, 메인 콘텐츠와 서브 콘텐츠는 적어도 영상과 사운드 중 어느 하나로 구성되고 서로 시간 동기 관계를 갖는다. 즉, 재생 동안 메인 콘텐츠와 서브 콘텐츠가 동기된 상태로 재생되는 것이 바람직하다.

또한, 이하에서는, 메인 콘텐츠와 서브 콘텐츠가 각각 영상을 재생하기 위한 화상 신호와 이 화상 신호와 수반되는 사운드 신호로 구성된다는 가정하에 설명을 계속할 것이다. 따라서, 이 예에서의 메인 채널 신호와 서브 채널 신호는 각각 화상 신호와 사운드 신호로 구성된다.

제공 장치(11)는 변환 유닛(21), 출력 유닛(22), 사운드 동기용 특징량 계산 유닛(23), 다중화 처리 유닛(24) 및 출력 유닛(25)을 포함한다.

변환 유닛(21)은 공급된 메인 채널 신호를 미리 정해진 방송 규격 등에 의해 정의된 포맷으로 변환하고, 그 결과 취득된 메인 송신 신호를 출력 유닛(22)에 공급한다. 출력 유닛(22)은 변환 유닛(21)으로부터 공급된 메인 송신 신호를, 방송파를 통해 방송하거나, 인터넷 등의 통신 네트워크를 통해 송신한다.

사운드 동기용 특징량 계산 유닛(23)은 공급된 메인 채널 신호를 구성하는 사운드 신호로부터 사운드 동기용 특징량을 추출하여, 그 사운드 동기용 특징량을 다중화 처리 유닛(24)에 공급한다. 여기서, 사운드 동기용 특징량은 메인 콘텐츠와 서브 콘텐츠가 재생될 때, 서브 콘텐츠를 메인 콘텐츠와 동기시켜서 재생시키기 위해 사용되는 특징량이다.

다중화 처리 유닛(24)은 공급된 메인 채널 신호를 사용하여, 사운드 동기용 특징량 계산 유닛(23)으로부터의 사운드 동기용 특징량과 공급된 서브 채널 신호 간의 시간 동기 관계를 조정한다. 즉, 제공 장치(11)에서는 미리 메인 채널 신호와 서브 채널 신호가 동기된 상태로 있기 때문에, 다중화 처리 유닛(24)은 메인 채널 신호를 사용하여, 사운드 동기용 특징량과 서브 채널 신호가 시간 동기 관계로 동기되는 상태에서, 사운드 동기용 특징량을 서브 채널 신호와 연관시킨다. 예를 들어, MPEG-4 시스템에서, 오디오 신호, 비디오 신호 등은 각각 단일 미디어 오브젝트(ES(Elementary Stream))로서 다루어져서, 다중화된다. ES를 분할해서 취득되는 액세스 유닛(AU)이라고 불리는 최소 단위로 시간 속성이 정의되기 때문에, 사운드 동기용 특징량을 시간 속성 정보를 포함하는 하나의 미디어 오브젝트로서 다룸으로써, 서브 채널 신호로서의 미디어 오브젝트와 사운드 동기용 특징량을 용이하게 다중화할 수 있다.

또한, 다중화 처리 유닛(24)은 시간적으로 동기된 상태에서 사운드 동기용 특징량과 서브 채널 신호를 다중화한 후, 필요에 따라 포맷 변환을 행하고, 그 결과로서 취득된 서브 송신 신호를 출력 유닛(25)에 공급한다.

출력 유닛(25)은 다중화 처리 유닛(24)으로부터 공급된 서브 송신 신호를 예를 들어, 방송파를 통해 또는 인터넷을 포함하는 통신 네트워크를 통해 송신한다. 여기서, 메인 송신 신호와 서브 송신 신호는 서로 상이한 송신 경로를 통해 콘텐츠의 재생측의 시스템에 송신된다.

또한, 도 1에 도시된 예에서의 제공 장치(11)는 단일 장치로 구성되어 있지만, 제공 장치(11)는 복수의 장치로 구성될 수 있거나, 각각의 처리가 클라우드 컴퓨팅에 의해 실행될 수 있다.

<사운드 동기용 특징량 계산 유닛의 구성예>

보다 구체적으로, 도 1에 도시된 사운드 동기용 특징량 계산 유닛(23)은 예를 들어, 도 2에 도시된 바와 같이 구성된다.

사운드 동기용 특징량 계산 유닛(23)은 주파수 대역 분할 유닛(51), 주기성 검출 유닛들(52-1 내지 52-4), 주기성 강도 검출 유닛들(53-1 내지 53-4), 주기성 정보 통합 유닛(54), 피크 검출 유닛(55) 및 다운샘플링 유닛(56)을 포함한다.

주파수 대역 분할 유닛(51)은 공급된 메인 채널 신호를 구성하는 사운드 신호를, 윈도우 함수를 사용해서 약 수 10msec 내지 약 100msec의 시간 구간으로 분할한다.

여기서, 주파수 대역 분할 유닛(51)으로부터 피크 검출 유닛(55)까지의 사이에서 수행되는 처리는 하나의 시간 구간에 대하여 행하여진다. 윈도우 함수가 적용되는 시간 위치를 수 msec 내지 약 100msec만큼 지연되도록 시프트시킴으로써 시간 방향으로 연속하는 복수의 시간 구간(시간 프레임)을 취득할 수 있다. 이에 비해, 다운샘플링 유닛(56)은 연속하는 복수의 시간 구간의 결과를 하나의 시간 구간내에 통합하여, 통합 이후에 새로운 시간 구간의 특징량을 계산한다.

주파수 대역 분할 유닛(51)은 복수의 대역 통과 필터를 사용하여 시간 구간마다의 사운드 신호를 4개의 주파수 대역으로 분할하고, 각각의 주파수 대역의 사운드 신호를 주기성 검출 유닛들(52-1 내지 52-4)에 공급한다.

대역 통과 필터로서, 옥타브-대역(octave-band) 필터들과 같은, 주파수가 높아질수록 통과 주파수의 대역폭이 더 넓어지는 필터를 사용하는 것이 효과적이다.

주기성 검출 유닛들(52-1 내지 52-4)은 주파수 대역 분할 유닛(51)으로부터 공급된 미리 정해진 주파수 대역의 시간 구간마다의 사운드 신호의 자기상관함수를 계산함으로써, 시간 구간마다의 주기성을 나타내는 주기성 정보를 추출한다.

인덱스 b로 표시되는 주파수 대역의 인덱스 τ로 표시되는 시간 지연을 갖는 사운드 신호의 자기상관함수 x(b,τ) 자체가 본 명세서에서 주기성 정보로서 사용되고 있지만, 자기상관함수 x(b,τ)를 x(b,0)로 제산함으로써 취득된 값을 사용할 수도 있다. 또한, 자기상관함수 x(b,τ)의 계산 방법으로서, 미리 정해진 주파수 대역의 사운드 신호에 대하여 이산 푸리에 변환을 행함으로써 취득되는 스펙트럼의 피크를 사용한 방법을 사용할 수 있다.

주기성 검출 유닛들(52-1 내지 52-4)은 추출된 시간 구간마다의 주기성 정보를 주기성 강도 검출 유닛들(53-1 내지 53-4)과 주기성 정보 통합 유닛(54)에 공급한다. 이하, 주기성 검출 유닛들(52-1 내지 52-4)은 주기성 검출 유닛들(52-1 내지 52-4)을 특히 구별할 필요가 없을 경우, 간단히 주기성 검출 유닛(52)이라고 호칭될 것이다.

주기성 강도 검출 유닛들(53-1 내지 53-4)은 주기성 검출 유닛들(52-1 내지 52-4)로부터 공급되는 시간 구간마다의 주기성 정보에 기초하여 시간 구간마다의 주기성의 강도를 계산한다. 구체적으로, τ=0 근방의 것들 이외의 τ에 대한 주기성 정보로서의 자기상관함수 x(b,τ)의 최댓값이 주기성의 강도로서 계산된다. 이 주기성의 강도가 클수록, 처리 대상으로서의 사운드 신호의 주기성이 커진다. 주기성의 강도가 작을수록, 처리 대상으로서의 사운드 신호의 주기성은 노이즈의 주기성처럼 된다.

주기성 강도 검출 유닛들(53-1 내지 53-4)은 시간 구간마다의 주기성의 강도를, 임계치를 초과하였는지의 여부에 따라 2치화하여, 시간 구간마다의 주기성 강도 정보로 한다. 즉, 시간 구간마다의 주기성의 강도가 미리 정해진 임계치를 초과하는 경우, 주기성 강도 정보는 1로 설정된다. 주기성의 강도가 미리 정해진 임계치 이하인 경우, 주기성 강도 정보는 0으로 설정된다. 주기성 강도 검출 유들(53-1 내지 53-4)은 시간 구간마다의 주기성 강도 정보를 주기성 정보 통합 유닛(54)에 공급한다.

이하, 주기성 강도 검출 유닛들(53-1 내지 53-4)은 주기성 강도 검출 유닛들(53-1 내지 53-4)을 특히 구별할 필요가 없을 경우, 간단히 주기성 강도 검출 유닛(53)이라고 호칭할 것이다.

주기성 정보 통합 유닛(54)은 주기성 검출 유닛(52)으로부터 공급되는 시간 구간마다의 주기성 정보와 주기성 강도 검출 유닛(53)에 공급되는 시간 구간마다의 주기성 강도 정보에 기초하여 시간 구간마다의 주기성 정보를 통합하는 주기성 통합 처리를 행한다. 구체적으로, 주기성 정보 통합 유닛(54)은 다음 식 (1)을 사용해서 시간 구간마다 주기성 정보로서의 자기상관함수 x(b,τ)의 총합을 취득한다.

식 (1)에서, N_b는 주파수 대역의 총수를 나타내고, p(b)는 주기성 강도 정보를 나타낸다. 또한, N_p는 p(b)가 1인 주파수 대역의 수를 나타낸다.

주기성 정보 통합 유닛(54)은 주기성 통합 처리의 결과로서 취득되는 시간 구간마다의 주기성 정보의 총합 S(τ)을 피크 검출 유닛(55)에 공급한다.

피크 검출 유닛(55)은 시간 구간마다, 주기성 정보 통합 유닛(54)으로부터 공급되는 주기성 정보의 총합 S(τ)에 대하여 피크 검출을 행하고, 피크 위치 τ_p의 값이 1이고 피크 위치 τ_p이외의 위치의 값이 0이 되는 피크 정보 P(τ)를 생성한다. 피크 검출 방법으로서, 주기성 정보의 총합 S(τ)의 미분값이 예를 들어, 포지티브값에서 네거티브값으로 변할 때의 인덱스 τ가 피크 위치 τ_p에 있다고 가정함으로써 피크를 검출하는 방법이 있다.

또한, 피크 검출 유닛(55)은 피크 위치 τ_p의 주기성 정보의 총합 S(τ_p)이 미리 정해진 임계치보다 작은 경우, 피크 위치 τ_p의 피크 정보 P(τ_p)를 0이라고 간주할 수 있다. 이러한 구성에 의해, 피크 정보 P(τ_p)의 노이즈를 저감할 수 있다. 또한, 피크 정보는 주기성 정보의 총합 S(τ_p) 자체일 수 있다.

피크 검출 유닛(55)은 시간 구간마다의 피크 정보 P(τ)를 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터로 하여 다운샘플링 유닛(56)에 공급한다.

다운샘플링 유닛(56)은 피크 검출 유닛(55)로부터 공급되는 복수의 시간 구간의 사운드 동기용 특징량, 즉 복수의 시간 구간의 피크 정보 P(τ)를 새로운 시간 구간에 대한 정보로서 통합하고, 최종적인 사운드 동기용 특징량으로서의 피크 정보 P'_i(τ)를 생성한다. 바꾸어 말하자면, 다운샘플링 유닛(56)은 피크 정보 P(τ)를 다운 샘플링함으로써 피크 정보 P'_i(τ)를 생성한다.

P'_i(τ)에서, τ는 시간 지연을 나타내는 인덱스이고, i는 시간 구간을 나타내는 인덱스이다. 다운샘플링 유닛(56)은 이와 같이 하여 얻어진 시간 구간마다의 피크 정보 P'_i(τ)를 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터로 해서 다중화 처리 유닛(24)에 공급한다.

여기서, 도 3을 참조하여 피크 정보 P'_i(τ)의 생성에 대해서 설명할 것이다. 도 3에서, 종축은 시간 지연을 나타내는 인덱스 τ를 나타내고, 횡축은 시간, 즉 시간 구간을 나타내는 인덱스 i를 나타낸다.

이 예에서, 도면의 상측에는 피크 정보 P(τ)의 계열이 나타나 있고, 도면의 하측에는 피크 정보 P'_i(τ)의 계열이 나타나 있다. 특히, 도 3에서는 시간 지연이 τ로 나타나 있고, 인덱스 i에 의해 특정되는 시간 구간의 피크 정보 P(τ)는 P_i(τ)로 나타나 있다. 또한, 각각의 사각형은 시간 구간에서의 피크 정보를 나타낸다. 특히, 백색의 사각형은 사각형으로 나타낸 피크 정보가 0인 것을 나타내고, 흑색의 사각형은 사각형으로 나타낸 피크 정보가 1인 것을 나타낸다.

도면에서, 상측에 나타낸 피크 정보 P_i(τ)에 대한 시간 구간의 길이는 8msec이다. 즉, 피크 정보 P_i(τ)는 8msec의 시간 간격으로 산출된다. 또한, 시간 지연 τ이 동일하고, 시간 방향(시간 구간 방향)으로 인접하는 4개의 피크 정보 P_i(τ)가 하나로 통합되어, 피크 정보 P'_i(τ)가 취득된다. 따라서, 각각의 피크 정보 P'_i(τ)의 시간 구간은 32msec이다.

예를 들어, 다운샘플링 유닛(56)은 다음 식 (2)을 계산함으로써 피크 정보 P_i(τ)를 통합(다운샘플링)하고 피크 정보 P'_i(τ)를 취득한다.

이 식 (2)의 계산시, 통합 이후에 취득된 피크 정보 P'_i(τ)의 값은, 통합되는 4개의 연속하는 피크 정보 P_i(τ) 중에서 피크 정보 P_i(τ) 중 하나 이상이 값 "1"을 갖는 경우 "1"이라고 간주된다. 이와는 대조적으로, 통합 이후에 취득된 피크 정보 P'_i(τ)의 값은, 통합되는 4개의 연속하는 피크 정보 P_i(τ)의 값이 모두 "O"일 경우에, "0"이라고 간주된다.

상술한 바와 같이 시간 구간 방향으로 연속하는 피크 정보 P_i(τ)의 논리합을 구하여 다운샘플링함으로써, 시간 방향으로 배열된 피크 정보의 계열에 포함되어 있는 피크 위치에 관한 정보가 다운샘플링에 의해 제거되는 경우를 제거할 수 있다. 이러한 구성에 의해, 다운샘플링 이후에도, 시간 지연 방향으로 피크 위치에 관한 정보가 어떻게 시프트할지를 유지할 수 있다.

예를 들어, 복수의 시간 구간의 피크 정보 P_i(τ) 중에서 한개의 피크 정보 P_i(τ)의 값이, 피크 정보 P_i(τ)를 다운샘플링하기 위한 다운샘플링 이후의 피크 정보 P'_i(τ)의 값으로서 단순하게 채용되는 경우, 정보량이 충분하지 않고, 동기 계산의 정밀도가 저하된다. 즉, 성능이 열화된다.

구체적으로, 예를 들어 4개의 시간 구간에 걸쳐 피크 위치가 시프트하는 경우, 단순하게 피크 정보 P_i(τ)를 씨닝하여 피크 정보 P'_i(τ)로 하면, 시프트 도중에 시간 구간의 피크 정보 P_i(τ)만이 최종적인 특징량으로서 채용되어, 피크 위치가 시프트한 정보는 상실하게 된다.

이와는 대조적으로, 다운샘플링을 위한 복수의 시간 구간의 피크 정보 P_i(τ)에 기초하여 적절한 값을 피크 정보 P'_i(τ)로서 출력하는 상술한 방법에 따르면, 시프트가 시간 구간에서 발생했다고 하는 정보를, 다운샘플링 이후의 시간 구간내에서 유지할 수 있다. 결과로서, 다운샘플링 처리가 수행되어도 검출 성능을 유지할 수 있다.

게다가, 이러한 다운샘플링 처리를 행함으로써, 사운드 동기용 특징량의 송신량을 삭감할 수 있다. 또한, 계산된 사운드 동기용 특징량을 메모리 또는 스토리지 디바이스에 유지하기 위한 용량을 삭감할 수 있다.

또한, 2개의 사운드 동기용 특징량 간의 동기 처리를 행하기 위한 계산량을 삭감할 수 있다. 동기 처리시의 계산량은 입력 특징량의 길이가 n배만큼 증가함에 따라, n²배만큼 증가하기 때문에, 다운샘플링 처리의 효과는 중요하다. 이와는 대조적으로, 단순하게 씨닝 처리를 행할 경우 동기 검출 성능이 열화되기 때문에, 다운샘플링 유닛(56)에 의한 다운샘플링 방법에서와 같이 필요한 정보를 유지한 채로 다운샘플링을 행하는 처리가 필요하다.

도 3에서는 사운드 동기용 특징량으로서의 피크 정보가 1/4로 다운샘플링된 예에 대해서 설명했지만, 1/2 또는 1/8과 같은 임의의 다른 레이트로 변환(다운샘플링)할 수도 있다.

또한, 피크 정보의 다운샘플링에는 상술한 식 (2)의 계산 방법 이외의 방법이 사용될 수 있다.

예를 들어, 4개의 시간 구간 중에서 2개 이상의 시간 구간의 피크 정보 P_i(τ)의 값이 "1"일 경우에 다운샘플링 이후의 피크 정보 P'_i(τ)의 값은 "1"이라고 간주될 수 있다. 대안적으로, 3개 이상의 시간 구간의 피크 정보 P_i(τ)의 값이 "1"일 경우에 또는 4개의 모든 시간 구간의 피크 정보 P_i(τ)의 값이 "1"일 경우에 다운샘플링 이후의 피크 정보 P'_i(τ)의 값은 "1"이라고 가정될 수 있다.

또한, 4개의 시간 구간 중에서 2개 이상의 연속적인 시간 구간에서의 연속적인 피크 정보 P_i(τ)의 값이 다운샘플링 이전에 "1"일 경우에, 다운샘플링 이후의 피크 정보 P'_i(τ)의 값은 "1"이라고 간주될 수 있고, 3개 이상의 연속적인 시간 구간에서의 피크 정보 P_i(τ)의 값이 "1"일 경우에 다운샘플링 이후의 피크 정보 P'_i(τ)의 값은 "1"이라고 간주될 수 있다.

시간축 방향(시간 구간 방향)으로 피크 정보 P_i(τ)를 다운샘플링하는 방법에 대해서 설명했지만, 피크 정보 P_i(τ)는 시간 지연 τ 방향으로 다운샘플링될 수 있다.

그러한 경우, 다운샘플링 유닛(56)은 다음 식 (3)을 계산함으로써 피크 정보 P_i(τ)를 다운샘플링하고 피크 정보 P'_i(τ)를 구한다.

식 (3)의 계산시, 시간 지연 τ 방향으로 연속적으로 배열되는 동일한 시간 구간에서의 4개의 피크 정보 P_i(τ)가 통합되고 한개의 피크 정보 P'_i(τ)가 구해진다.

이때, 통합되는 4개의 연속하는 피크 정보 P_i(τ) 중에서 피크 정보 P_i(τ)의 하나 이상의 값이 "1"인 경우, 통합에 의해 취득된 피크 정보 P'_i(τ)의 값은 "1"이라고 간주된다. 이와는 대조적으로, 통합되는 4개의 연속하는 피크 정보 P_i(τ)의 값이 모두 "O"일 경우에, 통합에 의해 취득된 피크 정보 P'_i(τ)의 값은 "O"이라고 간주된다.

또한, 피크 정보 P_i(τ)는 시간 구간 i 방향과 시간 지연 τ 방향 양쪽으로 다운샘플링될 수 있다.

그러한 경우, 다운샘플링 유닛(56)은 다음 식 (4)을 계산함으로써 피크 정보 P_i(τ)를 다운샘플링하고, 피크 정보 P'_i(τ)를 구한다.

식 (4)의 계산시, 시간 구간 i 방향으로 연속적으로 배열되는, 동일한 시간 지연 τ을 갖는 2개의 피크 정보 P_i(τ)와, 상술한 2개의 피크 정보 P_i(τ)에 대하여 시간 지연 τ 방향으로 인접하도록 배열되는 2개의 피크 정보 P_i(τ)를 포함하는 합계 4개의 피크 정보 P_i(τ)가 통합되고, 하나의 피크 정보 P'_i(τ)가 취득된다.

이때, 통합되는 4개의 피크 정보 P_i(τ) 중에서 피크 정보 P_i(τ)의 1개 이상의 값이 "1"인 경우, 통합에 의해 취득된 피크 정보 P'_i(τ)의 값은 "1"이라고 간주된다. 이와는 대조적으로, 통합되는 4개의 피크 정보 P_i(τ)의 값이 모두 "0"일 경우에, 통합에 의해 취득된 피크 정보 P'_i(τ)의 값은 "O"으로 간주된다.

다운샘플링 유닛(56)은 피크 정보 P(τ)를 다운샘플링하여 피크 정보 P'_i(τ)를 구하고 새롭게 얻어진 시간 구간마다의 피크 정보 P'_i(τ)를 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터로 하여 다중화 처리 유닛(24)에 공급한다.

<콘텐츠 재생 시스템의 구성예>

다음으로, 제공 장치(11)로부터 송신되는 메인 송신 신호와 서브 송신 신호를, 각각 메인 수신 신호 및 서브 수신 신호로서 수신하고, 메인 콘텐츠와 서브 콘텐츠를 재생하는 콘텐츠 재생 시스템의 구성에 대해서 설명할 것이다. 이러한 콘텐츠 재생 시스템은 예를 들어, 도 4에 도시된 바와 같이 구성된다.

도 4에 도시된 콘텐츠 재생 시스템은 메인 수신 디바이스(81), 표시 유닛(82), 스피커(83), 마이크로폰(84), 서브 수신 디바이스(85), 표시 유닛(86), 및 스피커(87)를 포함한다. 여기에서는, 콘텐츠 재생 시스템이 복수의 장치로 구성되는 경우가 도시되어 있지만, 콘텐츠 재생 시스템은 단일 장치로 구성될 수 있다.

메인 수신 디바이스(81)는 제공 장치(11)로부터 송신되는 메인 수신 신호를 수신하고 메인 수신 신호로부터 취득되는 메인 콘텐츠의 재생을 제어한다.

메인 수신 디바이스(81)는 입력 유닛(111) 및 재생 처리 유닛(112)을 포함한다.

입력 유닛(111)은 제공 장치(11)로부터 송신되는 메인 송신 신호를 메인 수신 신호로서 수신하여 그 메인 수신 신호를 재생 처리 유닛(112)에 공급한다. 재생 처리 유닛(112)은 입력 유닛(111)으로부터 공급되는 메인 수신 신호에 포함되어 있는 메인 콘텐츠의 화상 신호와 사운드 신호를 추출하고, 화상 신호를 표시 유닛(82)에 공급하고, 표시 유닛(82)이 화상 신호를 재생하게 하고, 사운드 신호를 스피커(83)에 공급하고, 스피커(83)가 그 사운드 신호를 재생하게 한다. 즉, 재생 처리 유닛(112)은 메인 콘텐츠의 재생을 제어한다.

표시 유닛(82)은 예를 들어, 액정 표시 장치로 구성되고, 재생 처리 유닛(112)으로부터 공급되는 화상 신호에 기초하여 메인 콘텐츠의 화상(영상)을 표시한다. 스피커(83)는 사운드 재생 장치이며, 재생 처리 유닛(112)으로부터 공급되는 사운드 신호에 기초하여 메인 콘텐츠의 사운드를 출력한다.

마이크로폰(84)은 스피커(83)로부터 출력되는 메인 콘텐츠의 사운드를 수집하고, 그 결과로서 취득된 사운드 신호를 서브 수신 디바이스(85)에 공급한다.

서브 수신 디바이스(85)는 제공 장치(11)로부터 송신되는 서브 송신 신호를 서브 수신 신호로서 수신하고, 서브 수신 신호로부터 취득되는 서브 콘텐츠의 재생을 제어한다.

서브 수신 디바이스(85)는 사운드 동기용 특징량 계산 유닛(121), 버퍼(122), 입력 유닛(123), 분리 처리 유닛(124), 버퍼(125), 동기 계산 유닛(126), 및 재생 처리 유닛(127)을 포함한다.

사운드 동기용 특징량 계산 유닛(121)은 마이크로폰(84)으로부터 공급되는 사운드 신호로부터 사운드 동기용 특징량을 계산하고, 그 사운드 동기용 특징량을 버퍼(122)에 공급한다. 버퍼(122)는 사운드 동기용 특징량 계산 유닛(121)으로부터 공급되는 사운드 동기용 특징량을 일시적으로 기록한다.

입력 유닛(123)은 제공 장치(11)로부터 송신되는 서브 수신 신호를 수신하고 그 서브 수신 신호를 분리 처리 유닛(124)에 공급한다. 분리 처리 유닛(124)은 입력 유닛(123)으로부터 공급되는 서브 수신 신호를 사운드 동기용 특징량과 서브 채널 신호로 분리하여 그 사운드 동기용 특징량과 서브 채널 신호를 버퍼(125)에 공급한다. 버퍼(125)는 분리 처리 유닛(124)으로부터 공급되는 사운드 동기용 특징량과 서브 채널 신호를 일시적으로 기록한다.

동기 계산 유닛(126)은 버퍼(122)에 기록되어 있는 사운드 동기용 특징량과 버퍼(125)에 기록되어 있는 사운드 동기용 특징량에 기초하여 메인 콘텐츠와 서브 콘텐츠를 동기시키기 위한 사운드 특징량에 따라 동기 보정 정보를 생성하고, 그 동기 보정 정보를 재생 처리 유닛(127)에 공급한다. 즉, 동기 계산 유닛(126)은 사운드 수집에 의해 취득된 사운드 신호로부터 추출된 사운드 동기용 특징량과 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량 간의 매칭 처리에 의해 메인 콘텐츠와 서브 콘텐츠 간의 재생 시간의 어긋남을 검출하고, 그 어긋남을 나타내는 사운드 특징량에 기초하는 동기 보정 정보를 생성한다.

재생 처리 유닛(127)은 동기 계산 유닛(126)로부터 공급되는 동기 보정 정보에 기초하여, 버퍼(125)에 기록되어 있는 서브 채널 신호의 재생 타이밍(시간)을 보정하고, 서브 채널 신호로서의 화상 신호와 사운드 신호를 각각 표시 유닛(86) 및 스피커(87)에 공급한다. 즉, 재생 처리 유닛(127)은 서브 콘텐츠의 재생을 제어한다. 예를 들어, MPEG-4 시스템을 사용하여 사운드 동기용 특징량을 미디어 오브젝트로서 다루고, 서브 채널 신호의 미디어 오브젝트와 동기 및 다중화될 경우에, 각각의 미디어 오브젝트의 최소 단위인 액세스 단위(AU)에는 각각 시간 속성이 정의되기 때문에, 상술한 동기 보정 정보로부터 서브 채널 신호의 미디어 오브젝트의 적절한 재생 타이밍(시간)을 계산할 수 있다.

표시 유닛(86)은 예를 들어, 액정 표시 장치로 구성되고, 재생 처리 유닛(127)으로부터 공급되는 화상 신호에 기초하여 서브 콘텐츠의 화상(영상)을 표시한다. 스피커(87)는 사운드 재생 장치이며, 재생 처리 유닛(127)으로부터 공급되는 사운드 신호에 기초하여 서브 콘텐츠의 사운드를 출력한다.

<사운드 동기용 특징량 계산 유닛의 구성예>

보다 상세하게, 도 4에 도시된 계산 유닛(121)은 예를 들어, 도 5에 도시된 바와 같이 구성된다.

사운드 동기용 특징량 계산 유닛(121)은 주파수 대역 분할 유닛(151), 주기성 검출 유닛들(152-1 내지 152-4), 주기성 강도 검출 유닛들(153-1 내지 153-4), 주기성 정보 통합 유닛(154) 및 피크 검출 유닛(155)을 포함한다.

또한, 주파수 대역 분할 유닛(151) 내지 피크 검출 유닛(155)은 도 2에 도시된 주파수 대역 분할 유닛(51) 내지 피크 검출 유닛(55)과 동일하기 때문에, 그에 대한 설명은 생략될 것이다. 그러나, 주파수 대역 분할 유닛(151)과 주파수 대역 분할 유닛(51)에 대해서는 윈도우 함수의 시프트 시간을 상이한 값으로 설정할 수도 있다. 예를 들어, 서브 수신 디바이스(85)가 충분한 계산 리소스를 가지고 있는 경우에, 주파수 대역 분할 유닛(151)에 의해 보다 짧은 시프트 시간을 사용함으로써 보다 미세한 입도를 갖는 사운드 동기용 특징량을 추출할 수 있다.

이하, 주기성 검출 유닛들(152-1 내지 152-4)을 특별히 구별할 필요가 없을 경우, 주기성 검출 유닛들(152-1 내지 152-4)은 간단히 주기성 검출 유닛들(152)이라고 칭할 것이며, 주기성 강도 검출 유닛들(153-1 내지 153-4)을 특별히 구별하는 필요가 없을 경우, 주기성 강도 검출 유닛들(153-1 내지 153-4)은 주기성 강도 검출 유닛들(153)이라고 칭할 것이다.

<동기 계산 유닛의 구성예>

보다 구체적으로, 도 4에 도시된 동기 계산 유닛(126)은 예를 들어, 도 6에 도된 바와 같이 구성된다.

도 6에 도시된 동기 계산 유닛(126)은 프레임 레이트 변환 유닛(181), 프레임 레이트 변환 유닛(182), 블록 통합 유닛(183), 블록 통합 유닛(184), 유사도 계산 유닛(185) 및 최적 패스 검색 유닛(186)을 포함한다.

프레임 레이트 변환 유닛(181)은 버퍼(122)로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 판독하고, 사운드 동기용 특징량의 프레임 레이트를 변환하여 그 변환된 프레임 레이트를 갖는 사운드 동기용 특징량을 블록 통합 유닛(183)에 공급한다. 본 명세서에 기술되는 프레임 레이트는 사운드 동기용 특징량의 시계열 데이터에서의 단위 시간당의 시간 구간의 수, 즉 시간 구간의 길이를 나타낸다.

프레임 레이트 변환 유닛(182)은 버퍼(125)로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 판독하고, 사운드 동기용 특징량의 프레임 레이트를 변환하여 그 변환된 프레임 레이트를 갖는 사운드 동기용 특징량을 블록 통합 유닛(184)에 공급한다.

버퍼(122) 및 버퍼(125)에 각각 보유되어 있는 사운드 동기용 특징량은 각각 일부 경우에 상이한 프레임 레이트, 즉 상이한 시간 구간의 길이를 갖는다.

예를 들어, 제공 장치(11)로부터 제공되는 서브 콘텐츠(서브 송신 신호)의 송신 비트 레이트를 감소시키기 위해 서브 송신 신호에 포함되어 있는 사운드 동기용 특징량이 낮은 레이트를 갖도록 설정되는 한편, 마이크로폰(84)에 의해 수집된 사운드로부터 계산되는 사운드 동기용 특징량은 송신할 필요가 없기 때문에 높은 레이트로 설정되는 경우가 고려될 수 있다.

이러한 경우, 예를 들어 도 7에 도시된 바와 같이, 마이크로폰(84)에 의해 수집된 사운드로부터 계산되는 사운드 동기용 특징량을 다운샘플링 유닛(56)의 방법과 같은 방법을 사용하여 다운샘플링하는 것을 고려할 수 있다. 또한, 도 7에서 각각의 화살표들 Q11 내지 Q14로 나타낸 사운드 동기용 특징량으로서의 피크 정보의 종축은 시간 지연 τ을 나타내고, 횡축은 시간 구간 i를 나타낸다. 또한, 사각형은 시간 구간에서의 피크 정보를 나타낸다.

이 예에서, 제공 장치(11)측에서는, 화살표 Q11로 나타낸 바와 같이 사운드 동기용 특징량으로서의 피크 정보가 취득되고나서, 다운샘플링되어, 화살표 Q12로 나타낸 더 긴 시간 구간에서의 피크 정보로서 서브 수신 디바이스(85)에 송신된다. 여기에서, 8msec에 대응하는 시간 구간에서의 피크 정보는 32msec에 대응하는 시간 구간에서의 피크 정보를 취득하기 위해 프레임 레이트 변환(다운샘플링)된다.

이와는 대조적으로, 서브 수신 디바이스(85)의 사운드 동기용 특징량 계산 유닛(121)은 메인 수신 디바이스(81)에 의해 재생된 메인 콘텐츠의 사운드를 수집하여 취득된 사운드 신호로부터 사운드 동기용 특징량을 계산하고, 그 결과로서 화살표 Q13로 나타낸 피크 정보를 사운드 동기용 특징량으로서 취득한다. 여기에서, 화살표 Q13로 나타낸 피크 정보는 8msec에 대응하는 시간 구간마다 계산된다.

이와 같이 하여 사운드 동기용 특징량 계산 유닛(121)에 의해 취득된 사운드 동기용 특징량과 제공 장치(11)로부터 수신된 사운드 동기용 특징량은 상이한 시간 구간의 길이, 즉 상이한 프레임 레이트를 갖는다. 따라서, 프레임 레이트 변환 유닛(181)은 사운드 동기용 특징량의 프레임 레이트가 서로 일치하도록, 사운드 동기용 특징량 계산 유닛(121)에 의해 취득된 사운드 동기용 특징량에 대하여 프레임 레이트 변환으로서 다운샘플링을 행하고, 화살표 Q14로 나타낸 사운드 동기용 특징량으로서의 피크 정보를 취득한다. 화살표 Q14로 나타낸 사운드 동기용 특징량은 32msec의 시간 구간에서의 피크 정보이다.

프레임 레이트(시간 구간의 길이)가 서로 일치하도록 정렬된 후, 사운드 동기용 특징량이 사용되어 동기 계산이 행하여진다. 상술한 바와 같이 서브 수신 디바이스(85)측에서 사운드 동기용 특징량의 다운샘플링을 행함으로써, 임의의 프레임 레이트(비트 레이트)를 다룰 수 있다.

또한, 서브 수신 디바이스(85)에 송신되는 사운드 동기용 특징량은 높은 레이트를 갖지만 마이크로폰(84)에 의해 수집되는 사운드로부터 계산되는 사운드 동기용 특징량이 낮은 레이트를 갖는 케이스도 있다. 예를 들어, 서브 수신 디바이스(85)의 계산 리소스가 충분하지 않고 사운드 동기용 특징량의 계산에 필요한 계산량을 줄이기 위해 프레임 시프트량이 증가되는 케이스가 있다.

그러한 경우, 예를 들어 도 8의 화살표 Q21로 나타낸 서브 송신 신호에 포함되어 있는 사운드 동기용 특징량의 프레임 레이트는, 다운샘플링 유닛(56)의 방법과 동일한 방법을 사용함으로써 프레임 레이트 변환 유닛(182)에 의해 다운샘플링되고, 화살표 Q22로 나타낸 사운드 동기용 특징량이 취득된다. 도 8에서, 각각의 화살표들 Q21 내지 Q23로 나타낸 사운드 동기용 특징량으로서의 피크 정보의 종축은 시간 지연 τ을 나타내고, 그 횡축은 시간 구간 i을 나타낸다. 또한, 사각형은 시간 구간에서의 피크 정보를 나타낸다.

이 예에서, 8msec의 시간 구간에서의 피크 정보는 32msec의 시간 구간에서의 피크 정보를 취득하기 위해 프레임 레이트 변환(다운샘플링)된다.

또한, 서브 수신 디바이스(85)의 사운드 동기용 특징량 계산 유닛(121)은 메인 수신 디바이스(81)에 의해 재생되는 메인 콘텐츠의 사운드를 수집하여 취득된 사운드 신호로부터 사운드 동기용 특징량을 계산하고, 그 결과로서 화살표 Q23로 나타낸 피크 정보가 사운드 동기용 특징량으로서 취득된다. 여기에서, 화살표 Q23로 나타낸 피크 정보는 32msec의 시간 구간마다 계산된다.

상술한 바와 같이 서브 송신 신호에 포함되어 있는 사운드 동기용 특징량을 다운샘플링함으로써, 서브 송신 신호에 포함되어 있는 사운드 동기용 특징량의 프레임 레이트와 서브 수신 디바이스(85)에 의해 계산되는 사운드 동기용 특징량의 프레임 레이트는 서로 일치하게 될 수 있다.

또한, 상술한 설명에서는 더 높은 프레임 레이트를 갖는 사운드 동기용 특징량을 다운샘플링함으로써 프레임 레이트가 서로 일치되었지만, 더 낮은 프레임 레이트를 갖는 사운드 동기용 특징량을 업샘플링함으로써 프레임 레이트가 서로 일치될 수 있다.

그러한 경우, 예를 들어 도 9에 도시한 바와 같이 서브 송신 신호에 포함되어 있는 사운드 동기용 특징량의 프레임 레이트는 프레임 레이트 변환 유닛(182)에 의해 업샘플링된다. 도 9에서, 각각의 화살표들 Q31 내지 Q34로 나타낸 사운드 동기용 특징량으로서의 피크 정보의 종축은 시간 지연 τ을 나타내고, 횡축은 시간 구간 i을 나타낸. 또한, 사각형은 시간 구간에서의 피크 정보를 나타낸다.

이 예에서, 제공 장치(11)측에서는, 화살표 Q31로 나타낸 바와 같이 사운드 동기용 특징량으로서의 피크 정보가 취득되고나서, 다운샘플링되어 화살표 Q32로 나타낸 바와 같이, 더 긴 시간 구간에서의 피크 정보로서 서브 수신 디바이스(85)에 송신된다. 여기에서, 8msec의 시간 구간에서의 피크 정보는 32msec의 시간 구간에서의 피크 정보를 취득하기 위해 프레임 레이트 변환(다운샘플링)된다.

이와는 대조적으로, 서브 수신 디바이스(85)의 사운드 동기용 특징량 계산 유닛(121)은 메인 수신 디바이스(81)에 의해 재생되는 메인 콘텐츠의 사운드를 수집하여 취득된 사운드 신호로부터 사운드 동기용 특징량을 계산하고, 그 결과로서 화살표 Q33로 나타낸 피크 정보를 사운드 동기용 특징량으로서 취득한다. 여기에서, 화살표 Q33로 나타낸 피크 정보는 8msec의 시간 구간마다 계산된다.

이 예에서, 사운드 동기용 특징량 계산 유닛(121)에 의해 계산되는 사운드 동기용 특징량과 제공 장치(11)로부터 수신된 사운드 동기용 특징량의 프레임 레이트는 서로 일치하지 않는다.

따라서, 프레임 레이트 변환 유닛(182)은 제공 장치(11)로부터 수신되는 사운드 동기용 특징량으로서의 피크 정보를 업샘플링하고 화살표 Q34로 나타낸 8msec의 시간 구간에서의 피크 정보를 계산함으로써, 동기 계산에 사용하는 사운드 동기용 특징량의 시간 동기의 입도를 균일화한다. 예를 들어, 프레임 레이트 변환 유닛(182)은 다음 식 (5)을 계산함으로써 취득된 피크 정보를 업샘플링한다.

식 (5)의 계산에서, 시간 지연 τ이 동일하고, 시간 방향(시간 구간 방향)으로 인접하는 업샘플링 이후의 4개의 피크 정보 P_i(τ)와 동일 위치 관계에 있는 업 샘플링 이전의 피크 정보 P'_i(τ)의 값은, 변화없이 업샘플링 이후의 4개의 각각의 피크 정보 P_i(τ)의 값으로 간주된다.

상술한 바와 같이 동기 계산에 사용하는 사운드 동기용 특징량을 더 높은 프레임 레이트에 따라 적절히 업샘플링함으로써, 추정적으로 고분해능과 함께 동기 정밀도를 실현할 수 있다.

또한, 서브 수신 디바이스(85)에서의 계산 리소스를 줄이기 위해, 서브 송신 신호에 포함되어 있는 사운드 동기용 특징량과 사운드 동기용 특징량 계산 유닛(121)에 의해 산출된 사운드 동기용 특징량 양쪽을 다운샘플링할 수도 있다.

상술한 바와 같이 프레임 레이트 변환 유닛(181) 및 프레임 레이트 변환 유닛(182)을 제공함으로써, 상이한 프레임 레이트를 갖는 사운드 동기용 특징량들을 동기화시킬 수 있다. 또한, 연산 리소스와 송신 대역 등에 따라 다양한 프레임 레이트를 지정할 수 있고, 시스템의 유연성을 향상시킬 수 있다.

도 6의 설명으로 되돌아가면, 블록 통합 유닛(183)은 프레임 레이트 변환 유닛(181)으로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터의 공급을 받고, 연속하는 복수(예를 들어, 64개)의 시간 구간을 하나의 블록으로 간주하여 블록 단위로 통합한다. 블록 통합 유닛(183)은 블록 단위의 사운드 동기용 특징량의 시계열 데이터를 유사도 계산 유닛(185)에 공급한다.

블록 통합 유닛(184)은 프레임 레이트 변환 유닛(182)으로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터의 공급을 받고, 연속하는 복수(예를 들어 64개)의 시간 구간을 하나의 블록으로 간주하여 블록 단위로 통합한다. 블록 통합 유닛(184)은 블록 단위의 사운드 동기용 특징량의 시계열 데이터를 유사도 계산 유닛(185)에 공급한다.

또한, 블록을 구성하는 복수의 시간 구간은 반드시 연속하는 시간 구간이 아니어도 된다. 예를 들어, 복수의 짝수번째 시간 구간이 하나의 블록으로 간주될 수 있고, 복수의 홀수번째 시간 구간은 하나의 블록으로 간주될 수 있다. 이 경우, 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터에 대해 씨닝 처리를 행할 수 있기 때문에, 연산량을 줄일 수 있다.

유사도 계산 유닛(185)은 블록 통합 유닛(183)과 블록 통합 유닛(184)으로부터 공급되는 블록 단위의 사운드 동기용 특징량의 시계열 데이터들 간의 유사도를 계산하고, 블록들 간의 유사도를 나타내는 유사도 매트릭스를 생성한다. 유사도 계산 유닛(185)은 유사도 매트릭스를 최적 패스 검색 유닛(186)에 공급한다.

최적 패스 검색 유닛(186)은 유사도 계산 유닛(185)으로부터 공급되는 유사도 매트릭스로부터 최적인 유사도의 패스를 검색하고, 그 패스에 대한 유사도에 대응하는 2개의 블록 간의 시간 차이를 나타내는 정보를 사운드 특징량에 기초하는 동기 보정 정보로서 생성한다. 다음으로, 최적 패스 검색 유닛(186)은 사운드 특징량에 기초하는 동기 보정 정보를 재생 처리 유닛(127)에 공급한다.

상술한 바와 같이, 동기 계산 유닛(126)은 사운드 신호의 피치 정보에 기초하여 사운드 특징량에 따른 동기 보정 정보를 생성한다. 따라서, 사운드 신호마다 상이한 노이즈가 포함되어 있는 경우에도, 강건하게 사운드 특징량에 기초하는 동기 보정 정보를 생성할 수 있다.

즉, 사람은 주파수 특성을 갖는 복수의 사운드를 들었을 경우, 동일한 기본 주파수를 갖는 사운드, 즉 피치가 동일한 사운드를 인식함으로써, 노이즈가 사운드에 포함되어 있는 경우에도 공통 성분을 용이하게 인식할 수 있다. 본 기술은 그러한 사실을 고려하여 달성되며, 피치 정보에 기초하여 동기 보정 정보를 생성함으로써, 노이즈에 대하여 강건하게 동기 보정 정보를 생성한다.

<유사도의 계산과 최적인 유사도의 패스의 검색에 대해서>

여기에서, 유사도의 계산과 최적인 유사도의 패스의 검색에 대해서 설명할 것이다.

도 10은 유사도의 계산의 대상으로서의 블록들을 예시한 도면이다.

도 10에서, i는 사운드 동기용 특징량 계산 유닛(121)에 의해 취득된 사운드 동기용 특징량의 블록의 인덱스이고, j는 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량의 블록의 인덱스이다. 보다 구체적으로, 이들 사운드 동기용 특징량은 적절하게 프레임 레이트 변환 유닛(181) 또는 프레임 레이트 변환 유닛(182)에 의해 프레임 레이트 변환되지만, 본 명세서에서는 설명을 간단하게 하기 위해서, 프레임 레이트 변환이 행해지지 않는 것으로 가정하여 유사도의 계산에 관한 설명을 계속할 것이다.

또한, X(i)는 사운드 동기용 특징량 계산 유닛(121)에 의해 취득되는 사운드 동기용 특징량들 중에서 인덱스 j의 블록의 사운드 동기용 특징량의 시계열 데이터를 나타내고, Y(j)는 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량들 중에서 인덱스 j의 블록의 사운드 동기용 특징량의 시계열 데이터를 나타낸다.

도 10에 도시된 바와 같이, 유사도의 계산의 대상은 n개의 X(i) 각각과 m개의 Y(j) 각각 간의 n×m개의 조합이다.

도 11은 유사도의 계산 방법을 예시한 도면이다.

도 11의 매트릭스에서, 횡축은 블록 내의 시간 구간의 선두로부터의 개수를 나타내는 블록 내 시간 구간 번호를 나타내고, 종축은 인덱스 τ를 나타낸다. 또한, 백색의 정사각형은 대응하는 블록 내 시간 구간 번호에 대응하는 시간 구간에서의 인덱스 τ의 사운드 동기용 특징량의 시계열 데이터 P(τ)가 0인 것을 나타내고, 흑색의 정사각형은 시계열 데이터 P(τ)가 1인 것을 나타낸다. 또한, 도 11의 예에서는, 블록을 구성하는 시간 구간의 개수가 4개이며, τ가 0 내지 3이다.

도 11에 나타낸 바와 같이 X(i)와 Y(j) 간의 유사도를 계산할 경우, 우선 X(i)와 Y(j)의 논리곱 X(i)∩Y(j)이 계산되고, 이어서 X(i)와 Y(j) 간의 논리합 X(i)∪Y(j)이 계산된다. 도 11에 도시된 바와 같이, 각각이 9개의 0과 7개의 1로 구성되는 X(i)와 Y(j)의 유사도를 계산할 경우, 우선 12개의 O과 4개의 1로 구성되는 논리곱 X(i)∩Y(j)이 계산되고, 6개의 O와 10개의 1로 구성되는 논리합 X(i)∪Y(j)이 계산된다.

다음으로, 다음 식 (6)에 의해, 논리곱 X(i)∩Y(j)에서의 1의 수인 Number(X(i)∩Y(j))와 논리합에서의 1의 수인 Number(X(i)∩Y(j))에 기초하여 X(i)와 Y(j) 간의 유사도 A(i,j)가 계산된다.

도 11의 예에서, Number(X(i)∩Y(j))은 4이고, Number(X(i)∪Y(j))은 10이기 때문에, 유사도 A(i,j)는 0.4가 된다.

사운드 동기용 특징량의 시계열 데이터로서 주기성 정보의 총합 S(τ)을 채용한 경우, 유사도의 계산 방법으로서 코사인 거리를 사용하여 유사도를 계산하는 방법을 채용할 수 있다.

또한, 유사도 매트릭스는 인덱스 i와 인덱스 j에 대응하는 각 포인트에서의 유사도 A(i,j)를 나타내는 정보이며, 여기서 횡축은 인덱스 j를 나타내고 종축은 인덱스 i를 나타낸다.

최적 패스 검색 유닛(186)은 동적 프로그래밍 방법을 사용하여, 유사도 매트릭스상의 패스의 유사도의 적산값이 최대가 되는 유사도의 패스를 최적인 유사도의 패스로서 검색한다. 최적 패스 검색 유닛(186)은 최적인 유사도의 패스상의 유사도에 대응하는 인덱스의 차분 i-j을 사운드 특징량에 기초하는 동기 보정 정보로서 생성한다.

<송신 처리의 설명>

다음으로, 제공 장치(11)의 동작에 대해서 설명할 것이다.

제공 장치(11)는 서로 시간 동기화되는 메인 채널 신호와 서브 채널 신호가 공급되면, 송신 처리를 행하고, 메인 송신 신호 및 서브 송신 신호를 송신한다. 이하, 도 12의 흐름도를 참조하여, 제공 장치(11)에 의한 송신 처리에 대해서 설명할 것이다.

스텝 S11에서, 사운드 동기용 특징량 계산 유닛(23)은 사운드 동기용 특징량 산출 처리를 행하여 공급된 메인 채널 신호를 구성하는 사운드 신호로부터, 사운드 동기용 특징량을 계산하고, 이 사운드 동기용 특징량을 다중화 처리 유닛(24)에 공급한다.

사운드 동기용 특징량 산출 처리의 상세한 설명은 후술될 것이다.

스텝 S12에서, 변환 유닛(21)은 공급된 메인 채널 신호를 시스템에 의해 정의된 미리 정해진 송신 포맷의 신호로 변환함으로써 메인 송신 신호를 생성하고, 취득된 메인 송신이 말호를 출력 유닛(22)에 공급한다.

스텝 S13에서, 출력 유닛(22)은 변환 유닛(21)으로부터 공급되는 메인 송신 신호를 송신한다.

스텝 S14에서, 다중화 처리 유닛(24)은 사운드 동기용 특징량과 서브 채널 신호 간의 다중화 처리를 행하고, 그 결과로서 취득된 서브 송신 신호를 출력 유닛(25)에 공급한다.

예를 들어, 다중화 처리 유닛(24)은 공급된 메인 채널 신호를 사용하여, 사운드 동기용 특징량 계산 유닛(23)로부터의 사운드 동기용 특징량과 공급된 서브 채널 신호 간의 시간 동기 관계가 만족되도록 시스템에 의해 정의된 송신 포맷으로 사운드 동기용 특징량과 서브 채널 신호를 다중화한다.

이러한 구성에 의해, 예를 들어 도 13에 나타낸 서브 송신 신호가 취득된다.

도 13의 예에서, 서브 송신 신호로서의 비트 스트림에서의 구간 T11과 구간 T12는 각각 하나의 프레임의 화상 신호, 사운드 신호 및 사운드 동기용 특징량을 포함한다.

예를 들어, 구간 T11에 포함되는 화상 신호와 사운드 신호는 하나의 프레임의 서브 채널 신호에 대응하고, 구간 T11에 포함되는 사운드 동기용 특징량은 서브 채널 신호에 시간적으로 대응하는 프레임의 메인 채널 신호로부터 추출되는 사운드 동기용 특징량이다. 상술한 바와 같이, 서브 송신 신호에서는, 동일한 프레임의 서브 채널 신호와 사운드 동기용 특징량이 연관되어 다중화되고, 서브 송신 신호의 수신측에서는, 각각의 프레임의 서브 채널 신호에 대응하는 사운드 동기용 특징량을 특정할 수 있다.

도 12의 흐름도의 설명으로 되돌아가면, 스텝 S15에서, 출력 유닛(25)은 다중화 처리 유닛(24)로부터 공급되는 서브 송신 신호를 송신하고, 송신 처리를 종료한다.

상술한 바와 같이, 제공 장치(11)는 메인 채널 신호로부터 취득된 사운드 동기용 특징량과 서브 채널 신호를 연관시켜서 다중화함으로써 서브 송신 신호를 생성하고, 서브 송신 신호와 메인 송신 신호를 송신한다.

상술한 바와 같이, 서브 채널 신호와 사운드 동기용 특징량을 연관시켜서 송신함으로써, 수신측에서는 메인 채널 신호와 서브 채널 신호를 상이한 송신 경로를 통해 복수의 상이한 디바이스에 의해 수신되는 경우에서도 사운드 동기용 특징량을 사용하여 메인 콘텐츠와 서브 콘텐츠를, 동기를 유지하면서 재생할 수 있다.

<사운드 동기용 특징량 계산 처리의 설명>

다음으로, 도 14의 흐름도를 참조하여 도 12의 스텝 S11에서의 처리에 대응하는 사운드 동기용 특징량 계산 처리에 대해서 설명할 것이다.

스텝 S41에서, 주파수 대역 분할 유닛(51)은 공급된 사운드 신호를 윈도우 함수를 사용하여 약 수 10msec 내지 약 100msec의 시간 구간으로 분할한다.

스텝 S42에서, 주파수 대역 분할 유닛(51)은 복수의 대역 통과 필터를 사용하여 시간 구간마다의 사운드 신호를 4개의 주파수 대역으로 분할한다. 주파수 대역 분할 유닛(51)은 각각의 주파수 대역의 사운드 신호를 주기성 검출 유닛들(52-1 내지 52-4) 각각에 공급한다.

스텝 S43에서, 주기성 검출 유닛(52)은 주파수 대역 분할 유닛(51)으로부터 공급되는 미리 정의된 주파수 대역의 시간 구간마다의 사운드 신호의 자기상관함수 x (b,τ)를 계산함으로써, 시간 구간마다의 주기성 정보를 추출하고, 그 주기성 정보를 주기성 강도 검출 유닛(53) 및 주기성 정보 통합 유닛(54)에 공급한다. 또한, 스텝 S43에서의 처리는 주기성 검출 유닛(52) 마다 행해진다.

스텝 S44에서, 주기성 강도 검출 유닛(53)은 주기성 검출 유닛(52)으로부터 공급되는 시간 구간마다의 주기성 정보에 기초하여, 시간 구간마다의 주기성의 강도를 계산한다. 다음으로, 주기성 강도 검출 유닛(53)은 시간 구간마다의 주기성의 강도를 임계치를 초과한 것인지의 여부에 따라 2치화함으로써, 시간 구간마다의 주기성 강도 정보를 생성하고, 그 주기성 강도 정보를 주기성 정보 통합 유닛(54)에 공급한다. 또한, 스텝 S44에서의 처리는 주기성 강도 검출 유닛(53) 마다 행해진다.

스텝 S45에서, 주기성 정보 통합 유닛(54)은 주기성 검출 유닛(52)으로부터 공급되는 시간 구간마다의 주기성 정보와 주기성 강도 검출 유닛(53)으로부터 공급되는 시간 구간마다의 주기성 강도 정보에 기초하여, 상술한 식 (1)을 사용하여 주기성 통합 처리를 행한다. 주기성 정보 통합 유닛(54)은 주기성 통합 처리의 결과로서 취득되는 시간 구간마다의 주기성 정보의 총합 S(τ)을 피크 검출 유닛(55)에 공급한다.

스텝 S46에서, 피크 검출 유닛(55)은 시간 구간마다, 주기성 정보 통합 유닛(54)으로부터 공급되는 주기성 정보의 총합 S(τ)에 대하여 피크 검출을 행하고, 피크 정보 P(τ)를 생성하여, 이 피크 정보 P(τ)를 다운샘플링 유닛(56)에 공급한다.

스텝 S47에서, 다운샘플링 유닛(56)은 피크 검출 유닛(55)으로부터 공급되는 복수의 시간 구간에의 피크 정보 P(τ)를 하나의 시간 구간에 통합함으로써, 피크 정보의 다운샘플링 처리를 행한다.

다운샘플링 유닛(56)은 상술한 바와 같이 취득된 시간 구간마다의 피크 정보를 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터로서 다중화 처리 유닛(24)에 공급하고, 사운드 동기용 특징량 산출 처리를 종료한다. 사운드 동기용 특징량 산출 처리가 종료하면, 처리는 도 12의 스텝 S12로 진행한다.

사운드 동기용 특징량 계산 유닛(23)은 상술한 바와 같이 주기성 정보에 기초하여 사운드 동기용 특징량을 산출하기 때문에, 사운드 동기용 특징량을 강건하게 생성할 수 있다.

<메인 콘텐츠 재생 처리의 설명>

제공 장치(11)로부터 메인 송신 신호가 송신되면, 콘텐츠 재생 시스템은 그 메인 송신 신호를를 메인 수신 신호로서 취득하고, 메인 콘텐츠를 재생한다. 이하, 도 15의 흐름도를 참조하여 콘텐츠 재생 시스템에 의한 메인 콘텐츠 재생 처리에 대해서 설명할 것이다.

스텝 S71에서, 입력 유닛(111)은 메인 수신 신호를 취득하여 그 메인 수신 신호를 재생 처리 유닛(112)에 공급한다. 예를 들어, 입력 유닛(111)은 제공 장치(11)로부터 송신되는 메인 수신 신호를 수신함으로써, 메인 수신 신호를 취득한다.

스텝 S72에서, 재생 처리 유닛(112)은 입력 유닛(111)으로부터 공급되는 메인 수신 신호에 기초하여 메인 콘텐츠를 재생하고 메인 콘텐츠 재생 처리를 종료한다.

예를 들어, 재생 처리 유닛(112)은 메인 수신 신호로부터 메인 콘텐츠의 화상 신호와 사운드 신호를 추출하고, 화상 신호를 표시 유닛(82)에 공급하여 표시 유닛(82)이 화상 신호를 재생하게 하고, 사운드 신호를 스피커(83)에 공급하여 스피커(83)가 사운드 신호를 재생하게 한다. 이러한 구성에 의해, 메인 콘텐츠가 재생된다.

상술한 바와 같이, 콘텐츠 재생 시스템은 메인 수신 신호를 취득하여 메인 콘텐츠를 재생한다.

<서브 콘텐츠 재생 처리의 설명>

또한, 콘텐츠 재생 시스템은 메인 콘텐츠의 재생과 동기하여 서브 수신 신호를 취득하고 서브 콘텐츠를 재생한다. 이하, 도 16의 흐름도를 참조하여 콘텐츠 재생 시스템에 의한 서브 콘텐츠 재생 처리에 대해서 설명할 것이다.

스텝 S101에서, 입력 유닛(123)은 서브 수신 신호를 취득하여 이 서브 수신 신호를 분리 처리 유닛(124)에 공급한다. 예를 들어, 입력 유닛(123)은 제공 장치(11)로부터 송신된 서브 송신 신호를 서브 수신 신호로서 수신함으로써 서브 수신 신호를 취득한다.

스텝 S102에서, 분리 처리 유닛(124)은 입력 유닛(123)으로부터 공급되는 서브 수신 신호를 서브 채널 신호 및 사운드 동기용 특징량과 분리시켜서, 분리된 서브 채널 신호 및 사운드 동기용 특징량을 버퍼(125)에 공급하여, 버퍼(125)가 서브 채널 신호 및 사운드 동기용 특징량을 기록하게 한다.

스텝 S103에서, 마이크로폰(84)은 스피커(83)로부터 출력되는 메인 콘텐츠의 사운드를 수집하고, 그 결과로서 취득된 사운드 신호를 사운드 동기용 특징량 계산 유닛(121)에 공급한다. 스텝 S103에서, 예를 들어, 도 15의 스텝 S72에서의 처리에 의해 재생된 메인 콘텐츠의 사운드가 수집된다.

스텝 S104에서, 사운드 동기용 특징량 계산 유닛(121)은 사운드 동기용 특징량 계산 처리를 행하여 마이크로폰(84)으로부터 공급되는 사운드 신호로부터 사운드 동기용 특징량을 계산하고, 사운드 동기용 특징량을 버퍼(122)에 공급하여, 버퍼(122)가 사운드 동기용 특징량을 기록하게 한다.

사운드 동기용 특징량 산출 처리로서, 도 17의 흐름도에 나타낸 스텝들 S131 내지 S136에서의 처리가 수행되었지만, 이 처리는 도 14의 스텝들 S41 내지 S46의 처리와 동일하기 때문에, 그 설명은 생략될 것이다. 그러나, 도 17에 나타낸 사운드 동기용 특징량 산출 처리에서, 마이크로폰(84)으로부터 공급되는 사운드 신호로부터 사운드 동기용 특징량이 계산되어 버퍼(122)에 축적된다. 또한, 사운드 동기용 특징량 계산 유닛(121)은 피크 검출 유닛(155)에 의해 취득된 피크 정보를 사운드 동기용 특징량으로 간주한다.

도 16의 흐름도 설명으로 되돌아가면, 스텝 S105에서, 동기 계산 유닛(126)은, 동기 보정 정보 생성 처리를 행하여 사운드 특징량에 기초하는 동기 보정 정보를 생성하고, 이 동기 보정 정보를 재생 처리 유닛(127)에 공급한다. 동기 보정 정보 생성 처리의 상세한 설명은 후술되지만, 이 처리에서는 버퍼(122)에 기록되어 있는 사운드 동기용 특징량과 버퍼(125)에 기록되어 있는 사운드 동기용 특징량을 비교함으로써, 메인 콘텐츠와 서브 콘텐츠를 동기시키기 위한 사운드 특징량에 기초하는 동기보 보정 정보가 생성된다.

스텝 S106에서, 재생 처리 유닛(127)은 동기 계산 유닛(126)으로부터 공급되는 사운드 특징량에 기초하는 동기 보정 정보에 따라, 버퍼(125)에 기록되어 있는 서브 채널 신호의 재생 타이밍을 보정하고, 보정 후의 서브 채널 신호에 기초하여 서브 콘텐츠를 재생시킨다.

즉, 재생 처리 유닛(127)은 서브 채널 신호를 구성하는 화상 신호와 사운드 신호를, 사운드 특징량에 기초하는 동기 보정 정보에 의해 표시되는 시간만큼 빠르게 또는 느리게 표시 유닛(86) 및 스피커(87)에 공급하여, 표시 유닛(86) 및 스피커(87)가 화상 신호와 사운드 신호를 재생하게 한다. 바꾸어 말하자면, 사운드 특징량에 기초하는 동기 보정 정보로부터 특정되는, 현재 시간에서 재생되고 있는 메인 콘텐츠의 부분과 대응하는 재생 시간에서의 서브 콘텐츠의 부분이 재생된다.

예를 들어, 서브 콘텐츠를 메인 콘텐츠와 동기시키기 위한 재생 위치의 조정(보정)은 서브 콘텐츠 및 메인 콘텐츠의 무음 구간에서 행해진다.

표시 유닛(86)은 재생 처리 유닛(127)으로부터 공급되는 화상 신호에 기초하여 서브 콘텐츠의 화상을 표시하고, 스피커(87)는 재생 처리 유닛(127)으로부터 공급되는 사운드 신호에 기초하여 서브 콘텐츠의 사운드를 출력한다.

상술한 바와 같이 메인 콘텐츠와 동기하여 서브 콘텐츠가 재생되면, 서브 콘텐츠 재생 처리는 종료된다.

상술한 바와 같이, 콘텐츠 재생 시스템은 재생되고 있는 메인 콘텐츠의 사운드를 수집하여 취득된 사운드 신호로부터 사운드 동기용 특징량을 계산하고, 취득된 사운드 동기용 특징량과 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량을 사용하여 사운드 특징량에 기초하는 동기 보정 정보를 계산한다. 또한, 콘텐츠 재생 시스템은 취득된 동기 보정 정보를 사용하여 서브 콘텐츠를 메인 콘텐츠와 동기시켜서 재생한다.

상술한 바와 같이 사운드 수집을 통해 취득된 사운드 신호로부터 추출된 사운드 동기용 특징량과 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량을 사용하여 사운드 특징량에 기초하는 동기 보정 정보를 계산함으로써, 메인 콘텐츠와 서브 콘텐츠의 송신 경로가 상이한 경우에도, 메인 콘텐츠와 서브 콘텐츠를 동기하여 재생할 수 있다.

이 예에서는, 사운드 동기용 특징량의 동기 계산, 즉 매칭 처리가 프레임마다 행해졌지만, 사운드 동기용 특징량의 동기 계산은 반드시 시간적으로 연속하여 행할 필요는 없고 간헐적으로 행해질 수도 있다. 그러나, 동기 계산을 연속적으로 행할 때 서브 콘텐츠의 재생 시간(재생 위치)의 보정을 위화감 없이 행할 수 있다.

<동기 보정 정보 생성 처리의 설명>

또한, 도 18의 흐름도를 참조하여 도 16의 스텝 S105에서의 처리에 대응하는 동기 보정 정보 생성 처리에 대해서 설명할 것이다.

스텝 S161에서, 프레임 레이트 변환 유닛(181) 및 프레임 레이트 변환 유닛(182)은 필요에 따라 프레임 레이트 변환 처리를 행한다.

즉, 프레임 레이트 변환 유닛(181)은 버퍼(122)로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 판독하고, 필요에 따라 사운드 동기용 특징량을 프레임 레이트 변환, 즉 다운샘플링하여, 그 사운드 동기용 특징량을 블록 통합 유닛(183)에 공급한다. 또한, 프레임 레이트 변환 유닛(182)은 버퍼(125)로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 판독하고, 필요에 따라 사운드 동기용 특징량을 프레임 레이트 변환, 즉 다운 샘플링 또는 업샘플링하여, 사운드 동기용 특징량을 블록 통합 유닛(184)에 공급한다.

스텝 S162에서, 블록 통합 유닛(183) 및 블록 통합 유닛(184)은 사운드 동기용 특징량의 시계열 데이터를 통합한다.

구체적으로, 블록 통합 유닛(183)은 프레임 레이트 변환 유닛(181)으로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터의 공급을 받는다. 다음으로, 블록 통합 유닛(183)은 연속하는 복수(예를 들어, 64개)의 시간 구간을 하나의 블록으로 간주하고, 블록 단위로, 공급된 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 통합하여, 그 시계열 데이터를 유사도 계산 유닛(185)에 공급한다.

또한, 블록 통합 유닛(184)은 프레임 레이트 변환 유닛(182)으로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터의 공급을 받는다. 다음으로, 블록 통합 유닛(184)은 연속하는 복수(예를 들어, 64개)의 시간 구간을 하나의 블록으로 간주하고, 블록 단위로, 공급된 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 통합하여, 그 시계열 데이터를 유사도 계산 유닛(185)에 공급한다.

스텝 S163에서, 유사도 계산 유닛(185)은 블록 통합 유닛(183) 및 블록 통합 유닛(184)으로부터 공급되는 블록 단위의 사운드 동기용 특징량의 시계열 데이터 간의 유사도를 계산하여, 각각의 블록 간의 유사도를 나타내는 유사도 매트릭스를 생성한다. 유사도 계산 유닛(185)은 유사도 매트릭스를 최적 패스 검색 유닛(186)에 공급한다.

스텝 S164에서, 최적 패스 검색 유닛(186)은 유사도 계산 유닛(185)으로부터 공급되는 유사도 매트릭스로부터 최적인 유사도의 패스를 검색하고, 사운드 특징량에 기초하는 동기 보정 정보를 생성한다. 다음으로, 최적 패스 검색 유닛(186)은 사운드 특징량에 기초하는 동기 보정 정보를 재생 처리 유닛(127)에 공급하고, 동기 보정 정보 생성 처리를 종료한다.

상술한 바와 같이, 콘텐츠 재생 시스템이 주기성 정보에 따라 사운드 특징량에 기초하는 동기 보정 정보를 생성하기 때문에, 콘텐츠 재생 시스템은 동기 보정 정보를 강건하게 생성할 수 있다.

메인 콘텐츠의 개수가 1개일 경우에 대해서 설명했지만, 메인 콘텐츠의 개수는 2개 이상일 수 있다.

그러한 경우, 제공 장치(11)의 사운드 동기용 특징량 계산 유닛(23)은 복수의 메인 콘텐츠마다 사운드 동기용 특징량을 계산하고, 다중화 처리 유닛(24)은 1개의 서브 콘텐츠의 서브 채널 신호와 복수의 메인 콘텐츠의 사운드 동기용 특징량을 다중화하여, 서브 송신 신호를 취득한다. 또한, 출력 유닛(22)은 복수의 메인 콘텐츠의 메인 채널 신호로부터 취득되는 메인 송신 신호를 송신한다.

또한, 이 경우, 도 4에 도시된 콘텐츠 재생 시스템에서의 재생 처리 유닛(112)은 복수의 메인 콘텐츠 중 하나를 선택하여 재생한다. 또한, 입력 유닛(123)은 단일 서브 채널 신호에 대하여 복수의 메인 콘텐츠의 사운드 동기용 특징량이 연관되는 서브 수신 신호를 수신한다.

또한, 동기 계산 유닛(126)은 입력 유닛(123)에 의해 취득된 각각의 메인 콘텐츠의 사운드 동기용 특징량과 사운드 동기용 특징량 계산 유닛(121)에 의해 취득된 사운드 동기용 특징량을 비교하여 유사도를 계산하고, 스피커(83)에 의해 재생되고 있는 메인 콘텐츠를 특정한다. 예를 들어, 사운드 동기용 특징량과의 매칭의 결과로서, 가장 유사도가 높은 사운드 동기용 특징량을 갖는 메인 콘텐츠는 재생되고 있는 메인 콘텐츠로서 간주된다.

재생되고 있는 메인 콘텐츠가 특정되면, 특정된 메인 콘텐츠의 사운드 동기용 특징량에 대해서 취득된 동기 보정 정보에 기초하여, 서브 콘텐츠의 재생 위치가 보정된다. 즉, 동기 계산 유닛(126)은 특정된 메인 콘텐츠와 서브 콘텐츠를 동기시키기 위한 사운드 특징량에 기초하는 동기 보정 정보를 생성한다.

<본 기술의 응용예 1>

지금까지 설명된 본 기술은 다양한 시스템들에 적용될 수 있다.

예를 들어, 본 기술은 도 19에 나타낸 시스템에 적용될 수 있다.

도 19에 나타낸 시스템에서, 예를 들어 방송국 등의 제공 장치(211)는 도 1의 제공 장치(11)에 대응한다. 제공 장치(211)는 메인 콘텐츠와 서브 콘텐츠를 제공한다.

이 예에서, 제공 장치(211)는 메인 콘텐츠의 메인 송신 신호를, 예를 들어 방송파에 의해 방송함으로써, 메인 수신 디바이스(212)에 메인 송신 신호를 송신한다. 다음으로, 메인 수신 디바이스(212)는 방송파에 의해 송신되는 메인 송신 신호를 메인 수신 신호로서 수신하여 메인 콘텐츠를 재생한다. 이때, 메인 수신 디바이스(212)는 메인 콘텐츠의 사운드를 메인 수신 디바이스(212)에 제공된 스피커(213)로부터 출력한다.

따라서, 이 예에서는 메인 수신 디바이스(212)는 도 4에 도시된 메인 수신 디바이스(81), 표시 유닛(82) 및 스피커(83)로 구성된다. 이 경우, 입력 유닛(111)은 방송파에 의해 방송되는 메인 수신 신호를 수신한다. 또한, 스피커(213)는 도 4의 스피커(83)에 대응한다.

예를 들어, 메인 수신 디바이스(212)는 텔레비전 수상기 등이고, 사용자는 메인 수신 디바이스(212)에 의해 재생되는 메인 콘텐츠를 시청한다.

이와는 대조적으로, 제공 장치(211)는 서브 송신 신호도 송신한다. 이 예에서, 제공 장치(211)는 서브 송신 신호를, 인터넷을 포함하는 통신 네트워크(214)를 통해 스트리밍 배포 등에 의해 서브 수신 디바이스(215)에 송신한다. 여기에서, 서브 송신 신호는 소위 푸시형 통신에 의해 송신된다.

또한, 서브 수신 디바이스(215)는 예를 들어, 태블릿 단말 디바이스로 구성되고, 통신 네트워크(214)를 통해 송신된 서브 송신 신호를 서브 수신 신호로서 수신하여, 서브 콘텐츠를 재생한다. 즉, 서브 수신 디바이스(215)는 내장된 표시 유닛이 서브 콘텐츠의 화상을 표시하게 하고, 내장된 스피커가 서브 콘텐츠의 사운드를 출력하게 한다.

이때, 서브 수신 디바이스(215)는 스피커(213)로부터 출력되는 메인 콘텐츠의 사운드를 수집하여 사운드 동기용 특징량을 계산하고, 취득된 사운드 동기용 특징량과 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량을 사용하여 사운드 특징량에 기초하는 동기 보정 정보를 생성한다. 다음으로, 서브 수신 디바이스(215)는 사운드 특징량에 기초하는 동기 보정 정보를 사용하여 서브 콘텐츠를 메인 콘텐츠와 동기시켜서 재생한다.

이러한 구성에 의해, 메인 수신 디바이스(212)에 의해 재생되는 메인 콘텐츠와 서브 수신 디바이스(215)에 의해 재생되는 서브 콘텐츠는 동기된 상태에서 재생되고, 사용자는 적절하게 서브 콘텐츠를 시청하면서 메인 콘텐츠를 시청할 수 있다. 즉, 사용자는 서브 콘텐츠를 예를 들어, 메인 콘텐츠의 보조 정보로서 이용하면서 메인 콘텐츠를 즐길 수 있다.

이 예에서, 서브 콘텐츠의 서브 채널 신호는 메인 콘텐츠의 영상과는 상이한 앵글의 영상에 대한 화상 신호, 메인 콘텐츠에 대한 코멘터리 사운드에 대한 사운드 신호, 메인 콘텐츠에 대한 문자 정보 등이다.

이 경우, 서브 수신 디바이스(215)는 예를 들어, 도 4에 도시된 마이크로폰(84), 서브 수신 디바이스(85), 표시 유닛(86) 및 스피커(87)로 구성된다. 따라서, 입력 유닛(123)은 통신 네트워크(214)를 통해 송신된 서브 송신 신호를 서브 수신 신호로서 수신한다.

상술한 바와 같이, 도 19의 예에서는, 푸시형 통신에 의해 서로 다른 송신 경로를 통해 송신되는 메인 콘텐츠 및 서브 콘텐츠를 수신측에서 간단하고 정확하게 동기시켜서 재생할 수 있다. 이 예에서는, 서브 송신 신호를 메인 송신 신호 이전에 송신할 필요가 있다. 즉, 메인 송신 신호의 메인 수신 디바이스(212)에의 도착 시간과 서브 송신 신호의 서브 수신 디바이스(215)에의 도착 시간 간의 차이를 고려하여 결정된 시간 차이로 메인 송신 신호와 서브 송신 신호를 송신할 필요가 있다.

<본 기술의 응용예 2>

또한, 본 기술은 예를 들어, 도 20에 나타낸 시스템에도 적용할 수 있다. 도 20에서, 도 19에서의 경우와 대응하는 부분에는 동일한 참조 부호를 부여하고, 그에 대한 설명은 생략할 것이다.

도 20의 예에서, 도 19의 예와 동일한 방식으로, 제공 장치(211)로부터 방송파에 의해, 즉 푸시형 통신을 통해 메인 송신 신호가 메인 수신 디바이스(212)에 송신된다.

이와는 대조적으로, 서브 송신 신호는 서버(241)로부터 통신 네트워크(214)를 통해 서브 수신 디바이스(215)에 송신된다. 또한, 서버(241)는 소정 방법에 의해 미리 서브 송신 신호를 제공 장치(211) 등으로부터 취득하여 그 서브 송신 신호를 기록한다.

이 예에서, 서브 송신 신호는 소위 풀(pull)형 통신을 통해 송신된다. 따라서, 서버(241)는 서브 수신 디바이스(215)가 서브 송신 신호의 송신을 요청할 때, 통신 네트워크(214)를 통해 서브 송신 신호를 서브 수신 디바이스(215)에 송신한다.

즉, 서브 수신 디바이스(215)에 대응하는 도 4의 서브 수신 디바이스(85)의 입력 유닛(123)은 서버(241)에 서브 송신 신호의 송신 요청을 송신하고 그 송신 요구에 응답하여 서버(241)로부터 송신된 서브 송신 신호를 서브 수신 신호로서 수신한다.

이 경우, 서브 수신 디바이스(215)는 메인 콘텐츠의 방송 이전에 미리 서브 송신 신호를 수신하여 기록할 수 있다. 따라서, 미리 서브 송신 신호를 수신하여 기록해 두면, 메인 콘텐츠가 방송될 때, 통신 네트워크(214)의 상태 등에 의해 서브 콘텐츠를 메인 콘텐츠와 동기시켜서 재생시킬 수 없는 상황을 방지할 수 있다.

서브 수신 디바이스(215)는, 메인 수신 디바이스(212)에 의해 메인 콘텐츠의 재생이 개시되면, 스피커(213)로부터 출력되는 메인 콘텐츠의 사운드를 수집하여 사운드 동기용 특징량을 계산한다. 다음으로, 서브 수신 디바이스(215)는 취득된 사운드 동기용 특징량과 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량을 사용하여 사운드 특징량에 기초하는 동기 보정 정보를 생성하고, 동기 보정 정보를 사용하여 서브 콘텐츠를 메인 콘텐츠와 동기시켜서 재생한다.

도 20의 예에서, 서브 수신 디바이스(215)는 서브 수신 디바이스(215) 자신에게 편리한 타이밍에서 서브 수신 신호를 취득할 수 있다.

<본 기술의 응용예 3>

또한, 본 기술은 예를 들어, 도 21에 나타낸 시스템에도 적용할 수 있다. 도 21에서, 도 20에서의 경우와 대응하는 부분에는 동일한 참조 부호를 부여하고, 그에 대한 설명은 생략할 것이다.

도 21의 예에서, 메인 콘텐츠, 즉 메인 송신 신호는 서버(241)과는 상이한 서버(271)에 의해 제공된다. 즉, 서버(271)는 메인 수신 디바이스(212)로부터의 요청에 응답하여, 통신 네트워크(272)를 통해 기록되어 있는 메인 송신 신호를 메인 수신 디바이스(212)에 송신한다. 즉, 이 예에서, 메인 송신 신호는 풀형 통신에 의해 송신된다.

구체적으로, 메인 수신 디바이스(212)에 대응하는 도 4의 메인 수신 디바이스(81)의 입력 유닛(111)은 서버(271)에 메인 송신 신호의 송신 요구를 송신하고, 그 송신 요구에 응답하여 서버(271)로부터 송신된 메인 송신 신호를 메인 수신 신호로서 수신한다.

이 경우, 메인 수신 디바이스(212)는 미리 메인 송신 신호를 수신하여 기록해 둘 수 있다. 따라서, 미리 메인 송신 신호를 수신하여 기록해 두면, 메인 콘텐츠의 재생이 통신 네트워크(272)의 상태 등에 의해 메인 콘텐츠가 재생될 때 잠시 멈추거나 정지하는 상황을 방지할 수 있다.

또한, 서브 송신 신호는 도 20의 예와 동일한 방식으로 서버(241)에 의해 풀형 통신을 통해 송신된다.

서브 수신 디바이스(215)는, 메인 수신 디바이스(212)에 의한 메인 콘텐츠의 재생이 개시되면, 스피커(213)로부터 출력된 메인 콘텐츠의 사운드를 수집하여 사운드 동기용 특징량을 계산한다. 다음으로, 서브 수신 디바이스(215)는 취득된 사운드 동기용 특징량과 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량을 사용하여 사운드 특징량에 기초하는 동기 보정 정보를 생성하고, 동기 보정 정보를 사용하여 서브 콘텐츠를 메인 콘텐츠와 동기시켜서 재생한다.

도 21의 예에서, 메인 수신 디바이스(212)와 서브 수신 디바이스(215)는 메인 수신 디바이스(212)와 서브 수신 디바이스(215) 자신들에 편리한 타이밍에서 메인 수신 신호와 서브 수신 신호를 취득할 수 있다.

통신 네트워크(272)가 통신 네트워크(214)과 동일할 경우에도, 메인 송신 신호와 서브 송신 신호의 송신 타이밍, 수신 디바이스 등이 서로 상이하면, 메인 송신 신호와 서브 송신 신호의 송신 경로는 통상적으로 서로 상이하다.

<제2 실시예>

<본 기술의 특징>

그런데, 상술한 (A1) 내지 (A4)에서와 같이 시간 동기 관계를 갖는 복수의 미디어 콘텐츠가 방송, IP(lnternet Protocol) 네트워크 등을 통해 복수 디바이스에 의해 수신되고, 수신된 미디어 콘텐츠가 동기하여 재생되는 애플리케이션 프로그램이 상정될 수 있다.

이러한 기능성을 구현하기 위해, 하이브리드 캐스트(hybrid cast)와 같이 IP 네트워크를 통해 개별적으로 추가 콘텐츠가 배포되면서 방송에 의해 콘텐츠가 배포되고, 콘텐츠 수신기는 방송에 의해 배포된 콘텐츠와 IP 네트워크를 통해 배포된 추가 콘텐츠를 시간적으로 동기시켜서 동시에 출력하는 방송 통신 협동 서비스를 위한 시스템이 연구 개발되었다.

예를 들어, Hybridcast는 "마쯔무라 킨지(Kinji Matsumura), 시시쿠이 요시아키(Yoshiaki Shishikui) 및 미카엘 제이, 에반스(Michael J. Evans), "Personalization System of Broadcast Content using Synchronized Internet Streaming" 영상 정보 미디어 학회 연차 강연 예고집, 2009년 8월 26일, 페이지 3-8"(이하, 비특허문헌 1이라도 칭함)에 기재되어 있다.

또한, hybridcast는 "일본 방송 협회, "Summary and Technology of HybridcastTM", 일본 방송 협회의 과학 기술 연구소, R&D, No. 124, 페이지 10-17, 2010년 11월, NHK 출판 협회, http://www.nhk.or.jp/strl/publica/rd/rd124/PDF/P10-17.pdf"(이하, 비특허문헌 2이라고도 칭함), "일본 방송 협회, "Technologies Supporting HybridcastTM", 일본 방송 협회의 과학 기술 연구소, R&D, No. 133, 페이지 20-27, 2012년 5월, NHK 출판 협회, http://www.nhk.or.jp/strl/publica/rd/rd133/PDF/P20-27.pdf" (이하, 비특허문헌 3이라고도 칭함) 등에도 기재되어 있다.

Hybridcast의 기본 원리에 따르면, 방송 스트림의 기준 클럭에 기초하는 제시 시간 정보(PTS(presentation time stamp))가 부가된 추가 콘텐츠는 방송 콘텐츠의 송신과 동시에, 또는 약간 이전에 스트리밍 배포되고, 수신기에는 통신 콘텐츠의 지연 및 변동을 흡수하기 위해 충분한 용량을 갖는 버퍼가 제공되고, 방송 콘텐츠를 지연시키고 방송 콘텐츠와 추가 콘텐츠 양쪽의 타임 스탬프를 비교함으로써 동기가 확립된다.

예를 들어, 비특허문헌 2에 따르면, 양쪽 수신기가 동일 디바이스 내에 있는 실험 환경에서 대략 하나의 영상 프레임(33ms)내의 정밀도로 동기가 확립될 수 있다는 것이 확인되었다.

추가 콘텐츠를 수신하는 디바이스는 IP 네트워크에 무선으로 접속되는 스마트 폰 또는 태블릿 퍼스널 컴퓨터와 같은 방송 콘텐츠 수신 디바이스와 독립적인 디바이스일 수 있다. 그러한 경우에, 방송 콘텐츠 수신 디바이스는 추가 콘텐츠를 수신하는 디바이스에 제시 시간 정보(타임 스탬프)를 제공할 필요가 있다. 이러한 동작은 통상적으로 IP 네트워크를 통해 협동된다.

또한, 방송 대신에 IP 네트워크 등의 네트워크를 통해서만 복수의 콘텐츠를 배포하고, 협정세계시(UTC(coordinated universal time))를 기준 클럭으로서 사용하여 타임 스탬프를 부가하고, 수신기측에서 동기화를 행하고, 복수의 콘텐츠를 출력하는 시스템의 구현을 용이하게 상상할 수 있다.

실제로 상술한 방송 통신 협동 서비스가 독립 수신기에 의해 이용될 경우, 타임 스탬프들의 비교 방법에 의한 동기를 정확하게 확립하는 것은 이하의 2가지 이유로 곤란하다.

첫번째로, 방송 콘텐츠 수신기와 추가 콘텐츠 수신기가 독립 전자 디바이스라면 시스템 클록에 차이가 있고, 시간의 경과에 따라 동기의 어긋남이 발생한다.

두번째, 사용자가 텔레비전 수상기 등의 방송 콘텐츠 수신기로부터 어느 정도 거리를 두고, 스마트 폰 또는 태블릿 퍼스널 컴퓨터 등의 추가 콘텐츠 수신기를 그들의 손에 쥐고 있으며, IP 네트워크를 통해 배포되는 추가 콘텐츠를 즐기는 사용 상태가 상정될 수 있다. 이 사용 형태에서 방송 콘텐츠 및 추가 콘텐츠에 사운드 신호가 포함되는 경우, 사용자가 콘텐츠를 시청하는 위치에서 정확한 동기를 확립하는 것은 곤란하다.

예를 들어, 사용자가 방송 콘텐츠 수신기로부터 10m 떨어져 있는 경우, 방송 콘텐츠 수신기로부터 출력된 사운드 신호가 사용자 위치에 도달하기 위해서는 10(m)/340(m/s)=약 30(ms)의 시간이 걸린다. 여기서, 음속은 약 340(m/s)이다.

제1 실시 형태는 방송 콘텐츠 수신기로부터 출력되는 사운드를 추가 콘텐츠 수신기에 의해 수집하고, 사운드 동기용 특징량을 계산하고, IP 네트워크를 통해 배포되는 방송 콘텐츠의 사운드 동기용 특징량과 동기 계산을 행하는 방법을 채택한다. 그러나, IP 네트워크의 송신 지연, 변동 등이 심할 경우에는, 광범위에 걸쳐 동기 위치를 검색할 필요가 있고, 처리량이 증가하게 된다.

따라서, 상술한 제공 장치와 콘텐츠 재생 시스템에 이하의 특징들 B11 내지 B20을 제공함으로써, 다른 경로를 통해 취득한 복수의 콘텐츠를 훨씬 적은 처리량으로 동기시킬 수 있다.

(특징 B11)

미디어 콘텐츠는 영상, 사운드, 화상, 문자 정보 등을 다중화하여 취득된 데이터 스트림이다.

(특징 B11)의 데이터 스트림의 송신에 관련하여, 방송파에 의한, 또는 인터넷을 포함하는 네트워크를 통한 미디어 콘텐츠의 송신을 상정하고, 다중화된 데이터 스트림에 의해 점유되는 논리 송신 경로는 송신 경로라고 호칭될 것이다.

(특징 B12)

송신 대상으로서의 복수 미디어 콘텐츠는 시간 동기 관계를 갖는다.

(특징 B13)

송신 대상으로서의 복수의 미디어 콘텐츠 중 적어도 하나는 메인 채널 신호라고 결정되고, 미디어 콘텐츠의 나머지는 각각 서브 채널 신호라고 간주된다.

(특징 B14)

기준 시간 신호로부터 메인 채널 신호 및 서브 채널 신호 각각에 대해서 제시 시간 정보(PTC)가 생성된다.

여기서, 방송 스트림의 기준 클럭(PCR), 협정세계시(UTC) 등이 기준 시간 신호으로서 사용된다.

(특징 B15)

메인 채널 신호의 제시 시간 정보는 메인 채널 신호와 다중화되어 메인 송신 신호를 생성하고, 이 메인 송신 신호가 송신된다. 이와는 대조적으로, 메인 채널 신호의 사운드 신호로부터 사운드 동기용 특징량도 계산된다.

(특징 B16)

메인 채널 신호와 서브 채널 신호 간의 시간 동기 관계가 충족되도록 시스템에 의해 정의되는 송신 포맷으로 서브 채널 신호의 제시 시간 정보, 메인 채널 신호의 사운드 동기용 특징량, 및 서브 채널 신호의 다중화 처리를 행하고, 서브 송신 신호가 생성된다.

(특징 B17)

메인 수신 디바이스는 메인 수신 신호를 취득하여 분리하고, 메인 채널 신호가 재생될 때 사운드 신호에 기초하는 사운드를 스피커 등에 의해 출력한다. 동시에, 메인 수신 디바이스는 제시 시간 정보가 외부를 참조하거나 외부로부터 취득할 수 있도록 수신된 메인 채널 신호의 제시 시간 정보를 제시한다.

예를 들어, 메인 채널 신호의 제시 시간 정보는 그 취득 기능을 제공하는 소프트웨어의 API(Application programming interface)에 의해 무선 통신에 의한 IP 네트워크 접속을 통해 외부로부터 참조할 수 있다.

(특징 B18)

서브 수신 디바이스는 서브 수신 신호를 취득하여 분리하고, 수신된 서브 채널 신호의 제시 시간 정보와 메인 수신 디바이스로부터 취득된 메인 채널 신호의 제시 시간 정보를 비교하고, 제시 시간 정보에 기초하는 동기 보정 정보를 생성한다.

(특징 B19)

서브 수신 디바이스는 메인 수신 디바이스에 의해 스피커로부터 출력되는 메인 채널 신호의 사운드를 마이크로폰 등에 의해 수집하고, 사운드 동기용 특징량을 계산하고, (특징 B18)에서 생성된 제시 시간 정보에 기초하는 동기 보정 정보를 고려하여 수신된 메인 채널 신호의 사운드 동기용 특징량에 대해 자동 동기 계산을 행하고, 사운드 특징량에 기초하는 동기 보정 정보(시간 차이 정보)를 산출한다.

제시 시간 정보의 비교에 의해 취득된 제시 시간 정보에 기초하는 동기 보정 정보로부터 개략적으로 동기 위치를 식별할 수 있기 때문에, 후단의 사운드 동기용 특징량에 기초한 자동 동기 계산 처리에 필요한 처리량도 감소한다.

(특징 B20)

서브 수신 디바이스는 사운드 특징량에 기초하는 동기 보정 정보에 따라 메인 채널 신호 대해 수신된 서브 채널 신호에 대한 동기 보정 처리를 행하고, 재생을 행한다.

<제공 장치의 구성예>

다음으로, 상술한 특징들 B11 내지 B20을 갖는 제공 장치와 콘텐츠 재생 시스템의 구체적인 실시 형태에 대해서 설명할 것이다.

도 22는 상술한 예들 (A1) 내지 (A4)에서와 같이 시간 동기 관계의 콘텐츠를 제공하는 제공 장치의 구성예를 도시하는 도면이다. 도 22에서, 도 1에서의 경우와 대응하는 부분에는 동일한 참조 부호를 부여하고, 그에 대한 설명은 적절하게 생략될 것이다.

제공 장치(301)는 기준 시간 신호 생성 유닛(311), 다중화 처리 유닛(312), 출력 유닛(22), 사운드 동기용 특징량 계산 유닛(23), 다중화 처리 유닛(24) 및 출력 유닛(25)을 포함한다.

제공 장치(301)의 구성은 제공 장치(11)의 변환 유닛(21)이 다중화 처리 유닛(312)으로 대체되고, 또한 새롭게 기준 시간 신호 생성 유닛(311)이 제공된다는 점에서 제공 장치(11)의 구성과 상이하다.

기준 시간 신호 생성 유닛(311)은 PCR 및 UTC에 기초하여 메인 채널 신호와 서브 채널 신호의 콘텐츠 제시 타이밍을 나타내는 제시 시간 정보를 생성하여 이 제시 시간 정보를 다중화 처리 유닛(312) 및 다중화 처리 유닛(24)에 공급한다. 예를 들어, 제시 시간 정보는 PTS이며 또한 재생측에서 메인 채널 신호와 서브 채널 신호 간의 동기를 확립하기 위해 이용된다.

다중화 처리 유닛(312)은 공급된 메인 채널 신호를 미리 정해진 방송 규격 등으로 정의된 포맷의 신호로 변환한다. 또한, 다중화 처리 유닛(312)은 포맷 변환된 메인 채널 신호와 기준 시간 신호 생성 유닛(311)으로부터 공급된 제시 시간 정보를 다중화함으로써 메인 송신 신호를 생성하여, 이 메인 송신 신호를 출력 유닛(22)에 공급한다. 메인 송신 신호에 포함되어 있는 제시 시간 정보는 메인 채널 신호의 제시 시간 정보이다.

또한, 다중화 처리 유닛(24)은 시간적으로 동기된 상태에서, 사운드 동기용 특징량 계산 유닛(23)으로부터 공급된 사운드 동기용 특징량, 공급된 서브 채널 신호 및 기준 시간 신호 생성 유닛(311)으로부터 공급된 제시 시간 정보를 다중화하고나서, 필요에 따라 포맷 변환을 행하고, 서브 송신 신호를 생성한다. 다중화 처리 유닛(24)은 취득된 서브 송신 신호를 출력 유닛(25)에 공급한다. 서브 송신 신호에 포함되어 있는 제시 시간 정보는 서브 채널 신호의 제시 시간 정보이다.

제공 장치(11)에서의 경우와 마찬가지로, 다중화 처리 유닛(24)은 메인 채널 신호를 사용하여, 사운드 동기용 특징량, 서브 채널 신호 및 제시 시간 정보의 시간 동기 관계를 조정할 수 있다.

<콘텐츠 재생 시스템의 구성예>

또한, 제공 장치(301)로부터 송신되는 메인 송신 신호와 서브 송신 신호를 메인 수신 신호 및 서브 수신 신호로서 수신하여 메인 콘텐츠와 서브 콘텐츠를 재생하는 콘텐츠 재생 시스템은 예를 들어, 도 23에 도시된 바와 같이 구성된다. 도 23에서, 도 4에서의 경우와 대응하는 부분에는 동일한 참조 부호를 부여하고, 그에 대한 설명은 적절하게 생략될 것이다.

도 23에 나타낸 콘텐츠 재생 시스템은 메인 수신 디바이스(341), 표시 유닛(82), 스피커(83), 마이크로폰(84), 서브 수신 디바이스(342), 표시 유닛(86) 및 스피커(87)를 포함한다.

메인 수신 디바이스(341)는 제공 장치(301)로부터 송신되는 메인 수신 신호를 수신하고 메인 수신 신호로부터 취득되는 메인 콘텐츠의 재생을 제어한다.

메인 수신 디바이스(341)는 입력 유닛(111), 분리 처리 유닛(351), 제시 유닛(352) 및 재생 처리 유닛(112)을 포함한다. 메인 수신 디바이스(341)의 구성은 새롭게 분리 처리 유닛(351)과 제시 유닛(352)이 제공된다는 점에서 메인 수신 디바이스(81)의 구성과 상이하다.

분리 처리 유닛(351)은 입력 유닛(111)으로부터 공급되는 메인 수신 신호를 메인 채널 신호와 메인 채널 신호의 제시 시간 정보로 분리하고, 메인 채널 신호를 재생 처리 유닛(112)에 공급하며, 제시 시간 정보를 제시 유닛(352)에 공급한다.

제시 유닛(352)은 분리 처리 유닛(351)으로부터 공급되는 제시 시간 정보를 인터넷을 포함하는 유선의 통신 네트워크 또는 무선 통신 네트워크를 통해 서브 수신 디바이스(342)에 제시한다. 즉, 통신 상대로부터의 요청에 응답하여 제시 시간 정보가 송신된다.

또한, 서브 수신 디바이스(342)는 제공 장치(301)로부터 송신된 서브 송신 신호를 서브 수신 신호로서 수신하고, 서브 수신 신호로부터 취득된 서브 콘텐츠의 재생을 제어한다.

서브 수신 디바이스(342)는 취득 유닛(361), 제시 시간 정보 비교 유닛(362), 사운드 동기용 특징량 계산 유닛(121), 버퍼(122), 입력 유닛(123), 분리 처리 유닛(124), 버퍼(125), 동기 계산 유닛(126) 및 재생 처리 유닛(127)을 포함한다.

서브 수신 디바이스(342)의 구성은 새롭게 취득 유닛(361) 및 제시 시간 정보 비교 유닛(362)이 제공된다는 점에서 서브 수신 디바이스(85)의 구성과 상이하다.

취득 유닛(361)은 API 등을 이용하여, 제시 유닛(352)에 의해 제시된 제시 시간 정보를 유선 또는 무선 통신 네트워크를 통해 취득하여 그 제시 시간 정보를 제시 시간 정보 비교 유닛(362)에 공급한다. 즉, 취득 유닛(361)은 제시 유닛(352)으로부터 송신되는 제시 시간 정보를 수신한다.

분리 처리 유닛(124)은 입력 유닛(123)으로부터 공급되는 서브 수신 신호를 사운드 동기용 특징량, 서브 채널 신호 및 제시 시간 정보로 분리하고, 제시 시간 정보를 제시 시간 정보 비교 유닛(362)에 공급하고, 사운드 동기용 특징량 및 서브 채널 신호를 버퍼(125)에 공급한다.

제시 시간 정보 비교 유닛(362)은 분리 처리 유닛(124)으로부터 공급되는 제시 시간 정보와, 취득 유닛(361)으로부터 공급되는 제시 시간 정보를 비교하고, 메인 채널 신호와 서브 채널 신호를 동기시키기 위한 제시 시간 정보에 기초하는 동기 보정 정보를 생성하고, 이 동기 보정 정보를 동기 계산 유닛(126)에 공급한다.

제시 시간 정보에 기초하는 동기 보정 정보는 자체적으로 메인 채널 신호와 서브 채널 신호 간의 어긋남을 보정하여 이들 사이의 동기를 확립할 수 있다. 그러나, 이 예에서는, 보다 고정밀도로 신호들을 동기화시키기 위해, 제시 시간 정보에 기초하는 동기 보정 정보는, 동기 계산 유닛(126)에 의해 버퍼(125)로부터 판독될 사운드 동기용 특징량의 범위를 결정하는데 사용된다. 바꾸어 말하자면, 제시 시간 정보에 기초하는 동기 보정 정보는 버퍼(125)에 기록되어 있는 사운드 동기용 특징량과 버퍼(122)에 기록되어 있는 사운드 동기용 특징량을 개략적으로 동기화하기 위해 이용된다. 상술한 바와 같이 제시 시간 정보에 기초하는 동기 보정 정보를 사용함으로써, 보다 적은 처리량으로 사운드 동기용 특징량의 매칭 처리를 행할 수 있다.

<송신 처리의 설명>

다음으로, 상술한 제공 장치(301)와 콘텐츠 재생 시스템의 구체적인 동작에 대해서 설명할 것이다.

우선, 도 24의 흐름도를 참조하여 제공 장치(301)에 의해 행해지는 송신 처리에 대해서 설명할 것이다.

스텝 S191에서, 기준 시간 신호 생성 유닛(311)은 메인 채널 신호와 서브 채널 신호의 제시 시간 정보를 생성하여, 이 제시 시간 정보를 다중화 처리 유닛(312) 및 다중화 처리 유닛(24)에 공급한다.

스텝 S192에서, 사운드 동기용 특징량 계산 유닛(23)은 사운드 동기용 특징량 산출 처리를 행하여 공급된 메인 채널 신호를 구성하는 사운드 신호로부터 사운드 동기용 특징량을 계산하고, 이 사운드 동기용 특징량을 다중화 처리 유닛(24)에 공급한다. 또한, 스텝 S192에서 행해진 사운드 동기용 특징량 산출 처리는 도 14를 참조하여 설명한 사운드 동기용 특징량 산출 처리와 동일하기 때문에, 그에 대한 설명은 생략될 것이다.

스텝 S193에서, 다중화 처리 유닛(312)은 공급된 메인 채널 신호와 기준 시간 신호 생성 유닛(311)으로부터 공급된 제시 시간 정보를 다중화함으로써 메인 송신 신호를 생성하여, 이 메인 송신 신호를 출력 유닛(22)에 공급한다. 이때, 다중화 처리 유닛(312)은 필요에 따라 메인 채널 신호의 포맷 변환을 행한다.

스텝 S194에, 출력 유닛(22)은 다중화 처리 유닛(312)으로부터 공급된 메인 송신 신호를 송신한다.

스텝 S195에서, 다중화 처리 유닛(24)은 사운드 동기용 특징량, 서브 채널 신호 및 제시 시간 정보를 다중화하여 서브 송신 신호를 생성하고, 이 서브 송신 신호를 출력 유닛(25)에 공급한다.

즉, 다중화 처리 유닛(24)은 사운드 동기용 특징량 계산 유닛(23)으로부터의 사운드 동기용 특징량, 공급된 서브 채널 신호, 및 기준 시간 신호 생성 유닛(311)으로부터 공급된 제시 시간 정보를 다중화하여 서브 송신 신호를 취득한다.

스텝 S196에서, 출력 유닛(25)은 다중화 처리 유닛(24)으로부터 공급된 서브 송신 신호를 송신하고, 송신 처리를 종료한다.

상술한 바와 같이, 제공 장치(301)는 메인 채널 신호와 서브 채널 신호에 공통으로 사용되는 제시 시간 정보를 생성하고, 제시 시간 정보를 포함하는 메인 송신 신호와 서브 송신 신호를 생성한다.

이러한 구성에 의해, 콘텐츠의 재생측에서, 제시 시간 정보를 이용하여 보다 적은 처리량으로 메인 콘텐츠와 서브 콘텐츠를 동기시킬 수 있다.

<메인 콘텐츠 재생 처리의 설명>

제공 장치(301)로부터 메인 송신 신호가 송신되면, 콘텐츠 재생 시스템은 메인 송신 신호를 메인 수신 신호로서 취득하고 메인 콘텐츠를 재생한다. 이하, 도 25의 흐름도를 참조하여 콘텐츠 재생 시스템에 의한 메인 콘텐츠 재생 처리에 대해서 설명할 것이다.

스텝 S221에서, 입력 유닛(111)은 메인 수신 신호를 취득하여 이 메인 수신 신호를 분리 처리 유닛(351)에 공급한다. 예를 들어, 입력 유닛(111)은 제공 장치(301)로부터 송신되는 메인 수신 신호를 수신함으로써 메인 수신 신호를 취득한다.

스텝 S222에서, 분리 처리 유닛(351)은 입력 유닛(111)으로부터 공급되는 메인 수신 신호를 메인 채널 신호와 제시 시간 정보로 분리한다. 분리 처리 유닛(351)은 분리된 메인 채널 신호를 재생 처리 유닛(112)에 공급하고 제시 시간 정보를 제시 유닛(352)에 공급한다.

스텝 S223에서, 재생 처리 유닛(112)은 분리 처리 유닛(351)으로부터 공급되는 메인 채널 신호에 기초하여 메인 콘텐츠를 재생시킨다. 스텝 S223에서, 도 15의 스텝 S72에서의 처리와 동일한 처리가 행해진다.

스텝 S224에서, 제시 유닛(352)은 분리 처리 유닛(351)으로부터 공급되는 제시 시간 정보를 제시하고, 메인 콘텐츠 재생 처리를 종료한다. 예를 들어, 제시 시간 정보는 메인 콘텐츠의 재생과 동기된 상태에서 무선으로 서브 수신 디바이스(342)에 송신된다.

상술한 바와 같이, 콘텐츠 재생 시스템은 메인 수신 신호를 취득하고, 메인 콘텐츠를 재생하며, 메인 콘텐츠, 즉 메인 채널 신호의 제시 시간 정보를 제시한다.

상술한 바와 같이 메인 콘텐츠의 재생과 동시에 메인 콘텐츠의 제시 시간 정보를 제시함으로써, 제시 시간 정보를 취득하는 서브 수신 디바이스(342)는 더 적은 처리량으로 사운드 동기용 특징량을 사용함으로써 동기 계산을 행할 수 있다.

<서브 콘텐츠 재생 처리의 설명>

메인 콘텐츠의 재생과 동기하여, 콘텐츠 재생 시스템은 서브 수신 신호를 취득하고 서브 콘텐츠를 재생한다. 이하, 도 26의 흐름도를 참조하여, 콘텐츠 재생 시스템에 의한 서브 콘텐츠 재생 처리에 대해서 설명할 것이다.

스텝 S251에서의 처리는 도 16의 스텝 S101에서의 처리와 동일하기 때문에, 그에 대한 설명은 생략될 것이다.

스텝 S252에서, 분리 처리 유닛(124)은 입력 유닛(123)으로부터 공급되는 서브 수신 신호를 서브 채널 신호, 사운드 동기용 특징량 및 제시 시간 정보로 분리한다. 다음으로, 분리 처리 유닛(124)은 서브 채널 신호와 사운드 동기용 특징량을 버퍼(125)에 공급하여, 버퍼(125)가 그 안에 서브 채널 신호와 사운드 동기용 특징량을 기록하게 하고, 서브 채널 신호의 제시 시간 정보를 제시 시간 정보 비교 유닛(362)에 공급한다.

스텝 S253에서, 취득 유닛(361)은 제시 유닛(352)으로부터 송신된 제시 시간 정보를 수신함으로써, 메인 채널 신호의 제시 시간 정보를 취득하여, 이 제시 시간 정보를 제시 시간 정보 비교 유닛(362)에 공급한다.

스텝 S254에서, 제시 시간 정보 비교 유닛(362)은 분리 처리 유닛(124)으로부터 공급된 제시 시간 정보와 취득 유닛(361)으로부터 공급된 제시 시간 정보를 비교하고, 제시 시간 정보에 기초하는 동기 보정 정보를 생성하여, 이 동기 보정 정보를 동기 계산 유닛(126)에 공급한다.

예를 들어, 제시 시간 정보에 기초하는 동기 보정 정보는 버퍼(125)에 시계열로 기록되어 있는 각 시간에서의 사운드 동기용 특징량의 계열에서 동기 계산 유닛(126)에 의한 동기 계산의 대상으로서의 범위(이하, 검색 범위라고도 칭함)를 나타내는 정보이다.

검색 범위는 현재 재생되고 있는 메인 콘텐츠, 즉 취득 유닛(361)에 의해 취득된 최신의 제시 시간 정보와 동일한 시간을 나타내고 있는 서브 채널 신호의 제시 시간 정보와 연관된 사운드 동기용 특징량을 포함하는, 미리 정의된 길이를 갖는 사운드 동기용 특징량의 계열에 대응한다.

동일한 제시 시간에 대응하는 메인 채널 신호와 서브 채널 신호의 위치는 서로 동기하는 신호 위치, 즉 동시에 재생될 재생 위치(프레임 위치)이다. 따라서, 제시 시간 정보를 비교하고, 메인 채널 신호와 같은 제시 시간 정보에 대응하는 서브 채널 신호의 위치를 검출함으로써, 재생 중인 메인 콘텐츠와 대략 동기되는 서브 콘텐츠의 재생 위치를 특정할 수 있다.

제시 시간 정보를 비교함으로써 제시 시간 정보에 기초하는 동기 보정 정보가 생성되면, 스텝들 S255와 S256에서의 처리가 행해진다. 그러나, 이들 처리는 도 16의 스텝들 S103과 S104의 처리와 동일하기 때문에, 그에 대한 설명은 생략될 것이다. 이 처리에서, 메인 콘텐츠의 사운드는 수집되고, 사운드로부터 사운드 동기용 특징량이 계산된다.

스텝 S257에서, 동기 계산 유닛(126)은 동기 보정 정보 생성 처리를 행하여 사운드 특징량에 기초하는 동기 보정 정보를 생성하고, 이 동기 보정 정보를 재생 처리 유닛(127)에 공급한다. 동기 보정 정보 생성 처리의 상세한 설명은 후술될 것이다. 이 처리에서는, 제시 시간 정보에 기초하는 동기 보정 정보를 사용하여 버퍼(122)에 기록되어 있는 사운드 동기용 특징량과 버퍼(125)에 기록되어 있는 사운드 동기용 특징량이 비교되고, 사운드 특징량에 기초하는 동기 보정 정보가 생성된다.

스텝 S258에서, 재생 처리 유닛(127)은 동기 계산 유닛(126)으로부터 공급되는 사운드 특징량에 기초하는 동기 보정 정보에 따라 버퍼(125)에 기록되어 있는 서브 채널 신호의 재생 타이밍을 보정하고, 보정 후의 서브 채널 신호에 기초하여 서브 콘텐츠를 재생한다. 스텝 S258에서는, 도 16의 스텝 S106에서의 처리와 동일한 처리가 행해진다.

상술한 바와 같이, 메인 콘텐츠와 동기하여 서브 콘텐츠가 재생되면, 서브 콘텐츠 재생 처리는 종료된다.

상술한 바와 같이, 콘텐츠 재생 시스템은 메인 콘텐츠의 제시 시간 정보를 취득하고, 서브 수신 신호에 포함되어 있는 서브 콘텐츠의 제시 시간 정보와 비교 함으로써, 제시 시간 정보에 기초하는 동기 보정 정보를 생성한다. 다음으로, 콘텐츠 재생 시스템은 제시 시간 정보에 기초하는 동기 보정 정보에 의해 나타나는 검색 범위에 포함되는 사운드 동기용 특징량을 대상으로 하여 매칭 처리를 행하고, 사운드 특징량에 기초하는 동기 보정 정보를 산출한다.

이러한 구성에 의해, 메인 콘텐츠와 서브 콘텐츠가 상이한 송신 경로를 통해 송신되는 경우에도 보다 적은 처리량으로 동기 보정 정보를 계산하고, 콘텐츠를 동기해서 재생할 수 있다.

즉, 콘텐츠 재생 시스템에 따르면, 서브 수신 디바이스(342)는 먼저 제시 시간 정보에 기초하여 메인 채널 신호와 서브 채널 신호를 개략적으로 동기화하고, 메인 콘텐츠의 사운드를 수집함으로써 취득된 사운드 신호로부터 사운드 동기용 특징량을 계산한다.

다음으로, 서브 수신 디바이스(342)는 수신된 메인 채널 신호의 사운드 동기용 특징량에 대해 자동 동기 계산을 행함으로써, 서브 수신 디바이스(342)에 의해 재생되는 서브 콘텐츠를 시청하는 사용자의 위치에서의 정확한 콘텐츠 동기를 수행할 수 있다. 실제로, 제시 시간 정보가 사용되어 개략적인 동기 위치의 범위가 제한되기 때문에, 사운드 동기용 특징량에 기초한 자동 동기 계산 처리에 필요한 처리량이 줄어든다.

예를 들어, 콘텐츠 재생 시스템에서 표시 유닛(82) 및 스피커(83)가 표시 유닛(86) 및 스피커(87)와 떨어진 위치에 배치되어 있고, 사용자가 표시 유닛(86) 및 스피커(87)의 근방에서 콘텐츠를 시청하고 있다고 상정된다. 그러한 경우, 스피커(83)로부터 출력되는 사운드가 사용자가 콘텐츠를 시청하고 있는 위치에 도달할 때까지 어느 정도의 시간이 걸린다.

따라서, 그러한 경우에, 제시 시간 정보를 비교하는 것만으로는 사용자가 콘텐츠를 시청하고 있는 위치에서, 메인 콘텐츠와 서브 콘텐츠의 재생을 정확하게 동기시키는 것은 곤란하다. 즉, 예를 들어 동일한 시간에 스피커(83)와 스피커(87)가 메인 콘텐츠의 사운드와 서브 콘텐츠의 사운드를 각각 재생하기 때문에, 메인 콘텐츠의 사운드가 사용자에게 도달할 때까지 시간이 걸리게 되면 사용자에게는 메인 콘텐츠의 사운드와 서브 콘텐츠의 사운드가 어긋나게 들린다.

이에 비해, 본 기술이 적용되는 콘텐츠 재생 시스템에 따르면, 서브 수신 디바이스(342)에 접속되고 서브 수신 디바이스(342) 근방에 배치되는 마이크로폰(84)에 의해 메인 콘텐츠의 사운드가 수집되고, 동기 계산이 행해진다. 그로 인해, 콘텐츠 재생 시스템은 사용자가 콘텐츠를 시청하고 있는 위치에서 동기된 상태로 메인 콘텐츠와 서브 콘텐츠를 재생할 수 있다. 게다가, 콘텐츠 재생 시스템은 제시 시간 정보를 비교해서 제시 시간 정보에 기초하는 동기 보정 정보를 생성하고, 매칭 처리의 검색 범위를 한정함으로써, 더 적은 처리량으로 콘텐츠를 동기시킬 수 있다.

<동기 보정 정보 생성 처리의 설명>

또한, 도 27의 흐름도를 참조하여, 도 26의 스텝 S257에서의 처리에 대응하는 동기 보정 정보 생성 처리에 대해서 설명할 것이다.

스텝 S281에서, 프레임 레이트 변환 유닛(181) 및 프레임 레이트 변환 유닛(182)은 필요에 따라 프레임 레이트 변환 처리를 행한다.

즉, 프레임 레이트 변환 유닛(181)은 버퍼(122)로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 판독하고, 필요에 따라 사운드 동기용 특징량을 프레임 레이트 변환, 즉 다운샘플링하여, 사운드 동기용 특징량을 블록 통합 유닛(183)에 공급한다.

또한, 프레임 레이트 변환 유닛(182)은 버퍼(125)에 기록되어 있는 사운드 동기용 특징량의 시계열 데이터에서, 제시 시간 정보 비교 유닛(362)으로부터 공급되는 제시 시간 정보에 기초하는 동기 보정 정보에 의해 나타나는 검색 범위에 포함되어 있는 시계열 데이터만을 판독한다.

다음으로, 프레임 레이트 변환 유닛(182)은 판독된 사운드 동기용 특징량을 필요에 따라 프레임 레이트 변환, 즉 다운샘플링 또는 업샘플링하여, 사운드 동기용 특징량을 블록 통합 유닛(184)에 공급한다.

스텝 S282에서, 블록 통합 유닛(183) 및 블록 통합 유닛(184)은 사운드 동기용 특징량의 시계열 데이터를 통합한다.

구체적으로, 블록 통합 유닛(183)은 프레임 레이트 변환 유닛(181)으로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터의 공급을 받는다. 다음으로, 블록 통합 유닛(183)은 연속하는 복수(예를 들어, 64개)의 시간 구간을 하나의 블록으로 간주하고, 공급된 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 블록 단위로 통합하여, 통합된 시계열 데이터를 유사도 계산 유닛(185)에 공급한다.

또한, 블록 통합 유닛(184)은 프레임 레이트 변환 유닛(182)으로부터 메인 콘텐츠의 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터의 공급을 받는다. 다음으로, 블록 통합 유닛(184)은 연속하는 복수(예를 들어, 64개)의 시간 구간을 하나의 블록으로 간주하고, 공급된 시간 구간마다의 사운드 동기용 특징량의 시계열 데이터를 블록 단위로 통합하여, 통합된 시계열 데이터를 유사도 계산 유닛(185)에 공급한다.

예를 들어, 도 28에서 화살표 A11로 나타낸 바와 같이, 도 18의 스텝 S162에서의 처리에서는, 버퍼(122)에 기록되어 있는 n개의 블록들 X(i)과 버퍼(125)에 기록되어 있는 m개의 블록들 Y(j)은 처리 대상들이다. 즉, 검색 대상으로서의 사운드 동기용 특징량의 블록들의 조합은 n×m 조합이다. 보다 구체적으로, 사운드 동기용 특징량에 대하여 적절하게 프레임 레이트 변환이 행해진다. 그러나, 도 28에서는 설명을 간단하게 하기 위해, 프레임 레이트 변환은 행해지지 않는 것으로서 가정하여 설명을 계속할 것이다.

여기서, 매칭 처리의 대상으로서의 블록 Y(j)은 버퍼(125)에 기록되어 있는 모든 블록 또는 충분히 넓은 범위에 있는 블록들이다.

도 28에서, i는 사운드 동기용 특징량 계산 유닛(121)에 의해 취득된 사운드 동기용 특징량의 블록의 인덱스이고, j는 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량의 블록의 인덱스이다.

또한, X(i)는 사운드 동기용 특징량 계산 유닛(121)에 의해 취득된 사운드 동기용 특징량 중에서 인덱스 i의 블록의 사운드 동기용 특징량의 시계열 데이터를 나타내고, Y(j)는 서브 수신 신호에 포함되어 있는 사운드 동기용 특징량 중에서 인덱스 j의 블록의 사운드 동기용 특징량의 시계열 데이터를 나타낸다.

이에 비해, 스텝 S282에서, 화살표 A12로 나타낸 바와 같이, 버퍼(125)에 기록되어 있는 m개의 블록들 중에서 제시 시간 정보에 기초하는 동기 보정 정보에 의해 표시되는 검색 범위에 포함되어 있는 m'개의 블록들만이 매칭 처리의 대상이다. 즉, m'개의 블록들만이 유사도 계산 유닛(185)에 의한 유사도 계산의 대상이다.

이 예에서, PTS_i는 제시 시간 정보를 나타내고, 제시 시간 정보에 의해 나타나는 위치는 현재 재생되고 있는 메인 콘텐츠의 위치에 대응한다. 또한, 메인 콘텐츠의 제시 시간 정보와 동일한 시간의 서브 콘텐츠의 제시 시간 정보에 대응하는 위치를 포함하는 미리 정해진 길이를 갖는 범위, 즉 m'개의 블록으로 구성된 범위가 검색 범위이다. 따라서, 검색 대상으로서의 사운드 동기용 특징량의 블록들의 조합은 n×m' 조합이다.

제시 시간 정보를 비교함으로써 취득되는 제시 시간 정보에 기초하는 동기 보정 정보를 사용하여 매칭 처리의 대상으로서의 사운드 동기용 특징량의 범위를 최소화할 수 있기 때문에, 유사도 계산의 검색에 필요한 처리 시간을 대폭적으로 줄일 수 있다.

도 27의 흐름도의 설명으로 되돌아가면, 사운드 동기용 특징량의 시계열 데이터가 통합되면, 처리는 스텝 S283로 진행한다. 스텝들 S283 및 S284에서의 처리가 행해지고, 동기 보정 정보 생성 처리가 종료된다고 할지라도, 처리는 도 18의 스텝들 S163 및 S164에서의 처리와 동일하기 때문에, 그에 대한 설명은 생략될 것이다. 동기 보정 정보 생성 처리가 종료되면, 처리는 도 26의 스텝 S258로 진행한다.

상술한 바와 같이, 콘텐츠 재생 시스템은 제시 시간 정보에 기초하는 동기 보정 정보에 의해 나타나는 검색 범위내의 사운드 동기용 특징량을 사용하여 사운드 특징량에 기초하는 동기 보정 정보를 생성한다. 이러한 구성에 의해, 보다 적은 처리량으로 동기 보정 정보를 강건하게 생성할 수 있다.

또한, 도 22에 나타낸 제공 장치(301)와 도 23에 나타낸 콘텐츠 재생 시스템도 도 19 내지 도 21에 나타낸 각각의 시스템에 적용될 수 있다.

그런데, 상술한 일련의 처리는 하드웨어 또는 소프트웨어에 의해 실행될 수 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터의 예는 전용 하드웨어에 내장되어 있는 컴퓨터와 각종 프로그램을 인스톨함으로써 각종 기능을 실행할 수 있는 범용 컴퓨터를 포함한다.

도 29는 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시한 블록도이다.

컴퓨터에서, 중앙 처리 유닛(CPU)(501), 판독 전용 메모리(ROM)(502), 랜덤 액세스 메모리(RAM)(503)는 버스(504)를 통해 서로 접속된다.

또한, 버스(504)에는 입출력 인터페이스(505)가 접속된다. 또한, 입출력 인터페이스(505)에는 입력 유닛(506), 출력 유닛(507), 기록 유닛(508), 통신 유닛(509) 및 드라이브(510)가 접속된다.

입력 유닛(506)은 키보드, 마우스, 마이크로폰, 촬상 디바이스 등으로 구성된다. 출력 유닛(507)은 디스플레이, 스피커 등으로 구성된다. 기록 유닛(508)은 하드 디스크, 불휘발성 메모리 등으로 구성된다. 통신 유닛(509)은 네트워크 인터페이스 등으로 구성된다. 드라이브(510)는 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 착탈식 매체(511)를 구동한다.

상술한 바와 같이 구성되는 컴퓨터는 CPU(501)가 예를 들어, 기록 유닛(508)에 기록되어 있는 프로그램을 입출력 인터페이스(505) 및 버스(504)를 통해 RAM(503)에 로딩하여 그 프로그램을 실행하게 함으로써, 상술한 일련의 처리가 행한다.

컴퓨터(CPU(501))에 의해 실행되는 프로그램은 예를 들어, 패키지 매체로서의 착탈식 매체(511)에 기록되어 제공될 수 있다. 또한, 프로그램은 로컬 에리어 네트워크, 인터넷, 또는 디지털 위성 방송과 같은 유선 또는 무선 송신 매체를 통해 제공될 수 있다.

컴퓨터는 착탈식 매체(511)를 드라이브(510)에 장착함으로써 입출력 인터페이스(505)를 통해 기록 유닛(508)에 프로그램을 인스톨할 수 있다. 또한, 프로그램은 유선 또는 무선 송신 매체를 통해 통신 유닛(509)에서 프로그램을 수신함으로써 기록 유닛(508)에 인스톨될 수 있다. 또한, 프로그램은 ROM(502) 또는 기록 유닛(508)에 미리 인스톨될 수 있다.

또한, 컴퓨터에 의해 실행되는 프로그램은 본 명세서에서 설명된 순서의 시계열로 처리가 행해지는 프로그램일 수 있거나, 병렬로 또는 프로그램이 액세스될 때의 타이밍과 같은 필요한 타이밍에 처리가 행해지는 프로그램일 수 있다.

또한, 본 기술의 실시예는 상술한 실시예에 한정되지 않으며, 본 기술의 요지를 벗어나지 않고 다양한 변경이 이루어질 수 있다.

예를 들어, 본 기술은 하나의 기능이 복수의 장치에 의해 공유되고 협동하여 처리되는 클라우드 컴퓨팅의 구성을 채택할 수 있다.

또한, 상술한 흐름도에서 설명된 각각의 스텝은 하나의 장치에 의해 실행될 수 있거나, 복수의 장치에 의해 공유되어 실행될 수 있다.

또한, 하나의 스텝에 복수의 절차가 포함되는 경우, 그 스텝에 포함되는 복수의 절차는 하나의 장치에 의해 실행될 수 있거나, 복수의 장치에 의해 공유되어 실행될 수 있다.

또한, 본 명세서에 기술된 효과들은 예시적인 것이며, 그에 대한 한정을 제시하려는 의도는 아니며, 다른 효과들이 달성될 수도 있다.

또한, 본 기술은 하기와 같이 구성될 수 있다.

(1) 정보 처리 장치와 상이한 제2 정보 처리 장치에 의해 제1 콘텐츠 -제1 콘텐츠는 오디오 콘텐츠를 포함함- 의 재생과 동기시켜서 제2 콘텐츠를 재생하기 위한 정보 처리 장치로서, 오디오 콘텐츠로부터 제1 특징을 추출하고; 오디오 콘텐츠의 제2 특징 -제2 특징은 제2 콘텐츠와 함께 있음- 을 취득하고; 제1 특징과 제2 특징을 비교하고; 비교의 결과에 기초하여, 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하는데 사용되는 동기 정보를 생성하도록 구성된 회로를 포함하는 정보 처리 장치.

(2) (1)의 정보 처리 장치에서, 회로는 제2 정보 처리 장치에 의해 오디오 콘텐츠의 재생을 통해 생성된 사운드로부터 오디오 신호를 취득하고; 오디오 신호로부터 상기 제1 특징을 추출하도록 구성된다.

(3) (1) 또는 (2)의 정보 처리 장치에서, 제2 콘텐츠와 제2 특징은 제1 콘텐츠의 도착 시간과 제2 콘텐츠 및 제2 특징의 도착 시간 간의 차이에 기초하여 결정되는 시간에 정보 처리 장치에 송신된다.

(4) (1)의 정보 처리 장치에서, 회로는 제2 콘텐츠 및 제2 특징의 송신을 요청하고; 요청에 응답하여 송신되는 제2 콘텐츠 및 제2 특징을 수신하도록 구성된다.

(5) (4)의 정보 처리 장치에서, 회로는 제1 콘텐츠의 송신을 요청하고; 제1 콘텐츠의 송신 요청에 응답하여 송신되는 제1 콘텐츠를 수신하도록 구성된다.

(6) (1)의 정보 처리 장치에서, 회로는 오디오 콘텐츠로부터 제1 복수의 특징 -제1 복수의 특징은 제1 특징을 포함함- 을 추출하고; 제2 콘텐츠와 함께 제2 복수의 특징 -제2 복수의 특징은 제2 특징을 포함함- 을 취득하고; 제1 복수의 특징과 제2 복수의 특징을 비교하고; 및 제1 복수의 특징과 제2 복수의 특징을 비교한 결과에 기초하여, 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하는데 사용되는 동기 정보를 생성하도록 구성된다.

(7) (1)의 정보 처리 장치에서, 회로는 제2 콘텐츠의 재생을 제어하도록 구성된다.

(8) (7)의 정보 처리 장치에서, 회로는 동기 정보에 기초하여 제2 콘텐츠의 재생 위치를 보정하도록 구성된다.

(9) (1)의 정보 처리 장치에서, 회로는 제1 콘텐츠와 연관된 제시 시간 정보를 취득하고; 제1 콘텐츠와 연관된 제시 시간 정보와 제2 콘텐츠와 연관된 제시 시간 정보를 비교한 결과에 기초하여 시간의 범위를 구하도록 구성되고, 회로는 시간의 범위에서 제1 콘텐츠에 나타나는 제1 콘텐츠의 하나 이상의 위치로부터 추출되는 하나 이상의 특징과 제2 특징을 적어도 부분적으로 비교함으로써 동기 정보를 생성하도록 구성된다.

(10) (1)의 정보 처리 장치에서, 회로는 제1 특징의 프레임 레이트가 제2 특징의 프레임 레이트와 일치하도록 제1 특징과 제2 특징 중 적어도 하나에 대해 프레임 레이트 변환을 행한 이후에 제1 특징과 제2 특징을 비교하도록 구성된다.

(11) 제1 콘텐츠 -제1 콘텐츠는 오디오 콘텐츠를 포함함- 의 재생과 동기시켜서 제2 콘텐츠를 재생하기 위한 정보 처리 방법으로서, 오디오 콘텐츠로부터 제1 특징을 추출하는 단계; 오디오 콘텐츠의 제2 특징 -제2 특징은 제2 콘텐츠와 함께 있음- 을 취득하는 단계; 제1 특징과 제2 특징을 비교하는 단계; 및 비교의 결과에 기초하여, 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하는데 사용되는 동기 정보를 생성하는 단계를 포함하는 정보 처리 방법.

(12) 적어도 하나의 컴퓨터에 의해 실행될 때, 적어도 하나의 컴퓨터로 하여금 제1 콘텐츠 -제1 콘텐츠는 오디오 콘텐츠를 포함함- 의 재생과 동기시켜서 제2 콘텐츠를 재생하기 위한 정보 처리 방법을 수행하게 하는 프로세서-실행가능 명령어들을 저장하는 적어도 하나의 비일시적 컴퓨터 판독가능 저장 매체로서, 정보 처리 방법은, 오디오 콘텐츠로부터 제1 특징을 추출하는 단계; 오디오 콘텐츠의 제2 특징 -제2 특징은 제2 콘텐츠와 함께 있음- 을 취득하는 단계; 제1 특징과 제2 특징을 비교하는 단계; 및 비교의 결과에 기초하여, 제2 콘텐츠를 제1 콘텐츠와 동기시켜서 재생하는데 사용되는 동기 정보를 생성하는 단계를 포함하는 적어도 하나의 비일시적 컴퓨터 판독가능 저장 매체.

(13) 정보 처리 장치로서, 제1 콘텐츠의 재생에 의해 생성되는 사운드로부터 특징을 추출하고; 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 특징을, 제1 콘텐츠와 동기시켜서 연관시키고; 제2 콘텐츠와 특징을 출력하도록 구성되는 회로를 포함하는 정보 처리 장치.

(14) (13)의 정보 처리 장치에서, 회로는 제1 콘텐츠를 출력하도록 구성된다.

(15) (14)의 정보 처리 장치에서, 회로는 제1 콘텐츠와 제2 콘텐츠의 도착 시간 간의 차이에 기초하여 결정된 시간에 제2 콘텐츠와 특징을 출력하도록 구성된다.

(16) (14)의 정보 처리 장치에서, 회로는 제2 콘텐츠와 특징을 이들의 송신 요청에 응답하여 출력하도록 구성된다.

(17) (16)의 정보 처리 장치에서, 회로는 제1 콘텐츠를 제1 콘텐츠의 송신 요청에 응답하여 출력하도록 구성된다.

(18) (13)의 정보 처리 장치에서, 회로는 복수의 제1 콘텐츠를 재생하는 것으로부터 생성되는 사운드로부터 복수의 특징을 추출하고; 추출된 특징들과 제2 콘텐츠를 연관시켜서 출력하도록 구성된다.

(19) (13)의 정보 처리 장치에서, 회로는 특징을 다운샘플링하여 다운샘플링된 특징을 취득하고; 제2 콘텐츠와 다운샘플링된 특징을 출력하도록 구성된다.

(20) 정보 처리 방법으로서, 제1 콘텐츠의 재생에 의해 생성되는 사운드로부터 특징을 추출하는 단계; 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 특징을, 제1 콘텐츠와 동기시켜서 연관시키는 단계; 및 제2 콘텐츠와 특징을 출력하는 단계를 포함하는 정보 처리 방법.

(21) 적어도 하나의 컴퓨터에 의해 실행될 때, 적어도 하나의 컴퓨터로 하여금, 제1 콘텐츠의 재생에 의해 생성되는 사운드로부터 특징을 추출하고; 제1 콘텐츠와 시간 동기 관계를 갖는 제2 콘텐츠와 특징을, 제1 콘텐츠와 동기시켜서 연관시키고; 및 제2 콘텐츠와 특징을 출력하게 하는 적어도 하나의 비일시적 컴퓨터 판독가능 저장 매체.

또한, 본 명세서에서 기술되는 기술의 양태들은 2개의 디바이스들 간의 콘텐츠의 동기 재생에 제한되지 않는다는 것을 이해해야 한다. 따라서, 일부 실시예들에서, 본 명세서에서 기술되는 기술들은 3개 이상의 디바이스(예를 들어, 3개, 4개, 5개, 적어도 5개, 적어도 10개, 2개와 10개 사이, 기타 등등) 중에서 콘텐츠의 동기 재생에 적용될 수 있다.

설계 요건들 및 다른 팩터들에 따라 다양한 수정들, 조합들, 서브-조합들, 및 변경들이 첨부된 청구항들 및 그 균등물들의 범위 내에 있는 한 발생할 수 있다는 것을 본 분야의 통상의 기술자는 이해해야 한다.

11: 제공 장치,
22: 출력 유닛
23: 사운드 동기용 특징량 계산 유닛
24: 다중화 처리 유닛
25: 출력 유닛
81: 메인 수신 디바이스
85: 서브 수신 디바이스
111: 입력 유닛
112: 재생 처리 유닛
121: 사운드 동기용 특징량 계산 유닛
123: 입력 유닛
126: 동기 계산 유닛
127: 재생 처리 유닛
311: 기준 시간 신호 생성 유닛
352: 제시 유닛
361: 취득 유닛
362: 제시 시간 정보 비교 유닛

Claims

신호 처리 장치로서,
제1 콘텐츠에 포함되는 음향 신호를 대역 분할하는 대역 분할부와,
상기 대역 분할부에 의해 대역 분할된 상기 음향 신호의 주기성 정보를 대역별로 검출하는 주기성 검출부와,
상기 주기성 검출부에 의해 검출된 대역별 주기성 정보를 전 대역분 통합하는 주기성 정보 통합부와,
상기 주기성 정보 통합부에서 통합된 주기성 정보의 피크 위치를 검출하여 피크 정보를 생성하는 피크 검출부와,
상기 피크 검출부에서 생성된 복수의 시간 구간의 상기 피크 정보를, 하나의 시간 구간의 정보로 하는 다운 샘플부와,
상기 다운 샘플부에서 다운 샘플한 정보를, 상기 제1의 컨텐츠와 동기 대상인 제2의 컨텐츠를 동기화시킬 때의 동기용 특징량으로서 출력하는 출력부
　를 구비하는 신호 처리 장치.
신호 처리 방법으로서,
제1 콘텐츠에 포함되는 음향 신호를 대역 분할하는 대역 분할 단계와,
상기 대역 분할 단계에 의해 대역 분할된 상기 음향 신호의 주기성 정보를 대역별로 검출하는 주기성 검출 단계와,
상기 주기성 검출 단계에 의해 검출된 대역별 주기성 정보를 전 대역분 통합하는 주기성 정보 통합 단계와,
상기 주기성 정보 통합 단계에서 통합된 주기성 정보의 피크 위치를 검출하여 피크 정보를 생성하는 피크 검출 단계와,
상기 피크 검출 단계에서 생성된 복수의 시간 구간의 상기 피크 정보를, 하나의 시간 구간의 정보로 하는 다운 샘플링 단계와,
상기 다운 샘플링 단계에서 다운 샘플한 정보를, 상기 제1의 컨텐츠와 동기 대상인 제2의 컨텐츠를 동기화시킬 때의 동기용 특징량으로서 출력하는 출력 단계
　를 포함하는 신호 처리 방법.
제1 콘텐츠에 포함되는 음향 신호를 대역 분할하는 대역 분할 단계와,
상기 대역 분할 단계에 의해 대역 분할된 상기 음향 신호의 주기성 정보를 대역별로 검출하는 주기성 검출 단계와,
상기 주기성 검출 단계에 의해 검출된 대역별 주기성 정보를 전 대역분 통합하는 주기성 정보 통합 단계와,
상기 주기성 정보 통합 단계에서 통합된 주기성 정보의 피크 위치를 검출하여 피크 정보를 생성하는 피크 검출 단계와,
상기 피크 검출 단계에서 생성된 복수의 시간 구간의 상기 피크 정보를, 하나의 시간 구간의 정보로 하는 다운 샘플링 단계와,
상기 다운 샘플링 단계에서 다운 샘플한 정보를, 상기 제1의 컨텐츠와 동기 대상인 제2의 컨텐츠를 동기화시킬 때의 동기용 특징량으로서 출력하는 출력 단계
　를 포함하는 처리를 컴퓨터에 실행시키기 위한, 컴퓨터 판독가능한 기록매체에 기록된 프로그램.