KR102043088B1

KR102043088B1 - 멀티미디어 스트림들의 동기화

Info

Publication number: KR102043088B1
Application number: KR1020147027774A
Authority: KR
Inventors: 쿠앙-카잉-응옥 두옹; 이봉 르갈레; 크리스토퍼 하우슨
Original assignee: 인터디지탈 매디슨 페이튼트 홀딩스
Priority date: 2012-04-05
Filing date: 2013-04-02
Publication date: 2019-11-11
Also published as: EP2834986A1; JP2015515818A; CN104205859A; JP6167167B2; CN104205859B; KR20140147096A; TW201347522A; TWI563841B; US9877066B2; US20150095931A1; EP2648418A1; WO2013149989A1

Abstract

제1 단말 상에 렌더링되는 제1 멀티미디어 스트림 및 제2 단말(6) 상에 렌더링되는 제2 멀티미디어 스트림을 동기화시키는 이러한 방법은 제1 스트림의 원본 오디오 시퀀스로부터 원본 오디오 핑거프린트들을 생성하는 단계를 포함하고, a) 제1 스트림의 제1 시퀀스(52)로부터 제1 오디오 핑거프린트들을 생성(56)하는 단계; b) 하나 이상의 제1 동기화 위치들(P1)을 획득하기 위해 제1 핑거프린트들과 원본 핑거프린트들을 비교(58)하는 단계; c) 제2 동기화 위치(P2)를 획득하기 위해 제1 동기화 위치들(P1) 주위에 위치된 원본 시퀀스의 하나 이상의 피스들과 제1 시퀀스(52)를 상관(60)시키는 단계; 및 d) 제2 동기화 위치(P2)를 사용하여 제2 단말 상에 제2 스트림을 렌더링하는 단계를 더 포함한다.

Description

멀티미디어 스트림들의 동기화{SYNCHRONIZATION OF MULTIMEDIA STREAMS}

본 발명은 일반적으로 상이한 멀티미디어 소스들에서 비롯되고/되거나 상이한 전송 프로토콜들을 사용하여 송신되고 적어도 하나의 렌더링 장치상에서 복원되는 멀티미디어 스트림들의 처리에 관한 것이다.

보다 구체적으로, 본 발명은 그러한 멀티미디어 스트림들의 동기화를 다룬다. 특히, 예를 들어, 관련된 콘텐츠가 개인용 단말 상 및 TV 세트 상에 동시에 렌더링되는 제2 스크린 TV 상황들에서 응용을 발견한다.

따라서, 본 발명은 멀티미디어 데이터 스트림들을 동기화시키는 방법, 장치 및 시스템에 관한 것이다. 그것은 또한 본 발명의 방법을 구현하는 컴퓨터 프로그램에 관한 것이다.

본 절에서 설명된 접근법들이 추구될 수 있지만, 그것이 반드시 이전에 생각되거나 추구되었던 접근법들일 필요는 없다. 따라서, 본 명세서에서 달리 표시되지 않으면, 본 절에서 설명된 접근법들은 본 출원 내의 특허청구범위에 대한 선행 기술이 아니고, 본 절에 포함되었다고 해서 선행 기술로 인정되는 것은 아니다.

브로드캐스트 및 브로드밴드 IP 네트워크들의 상보적 특징은 개인 맞춤형(personalized) TV 서비스들을 제공하기 위해 각각의 네트워크의 힘이 영향력을 발휘하는 하이브리드 전달 모델에게 기회를 주었다. 그러한 전달 모델은 이미 TV 풍경에서 다수의 배우들에 의해 이용되고 있다. 소비자 장비들의 제조자들은 브로드밴드 액세스를 캐치 업 TV, 강화된 프로그램 가이드들 및 인터넷 비디오에 통합하는 "커넥티드 TV들"을 제공하고 있다.

HbbTV(Hybrid Broadcast Broadband TV) 및 YouView와 같은 계획들은 하이브리드 브로드캐스트 브로드밴드 서비스들의 프로비전에 대한 표준화된 접근법을 정의하려고 하는 브로드캐스터들, 콘텐츠 제공자들 및 인터넷 서비스 제공자들을 화합하게 했다. 제1 HbbTV 서비스들이 2009년 12월에 론칭되었지만, 현재의 하이브리드 TV 서비스 배치들은 미디어 콘텐츠의 전달을 위한 인터넷의 완전한 잠재력을 아직 이용하지 않았고 추가 혁신을 위한 상당한 잠재력이 남아있다.

인기 프로그램들의 대량 분배를 위한 브로드캐스트 전달 및 롱 테일 및 주문형 콘텐츠를 위한 브로드밴드 전달을 사용함으로써, 결합된 전달 모델은 개인 맞춤형 부가 가치 TV 서비스들을 많은 수의 가입자들에게 제공하도록 잘 적응된다.

태블릿들 또는 스마트폰들과 같은 컴패니언 단말들은 TV 브로드캐스트들에 링크된 개인 맞춤형 콘텐츠의 소비에 대한 "TV 버디들(buddies)"로서 잘 설정되고 있다.

C.Howson et al. "Second Screen TV Synchronization", 2011 IEEE International Conference on Consumer Electronics의 논문에서, 제2 스크린 사용 케이스들이 예상되며, 여기서 브로드캐스트 프로그램들에 링크된 대안적 오디오 또는 비디오 콘텐츠가 브로드밴드를 통해 전달됨으로써, 개인 맞춤형을 가능하게 하고 브로드캐스트 네트워크 대역폭에 관한 부담을 완화한다.

그러한 서비스의 일 예는, TV 세트 상에 브로드캐스트 비디오를 디스플레이하는 것과 동반하여, 사용자가 핸드헬드 디바이스 상에서 그가 선호하는 오디오 사운드트랙을 선택할 기회를 제공하는 것이다. 메인 오디오 및 비디오 구성요소들이 브로드캐스트 네트워크를 통해 전달되는 한편 요구에 따라 인터넷을 통해 여러 개의 다른 언어들이 이용가능하다.

또 다른 그러한 서비스로서, TV 세트 상에 브로드캐스트 콘텐츠가 디스플레이되는 것과 함께, 사용자가 스포츠 또는 음악 행사를 다른 관점에서 브로드밴드로 전달하는 것을 선택하고 이것을 그의 태블릿 상에 렌더링할 수 있게 할 것이다.

그러한 제2 스크린 서비스들의 사용자 경험이 허용가능해지면, 브로드밴드 및 브로드캐스트 네트워크들을 통해 별도로 전달되는 미디어 구성요소들은 정확히 동기화되어 렌더링될 필요가 있다.

기존 하이브리드 TV 서비스들이 상호 작용 응용들을 위한 트리거 메커니즘들을 이용하지만, 그들은 예를 들어 인터넷을 통해 전달되는 대안적 사운드트랙이 브로드캐스트 비디오 구성요소와 자동으로 정확하게 동기화되는 것을 허용하는 기술들을 포함하지는 않는다.

위에서 인용된 논문은 제2 스크린 개인 맞춤형 TV 서비스들의 배치를 위해, 브로드밴드 및 브로드캐스트 네트워크들을 통해 독립적으로 전달되는 콘텐츠 구성요소들의 렌더링이 사용자 장치들에서 동기화될 수 있게 하는 시스템을 제안한다. 이러한 논문에 개시된 솔루션은 브로드캐스트 네트워크, 및 일부 경우들에서, 또한 브로드밴드 네트워크를 통해 전달되는 미디어 구성요소들의 각각의 그룹과 연관된 보조 구성요소 타임라인의 추가에 기초한다. 이러한 타임라인 구성요소는 각각의 이벤트와 관련된 동기화 정보를 운반하고 미디어 구성요소들의 프리젠테이션을 정렬하는데 사용된다.

그러나, 위의 논문에 개시된 솔루션은 그것이 서명, 즉 타임라인 구성요소가 원본 미디어 콘텐츠로 내장되는 것을 요구하기 때문에 직접적인 솔루션이 아니다.

본 발명은 상황을 개선하기 위한 솔루션을 제안한다.

따라서, 본 발명은 제1 단말 상에 렌더링되도록 의도된 제1 멀티미디어 스트림 및 제2 단말 상에 렌더링되도록 의도된 제2 멀티미디어 스트림을 동기화시키는 동기화 방법을 제공하며, 방법은 제1 멀티미디어 스트림의 원본 오디오 시퀀스로부터 원본 오디오 핑거프린트들을 생성하는 예비 단계를 포함하고,

a) 제1 멀티미디어 스트림의 오디오 데이터의 제1 시퀀스를 수신하는 단계;

b) 제1 시퀀스로부터 제1 오디오 핑거프린트들을 생성하는 단계;

c) 원본 시퀀스에서 하나 이상의 제1 동기화 위치들을 획득하기 위해 제1 오디오 핑거프린트들과 원본 오디오 핑거프린트들의 블록들을 비교하는 단계;

d) 원본 시퀀스에서 단지 하나의 제2 동기화 위치를 획득하기 위해 제1 동기화 위치들 주위에 위치된 원본 시퀀스의 하나 이상의 피스들과 제1 시퀀스를 상관시키는 단계; 및

e) 제2 동기화 위치를 사용하여 제1 및 제2 멀티미디어 스트림들을 동기화하는 단계를 더 포함한다.

핑거프린팅 및 상호 상관 기술들의 사용을 결합함으로써, 본 발명의 방법은 멀티미디어 스트림들을 수정하지 않고 멀티미디어 스트림들의 정확한 동기화를 매우 짧은 시간에 제공한다. 보다 정확하게, 그것은 제2 단말이 알맞은 때에, 제1 스트림과 동기화되는 제2 스트림을, 콘텐츠 서버로부터 요청할 수 있도록 제1 멀티미디어 스트림에서, 렌더링 위치, 즉 렌더링의 시작으로부터 경과된 시간의 정확한 식별을 허용한다.

핑거프린트들을 비교함으로써 양호한 매치가 발견되는 경우에도, 고려된 시퀀스의 각각의 오디오 프레임에 대해 핑거프린트가 계산되므로, 핑거프린팅은 프레임의 순서로 정확도를 갖는 제1 동기화 위치, 즉 개략적인(coarse) 동기화 위치를 제공하는 반면, 상관은 샘플의 순서로 정확도를 개선하는 것을 허용하며, 즉 제2 동기화 위치는 제1 동기화 위치보다 더 정확하다.

유리하게는, 상관은 위상 변환 기술과 함께 일반화된 상호 상관을 사용한다.

또한 GCC-PHAT로 명명된 이러한 기술은 예를 들어 M.S. Brandstein and H.F. Silverman, "A robust method for speech signal time-delay estimation in reverberant rooms", in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing(ICASSP), 1997, pp. 375-378의 논문에 기재되어 있다.

일반화된 상호 상관이 주파수 도메인에서 수행되는 이러한 기술의 사용은 계산적으로 비싸지 않으면서 잡음에 대한 동기화 용량(the synchronization capacity over the noise)을 개선한다.

유리하게는, 방법은, 제1 지속 기간 동안에, 상기 제1 시퀀스가 상기 제1 단말 상에 렌더링되는 동안 제1 멀티미디어 스트림의 오디오 데이터의 제1 시퀀스를 제2 단말에 의해 캡처하는 단계를 포함한다.

유리하게는, 제1 지속 기간은 5초보다 더 짧으며, 바람직하게는 0.5초 내지 3초를 포함한다.

그러한 짧은 기록을 사용함으로써, 동기화는 우선 매우 짧은 시간에 수행된다. 따라서, 대부분의 경우에 사용자는 제2 단말 상에서 렌더링 서비스를 획득하기 위해 많은 시간을 기다릴 필요가 없다.

바람직하게는, 제1 및 원본 오디오 핑거프린트들은 제1 시퀀스 및 원본 시퀀스의 핑거프린트들의 쌍들 사이의 거리를 계산함으로써 비교된다.

예를 들어, 계산된 거리는 유클리드 또는 해밍 거리이다.

유리하게는, 제2 동기화 위치가 단계 d)에서 획득되지 않으면, 방법은 제1 멀티미디어 스트림의 오디오 데이터의 제2 시퀀스를 새로 수신하는 단계를 더 포함하고, 단계들 b) 내지 d)는 제1 시퀀스 대신에 제2 시퀀스만 또는 제1 및 제2 시퀀스들의 조합을 사용하여 반복된다.

바람직하게는, 제2 시퀀스는 제2 지속 기간 동안 제2 단말에 의해 캡처된다.

제1 실시예에 따르면, 제2 단말은 제1 단말과 동일하다.

이러한 경우에, 제1 및 제2 멀티미디어 스트림들 둘 다는 예를 들어 "화면 속 화면" 서비스의 맥락에서와 같이, 동일한 단말 상에 렌더링된다.

제2 실시예에 따르면, 제2 단말은 제1 단말과 상이하다.

이러한 경우에, 제1 및 제2 멀티미디어 스트림들은 2개의 별도의 디스플레이 장치들 상에 렌더링되고, 사운드는 렌더링 시간 동안 마스터 장치로 간주되는 제1 단말로부터 제2 단말에 의해 캡처된다.

유리하게는, 방법은 제2 동기화 위치를 사용하여 제2 단말 상에 제2 멀티미디어 스트림을 렌더링하는 단계를 더 포함한다.

본 발명 또한 제1 단말 상에 렌더링되도록 의도된 제1 멀티미디어 스트림 및 제2 단말 상에 렌더링되도록 의도된 제2 멀티미디어 스트림을 동기화시키는 동기화 시스템을 제공하며, 동기화 시스템은 제1 단말 및 제2 단말을 포함하고,

제1 멀티미디어 스트림의 원본 오디오 시퀀스로부터, 원본 오디오 핑거프린트들을 생성하는 제1 프로세서;

제1 지속 기간 동안에, 제1 시퀀스가 제1 단말 상에 렌더링되고 있는 동안 제1 멀티미디어 스트림의 오디오 데이터의 제1 시퀀스를 제2 단말에 의해 캡처하는 마이크로폰;

제1 오디오 시퀀스로부터, 제1 오디오 핑거프린트들을 생성하는 제2 프로세서;

원본 시퀀스에서 하나 이상의 제1 동기화 위치들을 획득하기 위해 제1 오디오 핑거프린트들 및 원본 오디오 핑거프린트들의 블록들을 비교하는 비교기;

원본 시퀀스에서 단지 하나의 제2 동기화 위치를 획득하기 위해 제1 동기화 위치들 주위에 위치된 원본 시퀀스의 하나 이상의 피스들과 제1 시퀀스를 상관시키는 상관기; 및

제2 동기화 위치를 사용하여 제1 및 제2 멀티미디어 스트림들을 동기화시키는 동기화기를 더 포함한다.

본 발명은 제1 단말 상에 렌더링되도록 의도된 제1 멀티미디어 스트림 및 제2 단말 상에 렌더링되도록 의도된 제2 멀티미디어 스트림을 동기화시키는 동기화 장치를 더 제공하며,

제1 멀티미디어 스트림의 오디오 데이터의 제1 시퀀스로부터, 제1 오디오 핑거프린트들을 생성하는 제2 프로세서;

제2 동기화 위치를 사용하여 제1 및 제2 멀티미디어 스트림들을 동기화시키는 동기화기를 포함한다.

유리하게는, 동기화 장치는 제2 단말에 포함된다.

이러한 제2 단말은 예를 들어 스마트폰 또는 태블릿일 수 있다.

대안적으로, 동기화 장치는 사용자의 가정 내에 위치되며, 예를 들어 셋톱 박스 또는 게이트웨이에 포함될 수 있다. 그것은 심지어 제1 단말에 포함될 수 있다.

동기화 장치는 또한 사용자의 가정으로부터 원격이며, 예를 들어 웹 서버에 포함될 수 있다.

따라서, 동기화 장치의 구성요소들은 사용자의 가정으로부터 원격이거나 사용자의 가정 내에 위치되는 동일한 하우징에 통합될 수 있다.

대안으로서, 동기화 장치의 구성요소들의 일 부분은 사용자의 가정 내에 위치되는 반면 다른 부분은 사용자의 가정으로부터 원격이다.

동기화 프로세스의 적어도 일부가 사용자의 가정 내에 위치되는 경우들에서, 이러한 일부는 예를 들어 인터넷 연결을 통해 원본 오디오 시퀀스에 액세스하거나 원본 오디오 핑거프린트들에 직접 액세스할 수 있다.

본 발명에 따른 방법은 프로그램가능 장치상의 소프트웨어로 구현될 수 있다. 그것은 하드웨어 또는 소프트웨어만으로, 또는 그것의 조합으로 구현될 수 있다.

본 발명이 소프트웨어로 구현될 수 있으므로, 본 발명은 임의의 적절한 캐리어 매체 상의 프로그램가능 장치에 프로비저닝되는 컴퓨터 판독가능 코드로 구체화될 수 있다. 캐리어 매체는 플로피 디스크, CD-ROM, 하드 디스크 드라이브, 자기 테이프 장치 또는 고체 상태 메모리 장치 등과 같은 저장 매체를 포함할 수 있다.

따라서, 본 발명은 컴퓨터가 본 발명의 방법을 수행할 수 있게 하는 컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능 프로그램을 제공한다. 도 3의 도면은 그러한 컴퓨터 프로그램에 대한 일반적 알고리즘의 일 예를 예시한다.

본 발명은 동일한 참조 번호들이 유사한 요소들이 지칭하는 첨부 도면들의 도들에서, 제한이 아닌 예들로서 예시된다.
도 1은 본 발명에 따른 동기화 시스템의 일 실시예의 개략도이다.
도 2는 본 발명에 따른 동기화 장치의 일 실시예의 개략도이다.
도 3은 본 발명의 일 실시예에 따른 동기화 방법의 단계들을 도시하는 흐름도이다.
도 4는 도 3의 방법의 핑거프린팅 단계들을 열거하는 흐름도이다.
도 5는 도 3의 방법에 대한 GCC-PHAT 계산의 단계들을 열거한다.
도 6은 본 발명에 따른 핑거프린팅과 GCC-PHAT를 결합하는 처리의 일 예를 도시한다.
도 7은 본 발명의 방법에 의해 획득되는 정확한 동기화 위치의 일 예를 도시한다.

도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 동기화 시스템(2)의 개략도가 그 안에 도시된다.

동기화 시스템(2)은 사용자의 가정(8) 내에 위치되는 제1 단말(4) 및 제2 단말(6)을 포함한다. 제1 단말(4)은 예를 들어 사용자를 위한 메인 디스플레이를 구성하는 TV 세트인 반면, 제2 단말(6)은 예를 들어 제2 스크린 장치로서 사용자에 의해 사용되는 스마트폰 또는 태블릿이다.

제1 단말(4) 상에 디스플레이되는 콘텐츠는 원본 콘텐츠 서버(10)로부터 브로드캐스트 네트워크(11)를 통해 송신된다. 그러한 브로드캐스트 콘텐츠, 예를 들어 DVB-T 또는 DVB-C 멀티미디어 스트림을 수신하기 위해, 제1 단말(4)은 안테나(14)에 링크되는 셋톱 박스(12)에 링크된다. 셋톱 박스(12)는 또한 인터넷(16)으로부터 또는 사용자의 가정(8) 내의 홈 네트워크로부터 멀티미디어 스트림들을 수신할 수 있는 것이 바람직하다.

제1 단말(4) 상에 디스플레이되는 콘텐츠는 또한 원격 또는 로컬 오디오 및/또는 비디오 서버로부터의 스트리밍과 같은 임의의 로컬 또는 원격 소스, 비디오 파일, DVD, 블루 레이 디스크 등에 의해 제공될 수도 있다. 이를 위해, 제1 단말(4)은 또한 로컬 콘텐츠 소스(17), 예를 들어 DVD 및/또는 블루 레이 리더에 연결된다.

제2 단말(6)은 인터넷 네트워크(16)를 통해, 원본 콘텐츠 서버(10)의 콘텐츠와 관련된 콘텐츠를 포함하는 보완적 콘텐츠 서버(18)에 연결된다. 보완적 서비스에의 액세스는 예를 들어 브로드캐스트 네트워크(11)로부터 수신되는 브로드캐스트 스트림에 내장된 정보 때문에 셋톱 박스(12)에 의해 제2 단말(6)에 제공된다.

다른 실시예에서, 보완적 콘텐츠 서버(18)의 보완적 콘텐츠는 그것이 제1 단말(4) 상에 수신된 브로드캐스트 콘텐츠와 밀착 결합되기 때문에 사용자에 의해 용이하게 식별되는 웹 사이트로부터 제2 단말(6)로 액세스가능하다. 이러한 웹 사이트는 브로드캐스트 제공자의 웹 사이트 또는 원본 콘텐츠 서버(10)로부터 제공되는 메인 콘텐츠를 생성한 스튜디오의 웹 사이트일 수 있다.

사용자의 가정(8)의 이러한 장비들의 경우, 사용자는 제1 단말(4)에 의해 렌더링될, 원본 콘텐츠 서버(10)에서 비롯되는 제1 멀티미디어 스트림 및 제2 단말(6)에 의해 렌더링될, 예를 들어 보완적 서버(18)에서 비롯되는 제2 멀티미디어 스트림을 수신하는 것이 가능하다.

사용자는 양 단말들(4, 6)에서 동시에 관련된 콘텐츠를 수신하기를 원할 수 있다. 예를 들어, 사용자는 스포츠 또는 음악 행사를 다른 관점에서 수신하여 이것을 제1 단말(4) 상에 디스플레이된 메인 콘텐츠와 함께, 제2 단말(6) 상에 렌더링하기를 원할 수 있다.

본 발명의 동기화 시스템(2)은 그들을 단말들(4, 6) 상에 동시에 렌더링하기 위해 양 콘텐츠의 완전한 동기화를 가능하게 한다.

따라서, 동기화 시스템(2)은 제2 단말(6)에 연결된 마이크로폰(20)을 포함한다. 이러한 마이크로폰(20)은 제1 단말(4)을 렌더링한 오디오 콘텐츠를 기록할 수 있다.

게다가, 동기화 시스템(2)은 사용자의 가정(8)에 그리고 원본 콘텐츠 서버(10) 및 보완적 콘텐츠 서버(18) 둘 다에 연결된 동기화 장치(22)를 포함한다. 제시된 실시예에서, 동기화 장치(22)는 사용자의 가정(8)으로부터 원격 위치된다.

대안적으로, 동기화 장치(22)는 사용자의 가정(8) 내에 위치되며, 예를 들어 셋톱 박스(12) 내에 또는 제2 단말(6) 내에 구현될 수 있다.

다른 대안에서, 동기화 장치(22)의 일 부분들은 사용자의 가정 내에 구현될 수 있는 반면 다른 부분들은 원격으로 구현된다.

동기화 시스템(2)은 또한 메모리(24)를 포함한다.

도 2에 도시된 바와 같이, 동기화 장치(22)는 제1 프로세서(30) 및 제2 프로세서(32)를 포함한다. 양 프로세서들(30, 32)은 임의의 종래의 적절한 핑거프린팅 알고리즘에 따라 오디오 시퀀스로부터 오디오 핑거프린트들을 생성할 수 있다. 프로세서들(30, 32)은 2개의 별도의 프로세서들 또는 1개의 고유 프로세서일 수 있다.

동기화 장치(22)는 또한 양 세트들의 핑거프린트들의 쌍들 사이의 거리, 예를 들어 유클리드 또는 해밍 거리를 계산함으로써 오디오 핑거프린트들의 2개의 세트들을 비교할 수 있는 비교기(34)를 포함한다.

동기화 장치(22)는 GCC-PHAT로 명명된, 위상 변환 기술과 일반화된 상호 상관을 사용하여 2개의 오디오 시퀀스들을 상호 상관시킬 수 있는 상관기(36)를 더 포함한다.

그것은 보완적 콘텐츠 서버(18)에게 동기화 위치에서 시작하는 미디어 콘텐츠를 제2 단말(6)에 송신하도록 요청함으로써 동기화 위치를 사용하여 2개의 멀티미디어 스트림들을 동기화시킬 수 있는 동기화기(38)를 더 포함한다.

도 3 및 도 4의 흐름도들은 바람직한 실시예에 따른 본 발명의 동기화 방법의 단계들을 열거한다.

원본 콘텐츠 서버(10)로부터 송신된 제1 멀티미디어 스트림이 제1 단말(4) 상에 렌더링되고 있는 동안에, 방법이 구현된다.

도 4에 예시된 예비 단계(40)에서, 동기화 장치(22)의 제1 프로세서(30)는 원본 콘텐츠 서버(10)로부터, 제1 멀티미디어 스트림의 원본 오디오 시퀀스(42)를 복구하고, 이러한 원본 시퀀스(42)로부터 한 세트의 원본 오디오 핑거프린트들을 생성한다. 도 6에 나타낸 바와 같이, 각각 생성된 원본 핑거프린트(F_i _-1, F_i, F_i ₊₁, F_i+2)는 원본 시퀀스(42)의 오디오 프레임(i-1, i, i+1, i+2)에 각각 대응한다.

이러한 생성을 위해, 제1 프로세서(30)는 예를 들어 J. Haitsma et Al. "A highly robust audio fingerprinting system", in Proc. Int. Sym. on Music Information Retrieval(ISMIR), 2002에 설명된 알고리즘, 또는 A. L-C. Wang, "An industrial-strength audio search algorithm", in Proc. Int. Sym. on Music Information Retrieval(ISMIR), 2003, pp. 1-4에 설명된 알고리즘과 같은 임의의 적절한 종래의 핑거프린팅 알고리즘을 사용한다.

바람직하게는, 생성된 원본 오디오 핑거프린트들은 단계(44)에서, 메모리(24)에 저장된다.

도 3에 나타낸 단계(50)에서, 제2 단말(6)은, 제1 지속 기간 동안, 마이크로폰(20)을 사용하여 제1 단말(4)에 렌더링된 제1 멀티미디어 스트림의 제1 오디오 시퀀스(52)를 기록한다. 제2 단말(6)은 동기화 서비스가 사용자에 의해 명시적으로 또는 제2 단말(6)에 제공되는 응용에 의해 자동으로 활성화될 때 그러한 기록을 시작한다. 그 다음, 제2 단말(6)은 인터넷(16)을 통해 제1 오디오 시퀀스(52)를 동기화 장치(22)에 송신한다.

사용자의 가정(8)과 동기화 장치(22) 사이의 인터넷 링크 상의 대역폭이 충분하면, 제1 오디오 시퀀스(52)는 원 포맷(raw format)으로 송신되는 것이 바람직하다. 그러나, 전달의 시간을 최적화하기 위해, 후속 핑거프린팅 처리의 신뢰성을 보장하는 품질이 허용될 수 있다면 어느 정도 압축될 수 있는 것이 유리하다.

예를 들어, 제1 오디오 시퀀스(52)를 포함하는 파일은 예를 들어 HTTP POST 프로토콜을 사용함으로써 동기화 장치(22)에 업로딩된다.

제1 지속 기간은 5초보다 더 짧게 선택되며, 바람직하게는 0.5초 내지 3초를 포함한다. 그것은 예를 들어 1초와 동일하다.

따라서, 제1 오디오 시퀀스(52)는 제1 단말(4) 주변의 음향 환경(54)(도 4)에 의해 주로 손상된 한 피스의 원본 오디오 시퀀스(42)에 대응한다.

단계(56)에서, 제2 프로세서(32)는 원본 오디오 핑거프린트들을 생성하는 제1 프로세서(30)에 의해 구현되는 동일한 핑거프린팅 알고리즘을 사용하여 제1 오디오 핑거프린트들의 블록을 제1 시퀀스(52)로부터 생성한다. 각각 생성된 제1 핑거프린트(F'₁, F'₂, F'₃)(도 6)는 제1 시퀀스(52)의 오디오 프레임에 대응한다.

바람직한 실시예에서, 제2 단말(6)은 이러한 처리 동안, 동기화 장치(22)로부터의 가능한 추가 데이터 요청들을 고려하기 위해 마이크로폰(20)을 사용하여 제1 단말(4)로부터 계속해서 기록한다.

단계(58)에서, 비교기(34)는 제1 오디오 핑거프린트들의 블록과 원본 오디오 핑거프린트들의 세트의 각각의 동일한 크기 블록을 비교한다. 이러한 비교 동안, 양 오디오 핑거프린트 블록들 사이의 매칭 신뢰가 평가되어 제1 미리 정의된 임계값과 비교된다.

이를 위해, 비교기(34)는 각각의 블록으로부터 핑거프린트들의 각각의 쌍 사이의 거리를 계산하고 2개의 블록들에서 모든 쌍들에 대한 비교 결과들을 축적함으로써 유사성 비교를 수행한다. 일 예로서, 제1 핑거프린트들(F'₁, F'₂, F'₃)의 블록을 원본 핑거프린트들(F₁, F₂, F₃)의 동일한 크기 블록과 비교할 때, 합 거리(d(F'₁, F₁)+d(F'₂, F₂)+d(F'₃, F₃))가 계산되며, d(F'_i, F_i), 1≤i≤3은 2개의 핑거프린트들 사이의 유클리드 놈(Euclidean norm) 또는 해밍 거리를 나타낸다.

제1 핑거프린트들과 원본 핑거프린트들의 블록 사이의 최대 유사성을 측정하는 유일한 최소 계산 합 거리가 제1 임계값보다 더 작으면, 핑거프린트 매칭은 신뢰되는 것으로 선언되고 고유의 개략적인 동기화 위치(P1)가 발견된다. 이러한 경우는 도 7의 하부 도면에 표시된다.

일부 경우들에서, 본질적으로 기록의 매우 짧은 제1 지속 기간 또는 원본 스트림에서 반복되는 유사한 콘텐츠에 기인하여, 제1 임계값보다 더 작거나 제1 임계값보다 더 높지만 제2 미리 정의된 임계값보다 더 작은 계산된 거리의 다수의 국부 최소 지점들이 발견될 수 있다. 이러한 경우들에서, 다수의 개략적인 동기화 위치들(A, B, C)은 낮은 신뢰로 발견된다(도 7의 중간 도면).

초기에 검출된 개략적인 동기화 위치들(A, B, C) 중 어느 것이 정확한 동기화 위치인지를 검증하기 위해, 상관기(36)는 단계(60)에서, 제1 오디오 시퀀스 및 단계(58)에서 핑거프린팅에 의해 발견되는 개략적인 동기화 위치들 주위에 위치된 원본 오디오 시퀀스의 피스들(61)(도 6 및 7)의 GCC-PHAT 상호 상관들을 계산한다. 이러한 상호 상관들의 계산은 주파수 도메인에서 수행된다.

도 5는 GCC-PHAT 계산의 일 예를 예시한다. 원본 오디오 시퀀스의 피스에 대응하는 시간 도메인 신호(X(t)) 및 제1 오디오 시퀀스에 대응하는 거리(d)만큼 지연되고 및 왜곡된 버전(Y(t))가 주어지면, 그들의 주파수 표현들(X(f) 및 Y(f)) 각각은 DFT(Discrete Fourier transform)을 사용하여 계산된다. R_xy(f)로 언급된 X(f) 및 Y(f)의 상호 상관은 이하의 식에 따라 계산된다:

.

이러한 식에서, 상호 상관은 위상 정보만을 유지하기 위해 X(f) 및 Y(f)의 곱의 진폭에 의해 정규화된다.

신호들(X(t) 및 Y(t)) 사이의 샘플들의 수로 측정되는 것이 바람직한 시차(d)는 이 때 R_xy(t)의 피크(P)의 위치에 의해 지정되며, R_xy(t)는 R_xy(f)의 IDFT(Inverse Discrete Fourier Transform)이다.

단계(62)에서, 비교기(34)는 획득된 피크들(P)의 값들을 제3 임계값과 비교한다. 이러한 제3 임계값은 R_xy(t)로부터 미리 정의되거나 적응적으로 계산될 수 있다(즉, R_xy(t)의 분산을 고려함).

단지 하나의 피크 값이 제3 임계값보다 더 높다면, 원본 오디오 시퀀스들의 제 1 및 대응하는 피스 사이의 매칭 신뢰는 높은 것으로 간주되고 고유의 정확한 동기화 위치(P2)가 발견된다. 이러한 위치의 정확도는 샘플의 것이다.

도 7을 참조하면, GCC-PHAT 상호 상관(상부 도면)을 사용하여 발견된 정확한 동기화 위치(P2)는 개략적인 동기화 위치(A)에 대응하는 반면 개략적인 동기화 위치들(B, C)(중간 도면)은 거절된다.

핑거프린트들이 오디오 프레임에 기초하여 계산됨에 따라, 개략적인 동기화 위치들은 프레임 정확도를 가지며, 이는 양 단말들(4, 6) 상에서 멀티미디어 스트림들의 렌더링의 완전한 동기화에 충분하지 않을 수 있다.

따라서, 본 발명은 원본 및 제1 오디오 시퀀스들 사이의 일반화된 상호 상관의 추가 단계를 구현함으로써 동기화 정확도를 현저하게 개선한다. GCC-PHAT을 사용하는 상관 단계는 높은 신뢰를 갖는 고유의 개략적인 동기화 위치(P1)가 샘플-정확한 동기화를 획득하기 위해 핑거프린팅 단계에서 발견되더라도 구현될 수 있다.

비교기(34)는 제2 단말(6)로의 제2 멀티미디어 스트림의 송신을 동기화시키는 동기화기(38)에 이러한 위치를 제공한다.

이러한 동기화는 제2 단말(6)에 제2 멀티미디어 스트림의 송신을 시작할 수 있는 시간을 보완적 콘텐츠 서버(18)에 표시하는 것을 포함할 수 있다.

동기화는 또한 상기 제2 단말(6)이 이미 수신한 제2 멀티미디어 스트림을 렌더링하는 것을 시작할 수 있는 시간에 대한 정보를 제2 단말(6)에 송신하는 것을 포함할 수도 있다.

핑거프린트 비교에서의 모든 피크 값들이 제2 임계값보다 더 높거나(즉 핑거프린팅이 임의의 개략적인 동기화 위치들을 제공할 수 없거나), 또는 상호 상관 비교에서의 모든 피크 값들이 제3 임계값보다 더 낮거나(즉 GCC-PHAT가 신뢰 동기화 지점을 보장하지 않거나), 상호 상관 비교에서의 2 이상의 피크 값이 제3 임계값보다 더 높으면, 가능한 한 유사한 콘텐츠가 원본 스트림 데이터에서 반복되기 때문에, 원본 오디오 시퀀스들의 제1 및 대응하는 피스들 사이의 매칭 신뢰는 낮은 것으로 간주된다. 이러한 경우에, 동기화 장치(22)는 단계(64)에서, 제2 단말(6)로부터 기록된 데이터의 제2 오디오 시퀀스를 요청한다. 제2 시퀀스의 수신 후에, 동기화 장치(22)는 제1 시퀀스 대신에 제2 시퀀스만 또는 제1 및 제2 시퀀스들의 조합을 사용하여 단계들(52 내지 62)을 반복한다.

현재 본 발명의 바람직한 실시예들인 것으로 간주되는 것이 예시되고 설명되었지만, 본 발명의 진정한 범위로부터 벗어나는 것 없이, 여러 가지 다른 수정들이 이루어질 수 있고, 균등물들이 대체될 수 있다는 점이 당업자들에 의해 이해될 것이다. 부가적으로, 본 명세서에 설명된 가장 중요한 창의적인 개념으로부터 벗어나는 것 없이 특정 상황을 본 발명의 교시에 적응시키기 위해 많은 수정들이 이루어질 수 있다. 더욱이, 본 발명의 일 실시예는 상술된 특징들의 모두를 포함하지 않을 수 있다. 따라서, 본 발명은 개시된 특정 실시예들에 제한되는 것이 아니라, 본 발명은 첨부된 특허청구범위 내에 있는 모든 실시예들을 포함하도록 의도된다.

"포함한다", "구비한다", "통합한다", "함유한다", "이다" 및 "갖는다"와 같은 표현들은 명세서 및 그것의 연관된 특허청구범위를 해석할 때 비배타적인 방식으로 해석되며, 즉 또한 존재하는 것으로 명시적으로 정의되지 않은 다른 아이템들 또는 구성요소들을 허용하도록 해석되어야 한다. 단수형에 대한 참조는 또한 복수형에 대한 참조로 해석되어야 하고 그 역도 또한 마찬가지이다.

당업자는 본 발명의 범위로부터 벗어나는 것 없이 설명에 개시된 다양한 파라미터들이 수정될 수 있고 개시되고/되거나 청구된 다양한 실시예들이 조합될 수 있다는 점을 즉시 이해할 것이다.

따라서, 상기 설명이 별도의 단말들을 사용하는 제2 스크린 응용에 집중되었지만, 그것은 예를 들어 메인 콘텐츠를 디스플레이하는 스크린의 일 부분 및 제2 콘텐츠를 디스플레이하는 나머지 부분(화면 속 화면)을 갖는 단지 하나의 스크린이 존재하는 경우에, 단지 하나의 단말을 갖는 시나리오에 적용되는 것이 유리할 수 있다. 이러한 경우에, 동기화에 사용되는 제1 오디오 시퀀스는 단말에 의해 수신되는 브로드캐스트 콘텐츠를 디코딩함으로써 또는 그것을 단말 내의 마이크로폰에 의해 직접 기록함으로써 캡처된다.

더욱이, 동기화 장치는 홈 게이트웨이 내에 또는 셋톱 박스 내에 또는 제2 스크린 단말 내에 통합될 수 있다. 이러한 경우에, 원본 오디오 시퀀스, 및 선택적으로 그것의 연관된 핑거프린트들은 미리 셋톱 박스 또는 게이트웨이 또는 제2 스크린 단말에 저장되거나 그로 송신되어야 한다.

게다가, 상기 설명이 사용자의 가정 응용을 위한 본 발명의 사용에 관한 것이었지만, 본 발명은 예를 들어 공항, 철도역, 병원 등과 같은 공공 건물 내의 제2 스크린 응용들에 사용되는 것이 유리할 수 있다.

Claims

제1 단말(4) 상에 렌더링되도록 의도된 제1 멀티미디어 스트림 및 제2 단말(6) 상에 렌더링되도록 의도된 제2 멀티미디어 스트림을 동기화시키는 동기화 방법으로서,
상기 제1 멀티미디어 스트림의 원본 오디오 시퀀스(42)로부터 원본 오디오 핑거프린트들을 생성하는 예비 단계(40)
를 포함하고, 상기 방법은
a) 상기 제1 멀티미디어 스트림의 오디오 데이터의 제1 오디오 시퀀스(52)를 수신하는 단계;
b) 상기 제1 오디오 시퀀스(52)로부터 제1 오디오 핑거프린트들을 생성(56)하는 단계;
c) 상기 원본 오디오 시퀀스(42)에서 하나 이상의 제1 동기화 위치들(P1; A, B, C)을 획득하기 위해 상기 제1 오디오 핑거프린트들과 상기 원본 오디오 핑거프린트들의 블록들을 비교(58)하는 단계;
d) 상기 제1 동기화 위치들(P1; A, B, C) 중에서, 상기 원본 오디오 시퀀스(42)에서 단지 하나의 제2 동기화 위치(P2)를 획득하기 위해, 상기 제1 동기화 위치들(P1; A, B, C) 주위에 위치된 상기 원본 오디오 시퀀스(42)의 하나 이상의 피스들(61)과 상기 제1 오디오 시퀀스(52)를 상관(60)시키는 단계; 및
e) 상기 제2 동기화 위치(P2)를 사용하여 상기 제1 및 상기 제2 멀티미디어 스트림들을 동기화하는 단계
를 더 포함하는 동기화 방법.
제1항에 있어서, 상기 상관(60)은 위상 변환 기술과 함께 일반화된 상호 상관을 사용하는 동기화 방법.
제2항에 있어서, 상기 일반화된 상호 상관은 주파수 도메인에서 수행되는 동기화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 제1 지속 기간 동안에, 상기 제1 오디오 시퀀스(52)가 상기 제1 단말(4) 상에 렌더링되고 있는 동안 상기 제1 멀티미디어 스트림의 오디오 데이터의 제1 오디오 시퀀스(52)를 상기 제2 단말(6)에 의해 캡처(50)하는 단계를 포함하는 동기화 방법.
제4항에 있어서, 상기 제1 지속 기간은 5초보다 더 짧은 동기화 방법.
제5항에 있어서, 상기 제1 지속 기간은 0.5초 내지 3초 사이에 포함되는 동기화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제1 오디오 핑거프린트들 및 상기 원본 오디오 핑거프린트들은 상기 제1 오디오 시퀀스(52) 및 상기 원본 오디오 시퀀스(42)의 핑거프린트들의 쌍들 사이의 거리를 계산함으로써 비교되는 동기화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 제2 동기화 위치가 단계 d)에서 획득되지 않으면, 상기 방법은 상기 제1 멀티미디어 스트림의 오디오 데이터의 제2 오디오 시퀀스를 수신하는 새로운 단계를 더 포함하고, 단계들 b) 내지 d)는 상기 제1 오디오 시퀀스(52) 대신에 상기 제2 오디오 시퀀스만 또는 상기 제1 및 제2 오디오 시퀀스들의 조합을 사용하여 반복되는 동기화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제2 단말은 상기 제1 단말과 동일한 동기화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제2 단말(6)은 상기 제1 단말(4)과 상이한 동기화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제2 동기화 위치(P2)를 사용하여 상기 제2 단말(6) 상에 상기 제2 멀티미디어 스트림을 렌더링하는 단계를 더 포함하는 동기화 방법.
제1 단말(4) 상에 렌더링되도록 의도된 제1 멀티미디어 스트림 및 제2 단말(6) 상에 렌더링되도록 의도된 제2 멀티미디어 스트림을 동기화시키는 동기화 시스템(2)으로서,
상기 제1 단말(4) 및 제2 단말(6)
을 포함하고, 상기 동기화 시스템(2)은
상기 제1 멀티미디어 스트림의 원본 오디오 시퀀스(42)로부터, 원본 오디오 핑거프린트들을 생성하는 제1 프로세서(30);
제1 지속 기간 동안에, 제1 오디오 시퀀스(52)가 상기 제1 단말(4) 상에 렌더링되고 있는 동안 상기 제1 멀티미디어 스트림의 오디오 데이터의 상기 제1 오디오 시퀀스(52)를 상기 제2 단말(6)에 의해 캡처하는 마이크로폰(20);
상기 제1 오디오 시퀀스(52)로부터 제1 오디오 핑거프린트들을 생성하는 제2 프로세서(32);
상기 원본 오디오 시퀀스(42)에서 하나 이상의 제1 동기화 위치들(P1; A,B,C)을 획득하기 위해 상기 제1 오디오 핑거프린트들 및 상기 원본 오디오 핑거프린트들의 블록들을 비교하는 비교기(34);
상기 제1 동기화 위치들(P1; A, B, C) 중에서, 상기 원본 오디오 시퀀스(42)에서 단지 하나의 제2 동기화 위치(P2)를 획득하기 위해 상기 제1 동기화 위치들(P1; A, B, C) 주위에 위치된 상기 원본 오디오 시퀀스(42)의 하나 이상의 피스들(61)과 상기 제1 오디오 시퀀스(52)를 상관시키는 상관기(36); 및
상기 제2 동기화 위치(P2)를 사용하여 상기 제1 및 상기 제2 멀티미디어 스트림들을 동기화시키는 동기화기(38)
를 더 포함하는 동기화 시스템(2).
제1 단말(4) 상에 렌더링되도록 의도된 제1 멀티미디어 스트림 및 제2 단말(6) 상에 렌더링되도록 의도된 제2 멀티미디어 스트림을 동기화시키는 동기화 장치(22)로서,
상기 제1 멀티미디어 스트림의 원본 오디오 시퀀스(42)로부터, 원본 오디오 핑거프린트들을 생성하는 제1 프로세서(30);
상기 제1 멀티미디어 스트림의 오디오 데이터의 제1 오디오 시퀀스(52)로부터 제1 오디오 핑거프린트들을 생성하는 제2 프로세서(32);
상기 원본 오디오 시퀀스(42)에서 하나 이상의 제1 동기화 위치들(P1; A,B,C)을 획득하기 위해 상기 제1 오디오 핑거프린트들 및 상기 원본 오디오 핑거프린트들의 블록들을 비교하는 비교기(34);
상기 제1 동기화 위치들(P1; A, B, C) 중에서, 상기 원본 오디오 시퀀스(42)에서 단지 하나의 제2 동기화 위치(P2)를 획득하기 위해 상기 제1 동기화 위치들(P1; A, B, C) 주위에 위치된 상기 원본 오디오 시퀀스(42)의 하나 이상의 피스들(61)과 상기 제1 오디오 시퀀스(52)를 상관시키는 상관기(36); 및
상기 제2 동기화 위치(P2)를 사용하여 상기 제1 및 상기 제2 멀티미디어 스트림들을 동기화시키는 동기화기(38)
를 포함하는 동기화 장치(22).
제13항에 있어서, 상기 동기화 장치(22)는 상기 제2 단말(6)에 포함되는 동기화 장치(22).
제13항 또는 제14항에 있어서, 상기 동기화 장치(22)는 셋톱 박스(12) 또는 게이트웨이에 포함되는 동기화 장치(22).
프로그램을 저장한 컴퓨터 판독가능한 기록 매체로서,
상기 프로그램은, 컴퓨터가 제1항 내지 제3항 중 어느 한 항의 방법을 수행할 수 있게 하는 컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능한 기록 매체.