KR20060134911A

KR20060134911A - 콘텐츠 수신 장치, 비디오 오디오 출력 타이밍 제어 방법및 콘텐츠 제공 시스템

Info

Publication number: KR20060134911A
Application number: KR1020067004156A
Authority: KR
Inventors: 이꾸오 쯔까고시; 신지 다까다; 고이찌 고또
Original assignee: 소니 가부시끼 가이샤
Priority date: 2003-09-02
Filing date: 2004-07-22
Publication date: 2006-12-28
Also published as: EP1662793A1; WO2005025224A1; CN1868213A; EP1662793B1; TWI256255B; US7983345B2; US20070092224A1; TW200511853A; CN1868213B; EP1662793A4

Abstract

본 발명은, 영상 및 음성 사이의 립싱크를 디코더측에서 확실하게 조정할 수 있도록 한다. 본 발명은, 비디오 타임 스탬프(VTS)가 첨부된 복수의 부호화 비디오 프레임과, 오디오 타임 스탬프(ATS)가 첨부된 복수의 부호화 오디오 프레임을 인코더측으로부터 수신하여 복호하고, 그 결과 얻어지는 복수의 비디오 프레임(VF1) 및 복수의 오디오 프레임(AF1)을 축적하여, 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭(stc)의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 렌더러(37, 67)에 의해 산출하고, 그 시간차에 따라서, 복수의 오디오 프레임(AF1)을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 복수의 비디오 프레임(VF1)을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정함으로써, 음성의 연속성을 유지한 채로 립싱크시킬 수 있다.

비디오 타임 스탬프, 오디오 타임 스탬프, 비디오 프레임, 오디오 프레임, 출력 타이밍, 시스템 타임 클럭

Description

콘텐츠 수신 장치, 비디오 오디오 출력 타이밍 제어 방법 및 콘텐츠 제공 시스템{CONTENT RECEPTION DEVICE, VIDEO/AUDIO OUTPUT TIMING CONTROL METHOD, AND CONTENT PROVIDING SYSTEM}

본 발명은, 콘텐츠 수신 장치, 비디오 오디오 출력 타이밍 제어 방법 및 콘텐츠 제공 시스템에 관한 것으로, 예를 들면 콘텐츠를 수신하는 디코더측에서 영상과 음성의 립싱크가 어긋나는 것을 해소하는 경우에 적용하기에 적합한 것이다.

종래, 콘텐츠 수신 장치에 있어서는, 인코더측의 서버로부터 콘텐츠를 수신하여 디코드하는 경우, 해당 콘텐츠를 구성하는 영상 패킷 및 음성 패킷으로 분리하고, 각각 디코드한 후에 영상 패킷에 첨부된 비디오 타임 스탬프와 음성 패킷에 첨부된 오디오 타임 스탬프에 기초하여 비디오 프레임과 오디오 프레임을 출력함으로써, 영상과 음성과의 출력 타이밍을 일치시키게(즉 립싱크시키게) 되어 있다(예를 들면, 특허 문헌 1 참조).

특허 문헌 1 일본 특허공개 평성 8-280008호 공보.

그런데 이러한 구성의 콘텐츠 수신 장치에 있어서는, 해당 디코더측의 시스템 타임 클럭과, 인코더측의 기준 클럭이 서로 동기하고 있다고는 할 수 없고, 또한 해당 디코더측의 시스템 타임 클럭에 있어서의 클럭 지터 등에 의해서 인코더측 의 기준 클럭과의 사이에서 클럭 주파수의 미묘한 어긋남이 발생하고 있는 경우도 있다.

또한 콘텐츠 수신 장치는, 비디오 프레임과 오디오 프레임에서는 그 데이터 길이가 다르기 때문에, 해당 디코더측의 시스템 타임 클럭과 인코더측의 기준 클럭이 완전하게 동기하고 있지 않을 때에는, 비디오 타임 스탬프 및 비디오 타임 스탬프에 기초하여 비디오 프레임 및 오디오 프레임을 출력했다고 하더라도, 영상과 음성과의 출력 타이밍이 일치하지 않아, 립싱크가 어긋나 버린다고 하는 문제가 있었다.

<발명의 개시>

본 발명은 이상의 점을 고려하여 이루어진 것으로, 시청자인 유저에게 위화감을 느끼게 하는 일없이 영상 및 음성 사이의 립싱크를 해당 디코더측에서 확실하게 조정할 수 있는 콘텐츠 수신 장치, 비디오 오디오 출력 타이밍 제어 방법 및 콘텐츠 제공 시스템을 제안하려고 하는 것이다.

이러한 과제를 해결하기 위해서 본 발명에 있어서는, 인코더측의 기준 클럭에 기초하는 비디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 비디오 프레임과, 기준 클럭에 기초하는 오디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 오디오 프레임을 인코더측의 콘텐츠 제공 장치로부터 수신하여 복호하는 복호 수단과, 복호 수단에 의해서 부호화 비디오 프레임 및 부호화 오디오 프레임을 복호한 결과 얻어지는 복수의 비디오 프레임 및 복수의 오디오 프레임을 축적하는 기억 수단과, 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 산출하는 산출 수단과, 시간차에 따라서, 복수의 오디오 프레임을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정하는 타이밍 조정 수단을 설치하도록 한다.

인코더측의 기준 클럭과 디코더측의 시스템 타임 클럭 사이에 있어서의 클럭 주파수의 어긋남에 의해서 발생하는 시간차에 따라, 복수의 오디오 프레임을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정함으로써, 인코더측과 디코더측의 클럭 주파수의 차를 흡수하여, 오디오 프레임 출력 타이밍에 비디오 프레임 출력 타이밍을 맞추어 립싱크시킬 수 있다.

또한 본 발명에 있어서는, 복호 수단에 대하여, 인코더측의 기준 클럭에 기초하는 비디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 비디오 프레임과, 기준 클럭에 기초하는 오디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 오디오 프레임을 인코더측의 콘텐츠 제공 장치로부터 수신하여 복호시키는 복호 스텝과, 기억 수단에 대하여, 복호 스텝에서 부호화 비디오 프레임 및 부호화 오디오 프레임을 복호한 결과 얻어지는 복수의 비디오 프레임 및 복수의 오디오 프레임을 축적시키는 기억 스텝과, 산출 수단에 대하여, 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 산출시키는 차분 산출 스텝과, 타이밍 조정 수단에 대하여, 시간차에 따라, 복수의 오디오 프레임을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정시키는 타이밍 조정 스텝을 설치하도록 한다.

또한, 본 발명에 있어서는, 콘텐츠 제공 장치와 콘텐츠 수신 장치를 갖는 콘텐츠 제공 시스템으로서, 콘텐츠 제공 장치는, 인코더측의 기준 클럭에 기초하는 비디오 타임 스탬프를 첨부한 복수의 부호화 비디오 프레임과, 기준 클럭에 기초하는 오디오 타임 스탬프를 첨부한 복수의 부호화 오디오 프레임을 생성하는 부호화 수단과, 복수의 부호화 비디오 프레임 및 복수의 부호화 오디오 프레임을 콘텐츠 수신 장치에 순차적으로 송신하는 송신 수단을 구비하고, 콘텐츠 수신 장치는, 비디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 비디오 프레임과, 오디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 오디오 프레임을 인코더측의 콘텐츠 제공 장치로부터 수신하여 복호하는 복호 수단과, 복호 수단에 의해서 부호화 비디오 프레임 및 부호화 오디오 프레임을 복호한 결과 얻어지는 복수의 비디오 프레임 및 복수의 오디오 프레임을 축적하는 기억 수단과, 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 산출하는 산출 수단과, 시간차에 따라, 복수의 오디오 프레임을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정하는 타이밍 조정 수단을 설치하도록 한다.

전술된 바와 같이 본 발명에 따르면, 인코더측의 기준 클럭과 디코더측의 시스템 타임 클럭 사이에 있어서의 클럭 주파수의 어긋남에 의해서 발생하는 시간차에 따라, 복수의 오디오 프레임을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정함으로써, 인코더측과 디코 더측의 클럭 주파수의 차를 흡수하여, 오디오 프레임 출력 타이밍에 비디오 프레임 출력 타이밍을 맞추어 립싱크시킬 수 있고, 이렇게 해서 시청자인 유저에게 위화감을 느끼게 하는 일없이 영상 및 음성 사이의 립싱크를 해당 디코더측에서 확실하게 조정할 수 있는 콘텐츠 수신 장치, 비디오 오디오 출력 타이밍 제어 방법 및 콘텐츠 제공 시스템을 실현할 수 있다.

도 1은 스트리밍 시스템의 전체 내용을 도시하는 콘텐츠 제공 시스템의 전체 구성을 도시하는 대략선적 블록도.

도 2는 콘텐츠 제공 장치의 회로 구성을 도시하는 대략선적 블록도.

도 3은 오디오 패킷 및 비디오 패킷 내의 타임 스탬프(TCP 프로토콜)의 구조를 도시하는 대략선도.

도 4는 제1 콘텐츠 수신 장치에 있어서의 스트리밍 디코더의 모듈 구성을 도시하는 대략선적 블록도.

도 5는 프리인코디드 스트리밍에 있어서의 비디오 프레임 및 오디오 프레임의 출력 타이밍을 설명할 때에 제공하는 대략선도.

도 6은 프리인코디드 스트리밍에 있어서의 립싱크 조정 처리 수순을 도시하는 대략선적 플로우차트.

도 7은 제1 콘텐츠 수신 장치에 있어서의 리얼타임 스트리밍 인코더의 회로 구성을 도시하는 대략선적 블록도.

도 8은 컨트롤 패킷 내의 PCR(UDP 프로토콜)의 구조를 도시하는 대략선도.

도 9는 제2 콘텐츠 수신 장치에 있어서의 리얼타임 스트리밍 디코더의 회로 구성을 도시하는 대략선적 블록도.

도 10은 라이브 스트리밍에 있어서의 비디오 프레임 및 오디오 프레임의 출력 타이밍을 설명할 때에 제공하는 대략선도.

도 11은, 라이브 스트리밍에 있어서의 립싱크 조정 처리 수순을 도시하는 대략선적 플로우차트.

<발명을 실시하기 위한 최량의 형태>

이하, 도면에 대하여, 본 발명의 일 실시 형태를 상세하게 기술한다.

(1) 콘텐츠 제공 시스템의 전체 구성

도 1에 있어서, 참조 부호 1은 전체로서 본 발명의 콘텐츠 제공 시스템을 나타내고, 크게 나누어 콘텐츠 배신측으로 되는 콘텐츠 제공 장치(2)와, 콘텐츠 수신측으로 되는 제1 콘텐츠 수신 장치(3) 및 제2 콘텐츠 수신 장치(4)에 의해 구성되어 있다.

콘텐츠 제공 시스템(1)에서는, 콘텐츠 제공 장치(2)와 제1 콘텐츠 수신 장치(3)가 인터넷(5)을 통하여 서로 접속되어 있고, 예를 들면 제1 콘텐츠 수신 장치(3)로부터의 요구에 따라서 콘텐츠 제공 장치(2)로부터 콘텐츠를 배신하는 비디오 온 디맨드(VOD)와 같은 프리인코디드 스트리밍을 실현할 수 있게 되어 있다.

콘텐츠 제공 장치(2)는, 인코더(7)에서 미리 인코드해서 축적해 둔 엘리멘터리 스트림(ES)을 스트리밍 서버(8)에서 패킷화하고, 이것을 인터넷(5)을 통하여 제1 콘텐츠 수신 장치(3)에 배신하도록 이루어져 있다.

제1 콘텐츠 수신 장치(3)는, 엘리멘터리 스트림(ES)을 스트리밍 디코더(9)에서 디코드함으로써 원래의 영상 및 음성을 복원하여, 해당 원래의 영상 및 음성을 모니터(10)로부터 출력하도록 이루어져 있다.

또한 콘텐츠 제공 시스템(1)에서는, 제1 콘텐츠 수신 장치(3)와 제2 콘텐츠 수신 장치(4)가 예를 들면 IEEE(Institute of Electrical and Electronics Engineers) 802.11a/b/g 등의 규격에 준거한 무선 LAN(6)으로 접속되어 있고, 해당 제1 콘텐츠 수신 장치(3)가 출력으로부터 공급된 지상파 디지털, BS(Broadcast Satellite)/CS(Communication Satellite) 디지털 또는 지상파 아날로그 방송 등의 콘텐츠 혹은 DVD(Digital Versatile Disc), Video CD 외에 일반적인 비디오 카메라로부터의 콘텐츠를 리얼타임으로 인코드한 후에 중계하는 형태로 제2 콘텐츠 수신 장치(4)에 무선 송신할 수 있도록 이루어져 있다.

덧붙여서, 제1 콘텐츠 수신 장치(3)와 제2 콘텐츠 수신 장치(4)는 반드시 무선 LAN(6)으로 접속되어 있어야 한다는 것은 아니고, 유선 LAN으로 접속되어 있어도 된다.

제2 콘텐츠 수신 장치(4)는, 제1 콘텐츠 수신 장치(3)로부터 수신한 콘텐츠를 리얼타임 스트리밍 디코더(12)에서 디코드하는 것에 의해 스트리밍 재생을 행하고, 그 재생 결과를 모니터(13)에 출력하도록 이루어져 있다.

이렇게 하여 제1 콘텐츠 수신 장치(3) 및 제2 콘텐츠 수신 장치(4) 사이에서는, 출력로부터 공급을 받은 콘텐츠를 제1 콘텐츠 수신 장치(3)에서 리얼타임으로 인코드하여 제2 콘텐츠 수신 장치(4)에 송신하고, 해당 제2 콘텐츠 수신 장치(4)에 서 스트리밍 재생함으로써, 라이브 스트리밍을 실현할 수 있도록 이루어져 있다.

(2) 콘텐츠 제공 장치의 구성

도 2에 도시하는 바와 같이 콘텐츠 제공 장치(2)는, 인코더(7) 및 스트리밍 서버 8에 의해서 구성되어 있고, 출력으로부터 취득한 비디오 신호(VS1)를 비디오 입력부(21)를 통하여 비디오 인코더(22)에 송출한다.

비디오 인코더(22)는, 비디오 신호(VS1)를 예를 들면 MPEG1/2/4(Moving Picture Experts Group)의 규격에 준거한 소정의 압축 부호화 방법 혹은 여러 가지의 압축 부호화 방식으로 압축 부호화하고, 그 결과 얻어지는 비디오 엘리멘터리 스트림(VES1)을 링 버퍼로 되는 비디오 ES 축적부(23)에 송출한다.

비디오 ES 축적부(23)는, 비디오 엘리멘터리 스트림(VES1)을 일단 축적한 후에, 해당 비디오 엘리멘터리 스트림(VES1)을 스트리밍 서버(8)의 패킷 생성부(27) 및 비디오 프레임 카운터(28)에 송출한다.

비디오 프레임 카운터(28)에서는, 비디오 엘리멘터리 스트림(VES1)을 프레임 주파수 단위(29.97[Hz] 혹은 30[Hz] 혹은 59.94[Hz] 혹은 60[Hz])로 카운트하고, 그 카운트업값을 기준 클럭에 기초하는 90[KHz] 단위의 값으로 변환하여, 32비트 표현으로 각 비디오 프레임에 대한 비디오 타임 스탬프(VTS)(VTS1, VTS2, VTS3, ……)로서 패킷 생성부(27)에 송출한다.

한편, 콘텐츠 제공 장치(2)는, 출력으로부터 취득한 오디오 신호(AS1)를 스트리밍 인코더(7)의 오디오 입력부(24)를 통하여 오디오 인코더(25)에 송출한다.

오디오 인코더(25)는, 오디오 신호(AS1)를 MPEG1/2/4 오디오의 규격에 준거 한 소정의 압축 부호화 방법 혹은 여러 가지의 압축 부호화 방식으로 압축 부호화하고, 그 결과 얻어지는 오디오 엘리멘터리 스트림(AES1)을 링 버퍼로 되는 오디오 ES 축적부(26)에 송출한다.

오디오 ES 축적부(26)는, 오디오 엘리멘터리 스트림(AES1)을 일단 축적한 후에, 해당 오디오 엘리멘터리 스트림(AES1)을 스트리밍 서버(8)의 패킷 생성부(27) 및 오디오 프레임 카운터(29)에 송출한다.

오디오 프레임 카운터(29)는 비디오 프레임 카운터(28)와 마찬가지로, 오디오 프레임의 카운트업값을 비디오와 공통의 기준 클럭에 기초하는 90[KHz] 단위의 값으로 변환하고, 각 오디오 프레임에 대한 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))로서 32비트 표현하여 패킷 생성부(27)에 송출한다.

패킷 생성부(27)에서는, 비디오 엘리멘터리 스트림(VES1)을 소정 데이터 사이즈의 패킷으로 분할하고, 각각의 패킷에 비디오 헤더 정보를 부가하는 것에 의해 비디오 패킷을 생성함과 함께, 오디오 엘리멘터리 스트림(AES1)을 소정 데이터 사이즈의 패킷으로 분할하고, 각각의 패킷에 오디오 헤더 정보를 부가하는 것에 의해 오디오 패킷을 생성한다.

여기서 도 3에 도시하는 바와 같이 오디오 패킷 및 비디오 패킷은, IP(Internet Protocol) 헤더, TCP(Transmission Control Protocol) 헤더, RTP(RealTime Transport Protocol) 헤더 및 RTP 페이로드로 이루어지고, RTP 헤더 내에 있어서의 4바이트의 타임 스탬프 영역에 전술한 오디오 타임 스탬프(ATS)나 비디오 타임 스탬프(VTS)가 기입되도록 이루어져 있다.

그리고 패킷 생성부(27)에서는, 비디오 패킷 및 비디오 타임 스탬프(VTS)에 기초하여 소정 바이트 수로 이루어지는 영상 패킷 데이터를 생성함과 함께, 오디오 패킷 및 비디오 타임 스탬프(ATS)에 기초하여 소정 바이트 수로 이루어지는 음성 패킷 데이터를 생성하고, 이들을 다중화함으로써 다중화 데이터(MXD1)를 생성한 후 패킷 데이터 축적부(30)에 송출한다.

패킷 데이터 축적부(30)는, 다중화 데이터(MXD1)를 소정량 축적하면, 패킷마다의 해당 다중화 데이터(MXD1)를 인터넷(5)을 통하여 RTP/TCP(RealTime Transport Protocol/Transmission Control Protocol)로 제1 콘텐츠 수신 장치(3)에 송신하도록 이루어져 있다.

(3) 제1 콘텐츠 수신 장치에 있어서의 스트리밍 디코더의 모듈 구성

도 4에 도시하는 바와 같이 제1 콘텐츠 수신 장치(3)는, 콘텐츠 제공 장치(2)로부터 RTP/TCP로 송신된 다중화 데이터(MXD1)를 입력 패킷 축적부(31)에 일단 축적한 후, 패킷 분할부(32)에 송출한다.

패킷 분할부(32)는, 다중화 데이터(MXD1)를 영상 패킷 데이터(VP1)와 음성 패킷 데이터(AP1)로 분할하고, 또 해당 음성 패킷 데이터(AP1)를 오디오 패킷과 오디오 타임 스탬프(ATS)로 분할한 후, 오디오 패킷을 링 버퍼로 되는 입력 오디오 버퍼(33)를 통하여 오디오 프레임 단위로 오디오 디코더(35)에 송출함과 함께, 오디오 타임 스탬프(ATS)를 렌더러(37)에 송출한다.

또한 패킷 분할부(32)는, 영상 패킷 데이터(VP1)를 비디오 패킷과 비디오 타임 스탬프(VTS)로 분할한 후, 해당 비디오 패킷을 링 버퍼로 되는 입력 비디오 버 퍼(34)를 통하여 프레임 단위로 비디오 디코더(36)에 송출함과 함께, 비디오 타임 스탬프(VTS)를 렌더러(37)에 송출하도록 이루어져 있다.

오디오 디코더(35)는, 음성 패킷 데이터(AP1)를 오디오 프레임 단위로 디코드함으로써 압축 부호화 전의 오디오 프레임(AF1)을 복원하여, 순차적으로 렌더러(37)에 송출한다.

비디오 디코더(36)는, 영상 패킷 데이터(VP1)를 비디오 프레임 단위로 디코드함으로써 압축 부호화 전의 비디오 프레임(VF1)을 복원하여, 순차적으로 렌더러(37)에 송출한다.

렌더러(37)는, 오디오 타임 스탬프(ATS)를 큐(도시 생략)에 저장함과 함께 오디오 프레임(AF1)을 링 버퍼로 되는 출력 오디오 버퍼(38)에 일시적으로 저장하고, 또 마찬가지로 비디오 타임 스탬프(VTS)를 큐(도시 생략)에 저장함과 함께 비디오 프레임(VF1)을 링 버퍼로 되는 출력 비디오 버퍼(39)에 일시적으로 저장한다.

렌더러(37)는, 모니터(10)에 출력해야 할 비디오 프레임(VF1)의 영상과 오디오 프레임(AF1)의 음성을 립싱크시키기 위해, 오디오 타임 스탬프(ATS) 및 비디오 타임 스탬프(VTS)에 기초하여 최종적인 출력 타이밍을 조정한 후, 그 출력 타이밍에서 출력 비디오 버퍼(39) 및 출력 오디오 버퍼(38)로부터 비디오 프레임(VF1) 및 오디오 프레임(AF1)을 순차적으로 출력하도록 이루어져 있다.

(4) 디코더측에서의 립싱크 조정 처리

(4-1) 프리인코디드 스트리밍에 있어서의 비디오 프레임 및 오디오 프레임의 출력 타이밍 조정 방법

우선, 최초로 렌더러(37)는, 도 5에 도시하는 바와 같이 예를 들면 오디오 디코더(35)로 디코드한 후의 오디오 프레임(AF1(Af1, Af2, Af3, ……))을 모니터(10)에 순차적으로 출력하는 시점(Ta1, Ta2, Ta3, ……,)의 타이밍에서, 크리스탈 오실레이터 회로(40) 및 시스템 타임 클럭 회로(41)를 통하여 공급되는 시스템 타임 클럭(stc)의 값을 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))로 프리셋하는, 즉 시스템 타임 클럭(stc)의 값을 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))의 값으로 조절(치환)하도록 이루어져 있다.

이것은, 음성이 재생 중에 도중에서 끊기거나 음 스킵이 있으면 유저에게 있어서 매우 눈에 띄기 때문에, 렌더러(37)에서는 오디오 프레임(AF1(Af1, Af2, Af3, ……))을 립싱크 조정 처리의 기준으로서 이용하고, 해당 오디오 프레임(AF1(Af1, Af2, Af3, ……))의 출력에 맞추어 비디오 프레임(VF1(Vf1, Vf2, Vf3, ……))의 출력 타이밍을 조정할 필요가 있기 때문이다.

또한 렌더러(37)는, 오디오 프레임(AF1(Af1, Af2, Af3, ……))의 출력 타이밍(시점(Ta1, Ta2, Ta3, ……))이 결정되면, 비디오 프레임(VF1(Vf1, Vf2, Vf3, ……))을 시스템 타임 클럭(stc)에 기초하는 30[Hz]의 프레임 주파수로 출력하는 임의의 시점(Tv1, Tv2, Tv3, ……)에 있어서, 프리셋 후의 시스템 타임 클럭(stc)의 카운트값과, 비디오 프레임(VF1(Vf1, Vf2, Vf3, ……))에 첨부되어 있는 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))를 각각 비교한다.

여기서 만일, 프리셋 후의 시스템 타임 클럭(stc)의 카운트값과, 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))가 일치하고 있던 경우, 이것은 인코더측 에서 부가했을 때의 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))와 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))와의 시간적인 대응 관계가 일치하고, 또한 인코더측의 기준 클럭의 클럭 주파수와, 디코더측의 시스템 타임 클럭(stc)의 클럭 주파수가 완전하게 일치하고 있는 것을 나타내고 있다.

즉, 렌더러(37)가 디코더측의 시스템 타임 클럭(stc)에 기초하여 오디오 타임 스탬프(ATS) 및 비디오 타임 스탬프(VTS)의 타이밍에서 오디오 프레임(AF1) 및 비디오 프레임(VF1)을 모니터(10)에 출력했을 때에도, 영상 및 음성의 출력 타이밍의 어긋남이 없는 것을 나타내고 있다.

만일, 프리셋 후의 시스템 타임 클럭(stc)의 카운트값과, 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))를 비교한 결과가 완전하게 일치하고 있지 않은 경우에도, 프리셋 후의 시스템 타임 클럭(stc)의 카운트값과 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))와의 차분값 D1(시간차)이 소정의 시간을 나타내는 임계값 TH 이하이면, 유저에게 있어서는 영상과 음성이 일치하고 있지 않다고 인식할 수 없는 레벨이기 때문에, 렌더러(37)는 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))에 따라서 비디오 프레임(VF1(Vf1, Vf2, Vf3, ……)을 모니터(10)에 출력하면 된다.

그 이외의 경우, 즉 시점(Tv2)의 타이밍에 있어서, 프리셋 후의 시스템 타임 클럭(stc)의 카운트값과 예를 들면 비디오 타임 스탬프(VTS2)와의 차분값 D1이 소정의 임계값 TH보다도 크고, 또한 영상이 음성보다도 지연되어 있는 경우에는, 인코더측의 클럭 주파수와 디코더측의 클럭 주파수와의 어긋남이 원인으로 음성에 영 상이 따라붙지 못한 상태이기 때문에, 렌더러(37)에서는 GOP(Group Of Picture)를 구성하고 있는 예를 들면 B 픽쳐에 상당하는 비디오 프레임(Vf3)을 디코드하지 않고 스킵하고, 다음의 비디오 프레임(Vf4)을 출력하도록 이루어져 있다.

이에 대하여 렌더러(37)는, 시점(Tv2)의 타이밍에 있어서, 프리셋 후의 시스템 타임 클럭(stc)의 카운트값과 예를 들면 비디오 타임 스탬프(VTS2)와의 차분값 D1이 소정의 임계값 TH보다도 크고, 또한 음성이 영상보다도 지연되어 있는 경우에는, 인코더측의 클럭 주파수와 디코더측의 클럭 주파수와의 어긋남이 원인으로 영상에 음성이 따라붙지 못한 상태이기 때문에, 현재 출력 중인 비디오 프레임(Vf2)을 반복 리피트하여 출력하도록 이루어져 있다.

(4-2) 프리인코디드 스트리밍에 있어서의 립싱크 조정 처리 수순

전술한 바와 같이 스트리밍 디코더(9)의 렌더러(37)가 오디오 프레임(AF1(Af1, Af2, Af3, ……))을 기준으로 하여 비디오 프레임(VF1(Vf1, Vf2, Vf3, ……))의 출력 타이밍을 조정함으로써, 영상과 음성을 립싱크시키는 출력 타이밍 조정 방법에 대하여 정리하면, 다음의 도 6에 도시하는 플로우차트로 나타내는 바와 같이, 스트리밍 디코더(9)의 렌더러(37)는, 루틴(RT1)의 개시 스텝부터 들어와서, 다음의 스텝 SP1로 이행한다.

스텝 SP1에 있어서 렌더러(37)는, 오디오 프레임(AF1(Af1, Af2, Af3, ……))을 모니터(10)에 출력하는 시점(Ta1, Ta2, Ta3, ……)의 타이밍에서, 시스템 타임 클럭(stc)의 값을 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))의 값으로 프리셋하고, 다음의 스텝 SP2로 이행한다.

스텝 SP2에 있어서 렌더러(37)는, 시점(Tv1, TV2, Tv3, ……)의 타이밍에서 출력해야 할 비디오 프레임(VF1(Vf1, Vf2, Vf3, ……))의 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))와, 해당 시점(Tv1, TV2, Tv3, ……)의 타이밍에 있어서의 프리셋 후의 시스템 타임 클럭(stc)의 카운트값과의 차분값 D1을 산출하고, 다음의 스텝 SP3으로 이행한다.

스텝 SP3에 있어서 렌더러(37)는, 스텝 SP2에서 산출한 차분값 D1(절대값)이 소정의 임계값 TH보다도 큰지의 여부를 판정한다. 여기서 부정 결과가 얻어지면, 이것은, 차분값 D1이, 영상 및 음성을 보고들은 유저에게 있어서 해당 영상과 해당 음성 사이에 어긋남이 발생하고 있다고는 판단할 수 없을 정도의 시간(예를 들면 100[msec]) 이하인 것을 나타내고 있고, 이 때 렌더러(37)는 다음의 스텝 SP4로 이행한다.

스텝 SP4에 있어서 렌더러(37)는, 영상과 음성이 어긋나 있다고 판단할 수 없을 정도의 시간차밖에 없기 때문에, 이 경우에는 해당 비디오 프레임(VF1)을 그대로 모니터(10)에 출력하고, 또한 오디오 프레임(AF1)은 원칙적으로 그대로 모니터(10)에 출력하고, 다음의 스텝 SP8로 이행하여 처리를 종료한다.

이에 대하여 스텝 SP3에서 긍정 결과가 얻어지면, 이것은 차분값 D1이 소정의 임계값 TH보다도 큰, 즉 영상 및 음성을 보고들은 유저에게 있어서 해당 영상과 해당 음성 사이에 어긋남이 발생하여 있다고 판단할 수 있을 정도인 것을 나타내고 있고, 이 때 렌더러(37)는 다음의 스텝 SP5로 이행한다.

스텝 SP5에 있어서 렌더러(37)는, 영상이 음성보다도 지연되어 있는지의 여 부를 오디오 타임 스탬프(ATS) 및 비디오 타임 스탬프(VTS)에 기초하여 판정하고, 부정 결과가 얻어지면 다음의 스텝 SP6으로 이행한다.

스텝 SP6에 있어서 렌더러(37)는, 영상쪽이 음성보다도 진행해 있기 때문에, 해당 영상에 음성이 따라붙도록 현재 출력 중인 픽쳐를 구성하고 있는 비디오 프레임(VF1)을 반복 리피트 출력한 후, 다음의 스텝 SP8로 이행하여 처리를 종료한다.

이에 대하여 스텝 SP5에서 긍정 결과가 얻어지면, 이것은 영상이 음성보다도 지연되어 있는 것을 나타내고 있고, 이 때 렌더러(37)는 다음의 스텝 SP7로 이행하여 그 지연을 회복시키기 위해 예를 들면 B 픽쳐(비디오 프레임(Vf3))를 디코드하지 않고 스킵하여 출력함으로써, 음성에 대한 영상의 지연을 회복시켜 립싱크시킬 수 있어, 다음의 스텝 SP8로 이행하여 처리를 종료한다.

이 경우, 렌더러(37)는 출력 비디오 버퍼(39)에 저장되어 있는 「P」픽쳐에 대해서는, 비디오 디코더(36)로 다음의 픽쳐를 디코드할 때의 참조 프레임으로 되기 때문에 스킵하지 않고, 해당 스킵에 의한 영향을 받지 않는 「B」픽쳐를 스킵함으로써, 화질 열화를 미연에 방지하면서 립싱크시키도록 이루어져 있다.

(5) 제1 콘텐츠 수신 장치에 있어서의 리얼타임 스트리밍 인코더의 회로 구성

제1 콘텐츠 수신 장치(3)(도 1)는, 외부로부터 공급된 지상파 디지털, BS/CS 디지털 또는 지상파 아날로그 방송 등의 콘텐츠 혹은 DVD, Video CD 외에 일반적인 비디오 카메라로부터의 콘텐츠를 리얼타임 스트리밍 인코더(11)에 의해서 리얼타임으로 인코드한 후에 제2 콘텐츠 수신 장치(4)에 중계하는 형태로 무선 송신함으로 써 콘텐츠 제공측으로도 될 수 있도록 이루어져 있다.

그 제1 콘텐츠 수신 장치(3)에 있어서의 리얼타임 스트리밍 인코더(11)의 회로 구성에 대하여 도 7을 이용하여 설명한다. 리얼타임 스트리밍 인코더(11)는, 외부로부터 공급된 콘텐츠를 구성하는 비디오 신호(VS2) 및 오디오 신호(AS2)를 비디오 입력부(41) 및 오디오 입력부(43)를 통하여 디지털 변환하고, 이것을 비디오 데이터(VD2) 및 오디오 데이터(AD2)로서 비디오 인코더(42) 및 오디오 인코더(44)에 송출한다.

비디오 인코더(42)는, 비디오 데이터(VD2)를 예를 들면 MPEG1/2/4의 규격에 준거한 소정의 압축 부호화 방법 혹은 여러 가지의 압축 부호화 방식으로 압축 부호화하고, 그 결과 얻어지는 비디오 엘리멘터리 스트림(VES2)을 패킷 생성부(46) 및 비디오 프레임 카운터(47)에 송출한다.

비디오 프레임 카운터(47)에서는, 비디오 엘리멘터리 스트림(VES2)을 프레임 주파수 단위(29.97[Hz] 혹은 30[Hz] 혹은 59.94[Hz] 혹은 60[Hz])로 카운트하고, 그 카운트업값을 기준 클럭에 기초하는 90[KHz] 단위의 값으로 변환하고, 32비트 표현으로 각 비디오 프레임에 대한 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))로서 패킷 생성부(46)에 송출한다.

오디오 인코더(44)는, 오디오 데이터(AD2)를 MPEG1/2/4 오디오의 규격에 준거한 소정의 압축 부호화 방법 혹은 여러 가지의 압축 부호화 방식으로 압축 부호화하고, 그 결과 얻어지는 오디오 엘리멘터리 스트림(AES2)을 패킷 생성부(46) 및 오디오 프레임 카운터(48)에 송출한다.

오디오 프레임 카운터(48)는 비디오 프레임 카운터(47)와 마찬가지로, 오디오 프레임의 카운트업값과 공통의 기준 클럭에 기초하는 90[KHz] 단위의 값으로 변환하고, 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))로서 32비트 표현하여, 패킷 생성부(46)에 송출한다.

패킷 생성부(46)에서는, 비디오 엘리멘터리 스트림(VES2)을 소정 데이터 사이즈의 패킷으로 분할하고, 각각의 패킷에 비디오 헤더 정보를 부가함으로써 비디오 패킷을 생성함과 함께, 오디오 엘리멘터리 스트림(AES2)을 소정 데이터 사이즈의 패킷으로 분할하고, 각각의 패킷에 오디오 헤더 정보를 부가함으로써 오디오 패킷을 생성한다.

여기서 도 8에 도시하는 바와 같이 컨트롤 패킷은, IP(Internet Protocol) 헤더, UDP(User Datagram Protocol) 헤더, RTCP(RealTime Control Protocol) 패킷 센더 리포트 및 RTCP 패킷으로 이루어지고, RTCP 패킷 센더 리포트 내의 센더 정보 내에 있는 4바이트의 RTP 타임 스탬프 영역에 PCR값으로서 인코더측에 있어서의 시스템 타임 클럭(STC) 값의 스냅 샷 정보가 기입되도록 이루어져 있어, 디코더측의 클럭 리커버리용으로 PCR 회로(51)로부터 송출된다.

그리고 패킷 생성부(46)에서는, 비디오 패킷 및 비디오 타임 스탬프(VTS)에 기초하여 소정 바이트 수로 이루어지는 영상 패킷 데이터를 생성함과 함께, 오디오 패킷 및 비디오 타임 스탬프(ATS)에 기초하여 소정 바이트 수로 이루어지는 음성 패킷 데이터를 생성하고, 이들을 도 3의 요령으로 다중화하는 것에 의해 다중화 데이터(MXD2)를 생성한 후 패킷 데이터 축적부(49)에 송출한다.

패킷 데이터 축적부(49)는, 다중화 데이터(MXD2)를 소정량 축적하면, 패킷마다의 해당 다중화 데이터(MXD2)를 무선 LAN(6)을 통하여 RTP/TCP로 제2 콘텐츠 수신 장치(4)에 송신하도록 이루어져 있다.

그런데 리얼타임 스트리밍 인코더(11)는, 비디오 입력부(41)에서 디지털 변환한 비디오 데이터(VD2)를 PLL(Phase-Locked Loop) 회로(45)에도 공급한다. PLL 회로(45)는, 비디오 데이터(VD2)에 기초하여 해당 비디오 데이터(VD2)의 클럭 주파수에 시스템 타임 클럭 회로(50)를 동기시킴과 함께, 비디오 인코더(42), 오디오 입력부(43) 및 오디오 인코더(44)에 대해서도 비디오 데이터(VD2)의 클럭 주파수와 동기시키도록 이루어져 있다.

이에 의해 리얼타임 스트리밍 인코더(11)는, PLL 회로(45)를 통하여 비디오 데이터(VD2)에 대한 압축 부호화 처리와 오디오 데이터(AD2)에 대한 압축 부호화 처리를 비디오 데이터(VD2)의 클럭 주파수와 동기한 타이밍에서 실행할 수 있음과 함께, PCR(Program Clock Reference) 회로(51)를 통하여 비디오 데이터(VD2)의 클럭 주파수에 동기한 클럭 레퍼런스(pcr)를 제2 콘텐츠 수신 장치(4)에 있어서의 리얼타임 스트리밍 디코더(12)에 송신할 수 있도록 이루어져 있다.

이 때 PCR 회로(51)는, 클럭 레퍼런스(pcr)를 RTP 프로토콜의 하위층에 위치하는 UDP(User Datagram Protocol)로 제2 콘텐츠 수신 장치(4)의 리얼타임 스트리밍 디코더(12)에 송신하도록 이루어져 있고, 이에 의해 고속성을 확보하여 리얼타임성이 필요하게 되는 라이브 스트리밍에도 대응할 수 있도록 이루어져 있다.

(6) 제2 콘텐츠 수신 장치에 있어서의 리얼타임 스트리밍 디코더의 회로 구 성

도 9에 도시하는 바와 같이 제2 콘텐츠 수신 장치(4)에 있어서의 리얼타임 스트리밍 디코더(12)는, 제1 콘텐츠 수신 장치(3)의 리얼타임 스트리밍 인코더(11)로부터 송신된 다중화 데이터(MXD2)를 입력 패킷 축적부(61)에 일단 축적한 후, 패킷 분할부(62)에 송출한다.

패킷 분할부(62)는, 다중화 데이터(MXD2)를 영상 패킷 데이터(VP2)와 음성 패킷 데이터(AP2)로 분할하고, 또 해당 음성 패킷 데이터(AP2)를 오디오 패킷과 오디오 타임 스탬프(ATS)로 분할한 후, 오디오 패킷을 링 버퍼로 되는 입력 오디오 버퍼(63)를 통하여 오디오 프레임 단위로 오디오 디코더(64)에 송출함과 함께, 오디오 타임 스탬프(ATS)를 렌더러(67)에 송출한다.

또한 패킷 분할부(62)는, 영상 패킷 데이터(VP2)를 비디오 패킷과 비디오 타임 스탬프(VTS)로 분할한 후, 해당 비디오 패킷을 링 버퍼로 되는 입력 비디오 버퍼(65)를 통하여 프레임 단위로 비디오 디코더(66)에 송출함과 함께, 비디오 타임 스탬프(VTS)를 렌더러(67)에 송출하도록 이루어져 있다.

오디오 디코더(64)는, 음성 패킷 데이터(AP2)를 오디오 프레임 단위로 디코드함으로써 압축 부호화 전의 오디오 프레임(AF2)을 복원하여, 순차적으로 렌더러(67)에 송출한다.

비디오 디코더(66)는, 영상 패킷 데이터(VP2)를 비디오 프레임 단위로 디코드함으로써 압축 부호화 전의 비디오 프레임(VF2)을 복원하여, 순차적으로 렌더러(67)에 송출한다.

렌더러(67)는, 오디오 타임 스탬프(ATS)를 큐에 저장함과 함께 오디오 프레임(AF2)을 링 버퍼로 되는 출력 오디오 버퍼(68)에 일시적으로 저장하고, 또 마찬가지로 비디오 타임 스탬프(VTS)를 큐에 저장함과 함께 비디오 프레임(VF2)을 링 버퍼로 되는 출력 비디오 버퍼(69)에 일시적으로 저장한다.

렌더러(67)는 모니터(13)에 출력하는 비디오 프레임(VF2)의 영상과 오디오 프레임(AF2)의 음성을 립싱크시키기 위해 오디오 타임 스탬프(ATS) 및 비디오 타임 스탬프(VTS)에 기초하여 최종적인 출력 타이밍을 조정한 후, 그 출력 타이밍에서 출력 비디오 버퍼(69) 및 출력 오디오 버퍼(68)로부터 비디오 프레임(VF2) 및 오디오 프레임(AF2)을 모니터(13)에 출력하도록 이루어져 있다.

그런데 리얼타임 스트리밍 디코더(12)는, 제1 콘텐츠 수신 장치(3)에 있어서의 리얼타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 UDP로 송신되는 클럭 레퍼런스(pcr)를 수신하여 감산 회로(71)에 입력한다.

감산 회로(71)는, 클럭 레퍼런스(pcr)와 시스템 타임 클럭 회로(74)로부터 공급되는 시스템 타임 클럭(stc)과의 차를 산출하고, 이것을 필터(72), 전압 제어형 크리스탈 오실레이터 회로(73) 및 시스템 타임 클럭 회로(74)를 순차적으로 통하여 감산 회로(71)에 피드백함으로써 PLL(Phase Locked Loop)을 형성하여, 리얼타임 스트리밍 인코더(11)의 클럭 레퍼런스(pcr)에 점차로 수속하고, 최종적으로는 해당 클럭 레퍼런스(pcr)에 의해 리얼타임 스트리밍 인코더(11)와 동기한 시스템 타임 클럭(stc)을 렌더러(67)에 공급하도록 이루어져 있다.

이에 의해 렌더러(67)는, 제1 콘텐츠 수신 장치(3)에 있어서의 리얼타임 스 트리밍 인코더(11)로 비디오 데이터(VD2) 및 오디오 데이터(AD2)를 압축 부호화하거나, 비디오 타임 스탬프(VTS) 및 오디오 타임 스탬프(ATS)를 카운트할 때의 클럭 주파수와 동기한 시스템 타임 클럭(stc)을 기준으로 하여, 비디오 프레임(VF2) 및 오디오 프레임(AF2)의 출력 타이밍을 조정할 수 있도록 이루어져 있다.

실제상 렌더러(67)는, 오디오 프레임(AF2)에 관해서는 링 버퍼로 되는 출력 오디오 버퍼(68)에 일시적으로 저장함과 함께, 비디오 프레임(VF2)에 관해서는 링 버퍼로 되는 출력 비디오 버퍼(69)에 일시적으로 저장하고, 영상과 음성을 립싱크시킨 상태로 출력하하기 위해, 리얼타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 공급되는 클럭 레퍼런스(pcr)에 의해서 인코더측과 동기한 시스템 타임 클럭(stc)에 기초하여, 오디오 타임 스탬프(ATS) 및 비디오 타임 스탬프(VTS)에 따라서 출력 타이밍을 조정하도록 이루어져 있다.

(7) 디코더측에서의 립싱크 조정 처리

(7-1) 라이브 스트리밍에 있어서의 비디오 프레임 및 오디오 프레임의 출력 타이밍 조정 방법

도 10에 도시하는 바와 같이, 이 경우 렌더러(67)는, 리얼 타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 소정 주기로 공급되어 오는 클럭 레퍼런스(pcr)의 값에, 시스템 타임 클럭(stc)의 클럭 주파수를 PLL에 의해 록시킨 후에, 해당 시스템 타임 클럭(stc)에 기초하여 동기된 모니터(13)를 통해서 오디오 타임 스탬프(ATS) 및 비디오 타임 스탬프(VTS)에 따라 오디오 프레임(AF2) 및 비디오 프레임(VF2)의 출력을 컨트롤한다.

즉 렌더러(67)는, 클럭 레퍼런스(pcr)의 값으로 시스템 타임 클럭(stc)의 클럭 주파수가 조절된 상태로, 시스템 타임 클럭(stc)과 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))에 따라서 오디오 프레임(AF2(Af1, Af2, Af3, ……)을 모니터(13)에 순차적으로 출력한다.

여기서, 클럭 레퍼런스(pcr)의 값과 시스템 타임 클럭(stc)의 클럭 주파수는 상술한 바와 같이 동기 관계를 유지하고 있기 때문에, 시스템 타임 클럭(stc)의 카운트값과 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……)) 사이에서, 예를 들면 시점(Tv1)에 있어서 시스템 타임 클럭(stc)의 카운트값과 비디오 타임 스탬프(VTS1)와의 차분값 D2V가 발생하는 일은 없다.

그러나, 리얼타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 공급되는 클럭 레퍼런스(pcr)는 UDP로 송신되어 오는 것이고, 고속성을 중시하는 나머지 재송 제어되지 않기 때문에 해당 클럭 레퍼런스(pcr)가 제2 콘텐츠 수신 장치(4)의 리얼타임 스트리밍 디코더(12)에 도달하지 않거나, 혹은 에러 데이터를 포함하여 도달하는 경우도 있다.

이러한 경우에는, 리얼타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 소정 주기로 공급되어 오는 클럭 레퍼런스(pcr)의 값과, 시스템 타임 클럭(stc)의 클럭 주파수와의 동기가 PLL을 통하여 어긋나는 경우가 있는데, 이 때도 본 발명에 있어서의 렌더러(67)에서는 립싱크를 보장할 수 있도록 이루어져 있다.

본 발명에서는, 시스템 타임 클럭(stc)과 오디오 타임 스탬프(ATS) 그리고 비디오 타임 스탬프(VTS) 사이에 어긋남이 발생한 경우, 립싱크를 취하는 방법으로 서, 오디오 출력의 연속성을 우선시키도록 이루어져 있다.

렌더러(67)는, 오디오 프레임(AF2)의 출력 타이밍(Ta2)에서의 시스템 타임 클럭(stc)의 카운트값과 오디오 타임 스탬프(ATS2)를 비교하여, 그 차분값 D2A를 기억한다. 한편, 렌더러(67)는 비디오 프레임(VF2)의 출력 타이밍(Tv2)에서의 시스템 타임 클럭(stc)의 카운트값과 비디오 타임 스탬프(VTS2)를 비교하여, 그 차분값 D2V를 기억한다.

이 때, 클럭 레퍼런스(pcr)가 제2 콘텐츠 수신 장치(4)의 리얼타임 스트리밍 디코더(12)에 확실하게 도달하고, 클럭 레퍼런스(pcr)의 값과 해당 리얼타임 스트리밍 디코더(12)의 시스템 타임 클럭(stc)의 클럭 주파수가 PLL을 통하여 완전하게 일치하고, 모니터(13)를 포함하여 디코더측이 시스템 타임 클럭(stc)에 동기하고 있으면 차분값 D2V, D2A는 「0」으로 된다.

이 차분값 D2A가 플러스 값이면 오디오 프레임(AF2)은 빠르다고 판단되고, 마이너스 값이면 오디오 프레임(AF2)은 지연되어 있다고 판단된다. 마찬가지로, 차분값 D2V가 플러스 값이면 비디오 프레임(VF2)은 빠르다고 판단되고, 마이너스 값이면 비디오 프레임(VF2)은 지연되어 있다고 판단된다.

여기서 렌더러(67)는, 오디오 프레임(AF2)이 빠르든 지연되어 있든, 오디오 출력의 연속성을 유지시키는 것을 우선시키고, 오디오 프레임(AF2)에 대한 비디오 프레임(VF2)의 출력을 상대적으로 다음과 같이 제어한다.

예를 들면, ｜D2V-D2A｜가 임계값 TH보다도 큰 경우, 차분값 D2V가 차분값 D2A보다도 크면 음성에 영상이 따라붙지 못한 상태이기 때문에, 렌더러(67)는 GOP 를 구성하고 있는 예를 들면 B 픽쳐에 상당하는 비디오 프레임(Vf3)을 디코드하지 않고 스킵하여 다음의 비디오 프레임(Vf4)을 출력하도록 이루어져 있다.

이에 대하여 ｜D2V-D2A｜가 임계값 TH보다도 크고, 차분값 D2A 쪽이 차분값 D2V보다도 크면 영상에 음성이 따라붙지 못한 상태이기 때문에, 렌더러(67)는 현재 출력 중인 비디오 프레임(Vf2)을 반복 리피트 출력하도록 이루어져 있다.

또한, ｜D2V-D2A｜가 임계값 TH보다도 작은 경우에는, 음성에 대한 영상의 갭은 허용 범위 내라고 판단되고, 렌더러(67)는 해당 비디오 프레임(VF2)을 그대로 모니터(13)에 출력한다.

(7-2) 라이브 스트리밍에 있어서의 립싱크 조정 처리 수순

전술한 바와 같이 리얼타임 스트리밍 디코더(12)의 렌더러(67)가 라이브 스트리밍 재생을 행할 때에, 오디오 프레임(AF2)을 기준으로 하여 비디오 프레임(VF2)의 출력 타이밍을 조정함으로써 영상과 음성을 립싱크시키는 출력 타이밍 조정 방법에 대하여 정리하면, 다음의 도 11에 도시하는 플로우차트로 나타내는 바와 같이, 리얼타임 스트리밍 디코더(12)의 렌더러(67)는, 루틴(RT2)의 개시 스텝부터 들어와서, 다음의 스텝 SP11로 이행한다.

스텝 SP11에 있어서, 제2 콘텐츠 수신 장치(4)에 있어서의 리얼타임 스트리밍 디코더(12)의 렌더러(67)는, 제1 콘텐츠 수신 장치(3)에 있어서의 리얼 타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 클럭 레퍼런스(pcr)를 수신하고, 다음의 스텝 SP12로 이행한다.

스텝 SP12에 있어서 렌더러(67)는, 감산 회로(71), 필터(72), 전압 제어형 크리스탈 오실레이터 회로(73) 및 시스템 타임 클럭 회로(74)를 통하여 구성되는 PLL에 의해서 클럭 레퍼런스(pcr)와 시스템 타임 클럭(stc)을 동기시킴으로써, 이 이후, 출력 타이밍을 조정할 때의 기준으로서 해당 클럭 레퍼런스(pcr)에 동기한 시스템 타임 클럭(stc)을 이용하여, 다음의 스텝 SP13으로 이행한다.

스텝 SP13에 있어서 렌더러(67)는, 시점(Tv1, TV2, Tv3, ……)의 타이밍에 있어서의 시스템 타임 클럭(stc)의 카운트값과 비디오 타임 스탬프(VTS)와의 차분값 D2V를 산출하고, 또한 시점(Ta1, Ta2, Ta3, ……)의 타이밍에 있어서의 시스템 타임 클럭(stc)의 카운트값과 오디오 타임 스탬프(ATS)와의 차분값 D2A를 산출하고, 다음의 스텝 SP14로 이행한다.

스텝 SP14에 있어서 렌더러(67)는, 스텝 SP13에서 산출한 차분값 D2V, D2A의 정도를 검사하고, 차분값 D2V가 차분값 D2A보다도 임계값 TH(예를 들면 100[msec]) 이상으로 큰 경우, 영상이 음성에 대하여 지연되어 있다고 판단하고, 다음의 스텝 SP15로 이행한다.

스텝 SP15에 있어서 렌더러(67)는, 비디오가 오디오에 대하여 지연되어 있다고 판단했기 때문에, 예를 들면 B 픽쳐(비디오 프레임(Vf3))를 디코드하지 않고 스킵하여 출력함으로써, 음성에 대한 영상의 지연을 회복시켜 립싱크시킬 수 있어, 다음의 스텝 SP19로 이행하여 처리를 종료한다.

이 경우, 렌더러(67)는 「P」픽쳐에 대해서는 다음의 픽쳐에 대하여 참조 프레임으로 되기 때문에 스킵하지 않고, 해당 스킵에 의한 영향을 받지 않는 「B」픽쳐를 스킵함으로써, 화질 열화를 미연에 방지하면서 립싱크를 조정할 수 있도록 이 루어져 있다.

한편, 스텝 SP14에 있어서 렌더러(67)는, 차분값 D2V가 차분값 D2A보다도 임계값 TH(예를 들면 100[msec]) 이상으로 크지 않은 경우, 다음의 스텝 SP16으로 이행한다.

스텝 SP16에 있어서 렌더러(67)는, 차분값 D2A가 차분값 D2V보다도 임계값 TH(예를 들면 100[msec]) 이상으로 큰 경우, 영상이 음성에 대하여 진행되어 있다고 판단하고, 다음의 스텝 SP17로 이행한다.

스텝 SP17에 있어서 렌더러(67)는, 영상 쪽이 음성보다도 진행되어 있기 때문에, 음성이 영상에 따라붙도록 현재 출력 중인 픽쳐를 구성하는 비디오 프레임(VF2)을 리피트하여 출력한 후, 다음 스텝 SP19로 이행하여 처리를 종료한다.

이에 대하여 스텝 SP16에서 차분값 D2A와 차분값 D2V와의 갭이 임계값 TH의 범위 내이면 음성과 영상 사이에 어긋남이 발생하고 있다고는 판단할 수 없을 정도라고 판단하고, 다음의 스텝 SP18로 이행한다.

스텝 SP18에 있어서 렌더러(67)는, 영상과 음성 사이에 어긋남이 발생해 있다고 판단할 수 없을 정도의 시간차밖에 없기 때문에, 이 경우에는 클럭 레퍼런스(pcr)와 동기한 시스템 타임 클럭(stc)에 기초하여, 비디오 프레임(VF2)을 그대로 모니터(13)에 출력하고, 다음의 스텝 SP19로 이행하여 처리를 종료한다.

또 렌더러(67)는, 음성에 관해서는 음의 연속성을 유지시키기 위해서, 상기한 어느 경우에 있어서도 그대로 모니터(13)에 출력하도록 이루어져 있다.

이와 같이 제2 콘텐츠 수신 장치(4)에 있어서의 리얼타임 스트리밍 디코더 (12)의 렌더러(67)는, 제1 콘텐츠 수신 장치(3)에 있어서의 리얼타임 스트리밍 인코더(11)의 클럭 레퍼런스(pcr)와 해당 리얼타임 스트리밍 디코더(12)의 시스템 타임 클럭(stc)을 동기시킴으로써 라이브 스트리밍 재생을 실현함과 함께, 그를 위한 클럭 레퍼런스(pcr)가 UDP로 재송 제어되지 않고 도달하지 않는 경우가 있었던 경우에도, 시스템 타임 클럭(stc)에 대한 오디오 타임 스탬프(ATS), 비디오 타임 스탬프(VTS)의 어긋남에 따라서 립싱크 조정 처리를 실행함으로써, 라이브 스트리밍 재생을 행하면서도 확실하게 립싱크시킬 수 있도록 이루어져 있다.

(8) 동작 및 효과

이상의 구성에 있어서, 제1 콘텐츠 수신 장치(3)의 스트리밍 디코더(9)는, 오디오 프레임(AF1(Af1, Af2, Af3, ……)을 임의의 시점(Ta1, Ta2, Ta3, ……)의 타이밍에서 출력할 때, 시스템 타임 클럭(stc)을 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))로 프리셋한다.

이에 의해 스트리밍 디코더(9)의 렌더러(37)는, 오디오 타임 스탬프(ATS(ATS1, ATS2, ATS3, ……))로 프리셋한 시스템 타임 클럭(stc)의 카운트값과, 비디오 프레임(VF1(Vf1, Vf2, Vf3, ……))에 첨부된 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……))와의 차분값 D1을 산출함으로써, 해당 비디오 타임 스탬프(VTS)를 첨부한 인코더측의 클럭 주파수와 디코더측 시스템 타임 클럭(stc)의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 인식할 수 있다.

그리고 스트리밍 디코더(9)의 렌더러(37)는, 그 차분값 D1에 따라서 비디오 프레임(VF1)의 현 픽쳐를 리피트하여 출력하거나, 예를 들면 B 픽쳐를 디코드하지 않고 스킵하여 출력함으로써, 모니터(10)에 출력하는 음성을 도중에 끊기게 하지 않고 연속성을 유지한 채로, 그 음성에 대한 영상의 출력 타이밍을 조정할 수 있다.

물론 렌더러(37)는, 차분값 D1이 임계값 TH 이하로서, 유저가 립싱크의 어긋남을 인식할 수 없을 정도인 경우에는, 리피트 출력이나 스킵 재생하지 않고 비디오 타임 스탬프(VTS(VTS1, VTS2, VTS3, ……)인 채로 모니터(10)에 출력할 수도 있기 때문에, 이 경우에는 영상의 연속성을 유지할 수도 있다.

또, 제2 콘텐츠 수신 장치(4)에 있어서의 리얼타임 스트리밍 디코더(12)의 렌더러(67)는, 제1 콘텐츠 수신 장치(3)에 있어서의 리얼타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 공급되는 클럭 레퍼런스(pcr)와 디코더측의 시스템 타임 클럭(stc)을 동기시킨 후에, 오디오 타임 스탬프(ATS) 및 비디오 타임 스탬프(VTS)에 따라서 오디오 프레임(AF2) 및 비디오 프레임(VF2)을 모니터(13)에 출력할 수 있으므로, 리얼타임성을 유지한 채로 라이브 스트리밍 재생을 실현할 수 있다.

게다가, 제2 콘텐츠 수신 장치(4)에 있어서의 리얼타임 스트리밍 디코더(12)의 렌더러(67)는, 제1 콘텐츠 수신 장치(3)에 있어서의 리얼타임 스트리밍 인코더(11)의 PCR 회로(51)로부터 공급되는 클럭 레퍼런스(pcr)가 UDP로 재송 제어되지 않고 도달하지 않기 때문에, 해당 클럭 레퍼런스(pcr)와 시스템 타임 클럭(stc)과의 동기가 벗어났다고 해도, 시스템 타임 클럭(stc)과 비디오 타임 스탬프(VTS)와의 차분값 D2V, 시스템 타임 클럭(stc)과 오디오 타임 스탬프(ATS)와의 차분값 D2A를 산출하여, 해당 차분값 D2V, D2A의 갭에 따라서 비디오 프레임(VF2)의 출력 타 이밍을 조정함으로써, 모니터(13)에 출력하는 음성을 도중에 끊기게 하지 않고 연속성을 유지한 채로, 그 음성에 대한 영상의 출력 타이밍을 조정할 수 있다.

이상의 구성에 따르면, 제1 콘텐츠 수신 장치(3)에 있어서의 스트리밍 디코더(9)의 렌더러(37) 및 제2 콘텐츠 수신 장치(4)에 있어서의 리얼타임 스트리밍 디코더(12)의 렌더러(67)는, 오디오 프레임(AF1, AF2)의 출력 타이밍을 기준으로 해서 비디오 프레임(VF1, VF2)의 출력 타이밍을 조정할 수 있으므로, 음성의 연속성을 유지한 채로 시청자인 유저에게 위화감을 느끼게 하지 않고 립싱크시킬 수 있다.

(9) 다른 실시 형태

또 전술한 실시 형태에 있어서는, 오디오 프레임(AF1, AF2)을 기준으로 한 차분값 D1 또는 D2V, D2A에 따라서 립싱크를 조정함으로써 인코더측의 클럭 주파수와 디코더측의 클럭 주파수와의 어긋남을 흡수하도록 한 경우에 대해 설명했지만, 본 발명은 이것에 한정되지 않고, 클럭 지터, 네트워크 지터 등에 의해서 발생하는 인코더측의 클럭 주파수와 디코더측의 클럭 주파수와의 미묘한 어긋남을 흡수하도록 해도 된다.

또한 전술한 형태에 있어서는, 콘텐츠 제공 장치(2)와 제1 콘텐츠 수신 장치(3) 사이에서 인터넷(5)을 통하여 접속하여, 프리인코디드 스트리밍을 실현하도록 한 경우에 대해 설명했지만, 본 발명은 이것에 한정되지 않고, 콘텐츠 제공 장치(2)와 제2 콘텐츠 수신 장치(4) 사이에서 인터넷(5)을 통하여 접속하여, 프리인코디드 스트리밍을 실현하도록 하거나, 콘텐츠 제공 장치(2)로부터 제1 콘텐츠 수신 장치(3)를 통하여 제2 콘텐츠 수신 장치(4)에 콘텐츠를 제공하는 것에 의해 프리인코디드 스트리밍을 실현하도록 해도 된다.

또 전술한 실시 형태에 있어서는, 제1 콘텐츠 수신 장치(3)와 제2 콘텐츠 수신 장치(4) 사이에서 라이브 스트리밍을 행하도록 한 경우에 대하여 설명했지만, 본 발명은 이것에 한정되지 않고, 콘텐츠 제공 장치(2)와 제1 콘텐츠 수신 장치(3) 사이나, 콘텐츠 제공 장치(2)와 제2 콘텐츠 수신 장치(4) 사이에서 라이브 스트리밍을 행하도록 해도 된다.

또 전술한 실시 형태에 있어서는, B 픽쳐를 스킵하여 출력하도록 한 경우에 대해 설명했지만, 본 발명은 이것에 한정되지 않고, I 픽쳐의 직전에 위치하는 P 픽쳐를 스킵하여 출력하도록 해도 된다.

이것은, I 픽쳐의 직전에 위치하는 P 픽쳐이면, 다음의 I 픽쳐를 생성할 때에 해당 P 픽쳐가 참조되는 일은 없고, 스킵했다고 해도 다음의 I 픽쳐를 생성할 때에 지장을 초래하는 일이 없어, 화질 열화가 발생하는 일도 없기 때문이다.

또 상술한 실시 형태에 있어서는, 비디오 프레임(Vf3)을 디코드하지 않고 스킵하여 모니터(10)에 출력하도록 한 경우에 대해 설명했지만, 본 발명은 이것에 한정되지 않고, 비디오 프레임(Vf3)을 디코드한 후에 출력 비디오 버퍼(39)로부터 출력하는 단계에서 디코드 후의 비디오 프레임(Vf3)을 스킵하여 출력하도록 해도 된다.

또, 전술한 실시 형태에 있어서는, 오디오 프레임(AF1, AF2)에 대해서는 립싱크의 조정을 행할 때의 기준으로서 이용하고 있기 때문에, 모든 오디오 프레임에 대하여 빠짐없이 모니터(10, 13)에 출력하도록 한 경우에 대해 설명했지만, 본 발명은 이것에 한정되지 않고, 예를 들면 무음 부분에 상당하는 오디오 프레임이 있었던 경우에는, 그 오디오 프레임을 스킵하여 출력하도록 해도 된다.

또 전술한 실시 형태에 있어서는, 본 발명의 콘텐츠 수신 장치를, 복호 수단으로서의 오디오 디코더(35, 64), 비디오 디코더(36, 66)와, 기억 수단으로서의 입력 오디오 버퍼(33, 63), 출력 오디오 버퍼(38, 68), 입력 비디오 버퍼(34, 65), 출력 비디오 버퍼(39, 69)와, 산출 수단 및 타이밍 조정 수단으로서의 렌더러(37, 67)에 의해 구성하도록 한 경우에 대해 설명했지만, 본 발명은 이것에 한정되지 않고, 기타 여러 가지의 회로 구성으로 콘텐츠 수신 장치를 형성하도록 해도 된다.

본 발명의 콘텐츠 수신 장치, 비디오 오디오 출력 타이밍 제어 방법 및 콘텐츠 제공 시스템은, 예를 들면 서버로부터 음성부의 동화상 콘텐츠를 다운로드하여 표시하는 용도에 적용할 수 있다.

Claims

인코더측의 기준 클럭에 기초하는 비디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 비디오 프레임과, 상기 기준 클럭에 기초하는 오디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 오디오 프레임을 상기 인코더측의 콘텐츠 제공 장치로부터 수신하여 복호하는 복호 수단과,

상기 복호 수단에 의해서 상기 부호화 비디오 프레임 및 상기 부호화 오디오 프레임을 복호한 결과 얻어지는 복수의 비디오 프레임 및 복수의 오디오 프레임을 축적하는 기억 수단과,

상기 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 산출하는 산출 수단과,

상기 시간차에 따라서, 상기 복수의 오디오 프레임을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 상기 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정하는 타이밍 조정 수단을 구비하는 것을 특징으로 하는 콘텐츠 수신 장치.
제1항에 있어서,

상기 타이밍 조정 수단은, 상기 시간차가 소정의 시간 보다도 짧은 경우, 상기 디코더측의 시스템 타임 클럭에 기초하여 상기 비디오 타임 스탬프에 따라 상기 비디오 프레임을 출력하는 것을 특징으로 하는 콘텐츠 수신 장치.
제1항에 있어서,

상기 타이밍 조정 수단은, 상기 시간차가 소정의 시간보다도 길고, 또한 상기 비디오 타임 스탬프가 상기 오디오 타임 스탬프보다도 지연되어 있는 경우, B 픽쳐의 상기 비디오 프레임을 스킵하여 출력하는 것을 특징으로 하는 콘텐츠 수신 장치.
제1항에 있어서,

상기 타이밍 조정 수단은, 상기 시간차가 소정의 시간보다도 길고, 또한 상기 비디오 타임 스탬프가 상기 오디오 타임 스탬프보다도 지연되어 있는 경우, I 픽쳐 직전에 위치하는 P 픽쳐의 상기 비디오 프레임을 스킵하여 출력하는 것을 특징으로 하는 콘텐츠 수신 장치.
제1항에 있어서,

상기 타이밍 조정 수단은, 상기 시간차가 소정의 시간보다도 길고, 또한 상기 비디오 타임 스탬프가 상기 오디오 타임 스탬프보다도 진행되어 있는 경우, 현 픽쳐의 상기 비디오 프레임을 반복하여 출력하는 것을 특징으로 하는 콘텐츠 수신 장치.
제1항에 있어서,

상기 콘텐츠 제공 장치로부터 UDP로 송신되는 상기 인코더측의 기준 클럭을 수신하는 수신 수단을 구비하고,

상기 산출 수단은, 상기 인코더측의 기준 클럭과 상기 디코더측의 시스템 타임 클럭을 동기시킨 후에, 상기 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 산출하는 것을 특징으로 하는 콘텐츠 수신 장치.
복호 수단에 대하여, 인코더측의 기준 클럭에 기초하는 비디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 비디오 프레임과, 상기 기준 클럭에 기초하는 오디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 오디오 프레임을 상기 인코더측의 콘텐츠 제공 장치로부터 수신하여 복호시키는 복호 스텝과,

기억 수단에 대하여, 상기 복호 스텝에서 상기 부호화 비디오 프레임 및 상기 부호화 오디오 프레임을 복호한 결과 얻어지는 복수의 비디오 프레임 및 복수의 오디오 프레임을 축적시키는 기억 스텝과,

산출 수단에 대하여, 상기 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 산출시키는 차분 산출 스텝과,

타이밍 조정 수단에 대하여, 상기 시간차에 따라, 상기 복수의 오디오 프레임을 프레임 단위로 순차적으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 상기 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디 오 프레임 출력 타이밍을 조정시키는 타이밍 조정 스텝을 구비하는 것을 특징으로 하는 비디오 오디오 출력 타이밍 제어 방법.
콘텐츠 제공 장치와 콘텐츠 수신 장치를 갖는 콘텐츠 제공 시스템으로서,

상기 콘텐츠 제공 장치는,

인코더측의 기준 클럭에 기초하는 비디오 타임 스탬프를 첨부한 복수의 부호화 비디오 프레임과, 상기 기준 클럭에 기초하는 오디오 타임 스탬프를 첨부한 복수의 부호화 오디오 프레임을 생성하는 부호화 수단과,

상기 복수의 부호화 비디오 프레임 및 상기 복수의 부호화 오디오 프레임을 상기 콘텐츠 수신 장치에 순차적으로 송신하는 송신 수단을 구비하고,

상기 콘텐츠 수신 장치는,

상기 비디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 비디오 프레임과, 상기 오디오 타임 스탬프가 순차적으로 첨부된 복수의 부호화 오디오 프레임을 상기 인코더측의 콘텐츠 제공 장치로부터 수신하여 복호하는 복호 수단과,

상기 복호 수단에 의해서 상기 부호화 비디오 프레임 및 상기 부호화 오디오 프레임을 복호한 결과 얻어지는 복수의 비디오 프레임 및 복수의 오디오 프레임을 축적하는 기억 수단과,

상기 인코더측의 기준 클럭의 클럭 주파수와 디코더측의 시스템 타임 클럭의 클럭 주파수와의 어긋남에 의해서 발생하는 시간차를 산출하는 산출 수단과,

상기 시간차에 따라서, 상기 복수의 오디오 프레임을 프레임 단위로 순차적 으로 출력할 때의 오디오 프레임 출력 타이밍을 기준으로 해서 상기 복수의 비디오 프레임을 프레임 단위로 순차적으로 출력할 때의 비디오 프레임 출력 타이밍을 조정하는 타이밍 조정 수단을 구비하는 것을 특징으로 하는 콘텐츠 제공 시스템.