KR101006593B1

KR101006593B1 - 영상 데이터와 음성 데이터의 기록 장치

Info

Publication number: KR101006593B1
Application number: KR1020057022680A
Authority: KR
Inventors: 테츠야 오카다; 다이스케 히라나카
Original assignee: 소니 주식회사
Priority date: 2003-06-12
Filing date: 2004-06-03
Publication date: 2011-01-07
Also published as: EP1633138B1; KR20060010829A; US20060140280A1; EP1633138A1; US7738772B2; WO2004112391A1; JP2005006095A; EP1633138A4; JP4305065B2; CN1802851A; CN100521766C

Abstract

포즈 요구가 있으면, 영상 데이터 프레임 기준으로 한 음성 데이터의 프레임 지연 시간인 음성 지연 시간을 구한다. 포즈중에는, 영상 데이터와 음성 데이터의 프레임 시작 시각의 어긋남인 프레임 시프트 시간을 감시한다. 포즈 해제 요구가 있으면, 음성 지연 시간과 프레임 시프트 시간에 의거하여, 해당 포즈 요구에서 보정햐여야 할 음성 보정 시간을 산출한다. 그리고, 각 포즈 요구마다 누적된 음성 보정 시간에 의거하여, 음성 데이터가 영상 데이터에 대해 선행되어 있다고 판단한 경우는, 영상 데이터를 음성 데이터에 대해 1프레임분 지연시키고, 음성 데이터가 영상 데이터에 대해 지연되어 있다고 판단한 경우는, 음성 데이터를 영상 데이터에 대해 1프레임분 지연시킨다.

음성/영상 동기 처리 장치, 음성/영상 기록 장치

Description

영상 데이터와 음성 데이터의 기록 장치{DEVICE FOR RECORDING VIDEO DATA AND AUDIO DATA}

본 발명은, 영상 데이터 및 음성 데이터의 동기를 취하기 위한 음성/영상 동기 처리 장치 및 음성/영상 동기 처리 방법 및 음성/영상 기록 장치에 관한 것이다. 특히, 영상 데이터 및 음성 데이터의 일시 정지(포즈; pause)시의 AV(음성/영상) 동기 기술에 관한 것이다.

예를 들면, MPEG의 인코더의 입력 장치 등의 음성/영상 동기 처리 장치(AV 기록 장치)에서는, 영상 데이터와 음성 데이터의 입력 신호의 프레임 길이(프레임 주기)가 다른 경우가 일반적이다. 또한, 음성 데이터 및 영상 데이터의 받아들이는 주기가 각각 프레임 단위로 행하여지는 점에 특징이 있다. 이하, 이와 같은 종래의 AV 기록 장치의 구성 및 작용에 관해 설명한다.

도 15는 종래의 AV 기록 장치의 시스템 구성도이다.

이 시스템은, 호스트(HOST)(1a)로부터 제어 지시를 받는 데이터 제어부(2a) 및 시스템 인코더(3a)로 구성된다.

데이터 제어부(2a)는, 호스트(1a)로부터의 제어 지시를 음성/영상 제어부(AV_CTRL)(21a)가 받고, 타이머(TIMER)(24a)로부터의 시간 정보에 의거하여, 음성 제어부(22a), 영상 제어부((26a))에 대한 제어를 행한다.

그리고, 이하, 음성/영상 제어부를, AV 제어부라고 칭한다.

AV 제어부(21a)는, 음성 제어부(A_CTRL)(22a)에 제어 지시를 냄으로써, 음성 데이터(A_DATA)의 입력 제어를 행한다. 입력된 음성 데이터는 음성 데이터 메모리(A_MEM)(23a)에 격납된다.

또한, AV 제어부(21a)는, 영상 제어부(V_CTRL)(26a)에 제어 지시를 냄으로써, 영상 데이터(V_DATA)의 입력 제어를 행한다. 입력된 영상 데이터는 영상 데이터 메모리(V_MEM)(25a)에 격납된다.

데이터 제어부(2a)는, 타이머(24a)로부터의 시간 정보에 의거하여, 시스템 인코더(3a)에 대해, 시간 정보로서의 PTS(Presentation Time Stamp)를 부가한 음성 데이터(A_PTS) 및 영상 데이터(V_PTS)를 제공한다.

시스템 인코더(3a)는, 호스트(1a)로부터의 제어 지시에 의해 제어된다. 음성 인코더(A_ENC)(31a)는, 데이터 제어부(2a)로부터의 PTS를 부가한 음성 데이터를 인코드하고, 부호화한다. 영상 인코더(V_ENC)(33a)는 데이터 제어부(2a)로부터의 PTS를 부가한 영상 데이터를 인코드하고, 부호화한다. 멀티플렉서(MPX)(32a)는, 음성 인코더(31a)와 영상 인코더(33a)에 의해 부호화된 데이터를 다중화하고, 비트 스트림(BSD)을 생성한다.

그러나, MPEG의 인코더를 포함하는 AV 기록 장치에서는, 하드웨어상의 제약 때문에 영상 데이터와 음성 데이터의 프레임 주기가 변화되지 않는 것이 많다. 이러한 경우에, 영상 데이터의 프레임을 기준으로 포즈 처리를 행하면, 그 후에 포즈 해제를 행하는 때에, 영상 데이터에 대한 음성 데이터의 어긋남이 발생한다다는 문제(AV 동기 어긋남)가 있다.

이 문제에 대해, 적절한 처치를 행하지 않는 경우는 동기의 어긋남이 축적되고, 시청자에게 이화감(異和感)으로 되어 지각(知覺)되게 된다.

이하, 종래의 문제점을 도 16을 이용하여 구체적으로 설명한다.

도 16은, 포즈 및 포즈 해제의 제어를 행하는 때의 AV 동기 어긋남의 예를 도시한 도면이다.

도 15에 도시한 종래의 AV 기록 장치에서는, 데이터의 받아들임 제어는 프레임 단위로 밖에 행할 수 없고, 또한 포즈중에도 영상 데이터와 음성 데이터의 각 프레임 주기(각각, video_frame_time, audio_frame_time)를 바꿀 수 없다.

도 16에서, 호스트(1a)로부터 포즈 요구(도면중 「P」로 나타낸다)를 받으면, 데이터 제어부(2a)에서 포즈 요구가 반영되는 것은, 영상 데이터(1)의 프레임의 단락 시각인 t161이다. 음성 데이터는, 시각(t161)에서는 프레임 주기가 도중(途中)이고, 다음의 음성 프레임에서 포즈 요구가 반영되기 때문에, 포즈시의 영상 데이터와 음성 데이터의 차분(差分)으로서 tp161이 생긴다.

포즈중에는, 영상 데이터의 프레임 주기 및 음성 데이터의 프레임 주기는 그대로 변하지 않고, 포즈시의 영상 데이터와 음성 데이터의 차분인 tp161이 생긴 채로 보정되지 않은 상태이다.

CPU(1a)로부터 포즈 해제 요구(도면중 「P_RL」로 나타낸다)를 받으면, 데이터 제어부(2a)에서, 포즈 해제 요구가 반영되는 것은, 영상 데이터(n)(VDn)의 입력 시작인 시각(t162)의 타이밍이다. 여기서, 포즈 해제시에, 포즈시의 영상 데이터와 음성 데이터의 차분인 tp161을 고려하여 영상 데이터에 대한 음성 데이터의 타이밍을 조정하면, AV 동기의 어긋남은 생기지 않는다.

그러나, 영상 데이터와 음성 데이터의 프레임 주기의 차(差)에 의해, 포즈 해제의 시각인 t162로부터 음성 입력 데이터(n)(ADn)의 입력 시작 시각까지의 차분(tp162)이, 포즈 해제시의 음성 데이터와 영상 데이터의 차분으로서 발생하기 때문에, 결과로서, 시각(t161)과 시각(tp162)으로부터 포즈 해제시에 AV 동기의 어긋남(tp163)이 생긴다.

특히, 영상 데이터와 음성 데이터의 프레임 주기가 변화되지 않는 경우는, 이 tp163이 포즈 요구마다 누적될 가능성이 있기 때문에, 위화감으로서 지각되는 일이 있다.

본 발명의 목적은, 영상 데이터와 음성 데이터의 프레임 길이가 다르고, 게다가 영상 데이터와 음성 데이터의 프레임 길이를 변화할 수 없는 AV 기록 장치에서, AV 동기 어긋남을 일으키지 않는 AV 동기 처리 장치 및 방법을 제공하는 것에 있다.

본 발명은, 상기 과제를 참작하여 이루어진 것으로, 그 제 1의 관점은, 각각 다른 소정의 프레임 길이를 갖는 영상 데이터 및 음성 데이터에 대해 동기 처리를 행하는 음성/영상 동기 처리 장치로서,

타이머 수단과,

상기 타이머 수단에 의해 계시(計時)된 상기 영상 데이터 및 음성 데이터의 각 프레임의 시작 시각, 포즈 요구의 시각, 및 포즈 해제 요구의 시각을 기억하는 기억 수단과,

상기 영상 데이터와 음성 데이터의 각 프레임의 시작 시각, 상기 포즈 요구의 시각, 및 상기 포즈 해제 요구의 시각에 의거하여, 상기 포즈 해제 요구 후에 영상 데이터와 음성 데이터의 어느 하나를 프레임 단위로 지연시키는지, 또는 어느 것도 지연시키지 않는지를 결정하는 제어 수단을 갖는 음성/영상 동기 처리 장치이다.

상기 제어 수단은,

포즈 요구시에, 영상 데이터의 프레임의 단락을 기준으로 하여, 음성 데이터의 프레임의 지연 시간인 음성 지연 시간을 산출하고,

상기 포즈 요구 후에, 영상 데이터의 각 프레임의 시작 시각마다, 상기 영상 데이터에 대한 음성 데이터의 프레임 시작 시각의 차분인 프레임 시프트 시간을 모니터하고,

상기 음성 지연 시간과, 상기 포즈 요구에 대한 포즈 해제 요구시의 프레임 시프트 시간에 의거하여 음성 보정 시간을 산출하고,

각 포즈 요구마다 산출한 음성 보정 시간을 누적한 누적 음성 보정 시간에 의거하여, 상기 포즈 해제 요구 후에 영상 데이터와 음성 데이터의 어느 하나를 프레임 단위로 지연시키는지, 또는 어느 것도 지연시키지 않는지를 결정한다.

본 발명의 제 1의 관점에 의하면, 포즈 요구가 있는 시점의 영상 데이터에 대한 음성 데이터의 지연 시간(음성 지연 시간)을 취득하고, 그 후의 포즈중 영상 데이터와 음성 데이터의 프레임의 시프트 시간을 항상 모니터함으로써, 언제 포즈 해제 요구가 있다고 하더라도, 영상 데이터에 대한 음성 데이터의 어긋남을 1음성 데이터 프레임 이하로 억제하도록, 포즈 해제 후의 음성 데이터의 재생 타이밍을 조정하기 때문에, AV 동기 어긋남을 대폭적으로 억제할 수 있다.

본 발명의 제 2의 관점은, 각각 다른 소정의 프레임 길이를 갖는 영상 데이터 및 음성 데이터를 포함하는 다중화 데이터를 생성하는 음성/영상 기록 장치로서,

타이머 수단과,

상기 타이머 수단에 의해 계시된 상기 영상 데이터 및 음성 데이터의 각 프레임의 시작 시각, 포즈 요구의 시각, 및 포즈 해제 요구의 시각을 기억하는 기억 수단과,

상기 영상 데이터와 음성 데이터의 각 프레임의 시작 시각, 상기 포즈 요구의 시각, 및 상기 포즈 해제 요구의 시각에 의거하여, 상기 포즈 해제 요구 후의 음성 데이터의 동기 처리를 프레임 단위로 행하는 동기 제어 수단과,

영상 데이터, 및 상기 동기 제어 수단에 의해 동기 처리된 음성 데이터에 대해, 시간 정보를 부가하여 상기 다중화 데이터를 생성하는 다중화 데이터 생성 수단을 갖는다.

본 발명의 제 2의 관점에 의하면, 포즈 요구가 있는 시점의 영상 데이터에 대한 음성 데이터의 지연 시간(음성 지연 시간)을 취득하고, 그 후의 포즈중 영상 데이터와 음성 데이터의 프레임의 시프트 시간을 항상 모니터함으로써, 언제 포즈 해제 요구가 있다고 하더라도, 영상 데이터에 대한 음성 데이터의 어긋남을 1음성 데이터 프레임 이하로 억제하도록, 포즈 해제 후의 음성 데이터의 재생 타이밍을 조정하기 때문에, AV 동기 어긋남이 대폭적으로 억제된 다중화 데이터를 생성할 수 있다.

도 1은 본 발명의 한 실시 형태로서의 AV 기록 장치의 시스템 구성을 도시한 도면.

도 2는 AV 제어부(21)가 호스트(1)로부터 START 요구를 받은 경우의 처리를 도시한 플로우 차트.

도 3은 데이터 입력 시작에 따라 생성된 영상 PTS(V_PTS) 및 음성 PTS(A_PTS)를 설명하기 위한 타이밍 차트.

도 4는 데이터 제어부(2)가 시스템 인코더(3)에 음성 데이터를 제공할 때에, PTS를 부가하는 처리를 도시한 플로우 차트.

도 5는 데이터 제어부(2)가 시스템 인코더(3)에 영상 데이터를 제공할 때에, PTS를 부가하는 처리를 도시한 플로우 차트.

도 6은 호스트(1)로부터의 포즈 요구에 의거하여 AV 제어부(21)가 행하는 처리를 도시한 플로우 차트.

도 7은 포즈 요구에 대한 처리를 도시한 타이밍 차트.

도 8은 호스트(1)로부터의 포즈 요구 처리후의 처리(포즈중 처리)를 도시한 플로우 차트.

도 9는 프레임 시프트 시간(f_count)의 측정 방법을 도해한 도면.

도 10은 호스트(1)로부터 포즈 해제 요구가 있은 때에, AV 제어부(21)에서 행하여지는 처리를 도시한 플로우 차트.

도 11은 포즈중 시프트 시간 측정중의 경우의 음성 보정 시간(a_diff)의 산출 방법을 도해한 타이밍 차트.

도 12는 포즈중 시프트 시간 측정중이 아닌 경우의 음성 보정 시간(a_diff)의 산출 방법을 도해한 타이밍 차트.

도 13은 영상 데이터의 입력 재개를 1프레임 지연시키는 처리에 의해, AV 동기 어긋남을 해소하는 처리를 설명하기 위한 도면.

도 14는 음성 데이터의 입력 재개를 1프레임 지연시키는 처리에 의해, AV 동기 어긋남을 해소하는 처리를 설명하기 위한 도면.

도 15는 종래의 AV 기록 장치의 시스템 구성을 도시한 도면.

도 16은 종래의 AV 기록 장치의 포즈 및 포즈 해제 처리를 도시한 타이밍 차트.

이하, 본 발명의 알맞는 실시의 형태에 관해, 첨부 도면을 참조하여 기술한다.

도 1은, 본 발명에 관한 음성/영상 동기 처리 장치의 한 실시의 형태인 AV 기록 장치이다. 또한, 도 1에 도시한 AV 기록 장치는, 도 15에 도시한 종래의 AV 기록 장치와 비교하여, 시스템 구성은 동일하지만, AV 제어부(21)에서의 제어에 특징이 있다.

이하, 순서를 따라, AV 제어부(AV_CTRL)(21)에 있어서의, 호스트(HOST)(1)로부터의 START 요구에 의거한 처리, 정상시의 처리, 호스트(1)로부터의 포즈 요구에 의거한 처리, 포즈중에의 처리, 호스트(1)로부터의 포즈 해제 요구에 의거한 처리, 그리고 포즈 및 포즈 해제 요구에 의해 생기는 AV 동기 어긋남을 해소하는 처리에 관해 설명한다.

우선, 호스트(1)로부터의 START 요구에 의거하여, AV 제어부(21)에서 행하여지는 처리에 관해 설명한다.

도 2는, AV 제어부(21)가 호스트(1)로부터 START 요구를 받은 경우의 처리를 도시한 플로우 차트이다.

여기서, AV 제어부(21)는, 호스트(1)로부터 START 요구를 받으면, 타이머(24)로부터 시간 정보를 취득하고, STC_offset로서 도시하지 않은 메모리에 격납한다. 또한, 타이머(TIMER)(24)는, 예를 들면, 90kHz의 클록으로 동작하는 타이머이다.

도 2에 데이터 제어부(2)에 있어서의 호스트(1)로부터의 START 요구의 처리 플로우를 도시한다.

우선, AV 제어부(21)는, 호스트(1)로부터 START 요구를 수취하면, 영상 데이터의 프레임의 단락을 기다리고, 영상 데이터의 프레임의 단락을 검출하면(ST21), 타이머(24)로부터 시간 정보를 취득하고, 그 시간 정보를 STC_offset로서 보존한다 (ST22).

다음에, 영상 제어부(V_CTRL)(26)에 영상 데이터의 입력 시작 지시를 행하고(ST23), 또한 음성 제어부(A_CTRL)(22)에 음성 데이터의 입력 시작 지시를 행하고(ST24), CPU1로부터의 START 요구의 처리가 종료된다.

도 3은, 데이터 입력 시작에 따라 생성되는 영상 PTS(V_PTS) 및 음성 PTS(A_PTS)를 설명하기 위한 타이밍 차트이다.

도 3에서, 호스트(1)로부터 START 요구를 받으면, 데이터 제어부(2)의 AV 제어부(21)는 영상의 프레임을 기준으로 하여, 영상 데이터와 음성 데이터의 입력을 시작한다. 그리고, 시작한 때의 시각(t31)을 타이머(24)로부터 취득하고, STC_offset로서 보존한다.

그 후, 영상 데이터 및 음성 데이터 각각의 프레임의 단락에서, 타이머(24)로부터 현재 시각을 순서대로 취득하고, START시의 STC_offset(t31)을 뺀 값을 PTS로서, 시스템 인코더(3)에 출력한다.

예를 들면, 도 3에서는, 영상 데이터 프레임의 단락을 검출하면, 타이머(24)로부터 시각(t32)을 취득하고, 시스템 인코더(3)에는 영상 입력 데이터와 함께 영상 데이터의 PTS를 통지한다. 마찬가지로 음성 데이터 프레임의 단락을 검출하면, 타이머(24)로부터 시각(t33)을 취득하고, 시스템 인코더(3)에는 음성 데이터와 함께 음성 데이터의 PTS를 통지한다.

다음에, 호스트(1)로부터의 START 요구의 처리후의 정상시의 처리에 관해 설명한다.

도 4는, 데이터 제어부(2)가 시스템 인코더(3)에 음성 데이터를 제공할 때에, PTS를 부가하는 처리를 도시한 플로우 차트이다.

AV 제어부(21)는, 음성 데이터의 프레임의 단락을 검출하면(ST41), 타이머(24)로부터 시간 정보를 취득하여 보존한다(ST42). 그리고, START시에 보존한 STC_offset과, 취득한 시간 정보로부터 음성 PTS를 생성한다(ST43). 최후로, 시스템 인코더(3)의 음성 인코더(A_ENC)(31)에, 음성 프레임 데이터에 PTS 정보를 부가한 정보를 통지한다(ST44).

이상의 처리를 정상 처리시, 음성 입력 프레임마다 행한다.

도 5는, 데이터 제어부(2)가 시스템 인코더(3)에 영상 데이터를 제공할 때에, PTS를 부가하는 처리를 도시한 플로우 차트이다.

AV 제어부(21)는, 영상 데이터의 프레임의 단락을 검출하면(ST51), 타이머(24)로부터 시간 정보를 취득하여 보존한다(ST52). 그리고, START시에 보존한 STC_offset과, 취득한 시간 정보로부터 영상 PTS를 생성한다(ST53). 최후로, 시스템 인코더(3)의 영상 인코더(33)에, 영상 프레임 데이터에 PTS 정보를 부가한 정보를 통지한다(ST54)

이상의 처리를 정상 처리시, 영상 입력 프레임마다 행한다.

도 4 및 도 5에 도시한 플로우 차트에 따라, 각 데이터의 입력 시작이 행하여지고, PTS를 부가한 AV 동기가 취해진 음성 데이터와 영상 데이터가 데이터 제어부(2)로부터 시스템 인코더(3)에 제공된다.

다음에, 호스트(1)로부터의 포즈 요구에 대한 처리에 관해 설명한다.

도 6은, 호스트(1)로부터의 포즈 요구에 의거하여 AV 제어부(21)가 행하는 처리를 도시한 플로우 차트이다. 또한, 호스트(1)로부터 포즈 요구를 받은 때, AV 제어부(21)가 타이머(24)로부터 취득하는 시간 정보를, pause_STC_offset로 하고 있다.

AV 제어부(21)는, 호스트(1)로부터 포즈 요구를 수취하면, 영상 데이터의 프레임의 단락을 기다리고, 영상 데이터의 프레임의 단락을 검출하면(ST61), 타이머(24)로부터 시간 정보로서 pause_STC_offset를 취득한다(sT62). 또한, 영상 제어부(26)에 영상 데이터의 입력 정지 지시를 행하고(ST63), 타이머(24)로부터의 시간 정보에 의거하여, 음성 데이터와 영상 데이터의 시프트 시간 측정을 시작한다(ST64).

다음에, 음성 데이터의 프레임의 단락을 기다리고, 음성 프레임의 단락을 검출하면(ST65), 타이머(24)로부터의 시간 정보에 의거하여, 음성 데이터와 영상 데이터의 시프트 시간 측정을 종료한다(ST66). 동시에, 음성 데이터와 영상 데이터의 시프트 시간을 음성 지연 시간(a_delay)으로서 보존한다(ST67). 또한, 음성 데이터의 입력 정지 지시를 행하고(ST68), 호스트(1)로부터의 포즈 요구의 처리가 종료된다.

도 7은, 도 6에 도시한 포즈 요구에 대한 처리를 도시한 타이밍 차트이다.

도 7에서는, 호스트(1)로부터 포즈 요구를 받으면, AV 제어부(21)는, 영상 데이터의 프레임을 기준으로 하여, 영상 데이터의 입력을 정지한다. 이때의 타이머(24)로부터 취득한 시각(t71)을 pause_STC_offset로서 보존한다. 그리고, 영상 데 이터 입력을 일시 정지한 시각(t71)으로부터, 다음에 음성 데이터의 프레임의 단락을 검출한 때, 타이머(24)로부터 시각(t72)을 취득한다.

또한, 시각(t72)과 시각(t71)의 차분을 a_delay로서 보존하고, 음성 데이터의 입력 일시 정지를 행한다.

다음에, 호스트(1)로부터의 포즈 요구 처리 후(도 7에서 시각(t72) 이후)의 처리(포즈중 처리)에 관해, 도 8에 도시한 플로우 차트에 관련지어 설명한다.

포즈중에는, 이하에 기술하는 바와 같이, 음성 데이터와 영상 데이터의 프레임의 시프트 시간인 프레임 시프트 시간(f_count)의 측정을 행한다.

도 8에서, 우선 현재 포즈중인지 여부의 판정을 행하고(ST81), 포즈중이라면, 음성 데이터의 프레임의 단락을 기다리고, 음성의 프레임 단락을 검출하면(ST82), 타이머(24)로부터 시간 정보를 취득하여 보존하고, 음성 데이터와 영상 데이터의 프레임 시프트 시간 측정을 시작한다(ST83).

다음에 영상 데이터의 프레임의 단락을 기다리고, 영상의 프레임 단락을 검출하면(ST84), 타이머(24)로부터 시간 정보를 취득하여 보존하고, 음성 데이터와 영상 데이터의 프레임 시프트 시간 측정을 종료한다(ST85).

그리고, ST83에서의 음성 데이터와 영상 데이터의 시프트 시간 측정 시작 시각과, ST85에서의 음성 데이터와 영상 데이터의 시프트 시간 측정 종료 시각으로부터, 프레임 시프트 시간(f_count)을 기록한다(ST86).

이상의 처리를 포즈중에 반복하여 행하고, 프레임 시프트 시간(f_count)의 측정을 계속한다. 프레임 시프트 시간(f_count)은, AV 제어부(21) 내의 메모리에 재기록하여 가기 때문에, 포즈중 최신의 음성 데이터와 영상 데이터의 시프트 시간을 나타내고 있다. 여기서, 항상 f_count를 갱신하는 것은, 언제 포즈 해제 요구가 있을찌 예측할 수 없고, 그 요구에 대비할 필요가 있기 때문이다.

도 9는, 도 8의 플로우 차트를 기초로 설명한 프레임 시프트 시간(f_count)의 측정 방법을, 도시한 것이다.

음성 데이터의 단락을 검출하면, AV 제어부(21)는 타이머(24)로부터 시간 정보(t91)를 취득하고, 음성 데이터와 영상 데이터의 시프트 시간 측정을 시작한다.

다음에 영상 데이터의 단락을 검출하면, AV 제어부(21)는 타이머(24)로부터 시간 정보(t92)를 취득하고, 음성 데이터와 영상 데이터의 시프트 시간 측정(t92-t91)을 행한다. 여기서, 측정된 음성 데이터와 영상 데이터의 시프트 시간이, 프레임 시프트 시간(f_count)으로 된다.

이 제어를 포즈중, 음성 데이터를 기준으로 반복하여 행하고, 항상 최신의 프레임 시프트 시간(f_count)을 보존한다. 도 9에서는, 프레임 시프트 시간(f_count)의 최신치는, 시각(t95)과 시각(t96)의 차분(t96-t95)이다.

다음에, 호스트(1)로부터의 포즈 해제 요구에 대한 처리에 관해 설명한다.

즉, 호스트(1)로부터 포즈 해제 요구가 있은 때에, 포즈 요구가 있은 때와 포즈중에 측정한 음성 데이터와 영상 데이터의 어긋남에 의거하여, AV 제어부(21)가, 음성 데이터의 입력 재개를 지연시키는지, 영상 데이터의 입력 재개를 지연시키는지, 또는 어느 쪽도 지연시키지 않는지를 결정하고, AV 동기의 어긋남을 해소하는 방법을 이하에 기술한다.

도 10은, 호스트(1)로부터 포즈 해제 요구가 있은 때에, AV 제어부(21)에서 행하여지는 처리를 도시한 플로우 차트이다.

또한, 도 10의 플로우 차트의 a_diff는, 포즈시와 포즈 해제시에 있어서의 음성 데이터와 영상 데이터의 어긋남인 음성 보정 시간을 나타내고 있다. 또한, 도 10의 플로우 차트에서의 total_audio_delay는, 영상 데이터에 대한 음성 데이터의 어긋남을 축적하여 가는 변수인 누적 음성 보정 시간으로서, 시스템 초기화시에 0으로 초기화된다.

또한, 이미 기술한 바와 같이, 프레임 시프트 시간(f_count)은 영상 데이터 프레임의 단락의 타이밍에서 갱신된다. 따라서, 시간축에서, 음성 데이터의 프레임의 단락부터 영상 데이터의 프레임의 단락까지의 시간이, 도 10의 플로우 차트에서, 「음성 데이터와 영상 데이터의 시프트 시간 측정중」인 것을 의미하고 있다.

예를 들면, 도 9의 횡방향의 화살표로 도시한 시간이, 음성 데이터와 영상 데이터의 시프트 시간 측정중인 것을 의미하고 있고, 그 이외의 시간은 음성 데이터와 영상 데이터의 시프트 시간 측정중이 아닌 것을 의미하고 있다.

도 10에서, AV 제어부(21)는 호스트(1)로부터 포즈 해제 요구를 수취하면, 영상 데이터의 프레임의 단락을 기다리고, 영상 데이터의 프레임의 단락을 검출하면(ST101), STC_offset의 갱신을 행한다(ST102).

그 후, 음성 데이터와 영상 데이터의 시프트 시간 측정중인지의 여부 판정을 행하고(ST103), 음성 데이터와 영상 데이터의 시프트 시간 측정중이라면, 후술하는 식 (1)에 의거하여, 포즈시와 포즈 해제시의 음성 데이터와 영상 데이터의 시프트 시간인 음성 보정 시간(a_diff)을 구한다(ST104). 측정중이 아니면, 후술하는 식 (2)에 의거하여, 음성 보정 시간(a_diff)을 구한다(ST105).

음성 보정 시간(a_diff)의 상세에 관해서는 후술하지만, 포즈시 음성 지연 시간(a_delay)과 프레임 시프트 시간(f_count)에 의거하여, 그 포즈 처리에서, 포즈 해제시에서 보정되어야 할 영상 데이터에 대한 음성 데이터의 어긋남을 나타내고 있다. 음성 보정 시간(a_diff)이 정(正)의 값일 때는, 영상 데이터에 대해 음성 데이터가 지연되어 있는 것을 의미하고, 음성 보정 시간(a _diff)이 부(負)일 때는, 영상 데이터에 대해 음성 데이터가 선행되어 있는 것을 의미하고 있다.

다음에, 스텝 ST104 또는 스텝 ST105에서 구하여진 음성 보정 시간(a_diff)을, 누적 음성 보정 시간(total_audio_delay)에 가산한다(ST106).

따라서 시스템 기동시에 초기치 0인 누적 음성 보정 시간(total_audio_delay)은, 시스템 동작중인 동안, 복수의 포즈 처리에 대해, 순서대로 스텝 ST106에서 누적 가산된다. 음성 보정 시간(a_diff)은 각 포즈 처리시에 보정되어야 할 음성 데이터의 어긋남분임에 대해, 누적 음성 보정 시간(total_audio_delay)는, 각 회의 음성 보정 시간(a_diff)을 가산한 누적치로 되기 때문에, 이것이 실제로 보정되어야 할 영상 데이터에 대한 음성 데이터 보정치로 된다.

스텝 ST107 이후는, 시스템 동작중 포즈 처리마다 누적되는 누적 음성 보정 시간(total_audio_delay)의 값에 의거하여, AV 동기의 어긋남을 어떻게 제어하는지, 구체적으로는 영상 데이터에 대한 음성 데이터의 어긋남을 보정하여야 하는지 의 여부 및 보정하는 경우는 음성 데이터와 영상 데이터의 어느 것을 지연시키는지에 관해 결정하는 처리이다.

우선, 스텝 ST107에서, 누적 음성 보정 시간(total_audio_delay)이 부, 즉 음성 데이터가 선행되어 있는 때에는, 누적 음성 보정 시간(total_audio_delay)에 영상 데이터의 1프레임 길이의 시간을 가산한(ST108) 다음, 실제로 영상 데이터의 재개를 1프레임 지연시키는 처리를 행한다. 영상 데이터의 재개를 1프레임 지연시키는 처리는, 영상 데이터의 프레임의 단락을 검출할 때까지 영상 데이터의 입력 재개를 기다림에 의해서 실현된다(ST109).

영상 프레임의 단락을 검출하면, 영상 데이터의 입력을 재개한다(ST110).

스텝 ST107에서, 누적 음성 보정 시간(total_audio_delay)이 부가 아닌 경우, 즉 음성 데이터가 같거나 지연되어 있는 때에는, 영상 데이터는 지연시키는 일 없이 그대로 입력을 재개하고(ST110), 스텝 ST111로 진행한다.

스텝 ST111에 있어서는, 정(正)인 누적 음성 보정 시간(total_audio_delay)이 1음성 데이터 프레임(audio_frame_time) 이상인 경우는, 음성 데이터의 재개를 지연시킬 필요가 있기 때문에, 스텝 ST112 이후로 진행한다.

누적 음성 보정 시간(total_audio_delay)가, 정이지만 1음성 데이터 프레임 미만인 경우는, 음성 데이터를 지연시키는 일 없이 재개시킨다(ST114).

스텝 ST112에서는, 누적 음성 보정 시간(total_audio_delay)에 음성 데이터의 1프레임 길이의 시간을 감산한(ST112) 다음, 실제로 음성 데이터의 재개를 1프레임 지연시키는 처리를 행한다. 이 음성 데이터의 재개를 1프레임 지연시키는 처 리는, 음성 데이터의 프레임의 단락을 검출할 때까지 음성 데이터의 입력 재개를 기다림에 의해서 실현된다(ST113).

음성 프레임의 단락을 검출하면, 음성 데이터의 입력을 재개한다(ST114).

다음에, 도 10의 스텝 ST104 및 ST105에서의 음성 보정 시간(a_diff)의 산출 방법에 관해, 도 11 및 도 12에 관련지어 설명한다.

도 11은, 포즈중 시프트 시간 측정중의 경우의 음성 보정 시간(a_diff)의 산출 방법을 도해한 타이밍 차트이다.

도 11에 도시한 타이밍 차트는, f_count 측정중 경우, 즉, 호스트(1)로부터 AV 제어부(21)에 대한 포즈 해제 요구(P_RL)가, 음성 데이터의 프레임의 단락부터 영상 데이터의 프레임의 단락 사이에 행하여졌기 때문에, 그 포즈 해제 요구 후에 구하여지는 프레임 시프트 시간(f_count)의 값을 이용하여, 음성 보정 시간(a_diff)을 산출하는 경우를 나타낸다.

이하, 도 11에 따라, 음성 보정 시간(a_diff)을 산출하기 위해, 도 10의 스텝 ST104에서 행하여지는 순서에 관해 설명한다.

AV 제어부(21)는, 호스트(1)로부터 포즈 해제 요구를 수취하면 영상의 프레임 주기에 맞추어서, 타이머(24)로부터 시각(t111)을 취득하고, 포즈 요구시에 보존하고 있던 pause_STC_offset를 기준으로 하여 STC_offset을 재설정한다.

또한, 시각(t111)의 타이밍에서, 프레임 시프트 시간(f_count)의 측정도 행하여진다.

여기서, a_delay는, 이미 기술한 바와 같이, 포즈시에 있어서의 음성 데이터와 영상 데이터의 시프트 시간인 음성 지연 시간이고, 포즈시에 산출하여 보존하고 있던 데이터이다. 또한, audio_frame_time은, 음성 데이터의 프레임 주기이다.

도 11에서 분명한 바와 같이, 하기식 (1)에 의해 음성 보정 시간(a_diff)을 구할 수 있다.

a_diff = a_delay + f_count - audio_frame_time … (1)

도 12는, 포즈중 시프트 시간 측정중이 아닌 경우의 음성 보정 시간(a_diff)의 산출 방법을 도해한 타이밍 차트이다.

도 12에 도시한 플로우 차트는, f_count 측정중 경우, 즉, 호스트(1)로부터 AV 제어부(21)에 대한 포즈 해제 요구가, 영상 데이터의 프레임의 단락부터 음성 데이터의 프레임의 단락 사이에 행하여졌기 때문에, 그 포즈 해제 요구 전에 구한 프레임 시프트 시간(f_count)을 이용하여, 음성 보정 시간(a_diff)을 산출하는 경우이다.

이하, 도 12에 따라, 음성 보정 시간(a_diff)을 산출하기 위해, 도 10의 스텝 ST105에서 행하여지는 순서에 관해 설명한다.

AV 제어부(21)가, 호스트(1)로부터 포즈 해제 요구를 수취하면, 영상의 프레임 주기에 맞추어서, 타이머(24)로부터 시각(t121)을 취득하고, 포즈 요구시에 보존하고 있던 pause_STC_offset을 기준으로 하여 STC_offset을 재설정한다.

여기서, a_delay는, 이미 기술한 바와 같이, 포즈시의 음성 데이터와 영상 데이터 시프트 시간인 포즈시 음성 지연 시간이고, 포즈시에 산출하여 보존하고 있던 데이터이다.

또한, audio_frame_time은, 음성 데이터의 프레임 주기이다.

video_frame_time은, 영상 데이터의 프레임 주기이다.

도 12에서 분명한 바와 같이, 하기식 (2)에 의해 음성 보정 시간(a_diff)을 구할 수 있다.

a_diff = a_delay + f_count - audio_frame_time + video_frame_time … (2)

다음에, 포즈 해제시에 있어서의 AV 동기의 어긋남을 해소하는 처리에 관해, 도 13 및 도 14를 이용하여 구체적으로 설명한다.

도 13은, 영상 데이터의 입력 재개를 1프레임 지연시키는 처리에 의해, AV 동기 어긋남을 해소하는 처리를 설명하기 위한 도면이다.

영상 데이터의 입력 재개를 지연시키는 제어는, 도 10의 포즈 해제시의 플로우 차트에 따라 이미 기술한 바와 같이, 누적 음성 보정 시간(total_audio_delay)이 부이기 때문에(ST107), AV 동기 어긋남의 보정을 행하고(ST108), 영상 데이터의 프레임의 단락을 찾을 때까지, 영상 데이터의 재개를 1프레임 지연시키는 처리를 행함(ST109)에 의해 실현된다.

도 13에 있어서, AV 제어부(21)가 호스트(1)로부터의 포즈 해제 요구를 수취하면, 영상 데이터의 프레임의 단락을 기다리고, 영상 데이터의 프레임의 단락을 검출하면(시각(t131)), 도 10의 처리 플로에 의거하여 누적 음성 보정 시간(total_audio_delay)을 산출한다. 이것이 부이기 때문에, 1영상 프레임 기다리고 나서 영상 데이터의 입력을 재개한다(시각(t132)).

도 14는, 음성 데이터의 입력 재개를 1프레임 지연시키는 처리에 의해, AV 동기 어긋남을 해소하는 처리를 설명하기 위한 도면이다.

음성 데이터의 입력 재개를 지연시키는 제어는, 도 10의 포즈 해제시의 플로우 차트를 참조하여 기술한 바와 같이, 누적 음성 보정 시간(total_audio_delay)이 1음성 프레임 이상인 경우에, AV 동기 어긋남의 보정을 행하고(ST112), 음성 데이터의 프레임의 단락을 찾을 때까지, 음성 데이터의 재개를 1프레임 지연시키는 처리를 행하는 처리(ST113)에 의해 실현된다.

도 14에서, AV 제어부(21)가, 호스트(1)로부터의 포즈 해제 요구를 수취하면, 영상 데이터의 프레임의 단락을 기다리고, 영상 데이터의 프레임의 단락을 검출하면(시각(t141)), total_audio_delay가 1음성 프레임을 초과하고 있기 때문에, 1음성 프레임 기다리고 나서 음성 데이터의 입력을 재개한다(시각(t142)).

도 10의 스텝 ST107 및 ST111로부터 분명한 바와 같이, total_audio_delay가 정이고 1음성 프레임을 초과하지 않는 경우는, 음성 데이터/영상 데이터의 입력 재개의 어느 것도 지연시키지 않는다. 이 경우는, 이때 포즈 처리에서 생긴 음성 데이터와 영상 데이터의 어긋남은, total_audio_delay에 축적되어 가게 된다.

다만, 음성 데이터/영상 데이터의 입력 재개의 어느 하나를 지연시켜서 AV 동기 어긋남의 해소가 행하여진 경우에도, 도 10의 스텝 ST108 및 ST112의 처리에 의해 누적 음성 보정 시간(total_audio_delay)은 0으로 되지 않기 때문에, 완전하게 AV 동기 어긋남이 해소되는 일은 없다.

그러나, 본 발명에 관한 AV 기록 장치에 의하면, 해당 AV 기록 장치가 동작중에, 누적 음성 보정 시간(total_audio_delay)이 항상 1음성 데이터 프레임 이내 로 수습되게 되기 때문에, 그 차가 시청자에게 인식되는 일은 없고, 충분히 AV 동기 어긋남을 해소하는 것이 가능해진다.

본 발명은, 음성 데이터와 영상 데이터를 동기시켜서 기록 또는 재생하는 장치에 적용 가능하다.

Claims

각각 다른 소정의 프레임 길이를 갖는 영상 데이터 및 음성 데이터에 대해 동기 처리를 행하는 음성/영상 동기 처리 장치에 있어서,

타이머 수단과,

상기 타이머 수단에 의해 계시(計時)된 상기 영상 데이터 및 음성 데이터의 각 프레임의 시작 시각, 포즈 요구의 시각 및 포즈 해제 요구의 시각을 기억하는 기억 수단과,

상기 영상 데이터와 음성 데이터의 각 프레임의 시작 시각, 상기 포즈 요구의 시각, 및 상기 포즈 해제 요구의 시각에 의거하여, 상기 포즈 해제 요구 후에 영상 데이터와 음성 데이터의 어느 하나를 프레임 단위로 지연시키는지, 또는 어느 것도 지연시키지 않는지를 결정하는 제어 수단을 가지며,

상기 제어수단은,

포즈 요구시에, 영상 데이터의 프레임의 단락을 기준으로 하여, 음성 데이터의 프레임의 지연 시간인 음성 지연 시간을 산출하고,

상기 포즈 요구 후에, 영상 데이터의 각 프레임의 시작 시각마다, 상기 영상 데이터에 대한 음성 데이터의 프레임 시작 시각의 차분인 프레임 시프트 시간을 모니터하고,

상기 음성 지연 시간과, 상기 포즈 요구에 대한 포즈 해제 요구시의 프레임 시프트 시간에 의거하여, 포즈중 시프트 시간 측정중의 경우에는 하기의 식(1)을 이용하고, 포즈중 시프트 시간 측정중이 아닌 경우에는 하기의 식(2)를 이용하여 음성 보정 시간을 산출하고,

음성 보정 시간= 포즈시 음성 지연 시간+프레임 시프트 시간-음성 데이터 프레임 주기 … (1)

음성 보정 시간= 포즈시 음성 지연 시간 + 프레임 시프트 시간- 음성 데이터 프레임 주기 + 영상 데이터 프레임 주기 … (2)

각 포즈 요구마다 산출한 음성 보정 시간을 누적한 누적 음성 보정 시간에 의거하여, 상기 포즈 해제 요구 후에 영상 데이터와 음성 데이터의 어느 하나를 프레임 단위로 지연시키는지, 또는 어느 것도 지연시키지 않는지를 결정하는 것을 특징으로 하는 음성/영상 동기 처리 장치.
삭제
제 1항에 있어서,

상기 제어 수단은,

상기 누적 음성 보정 시간이 부인 경우 음성 데이터가 영상 데이터에 대해 선행되어 있다고 판단하여, 상기 포즈 해제 요구가 반영되는 영상 데이터의 프레임의 다음 프레임의 단락을 찾을 때까지 영상 데이터의 재개를 1프레임분 지연시키는 것을 특징으로 하는 음성/영상 동기 처리 장치.
제 1항에 있어서,

상기 제어 수단은,

상기 누적 음성 보정 시간이 정인 경우 음성 데이터가 영상 데이터에 대해 1프레임분 이상 지연되어 있다고 판단하여, 상기 포즈 해제 요구가 반영되는 음성 데이터의 프레임의 다음 프레임의 단락을 찾을 때까지 음성 데이터의 재개를 1프레임분 지연시키는 것을 특징으로 하는 음성/영상 동기 처리 장치.
각각 다른 소정의 프레임 길이를 갖는 영상 데이터 및 음성 데이터에 대해 동기 처리를 행하는 음성/영상 동기 처리 방법에 있어서,

포즈 요구시에, 영상 데이터의 프레임의 단락을 기준으로 하여, 음성 데이터의 프레임의 지연 시간인 음성 지연 시간을 산출하는 스텝과,

상기 포즈 요구 후에, 영상 데이터의 각 프레임의 시작 시각마다, 상기 영상 데이터에 대한 음성 데이터의 프레임 시작 시각의 차분인 프레임 시프트 시간을 모니터하는 스텝과,

포즈 해제 요구시에, 상기 음성 지연 시간과 상기 프레임 시프트 시간에 의거하여, 포즈중 시프트 시간 측정중의 경우에는 하기의 식(1)을 이용하고, 포즈중 시프트 시간 측정중이 아닌 경우에는 하기의 식(2)를 이용하여 음성 보정 시간을 산출하는 스텝과,

음성 보정 시간= 포즈시 음성 지연 시간+프레임 시프트 시간-음성 데이터 프레임 주기 … (1)

음성 보정 시간= 포즈시 음성 지연 시간 + 프레임 시프트 시간- 음성 데이터 프레임 주기 + 영상 데이터 프레임 주기 … (2)

상기 음성 보정 시간을 누적한 누적 음성 보정 시간에 의거하여, 상기 포즈 해제 요구 후에 영상 데이터와 음성 데이터의 어느 하나를 프레임 단위로 지연시키는지, 또는 어느 것도 지연시키지 않는지를 결정하는 스텝을 갖는 것을 특징으로 하는 음성/영상 동기 처리 방법.
제 5항에 있어서,

상기 누적 음성 보정 시간이 부인 경우 음성 데이터가 영상 데이터에 대해 선행되어 있다고 판단하여, 상기 포즈 해제 요구가 반영되는 영상 데이터의 프레임의 다음 프레임의 단락을 찾을 때까지 영상 데이터의 재개를 1프레임분 지연시키는 것을 특징으로 하는 음성/영상 동기 처리 방법.
제 5항에 있어서,

상기 누적 음성 보정 시간이 정인 경우 음성 데이터가 영상 데이터에 대해 1프레임분 이상 지연되어 있다고 판단하여, 상기 포즈 해제 요구가 반영되는 음성 데이터의 프레임의 다음 프레임의 단락을 찾을 때까지 음성 데이터의 재개를 1프레임분 지연시키는 것을 특징으로 하는 음성/영상 동기 처리 방법.
각각 다른 소정의 프레임 길이를 갖는 영상 데이터 및 음성 데이터를 포함하는 다중화 데이터를 생성하는 음성/영상 기록 장치에 있어서,

타이머 수단과,

상기 타이머 수단에 의해 계시된 상기 영상 데이터 및 음성 데이터의 각 프레임의 시작 시각, 포즈 요구의 시각, 및 포즈 해제 요구의 시각을 기억하는 기억 수단과,

상기 영상 데이터와 음성 데이터의 각 프레임의 시작 시각, 상기 포즈 요구의 시각, 및 상기 포즈 해제 요구의 시각에 의거하여, 상기 포즈 해제 요구 후의 음성 데이터의 동기 처리를 프레임 단위로 행하는 동기 제어 수단과,

영상 데이터, 및 상기 동기 제어 수단에 의해 동기 처리된 음성 데이터에 대해, 시간 정보를 부가하여 상기 다중화 데이터를 생성하는 다중화 데이터 생성 수단을 가지며,

상기 동기 제어 수단은,

포즈 요구시에, 영상 데이터의 프레임의 단락을 기준으로 하여, 음성 데이터의 프레임의 지연 시간인 음성 지연 시간을 산출하고,

상기 포즈 요구 후에, 영상 데이터의 각 프레임의 시작 시각마다, 상기 영상 데이터에 대한 음성 데이터의 프레임 시작 시각의 차분인 프레임 시프트 시간을 모니터하고,

상기 음성 지연 시간과, 상기 포즈 요구에 대한 포즈 해제 요구시의 프레임 시프트 시간에 의거하여, 포즈중 시프트 시간 측정중의 경우에는 하기의 식(1)을 이용하고, 포즈중 시프트 시간 측정중이 아닌 경우에는 하기의 식(2)를 이용하여 음성 보정 시간을 산출하고,

음성 보정 시간= 포즈시 음성 지연 시간+프레임 시프트 시간-음성 데이터 프레임 주기 … (1)

음성 보정 시간= 포즈시 음성 지연 시간 + 프레임 시프트 시간- 음성 데이터 프레임 주기 + 영상 데이터 프레임 주기 … (2)

각 포즈 요구마다 산출한 음성 보정 시간을 누적한 누적 음성 보정 시간에 의거하여, 상기 포즈 해제 요구 후에 영상 데이터와 음성 데이터의 어느 하나를 프레임 단위로 지연시키는지, 또는 어느 것도 지연시키지 않는지를 결정하는 것을 특징으로 하는 음성/영상 기록 장치.