KR20070003958A

KR20070003958A - 음성 재생 장치, 음성 재생 방법 및 프로그램

Info

Publication number: KR20070003958A
Application number: KR1020067019351A
Authority: KR
Inventors: 가즈오 후지모토; 도모유키 오카다; 다로 가타야마
Original assignee: 마쯔시다덴기산교 가부시키가이샤
Priority date: 2004-04-06
Filing date: 2005-04-05
Publication date: 2007-01-05
Also published as: EP1734527A4; US7877156B2; US20080037151A1; WO2005098854A1; JPWO2005098854A1; CN100505064C; CN1942962A; EP1734527A1; KR100762608B1; JP3892478B2

Abstract

본 발명은, 복수의 디지털의 음성 신호를 동기시켜 재생하는 음성 재생 장치를 제공한다.

음성 재생 장치는, 1개의 시간축 상에, 복수의 음성 신호 각각의 복수의 오디오 재생 시각 정보를, 음성 신호마다 인접하는 오디오 재생 시각 정보 각각이 나타내는 재생 시각의 차를 유지한 상태로 할당함으로써, 복수의 음성 신호를 동기시키는 동기 설정부(11)와, 상기 시간축 상에 할당된 복수의 오디오 재생 시각 정보를 이용하여, 복수의 음성 신호를 합성하는 음성 합성부(6)를 구비한다.

Description

음성 재생 장치, 음성 재생 방법 및 프로그램{AUDIO REPRODUCING APPARATUS, AUDIO REPRODUCING METHOD, AND PROGRAM}

본 발명은, 압축 부호화된 디지털의 음성 신호를 재생하는 음성 재생 장치에 관한 것이다.

최근 CD-ROM이나, DVD-ROM, 하드 디스크 등의 각종 기록 매체에 압축되어 기록된 디지털의 오디오 신호 및 비디오 신호를 읽어내어 신장하고, 신장한 신호를, 자신에게 접속되어 있는 디스플레이 및 스피커 등을 통해 재생하는 재생 장치가 널리 보급되고 있다.

또, BS 디지털 방송, CS 디지털 방송, 지상 디지털 방송 등의 압축된 디지털의 오디오 신호 및 비디오 신호를 기록하여 재생하는 장치도 보급되어 왔다.

오디오 신호 및 비디오 신호를 디지털 신호로 부호화하여 압축하고, 그 후에 그 신호를 복호하기 위한 기지(旣知)의 규격으로서, MPEG가 알려져 있다. MPEG에서는, 다중화되어 압축 부호화된 오디오 신호와 비디오신호를 디코드한 후에 오디오 신호와 비디오 신호를 동기시켜 재생하기 위해서, 오디오 신호 및 비디오 신호 각각은, 부호시에, 신호의 재생 및 표시를 실행하는 시각의 정보(이하, "시각 정보"라고 한다)가 부가되어 압축된다. 이에 의해, 압축 부호화된 디지털의 오디오 신호 및 비디오 신호를 신장하는 경우, 재생 장치는, 자신이 갖는 시스템 시각 기준 참조치를 기준으로 해서, 시각 정보를 참조하여 오디오 신호와 비디오 신호를 동기시키면서 재생한다.

이하에, 종래의 재생 방법에 관해 설명한다. 또한, 출원인은, 특허 문헌 1에 개시되어 있는 화상 및 음성의 재생 방법을 인식하고 있으며, 본 발명의 과제를 명확히 하기 위해서, 특허 문헌 1에 개시되어 있는 재생 방법을 종래예로서 간단히 설명한다. 그 방법에서는, 촬영시의 앵글이 다른 제1 및 제2 화상을 재생하기 위해서, 각각의 앵글에 대응하는 비디오 신호를 서로 다른 동화상 복호 수단에 입력하여 복호하고, 따로따로 복호된 화상을 결합하여 하나의 화면에 표시한다. 오디오 신호에 대해서도 동일하게 하여, 복수의 오디오 신호를 서로 다른 음성 복호 수단으로 동시에 복호하여 재생한다.

이하에, 종래의 음성의 재생 방법에 관해 도 1을 사용해 설명한다. 도 1은, 그 재생 방법을 행하는 듀얼 오디오 디코더(183)의 구성을 도시한 블록도이다. 도 1을 참조하여, 듀얼 오디오 디코더(183)의 구체적인 구성을 설명한다. 듀얼 오디오 디코더(183)에는, 제1 오디오 디코더(183a) 및 제2 오디오 디코더(183b)와, 제1 음성 선택 회로(183c) 및 제2 음성 선택 회로(183d)가 설치되어 있다. 예를 들면, 일본어와 영어의 2개의 오디오 신호를 동시에 재생하는 경우, 일본어 음성의 신호인 제1 오디오 신호는 제1 오디오 디코더(183a)에 입력되어, 거기서 디코드된다. 그와 동시에, 영어 음성의 신호인 제2 오디오 신호는 제2 오디오 디코더(183b)에 입력되어, 거기서 디코드된다.

이들 디코드된 제1 및 제2 오디오 신호는, 제1 음성 선택 회로(183c) 및 제2 음성 선택 회로(183d)에 의해 처리된다. 예를 들면, 음성의 출력 채널이 좌우 1채널씩인 경우, 제1 및 제2 오디오 신호는, 각각이 모노럴로 1채널씩 출력하도록 처리된다. 또는, 제1 및 제2 중 어느 한쪽만의 오디오 신호가 2채널 스테레오로 출력하도록 처리된다. 또, 음성의 출력 채널이 좌우 1채널씩보다도 많은 경우, 제1 및 제2 오디오 신호는, 스테레오와 모노럴의 조합 등으로 출력하도록 처리된다.

또한, 돌비 디지털 방식의 5+1채널 구성의 오디오 데이터에 대해서는, 제1 음성 선택 회로(183c) 및 제2 음성 선택 회로(183d)는, 출력 가능한 5+1채널에 대해, 스테레오 2채널씩을 출력하거나, 한쪽의 오디오 데이터의 5+1채널만을 선택하여 출력하거나 할 수 있다.

특허 문헌 1 : 일본 특개평 10-145735호 공보(10-11페이지, 도 4, 도 8, 도 9)

특허 문헌 1은, 복수의 앵글로부터의 데이터를, 복수의 동화상 복호 수단으로 복호하여, 그들을 영상 데이터 결합 수단에 의해 결합하여 표시하는 방법에 관해 설명하고 있다. 또, 특허 문헌 1은, 동화상 데이터에 언어가 다른 복수의 음성 데이터가 부가되어 있는 경우, 각각의 음성 데이터를 복수의 음성 복호 수단으로 복호하여, 각각을 혼합하여 재생하는 방법, 및 어느 하나를 선택하여 재생하는 방법에 관해 설명하고 있다.

그러나 특허 문헌 1에서는, 2종류의 데이터를 혼합하기 위한 상세한 실현 수단이나, 재생의 동기를 확립하는 수단에 대해서는 구체적으로 언급되어 있지 않다. 음성만에 한정해도, 재생하는 2종류의 음성 데이터의 샘플링 레이트가 다른 경우의 혼합 방법이나, 각 음성 데이터의 혼합비, 서라운드 음성과 스테레오 음성처럼 채널 수가 다른 음성 데이터의 혼합 방법, 혼합 구간, 각각의 음성 데이터의 동기 맞춤 방법에 관해, 아무런 설명이 없다.

예를 들면, 재생하고자 하는 음성이 DVD의 멀티 음성이었다고 해도, 제1 음성이 돌비 디지털 방식으로 압축 부호화되고, 제2 음성이 리니어 PCM으로 부호화되어 있는 경우, 제1 음성을 샘플링 레이트 48KHz로 5.1ch의 서라운드 음성으로, 제2 음성을 96KHz로 2ch의 스테레오 음성으로 혼합하기 위해서는, 어느 한쪽의 샘플링 레이트에 일치시키는 처리나, 혼합할 곳을 설정하기 위한 처리가 필요하다.

어째튼, 복수의 디지털의 음성 신호를 합성하여 재생하는 경우, 복수의 음성신호를 동기시켜 재생할 필요가 있는데, 지금까지는 그것을 실현하는 수단이 존재하지 않는다.

본 발명은, 상기 과제를 고려하여, 복수의 디지털의 음성 신호를 동기시켜 재생하는 음성 재생 장치를 제공하는 것을 목적으로 한다.

제1의 본 발명의 음성 재생 장치는, 음성 신호를 재생하여 출력하는 장치로서, 1개의 시간축 상에, 복수의 음성 신호 각각의 복수의 오디오 재생 시각 정보를, 음성 신호마다 인접하는 상기 오디오 재생 시각 정보 각각이 나타내는 재생 시각의 차를 유지한 상태로 할당함으로써, 상기 복수의 음성 신호를 동기시키는 동기 수단과, 상기 시간축 상에 할당된 복수의 상기 오디오 재생 시각 정보를 이용하여, 상기 복수의 음성 신호를 합성하는 합성 수단을 구비한다. 이렇게, 본 발명의 음성 재생 장치는, 1개의 시간축 상에, 복수의 음성 신호 각각의 복수의 오디오 재생 시각 정보를 할당하므로, 복수의 디지털의 음성 신호를 동기시켜 재생할 수 있다.

제2의 본 발명의 음성 재생 장치는, 상기 시간축이, 상기 복수의 음성 신호 중의 어느 한 음성 신호의 복수의 상기 오디오 재생 시각 정보에 의해 특정되는 시간축이고, 상기 동기 수단이, 상기 어느 한 음성 신호의 상기 오디오 재생 시각 정보에 의해 특정되는 시간축 상에, 다른 음성 신호의 상기 복수의 오디오 재생 시각 정보를 할당하는 장치이다. 이렇게, 다른 음성 신호의 오디오 재생 시각 정보를, 주된 음성 신호의 오디오 재생 시각 정보에 맞춤으로써, 복수의 음성을 동기시킬 수 있다.

제3의 본 발명의 음성 재생 장치는, 상기 시간축이, 가변속 재생되고 있는 상기 어느 한 음성 신호의 복수의 상기 오디오 재생 시각 정보에 의해 특정되는 시간축인 장치이다. 이것은, 가변속 재생의 경우에 있어서도, 가변속 재생되고 있는 음성 신호의 오디오 재생 시각 정보를 이용하여 디코드함으로써, 복수의 음성 신호를 동기시킬 수 있다고 하는 작용을 갖는다.

제4의 본 발명의 음성 재생 장치는, 상기 복수의 음성 신호는 비디오 신호로 다중화되어 있고, 상기 시간축이, 상기 비디오 신호의 복수의 비디오 재생 시각 정보에 의해 특정되는 시간축이고, 상기 동기 수단이, 상기 비디오 재생 시각 정보에 의해 특정되는 시간축 상에, 상기 복수의 음성 신호 각각의 상기 복수의 오디오 재생 시각 정보를 할당하는 장치이다. 이것은, 재생 영상의 출력에 맞춰, 음성 동기를 도모한다는 작용을 갖는다.

제5의 본 발명의 음성 재생 장치는, 상기 시간축이, 가변속 재생되고 있는 상기 비디오 신호의 비디오 재생 시각 정보에 의해 특정되는 시간축인 장치이다. 이것은, 스킵 재생한 영상 출력에 맞춰, 스킵 시점에서의 재생 영상에 대해 음성 동기를 도모한다는 작용을 갖는다.

제6의 본 발명의 음성 재생 장치는, 상기 시간축이, 가변속하고 있는 시스템시각 기준 참조 신호에 의해 특정되는 시간축인 장치이다. 이것은, 시스템 전체의 기준이 되는 시스템 시각 기준 참조 신호를 가변으로 함으로써, 영상과 음성의 동기를 도모한다는 작용을 갖는다.

제7의 본 발명의 음성 재생 장치는, 상기 복수의 음성 신호 중의 어느 한 음성 신호의 샘플링 레이트에 맞춰, 다른 음성 신호의 샘플링 레이트를 변환하는 샘플링 레이트 변환 수단을 더 구비하고, 상기 합성 수단은, 상기 어느 한 음성 신호와, 상기 샘플링 레이트 변환 수단에 의해 변환된 상기 다른 음성 신호를 합성하는 장치이다. 이에 의해, 복수의 음성을 1개의 음성의 샘플링 레이트에 맞춘 재생이 가능해진다. 콘텐츠 그 자체에 주음성인지, 코멘터리 등의 부음성인지의 종별이 기록되어 있는 경우, 예를 들면 주음성의 샘플링 레이트에 맞춰 복수의 음성을 재생하면, 코멘터리 등의 부음성의 유무에 관계없이, 사용자는 일정한 샘플링 레이트로 복수의 음성을 청취할 수 있다.

제8의 본 발명의 음성 재생 장치는, 상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 연속한 음성 재생 구간이 가장 긴 음성 신호인 장치이다. 코멘터리 등의 부음성은 특정 장면의 해설 등, 주음성을 보조할 목적으로 삽입되는 경우가 있으며, 주음성에 대해 음성 재생 구간이 짧은 것이 상정된다. 그 때문에, 재생 구간이 긴 쪽을 선택하면, 도중에 샘플링 레이트를 변경하는 회수를 감소시킬 수 있다.

제9의 본 발명의 음성 재생 장치는, 상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 음성 재생 구간의 간헐이 가장 적은 음성 신호인 장치이다. 예를 들면, 음성 재생 구간의 간헐이 가장 적은 음성 신호를 주로 해서, 장면마다 간헐적인 코멘터리 재생 구간을 갖는 음성을 재생하는 경우, 간헐적인 음성 신호의 샘플링 레이트를, 간헐이 가장 적은 음성 신호(간헐이 없는 음성 신호를 포함한다)에 맞추도록 레이트 변환하면, 도중에 샘플링 레이트를 변경하는 회수를 감소시킬 수 있다.

제10의 본 발명의 음성 재생 장치는, 상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 가장 높은 샘플링 레이트를 갖는 음성 신호인 장치이다. 이것은, 고음질의 음성은 그대로 두고, 다른 음성의 업 샘플링을 행해, 음질을 가능한 한 유지한다고 하는 작용을 갖는다.

제11의 본 발명의 음성 재생 장치는, 상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 가장 낮은 샘플링 레이트를 갖는 음성 신호인 장치이다. 이것은, 음성 출력을 위한 전송 대역이 한정되어 있는 경우 등, 낮은 샘플링 레이트에 맞춰 변환함으로써, 음성을 전송하는 데이터량을 줄이는 작용을 갖는다.

제12의 본 발명의 음성 재생 장치는, 상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 샘플링 레이트가 변하지 않는 음성 신호인 장치이다. 도중에 샘플링 레이트가 변경되면, 레이트 재생의 변화점에서 음성 뮤트가 필요한 경우가 있다. 이것은, 레이트 변경되지 않는 쪽을 주로 선택하여, 음성의 연속 재생을 유지한다는 작용을 갖는다.

제13의 본 발명의 음성 재생 장치는, 상기 복수의 음성 신호 중의 어느 한 음성 신호에 다른 음성 신호를 가산함으로써 상기 복수의 음성 신호를 합성하는 경우, 상기 어느 한 음성 신호의 재생 출력 레벨을, 상기 다른 음성 신호를 가산하는 부분만 줄이는 출력 레벨 조정 수단을 더 구비한다. 이에 의해, 가산되는 측의 음성을 강조하여 들을 수 있다. 예를 들면, 합성한 해설 음성을 주의깊게 듣고싶을 때 등, 해설 음성의 재생 음성 레벨을 높게 하고, 주음성의 재생 음성 레벨을 줄인다는 작용을 갖는다.

제14의 본 발명의 음성 재생 장치는, 상기 출력 레벨 조정 수단은, 상기 어느 한 음성 신호에 대해 상기 다른 음성 신호를 합성하는 경우로서, 이용자에 의해 상기 다른 음성 신호의 재생 출력 레벨이 보다 크게 설정되었을 때, 상기 어느 한 음성 신호의 재생 출력 레벨을, 상기 다른 음성 신호의 재생 출력 레벨의 증가분 줄이는 장치이다. 이것은, 한쪽을 증가시키면서, 다른 쪽을 그대로의 음량으로 가산하면, 가산 음성의 일부에서 음성 클리핑 등의 음성 왜곡이 발생하여, 대단히 듣기 힘든 음성이 되는 것을 방지한다는 작용이 있다.

제15의 본 발명의 음성 재생 장치는, 상기 복수의 음성 신호 중의 어느 한 음성 신호의 재생 신호 채널 수에 맞춰, 다른 음성 신호의 재생 신호 채널 수를 통합 또는 분배하는 통합 분배 수단을 더 구비한다. 이것은, 서로의 재생 신호의 재생 채널 수가 다르더라도, 음성 왜곡을 일으키지 않고, 특정한 음성 신호의 채널로의 가산을 실현한다는 작용을 갖는다.

제16의 본 발명의 음성 재생 장치는, 상기 음성 재생 장치에 접속되는 음성 출력 장치의 채널 수에 맞춰, 각 상기 음성 신호의 재생 신호 채널수를 통합 또는 분배하는 통합 분배 수단을 더 구비한다. 이것은, 이용자의 음성 출력 장치의 채널 수(예를 들면, 스피커 접속 수)에 맞춰, 재생 신호 채널 수를 통합 또는 분배하여, 음성 합성을 도모한다.

제17의 본 발명의 음성 재생 장치는, 상기 통합 분배 수단은, 이용자에 의한 상기 음성 출력 장치의 음성 출력 지정 채널에 맞춰, 각 상기 음성 신호의 재생 신호 채널 수를 통합 또는 분배하는 장치이다. 이것은, 이용자의 음성 출력 장치 중, 재생하고 싶은 채널 수(예를 들면, 스피커 접속 수)에 맞춰, 재생 신호 채널 수를 통합 또는 분배하여, 합성을 도모한다.

또, 본 발명은, 본 발명의 음성 재생 장치의 특징적인 구성 수단을 단계로 하는 음성 재생 방법으로서 실현하거나, 그들 단계를 컴퓨터에 실행시키는 프로그램으로서 실현할 수도 있다. 프로그램은, CD-ROM 등의 기록 매체나 통신 네트워크 등의 전송 매체를 통해 유통시킬 수도 있다.

(발명의 효과)

본 발명은, 복수의 디지털의 음성 신호를 동기시켜 재생하는 음성 재생 장치를 제공할 수 있다. 즉, 본 발명의 음성 재생 장치는, 샘플링 레이트나, 부호화 방식이 다른 복수의 음성 신호의 혼합, 및 가변 속도 재생에 있어서의 복수의 음성 신호의 동기 재생을 실행할 수 있다.

도 1은, 종래의 음성 재생 방법을 행하는 듀얼 오디오 디코더의 구성도이다.

도 2는, 실시형태 1에 있어서의 화상 음성 재생 장치의 구성을 도시한 블록도이다.

도 3은, 실시형태 1에 있어서의 영상과 음성의 동기 재생 방법을 도시한 흐름도이다.

도 4는, 실시형태에 있어서의 음성 재생 데이터의 격납 방법을 설명하기 위한 도면이다.

도 5는, 실시형태에 있어서의 복수의 화상을 겹친 예를 도시한 도면이다.

도 6은, 실시형태에 있어서의 본편의 영상 및 코멘터리 영상이 비춰지는 시간적인 관계의 일례를 도시한 도면이다.

도 7은, 실시형태 1 및 4에 있어서의, 본편의 영상에 대해 코멘터리 영상을 겹치는 화상 재생 장치의 구성을 도시한 블록도이다.

도 8은, 각 실시형태에 있어서의 주음성과 부음성을 겹치는 음성 재생 장치의 구성도이다.

도 9는, 주음성의 오디오 재생 시각 정보와 부음성의 오디오 재생 시각 정보의 관계를 도시한 도면이다.

도 10은, 주음성 및 부음성의 음성 스트림에, 오디오 재생 시각 정보가 부가 되어 있는 모양을 도시한 도면이다.

도 11은, 실시형태 1에 있어서의 음성 가산 방법을 설명하기 위한 가산 출력부의 구성예를 도시한 도면이다.

도 12는, 실시형태 1의 음성 재생 장치와 외부 접속 기기의 접속을 설명하기 위한 도면이다.

도 13은, 음성의 통합을 설명하기 위한 도면이다.

도 14는, 음성의 분배를 설명하기 위한 도면이다.

도 15는, 실시형태 1의 음성 재생 장치와 외부 접속 기기의 접속을 설명하기 위한 도면이다.

도 16은, 주음성이 종료한 후에도 부음성이 아직 종료하지 않은 모양을 도시한 도면이다.

도 17은, 효과음이 주음성에 합성되는 모양을 도시한 도면이다.

도 18은, 음성 신호의 합성 및 통합을 설명하기 위한 도면이다.

도 19는, 복수의 음성 신호가 기록되어 있는 DVD를 도시한 도면이다.

도 20은, 실시형태 2에 있어서의, 가변 속도 처리의 전 또는 후에 주음성에 부음성을 가산하여 음성 합성하는 처리를 도시한 흐름도이다.

도 21은, 실시형태 2 및 3에 있어서의 오디오 출력 처리부에 의해 가변속 제어를 행하는 방법을 설명하기 위한 블록도이다.

도 22는, 실시형태 2의 오디오 가변속 처리의 원리를 설명하기 위한 도면이다.

도 23은, 실시형태 4에 있어서의 복수 영상의 동기 재생 방법을 도시한 흐름도이다.

(부호의 설명)

1…입력부 2…오디오 버퍼부 A

3…오디오 버퍼부 B 4…오디오 디코더부 A

5…오디오 디코더부 B 6…음성 합성부

7…레이트 변환부 8…가산비 처리부 A

9…가산비 처리부 B 10…가산 출력부

이하에, 본 발명을 실시하기 위한 최선의 형태에 관해, 도면을 사용해 설명한다.

(실시형태 1)

먼저, 실시형태 1에 있어서의 화상 음성 재생 장치의 구성을 도시한 블록도인 도 2를 주로 참조하면서, 실시형태 1의 화상 음성 재생 장치의 구성, 및 화상 재생 방법 및 음성 재생 방법에 관해 설명한다. 또한, 본 발명은 복수의 디지털의 음성 신호를 동기시켜 재생하는 기술에 관한 발명인데, 그 기술을 상세히 설명하기 전에, 비디오 신호와 오디오 신호가 다중화된 신호를 재생하는 기술에 관해 설명한다.

도 2는 실시형태 1에 있어서의 화상 음성 재생 장치의 구성을 도시한 블록도이다. 실시형태 1에 있어서의 화상 음성 재생 장치는, 비디오 신호와 오디오 신호 가 다중화된 신호를 재생하는 장치로서, 도 2에 도시한 바와 같이, 입력부(1)와, 비디오 버퍼부 A(102)와, 비디오 버퍼부 B(103)와, 비디오 디코드부 A(104)와, 비디오 디코드부 B(105)와, 화상 합성부(106)와, 오디오 버퍼부 A(2)와, 오디오 버퍼부 B(3)와, 오디오 디코드부 A(4)와, 오디오 디코드부 B(5)와, 음성 합성부(6)로 구성되어 있다.

비디오 버퍼부 A(102), 비디오 버퍼부 B(103), 비디오 디코드부 A(104), 비디오 디코드부 B(105), 및 화상 합성부(106)는, 비디오 신호를 처리하는 구성부이다. 오디오 버퍼부 A(2), 오디오 버퍼부 B(3), 오디오 디코드부 A(4), 오디오 디코드부 B(5), 및 음성 합성부(6)는, 오디오 신호를 처리하는 구성부이다.

입력부(1)는, 각종 부호화 방식으로 부호화된 콘텐츠나, 디지털 방송 등의 압축 부호화된 디지털의 오디오 신호 및 비디오 신호를 격납하는 광 디스크 등의 데이터 기록 장치 등(도시 생략)으로부터의, 다중화되어 있는 오디오 신호 및 비디오 신호의 공급을 받는 구성부이다. 또, 입력부(1)는, 다중화되어 있는 오디오 신호 및 비디오 신호를 비디오 신호와 오디오 신호로 분리하여, 비디오 신호로부터 비디오 재생 시각 정보를 추출하고, 오디오 신호로부터 오디오 재생 시각 정보를 추출한다. 실시형태 1에서는, 입력부(1)에 입력되는 비디오 신호 및 오디오 신호는, 각각 2채널의 신호라고 가정한다. 따라서, 입력부(1)는, 다중화되어 있는 오디오 신호 및 비디오 신호를, 채널마다 비디오 신호와 오디오 신호로 분리한다.

다음에, 비디오 신호를 처리하는, 비디오 버퍼부 A(102), 비디오 버퍼부 B(103), 비디오 디코드부 A(104), 비디오 디코드부 B(105), 및 화상 합성부(106) 각각에 대해 설명한다.

비디오 버퍼부 A(102)는, 입력부(1)에 의해 분리된 제1 채널의 비디오 신호를 격납하는 구성부이다. 비디오 버퍼부 A(102)는, 제1 채널의 비디오 신호 중의 비디오 재생 시각 정보를 격납하는 비디오 재생 시각 정보 관리부 A(121)와, 제1 채널의 비디오 신호 중의 압축된 비디오 데이터를 격납하는 압축 비디오 버퍼부 A(122)로 구성되어 있다. 비디오 재생 시각 정보 관리부 A(121)는, 제1 채널의 압축 비디오 데이터와 비디오 재생 시각 정보를 관련짓는 테이블을 갖고 있다.

비디오 버퍼부 B(103)는, 입력부(1)에 의해 분리된 제2 채널의 비디오 신호를 격납하는 구성부이다. 비디오 버퍼부 B(103)는, 제2 채널의 비디오 신호 중의 비디오 재생 시각 정보를 격납하는 비디오 재생 시각 정보 관리부 B(131)와, 제2 채널의 비디오 신호 중의 압축된 비디오 데이터를 격납하는 압축 비디오 버퍼부 B(132)로 구성되어 있다. 비디오 재생 시각 정보 관리부 B(131)는, 제2 채널의 압축 비디오 데이터와 비디오 재생 시각 정보를 관련짓는 테이블을 갖고 있다.

비디오 디코드부 A(104)는, 압축 비디오 버퍼부 A(122)에 격납되어 있는 제1 채널의 압축 비디오 데이터의 속성 정보(비디오 헤더 정보)를 해석하여, 압축 비디오 데이터를, 비디오 재생 시각 정보 관리부 A(121)에 격납되어 있는 비디오 재생 시각 정보에 따라서 신장하는 구성부이다. 비디오 디코드부 A(104)는, 신장한 비디오 데이터를 격납하는 프레임 버퍼부 A(141)를 갖고 있다.

비디오 디코드부 B(105)는, 압축 비디오 버퍼부 B(132)에 격납되어 있는 제2 채널의 압축 비디오 데이터의 속성 정보(비디오 헤더 정보)를 해석하여, 압축 비디 오 데이터를, 비디오 재생 시각 정보 관리부 B(131)에 격납되어 있는 비디오 재생 시각 정보에 따라서 신장하는 구성부이다. 비디오 디코드부 B(105)는, 신장한 비디오 데이터를 격납하는 프레임 버퍼부 B(151)를 갖고 있다.

화상 합성부(106)는, 비디오 디코드부 A(104) 및 비디오 디코드부 B(105)에 의해 신장된 각 비디오 데이터를 합성하여 외부의 표시부에 출력하는 구성부이다.

다음에, 오디오 신호를 처리하는, 오디오 버퍼부 A(2), 오디오 버퍼부 B(3), 오디오 디코드부 A(4), 오디오 디코드부 B(5), 및 음성 합성부(6) 각각에 대해 설명한다.

오디오 버퍼부 A(2)는, 입력부(1)에 의해 분리된 제1 채널의 오디오 신호를 격납하는 구성부이다. 오디오 버퍼부 A(2)는, 제1 채널의 오디오 신호 중의 압축된 오디오 데이터를 격납하는 압축 오디오 버퍼부 A(21)와, 제1 채널의 오디오 신호 중의 오디오 재생 시각 정보를 격납하는 오디오 재생 시각 정보 관리부 A(22)로 구성되어 있다. 오디오 재생 시각 정보 관리부 A(22)는, 제1 채널의 압축 오디오 데이터와 오디오 재생 시각정보를 관련짓는 테이블을 갖고 있다.

오디오 버퍼부 B(3)는, 입력부(1)에 의해 분리된 제2 채널의 오디오 신호를 격납하는 구성부이다. 오디오 버퍼부 B(3)는, 제2 채널의 오디오 신호 중의 압축된 오디오 데이터를 격납하는 압축 오디오 버퍼부 B(31)와, 제2 채널의 오디오 신호 중의 오디오 재생 시각 정보를 격납하는 오디오 재생 시각 정보 관리부 B(32)로 구성되어 있다. 오디오 재생 시각 정보 관리부 B(32)는, 제2 채널의 압축 오디오 데이터와 오디오 재생 시각 정보를 관련짓는 테이블을 갖고 있다.

오디오 디코드부 A(4)는, 압축 오디오 버퍼부 A(21)에 격납되어 있는 제1 채널의 압축 오디오 데이터의 속성 정보(비디오 헤더 정보)를 해석하여, 압축 오디오 데이터를, 오디오 재생 시각 정보 관리부 A(22)에 격납되어 있는 오디오 재생 시각 정보에 따라서 신장하는 구성부이다. 오디오 디코드부 A(4)는, 신장한 오디오 데이터를 격납하는 PCM 버퍼부 A(41)를 갖고 있다.

오디오 디코드부 B(5)는, 압축 오디오 버퍼부 B(31)에 격납되어 있는 제2 채널의 압축 오디오 데이터의 속성 정보(비디오 헤더 정보)를 해석하여, 압축 오디오 데이터를, 오디오 재생 시각 정보 관리부 B(32)에 격납되어 있는 오디오 재생 시각 정보에 따라서 신장하는 구성부이다. 오디오 디코드부 B(5)는, 신장한 오디오 데이터를 격납하는 PCM 버퍼부 B(51)를 갖고 있다.

음성 합성부(6)는, 오디오 디코드부 A(4) 및 오디오 디코드부 B(5)에 의해 신장된 각 오디오 데이터를 합성하여 외부의 스피커에 출력하는 구성부이다.

MPEG에서는, 비디오 데이터와 오디오 데이터를 동기시켜 출력하기 위해서, 비디오 신호 및 오디오 신호에는, 액세스 유닛이라 불리는 복호 및 재생의 단위마다(비디오 데이터의 경우는 1프레임마다, 오디오 데이터의 경우는 1오디오 프레임마다), 그 단위를 언제 복호 및 재생해야 하는지를 나타내는 타임 스탬프 정보가 부가되어 있다. 이 타임 스탬프 정보는, Presentation Time Stamp(PTS)로 불리며, 비디오용은 Video PTS(이하, "VPTS"라고 한다)로 불리고, 오디오용은 Audio PTS(이하, "APTS"라고 한다)로 불리고 있다. 그들은, 각 비디오 프레임 및 각 오디오 프레임의 출력의 시각 관리 정보를 나타내고 있다.

화상 음성 재생 장치에는, 도 2에는 도시하지 않지만 시스템 기준 참조부가 설치되어 있다. 시스템 기준 참조부는, MPEG 시스템의 기준 복호기 내부의 시스템 시각 기준 System Time Clock(STC)을 발생하는 구성부이다. 시스템 기준 참조부는, 시스템 시각 기준 STC를 작성하기 위해서, DVD 등에서 사용되는 프로그램 스트림(PS)에서 사용되는 System Clock Reference(SCR : 시스템 시각 기준 참조치), 또는 BS 디지털 방송에서 사용되는 트랜스포트 스트림(TS)에서 사용되는 Program Clock Reference(PCR : 프로그램 시각 기준 참조치)를 사용한다. 시스템 기준 참조부는, 각 스트림의 최종 바이트의 도착시(읽어들일 때), SCR 또는 PCR이 나타내는 값과 동일한 값을 시스템 시각 기준 STC에 설정함으로써, 기준 시각을 설정한다.

또한, 화상 음성 재생 장치에 위상 록 루프(PLL) 회로를 설치함과 더불어, 상기의 시스템 시각 기준 STC의 값의 설정과, PLL 회로를 조합함으로써, 화상 음성 재생 장치는, 기준 시각용 시스템 클럭과 클럭의 주파수가 완전히 일치한 시스템 시각 기준 STC를 가질 수 있다. 시스템 시각 기준 STC의 시스템 클럭은 27MHz로 구성된다. 시스템 시각 기준 STC를 카운터 등에 의해 분주(分周)함으로써, 각 PTS(90KHz 주기)가 참조된다. 비디오 디코드부 A(104), 비디오 디코드부 B(105), 오디오 디코드부 A(4), 및 오디오 디코드부 B(5)의 각 디코더는, 시스템 시각 기준 STC가, 비디오 데이터의 경우는 비디오 재생 시각 정보 VPTS와 일치했을 때, 오디오 데이터의 경우는 오디오 재생 시각 정보 APTS와 일치했을 때, 각각의 액세스 유닛을 출력한다. 시스템 시각 기준 STC의 정밀도는 90KHz이다. 따라서, 이 90KHz 의 정밀도의 범위 내에서, 시스템 시각 기준 STC와 비디오 재생 시각 정보 VPTS 및 오디오 재생 시각 정보 APTS의 동기를 취하도록, 각 디코더가 각 재생 단위를 재생하면, AV 동기가 취해진 출력이 행해진다.

도 3은, AV 동기 처리의 흐름도이다. 여기서는 설명을 간단히 하기 위해서, 1개의 채널의 비디오의 스트림과 오디오의 스트림이 다중화된 경우를 상정한다(2개의 채널의 비디오의 스트림과 오디오의 스트림이 다중화된 경우는 나중에 설명한다).

단계 301 및 단계 302에 있어서, 입력부(1)는, 데이터 기록 장치 등으로부터 입력된 부호화 데이터를, 압축 비디오 데이터와, 비디오 재생 시각 정보 VPTS와, 압축 오디오 데이터와, 오디오 재생 시각 정보 APTS로 분리한다.

압축 비디오 버퍼부 A(122)는 압축 비디오 데이터를 격납하고, 비디오 재생 시각 정보 관리부 A(121)는 비디오 재생 시각 정보 VPTS를 격납한다(단계 301). 그 때, 비디오 재생 시각 정보 관리부 A(121)는, 압축 비디오 버퍼부 A(122)에 있어서의 각 압축 비디오 데이터의 어드레스와 함께, 비디오 재생 시각 정보 VPTS를 격납한다.

압축 오디오 버퍼부 A(21)는 압축 오디오 데이터를 격납하고, 오디오 재생 시각 정보 관리부 A(22)는 오디오 재생 시각 정보 APTS를 격납한다(단계 302). 그 때, 오디오 재생 시각 정보 관리부 A(22)는, 도 4에 도시한 바와 같이, 오디오 재생 시각 정보 APTS를 슬롯이라는 단위로 분할하여, 압축 오디오 버퍼부 A(21)에 있어서의 각 오디오 데이터의 어드레스와 함께 격납한다. 따라서, 오디오 재생 시각 정보 관리부 A(22)에는, 오디오 재생 시각 정보 APTS의 값과, 그것에 관련되는 압축 오디오 데이터가 격납되어 있는 어드레스의 포인터가 격납된다.

또한, 단계 301 및 단계 302는, 비디오 신호 및 오디오 신호의 입력부(1)로의 입력의 선후에 따라 순서가 적절하게 변경된다.

압축 오디오 버퍼부 A(21)는, 데이터를 기록한 최종점까지 최신의 기록 위치가 이동하는 라이트 포인터를 갖고 있다. 또, 압축 오디오 버퍼부 A(21)는, 압축 오디오 데이터의 독출 위치를 특정하는 리드 포인터도 갖고 있고, 오디오 디코드부 A(4)에 의해 압축 오디오 데이터가 독출됨으로써, 리드 포인터의 위치를 갱신한다. 또, 압축 오디오 버퍼부 A(21)는, 최종 어드레스까지 데이터를 기록해 가면, 최초의 어드레스까지 기록 위치가 되돌아가는 링형상의 기억부이다. 따라서, 데이터가 독출된 위치까지, 다음 데이터를 기록하는 것이 가능해져, 입력부(1)에 의해, 라이트 포인터가 리드 포인터를 추월하지 않도록 하면서, 압축 오디오 데이터의 기록이 관리된다.

다음에, 비디오 디코드부 A(104)는, 압축 비디오 버퍼부 A(122)로부터 압축 비디오 데이터를 취득하여, 비디오 재생 시각 정보 관리부 A(121)로부터 비디오 재생 시각 정보 VPTS를 취득한다(단계 303). 오디오 디코드부 A(4)는, 압축 오디오 버퍼부 A(21)로부터 압축 오디오 데이터를 취득하고, 오디오 재생 시각 정보 관리부 A(22)로부터 오디오 재생 시각 정보 APTS를 취득한다(단계 304).

그리고, 비디오 디코드부 A(104)는, 비디오 재생 시각 정보 VPTS가 시스템 시각 기준 STC에 달하기 전에 비디오 디코드를 실시하여, 디코드 데이터를 프레임 버퍼부 A(141)에 격납한다(단계 305). 동일하게, 오디오 디코드부 A(4)는, 오디오 재생 시각 정보 APTS가 시스템 시각 기준 STC에 달하기 전에 오디오 디코드를 실시하여, 디코드 데이터를 PCM 버퍼부 A(41)에 격납한다(단계 306). 또한, 비디오 디코드부 A(104) 및 오디오 디코드부 A(4)는 각 데이터를 디코드하는데, 디코드 후 즉시 디코드 데이터를 출력하는 것은 아니다.

다음에, 오디오 디코드부 A(4)는, 시스템 시각 기준 STC를 참조하여, 오디오 재생 시각 정보 APTS가 시스템 시각 기준 STC와 일치한 시점에서, 또는 오디오 재생 시각 정보 APTS가 시스템 시각 기준 STC를 초과한 시점에서, 그 오디오 재생 시각 정보 APTS에 관련된 오디오 디코드 데이터를, PCM 버퍼부 A(41)로부터 출력시킨다(단계 307).

또한, 비디오 디코드부 A(104)는, 시스템 시각 기준 STC를 참조하여, 비디오재생 시각 정보 VPTS가 시스템 시각 기준 STC와 일치한 시점에서, 또는 비디오 재생 시각 정보 VPTS가 시스템 시각 기준 STC를 초과한 시점에서, 그 비디오 재생 시각 정보 VPTS에 관련된 비디오 디코드 데이터를, 프레임 버퍼부 A(141)로부터 출력시킨다(단계 308).

또한, 화상 음성 재생 장치는, 광 출력 단자로부터 돌비 디지털 등의 스트림을 그대로 출력해도 된다. 이 경우, 스트림은 스트림 버퍼(도시 생략)에 일단 축적되고, 오디오 재생 시각 정보 APTS가 시스템 시각 기준 STC와 일치 또는 초과한 시점에서, 그 오디오 재생 시각 정보 APTS에 관련된 오디오 디코드 데이터는 출력된다.

입력되는 데이터의 종료 또는, 사용자에 의한 재생의 정지가 지시되면(단계 309에서 Yes), 화상 음성 재생 장치는 디코드를 종료한다. 한편, 입력되는 데이터가 있어, 사용자에 의한 재생의 정지가 지시되지 않으면(단계 309에서 No), 압축 비디오 버퍼부 A(122)가 압축 비디오 데이터를 격납하고, 비디오 재생 시각 정보 관리부 A(121)가 비디오 재생 시각 정보 VPTS를 격납하는 비디오 신호 격납 단계(단계 301)로 되돌아간다.

상술한 바와 같이, 화상 음성 재생 장치는, 시스템 시각 기준 STC에 대해, 비디오 재생 시각 정보 VPTS 및 오디오 재생 시각 정보 APTS를 동기시켜, 비디오 디코드 데이터 및 오디오 디코드 데이터를 출력한다. 특히, 비디오 재생 시각 정보 VPTS가 오디오 재생 시각 정보 APTS에 대해, 50밀리초 선행할 때부터 30밀리초 지연될 때까지의 동안에, 대응하는 비디오 디코드 데이터와 오디오 디코드 데이터가 출력되면, 립싱크의 어긋남은 신경쓰이지 않을 정도가 된다.

지금까지는 오디오와 비디오와 각각 1개의 채널의 스트림인 경우의 동기 재생 방법을 설명해 왔다. 다음에, 오디오 및 비디오가 각각 2개의 채널인 경우의 스트림의 동기 재생 방법에 관해 설명한다.

여기서는 도 5에 도시한 바와 같이, 동일 화면 상에서, 통상적인 재생 영상인 본편의 영상 위에, 콘텐츠 작성자의 코멘터리 영상을 자화면으로 겹침과 더불어, 본편의 영상에 대응하는 음성(이하, "주음성"이라고 한다)에 코멘터리 영상에 대응하는 음성(이하, "부음성"이라고 한다)을 겹치는 장면을 상정한다. 또한, 코멘터리 영상은 본편의 영상을 해설하기 위한 영상으로서, 예를 들면 본편의 영상으 로서 풍경이 비춰지고 있을 때, 해설자가 그 풍경의 지명 등을 해설하는 영상이 코멘터리 영상이다. 또, 부음성은, 코멘터리 영상이 비춰지고 있을 때 출력되는 본편의 영상을 해설하는 음성으로서, 코멘터리 영상에 부수하여 출력된다.

다음에, 도 6을 사용해, 본편의 영상 및 코멘터리 영상이 비춰지는 시간적인 관계를 설명한다. 도 6은, 본편의 영상 및 코멘터리 영상이 비춰지는 시간적인 관계의 일례를 도시한 도면이다. 도 6에 도시한 바와 같이, 예를 들면 본편의 영상은 프로그램의 처음부터 마지막까지 계속해서 비춰지고, 코멘터리 영상은, 프로그램의 도중에 프로그램의 길이보다도 짧은 소정의 기간 복수 회 비춰진다. 또, 부음성은, 상술한 바와 같이 코멘터리 영상이 비춰지고 있을 때 출력된다. 또한, 코멘터리 영상이 비춰지는 시간은, 본편의 영상이 비춰지는 시간보다 긴 경우도 있다. 또, 부음성이 출력되는 시간은, 주음성이 출력되는 시간보다 긴 경우도 있다.

이하에, 본편의 영상 및 주음성에 대해 코멘터리 영상 및 부음성을 겹치는 방법에 관해 설명한다.

우선, 본편의 영상에 대해 코멘터리 영상을 겹치는 방법에 관해, 도 7을 사용해 설명한다. 도 7은, 본편의 영상에 대해 코멘터리 영상을 겹치는 화상 재생 장치의 구성을 도시한 블록도이다.

비디오 디코드부 A(104)는 본편의 영상의 비디오 데이터를 디코드하고, 비디오 디코드부 B(105)는 코멘터리 영상의 비디오 데이터를 디코드한다. 비디오 디코드부 A(104) 및 비디오 디코드부 B(105)에 의해 디코드된 각 디코드 데이터의 동기는, 각각의 비디오 스크림 내에 있는 비디오 재생 시각 정보 VPTS 등에 의해 관리 된다. 각각의 비디오 재생 시각 정보 VPTS가 시스템 시각 기준 STC와 일치했을 때, 비디오 디코드부 A(104)에 의해 얻어진 디코드 데이터와, 비디오 디코드부 B(105)에 의해 얻어진 디코드 데이터를 출력시키면, 그들 각 디코드 데이터를 동기시켜 출력시킬 수 있다.

그러나, 코멘터리 영상의 종류에 따라서는, 본편의 영상과 코멘터리 영상의 동기를 궁리하여 취하지 않으면 안되는 경우가 있다. 예를 들면, 본편의 영상과 코멘터리 영상 중 한쪽이 영화 소재로부터 얻어진, 1초동안 24화면 존재하는 영상이고, 다른쪽이 1초동안 30화면 존재하는 영상인 경우이다. 이것을 NTSC 방식의 수상기에 비추는 경우, 화상 처리부(160)는, 영화 소재로부터 얻어진 영상을 1초동안 30화면 존재하도록 포맷 변환한 뒤에, 2개의 화상 중 한쪽 또는 양쪽을 확대하거나 축소하거나 한다. 그 후, 프레임 동기부(162)는, 2개의 화상의 프레임 동기를 행한다. 합성 출력부(161)는, 한쪽의 화상에 다른쪽의 화상을 겹쳐 2개의 화상을 출력한다. 이에 의해, 본편의 영상 및 코멘터리 영상은, 동기가 취해진 뒤에 겹쳐져 표시된다.

상술한 바와 같이, 본편의 영상에 대해서는 주음성이 존재하고, 코멘터리 영상에 대해서는 부음성이 존재하므로, 본편의 영상에 대해 코멘터리 영상을 겹칠 때, 주음성에 대해 부음성을 겹칠 필요가 있다. 다음에, 주음성과 부음성을 겹치는 음성 재생 장치에 관해 도 8을 사용해 설명한다.

도 8은, 주음성과 부음성을 겹치는 음성 재생 장치의 구성을 도시한 블록도이다. 도 8에 도시한 음성 재생 장치에서는, 입력부(1)가, 주음성의 압축 오디오 데이터 및 오디오 재생 시각 정보 APTS를 오디오 버퍼부 A(2)에 격납하고, 부음성의 압축 오디오 데이터 및 오디오 재생 시각 정보 APTS를 오디오 버퍼부 B(3)에 격납한다.

동기 설정부(11)는, 도 9에 도시한 바와 같이, 주음성의 각 오디오 재생 시각 정보 APTS에 의해 특정되는 시간축 T 상에, 부음성의 각 오디오 재생 시각 정보 APTS를 할당한다. 주음성의 각 오디오 재생 시각 정보 APTS는, "M00", "M11", "M20", "M29", "M40", 및 "M52", …가 부가되어 있는 각 블록이다. 즉, 동기 설정부(11)는, 시간축 T 상에, "S00", "S09", "S20", "S31", 또는 "S40", …이 부가되어 있는 블록에서 표시되고 있는 부음성의 각 오디오 재생 시각 정보 APTS를 할당한다. 그 때, 동기 설정부(11)는, 부음성의 인접하는 오디오 재생 시각 정보 APTS 각각의 값의 차를 유지하고, 시간축 T 상에 부음성의 각 오디오 재생 시각 정보 APTS를 할당한다.

도 9의 예에서는, 주음성의 선두의 오디오 재생 시각 정보 APTS "M00"과, 부음성의 선두의 오디오 재생 시각 정보 APTS "S00"의 차가 값 "11"이다. 그 때문에, 동기 설정부(11)는, 부음성의 각 오디오 재생 시각 정보 APTS의 값에 값 "11"을 더한 값에, 부음성의 각 오디오 재생 시각 정보 APTS를 할당한다. 예를 들면, 부음성의 오디오 재생 시각 정보 "S09"를 시간축 T 상에 할당하는 경우, 동기 설정부(11)는, 그 값 "09"에 차의 값 "11"을 더한 값, 즉 값 "M20"으로, 오디오 재생 시각 정보 "S09"를 할당한다. 이에 의해, 부음성의 각 오디오 재생 시각 정보 APTS는, 부음성의 인접하는 오디오 재생 시각 정보 APTS 각각의 값의 차가 유지된 상태로, 시간축 T 상에 할당된다. 그 결과, 후술하는 바와 같이, 오디오 재생 시각 정보 APTS를 이용하여 주음성 및 부음성이 재생되면, 주음성 및 부음성은 동기하여 재생된다.

동기 설정부(11)의 동작이 종료하면, 오디오 디코드부 A(4)는, 오디오 버퍼부 A(2)에 격납된 주음성의 압축 오디오 데이터를 디코드하고, 오디오 재생 시각 정보 APTS를 참조함으로써, 시스템 시각 기준 STC에 동기한 시간에 음성을 재생한다. 한편, 오디오 디코드부 B(5)는, 오디오 버퍼부 B(3)에 격납된 부음성의 압축 오디오 데이터를 디코드하고, 오디오 재생 시각 정보 APTS를 참조함으로써, 시스템 시각 기준 STC에 동기한 시간에 음성을 재생한다. 이에 의해, 주음성과 부음성은 동기하여 재생된다.

또, 도 9의 예에서는, 주음성의 선두의 오디오 재생 시각 정보 "M00"과, 부음성의 선두의 오디오 재생 시각 정보 "S00"의 차는 값 "11"인데, 그 차는 예를 들면 스트림의 헤더에 기록되어 있고, 코멘터리 영상(부음성)의 개시 시각이 미리 지정됨으로써 발생한다. 상기 차는 "0"이어도 된다. 즉, 주음성과 부음성이 동시에 스타트해도 된다. 또, 사용자의 리모콘 조작 등에 의해 부음성의 기동 개시 시각이 설정된 경우, 상기 차는, 기동 개시 시각 시점에서의 주음성의 재생 시각 정보와 주음성의 재생 시각 정보의 차가 된다.

다음에, 이하의 경우를 생각한다. 1개의 기록 매체(디스크 등)에, 주음성 및 부음성의 압축 오디오 부호화 데이터로 이루어지는 음성 스트림이 격납되어 있고, 주음성 및 부음성을 식별하는 플래그 정보가, 각 오디오 스트림의 비트 스트림 의 헤더 정보 내에 격납되어 있다. 또, 주음성 플래그를 갖는 음성 스트림이 3종류 존재하고, 부음성 플래그를 갖는 음성 스트림이 1종류 존재한다. 주음성은, 돌비 디지털 5.1ch의 일본어 음성, 돌비 디지털 5.1ch의 영어 음성, 리니어 PCM 2ch 음성 중에서 선택되어 재생된다. 부음성에 대해서는, 작자의 해설용 돌비 디지털 2ch의 영어 음성이 재생된다. 각각의 음성 스트림에는, 오디오 재생 시각 정보 APTS가 격납되어 있다. 이용자는 주음성을 선택함과 더불어, 부음성의 혼합 재생이라는 메뉴를 선택함으로써, 주음성 및 부음성의 동시 재생시의 음성을 선택한다.

또한, 주음성이 영어, 부음성이 일본어, 불어, 및 독일어 중 어느 하나이고, 부음성이 복수 존재하는 경우를 상정할 수 있으며, 주음성 및 부음성의 양자가 복수 존재하는 경우도 상정할 수 있다.

어쨌든, 이용자가 재생시킬 음성을 선택한다. 영화 등의 콘텐츠를 재생시키는 경우, 영화의 장면을 재생하는 주음성을 식별하는 식별자와, 영화 작성자의 작성 상의 고안점을 해설한 것 같은 부음성을 식별하는 식별자를 콘텐츠에 미리 부여해 두고, 주음성과 부음성을 구별하고, 또한 양자를 동기시켜 재생할 수 있도록 해 둔다. 이에 의해, 이용자는 주음성과 부음성을 동기시켜 재생할 수 있다.

도 10에, 주음성이 1ch이고, 부음성이 3ch인 경우의, 각각의 음성 스트림에 오디오 재생 시각 정보 APTS가 부가되어 있는 모양을 도시한다. 부음성은, 예를 들면 영어 음성, 일본어 음성, 및 한국어 음성의 음성 스트림이다. 도 10에 도시한 바와 같이, 각 음성 스트림에 오디오 재생 시각 정보 APTS가 격납되어 있기 때문에, 상술한 동기 설정부(11)의 동작에 의해, 어느 부음성이나 주음성과 동기시켜 재생할 수 있다.

그런데, 복수의 오디오 데이터를 디코드할 때, 주음성과 부음성의 오디오 부호화 방식의 차이에 의해, 각 데이터의 오디오 프레임 사이즈가 다른 경우가 있다. 그러나, 각각의 오디오 스트림에 오디오 재생 시각 정보 APTS가 부가되어 있으면, 시스템 시각 기준 STC와 각 오디오 재생 시각 정보 APTS를 이용함으로써, 주음성과 부음성을 동기시켜 재생할 수 있다. 복수의 오디오 디코드부가 처리의 독립성을 가지는 구성이면, 부호화 방식의 차이에 의한 오디오 프레임 처리 단위가 다르더라도, 각각의 오디오 스트림을 각각의 오디오 재생 시각 정보 APTS에 따라서 동기시켜 재생할 수 있다.

또, 주음성의 샘플링 레이트와 부음성의 샘플링 레이트가 다른 경우가 있다. 이러한 경우, 레이트 변환부(7)는, 한쪽의 재생 음성 신호의 샘플링 레이트를 다른쪽의 재생 음성 신호의 샘플링 레이트에 맞춰 변환한다. 이에 의해, 주음성 및 부음성을, 샘플링 레이트를 맞춰서 재생하는 것이 가능해진다. 콘텐츠 그 자체에 주음성인지, 코멘터리 등의 부음성인지의 종별이 기록되어 있는 경우, 레이트 변환부(7)는, 부음성의 샘플링 레이트를 주음성의 샘플링 레이트에 맞춘다. 이에 의해, 코멘터리 음성의 유무에 관계없이, 일정한 샘플링 레이트로 주음성 및 부음성은 재생되기 때문에, 사용자는 위화감 없이 주음성 및 부음성을 들을 수 있다.

샘플링 레이트의 변환 방법으로서는, 디지털 음성을 아날로그 음성으로 변환하는 DA 컨버터와, 그 반대의 동작을 하는 AD 컨버터를 이용하여 디지털 음성을 일단 아날로그 음성으로 되돌려 변환하는 방법이 있다. 또, 샘플링 레이트 컨버터인 반도체 회로를 사용함으로써 원하는 샘플링 레이트로 변환하는 방법이나, 서로의 샘플링 레이트가 배수 관계일 때 적용하기 쉬운, 솎아냄이나, 보간에 의해 레이트 변환 음성을 생성하는 방법 등이 있다.

다음에, 주음성 및 부음성의 식별자가 기록되어 있지 않은 경우 등에 있어서 주가 되는 샘플링 레이트를 갖는 음성 신호의 선택 방법에 관해 설명한다. 이 주가 되는 샘플링 레이트를 갖는 음성 신호의 선택 방법으로서, 연속한 음성 재생 구간이 보다 긴 음성 신호를 선택하여, 연속한 음성 재생 구간이 짧은 쪽의 음성 신호의 샘플링 레이트를 긴 쪽의 샘플링 레이트에 맞추는 방법이 있다. 도 6에 도시한 바와 같이, 코멘터리로서, 특정한 장면의 해설 등, 주음성을 보조할 목적으로 부음성이 삽입되는 경우, 부음성은 주음성에 비해 음성 재생 구간이 짧다. 그래서, 재생 구간이 긴 쪽을, 주가 되는 샘플링 레이트를 갖는 음성 신호로서 선택하고, 재생 구간이 짧은 쪽의 샘플링 레이트를, 선택한 음성 신호의 샘플링 레이트에 맞춰 변환한다. 또, 부음성은, 도 6에 도시한 바와 같이, 특정한 장면만이 재생되는 등, 재생이 스트림 도중에 개시되어, 도중에 종료하는 경우도 있다. 음성 재생 구간이 긴 쪽을 주가 되는 샘플링 레이트를 갖는 음성 신호로서 선택하면, 같은 샘플링 레이트의 음성이 재생되는 시간이 길어져, 사용자가 위화감을 갖는 시간이 짧아지므로 바람직하다.

다른 선택 방법으로서, 1개의 음성 신호를 선택할 때, 간헐적인 음성 재생 구간이 없는 쪽의 음성 신호를 선택하고, 간헐적인 음성 재생 구간을 갖는 쪽의 음성 신호의 샘플링 레이트를, 간헐적인 음성 재생 구간이 없는 쪽의 음성 신호의 샘 플링 레이트에 맞춘다. 장면마다 간헐적인 코멘터리 재생 구간을 갖는 음성 신호를 재생하는 경우 등, 간헐적인 음성 재생 구간을 갖는 음성 신호의 샘플링 레이트를, 간헐적이지 않은 쪽에 맞추도록 변환한다.

또 다른 선택 방법으로서, 1개의 음성 신호를 선택할 때, 보다 높은 샘플링 레이트를 갖는 음성 신호를 선택하고, 낮은 샘플링 레이트를 갖는 음성 신호의 샘플링 레이트를, 높은 샘플링 레이트에 맞춰 변환한다. 즉, 고음질의 음성 신호는 그대로 두고, 다른 음성 신호의 업 샘플링 등을 행함으로써 레이트 변환을 행하여 합성한다. 이 경우, 2개의 음성 신호의 샘플링 레이트비는, 한쪽이 다른쪽의 배수의 관계이면, 레이트 변환한 후에 음성 합성하는 회로를 간략화할 수 있다. 예를 들면, 한쪽의 음성 신호의 샘플링 레이트가 96KHz이고, 다른쪽의 음성 신호의 샘플링 레이트가 48KHz인 경우나, 한쪽이 48KHz이고, 다른쪽이 24KHz인 경우 등이면, 주파수 보간한 음성 신호 데이터를 그대로 가산할 수 있으므로 합성하기 쉽다.

반대로, 1개의 음성 신호를 선택할 때, 보다 낮은 샘플링 레이트를 갖는 음성 신호를 선택하여, 높은 샘플링 레이트를 갖는 음성 신호의 샘플링 레이트를, 낮은 샘플링 레이트에 맞춰 변환해도 된다. 음성 출력을 위한 전송 대역이 한정되어 있는 경우나, 고음질의 재생 음성이 필요하지 않은 경우 등에 이 방법을 사용한다. 예를 들면, 특정 전송로를 사용하여 음성 데이터를 전송하는 경우 등을 상정하면, 낮은 샘플링 레이트에 맞춰 변환함으로써, 음성 데이터의 전송량을 줄이는 효과가 예상된다. 이 경우도, 2개의 음성 신호의 샘플링 레이트비는, 한쪽이 다른쪽의 배수의 관계이면, 레이트 변환한 후에 음성 합성하는 회로를 간략화할 수 있다. 예 를 들면, 한쪽의 음성 신호의 샘플링 레이트가 96KHz이고, 다른쪽의 음성 신호의 샘플링 레이트가 48KHz인 경우나, 한쪽이 48KHz이고, 다른쪽이 24KHz인 경우 등이면, 주파수 솎아낸 음성 신호 데이터를 그대로 가산할 수 있으므로 합성하기 쉽다.

또, 1개의 음성 신호를 선택할때, 도중에 샘플링 레이트가 변경되지 않는 연속한 음성 재생 구간으로 이루어지는 음성 신호를 선택하고, 도중에 샘플링 레이트가 변경되는 쪽의 음성 신호의 샘플링 레이트를, 변경되지 않는 쪽의 샘플링 레이트에 맞춰 변환한다. 복수의 코멘터리가 있거나, 또 주음성에 있어서도 때때로 샘플링 레이트가 변경되거나 하는 경우에, 이 방법을 사용한다. 압축 오디오 데이터의 디코드시에는, 샘플링 레이트의 변화점에서, 음성 뮤트가 필요한 경우가 있다. 따라서, 레이트 변경되지 않는 쪽의 음성 신호를 주로 해서 선택해 두는 편이, 음성을 뮤트하는 구간이 적어져 음성의 연속 재생을 실현하기 쉽다.

도중에 재생 콘텐츠의 부호화 방식이 변경되는 것이나, 샘플링 레이트가 변경된 경우의 오디오 디코드부의 구성에 따라서는, 디코드하는 부호화 방식 프로그램이나 하드웨어의 연산 회로의 설정을 변경하지 않으면 안되는 경우가 있다. 이러한 경우, 오디오 디코드부의 초기화 처리와 함께, 그것과 쌍인 압축 오디오 버퍼부에 격납되어 있는 압축 오디오 데이터나, 리드 포인터, 라이트 포인터 등의 정보도 클리어할 필요가 있다. 압축 오디오 버퍼부 뿐만 아니라, 오디오 재생 시각 정보 관리부의 오디오 재생 시각 정보 APTS 및 격납 어드레스 포인터의 정보도 소거할 필요가 있다. 이 오디오 버퍼 정보의 클리어는, 부호화 방식이나 샘플링 레이트가 변경되는 쪽만이어도 된다. 변경되지 않는 쪽은, 연속적으로 압축 오디오 데 이터의 디코드와 재생을 계속함으로써, 이용자는 전환을 의식하지 못하고 음성의 재생을 즐길 수 있다.

이들 레이트 변환부(7)에 의해 샘플링 레이트 변환된 오디오 데이터를 가산하기 위해서, 가산비 처리부 A(8)및 가산비 처리부 B(9)는 재생 출력 레벨을 변경한다. 예를 들면, 기록 매체 등에, 주음성에 대한 코멘터리 등의 부음성의 가산비를 나타내는 가산비 정보가, 각 오디오 스트림 또는, 코멘터리 등의 부음성의 스트림의 헤더 정보 내에 격납되어 있다. 가산비 처리부 A(8) 및 가산비 처리부 B(9)는, 코멘터리 등의 부음성을 주음성에 합성하는 경우, 그 가산비 정보에 따른 값으로, 주음성 및 부음성의 한쪽 또는 양쪽에 가산비를 곱한 뒤에 주음성과 부음성을 합성한다. 예를 들면, 가산비 처리부 A(8) 및 가산비 처리부 B(9)는, 주음성 및 부음성의 양쪽을, 원래 음성의 0.7배 등으로 출력 레벨을 낮춰 가산한다.

통상적으로 가산비 정보에 따라서, 각 음성에 가산비를 곱한 음성으로의 재생이 행해지는데, 코멘터리 등의 부음성을 강조하고 싶은 경우가 있다.

제1의 수법으로서, 따로따로 디코드된 음성으로부터, 임의의 1개의 음성에 대해 다른쪽의 음성을 합성하는 경우, 상기 임의의 1개의 음성의 재생 출력 레벨을, 다른쪽의 음성을 합성하는 부분만 줄여 양 음성을 합성하고, 다른쪽의 음성을 합성하지 않는 부분에서는, 상기 임의의 1개의 음성의 재생 출력 레벨을 줄이지 않는다. 예를 들면, 재생 출력 레벨을 일정값 "1"로 하여 2개의 음성을 합성하는 경우, 가산되는 측의 음성의 재생 출력 레벨을 일정값 "1"에서“0.6"으로 줄이고, 가산하는 측의 음성의 재생 출력 레벨을 "0.4"로 하여, 전체의 재생 출력 레벨을 일 정값 "1"로 유지한다. 이 경우, 가산되는 측의 음성을 강조하여 들을 수 있다. 예를 들면, 합성하고자 하는 음성이 코멘터리 음성인 경우, 해설을 주의깊게 듣고싶을 때 등, 해설 음성의 재생 음성 레벨을 높게 하고, 주음성의 재생 음성 레벨을 줄인다.

제2의 수법으로서, 이용자가, 재생 음성 레벨을 규정치보다 높게 하거나 낮게 하거나 하는, 임의로 설정하고 싶은 경우에 대응하여, 임의의 1개의 원래의 음성에 대해 다른쪽의 음성을 합성하는 부분에서, 이용자의 의도로 상기 다른쪽의 음성 레벨이 보다 높게 설정된 경우, 상기 임의의 1개의 원래의 음성 출력 레벨을 다른쪽의 증가분에 따라 줄인다. 왜냐하면, 다른쪽을 증가시키면서 한쪽을 그대로의 음량으로 가산하면, 가산 후의 음성의 일부에서, 재생 다이나믹 레인지를 넘는 신호 성분이 발생하여, 클리핑 등의 음성 왜곡이 발생해서, 대단히 듣기 힘든 음성이 되어 버릴 우려가 있기 때문이다. 반대로, 부음성의 출력 레벨을 낮게 한 경우, 상대적으로 주음성의 가산비를 올리면 된다.

레이트 변환부(7)가 샘플링 레이트 변환하여, 가산비 처리부 A(8) 및 가산비 처리부 B(9)가 가산비의 처리를 행하면, 가산 출력부(10)는 음성을 합성한다. 그 경우, 각각의 음성의 재생 채널 수가 다른 경우가 있다. 도 11에, 가산 출력부(10)의 구성예를 도시한다(도면을 간단히 하기 위해 레이트 변환부(7)를 생략하고 있다). 상기 임의의 1개의 음성의 재생 신호 채널 수에 맞춰 가산비 처리가 행해진 뒤, 가산 출력부(10)는, 다른쪽의 음성의 재생 신호의 채널 수를 통합 또는 분배하여 합성한다.

예를 들면, 주음성에 대한 코멘터리 등의 부음성의 가산 채널 정보를, 각 오디오 스트림 또는, 코멘터리측의 스트림의 헤더 정보 내에 격납하고, 그것을 기록 매체 등에 기록해 둔다. 가산 출력부(10)는, 코멘터리 등의 부음성을 주음성에 합성하는 경우, 그 가산 채널 정보에 따른 값으로 음성을 합성한다. 예를 들면, 가산 출력부(10)는, 부음성을 주음성의 센터 채널에 합성한다.

가산 채널 정보로서는, 각 가산 채널의 믹싱 레벨이나 채널 매핑, 특정 채널에 가산 제한 정보 등의 가산 채널 정보나, 샘플링 레이트, 각 채널의 샘플링 비트 수, 압축 스트림의 데이터 레이트 등을 상정할 수 있다. 또한, 가산 채널 정보와 함께 가산 음량 계수 테이블 등의 상세한 가산비 정보가 있으면, 부음성은, 주음성의 프런트 라이트 채널에 0.7배 등으로 출력 레벨을 내려서 가산되고, 프런트 레프트 채널에 0.7배 등으로 출력 레벨을 내려서 가산된다.

또한, 가산 채널 정보가, 복수의 패턴으로부터 선택할 수 있는 정보를 갖는 경우에는 예를 들면, 오디오 디코드부 A(4)에 의해 재생된 음성이 5.1ch이고, 오디오 디코드부 B(5)에 의해 재생된 음성이 모노럴 1ch이었던 경우, 오디오 디코드부 B(5)에 의해 재생된 음성의 가산처로서, (제1) 센터 채널만, (제2) 프런트 라이트 채널과 프런트 레프트의 2채널, (제3) 센터 채널과 서브 우퍼 채널 (제4) 프런트의 라이트와 레프트 및 서브 우퍼 채널 등의 선택지를 이용자에게 나타내는 인터페이스를 설치해 두고, 가산처를 이용자에게 선택하게 한다. 이에 의해, 이용자의 희망에 따른 채널로의 가산비로, 각 채널의 출력 게인을 변경한 뒤에, 지정 채널의 합성을 실현할 수 있다. 물론 주음성과 부음성이 같은 채널 수이고, 이용자로부터 가산 채널처의 지정이 없는 경우, 각각의 채널을 가산하면 된다. 또, 이용자의 요망에 의해, 가산하는 채널의 어떤 부음성의 음량을 늘리는 등의 변경을 하고 싶을 때는, 주음성이 클립핑하지 않도록 믹싱 레벨을 조절하지 않으면 안된다. 이 경우, 가산 채널의 주음성의 게인을 줄이는 등의 변경 뿐만 아니라, 다른 주음성 채널과의 밸런스도 고려하여, 필요에 따라 다른 채널의 가산비를 변경한다. 부음성의 음량을 올리면 주음성의 음량을 내리고, 부음성의 음량을 내리면 주음성의 음량을 올리기 위해서, 이용자의 요망으로 가산비를 유연하게 설정할 수 있는 것이 바람직하다.

종래예의 특허 문헌 1에 있어서도, 재생 채널이 다른 경우의 동시 재생에 관해서 약간 설명이 있다. 제1 음성을 모노럴로서 프런트 라이트에, 제2 음성을 모노럴로서 프런트 레프트에 1채널씩 출력하는 것, 또는 제1과 제2 중 어느 한쪽의 음성을 스테레오 2ch로 출력하는 것에 관해 설명이 있다. 또 5.1ch의 경우는, 제1 음성을 스테레오 2ch, 제2 음성을 스테레오 2ch로 출력하는 설정, 또는 제1과 제2 중 어느 한쪽의 음성을 5.1ch로 출력하는 것에 관해 설명이 있는데, 이들은 제1 음성과 제2 음성을 합성하여 출력하는 것이 아니라, 동시에 따로따로의 스피커로부터 출력하는 경우에 관한 설명이다. 복수의 음성을 동일한 스피커로부터의 음성에 합성하여 출력하는 방법에 대해서는 자세한 설명이 없다. 또, 복수의 음성의 동기 방법에 관해서도 자세히 설명되어 있지 않다.

또 본 발명에서는, 코멘터리 등의 부음성의 채널 수가 주음성의 채널 수보다 많은 경우, 복수의 채널을 주음성의 어느 채널에 통합할지 등을 설정하는 선택지를 이용자에게 제시하고, 이용자로부터 선택을 접수하여, 그 선택에 기초해 가산부에서 클리핑하지 않고 음성의 가산을 실행하는 가산비를 설정한다. 가산비의 설정은, 우선 클리핑할 채널을, 클리핑하지 않는 값으로 설정한 후에, 다른 채널의 가산비를, 가산비를 설정한 채널과의 출력 상대 레벨에 따라 다시 설정하는 것 등으로 실현한다. 물론, 이용자가 채널마다의 가산비를 설정하는 구성을 설치해 두어도 된다. 따라서, 각각의 가산비 처리부는 재생 채널 수에 따라 가산한다.

가산치의 변경에 있어서는, 이용자의 지시에 의해 행하는 경우, 재생을 일시 정지하고 음성을 뮤트하고, 가산 계수를 변경하는 등의 처리를 행하면, 변경 도중에 이음(異音) 등이 발생하지 않고, 가산치의 변경을 실현할 수 있다. 디코드 음성에 대해 가산비를 곱하여, 합성하여 출력할 때까지 클리핑을 검출하는 검출부를 설치해 두면, 가산비 처리부 A(8) 및 가산비 처리부 B(9)가 가산치를 자동적으로 변경함으로써, 가산비를 다시 변경하여 클리핑이 일어나지 않도록 재합성하여, 이음의 발생을 방지할 수 있다. 또, 상기 검출부가 클리핑하는 시점을 발견한 경우에 대응하여, 음성 출력 레벨이 서서히 작아져 클리핑하지 않는 레벨이 되도록, 가산 계수를 변경시키는 처리부를 설치해 둔다. 이에 의해, 이음의 출력이 연속적으로 이루어지지 않는 장치로 할 수 있다.

또한, 음성의 합성은 음성 재생 장치에 접속되는 외부의 접속 기기의 구성에 좌우되는 경우가 있다. 예를 들면 도 12에 도시한 외부 음향 장치(92)가 음성 재생 장치에 접속되는 경우를 상정한다. 외부 음향 장치(92)의 구성에 따라서는, 원래의 재생 콘텐츠가 5.1ch을 갖는 경우라도, 접속 스피커가 3채널밖에 없는 경우가 있다. 이러한 경우, 외부 음향 장치(92)의 채널 수에 맞춰, 상기 임의의 1개의 음성 신호의 채널 수를 통합 또는 분배하고, 또한 다른쪽의 음성 신호의 채널 수를 통합 또는 분배하여 합성한다.

또, 재생 출력하는 채널 수를 이용자가 변경하는 경우가 있다. 이러한 경우, 외부 음향 장치(92)나, 음성 재생 장치 내의 출력부의 설정으로부터 이용자에 의한 음성 출력 지정 채널에 맞춰, 상기 임의의 1개의 음성의 재생 신호 채널 수를 통합 또는 분배하고, 또한 다른쪽의 음성의 재생 신호의 채널 수를 통합 또는 분배하여 합성하는 구성을 취하면, 이용자가 음성 출력의 전부 또는 일부를 설정함으로써, 자동적으로 가산비 처리에 필요한 가산치를 음성 재생 장치는 설정할 수 있다.

여기서, 주음성의 재생 콘텐츠가 5.1ch이고, 부음성의 재생 콘텐츠가 2ch이고, 접속 스피커가 3채널밖에 없는 경우의 음성의 통합의 일례에 관해, 도 13을 사용해 설명한다. 상기 통합의 일례에서는, 도 13에 도시한 바와 같이, 주음성의 L 채널에 주음성의 SL 채널과, 부음성의 FL 채널을 가산한 뒤에, 제1 스피커로부터 출력시킨다. 또, 주음성의 R 채널에, 주음성의 SR 채널과, 부음성의 FR 채널을 가산한 뒤에, 제2 스피커로부터 출력시킨다. 또한, 주음성의 C 채널에, 주음성의 SL 채널과, 주음성의 SR 채널을 가산한 뒤에, 제3 스피커로부터 출력시킨다. 또는, 주음성의 L 채널은 제1 스피커로부터 출력시킨다. 또, 주음성의 R 채널은, 제2 스피커로부터 출력시킨다. 또한, 주음성의 C 채널에, 부음성의 FL 채널과 부음성의 FR 채널을 가산한 뒤에, 제3 스피커로부터 출력시킨다.

또, 부음성을 가산하는 채널을 시각적으로 변화시켜도 된다. 예를 들면, 부 음성 중 어느 한 채널 또는 양쪽의 채널을, 최초에는 주음성의 L 채널에만 가산하고, 다음에 주음성의 L 채널과 주음성의 C 채널에 가산하고, 다음에 주음성의 C 채널에만 가산하고, 다음에 주음성의 C 채널과 주음성의 R 채널에 가산하고, 마지막으로 주음성의 R 채널에만 가산하는 식으로, 시간의 경과와 함께 가산하는 채널을 변화시킬 수도 있다. 이렇게 하면, 가산 음성이 시청자의 좌방향에서 우방향으로 공간적으로 이동하는 것처럼 들리게 된다.

다음에, 주음성 및 부음성의 재생 콘텐츠가 각각 2ch이고, 접속 스피커가 6 채널인 경우의 음성의 분배의 일례에 관해, 도 14를 사용해 설명한다. 상기 분배의 일례에서는, 도 14에 도시한 바와 같이, 주음성의 L 채널 및 R 채널을 변환기로 6채널로 변환한 뒤에, (1) 변환 후의 주음성의 FL 채널에 부음성의 L 채널을 가산한 뒤에 제1 스피커로부터 출력시키고, (2) 변환 후의 주음성의 FR 채널에 부음성의 R 채널을 가산한 뒤에 제2 스피커로부터 출력시키고, (3) 변환 후의 주음성의 SL 채널에 부음성의 L 채널을 가산한 뒤에 제3 스피커로부터 출력시키고, (4) 변환 후의 주음성의 SR 채널에 부음성의 R 채널을 가산한 뒤에 제4 스피커부터 출력시키고, (5) 변환 후의 주음성의 C 채널을 제5 스피커로부터 출력시키고, (6) 변환 후의 주음성의 SUB 채널을 가산한 뒤에 제6 스피커로부터 출력시킨다.

또한, 도 12에 도시한 바와 같이, 음성 재생 장치에 외부 영상 기기(91)나 외부 음향 기기(92)를 접속하여, 음성 재생 장치가 외부 접속 기기의 기기 ID 등, 상대측 기기를 특정하는 정보를 인식함으로써, 출력 가능한 스피커 수의 정보를 획득하여, 주음성과 부음성을 합성하는 채널의 설정 정보의 획득이나, 가변 속도 재 생시의 각 출력 처리의 전후 가산의 선택을 설정하는 구성이면, 더욱 편리성이 높아진다.

예를 들면, 음성 재생 장치가, 상대측 출력 기기의 기기 종별을 알 수 있는 ID 번호 등을 수취하여, 각종 설정 조건을, 본체 내 또는 조건 설정용의 메모리 카드 내의 테이블을 참조하여 설정을 행하는 것 같은 구성을 취하면, 음성 재생 장치에 대한 이용자의 조작을 수반하지 않고도, 출력 가능한 채널의 수에 따라 주음성과 부음성을 합성시키는 것이 가능하다.

상대 기기의 정보를 얻기 위해서, High-Definition Multimedia Interface(H DMI)로 불리는 사양 등으로 기기를 접속한다. 도 15에, HDMI으로 접속되는 2개의 기기의 구성을 도시한다. 도 15에서는, 소스측의 기기(81)와, 싱크측의 기기(82)와, AV 데이터(86)를 보내는 송신기(83)와, AV 데이터를 받는 수신기(84)와, 전원 ON이나 채널 제어와 같은 코맨드를 보내는 코맨드 라인(88)과, 기기 고유 정보를 주고받는 라인(87)과, 기기 고유 정보를 격납하는 ROM(85)이 표시되어 있다. HDMI에서는, 소스측의 기기(81)와 싱크측의 기기(82)가 서로 접속 가능하다고 인증 수속을 행함으로써, 소스측의 기기(81)는 싱크측의 기기(82)에 적절한 AV 데이터 포맷으로 AV 데이터를 보낸다. 그 때 기기 고유의 정보 데이터를 보낸다. 소스측의 기기(81)인 음성 재생 장치는, 이 방법에 의해 외부 영상 기기(91)나 외부 음향 기기(92)의 기기 고유 정보를 획득하면, 합성 채널 수의 제한이나, 합성 화상 포맷의 제한 정보 등을 획득하여 설정을 변경할 수 있다. 이들 획득한 정보는, 음성 재생 장치가 디폴트 설정치로서 저장해 두는 구성으로 해 두면, 기기 접속이 바뀌지 않 는 한 언제나 같은 상태로의 AV 감상을 행할 수 있다. 접속 기기 ID 등의 변경이 있으면, 그 때마다 상대 기기측의 정보를 받아 설정을 변경하면 된다.

주음성과 부음성 등과의 합성 출력은, 각 PCM 버퍼에 들어간 PCM 데이터를 합성하여 출력함으로써 행해진다. 이 PCM 데이터를 음성 재생 장치에 내장되는 오디오 DAC로부터, 또는 IEC60958 등의 디지털 오디오 인터페이스 규격에 대응한 광 디지털 케이블로부터 출력함으로써, PCM 데이터를 외부 음향 기기(92)에 전송하여 재생할 수 있다. 또한, 주음성과 부음성을 합성하여 작성한 PCM 데이터를 오디오 부호화를 실시함으로써, 돌비 디지털 방식 등의 디지털 부호화 데이터로 변환하여, 광 디지털 케이블이나, HDMI 케이블 등으로 압축 부호화 스트림의 IEC61937 규격 등의 오디오 디지털 인터페이스 규격에 의해, 외부 접속 기기로 출력해도 된다.

이들 외부 접속 기기로서는, TV 등의 모니터 출력 기기나, 오디오 출력 앰프, AV 셀렉터 기능을 갖는 AV 앰프 등의 인터페이스 기기, 휴대형 출력 기기, 차재용(車載用) AV 재생 기기 등이 상정된다.

가산 출력부(10)는, 각각의 가산비 처리부에서 가산비 처리된 오디오 데이터를 동일한 샘플링 레이트로, 음성 클리핑을 일으키지 않고 음성 출력을 행한다. 또한, 샘플링 레이트를 변환할 때나, 가산비를 변경할 때 등에, 음성의 연속성을 유지할 수 없을 때는, 음성의 뮤트 처리를 실시하는 등의 처리도 분담한다.

음성 합성부(6)는, 도 8에 도시한 바와 같이 레이트 변환부(7)와, 가산비 처리부 A(8)와, 가산비 처리부 B(9)와, 가산 출력부(10)에 의해 구성된다. 레이트 변환부(7)는 오디오 디코드부 B(5)측에만 있는 경우를 설명했는데, 레이트 변환 부(7)는, 오디오 디코드부 A(4)측에, 또는 오디오 디코드부 A(4)측 및 오디오 디코드부 B(5)측에 있어도 된다. 또, 2개의 음성을 합성하는 경우를 설명했는데, 3개 이상의 압축 오디오 데이터를 디코드하는 각각의 디코드부를 갖고 합성하는 구성도 가능하다.

또, 시스템 전체의 기준이 되는 시스템 시각 기준 자체를 가변으로 하여, 시스템 시각 기준 참조 신호의 기준치의 갱신을 가변으로 하도록 구성하면, 기준치 정보를 기초로 해서 동기 재생하는 복수의 음성 신호의 오디오 재생 시각 정보를 맞춰서 디코드함으로써, 서로의 동기를 취할 수도 있다.

부음성용의 압축 오디오 데이터의 부호화 데이터 스트림은, 1개의 기록 매체로부터 제공되는 것에 한정되지 않고, 네트워크로 접속된 기기로부터 입력되는 경우도 있다. 또, 주음성이 기록되어 있는 기록 매체는 별도의 기록 매체로부터 제공되는 경우도 있다. 양쪽이 네트워크를 통해 접속된 외부 기기로부터 다운로드되어 재생되는 경우도 있다. 또, 기기 고유의 반도체나 하드디스크 장치 등의 기록 장치에 미리 기록해 두거나, 또는 초기 설정으로서 기록되어 있는 경우도 있다. 어쨌든, 주음성과 부음성의 동기 재생을 확보하기 위해서, 서로의 음성 재생 시각 정보가 관련지어져 있으면 동기 재생이 가능하다. 관련지어져 있지 않으면, 동시에 재생하는 경우는 있어도, 재생 시각 정보를 맞춰 재생할 필요는 없다.

또, 입력되는 스트림은, DVD 같은 기록 매체에 기록되어 있는 스트림이나, 디지털 방송 신호를 수신하여 기록한 스트림만에는 한정되지 않는다. 외부로부터의 아날로그 신호를 디지털 부호화하여 인코드한 스트림이어도 된다. 인코드할 때 오디오 재생 시각 정보 APTS나 비디오 재생 시각 정보 VPTS를 부가함으로써, 재생시에 AV 동기를 도모할 수 있게 된다. 또, 원래의 재생 음성에 동기한 다른 오디오 스트림을 인코드하여 오디오 재생 시각 정보를, 원래 있었던 오디오 스트림의 오디오 재생 시각 정보를 참조하여 부가함으로써, 애프터 레코딩 재생을 실현하는 시스템을 구성할 수 있다.

또, 도 6에서는, 코멘터리 영상은, 본편의 영상의 길이보다도 짧은 소정의 기간 복수 회 비춰진다. 그러나, 코멘터리 영상은 도 16에 도시한 바와 같이, 본편의 영상의 도중에 개시하여, 본편의 영상이 종료한 후에도 아직 종료하지 않는 경우도 있다. 그에 따라, 부음성은 주음성이 종료해도 종료하지 않는다(도 16의 "SB" 부분 참조). 그 경우, 본편의 영상이 종료할 때까지는, 부음성은 주음성의 오디오 재생 시각 정보 APTS에 따라서, 주음성과 동기하여 재생된다. 주음성이 종료하면, 부음성은 (1) 시스템 시각 기준 STC에 따라서 재생되어도 되고, (2) 주음성이 종료한 후의, 주음성의 오디오 재생 시각 정보 APTS를 예측하여, 예측된 주음성의 오디오 재생 시각 정보 APTS에 따라서 재생되어도 되고, 또는 (3) 부음성의 오디오 재생 시각 정보 APTS에 따라서 재생되어도 된다. 또, 본편의 영상이 종료하면, 코멘터리 영상은 확대하여 표시되어도 된다.

또, 도 17에 도시한 바와 같이, 효과음(예를 들면, 부저음)이 주음성에 합성되어도 된다. 효과음의 신호에 오디오 재생 시각 정보 APTS가 포함되어 있는 경우, 효과음은 부음성으로서 처리되고, 그 오디오 재생 시각 정보 APTS가 이용됨으로써, 효과음은 주음성 및 부음성과 동기하여 재생되어도 된다. 효과음의 신호에 오디오 재생 시각 정보 APTS가 포함되어 있지 않은 경우, 효과음의 재생 개시 시각에 해당하는 주음성측의 재생 시각 정보 APTS를, 효과음의 오디오 재생 시각 정보로 정의하면, 동일하게 동기 재생이 가능해진다.

또, 도 18에 도시한 바와 같이, 6ch의 주음성에 2ch의 부음성을 합성하는 경우, (1) 부음성의 프런트 레프트(FL)ch의 신호를, 주음성의 레프트(L)ch의 신호와 센터(C)ch의 신호에 가산하고, (2)부음성의 프런트 라이트(FR)ch의 신호를, 주음성의 라이트(R)ch의 신호와 센터(C)ch의 신호와 가산한다. 이에 의해, 주음성과 부음성의 채널 수가 달라도, 주음성과 부음성은 합성된다. 이 합성 시점에서의 음성 신호는 5.1ch의 신호이다. 이 5.1ch의 음성 신호를, 출력 스피커의 제한 등에 의해 3ch에 통합하지 않으면 안되는 경우, 즉 "TL", "TR", 및 "TC"의 3ch로 출력하는 경우, 주음성의 신호는, 예를 들면 합성 음성의 "L"과 "SL"이 통합 음성의 "TL"에, 합성 음성의 "R"과 "SR"이 통합 음성의 "TR"에, 합성 음성의 "C"와 "SUB"가 통합 음성의 "TC"의 3ch에 통합된다.

또한, 합성할 수 있는 복수의 음성 신호가 DVD에 기록되어 있는 경우, 도 19에 도시한 바와 같이, DVD(500)에는 복수의 음성 데이터(501)와, 부속 데이터(501)가 기록되어도 된다. 부속 데이터는, 각 음성 신호의 채널 수, 부호화 방식, 샘플링 레이트, 음성 재생 구간 등을 특정하는 정보이다. 또, 부속 데이터는, 가산비 정보나, 가산 채널 정보를 포함해도 된다. 또, 부음성의 개시 시간을 특정하는 정보를 포함해도 된다. 이에 의해, 음성 재생 장치는 복수의 음성을 합성하거나, 통합하는 것을 용이하게 행할 수 있다.

음성 데이터(501)와 부속 데이터(502)는 네트워크로부터 다운로드되어, 장치 내의 하드디스크 등의 기억부에 격납된 경우도, 상기와 동일하게 복수의 음성 신호를 합성하여 재생할 수 있다.

(실시형태 2)

실시형태 2에 있어서의 음성 재생 장치의 구성을 도시한 블록도인 도 8을 주로 참조하면서, 실시형태 2의 음성 재생 장치의 구성 및 음성 재생 방법에 관해 설명한다.

실시형태 1에서는, 시스템 시각 기준 STC를 기준으로 해서 복수의 음성과 복수의 영상의 AV 동기를 실현하는 방법에 관해 설명했다. 실시형태 2에서는, AV 동기 방법으로서, 음성 재생 장치는, 입력된 압축 오디오 데이터로부터 복수의 음성신호를 분리하여, 각각의 오디오 재생 시각 정보를 독출하고, 한쪽의 음성 신호의 오디오 재생 시각 정보를 기초로 주된 음성 신호의 디코드를 실시하고, 다른쪽의 음성 신호의 오디오 재생 시각 정보를 상기 주된 음성 신호의 오디오 재생 시각 정보에 맞춰 디코드함으로써, 서로의 동기를 취한다.

지금까지는, 통상 재생 속도에서의 음성 합성과 동기 방법에 관해 설명했는데, 고속 재생(예를 들면 2배속 재생) 등의 가변 속도 재생시의 음성 합성과, 동기 방법에 관해 이하에 설명한다.

오디오 디코더가 통상 재생 속도 처리 이상의 처리 능력을 가질 때, 또한 가변 속도에 의한 음성 출력 재생 처리를 행하는 능력을 가질 때는, 한쪽의 음성 신호의 오디오 디코드를 가변 속도 처리한 재생시의 오디오 재생 시각 정보를 기초로 해서, 다른쪽의 음성 신호의 오디오 재생 시각 정보를 원래의 오디오 재생 시각 정보에 맞춰 디코드함으로써, 서로의 동기를 취할 수 있다.

도 20은, 오디오 디코드 처리 후, 가변 속도 처리의 전과 후 중 어느 쪽에서 주음성에 부음성을 가산할지를 선택하여 음성 합성하여 재생하는 처리의 흐름을 도시한 도면이다. 단계 306에서, 오디오 디코드한 결과를 PCM 버퍼부에 격납한다. 단계 331에서, 오디오 합성 처리의 전후 어느 한쪽을 선택한다. 판단 기준은 나중에 설명한다.

오디오 합성 처리의 전을 선택한 경우(단계 331에서 Yes), 단계 332에서, 주음성의 오디오 재생 시각 정보와 코멘터리 부음성의 오디오 재생 시각 정보가 일치(허용 출력 시간차 이내 예를 들면 수 +ms 이내에서 일치)하면, 코멘터리 등의 부음성을 주음성에 가산하고, 단계 333에서 오디오 가변속 처리를 행한다. 한편, 오디오 합성 처리의 후를 선택한 경우(단계 331에서 No), 단계 334에서 주음성을 오디오 가변속 처리한 뒤에, 단계 335에서 부음성을 주음성에 가산한다. 단계 307에서, 주음성에 부음성을 가산한 음성을 비디오의 출력과 동기를 맞춰 출력한다.

도 21은, 실시형태 2의 오디오 출력 처리부(61)의 가변속 제어를 행하는 방법을 설명하기 위한 블록도이고, 도 22에 도시한 재생 속도 변환 기능을 행할 때의 가변속 제어의 예를 이하에 자세히 설명한다.

도 21에서, PCM 버퍼부 A(41)로부터의 음성 신호는 가변속 처리부(62)에 입력되어, 이하에 설명하는 가변속 처리가 실시된다. 그 후, 음성 신호는 일단 출력 버퍼부(63)에 격납되어, 음성 합성부(6)에 출력된다.

가변 속도 재생의 실현 방법에는, 몇 종류의 방법이 있다. 첫째로, 통상 속도 재생과, 스킵 재생을 반복하는 방법, 둘째로 실제로 고속으로 디코드 처리하는 방법이다.

먼저, 첫번째의 통상 재생과 스킵 재생을 반복하는 방법에 관해 설명한다. 기본적으로는, 독출 위치를 스킵한 부분을 컷하고, 스킵되지 않은 부분의 재생만을 해하는 스킵 재생 처리이다. 예를 들면, 2배 속도 재생을 실시하는 경우, 오디오 프레임을 모두 재생하는 것이 아니라, 오디오 출력부 내의 가변속 처리부(62)에 있어서, 오디오 출력 처리 변환 후에 재생 시간이 반이 되도록 특정 오디오 프레임을 스킵하여 재생한 오디오 데이터를 작성하고, 출력 버퍼부(63)에 격납한다. 그리고, 재생하는 오디오 프레임의 부분에 해당하는 오디오 재생 시각 정보 APTS치를 취득한다.

한편, 비디오 출력부에서는 동기 정보를 획득하여, 해당하는 오디오 재생 시각 정보 APTS에 대응하는 비디오를 출력하기 위해서, 특정 프레임의 표시를 스킵하여 AV 동기를 행한다. 즉, 오디오 프레임 처리 단위로 스킵 재생했을 때의 오디오 재생 시각 정보 APTS에 동기한 비디오 표시를 실시함으로써, 가변속 재생시의 AV 동기를 도모한다.

또 다른 방법으로서, 입력부(1)로 미리 스킵하여 독출하는 방법도 있다. 입력부(1)에는 스킵한 후의 스트림밖에 입력되지 않기 때문에, 입력된 스트림으로부터, 시스템 시각 기준 STC 등의 시스템 기준 시각 정보나, 오디오 재생 시각 정보 APTS, 비디오 재생 시각 정보 VPTS를 독취함으로써 동기를 실현한다. 이것은 통상 재생의 AV 동기 방법과 동일하다. 단, 0.5초부터 수초 정도 재생한 후에, 또 스킵을 행함으로써, 전체적으로 고속의 재생을 실현한다.

다음에, 가변속 처리를 행하기 위해서, 오디오 디코드 처리를 통상 재생 속도 처리 이상의 처리 능력에 의해 행하는 경우에 관해 설명한다. 다른쪽의 디코드 음성을, 상기 오디오 디코드 처리 후에 가산한 뒤에, 상기 가변속 처리를 실시할 수 있다. 예를 들면, 코멘터리 등의 부음성을 주음성에 가산한 후에, 오디오 출력 처리부(61)로 가변속 처리를 실시하므로, 가산된 음성도 디코드 음성의 가변속 처리와 동기시킨 음성 출력이 가능하다.

한편, 부음성을, 상기 가변속 처리 후에 주음성에 가산할 수도 있다. 오디오 출력 처리부(61)로 가변속 처리를 실시한 뒤에, 부음성을 주음성에 가산하므로, 디코드 음성이 가변속 처리되어도, 가산된 부음성은 통상 속도 음성으로 가산을 행할 수 있다.

우선, 고속 디코드 처리시의 동기 재생 방법에 관해 설명한다. 입력부(1)가, 통상 재생에 필요한 입력 속도 이상의 데이터를 받아들여, 비디오 스트림과 오디오 스트림으로 분할한 뒤, 각각의 버퍼부에 스트림을 격납한다. 이에 의해, 복수의 비디오 디코드부 및 복수의 오디오 디코드부가 기동한다. 각각의 디코더는, 통상의 재생 속도 이상의 고속으로(재생 속도에 상관없이, 주어져 있는 자원을 효율적으로 활용하여) 디코드를 실시하여, 각 프레임 버퍼부, 각 PCM 버퍼부에 디코드 결과를 격납한다.

가변속 처리를 행하기 위해서, 오디오 디코드 처리 능력은 통상 재생 속도 처리 이상의 처리 능력이 필요해진다. 예를 들면 1.3배 정도의 재생 속도를 유지하기 위해서는, 재생 속도보다 약간 높은 1.5배 정도의 디코드 처리 능력이 있는 것이 바람직하다. 이것은 단순히 디코드 처리 성능 뿐만 아니라, 재생 미디어로부터의 독출 처리 성능이나, 전송 처리 성능에 대해서도 같은 능력이 필요하다.

디코드를 고속으로 진행하여, PCM 버퍼 등에 보관된 오디오 데이터는, 다음과 같이 처리된다. 도 22에 있어서, 상측은 가변속 처리 전의 통상 속도에 의한 재생의 데이터를 나타내고 있고, 하측은 가변속 처리 후의 고속 재생의 데이터를 나타내고 있다. 상측은, 6 오디오 프레임(1 오디오 프레임은 10 수 ms 정도)를 T1의 시간으로 통상 재생하는 경우를 나타내고 있다. 한편, 하측은 첫번째와 두번째 오디오 프레임의 재생을 겹쳐서 행해, 결과적으로 T1의 6분의 5의 시간인 T2의 시간으로 6 오디오 프레임을 재생한 경우를 나타내고 있다. 압축비를, 처리 후의 시간길이를 처리 전의 시간길이로 나눈 값으로 정의하면, 속도비는 압축비의 역수가 된다. 따라서 여기서는 5분의 6배(1.2배)로의 고속 재생이 된다.

이 때 겹쳐져 있는 오디오 프레임 재생의 한쪽을 페이드아웃시키면서, 한쪽을 페이드인함으로써 겹침을 실현한다. 양쪽은 통상 재생 속도로의 겹침으로 한다. 그 밖의 겹쳐지지 않는 오디오 프레임에 있어서는, 통상 속도 재생이 된다. 고속 재생이라고 해도, 모두가 통상 재생 속도로의 재생이기 때문에, 원음의 피치가 바뀌지 않는다. 그 때문에, 자연스러운 음성을 청취할 수 있도록 가변속 재생을 실현할 수 있다.

주음성과 부음성의 사이에서 오디오 부호화 방식이나 샘플링 레이트가 다른 등에 의해 오디오 프레임 사이즈가 다른 경우가 있다. 가변속 재생시에 있어서는, 오디오 프레임 사이즈가 다른 경우, 양쪽의 동기를 정확하게 취할 필요는 없다. 양쪽이 동일한 속도비를 갖고, 어떤 적절한 시점의 일정 재생 시간의 사이에서 동기를 취할 수 있도록 재생하면, 결과적으로 양쪽의 동기를 도모할 수 있다.

이러한 오디오 출력 처리부(61)에서의 가변속 제어를 실시함과 더불어, 다른 디코드 음성을, 상기 오디오 디코드 처리 후에 가산한 뒤에, 상기 가변속 처리를 실시할지, 다른 디코드 음성을 상기 가변속 처리 후에 가산 처리를 실시할지를 선택하는 수단을 설치해 두면, 가산한 데이터 음성도 원래의 원음과 다름없는 음정으로 재생하는 것이 가능하다.

또한, 주재생 음성과 부음성의 동기에 대해서는 앞에서 설명한 바와 같다. 가산 전에 동기를 취하는 경우, 원래 전체 오디오 프레임에 대해 산출되는 PTS를 기초로, 다른 음성의 PTS를 참조하여 가산하면 된다. 한편, 가변속 후, 부가음 가산하는 경우, 오디오 프레임의 겹침 부분의 PTS는, 겹쳐져 있는 어느쪽의 오디오 프레임의 PTS를 유효로 할 것인가 하는 규칙을 미리 정해 두면 된다.

또, 부음성측에 오디오 재생 시각 정보가 전혀 없는 스트림이 제공된 경우, 또는 재생 시각 정보를 무시하고 동시에 재생하는 경우, 기본적으로 주음성과의 동기 관계가 없기 때문에, 음성 재생 장치는 현행 재생되고 있는 주음성에 대해, 재생의 연속성이 유지되도록 재생하면 된다. 이 때의 샘플링 레이트 변환, 가산치 변환, 출력 채널 변경 등은, 앞의 실시형태와 동일한 방법으로 실시하면 된다.

본 실시형태 2처럼, 특히 오디오의 가변속 재생에 있어서는, 오디오의 재생 기준 시각인 오디오 재생 시각 정보 APTS를 사용하면 AV 동기 재생이 용이하다.

또한, 복수 영상이나 음성의 동기에 관해서는, 재생 합성을 위한 가산의 선택 수단으로서, 재생 스트림의 콘텐츠 내용을 판단하는 판단부를 설치해 둔다. 상기 판단부에 의해 얻어지는 결과에 의해, 재생시에, 데이터로부터 뽑아낸 음성 정보를 가산하는 타이밍으로서, 오디오 출력 처리의 전과 후 중 어느 한쪽을 선택하거나, 또는 데이터로부터 뽑아낸 텍스트 또는 문자 정보를 가산하는 타이밍으로서, 비디오 출력 처리의 전과 후 중 어느 한쪽을 선택하여 재생할 수 있다.

예를 들면, 노래방의 자막처럼 오디오 및 비디오에 동기한 각 출력 처리를 실시하는 편이 좋은지, 그렇지 않으면 긴급 임시 방송처럼(동기성 없이) 각 출력 처리를 실시한 후에 문자 정보를 출력하는 편이 좋은지, 재생 콘텐츠의 내용에 따라서 선택할 수 있다.

가산의 선택부로서, 이용자에 의한 지시 내용으로부터 콘텐츠의 재생 처리 내용을 선택하는 선택부를 설치해 둔다. 상기 선택부에 의해 얻어지는 결과에 의해, 데이터로부터 뽑아낸 음성 정보를 가산하는 타이밍으로서, 오디오 출력 처리의 전과 후 중 어느 한쪽을 선택하거나, 또는 데이터로부터 뽑아낸 텍스트 또는 문자 정보를 가산하는 타이밍으로서, 비디오 출력 처리의 전과 후 중 어느 한쪽을 선택하여 재생할 수 있다.

예를 들면, 가변속 처리 전에 음성 정보와 문자 정보를 가산시킬 것인지, 가변속 처리 후에 음성 정보와 문자 정보를 가산시킬 것인지와 같은, 이용자의 지시에 따른 가산을 선택할 수 있다.

가산을 행하는 타이밍을 결정하기 위해서, 재생하는 스트림의 콘텐츠 내용 및 이용자에 의한 사용 용도를 판단하는 판단부를 설치해 둔다. 상기 판단부에 의해 얻어지는 결과에 의해, 재생시에, 데이터로부터 뽑아낸 음성 정보를 가산하는 타이밍으로서, 오디오 출력 처리의 전과 후 중 어느 한쪽을 선택하거나, 또는 데이터로부터 뽑아낸 텍스트 또는 문자 정보를 가산하는 타이밍으로서, 비디오 출력 처리의 전과 후 중 어느 한쪽을 선택하여 재생할 수 있다.

예를 들면, 노래방 콘텐츠라 해도 이용자의 지시로, 가변속 처리에서는, 가변속 처리 전에 음성 정보와 문자 정보를 가산시키지만, 음정만을 변화시키는 음정 변화 처리에서는, 음정 변화 처리 후에 음성 정보와 문자 정보를 가산시키는 것과 같은, 콘텐츠 내용에 추가해 이용자의 지시 내용을 가미하여 각 출력 처리의 전후로의 가산을 선택할 수 있다.

(실시형태 3)

실시형태 3에 있어서의 음성 재생 장치의 구성을 도시한 블록도인 도 8과, 가변속 제어를 행하는 오디오 출력 처리부의 구성을 도시한 도 21을 주로 참조하면서, 실시형태 3의 음성 재생 장치의 구성, 및 음성 재생 방법에 관해 설명한다.

오디오 출력 처리부(61)는, 가변속 재생 처리를 행한다고 한정하는 것은 아니다. 예를 들면 디코드한 음성의 소리의 높이를 바꾸는 처리를 행해도 된다. 디지털 방송 신호를 수신하여 기록하고, 적어도 오디오가 부호화된 스트림을, 시각 동기를 확보하면서 재생할 때, 오디오 디코드 처리 후, 데이터로부터 뽑아낸 음성 정보를 동기 정보에 의해 오디오 합성 처리의 전과 후 중 어느 한쪽을 선택하여 가 산하여 재생한다. 그렇게 하면, 예를 들면 부음성을 주음성에 가산한 후에, 오디오 출력 처리로 원음성의 음정의 고저를 변화시키거나, 오디오 합성 처리로 원래의 주음성의 음정의 고저를 변화시킨 후에 부음성을 가산하거나에 의해, 가산된 음성 정보를 출력시키는 방법을 바꿀 수 있다.

또, 오디오 출력 처리부(61)는, 그 외에 각종 서라운드 효과를 더한 음향 효과 처리를 실시할 수도 있다. 부음성을 부가한 후에, 서라운드 효과를 실시할지, 서라운드 효과를 부가한 후에 부음성을 부가할지를 바꿀 수 있다. 결과적으로, 부음성의 확산감이나, 출력 스피커처를 변경할 수 있다. 그 밖에, 영상 처리와 음향 처리 사이의 동기 처리 지연을 고려한 지연 설정 효과 등이 오디오 출력 처리부(61)에 의해 행해져도 된다. 접속한 영상 기기와 음향 기기의 출력 지연을, 음성 재생 장치로 설정할 수 있도록 구성한 경우, 지연을 실시하기 전에 부음성을 부가할지, 지연 후에 부음성을 부가할지를 설정할 수 있다.

(실시형태 4)

실시형태 4에 있어서의 화상 재생 장치 및 음성 재생 장치의 구성을 도시한 블록도인 도 7 및 도 8과, 실시형태 4에 있어서의 복수 영상의 동기 재생 방법을 도시한 흐름도인 도 23을 주로 참조하면서, 실시형태 4의 화상 재생 장치 및 음성 재생 장치의 구성, 및 화상 재생 방법 및 음성 재생 방법에 관해 설명한다.

지금까지는, 오디오 재생 시각 정보 APTS를 기초로, 복수의 음성 신호의 동기를 맞추는 방법에 관해 설명해 왔다. 이하에, 비디오 재생 시각 정보 VPTS를 기초로, 복수의 음성 신호의 동기를 맞추는 방법에 관해 설명한다.

이것은, 각각의 음성 신호의 오디오 재생 시각 정보를, 주 비디오 신호의 비디오 재생 시각 정보에 맞춰 디코드함으로써, 서로의 동기를 취하는 것이다. 도 23은, 비디오 디코드부 A(104)가 디코드 처리를 행한 뒤, 비디오 디코드부 B(105)가 디코드 후의 화상 정보를 동기 정보에 의해 비디오 출력 처리의 전과 후 중 어느 한쪽을 선택하여 화상 합성하여 재생하는 처리를 도시한 흐름도이다. 단계 305에서, 비디오 디코드한 결과를 프레임 버퍼부 A(141)에 격납한다. 단계 351에서, 비디오 합성 후에 스킵인지, 합성 전에 스킵인지 어느 한쪽을 선택한다.

합성 후에 스킵하는 경우(단계 351에서 Yes), 비디오 디코드부 B(105)가 디코드한 결과를 프레임 버퍼부 B(151)에 격납한다(단계 405). 그리고, 단계 352에서, 비디오 디코드부 A(104)의 재생 시각 정보와, 비디오 디코드부 B(105)의 재생 시각 정보가 일치(허용 출력 시각차 이내 예를 들면 33ms 이내에서 일치)하면, 디코드 화상을 겹친 뒤, 단계 353에서 화상 스킵 출력 처리를 행한다.

한편, 합성 전에 스킵하는 경우(단계 351에서 No), 단계 354에서 화상 스킵 처리로 스킵한 뒤에, 단계 355에서 비디오 디코드부 A(104)의 재생 시각 정보에 맞춘 비디오 디코드부 B(105)의 재생 시각 정보의 디코드 화상을 겹친다. 그리고, 단계 308에서, 오디오의 출력과 동기를 맞춰 화상을 출력한다.

따라서, 한쪽의 비디오 디코드 처리 후, 다른쪽의 비디오 디코드시의 동기 정보에 의해 비디오 출력 처리의 전과 후 중 어느 한쪽을 선택하여 화상 합성하여 재생한다. 예를 들면, 다른쪽의 화상을 디코드 화상에 가산한 후에, 화상 스킵 출력 처리로 한쪽의 화상과 다른쪽의 화상을 동기시켜 출력하거나, 화상 스킵 처리로 스킵한 뒤에 다른쪽의 디코드 화상을 가산하거나에 의해, 가산된 화상을 출력시키는 방법을 바꿀 수 있다.

또, 도 23에 도시한 처리와는 달리, 비디오 합성 처리의 전인지 후인지를 판정한 후에, 일단 비디오 스킵 처리를 실시하여, 표시하는 비디오 재생 시각 정보 VPTS에 합치하는 영상에 다른쪽의 디코드 화상을 가산해도 된다. 즉, 비디오 합성 처리 전의 시각 정보에 일치하는 가산은, 비디오 스킵 처리를 실시하고, 표시하는 비디오의 비디오 재생 시각 정보 VPTS와, 재생 시각 정보가 일치하는 디코드 화상만을 선별하여 가산하여 표시한다. 한편, 비디오 합성 처리 후의 시각 정보에 일치하는 가산은, 비디오 스킵 처리를 실시한 후에, 표시되어 있는 비디오의 비디오 재생 시각 정보 VPTS에는 의존하지 않고, 디코드 화상을 가산하여 표시한다. 이 경우, 비디오 스킵 처리를 실시한 뒤, 표시되는 한쪽의 비디오 디코드 재생 시각 정보와는 관계없이, 다른쪽의 비디오 디코드의 재생 영상을 겹치는 것과 같은 처리를 실시할 수도 있다.

이 스킵 처리는, I 픽처만을 재생하고, P 픽처나 B 픽처를 스킵 처리하는 고속 I 재생이나, B 픽처만을 스킵하는 IP 재생 등이 해당한다. 이들은, 입력부(1)로 B 픽처의 데이터를 버리거나, 또는 디코드한 후에 버리거나 등에 의해, B 픽처를 재생시키지 않는다. 그 때문에, B 픽처의 화상 재생용의 재생 시각 정보는 불필요해진다. 따라서, 스킵 등을 수반하는 고속 재생시에 있어서는, 최종적으로 출력하는 화상의 재생 시각 정보가 유효해진다.

각 프레임 버퍼부로부터의 출력을 화상 합성부(106)에서 가산한 뒤, 가산 결 과를 비디오 출력한다. 스킵 처리에 있어서, 출력하는 비디오 프레임의 비디오 재생 시각 정보 VPTS에 대응하는 코멘터리 등의 부화상 데이타가 없을 때는 가산 처리를 행하지 않고, 다음 데이터의 동기에 맞는 프레임 출력 시각까지 기다린다. NTSC 방식의 경우, 1초동안에 약 30장의 화상을 출력하기 때문에, 각각의 PTS의 시각차는 33ms 정도이다. 비디오 재생 시각 정보 VPTS를 기준으로 하는 경우, ±16.5ms 이내이면 동기하고 있다고 판단하여 화상 등을 겹치는 처리를 하면 된다. 또한, 주 오디오 데이터와 코멘터리 등의 부음성의 PCM 버퍼부의 음성 합성도 같은 원리로 동기를 도모하면 된다. 여기서는 1 오디오 프레임 단위 10 수 ms(오디오압축 방식의 차에 따라 수 ms에서 수 +ms) 정밀도 이내의 차이면 동기하고 있다고 판단하여, 합성음을 생성하면 된다.

또한, 동기에 필요한 영상 또는 음성의 시각 정보가 없는 경우, 현재 출화 또는 출음하고 있는 PTS치를 참조하여, 그 PTS치를 재생 시각 정보로 환산하여, 비디오 데이터와 오디오 데이터를 동기시키는 시간으로서 설정하면, 통상의 동기 재생과 같은 방법에 의해 데이터 합성을 행할 수 있다.

여기서 녹화 프로그램을 편집했을 때 등, 영상을 주체로 해서 심리스(seamless)하게 편집한 경우를 상정한다. 이 경우, 편집 후의 영상은 끊기지 않고 이어지지만, 음성은 끊기는 경우가 많다. 이것은 MPEG에 의한 편집의 특징인데, 영상과 음성이 완전히 같은 방식으로 동시에 부호화되어 있지 않기 때문이다. 따라서, 영상을 주체로 하면 음성의 연속성을 유지할 수 없고, 음성을 주체로 하면 영상의 연속성을 유지할 수 없다. 그래서, 영상을 주체로 한 심리스 재생시에는, 비디오 재생 시각 정보 VPTS를 기초로 해서, 그 비디오 재생 시각 정보 VPTS에, 대응하는 오디오 재생 시각 정보 APTS를 맞추도록 음성 재생을 행하여, 동기를 도모하는 것이 바람직하다.

한편, 음성을 주체로 해서 심리스하게 편집하는 경우의 심리스 재생시는, 오디오 재생 시각 정보 APTS를 기초로 해서, 그 오디오 재생 시각 정보 APTS에, 대응하는 비디오 재생 시각 정보 VPTS를 갖는 화상의 재생을 맞추도록 동기를 취하는 것이 바람직하다.

심리스 재생시에 있어서, 양자의 연속성을 가능한 한 유지하도록 심리스 재생하기 위해서는, 이하와 같은 방법이 있다. 우선, 영상을 주체로 해서 심리스 편집을 한다. 접속점 전의 영상에 대한 음성의 재생을, 한쪽의 오디오 디코드부 A(4)에서, 심리스 접속점 전의 최후의 재생 시각까지 행한다. 다음에, 다른 오디오 디코드부 B(5)에서, 다음 심리스 접속점의 최초의 화상의 재생 시각에 대응하는 오디오로 디코드를 행하여, 동기하는 시각의 출음이 가능하도록 준비해 둔다. 그리고, 영상의 심리스 재생의 비디오 재생 시각 정보에 따라서, 양쪽의 디코드 음성을 전환하도록 재생하면 된다. 필요에 따라 음성에 대해서는 페이드 처리를 실시하는 편이, 접속점 전후의 위상의 차이에 의한 이음이 발생하기 어렵다. 이 심리스 재생시에 있어서는, 주음성만의 연속 재생을 중시하는 경우, 부음성의 합성은 금지하고 부음성용의 오디오 디코드 처리를 정지하는 것 같은 구성을 취하면, 복수의 오디오 디코드부를, 주음성의 심리스 재생을 위해서 사용할 수 있다. 3개의 오디오 디코드부를 설치해 두면, 1개는 부음성의 디코드용으로 확보해 두고, 다른 것 은 주음성의 디코드용 및 심리스 처리용으로서 사용할 수 있다. 또 하나 더 오디오 디코드부가 있으면, 부음성도 심리스용으로 확보하여, 부음성도 심리스 재생이 가능해진다.

한편, 비디오 디코드 후에 화상 합성부(106)에서 화상을 합성할 때, 화상 처리부(160)를 설치하면, 디코드 후에 합성 화면 확대 축소 등의 출력 사이즈 변환을 설정한 경우, 자화면을 합성하는 경우, 축소하고 나서 자화면을 합성할지, 특정 부분을 잘라내어 확대할지와 같은 선택이 가능해진다. 원화면의 부분 확대나 축소 등의 선택도 가능해진다. 이 외에도, 출력 TV 모니터에 맞춘 고해상에서 저해상으로의 변환 또는 그 반대의 해상도 포맷 변환(480I의 표준 해상도에서 1080I의 고화질 해상도로의 변환 등), 레터 박스와 사이드 패널의 출력 포맷 변환, NTSC 방식과 PAL 방식 사이의 주파수 포맷 변환 등의 각종 포맷 변환, 인터레이스 화질에서 프로그래시브 화질로의 IP 변환 등을 실시하는 것이 상정된다. 이들 순서는, 반드시 이 예와 같다고는 할 수 없다. 또, 포맷 변환에 대해서도, 복수의 포맷 변환(해상도 포맷과 출력 포맷 등)을 동시에 행하는 경우도 있다. 또한, 2개의 화상을 합성하는 경우, 한쪽이 NTSC 방식의 화상이고 다른쪽이 PAL 방식의 화상이거나, 한쪽이 표준 화질의 화상이고 다른쪽이 고화질의 화상일 때 등에 있어서는, 양자의 포맷을 미리 맞춰 두면 합성하기 쉽다.

또, 이들 겹친 화상은, 그 화상에 대해 이용자의 조작을 돕는 GUI 화면 등을 붙여 표시하므로, GUI 화면의 메뉴 배치에 적합한 화면 사이즈로의 합성이 요구되는 경우도 있다. 예를 들면, 배경 화면에 주영상을 표시시키고, 그것에 자화면으 로 코멘터리 영상을 겹치고, 그 위에 각종 화면 설정용의 투과 메뉴 화면을 겹치는 등의 구성을 취하면, 설정 메뉴에 따른 화상 효과를 이용자가 확인하기 쉽다.

또, 미국의 방송 방식에서는 자막은, 클로즈드 캡션 신호라고 불리며, 이용자의 리모콘 조작에 의해 표시와 비표시를 전환하는 사양으로 정해져 있다. 따라서 본 발명의 실시형태에 적용한 경우, 이용자의 지시에 의한, 각 출력 처리의 가산의 선택과, 표시의 선택이 요구된다. 또한, 자막 문자 등을, 세로방향이나 가로방향으로 스크롤하거나, 와이프를 행하는 등의 각종 표시 효과를 수반하는 경우에도, 각종 출력 처리의 전후를 선택할 수 있도록 해 두면, 빨리감기할 때에 있어서도, 중요한 정보를 놓쳐버리거나, 또는 자막이 전부 표시 확인되지 않으면 다음 화면의 표시로 넘어갈 수 없는 등의 더딤이 해소된다. 이러한 자막이나, 자막의 유사예로서, 미국의 클로즈드 캡션 뿐만 아니라, 유럽의 텔레텍스트 등이 존재한다.

또한, 위성 디지털 방송의 데이터 방송으로부터, 자막 데이터와 음성 데이터의 재생의 선택을 따로따로 행할 수 있도록 하면, 예를 들면 데이터 방송 중인 스트림 데이터로부터 뽑아낸 음성 정보는 오디오 출력 처리의 전에 가산하고, 문자 정보는 비디오 출력 처리의 후에 가산하는 등 각각의 정보마다 따로따로 가산할 수 있는 설정이 가능해진다.

이들 각 스트림의 재생 콘텐츠 종별이나 내용을 판단하는 판단부를 설치해 두면, 재생시에, 데이터로부터 뽑아낸 음성 정보를, 상기 판단부에 의해 얻어진 결과에 의해, 오디오 출력 처리의 전 또는 후를 선택하여 재생하거나, 또는 데이터로부터 뽑아낸 텍스트 또는 문자 정보를, 비디오 출력 처리의 전 또는 후를 선택하여 재생할 수 있다. 따라서, 입력 또는 재생 매체를 특정하지 않고, 같은 재생 방법으로 대응할 수 있다.

오디오 및 비디오 출력 처리의 기능별로, 가산 전후를 선택할 수 있도록 구성하면, 화면 확대 후, 자화면을 추가하여 가변속 처리를 실시하는 것과 같은 복수 출력 처리에도 대응할 수 있다.

또, 부음성 이외에, 부저 등의 부가음, 복수의 기록 음성을 가산하기 위한 후시 녹음(アフレコ) 음성, 반주음에 노래방 등의 마이크 에코를 가산하는 마이크 에코 음성도 오디오 출력 처리의 전 또는 후를 선택하여 가산할 수가 있는 구성을 취하면, 상기와 같은 효과가 얻어진다. 한편, 자화면 이외에, 자막이나 문자 슈퍼임포즈(ス-パ), 개인적으로 편집시에 삽입하고 싶은 문자나 도형 등도, 비디오 출력 처리의 전 또는 후를 선택하여 가산할 수 있는 구성을 취함으로써, 같은 효과가 얻어진다. 이것은, 전용의 오디오 연산 소자나 디지털 시그널 프로세서(DSP)를 탑재하는 것, 또는 고성능의 CPU를 사용함으로써 실현할 수 있다.

또한, 입력 데이터는, 외부로부터 입력되는 데이터, 외부 기록 매체로부터 입력되는 데이터로서 설명해 왔는데, 미리 기기 내에 존재하는 데이터여도 된다.

지금까지는, 입력부(1)가, 입력 데이터를 비디오 신호와 오디오 신호로 분리하는 경우에 관해 설명해 왔다. 그러나, 비디오 신호와 오디오 신호는 미리 분리되어 있는 파일 데이터여도 된다. 압축 비디오 데이터와 관련된 재생 시각 정보, 압축 오디오 데이터와 재생 시각 정보를 입력으로 하여, 각각의 재생 시각 정보를 이용해서, 압축 비디오 데이터와 압축 오디오 데이터를 동기시켜 재생할 수 있는 구성이면, 본 발명의 음성 재생 방법을 실시하는 음성 재생 장치를 구성할 수 있다. 이것은, 비디오 카메라 등으로 촬영한 신호를 PC 상에서 편집한 결과로서, AV 및 데이터의 혼합 파일과, AV 데이터 독립적인 파일의 어느쪽의 경우라도, 압축 비디오 데이터와 관련된 재생 시각 정보, 압축 오디오 데이터와 재생 시각 정보, 파일 상의 데이터 정보를 서로 관련지은 동기를 취해 재생하는 경우 모두에 적응된다.

이 데이터 재생 방법 및, 장치의 적용예로서는, 셋톱 박스, 디지털 위성 방송 수상기 및 그 기록 기기, DVD 플레이어 또는 DVD 레코더, VCD의 관련 기기, 하드디스크 레코더, PC 등이 있다. 본 발명의 음성 재생 방법에 의한 AV 재생 프로그램을 작성해 둠으로써, PC 등으로, 외부로부터의 동작 프로그램을 로딩하여, 음성 또는 화상을 합성하면서 AV 동기 실행 동작시킬 수 있다.

또한, 도 2에 도시한 각 구성부의 일부 또는 전부는 1개의 집적 회로(집적 칩)로 실현되어도 된다. 또, 도 7에 도시한 각 구성부의 일부 또는 전부도 1개의 집적 회로(집적 칩)로 실현되어도 된다. 또, 도 8에 도시한 각 구성부의 일부 또는 전부도 1개의 집적 회로(집적 칩)로 실현되어도 된다. 또, 도 12에 도시한 각 구성부의 일부 또는 전부도 1개의 집적 회로(집적 칩)로 실현되어도 된다. 또한, 도 21에 도시한 각 구성부의 일부 또는 전부도 1개의 집적 회로(집적 칩)로 실현되어도 된다

본 발명에 있어서의 음성 재생 방법 및 음성 재생 장치는, 부호화된 디지털 의 복수의 음성 신호의 동기 신호를 기초로, 부호화 방식이 다르더라도 샘플링 레이트를 변환하는 등, 복수의 음성 신호를 혼합시키기 위한 수단을 사용함으로써, 주음성 및 주영상의 재생을 멈추지 않고, 주음성 및 주영상의 내용을 보충하는 코멘터리 등의 부음성이나 부영상의 삽입 재생과 같은 용도에 사용할 수 있다.

Claims

음성 신호를 재생하여 출력하는 음성 재생 장치로서,

1개의 시간축 상에, 복수의 음성 신호 각각의 복수의 오디오 재생 시각 정보를, 음성 신호마다 인접하는 상기 오디오 재생 시각 정보 각각이 나타내는 재생 시각의 차를 유지한 상태로 할당함으로써, 상기 복수의 음성 신호를 동기시키는 동기 수단과,

상기 시간축 상에 할당된 복수의 상기 오디오 재생 시각 정보를 이용하여, 상기 복수의 음성 신호를 합성하는 합성 수단을 구비하는 음성 재생 장치.
청구항 1에 있어서,

상기 시간축은, 상기 복수의 음성 신호 중의 어느 한 음성 신호의 복수의 상기 오디오 재생 시각 정보에 의해 특정되는 시간축이고,

상기 동기 수단은, 상기 어느 한 음성 신호의 상기 오디오 재생 시각 정보에 의해 특정되는 시간축 상에, 다른 음성 신호의 상기 복수의 오디오 재생 시각 정보를 할당하는 음성 재생 장치.
청구항 2에 있어서,

상기 시간축은, 가변속 재생되고 있는 상기 어느 한 음성 신호의 복수의 상기 오디오 재생 시각 정보에 의해 특정되는 시간축인 음성 재생 장치.
청구항 1에 있어서,

상기 복수의 음성 신호는 비디오 신호로 다중화되어 있고,

상기 시간축은, 상기 비디오 신호의 복수의 비디오 재생 시각 정보에 의해 특정되는 시간축이고,

상기 동기 수단은, 상기 비디오 재생 시각 정보에 의해 특정되는 시간축 상에, 상기 복수의 음성 신호 각각의 상기 복수의 오디오 재생 시각 정보를 할당하는 음성 재생 장치.
청구항 4에 있어서,

상기 시간축은, 가변속 재생되고 있는 상기 비디오 신호의 비디오 재생 시각 정보에 의해 특정되는 시간축인 음성 재생 장치.
청구항 1에 있어서,

상기 시간축은, 가변속하고 있는 시스템 시각 기준 참조 신호에 의해 특정되는 시간축인 음성 재생 장치.
청구항 1에 있어서,

상기 복수의 음성 신호 중의 어느 한 음성 신호의 샘플링 레이트에 맞춰, 다른 음성 신호의 샘플링 레이트를 변환하는 샘플링 레이트 변환 수단을 더 구비하 고,

상기 합성 수단은, 상기 어느 한 음성 신호와, 상기 샘플링 레이트 변환 수단에 의해 변환된 상기 다른 음성 신호를 합성하는 음성 재생 장치.
청구항 7에 있어서,

상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 연속한 음성 재생 구간이 가장 긴 음성 신호인 음성 재생 장치.
청구항 7에 있어서,

상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 음성 재생 구간의 간헐이 가장 적은 음성 신호인 음성 재생 장치.
청구항 7에 있어서,

상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 가장 높은 샘플링 레이트를 갖는 음성 신호인 음성 재생 장치.
청구항 7에 있어서,

상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 가장 낮은 샘플링 레이트를 갖는 음성 신호인 음성 재생 장치.
청구항 7에 있어서,

상기 어느 한 음성 신호는, 상기 복수의 음성 신호 중의, 샘플링 레이트가 변하지 않는 음성 신호인 음성 재생 장치.
청구항 1에 있어서,

상기 복수의 음성 신호 중의 어느 한 음성 신호에 다른 음성 신호를 가산함으로써 상기 복수의 음성 신호를 합성하는 경우, 상기 어느 한 음성 신호의 재생 출력 레벨을, 상기 다른 음성 신호를 가산하는 부분만 줄이는 출력 레벨 조정 수단을 더 구비하는 음성 재생 장치.
청구항 13에 있어서,

상기 출력 레벨 조정 수단은, 상기 어느 한 음성 신호에 대해 상기 다른 음성 신호를 합성하는 경우로서, 이용자에 의해 상기 다른 음성 신호의 재생 출력 레벨이 보다 크게 설정되었을 때, 상기 어느 한 음성 신호의 재생 출력 레벨을, 상기 다른 음성 신호의 재생 출력 레벨의 증가분 줄이는 음성 재생 장치.
청구항 1에 있어서,

상기 복수의 음성 신호 중의 어느 한 음성 신호의 재생 신호 채널 수에 맞춰, 다른 음성 신호의 재생 신호 채널 수를 통합 또는 분배하는 통합 분배 수단을 더 구비하는 음성 재생 장치.
청구항 1에 있어서,

상기 음성 재생 장치에 접속되는 음성 출력 장치의 채널 수에 맞춰, 각 상기 음성 신호의 재생 신호 채널 수를 통합 또는 분배하는 통합 분배 수단을 더 구비하는 음성 재생 장치.
청구항 16에 있어서,

상기 통합 분배 수단은, 이용자에 의한 상기 음성 출력 장치의 음성 출력 지정 채널에 맞춰, 각 상기 음성 신호의 재생 신호 채널 수를 통합 또는 분배하는 음성 재생 장치.
음성 신호를 재생하여 출력하는 음성 재생 방법으로서,

1개의 시간축 상에, 복수의 음성 신호 각각의 복수의 오디오 재생 시각 정보를, 음성 신호마다 인접하는 상기 오디오 재생 시각 정보 각각이 나타내는 재생 시각의 차를 유지한 상태로 할당함으로써, 상기 복수의 음성 신호를 동기시키는 동기 단계와,

상기 시간축 상에 할당된 복수의 상기 오디오 재생 시각 정보를 이용하여, 상기 복수의 음성 신호를 합성하는 합성 단계를 포함하는 음성 재생 방법.
음성 신호를 재생하여 출력하기 위한 프로그램으로서,

1개의 시간축 상에, 복수의 음성 신호 각각의 복수의 오디오 재생 시각 정보를, 음성 신호마다 인접하는 상기 오디오 재생 시각 정보 각각이 나타내는 재생 시각의 차를 유지한 상태로 할당함으로써, 상기 복수의 음성 신호를 동기시키는 동기 단계와,

상기 시간축 상에 할당된 복수의 상기 오디오 재생 시각 정보를 이용하여, 상기 복수의 음성 신호를 합성하는 합성 단계를 컴퓨터에 실행시키기 위한 프로그램.