KR20120068050A

KR20120068050A - 정보 신호 처리 방법 및 정보 신호 처리 장치

Info

Publication number: KR20120068050A
Application number: KR1020127014701A
Authority: KR
Inventors: 노보루 무라바야시; 히로시게 오카모토; 마사루 미야모토
Original assignee: 소니 주식회사
Priority date: 2004-08-10
Filing date: 2005-08-09
Publication date: 2012-06-26
Also published as: US8634699B2; EP1784012A4; CN101053252B; US20070286579A1; JPWO2006016590A1; KR20070047776A; EP1784012A1; WO2006016590A1; JP4935355B2; CN101053252A; KR101385087B1

Abstract

본 발명은, 방송 프로그램의 화상 음성 정보 신호를 요약 재생(다이제스트 재생)하는 특수 재생 동작을 행하는 경우에 사용되는 정보 신호 처리 방법에 관한 것이며, 소정의 화상 음성 정보 신호 또는 그 신호를 소정의 대역 압축 처리한 화상 음성 정보신호로부터 음성 신호의 소정 구간마다의 음성 레벨 또는 소정 음성 특성을 검출하고, 그 검출 결과와 소정 설정값에 따라 음성 신호를 소정의 세그먼트 구간으로 하여 처리하고, 화상 음성 정보 신호로부터 화상 신호의 소정 구간마다의 소정의 특성 데이터를 추출하고, 그 특성 데이터로부터 소정 구간의 화상 특징을 나타내는 소정 특징 데이터를 생성하고, 이 특징 데이터와 음성의 세그먼트 처리에 있어서의 신호와 소정 시간 길이 또는 구간 길이 설정 데이터에 따라 화상 음성 정보 신호를 세그먼트 처리하고, 화상 음성 정보 신호의 세그먼트에 따라 음성 신호로부터 추출한 음성 특징 데이터와 화상 특징 데이터를 기록 매체에 기록한다.

Description

정보 신호 처리 방법 및 정보 신호 처리 장치{INFORMATION SIGNAL PROCESSING METHOD AND INFORMATION SIGNAL PROCESSING DEVICE}

본 발명은, 예를 들면, 방송 프로그램에 있어서의 영상 신호, 음성 신호 등의 화상 음성 데이터를 MPEG(Moving Picture Export Group) 등 소정의 대역 압축 처리를 행하고, 광자기 디스크, 하드 디스크(HDD: Hard Disk Drive), 반도체 메모리 등의 기록 매체에 기록하고 재생하는 기록 재생 장치에 있어서, 소정의 요약 재생(다이제스트 재생) 처리 등의 특수 재생 동작을 행하는 경우의 정보 신호 처리 방법, 정보 신호 처리 장치 및 컴퓨터 프로그램 기록 매체에 관한 것이다.

본 출원은, 일본국에 있어서 2004년 8월 10일자에 출원된 일본국 특허 출원 2004-233943을 기초로 하여 우선권을 주장하는 것이며, 이 출원은 참조함으로써, 본 출원에 포함된다.

종래, VTR(Vide Tape Recorder)나 디스크 기록 재생 장치에 있어서, 장시간 기록한 기록 내용을 시간을 단축하여 재생하여 그 내용을 파악하는 경우에, 음성 정보의 이해 속도를 고려하여 대체로 1.5~ 2배속 정도로 재생 처리가 행해지고 있었다.

또한, 시간 단축하여 재생하고 그 요약 재생(다이제스트 재생)을 실시하려고 하면, 고속으로 재생한 음성 출력으로는 음성의 내용이 이해 불가능하기 때문에, 무음(無音)으로 하여 화상 출력만의 재생 처리를 행하는 것이 일반적이었다.

그래서, 기록하는 방송 프로그램의 화상 음성 데이터(화상 음성 정보 신호, 화상 음성 신호, 화상 음성 정보 데이터)에 나타나는 특징 등에 따라서, 소정의 특징 데이터를 추출하여, 그 소정의 특징 데이터를 사용하여 키 프레임(중요 프레임)이라고 생각되는 키 프레임 구간의 검출을 행하여, 미리 결정한 소정의 규칙에 따라 소정의 키 프레임 구간을 차례로 선택하여 재생함으로써, 원래의 기록한 방송 프로그램의 기록 시간보다 짧은 소정 시간 내에 요약 재생(다이제스트 재생)을 행하는 것이 있다.

또, 기록한 화상 데이터의 소정 구간에 있어서, 일정 시간 간격, 예를 들면, 3분, 5분, 10분 등의 간격마다 재생 위치를 나타내는 위치 정보 데이터를 자동으로 생성하거나, 또는 사용자가 수동으로 원하는 위치에 위치 정보 데이터를 생성하는, 이른바 챕터 데이터 생성을 행하고, 그 위치 정보 데이터(챕터 데이터)를 이용하여, 스킵 재생, 편집 조작, 썸네일 화상 표시를 행한다.

그런데, 전술한 특징 데이터는, 화상 신호와 음성 신호마다 복수 종류의 특징에 대하여 특징 데이터를 추출할 수 있고, 각각의 특징 데이터를 예를 들면, 화상 음성 데이터의 기록 시에 추출 처리를 행하고, 그 화상 음성 데이터와 함께 특징 데이터를 기록 매체에 기록한다.

이들 기록된 특징 데이터를 판독하여 소정의 룰 처리에 의해 요약 재생(다이제스트 재생)을 행하는 구간을 결정하는 신호 처리를 행하게 되지만, 복수개 존재하는 특징 데이터를 각각 별개로 파일로서 기록 매체에 기록한 것에서는, 파일의 수가 많게 되어, 신호 처리 시에 있어서의 파일 취급이 번잡하게 되어 효율적은 아니었다.

그래서, 본 발명의 목적은, 전술한 바와 같은 종래의 실정에 감안하여, 특징 데이터를 사용하는 효과적인 요약 재생(다이제스트 재생) 동작 또는 챕터 처리를 행하기 위해, 특징 데이터를 양호한 효율로 처리하고, 효과적인 요약 재생(다이제스트 재생), 챕터 데이터를 사용하는 각종의 동작을 양호한 효율로 행하기 위한 정보 신호 처리 방법, 정보 신호 처리 장치 및 컴퓨터 프로그램 기록 매체를 제공하는 것에 있다.

본 발명에 관한 정보 신호 처리 방법은, 화상 음성 정보 신호로부터 음성 신호의 소정 음성 특징을 검출하고, 그 검출된 결과에 따라 상기 음성 신호를 소정의 음성 세그먼트로 구획하여 처리할 수 있는 경우에 음성 세그먼트 처리를 행하고,

상기 화상 음성 정보 신호로부터 화상 신호의 소정 특성 데이터를 추출하고, 그 특성 데이터에 따라 소정 구간마다의 특징을 나타내는 화상 특징 데이터를 생성하고, 상기 소정 구간마다 상기 화상 신호를 소정의 화상 세그먼트로 구획하여 처리할 수 있는 경우에는 화상 세그먼트 처리를 행하고,

상기 음성 세그먼트 처리 및 화상 세그먼트 처리와 소정의 임계값과의 소정 비교 처리의 결과에 따라서, 상기 화상 음성 정보 신호를 소정 길이의 재생 유닛으로 분할하고,

상기 재생 유닛에 따라서, 상기 음성 신호로부터 추출한 음성 특징 데이터와 화상 특징 데이터를 소정의 기록 매체에 기록하는 것을 특징으로 한다.

또, 본 발명에 관한 정보 신호 처리 방법은, 화상 음성 정보 신호로부터 음성 신호의 음성 특징 데이터를 추출하고, 그 추출된 결과에 따라 상기 음성 신호를 소정의 음성 세그먼트로 구획하고,

상기 화상 음성 정보 신호로부터 화상 신호의 특성 데이터를 추출하고, 그 특성 데이터에 따라 소정 구간마다의 특징을 나타내는 화상 특징 데이터를 생성하고, 상기 소정 구간마다 상기 화상 신호를 소정의 화상 세그먼트로 구획하고,

상기 음성 세그먼트와 상기 화상 세그먼트를 제1 값과 비교한 결과, 제1 값보다 세그먼트가 짧은 데이터의 구획에 있어서, 상기 화상 음성 정보 신호를 제2 값을 가지는 재생 유닛으로 분할하고,

또, 본 발명에 관한 정보 신호 처리 장치는, 화상 음성 정보 신호로부터 음성 신호의 음성 특징 데이터를 추출하고, 그 추출된 결과에 따라 상기 음성 신호를 소정의 음성 세그먼트로 구획하는 음성 신호 처리부와,

상기 화상 음성 정보 신호로부터 화상 신호의 특성 데이터를 추출하고, 그 특성 데이터에 따라 소정 구간마다의 특징을 나타내는 화상 특징 데이터를 생성하고, 상기 소정 구간마다 상기 화상 신호를 소정의 화상 세그먼트로 구획하는 화상 신호 처리부와,

상기 음성 세그먼트와 상기 화상 세그먼트를 제1 값과 비교한 결과, 제1 값보다 세그먼트가 짧은 데이터의 구획에 있어서, 상기 화상 음성 정보 신호를 제2 값을 가지는 재생 유닛으로 분할하는 제어부와,

상기 재생 유닛에 따라서, 상기 음성 신호로부터 추출한 음성 특징 데이터와 화상 특징 데이터를 소정의 기록 매체에 기록하는 기록 처리부

를 구비한, 정보 신호 처리 장치.

또, 본 발명에 관한 프로그램 기록 메체는, 화상 음성 정보 신호로부터 음성 신호의 음성 특징 데이터를 추출하고, 그 추출된 결과에 따라 상기 음성 신호를 소정의 음성 세그먼트로 구획하고,

상기 재생 유닛에 따라서, 상기 음성 신호로부터 추출한 음성 특징 데이터와 화상 특징 데이터를 소정의 기록 매체에 기록하는, 제어 프로그램이 컴퓨터에 의해 판독 실행할 수 있도록 기록되어 있는 것을 특징으로 한다.

본 발명에 의하면, 복수 종류의 상이한 화상 특징 데이터와 음성 특징 데이터를 양호한 효율로 각각의 특징 데이터 파일 또는 1개의 특징 데이터 파일로 해 모을 수 있다. 예를 들면, 화상 특징으로 하고, 카메라 특징, 텔롭(telop) 특징, 장면 특징, 컬러 특징 등, 음성 특징으로 하고, 무음 특징, 음질 특징(예를 들면, 이야기 소리인가 아닌가) 등의 복수개 어떤 특징 데이터를 소정의 서식에 의해 양호한 효율로 데이터 파일로서 처리할 수 있고, 화상 음성 데이터와 함께 소정의 기록 매체에 기록하여 파일 관리, 신호 처리 시의 파일 처리 등도 효율적으로 행할 수 있다.

또, 본 발명에 의하면, 특징 데이터마다 파일을 설치하지 않으므로, 기록 매체에 있어서 특징 데이터마다 파일을 설치하는 경우에 비해 그만큼 파일이 점유하는 기록 용량이 적어지게 된다.

또, 본 발명에 의해, 사용자가 어떤 기능이 탑재되어 있지 않은 기록 재생 장치를 구입한 후에도, 그 기능을 가지고 싶다고 생각한 경우에 구입한 장치 그 자체에 그 기능을 용이하게 동작 가능한 상태로 할 수 있다.

기본적인 기능만을 장비한 기록 재생 장치를 초기 단계에서 판매하고, 그 후, 다양한 각 사용자의 요망에 따라 자기가 원하는 기능을 구입한 장치 그 자체에 용이하게 나중에 장비할 수 있으므로, 사용자는 효율적으로 그 장치를 구입할 수 있다.

본 발명의 또 다른 목적, 본 발명에 의해 얻어지는 구체적인 이점은, 이하에 있어서 도면을 참조하여 설명되는 실시예로부터 보다 명백해질 것이다.

도 1 (A)~(G)는, 본 발명을 적용한 기록 재생 장치에 있어서의 요약 재생, 챕터 처리의 동작을 나타낸 도면이다.
도 2는 챕터 처리에 의한 표시의 일례를 나타낸 도면이다.
도 3은 기록 재생 장치에 있어서의 처리 프로세스의 일례를 나타낸 블록도이다.
도 4는 기록 재생 장치에 있어서의 규칙 처리를 나타낸 블록도이다.
도 5 (A)는 기록 재생 장치에 있어서의 의미 부여 처리와 특징 데이터의 관계의 일례를 나타낸 도면이다.
도 5 (B)는 기록 재생 장치에 있어서의 의미 부여 처리와 특징 데이터의 관계의 일례를 나타낸 도면이다.
도 6 (A)~(C)는 기록 재생 장치에 있어서의 규칙 파일 서식의 일례를 나타낸 도면이다.
도 7은 기록 재생 장치에 있어서의 평가값의 연산 처리 방법의 일례를 나타낸 도면이다
도 8 (A)~(I)는 기록 재생 장치에 있어서의 시간 보정 함수의 일례를 나타낸 그래프이다.
도 9는 기록 재생 장치에 있어서의 시간 보정 함수의 일반형의 일례를 나타낸 그래프이다.
도 10은 기록 재생 장치에 있어서의 비디오 데이터의 구조의 일례를 나타낸 도면이다.
도 11은 기록 재생 장치에 있어서의 재생 유닛 간의 접속 관계의 일례의 도면이다.
도 12 (A), (B)는 기록 재생 장치에 있어서의 재생 유닛 간의 의미 부여 처리의 일례를 나타낸 도면이다.
도 13 (A), (B)는 기록 재생 장치에 있어서의 규칙 2의 처리의 일례를 나타낸 도면이다
도 14는 기록 재생 장치에 있어서의 시간 보정 함수의 일례를 나타낸 그래프이다.
도 15 (A), (B)는 기록 재생 장치에 있어서의 규칙 파일의 구성의 일례의 설명도이다.
도 16 (A)~(D)는 기록 재생 장치에 있어서의 본 발명의 처리 프로세스의 일례를 나타낸 도면이다.
도 17은 본 발명을 적용한 기록 재생 장치의 구성예를 나타낸 블록 회로도이다.
도 18은 기록 재생 장치에 있어서의 각종 소정 데이터 기록 상태의 일례를 나타낸 도면이다.
도 19은 기록 재생 장치에 있어서의 표시의 일례를 나타낸 도면이다.
도 20은 본 발명을 적용한 기록 재생 장치의 다른 구성예를 나타낸 블록 회로도이다.
도 21은 기록 재생 장치에 있어서의 음성계 특징 추출 처리계의 구성의 일례를 나타낸 블록 회로도이다.
도 22는 기록 재생 장치에 있어서의 음성계 특징 추출 처리계의 구성의 다른 예를 나타낸 블록 회로도이다.
도 23은 기록 재생 장치에 있어서의 영상계 특징 추출 처리계의 구성의 일례를 나타낸 블록 회로도이다.
도 24는 기록 재생 장치에 있어서의 장면 체인지 처리를 나타낸 도면이다.
도 25는 기록 재생 장치에 있어서의 텔롭, 컬러 특징 검출 영역의 일례를 나타낸 도면이다.
도 26은 기록 재생 장치에 있어서의 유사 화상 특징의 일례를 나타낸 도면이다.
도 27은 기록 재생 장치에 있어서의 인물 특징 검출 영역의 일례를 나타낸 도면이다.
도 28은 기록 재생 장치에 있어서의 인물 검출 처리의 일례를 나타낸 도면이다.
도 29은 기록 재생 장치에 있어서의 인물 검출(인원수 판정) 처리의 일례를 나타낸 도면이다.
도 30은 기록 재생 장치에 있어서의 인원수 검출 처리의 일례를 나타낸 도면이다.
도 31은 기록 재생 장치에 있어서의 인원수 검출 처리의 일례를 나타낸 도면이다.
도 32는 기록 재생 장치에 있어서의 인원수 검출 처리의 일례를 나타낸 도면이다.
도 33은 기록 재생 장치에 있어서의 인원수 검출 처리의 일례를 나타낸 도면이다.
도 34 (A)~(E)는 기록 재생 장치에 있어서의 재생 유닛 처리의 일례를 나타낸 도면이다.
도 35 (A), (B)는 기록 재생 장치에 있어서의 재생 유닛 처리의 일례를 나타낸 도면이다.
도 36은 기록 재생 장치에 있어서의 CM(커머셜;commercial) 검출 처리의 일례를 나타낸 도면이다.
도 37은 기록 재생 장치에 있어서의 재생 유닛 처리계의 구성예를 나타낸 블록도이다.
도 38은 기록 재생 장치에 있어서의 특징 데이터 파일의 구성의 일례를 나타낸 도면이다.
도 39은 기록 재생 장치에 있어서의 특징 데이터 파일의 구성의 일례를 나타낸 도면이다.
도 40은 기록 재생 장치에 있어서의 특징 데이터 파일의 구성의 일례의 설명도이다.
도 41은 기록 재생 장치에 있어서의 재생 유닛 데이터의 계층 구조의 일례를 나타낸 도면이다.
도 42는 기록 재생 장치에 있어서의 재생 유닛 데이터의 계층 구조의 일례를 나타낸 도면이다.
도 43은 기록 재생 장치에 있어서의 재생 유닛 영상 특징 데이터의 구성의 일례를 나타낸 도면이다.
도 44 (A), (B)는 기록 재생 장치에 있어서의 플레이 리스트(요약) 데이터의 일례를 나타낸 도면이다.
도 45는 기록 재생 장치의 동작의 일례를 나타낸 플로차트이다.
도 46은 기록 재생 장치에 있어서의 기록 시간과 선택 가능 요약 재생 시간의 관계의 일례를 나타낸 도면이다.
도 47은 기록 재생 장치에 있어서의 기록 시간과 자동 설정 챕터수의 일례를 나타낸 도면이다.
도 48은 기록 재생 장치의 기록 동작의 일례를 나타낸 플로차트이다.
도 49은 기록 재생 장치의 재생 동작의 일례를 나타낸 플로차트이다.
도 50은 기록 재생 장치의 재생 동작의 다른 예를 나타낸 플로차트이다.

이하, 본 발명의 실시예에 대하여, 도면을 참조하여 이하의 순서로 상세하게 설명한다. 그리고, 본 발명은, 이하의 예에 한정되지 않고, 본 발명의 요지를 벗어나지 않는 범위에서, 적당히 변경 가능한 것은 물론이다.

(1) 본 발명을 적용한 시스템의 개요

1.1 특징 데이터를 사용한 요약 재생 및 챕터점 설정 처리

여기서는, 본 발명의 동작 처리 개요에 대하여 설명한다.

하기의 동작 개요에 관한 신호 처리에 대하여는, 여기서의 항목 외에 후의 항목에서 상세하게 설명한다.

하기의 설명은 플레이 리스트 데이터 생성에 관한 것이며, 특별히 기술하는 것 외에, 특별히 기술하지 않는 경우라도 플레이 리스트 데이터 생성과 챕터 데이터를 함께 생성 처리하는 것으로 해도 된다.

특징 데이터를 사용한 요약 재생(다이제스트 재생) 및 챕터 처리의 설명도를 도 1 (A)~(G)에 나타낸다.

먼저, 특징 데이터를 사용한 요약 재생 동작에 대하여 설명한다.

(특징 데이터를 사용한 요약 재생(다이제스트 재생) 처리)

여기서, 도 1 (A)에 나타낸 바와 같은 화상 음성 데이터 계열이 있는 것으로 상정한다.

이 화상 음성 데이터 계열은, 방송 프로그램이나 영화 소프트 기타 등이 있고, 하드 디스크(HDD)나 광자기 디스크, 대용량 반도체 메모리 등 소정의 기록 매체를 사용하여, MPEG(Moving Picture Export Group) 등 소정의 대역 압축 신호 처리를 사용하여 기록 및 재생 처리를 행하는 것으로 한다.

화상 음성 데이터 계열에 있어서, 소정의 의미를 설정하고, 장면 체인지, 음성 세그먼트 등에 따라 소정의 비디오 구조(의미적 비디오 구조)로 단락지은 소정 구간의 개념도를 도 1 (B)에 나타낸다.

이 소정의 의미의 설정 처리, 소정 구간의 설정 처리, 비디오 구조 등에 대하여는 후술한다.

여기서, 도 1 (C)에 나타낸 바와 같이, 의미마다 단락지은 각각의 소정 구간마다, 소정 시간 내에 기록된 전체 구간, 소정 프로그램 구간 등, 소정의 전체 구간(소정 전체 구간)에 있어서의 각각의 구간의 소정의 평가값을 설정한다. 이 평가값이 설정된 구간을, 각각 소정 평가값 구간(평가 데이터 구간)으로 한다.

여기서, 「소정 시간 내에 기록된 전체 구간」이란, 프로그램의 프레임에 사로 잡히지 않고, 어느 소정 시간 분의 화상 음성 데이터가 있었을 경우에, 그 화상 음성 데이터의 전체 구간을 나타낸다. 또, 「소정 프로그램 구간」이란 어떤 1개의 프로그램의 화상 음성 데이터가 있었을 경우에, 그 프로그램의 프레임의 전체 구간을 나타낸다.

여기서, 소정의 평가값은 소정 전체 구간에 있어서의 소정 키 프레임 구간(중요 프레임 구간, 중요(화상 음성) 구간)으로 되는 경우일 수록, 높은 평가값(평가 데이터)을 설정하는 것으로 가정한다.

즉, 평가값이 높게 설정된 구간(중요 평가값 구간)을 재생하면, 그 구간에는 키 프레임 구간이 포함되므로, 전체 구간을 재생하지 않고도 개요를 파악할 수 있게 된다.

도 1 (C)는, 소정 평가값 구간의 개요를 나타낸 것이며, 도 1 (A)에 나타낸 화상 음성 데이터 계열로, f1~f2, f4~f5, f7~f8의 각 구간이 평가값에 있어서 설정한 임계값 Th 이상의 구간에서, 도 1 (D)에 나타낸 바와 같이 Al, A2, A3의 각 구간을 소정의 요약 재생 모드 시에 스킵 재생함으로써 소정의 요약 재생(다이제스트 재생)행하게 된다.

(특징 데이터를 사용한 자동 챕터 처리)

도 1 (E)는, 챕터점을 설정하는 경우의 개념도이며, 먼저 설명한 바와 같은, 소정 키 프레임 구간(중요 프레임 구간)의 선두 또는 그 근방, 및 그 키 프레임의 구간의 마지막에 계속되는(마지막에 접속하는) 키 프레임 구간이 아닌 구간의 선두 또는 그 근방에 챕터점을 설정한다.

여기서, 예를 들면, 종래 이용되고 있는 DVD(Digital Versatile Disc) 기록 재생 장치에서 자동 챕터 기능이라는 소정 구간의 구획점을 설정함으로써, 그 시점을 편집 조작의 기준으로 하거나 빨리감기 포워드 재생(FF 재생), 빨리감기 역재생(되감기 재생 REW 재생) 등의 경우에 이용할 수 있다.

종래, 전술한 자동 챕터 기능으로서, 예를 들면, 5분 등간격, 10분 등간격, 15분 등간격 등과 같이 시간 간격을 등간격으로 한 처리가 알려져 있고, 이와 같은 챕터 처리에서는 도 1 (G)에 나타낸 바와 같이, 키 프레임이라고 생각되는 시점의 개시점에는 챕터점을 설정할 수 없는 경우가 있다.

또, 종래, 수동 챕터 처리라는, 사용자 자신이, 원하는 임의의 시점에 챕터점을 설정할 수 있는 기능이 알려져 있지만, 이 기능은, 사용자 자신이 기록한, 또는 기록하는 프로그램(프로그램)을 실제로 보고 설정 처리를 행하게 되므로, 사용자에 있어 번거로운 조작이며, 효율적은 아니다.

이에 대해, 본 발명의 특징 데이터를 사용한 챕터점 설정 처리(소정 시점 설정 처리, 소정 위치 설정 처리)에서는, 도 1 (E)에 나타낸 바와 같이, 적절히 키 프레임 구간의 선두 또는 그 근방과, 그 키 프레임 구간의 마지막에 접속되거나, 또는 최후에 계속되는 키 프레임 구간이 아닌 구간의 선두 또는 그 근방에 챕터점을 자동적으로 설정 처리할 수 있으므로, 종래의 챕터 처리보다, 보다 효과적인 챕터점 설정을 행할 수 있는, 이 챕터 처리를 사용한 효과적인 편집 조작(편집 처리)나, FF 재생, REW 재생을 행할 수 있다.

여기서, 도 1 (F)에 나타낸 자동 설정한 챕터점을 소정의 크기의 썸네일 화상으로서 소정의 화상 모니터에 표시하게 하는 경우의 개념도를 도 2에 나타낸다.

도 1 (F)에 나타낸 바와 같이, f1, f4, f7가 각각, 소정 키 프레임 구간 A1, A2, A3의 선두 또는 그 근방에서, f3, f6, f9가 각각 A1, A2, A3의 구간 후의 키 프레임 구간이 아닌 구간 B1, B2, B3의 선두 또는 그 근방에서, 사용자는 도 2에 나타낸 바와 같은 표시 화면을 봄으로써, 예를 들면, 기록 재생 장치의 기록 매체인 하드 디스크에 기록된 방송 프로그램의 편집 조작에 있어서, 도 1 (D)에 나타낸 키 프레임 구간 A1, A2, A3를 잘라, DVD 등의 디스크 기록 매체에 기록하는 일 등의 처리나, f1, f4, f7의 시점에 스킵 재생하는 등의 조작을 상정한다.

도 1 (G)에 나타낸 종래의 소정 시점 설정점(챕터점, 소정 위치 설정점)의 일례를 나타낸 바와 같이, 소정의 일정 간격, 예를 들면, 5분 간격, 10분 간격 등의 일정 간격 또는 대략 일정 간격으로 설정점(챕터점)이 설정 처리되지만, 도 1 (C), 도 1 (G)로부터 알 수 있는 바와 같이, 반드시 키 프레임(중요 프레임)에 설정되는 것에 한정되지 않는다.

이와 같이 본 발명에 있어서의 특징 데이터를 사용하여 자동적으로 소정의 챕터점(소정 설정점, 또는 소정 구획점) 또는 세그먼트 처리를 행함으로써, 보다 효과적인 편집 조작이나 스킵 재생을 행할 수 있다.

1.2 본 발명의 처리 프로세스의 일례

다음에, 본 발명에 있어서의 처리 프로세스의 일례를 도 3에 나타낸다.

도 3에 나타낸 처리 프로세스에서는, MPEG 화상 음성 스트림 데이터로부터, 화상계 및 음성계의 각 특징 데이터를 추출하는 특징 추출 처리(2)를 포함하고 있다.

여기서는, 간단하게 하기 위해 MPEG 스트림(1)(MPEG 데이터)는, 소정 기록 매체에 기록하거나, 또는 소정 기록 매체에 기록되어 있는 데이터를 상정하고 있지만, 예를 들면, 소정의 전송계(유선계 또는 무선계)에 있어서 전송되는 화상 음성 데이터에 있어서도 마찬가지로 본 발명을 적용할 수 있다.

*특징 추출 처리(2)는, 기록 처리와 동시에 행할 수 있지만, 소정의 기록 매체에 이미 화상 음성 데이터가 기록되어 있는 경우에는, 그 기록 매체로부터 재생하여 소정의 특징 추출 처리를 행할 수도 있다.

여기서 규칙 처리(룰 처리)에 대하여 설명한다.

이 규칙 처리는, 룰이 소정의 양식으로 기술된 룰 파일, 또는 룰 데이터를 사용하여 소정의 처리가 행해진다.

룰 파일은, 예를 들면, 프로그램 장르에 따른, 특징 데이터에 따른 룰이 기술되어 있고, 이 룰 파일과 소정 구간의 각 특징 데이터가 기술된 PU 특징 데이터 파일(재생 유닛 특징 데이터 파일)과의 연산에 의해, 소정 플레이 리스트 파일이 생성되게 된다.

여기서, 설명을 알기 쉽게 하기 위해, 편의상, 소정 프로그램 장르 n에 대한 룰 파일을 Rf(n), PU 특징 데이터 파일을 Pu, 플레이 리스트 파일을 Df로 하고, 원하는 요약 시간을 t라고 하면, 이하의 (1)식과 같은 연산으로 표현할 수 있다.

여기서, (*)는 소정 파일의 데이터를 사용한 소정의 연산자라고 가정한다.

룰 파일 Rf(n)는, 이하에 설명하는 바와 같이, 예를 들면, 소정의 서식으로 기술되어 소정 시간 보정 함수, 의미, 의미의 가중 계수(평가값, 중요도) 등의 소정 파라미터의 데이터 등에 의해 구성되어 있다.

(재생 유닛 처리)

특징 추출 처리(2) 후에는, 본 발명의 특징의 하나인 PU처리(3)(재생 유닛 처리)를 행한다.

PU처리(3)에 있어서, 각 특징 데이터는, PU(재생 유닛)라는 구역(4)에서 소정의 데이터(PU 특징 데이터 파일)로서 소정의 기록 매체 또는 버퍼 메모리에 기록(기억)된다.

(규칙 1의 처리)

PU 특징 데이터 파일은, 소정의 규칙 1의 처리(5)에 의해 PU가 의미 부여 처리가 행해진다. 다음에, 설명하지만, 규칙 1의 처리(5)의 개요는 다음과 같다.

(처리 1) 각 특징 데이터의 인출

(처리 2) 특징 데이터의 조합으로부터 제1 룰로 표현되어 있는 의미 중 가장 조건을 만족시키는 것을 선택

(처리 3) 선택된 의미를 그 PU의 의미로서 채용

이 규칙 1의 처리(5)에서는, EPG(전자 프로그램 가이드) 그 밖에 의해, 프로그램 장르, 또는, 과거에 사용자가 시청한 프로그램 장르, 시간대, 재생 회수, 재생 시각, 재생 일시, 기타 등의 파라미터, 사이드 정보 등을 이용할 수 있는 경우에는, 이들 파라미터를 고려하여 소정의 처리를 행하도록 해도 된다.

이 처리와 관련하여 행해지는 시간 보정 함수의 처리에 대하여는 후술한다.

(규칙 2의 처리)

의미가 부여된 PU(6)는, 소정의 규칙 2의 처리(7)에서 소정의 평가값 처리가 행해진다.

규칙 2의 처리(7)에서는, 다음의 (처리 1) 및 (처리 2)의 중요도에 대한 평가값 처리를 행한다.

(처리1) 의미의 중요도

(처리2) 의미의 출현 패턴에 의한 중요도

소정의 평가값 처리가 행해진 PU(8)에서는, PU 유닛, 또는 PU가 몇개 연결된 PU군에 의해 소정의 평가값이 부여되어 있다.

여기서, 규칙 1의 처리(5), 규칙 2의 처리(7)에서는, 도 4에 나타낸 바와 같이, 룰 전환 처리계(900)에 의해, 복수개의 프로그램 장르에 따른 레일 처리 데이터로서, 장르 A 규칙 데이터, 장르 B 규칙 데이터, 장르 C 규칙 데이터, … …와 몇개의 규칙 처리용 데이터(룰 처리 데이터)를 구비하고, 시스템 컨트롤러계(20)에 입력한 프로그램 장르 정보 데이터에 따라서, 규칙 1의 처리(5), 규칙 2의 처리(7), 또는 어느 한쪽의 룰 처리를 전환한다.

또, 도 4에 나타낸 바와 같이, 개인별로 룰 처리용 데이터를 몇개 설치하여 전환한다. 이 경우에는, 소정 동작 모드에 있어서, 시스템 컨트롤러에 입력된 소정의 사용자에 의한 설정 처리에 의해, 개인1용 규칙 처리 데이터, 개인2용 규칙 처리 데이터, 개인3용 규칙 처리 데이터, … … 중 어느 하나가, 시스템 컨트롤러계(20)를 통하여 선택 처리되고, 그 선택된 규칙 처리 데이터에 따라 소정의 룰 처리가 행해진다.

도 4에 나타낸 바와 같은 개인별의 규칙 처리 데이터를 설치함으로써, 예를 들면, 개인별로, 통상 재생 또는 특수 재생 등의 소정 재생 동작을 행하고, 그 재생 상태, 재생 위치 등의 동작 정보, 동작 위치 정보 등을 소정의 개인별 규칙 처리에 반영 가능하도록 소정 메모리 수단에 기억하고, 이들 정보 데이터를 소정의 학습 처리에 의해, 개인별 규칙 처리 데이터로서, 수시로, 소정의 타이밍에서 데이터를 갱신 처리하는 등의 동작을 행함으로써 개인별 학습 처리에는 유효한 신호 처리 방법으로 된다.

도 4에 나타낸 바와 같이, 룰 전환 처리계(901)에 의해 각 개인별 룰 처리(규칙 처리)를 전환하는 경우도, 규칙 1의 처리(5), 규칙 2의 처리(7), 또는 어느 한쪽의 룰 처리를 전환한다.

(규칙 처리의 서식)

(규칙 1의 처리의 경우)

여기서, 의미 부여 처리된 PU는, 예를 들면, 어느 방송 프로그램을 상정한 경우에, 다음과 같은 영문자와 의미를 설정하여, 소정의 화상 음성 특징 데이터와 관련시켜 기술한다.

문자에 대한 의미 부여는, 그 방송 프로그램에 있어서 키 프레임(중요 프레임, 중요 장면)으로 상정될 장면, 또는 요약 재생, 챕터 설정 등에 유효한 것으로 상정되는 소정의 기록, 재생 구간을 선택하여 기술한다.

또, 사용자가 원하는 장면을 기술한다. 이 경우에는, 소정의 조정 모드 등으로, 사용자가 원하는 룰을 기술 가능하도록 한다.

여기서, 도 5 (A), 도 5 (B)의 상단에 나타낸 바와 같이, 뉴스 프로그램, 스모 프로그램의 경우의 일례에 대하여 나타내면 다음의 표 1과 같이 된다.

[표 1] 뉴스(보도)프로그램의 경우의 일례

여기서, 도 5 (A)에 나타낸 예에서는, a에서 어나운서 장면이 출현하는 룰을 기술하고 있지만, 1개의 규칙 처리에서는, 모든 상정되는 a의 장면(어나운서의 출현 장면)을 추출할 수 없다고 생각되므로, 몇개인가 복수개의 규칙으로 나누어 기술하도록 한다.

도 5 (A) 중의 b, c, d, e 등 다른 경우에 대해서도 마찬가지로 복수개의 규칙으로 나눈다.

스모 프로그램의 경우에는, 다음의 표 2와 같이 된다.

[표 2] 스모 프로그램의 경우의 일례

도 5 (B)에 나타낸 예에 있어서도, a의 대전 소개 장면에 있어서, 모든 상정되는 a의 장면, 예를 들면, 대전에 관련되는 씨름꾼, 스모의 심판, 심판원 등의 전원을 추출할 수 없는 것으로 상정되므로, 몇개의 복수개의 규칙으로 나누어 기술하도록 한다. 예를 들면, 각 문자에 대하여 복수개의 규칙을 설정한다. 또, 경우에 따라서, 추출하고 싶은 장면(키 프레임)의 상정되는 규칙을 나누어 기술을 행한다.

방송 프로그램에서는, 일의적(一義的)으로 의미를 부여할 수 없는 장면도 상정할 수 있다. 예를 들면, 정의 문자를 @으로 하고, 다음의 표 3과 같이 설정할 수도 있다.

[표 3]

전술한 바와 같이 설정한 정의 문자(설정 문자, 의미 문자)에 대한 규칙 1의 처리에 대하여, 뉴스 프로그램의 경우를 예로 구체적으로 설명한다.

도 18에 나타낸 바와 같이, 각 소정의 특징 데이터가 검출되는 경우에, 전술한 뉴스 프로그램의 경우의 정의 문자 a, b, c, d, e에 대한 각 장면이 대응하는 것으로 가정한다.

여기서, 도 5 (A), 도 5 (B) 중 ○의 경우에는 논리곱, △의 경우에는 논리합의 소정 처리라고 가정하여, 예를 들면, 정의 문자 a의 어나운서 장면에서는, 음성 특징의 속성이 말하는 사람 음성, 색특징의 검출 영역 2 또는 검출 영역 3에서 소정의 색이 검출되고, 유사 화상 정보의 빈도 1위 또는 2위가 검출되고, 인물 특징의 검출 영역 1 또는 검출 영역 2 또는 검출 영역 5에서 검출되고, 카메라 특징은 정지의 경우인 것으로 상정할 수 있다.

다른 b, c, d, e 등도 도 5 (A), 도 5 (B)의 각 ○, △에 표에 따라서, 전술한 a의 경우와 마찬가지로, 각 소정의 특징 데이터와 관련하여, 정의 문자와 특징 데이터를 관련지을 수 있다.

전술한 바와 같이 각 정의 문자와 각 특징 데이터는, 소정의 처리 즉 규칙 1의 처리, 규칙 2의 처리를 행하기 위해, 소정의 서식에 따라 기술한다.

도 6 (A)는, 그 일례로, 벡터 성분처럼 상정하여 기술하는 것이다.

즉, 도 5 (A), 도 5 (B)에 나타낸 각 특징 데이터를, 예를 들면, 음성 특징의 속성으로 하고, 속성이 말하는 사람 음성일 때는 A1, 속성이 음악일 때는 A2, 속성이 그 외의 경우에는 A3로 한다.

영상 특징의 색 특징으로, 영역 1은 B1, 영역 2는 B2 등으로 한다.

이하, 마찬가지로, 각 특징에 대하여, B1~B4, C1~C2, D1~D5, E1~E4, F1~F4, G1 등을 설정할 수 있다.

도 6 (A)에 있어서, 예를 들면, 정의 문자 a의 경우에는, 다음의 (2)식과 같이 기술할 수 있다.

다른 정의 문자에 대하여도, 도 6 (A)에 나타낸 바와 같이 기술할 수 있다.

그리고, 여기서, 「*」은 논리곱(AND), 「+」는 논리합(OR)과 마찬가지의 소정 연산을 표현하는 것으로 한다.

여기서, 예를 들면, 1.0(A1)100의 기술에 대하여 설명한다.

전술한 바와 같이, (A1)는, 음성 특징에서 속성이 말하는 사람 음성의 경우를 표현하고 있다. (가중 계수)

1.0(A1)100의 1.0은, (A1)에 대한 가중 계수 1.0의 범위를 상정하고 있다.

가중 계수는, 소정 연산을 행하기 위한, 편의적인, 0~100, 또는 O~10의 범위로 설정(기술)한다.

(검출 비율 계수)

1.0(A1)100의 100은, (A1)에 대한 검출 비율 계수로, 그 재생 유닛 구간에서, 100% 검출되는 경우에, 1.0(A1)100은, 그 조건을 만족시키는 것으로 한다.

예를 들면, 1.0(A1)50의 경우에는, 그 재생 유닛 구간에서, 50% 검출되는 경우에, 1.0(A1)100은, 그 조건을 만족시키는 것으로 한다.

이 검출 비율에 대하여는, 하기의 (3)식에서 설명한다.

여기서, 검출 비율 계수는, 편의상, O~100의 범위를 상정하고 있다.

검출 비율 계수는, 소정 연산을 행하기 위한, 편의적인 계수이므로, 0~1의 범위로 설정하는 것이나, 0~10의 범위에서 설정(기술)한다.

여기서, 이 검출 비율 계수는, 그 특성이 그 재생 유닛 구간에서 검출할 수 있었던 비율로 할 수 있다.

예를 들면, 전술한 1.0(A1)100에서는, 말하는 사람 음성이 100% 검출되지 않으면, (A1)의 특성을 검출한 것으로 판정하지 않을 수 있다.

예를 들면, 1.0(A1)50에서는, 50% 검출했다면 그 특성을 검출한 것으로 판정한다. 즉, 그 소정 구간에 있어서, 소정의 특성이 검출된 비율을 계수로 표현할 수 있다.

(특징 데이터의 검출 비율)

그래서, 특성의 검출의 비율에 대하여 설명한다.

처리 방법에 대하여는, 도 34~도 35를 참조하여 후술하지만, 본 발명에서는, 음성 세크먼트 특징과 장면 체인지 특징에 따라 설정 처리되는 재생 유닛(또는 플레이 유닛)(PU)라는 소정의 구간을 설정하는 처리 개념을 도입하고 있다.

그래서, 예를 들면, 그 PU 구간 전체에 대한 소정의 특징 데이터가 검출된 비율로, 전술한 각 소정의 특성의 비율을 연산한다.

예를 들면, 도 7에 있어서, 어느 재생 유닛의 구간 길이(프레임 길이, 시간 길이 등)를 fa로 하고, 어떤 특징 데이터 P의 검출 구간을 fO, f1이라고 가정하면, 이 경우의 특징 데이터 P의 검출 비율 F는, 다음의 (3)식에 의해 연산 처리할 수 있다.

이 (3)식에 의한 연산값은, 다음에 설명하는 평가값 처리에 있어서 사용하게 된다.

(평가값의 연산 방법의 예)(예1)

평가값(중요도)의 연산 방법의 일례를 나타낸다.

각 특징 데이터에 대하여, 이상값과 검출 결과를 다음과 같이 처리한다. 예를 들면, p=m(Mn)로서 다음의 (처리1)~(처리5)를 행한다.

(처리 1) (3)식을 이용하여, 각 소정 특징 데이터의 검출 비율 s를 연산한다.

(처리 2) 상기 검출 비율 계수 n와 비교하여,

로 한다.

(처리 3) 상기 처리로, 각 특징 M에 있어서, M1, M2 … 등 같은 속성의 특징의 경우에 논리합(+) 처리의 경우에는 평균 처리를 행한다.

논리곱(*) 처리의 경우에는, 편의상, 논리곱 계수 r과 같은 처리 개념을 도입하고, 그 평균 처리의 결과에 건 값으로 한다.

(처리 4)

전술한 처리를 각 특징 데이터 M마다 행하고, 각 연산값의 가산 처리를 행하고, 그 처리 결과를 그 평가값으로 한다.

(처리 5)

연산한 평가값을 비교하여 평가값이 가장 큰 경우의 의미를 그 재생 유닛 a의 의미로 한다.

전술한 평가값 처리는, 처리 방법의 일례이며, 검출된 특징 데이터, 또는 그 재생 유닛 구간에 있어서 검출된 비율 등과, 설정한 「의미」라는 대응이 소정의 타당성을 가진 처리 방법이면, 상기 이외의 처리 방법이라도 된다.

예를 들면, 전술한 처리 3의 처리에서 논리곱 처리의 경우에는, 평균화 처리나 논리곱 계수를 걸지 않고, 같은 속성의 특징 데이터를 가산하는 처리만으로 하는 것 등이 상정된다.

(처리 3)의 처리의 경우에, 같은 특징 데이터로 논리곱 처리하는 경우에는, 검출 조건이 논리합 처리의 경우와 비교하여 엄격하게 되므로, 검출값을 논리합 처리의 경우보다 크게 취하도록 처리를 행할 수 있다.

여기서, 전술한 (2)식의 경우에 대하여 설명한다.

예를 들면, 각 특징의 검출 비율을 이하의 표 4와 같이하고, 검출 비율 계수, 가중 계수를 함께 나타낸다.

[표 4]

여기서, B2, B3나, C1, C2 등과 같이 같은 특징의 종류에서, 검출 속성이 상이한 경우나, 또는 검출 영역이 상이한 경우 등에서, 논리합 처리(+)의 경우에는, 편의상, 평균 처리를 구하고, (2)식으로부터, 평가값 h는, 다음의 (6)식에 의해 나타낸다.

또는, 특징 데이터의 종류로 평균화한 값을 평가값으로 할 수 있고, 그 경우에는, 특징 데이터는, A~F의 5종류이므로, 다음의 (7)식에 나타낸 바와 같은 평가값으로 할 수도 있다.

(속성이 같은 특징 데이터 간의 관계가 논리곱 처리되는 경우)

여기서, (2)식의 처리로, 같은 속성의 특징 데이터, 예를 들면, B2, B3가 논리곱 처리되는 경우, 즉 (1.0(B2)100*1.0(B3)100)과 같은 경우에 대하여 검토한다.

전술한 평가값 처리의 (처리3)으로부터 논리곱 처리 계수 r이라는 개념을 도입하고, r(80+80)/2와 같은 처리를 상정한다.

예를 들면, r=1, 5로 하면,

또, 특징 데이터의 종류 5로 평균화 처리하여

라는, 평가값으로 할 수 있다.

이것은, 논리곱 처리의 경우가 논리합 처리와 비교하여 조건이 엄격하므로, 검출한 「의미」의 평가값을 크게 설정한 쪽이 바람직한 경우이다.

또, 경우에 따라서는, r= 0.8로 하여

또, 특징 데이터의 종류5로 평균화 처리하여

라는 평가값으로 할 수도 있다.

이것은, 전술한 경우와는 역으로, 논리곱 처리의 경우가 논리합 처리와 비교하여 조건이 엄격하므로, 평가값을 작게 설정한 쪽이 바람직한 경우이다.

(속성이 상이한 특징 데이터 간의 관계를 논리화 처리하는 경우)

여기서, 예를 들면, (2)식에서 나타낸 바와 같이, 속성이 상이한 특징 데이터는, 논리곱 연산자(*)로 표현하고 있지만, 논리합 연산자(+)의 경우도 있다.

간단하게 하기 위해, (2)식에서 제1 항목 A1, 제2 항목 B2만을 구하고,

전술한 평가값 연산 방법(3)에서 설명한 바와 같은, 편의상, 논리합 계수 w 라는 개념에 따라 처리를 행한다.

이 경우, (12)식으로부터, 평가값 h는,

로 된다. 여기서,

W= 1

의 경우는, 논리곱 처리의 경우이며,

로 된다.

예를 들면, (8)식의 논리합 처리의 경우에는,

로 하여,

와, 논리곱 처리의 경우보다 높은 평가값으로 되도록 한 처리를 행한다.

또,

로 하여,

와 같이, 논리곱 처리보다 작은 평가값으로 되도록 한 처리를 행한다.

평가값 처리는, 설정한 의미와 각 특징 데이터, 각종의 계수 등을 묶은 식의 값의 평가를 위해 편의상 도입한 개념이므로, 상기 평가식의 각 계수의 범위, 값 등은, 전술한 설명에서 말한 경우에 한정되지 않고, 작거나, 또는 크게 설정할 수도 있다.

다음과 같은 평가값의 연산에 의해, 룰 파일에 의해, 룰에 기술된 재생 유닛의 각 구간의 평가값이 결정되고, 예를 들면, 요약 재생 모드인 경우에는, 요약 재생 시간에 따라, 평가값이 큰 PU 구간이 선택되고, 요약 시간에 가능하면 가까와지도록, 점점 평가값이 작은 PU 구간을 선택하여 간다.

그리고, 선택한 각 PU 구간을 재생함으로써, 소정의 요약 재생을 실현할 수 있다.

(평가값 처리의 다른 처리 방법)

상기에서 말한 각 특징 데이터 n의 일항과, 소정 연산자*로부터 w(M)*k로 하고, 각 소정 특징 데이터의 검출 비율 det 가중 계수 w, 검출 비율 계수 k로서, 평가식의 각 항의 특징 데이터 n의 가중 계수를 w(n)로 하여, 연산 함수 P와 연산자*로 한다.

여기서, 연산자* 이하의 것 중 어느 하나에 해당하는 것으로서,

d(n)은,

(1) *=(｜｜>)의 경우, 즉 P((｜｜>)k(n), det(n))이며,

(2) *=(｜｜＜)의 경우, 즉 P((｜｜＜)k(n), det(n))이며,

로 된다.

상기(1), (2)와 같은 처리의 경우에는, 검출 det(n)와 설정 검출 비율 k(n)에 따라서, 도중 처리값 d(n)를 100 또는 0으로 처리하므로, 하기의 (3) 또는 (4)에서 설명하는 도중 처리값이 차분값이 되는 경우와 비교하여, 특징 데이터를 현저하게 특징짓고 싶은 경우에는 유효하다.

또한,

(3) *= (｜>)의 경우, 즉 P((｜>)k(n), det(n))이며,

(4) *= (｜<)의 경우, 즉 P((｜<)k(n), det(n))이며

이므로, 평가값은 다음의 (29)식과 같이 된다.

[수식 1]

전술한 연산자의 도입에 의해, 예를 들면, A1, B2의 특징 데이터가 있었을 경우에 다음과 같이 기술할 수 있다.

이 경우, 예를 들면, A1 특징의 검출 비율(실제의 검출값)을 100, B2 특징의 검출 비율(실제의 검출값)을 80이라고 가정하면, 상기 (1), (4)로부터, 평가값 h는,

라는 평가값으로 할 수 있다.

전술한 바와 같이, 평가값 처리의 방법에는, 몇가지 방법이 있지만, 여기서 설명한 방법에 한정되지 않아도 된다.

여기서, 도 6 (A)에 나타낸 규칙 1의 기술(記述)에 있어서는, 기술하는 데이터의 출현 패턴(의미)의 표현 방법의 일례이며, 의미로서, a, b, c … 등으로 하였으나, 그 부정(不正)으로서 A, B, C, … , 또, 와일드 카드로서, * 등을 사용할 수 있다.

(규칙 2의 처리의 경우)

규칙 2의 처리에서는, 상기 규칙 1의 처리로 의미가 부여된 소정 구간인 재생 유닛끼리의 의미의 접속을 고려하여 처리를 행하도록 한다.

또, 시간 보정 함수를 사용하여 시간적인 보정, 즉 시간적인 가중 처리를 행한다.

예를 들면, 상기 규칙 1의 처리에 있어서, 의미 a의 평가값을 70, 의미 b의 평가값을 80이라고 가정하면, (ab)의 평가값 g는,

g= 70+80

=(150)

또는, 의미수의 평균을 구하고, 여기서는, ab의 2개이므로,

g= 510/2

= 75

또는, 각각의 평가값의 곱을 구하고,

g= 70×80

= 5600

예를 들면, 편의상, 최대값을 100으로 가정하여 최대값으로 정규화하면,

g= 5600/100

= 56

으로 할 수 있다.

시간 보정 함수의 가중치는, 예를 들면, 전술한 (ab)가, 어떤 시점 t에서 검출할 수 있고, 그 평가값이 g이며, t에서의 시간 보정 계수(가중 계수)를 W라고 하면, gt를 최종적인 평가값으로 한다.

시간 보정 함수는, 룰 파일에 있어서 규칙 2의 소정 기술 장소에, 소정 기술 규칙에 따라 그 변화점(변화점 좌표계의 정보 데이터)을 기술한다.

규칙 2의 처리의 일례를 도 6 (B)에 나타낸다.

(시간 보정 함수)

먼저, 시간 보정 함수에 대하여 설명한다.

이 시간 보정 함수는, 룰 파일에 있어서의 소정 프로그램 장르에 있어서의 요약 시간 보정을 행하기 위해 이용할 수 있다.

이것은, 사용자에 따라서는, 소정의 방송 프로그램에 따라서는, 방송 시간의 전반이나 후반을 중점적으로 재생하려는 경우도 상정할 수 있다.

그래서, 기록하는 프로그램의 장르, 방송 시간, 기타 등의, 그 방송 프로그램에 따른 각종의 파라미터를 고려하여, 요약 재생(다이제스트 재생)을 행하는 소정의 재생 구간에 대하여 시간(경우에 따라서는 시각)의 중요도를 부여하도록 할 수 있다.

즉, 이 중요도를 부여하는 구간은, 시간적으로 그 이외의 가중을 행하지 않는 구간과 비교하여, 요약 재생(다이제스트 재생)을 행하는 경우의 재생의 중요도를 크게 처리하게 된다.

도 8 (A)~도 8 (I)는, 전술한 시간의 중요도를 부여하기 위한 시간 보정 함수의 일례를 나타낸 것이다.

도 8 (A)는, 평탄한 특성이며, 소정의 요약 재생 구간에 대하여 시간의 가중을 행하지 않는 경우이다.

도 8 (B)는, 소정의 구간 내에 있어서, 전반부 쪽을 후반부와 비교하여, 요약 재생에서의 중요도로서의 재생의 가중을 크게 하는 가중을 행하고 있는 경우이다.

도 8 (C)는, 소정의 구간 내에 있어서, 후반부 쪽을 전반부와 비교하여, 요약 재생에서의 중요도로서의 재생의 가중을 크게 하는 가중을 행하고 있는 경우이다.

도 8 (D)는, 소정의 구간 내에 있어서, 전반부와 후반부를 중간부와 비교하여, 요약 재생에서의 중요도로서의 재생의 가중을 크게 하는 가중을 행하고 있는 경우이다

도 8 (E)는, 소정의 구간 내에 있어서, 중간부를 전반부 및 후반부와 비교하여, 요약 재생에서의 중요도로서의 재생의 가중을 크게 하는 가중을 행하고 있는 경우이다.

도 8 (F)는, 도 8 (D)에 나타낸 다른 형태의 보정 함수를 2개 접속한 것이며 전반부, 전반과 중앙부의 사이, 중앙부, 중앙부와 후반부의 사이, 후반부에 각각 가중치를 부여하고, 또한, 각 가중치를 상이한 것으로 하고 있다.

도 8 (G)는, 도 8 (E)에 나타낸 다른 형태의 보정 함수를 2개 접속한 것이며 전반부, 전반과 중앙부의 사이, 중앙부, 중앙부와 후반부의 사이, 후반부에 각각 가중치를 부여하고, 또한, 각 가중치를 상이한 것으로 하고 있다.

도 8 (H)는, 도 8 (C) 및 도 8 (D)에 나타낸 조합 함수이며, 도 8 (I)는, 도 8 (D)와 도 8 (B)의 조합 함수를 나타내고 있다.

도 9는, 일반적인 시간 보정 함수의 상태를 나타낸 것이며, 개시점, 변화점, 종점의 좌표를 각각, P0(ts, s3), P1(tl, s3), …, Pe(te, sO)로 하고 있다.

여기서, 좌표의 y성분은, 가중치를 나타내고 있으므로, 여기서는, 편의상 최대값을 100, 최소값을 O으로 하고, O~100 사이의 값을 취하는 것으로 하고, x 좌표는, 위치 정보로서, 후술하는 도 41~도 43에 나타낸 「개시 종료 위치 정보」의 데이터와 같은 디멘션의 값, 또는 개시 종료점 사이의 구간에 근거하는 개시점으로부터의 비율이며, O~100 사이에서 설정하여 위치를 나타내고 있다.

(재생 유닛의 의미와 접속 관계, 판정 처리)

상기에서 설명하였으나, 소정의 특징 추출 처리에 의한 특징 데이터로부터 그 재생 유닛(PU)에 있어서의 의미를 설정할 수 있다.

여기서, 도 10에 나타낸 바와 같은 비디오 데이터의 구조에 대하여 설명한다.

어느 1개의 프로그램(프로그램k)를 상정하면, 몇개의 장면 m, m+1, … 로 분류할 수 있고, 장면은 몇개의 숏으로 분류할 수 있다.

그리고, 세그먼트(숏)를 구성하는 것은, 1개 1개의 프레임으로 된다. 장면의 절취선(구역)은, 장면 체인지가 된다.

세그먼트(또는 숏, 또는 화상 세그먼트. 이하 동일)는, 장면마다, 그 장면에 따른 유사 화상의 모음, 또는 유사한 화상(영상) 특성의 모음도 할 수 있다.

세그먼트나 장면 등은, 그 프로그램(프로그램) 중에 있어서, 고유한 의미의 개념을 가지고 있다.

그리고, 각각의 의미를 가진 세그먼트, 장면은, 몇개로 모아져, 그 프로그램을 구성하고 있는 비디오 구조로 파악할 수 있다.

예를 들면, 야구의 프로그램을 상정한 경우에, 타자의 화면이 이어지고 있었다고 하면, 타자의 유사 화상이 검출되고, 그 유사 특성 세그먼트로 분류할 수 있다. 그 세그먼트는, 「타자의 화상」이라는 의미(의미의 개념)를 가지게 된다.

또, 투수의 투구하는 화면이 이어지고 있으면, 투수의 유사 화면이 검출되고, 그 유사 특성에 따라 세그먼트로 분류할 수 있다. 그 세그먼트는, 「투수의 화상」이라는 의미(의미의 개념)를 가지게 된다.

여기서, 투수가 투구하여, 타자가 타격하고, 그 타자가 주루(走壘)하도록 한 경우를 상정한 경우에, 「투수의 화상 장면」, 「타자의 화상 장면」, 「타자의 주루의 화상 장면」이라는, 각각 의미를 가진 화상 장면의 연결을 파악할 수 있다.

소정 프로그램(프로그램)에 있어서, 전술한 PU마다, 화상 특징 데이터, 음성 특징 데이터가 처리되고, 이들 특징 데이터에 따라 그 PU의 의미를 설정하는 것을 상정한다. 예를 들면, 뉴스 프로그램을 상정한 경우에, 캐스터(어나운서)가 최초에 뉴스의 항목을 읽어 내리는 장면(뉴스 프로그램의 헤드라인)의 경우에, 그 장면(화상)의 특징으로서, 인물 특징이 1명~2명, 텔롭(Tlp 특징), 음성 특징의 속성이 말하는 사람 음성, 또한, 뉴스 프로그램이라고 했을 때, 그 뉴스 프로그램 중, 뉴스를 읽어 내리는 장면은 몇개 존재하므로, 그 뉴스 읽어 내리는 장면과 유사한 장면은 몇개 존재하게 되므로, 유사 화상 특징 즉 특정한 장면 ID는 출현 빈도가 높아진다.

이와 같이, 규칙 1의 처리에서도 설명한 바와 같이, 인물 특징, 음성 특징, 텔롭 특징, 유사 화상 특징, 그 외에 소정의 특징 데이터에 따라서, 그 PU의 의미를 설정할 수 있다.

예를 들면, 전술한 야구의 프로그램의 예와 같이, 소정의 의미를 가지는 PU의 접속 관계가 상정된다. 즉, 소정의 특징 데이터 또는 특성 데이터를 가지는 PU 사이의 소정의 접속으로 할 수 있다.

전술한 소정의 의미를 가진다, 즉 소정의 의미가 설정된 PU의 접속 관계를 도 11에 나타낸다.

도 11에 있어서, 어떤 프로그램(프로그램)에서 소정의 의미 a ~ 의미 d가 설정되어 있고, 어느 구간 PU(n)~PU(n+2)에서, 접속 관계는, PU(n)의 의미 a, PU(n+1)의 의미 b, PU(n+2)의 의미 c가 가장 자연스러운 연결로 되는 것을 나타내고 있다.

즉, 이 도 11에 나타낸 예는 스모의 경우를 상정하고 있고, 의미 a 「대전 소개 장면」의 후에는 의미 b 「입회 장면」이 계속되는 것이 가장 타당성 있고 합리적이며, 의미 b 「입회 장면」의 후에는 의미 「대전 장면」이 계속되는 것이 가장 타당성 있고, 합리적이다.

그리고, 접속 관계로서 abc 라는 의미를 정의한 문자 계열로 할 수 있고, 이 abc의 계열을 키 프레임으로 하면, 어떤 프로그램(프로그램) 중 abc를 찾아, 찾은 소정 구간의 최초와 최후, 또는 그 근방 등을 소정 설정점으로 하여 설정 처리를 행할 수 있다.

다른 예로서 예를 들면, 프로그램 장르가 야구인 경우에는, 어느 구간에서 재생 유닛이, 각각, 「투구」, 「쳤다」, 「의미 없음」, 「득점」이라는 경우에, 「의미 없음」을 제외하고, 3개의 의미, 「투구」, 「쳤다」, 「득점」을 가진 것으로 판정된 PU를 1개로 함께, 「투구, 친, 득점」이라는 소정 PU의 덩어리를 상정할 수 있다.

여기서, 「의미 없음」의 PU는, 의미가 없는 것으로 판정된 것에 의해 포함해도 문제없고, 상기 4개의 PU를 1개로 모아 「투구, 친, 의미없음, 득점」이라는 소정 PU의 모음으로 할 수 있다.

여기서, 「의미 없음」을 예로 든 것은, 전술한 규칙 1의 처리로 소정의 특징 데이터로부터 소정의 평가 처리로, 설정한 몇 개의 의미 중, 소정의 의미 부여 처리를 행하는, 즉, 복수개의 의미로부터 소정의 신호 처리에 따라 확실한 것 같은 의미를 부여를 행할 수 없는 경우도 상정할 수 있기 때문이다.

「의미 없음」대신에, 「어떠한 의미라도 된다」라고 할 수 있다. 이것은, 상기한 @과 동일한 처리이다.

어떤 뉴스 프로그램의 경우에, aabb 라는 접속, 즉, 「어나운서 장면」, 「어나운서 장면」, 「현장 장면」, 「현장 장면」이라는 접속이, 타당하고 합리적인 경우를 도 12 (A)에 나타낸다.

먼저 설명한 스모 프로그램의 경우를 도 12 (B)에 나타낸다.

도 13 (A), 도 13 (B)는, 전술한 프로그램 장르가 뉴스 프로그램의 경우에, 도 13 (A)에 나타낸 바와 같이, 참조 패턴(참조 문자 계열)을 상기에서 설명한 「aabb」로 하고, 도 13 (B)에 나타낸 바와 같이, 예로 드는 소정의 프로그램 기록 구간 중 「aabb」의 구간을 찾아가, 구간 A1, 구간 A2가 「aabb」와 일치하므로, 검색할 수 있었던 것을 나타내고 있다.

그리고, 도 13 (B)에 나타낸 바와 같이, 예를 들면, 찾을 수가 있었던 「aabb」구간의 최초의 위치 p1, p3, 최후의 위치 p2, p4를 소정 설정 위치로 하여 설정하고, 다음에 설명하는 플레이 리스트의 챕터 데이터(위치 정보 데이터)로 하여 소정의 처리를 행한다. 예를 들면, 요약 재생 모드인 경우에는, 상기 설정 위치 p1~p2, p3~p4를 재생하도록 재생 제어 처리를 행한다.

챕터 설정 등, 소정 시점 설정(소정 위치 설정) 처리의 경우에는, p1, p2, p3, p4의 각 시점, 또는 이들 각 점의 소정의 근방 위치를 그 설정 위치로 하여 소정의 처리를 행한다.

이와 같이, 소정의 특징 데이터로부터 소정의 PU의 의미를 가지는 것으로 판정하고, 그 소정의 의미를 가지면 그 PU로 설정하고, 이들 의미가 판정되어 설정된 PU로부터 의미의 접속관계를 상정하고, 소정의 의미에 따른 소정수의 PU의 접속이나 소정수의 PU의 집합을 상정하여 처리를 행할 수 있다.

도 6 (B)에 나타낸 규칙 2의 처리의 기술 방법의 일례에서는, 키 프레임(중요 프레임)으로 상정하고, 검색하고 싶은 문자 계열을 (aabb)처럼 하고, 그 후에, 가중치 부여 계수로서 100을 설정하고 있다. 그 후의 Ps(ts,s4), P1(t1,s4), Pe(te,s3)는, 먼저 설명한 시간 보정 함수로서, 이 예의 경우에는, 도 14에 나타낸 바와 같이, 프로그램의 후반부에서 서서히 중요도가 감소하도록 한 함수로 되어 있다. 이 도 14에 나타낸 바와 같은 시간 보정 함수의 경우에는, 프로그램의 전반부를 중점적으로 시청하려는 것과 같은 경우에 적합하다.

여기서, 도 6 (B)에 나타낸 규칙 2의 처리의 기술에 있어서는, 기술하는 데이터의 출현 패턴(의미)의 표현 방법의 일례이며, 의미로서 a, b, c … 등으로 하였으나, 그 부정으로서 A, B, C, …, 또 와일드 카드로서, * 등을 사용할 수도 있다. 이 도 6 (B)에 나타낸 규칙 2의 처리의 기술에 있어서, 뉴스 프로그램의 장르의 경우의 하나로서 예를 들면, (Abb)로 한 경우에는, A는, 「어나운서 장면」이외에, b는, 「현장의 장면」이라 하게 되고, 「어나운서 장면」이외에 「현장의 장면」이 2개 계속되는 경우를 검출하게 된다.

여기서, 평가값의 연산 방법의 일례로서, 다음과 같은 처리이다. 예를 들면, 재생 유닛군을 (abc)로서 상기 (1)식에 의해, a, b, c의 각 검출 비율(value)과, 가중 계수가 이하의 표 5에 나타낸 바와 같은 경우가 있다.

[표 5]

평가값= 100×(100+64+64)/(가중치의 총계)

= 100×28/(100+80+80)

= 100×28/260

= 88

여기서, 100을 건 것은, 편의상, 비율(%)을 고려하기 위한 것이지만, 전술한 바와 같이, 평가값의 스케일은, 소정의 평가 처리가 행해지고, 또한 소정의 연산 처리 상 문제가 아니면 되므로, 오버플로 등 처리상의 문제가 아니면, 비율을 고려하지 않아도 된다.

(규칙 2의 처리에 있어서의 재생 유닛군의 다른 예)

여기서, 규칙 처리 2에 있어서의, 어떤 「의미」의 재생 유닛이 복수개 접속된 재생 유닛군을 1개의 의미군 유닛으로 하고, 의미군 유닛이 복수개 접속되는 경우를 설명한다.

상기 규칙 1의 처리에서는, 1개의 재생 유닛만의 예를 들어 설명하였다. 그것은, 특징 데이터로부터, 검출하는 「의미」에 가장 확실한 것 같은 재생 유닛을 보기 위해서였다.

이것을 더 발전시켜, 재생 유닛군, 즉 이 규칙 2의 처리로 행한 의미와 이어지는 재생 유닛을 1개의 덩어리로 하고, 그 덩어리끼리를 접속한 구간을 검출하도록 할 수 있다.

예를 들면, 상기 (aabb)를 Ga1으로 하고, (Ga1Ga1)과 같은 접속으로 할 수 있다. 이 경우에, Ga1의 평가값에 대하여 규칙 1과 유사한 처리를 행한다. 이 경우의 평가값의 연산 방법으로서, 예를 들면, 각 의미의 재생 유닛의 평가값의 합의 평균이나, 각 의미의 재생 유닛의 평가값의 곱의 평균 등을 구할 수 있다.

예를 들면, a의 평가값을 80, b의 평가값을 60으로 한 경우에, Ga1의 평가값은, 가산의 경우는,

(80+80+60+60)/4= 70

이며, 70을 평가값으로 할 수 있다.

규칙 3 처리의 경우, 통상은, 도 15 (A)에 나타낸 바와 같이, 규칙 2의 처리까지로 되지만, 복수개의 프로그램 대하여 특징 데이터를 설치한 경우에, 예를 들면, 프로그램마다 시간 목표 가중 처리를 행하는 경우에는, 또한, 규칙 처리로서, 도 15 (B)에 나타낸 바와 같이, 규칙 3 처리를 설치한다.

그 일례로서, 뉴스 프로그램(ncws)과 스포츠 프로그램(sports)에 대하여 가중치와 시간 보정을 행하는 경우의 예를 도 6 (C)에 나타낸다.

도 6 (C)에 나타낸 예에서는, 뉴스 프로그램은, 100%의 가중을 행하고, 시간 보정 함수로서 개시점 Ps(ts,s4), 변화점 P1(t1,s4), 종점 Pe(te,s3)으로 하는 보정을 행하고, 스포츠 프로그램에 대하여는, 70%의 가중을 행하고, 시간 보정 함수로서 개시점 Ps(ts,s4), 변화점 P1(t1,s4), 종점 Pe(te,s3)로 하는 보정을 행한다.

도 3에서 설명한 처리 내용을 도 16을 참조하여 추가로 설명한다.

도 16 (A)에 나타낸 바와 같은, 규칙 1의 처리에 의해, 각종 소정의 특징 데이터에 따라 각 장면은 몇개의 의미 부여 처리가 행해진다.

여기서, 규칙 2에 의해 의미가 부여된 각 장면에는, 도 16 (B)에 나타낸 바와 같이 평가값이 소정의 처리에 의해 설정된다.

예를 들면, 요약 재생 모드인 경우에는, 사용자가 원하는 시간 t1에서 재생하는 경우에, 상기 평가값이 가장 높은 장면(화상)으로부터 선택하여 가고, 가능한 한 t1에 가까와지도록 평가값이 높은 장면으로부터 선택하여, 그 선택한 구간을 재생하도록, 그 위치 정보를 설정한다.

설정한 위치 정보는 소정의 데이터 메모리에 기억하고, 재생 제어를 행할 때, 위치 정보를 판독하여, 소정 구간의 재생을 행하여 간다.

그리고, 각 구간을 차례로 재생(스킵 재생)함으로써, 소정의 요약 재생(다이제스트 재생)을 행한다.

도 16 (C)에 나타낸 예에서는, 전체 기록 시간을 예를 들면, 60분으로 하고, 약 재생을 15분에 행하려고 하는 것으로 가정하여, 평가값이 70 이상의 PU를 선택하여, 15분에 약간 만족시키지 못하는 경우에, 평가값 60의 PUn+8의 구간을 선택하여, 원하는 재생 시간 15분에 가능하면 가까워지도록 처리를 행하고 있다.

이와 같이 평가값이 큰 소정 PU 구간을 선택하여 가고, 소정의 재생 시간에 가능하면 가까워지도록, PU 구문을 선택하여 간다.

원하는 재생 시간 Tm에 대하여 소정의 허용 범위 tc 내에 재생 시간 T가 있도록,

Tm-tc<T<Tm+tc

로 되도록, 평가값에 따라 소정의 PU 구간을 선택한다.

또, 도 16 (D)에 나타낸 바와 같이, 예를 들면, 의미가 부여된 평가값이 높은 구간의 최초(또는 그 근방), 평가값이 높은 구간의 최후(또는 그 근방)에 소정 위치(챕터)를 설정함으로써, 그 구간의 편집 처리를 하거나, 스킵 재생의 일시 정지 처리, 반복 재생 처리 등, 소정의 조작을 행하는 것에 이용할 수 있다.

(2) 블록 구성예

여기서는, 간단하게 하기 위해, 기록하는 화상 음성 데이터는, 방송 프로그램의 데이터로 하고, MPEG에 의한 소정의 대역 압축 처리가 행해지는 것으로 한다. 그리고, 그 외의 대역 압축 신호 처리로서 웨이브렛 변환, 프랙탈(fractal) 이론 해석 신호 처리 기타 등을 사용하도록 해도 된다. 예를 들면, 하기 설명에서 화상 데이터의 DCT 계수는, 웨이브렛 변환의 경우에는 다중 해상도 해석에 있어서의 해석 계수 등에 상당하며 마찬가지의 신호 처리를 행할 수 있다.

2.1 블록 구성예 1

본 발명을 적용한 기록 재생 장치(30)의 전체 블록 구성예를 도 17에 나타낸다.

여기서는, 간단하게 하기 위해 텔레비전 방송을 수신하여, 수신한 방송 프로그램을 기록하는 예를 들어 설명한다.

2.1.1 기록 신호 처리계

이 기록 재생 장치(30)에서는, 수신 안테나계(1)와 수신계(2)에 의해 소정의 방송 프로그램이 수신되고, 음성 신호는 음성 A/D 변환 처리계(3)에 의해 소정의 샘플링 주파수, 소정의 양자화 비트수로 소정의 A/D 변환 신호 처리가 행해지고, 그 후 음성 인코더 처리계(4)에 입력된다.

음성 인코더 처리계(4)에서는, 예를 들면, MPEG 오디오나 AC3 오디오(돌비 AC3, 또는 Audio Code number 3) 등의 소정의 대역 압축 방식으로 신호 처리가 행해진다.

마찬가지로, 영상 신호는 영상 A/D 변환 처리계(8)에 의해 소정의 샘플링 주파수, 소정의 양자화 비트수로 소정의 A/D 변환 신호 처리가 행해지고, 그 후, 화상 인코더 처리계(9)에 입력된다.

화상 인코더 처리계(9)는, MPEC 비디오나 웨이브렛 변환 등의 소정의 대역 압축 방식으로 신호 처리가 행해진다.

음성 인코더 처리계(4) 및 화상 인코더 처리계(9)에 의해 처리된 음성 데이터 및 화상 데이터는, 다중화 처리계(5)를 통하여 기록 처리계(6)에 입력된다.

음성 신호의 특징 추출을 행하기 위해, 음성 인코더 처리계(4)에 입력하는 신호의 일부 또는 상기 소정 인코더 신호 처리에 있어서의 신호 처리 과정 도중의 신호의 일부는 특징 추출 처리계(10)에 입력된다.

도 17에 나타낸 기록 재생 장치(30)에서는, 음성 인코더 처리계(4)에 입력되는 신호의 일부로서, 음성 인코더 처리계(4)로부터 특징 추출 처리계(10)에 신호가 입력되어 있지만, 음성 인코더 처리계(4)에 인식되는 동시에 특징 추출 처리계(10)에 입력하도록 해도 된다.

마찬가지로 영상(화상) 신호의 특징 추출을 행하기 위해, 영상 인코더 처리계(9)에 입력되는 신호의 일부 또는 상기 소정 인코더 신호 처리에 있어서의 신호 처리 과정 도중의 신호의 일부가 특징 추출 처리계(10)에 입력된다.

이 도 17에 나타낸 기록 재생 장치(30)에서는, 영상 인코더 처리계(9)에 입력되는 신호의 일부로서, 영상 인코더 처리계(9)로부터 특징 추출 처리계(10)에 신호가 입력되어 있지만, 영상 인코더 처리계(9)에 입력되는 동시에 특징 추출 처리계(10)에 입력되도록 해도 된다.

기록 모드에 있어서 소정 구간마다 순차 특징 데이터는 검출되고, 소정의 인코더 처리가 행해진 화상 음성 데이터와 함께 소정의 기록 매체(7)의 소정의 기록 영역에 기록된다.

상기 특징 데이터로부터 소정의 요약 재생(다이제스트 재생)을 행하기 위한 플레이 리스트 데이터의 생성을 행하는 플레이 리스트 처리(9) 또는 챕터 데이터의 생성을 행하는 다이제스트 재생 챕터 처리(11)를 플레이 리스트 챕터 생성계(19)에 의해 소정의 신호처리를 행한다.

여기서, 플레이 리스트 데이터, 챕터 데이터의 생성은, 다음과 같은 신호 처리 프로세스(처리 a 또는 처리 b)로 행할 수 있다.

(처리 a) 특징 데이터를 소정 메모리계 또는 시스템 컨트롤러계의 소정 메모리 영역에 소정 데이터량 축적된 후, 소정의 플레이 리스트 데이터의 생성 처리, 소정의 챕터 데이터의 생성 처리를 행한다.

(처리 b) 화상 음성 데이터를 기록하는 기록 매체(7)에 소정의 특징 추산처리를 행할 때마다 순서대로 특징 데이터를 기록하고, 소정 데이터량 기록한 후, 그 데이터를 재생하여, 소정 플레이 리스트 데이터, 소정 챕터 데이터의 생성을 행한다.

(처리 a)의 경우, 예를 들면, 소정 시간 길이 t의 방송 프로그램을 기록하면 그 시간 길이 t의 기록이 종료되면, 그 방송 프로그램에 있어서의 모든 소정 특징 데이터가 집적되므로, 이 시점에서, 시간 길이 t 중 소정의 요약 재생 시간 td에 대응하는 키 프레임이 어디가 될까를 결정하는 플레이 리스트 데이터 생성 처리를 행할 수 있다. 즉, 이 시간 길이 t에 처리되는 특징 데이터를 메모리계, 또는 시스템 컨트롤러계의 소정 메모리 영역에 축적(기억 또는 기록)해 두게 된다.

(처리 b)의 경우에는, 상기 (처리 a)의 경우와 마찬가지로 소정 시간 길이 t 기록한 후, 소정 시간 t 기록 종료한 것을 검출(검지)하여, 소정의 특징 데이터를 재생하여 소정 요약 재생 시간 td에 따른 플레이 리스트 데이터 생성 처리를 개시하게 된다.

플레이 리스트 데이터 생성 처리가 종료하면, 소정의 요약 재생의 동작을 행할 준비를 할 수 있게 되어, 이 플레이 리스트 데이터를 사용하여 소정의 요약 재생(다이제스트 재생)을 행할 수 있다.

상기 소정의 특징 데이터는, 플레이 리스트 데이터가 이미 생성되어 있으므로, 이제 플레이 리스트 데이터를 생성하지 않는 경우에는 소거하도록 신호 처리를 행하는 것이 있지만, 플레이 리스트 데이터를 수정하는 등, 데이터의 생성을 재차 행하는 경우에는, 특징 데이터는 그대로 기록하여 남겨도 된다.

상기 특징 데이터는, 시스템 컨트롤러계(20)를 통하여, 소정 구간의 특징 데이터의 축적 후, 플레이 리스트 챕터 생성 처리계(19)에 의해 소정의 요약 재생(다이제스트 재생)용 플레이 리스트 데이터를 생성한다.

상기 생성된 플레이 리스트 데이터는, 기록 처리계(6)에 있어서 소정의 기록 처리가 행해진 후, 기록 매체(7)의 소정의 기록 영역에 기록된다.

여기서, 플레이 리스트 데이터는, 소정의 기록된 구간을 스킵 재생하기 위한, 소정 재생 구간마다의 재생 개시점 정보와 재생 종료점 정보의 쌍으로 되는 데이터로 구성되며, 예를 들면, 소정 구간마다의 재생 개시 프레임 번호와 재생 종료 프레임 번호의 데이터 쌍 등으로 된다.

플레이 리스트 데이터는, 그 기록한 프로그램에 있어서의, 소정의 필요한 구간을 스킵 재생함으로써 요약 재생(다이제스트 재생)을 행하는 처리를 위해 사용하므로, 상기와 같이 프레임 데이터 외에, 타임 코드 데이터나 MPEG에 있어서의 PTS(Presentation Time Stamp), DTS(Decode Time Stamp) 등의 타임 스탬프 데이터라도 된다.

플레이 리스트 데이터는, 상기와 같이 방송 프로그램과 같은 화상 음성 정보 데이터를 기록하는 기록 모드 시에 소정 프로그램 기록 종료 후에 소정의 생성 처리를 행하는 외에, 후에 설명하는 재생 모드에 있어서, 특징 데이터를 이용하여 소정의 처리를 행해도 된다.

도 17에 있어서 예를 들면, 이미 MPEG 등 소정의 인코드 처리가 행해진 화상, 음성 데이터를 기록하는 경우에는, 음성 인코더 처리계(4), 화상 인코드 처리계(9)에 의해 인코드 처리를 행할 필요는 없고, 직접, 다중화 처리계(5)에 입력하고, 기록 처리계(6)에 의해 기록 처리를 행하여 기록 매체에 기록할 수 있다.

여기서, 직접 디지털 화상, 음성 데이터가 입력되어 기록되지만, 수신계(2)에 의해 아날로그 신호가 입력되고 소정의 인코드 처리 후에 기록되는지는, 시스템 컨트롤러계(20)에 의해 검출할 수 있고, 이와 같이 입력 계통의 상위에 따라서, 상기 소정의 화상, 음성 특징 데이터 추출 처리를 기록 모드일 때 자동적으로 행할 것인지, 기록 종료 후에 행할 것인지를 결정하도록 하거나, 또는 디지털 화상, 음성 데이터를 입력하는 경우에는, 소정의 인코드 처리계를 데이터가 통하지 않으므로 소정의 데이터 구조 해석 처리를 행할 필요가 없기 때문에, 기록 종료 후에 행하도록 할 수 있다.

기록 모드에 있어서, 상기 아날로그 입력계나 디지털 입력계는, 사용자 입력 I/F계(21)를 통하여 사용자의 소정 조작에 의해 설정할 수도 있다.

또, 도 17에서, 음성 인코더 처리계(4) 또는 음성 A/D 변환 처리계(3), 영상 인코더 처리계(9) 또는 화상 A/D 변환 처리계(8)로부터의 신호와, 소정 인코드 처리된 디지털 화상, 음성 데이터를 직접 시스템 컨트롤러계(20)로 검출함으로써 자동적으로 검출할 수도 있다.

소정 인코드된 디지털 데이터가 검출되고, 음성 인코더계(4) 또는 음성 A/D 변환 처리계(3), 영상 인코더 처리계(9) 또는 화상 A/D 변환 처리계(8)에 의해 데이터가 검출되지 않은 경우에는, 소정 인코드 처리된 디지털 화상, 음성 데이터가 입력되고 있는 것으로 판정할 수 있다.

소정의 인코드된 디지털 데이터가 검출되지 않고, 음성 인코더계(4) 또는 음성 A/D 변환 처리계(3), 영상 인코더 처리계(9) 또는 화상 A/D 변환 처리계(8)로부터의 데이터가 시스템 컨트롤러계(20)에 의해 검출되는 경우에는, 아날로그 입력이라고 판정할 수 있다.

아날로그 입력과 인코드 처리된 디지털 데이터가 양쪽 검출되는 경우에는, 예를 들면, 수신계(2)로부터의 아날로그 입력 신호를 초기 설정(디폴트 설정)으로서 소정의 기록 처리를 행하도록 해도 된다.

전술한 특징 추출 처리는, 예를 들면, 화상의 DCT 데이터 등을 사용하므로, 소정의 인코드 처리가 행해지는 경우에는, 통상의 기록 처리를 위해 행하는 DCT 처리를 특징 추출 처리로서 겸용할 수 있다. 음성의 경우에는, 소정 인코드 처리에 있어서의 서브 밴드 처리 데이터를 사용하는 것을 생각하면, 소정의 인코드 처리가 행해지는 경우에는, 통상의 기록 처리를 위해 행하는 서브 밴드 처리를 특징 추출 처리로서 겸용할 수 있다.

전술한 바와 같이, 인코드 처리된 디지털 데이터를 직접 입력하는 경우에는, 인코드 처리를 행할 필요가 없기 때문에, 이 데이터를 해석하여 DCT 등 데이터를 인출하는 것이 필요해지므로, 처리의 부하가 생기게 된다.

그래서, 필요에 따라 기록 종료 후에 특징 추출 처리를 행하도록 한다. 그 외에, 기록 종료 후에, 특징 추출 처리를 행하는 경우로서, 상기 아날로그 입력의 경우라도, 신호 처리계의 부하의 상태에 따라서, 소정의 기록이 종료되었으면 자동적으로 행하도록 해도 된다.

예를 들면, 도 20에 나타낸 바와 같이, 특징 추출 처리는 소프트 웨어 처리로 행할 수도 있으므로, 시스템 컨트롤러계의 성능에 따라서는 기록 모드의 각 소정 신호 처리와 동시에 행할 수 없으므로, 소정의 기록 처리가 종료된 후 행하도록 한다. 또, 시스템 컨트롤러(20)는 CPU, DSP(디지털 시그널 프로세서), 그 외에 각종 프로세서 등으로 구성할 수 있지만, 성능이 높을 수록 고가이므로 전술한 바와 같이 처리 능력에 따라서, 특징 추출 처리를 기록 처리와 동시에 행할 것인지, 종료 후에 행할 것인지를 결정하도록 해도 된다.

전술한 특징 추출 처리를 행하는 소정 기록 모드 종료 후에는, 예를 들면, 소정의 타이머 기록 동작 종료 후나, 통상, 사용자가 그 장치를 동작시키고 있지 않을 것으로 상정할 수 있는 한밤중에, 소정의 특징 추출 처리를 행하는 것이 있다. 이와 같은 경우에, 예를 들면, 장치가 동작하고 있는 시각을 시스템 컨트롤러계(20) 내의 소정 메모리 수단에 의해 기억하여, 소정의 학습 처리에 의해, 적당히, 특징 추출 처리하는 시각을 자동 설정하거나 하면 된다.

또, 기록 재생 등 통상의 동작시키고 있지 않은 시간이 시스템 컨트롤러계(20)에 의해 검출되는 경우에는, 그 동작시키고 있지 않은 동안에 상기 소정의 특징 추출 처리를 행할 수 있다. 이 경우에 소정의 데이터 모두가 처리되지 않는 경우도 상정되지만, 처리 도중의 장소를 시스템 컨트롤러계(20) 내의 소정 메모리 수단에 기억하여 두고, 장치가 기록 재생 등 통상 동작하고 있지 않는 것을 검출하여, 처리할 수 있는 시간이 있는 것으로 판정되었으면, 도중의 계속으로부터 소정의 신호 처리를 행하도록 하면 된다.

2.1.2 재생 측 처리

(통상 재생 모드 동작)

다음에, 도 17에 나타낸 기록 재생 장치(30)에 있어서의 재생 신호 처리에 대하여 설명한다. 먼저, 통상 재생 모드의 동작에 대하여 설명한다.

입력 I/F계(21)에 의해, 통상 재생 모드로 되면, 기록 매체(7)로부터 소정의 화상 음성 데이터, 특징 데이터 등이 기록되어 있는 소정의 데이터가 재생되어 재생 처리계(12)에 있어서 소정의 재생 처리가 행해진다.

재생된 소정의 데이터는, 재생 데이터 분리 처리계(13)에 있어서 소정의 데이터로 분리 처리되고, 음성 데이터는 음성 디코드 처리계(14)에 입력되고, 기록 시에 대역 압축 신호 처리된 신호 처리 방식에 대응하는 소정의 디코드 처리가 행해지고, 그 후, 음성 D/A 처리계(15)에 입력되어 D/A 변환 처리된 후, 음성 신호로서 출력된다.

또, 소정의 분류 처리된 화상(영상) 데이터는, 영상 디코드 처리계(16)에 있어서 기록 시에 대역 압축 신호 처리된 신호 처리 방식에 대응하는 소정의 디코드 처리가 행해진 후, 영상 D/A 처리계(17)에 입력되어 D/A 변환 처리가 행해지고, 영상 신호로서 출력된다.

(요약 재생(다이제스트 재생) 모드)

요약 재생 모드를 고려하는 경우에, 화상 음성 데이터와 함께 특징 데이터, 플레이 리스트 데이터가 기록 매체에 기록되어 있는지 여부에 따라 신호 처리 방법이 상이하였다.

특징 데이터와 플레이 리스트 데이터가 기록 매체에 기록되어 있는지 여부는 도 18과 같이 정리할 수 있다.

먼저, 도 18 (A), 도 18 (B)의 경우에 상당하는 플레이 리스트 데이터(플레이 리스트 데이터 파일), 챕터 데이터를 재생할 수 있는 경우, 즉 플레이 리스트 데이터, 챕터 데이터가 소정의 기록 매체(데이터 기록 매체)에 기록되어 있고, 요약 재생 모드 시에 조생, 또는 챕터 표시 모드 시에 소정 챕터 화상을 썸네일 표시할 수 있는 경우에 대하여 설명한다.

즉, 사용자가 요약 재생 모드 또는 소정 챕터 모드를 선택한 경우에 대하여 설명한다.

사용자의 입력 조작에 의해 사용자 입력 I/F계(21)를 통하여, 시스템 컨트롤러계(20)에 소정의 요약 재생(다이제스트 재생) 모드의 동작을 행하는 커맨드가 입력된 경우에, 재생 데이터 분리 처리계(13)에 의해 소정 데이터 분리하여 특징 데이터, 또, 파라미터 데이터나 플레이 리스트 데이터, 챕터 데이터 등이 기록되어 있는 경우에는, 각각 분리된 소정의 특징 데이터, 소정의 파라미터 데이터, 소정의 플레이 리스트 데이터, 챕터 데이터 등이 시스템 컨트롤러계(20)에 입력된다.

재생 데이터 분리 처리계(13)에 의해 특징 데이터, 파라미터 데이터, 플레이 리스트 데이터, 챕터 데이터를 분리할 수 없는 경우에는, 상기의 각각의 데이터는 시스템 컨트롤러계(20)에 입력되지 않기 때문에, 재생 데이터 분리 처리계(13)과 시스템 컨트롤러계(20)에 의해 특징 데이터, 플레이 리스트 데이터, 소정 챕터 데이터, 파라미터 데이터 등이 소정 기록 매체(7)에 기록되어 있는지 여부의 판정 처리를 행한다.

플레이 리스트 데이터는, 소정의 요약 재생을 행하기 위해, 소정의 몇개의 재생 구간의 재생 개시 정보 데이터와 재생 종료 정보 데이터로 구성되어 있다.

챕터 데이터는 소정 특징 구간의 선두 또는 그 근방, 또는 그 소정 특징 구간의 최후 또는 그 근방, 그 특징 구간에 접속된 특징 구간 이외의 구간의 선두 또는 그 근방, 또는 그 특징 구간 이외의 구간의 최후 또는 그 근방의 위치 정보로 구성된다.

시스템 컨트롤러계(20)에서는, 재생 검출된 플레이 리스트 데이터의 스킵 재생 개시 데이터 정보, 스킵 재생 종료 데이터 정보에 따라 스킵 재생을 행함으로써 요약 재생(다이제스트 재생)을 행한다.

또, 소정 챕터 데이터에 의해 챕터점 또는 그 근방에 있어서의 화상을 소정 썸네일 화상으로 하여 소정 표시 처리를 표시 처리계(27)에 의해 행하여, 소정의 화상 표시를 행한다.

다음에, 도 18 (C), 도 18 (D)에 나타낸 경우에 상당하는 플레이 리스트 데이터(플레이 리스트 데이터 파일), 챕터 데이터를 재생할 수 없는 경우, 즉, 플레이 리스트 데이터, 챕터 데이터가 기록 매체 또는 기억 매체에 기록(기억)되어 있지 않고, 요약 재생 모드 시에 재생할 수 없는 경우, 소정 챕터 모드 시에 썸네일 시점을 소정 썸네일 표시, 챕터 재생 등 일련의 챕터 관련 처리할 수 없는 경우에 대하여 설명한다.

전술한 방송 프로그램 등을 수신한 화상 음성 데이터가 아니고, 예를 들면, 기록 매체(25)를 DVD 소프트로 하여 기록 매체 처리계(26), 재생 처리계(12)에 의해 재생하는 경우 등 다른 기록 매체로부터의 화상 음성 데이터를 재생하는 경우나, 특징 추출하고 있지 않은 화상 음성 데이터를 재생하는 경우 등은, 여기서 설명하는 처리에 해당한다.

플레이 리스트 데이터 또는 챕터 데이터가 생성되고 있지 않아 재생 검출할 수 없는 경우나, 재생 검출된 플레이 리스트 데이터, 챕터 데이터를 다시 생성하고 싶은 경우에는, 재생 검출된 소정의 특징 데이터와 파라미터 데이터로부터 요약 재생용 플레이 리스트 데이터, 및 소정 챕터 관련 모드용 챕터 데이터를 생성할 수 있다.

도 26 (C)에 나타낸 경우, 즉, 기록 시에 특징 추출 처리가 행해지고 있고, 특징 데이터를 재생할 수 있는 경우에는, 도 17에 나타낸 기록 재생 장치(30)에 있어서의 재생 처리계(12) 또는 재생 데이터 분리 처리계(13)로부터 플레이 리스트 데이터 또는 상기 소정의 특징 데이터가 플레이 리스트 챕터 생성 처리계(19)에 입력되고, 소정의 플레이 리스트 데이터 또는 소정의 챕터 데이터가 생성된다.

여기서 설명하는 동작의 경우에, 사용자가 요약 재생 모드의 커맨드를 행한 경우에, 도 19에 나타낸 바와 같은 플레이 리스트 데이터가 없는 것을 나타내는 소정의 표시를 표시 처리계(27)에 의해 행하도록 해도 된다.

생성된 플레이 리스트 데이터는, 시스템 컨트롤러계(20)에 입력된다. 시스템 컨트롤러계(20)는, 사용자 입력에 의한 소정의 요약 재생 시간에 따라, 플레이 리스트 데이터에 따른 소정의 재생 구간을 차례로 재생(스킵 재생)하도록 재생 제어계(18)를 컨트롤하여 그 제어에 의해 기록 매체(7)를 재생 제어한다.

또, 생성된 챕터 데이터는 시스템 컨트롤러계(20)에 입력된다. 시스템 컨트롤러계(20)는, 사용자 입력에 의한 소정의 챕터 관련 동작 모드에 따라서, 상기 챕터 데이터에 따른 소정의 챕터 시점의 화상 썸네일 표시, 챕터점의 컷이나 접속 등의 편집 처리, 사용자 선택한 챕터점의 스킵 재생 등, 소정 챕터 관련 동작을 행할 수 있도록 재생 제어계(18)를 컨트롤하고, 그 제어에 의해 기록 매체(7)의 재생 제어를 행하거나, 시스템 컨트롤러계(20)를 통한 표시 처리계(27)의 제어 등을 행한다.

전술한 바와 같이, 예를 들면, DVD 등 외부 기록 매체를 기록 매체(25)로 하여 요약 재생하는 경우에도, 전술한 경우와 마찬가지의 신호 처리에 의해 행할 수 있고, 재생 제어계(18)에 의해 기록 매체 처리계(26)를 제어하고, 전술한 바와 같은 소정의 요약 재생 처리를 행한다.

또, 챕터 데이터를 사용한 편집 처리(편집 조작), 소정의 챕터점 사이(또는 그 근방)의 스킵 재생, 챕터점(또는 그 근방)의 썸네일 화상 표시 등, 일련의 소정 챕터 관련 동작을 상기와 마찬가지의 신호 처리에 의해 행할 수 있고, 재생 제어계(18)에 의해 기록 매체 처리계(26)를 제어하고, 상기한 바와 같은 소정 신호 처리를 행한다.

또한, 도 16 (D)에 나타낸 특징 데이터를 재생할 수 없는 경우에 대하여 설명한다.

전술한 예에서는 특징 데이터로부터 플레이 리스트 데이터, 챕터 데이터를 생성하는 경우에 대하여 설명하였으나, 예를 들면, 다른 사용자가 기록한 외부 기록 매체(25)를 기록 매체(A26)에 카피한 것과 같은 경우에는, 특징 데이터를 재생할 수 없는 경우가 있다.

기록 매체(7)에 방송 프로그램 등의 화상 음성 데이터는 기록되어 있지만, 특징 데이터가 기록되어 있지 않아, 재생할 수 없는 경우에 대하여 설명한다.

여기서 설명하는 동작의 경우에, 사용자가 요약 재생 모드 또는 상기 소정 챕터 관련 동작 모드의 커맨드를 행한 경우에, 도 19에 나타낸 바와 같은 특징 데이터가 없는 것을 나타내는 소정의 표시를 표시 처리계(27)에 의해 행하도록 해도 된다.

이 경우의 요약 재생 모드로 기록 매체(A7)로부터 화상 음성 데이터를 재생하는 경우에는, 재생 처리계(12)에 의해 재생된 데이터는 재생 데이터 분리 처리계(13)에 입력되고, 분리된 기록 시에 소정의 대역 압축 방식으로 처리되어 있는 화상 데이터와 음성 데이터는 특징 추출 처리계(10)에 입력되고, 화상 특성 데이터인 DCT DC 계수, AC 계수, 움직임 벡터(모션 벡터) 등, 음성 특성 데이터인 음성 파워 검출 기타 등 각종 소정의 특성 데이터 검출 처리 등이 행해진다.

특징 추출 처리계(10)에서는, 또한, 전술한 각종 화상 음성 특성 데이터와 소정의 파라미터 데이터에 의해, 소정의 텔롭 특징 데이터(텔롭 구간 판정 데이터), 인물 특징 데이터 그 외의 화상 특징 데이터(화상 특징 구간 판정 데이터), 및 말하는 사람 음성 특징 데이터(말하는 사람 음성 판정 데이터), 박수 환성 특징 데이터(박수 환성 판정 데이터), 그 외의 음성 특징 데이터(음성 특징 구간 판정 데이터)의 각종 특징 추출 처리가 행해진다.

상기 각종의 화상 특징 데이터 및 음성 특징 데이터는, 시스템 컨트롤러계(2O)에 입력되고, 소정 프로그램 또는, 소정의 화상 음성 구간의 모두에 대하여 소정의 특징 추출 처리가 종료되면 특징 추출 처리가 종료했다고 판정된다.

여기서, 특징 추출 처리가 종료한 경우에는, 시스템 컨트롤러계(20)로부터 소정의 신호 처리가 종료한 것을 나타내는 신호가 표시 처리계(27)에 입력되고, 예를 들면, 도 19에 나타낸 바와 같은 소정의 표시를 행하도록 해도 된다.

다음에, 특징 데이터로부터 소정의 플레이 리스트 데이터, 챕터 데이터를 생성하는 처리에 대하여 설명한다.

전술한 특징 데이터는, 소정의 특징 추출 구간마다 메모리계(11)에 저장되고, 상기 모든 소정 특징 데이터의 처리가 종료되면 플레이 리스트 챕터 생성 처리계(19)에 입력되어, 소정의 플레이 리스트 데이터 또는 챕터 데이터가 생성된다.

여기서, 특징 추출 처리계(10)로부터 직접 플레이 리스트 챕터 생성 처리계(19)에, 소정 구간의 특징 추출 처리 데이터를 순서대로 입력하도록 해도 되고, 전술한 바와 같이 소정의 모든 구간이나 소정 방송 프로그램의 특징 추출 처리가 종료하면, 시스템 컨트롤러계(20)로부터의 소정의 신호에 따라, 플레이 리스트 챕터 생성 처리계(19)에 의해 전술한 바와 같은 소정의 플레이 리스트 데이터 또는 챕터 데이터 생성 처리를 행하도록 해도 된다.

또, 특징 추출 처리계로부터의 상기 처리된 특징 데이터는, 시스템 컨트롤러계(20)를 통하여 플레이 리스트 챕터 생성 처리계(19)에 입력하도록 신호 처리를 행하도록 해도 된다.

플레이 리스트 챕터 생성 처리계(19)에 의해, 소정의 플레이 리스트 데이터 또는 챕터 데이터가 생성되면, 소정의 처리가 종료한 것을 나타내는 신호가 시스템 컨트롤러계(20)에 입력되고, 원하는 요약 시간에 따른 요약 재생 또는 소정의 챕터 데이터를 사용한 소정 챕터 관련 동작을 행할 수 있다.

이 경우에, 도 19에 나타낸 바와 같이, 플레이 리스트 데이터 또는 챕터 데이터가 생성할 수 있는 것을 나타내는 소정의 표시를 행하거나, 또는 요약 재생 모드, 챕터 관련의 소정 동작 등인 등의 표시를 표시 처리계(27)에 행하도록 한다.

사용자가 요약 재생을 행하는 경우에, 예를 들면, 기록된 방송 프로그램이 1시간이었다고 하고, 그것을 30분에 재생하려는 것인지, 20분에 재생하려는 것인지 등, 사용자가 원하는 요약 재생 시간은 모르기 때문에, 기록한 방송 프로그램 등 화상 음성 데이터의 특징 추출한 전체 구간의 전체 시간 길이에 따라서, 미리 몇개의 요약 시간에 대응하는 플레이 리스트 데이터를 생성하는 것을 고려할 수 있다.

예를 들면, 특징 추출하는 방송 프로그램의 기록 시간이 1시간에 있으면, 40분, 30분, 20분의 요약 재생을 행하는, 각각의 플레이 리스트 데이터를 생성한다. 이와 같이 플레이 리스트 데이터를 생성함으로써, 리모콘(22) 등의 사용자 입력에 의해 요약 시간이 선택된 경우에, 바로 소정의 요약 시간에 대응한 요약 재생 동작을 행할 수 있다.

기록 매체(25)를 재생하는 경우에 대하여는, 상기 기록 매체(A7)를 재생하는 경우와 마찬가지로, 기록 매체 처리계(26)에 의해 기록 매체(25)를 검출하고, 재생 처리계(12)에 의해 재생 신호 처리하고, 재생 데이터 분리 처리계(13)에 있어서 소정의 화상 음성 데이터를 분리한다. 그 후의 신호 처리는 상기의 기록 매체(7)의 경우와 마찬가지이므로 생략한다.

여기서, 전술한 일련의 처리를 실행하는 제어 프로그램은, 전용의 하드웨어에 내장되어 있는 컴퓨터 또는 각종의 프로그램을 인스톨함으로써, 각종의 기능을 실행시키는 것이 가능한, 예를 들면, 범용의 퍼스널 컴퓨터 등에 기록 매체로부터 인스톨된다.

이 기록 매체는, 제어 프로그램이 기록되어 있는 하드 디스크 만아니라, 컴퓨터와는 별도로, 사용자에게 프로그램을 제공하기 위해 배포되는, 프로그램이 기록되어 있는 자기 디스크, 광디스크, 광자기 디스크는 반도체 메모리 등으로 이루어지는 패키지 미디어에 의해 구성된다.

2.2 블록 구성예 2

여기서, 도 17에 나타낸 기록 재생 장치(30)의 다른 예로서 도 20에 나타낸 예를 들어 설명한다.

방송 프로그램을 기록 재생 처리하는 신호 처리의 과정은, 도 17에 나타낸 기록 재생 장치(30)와 같으므로, 신호 처리가 상이한 부분에 대하여 설명한다.

2.2.1 기록 측 신호 처리

이 도 20에 나타낸 기록 재생 장치(30A)에 있어서 전술한 기록 재생 장치(30)와 상이한 것은, 기록 모드에 있어서 특징 추출 처리를 행하는 일련의 신호 처리를 시스템 컨트롤러계(20)에 있어서 소프트 웨어적으로 행하는 것이다.

이 기록 재생 장치(30A)에서는, 네트워크계(24)에 의해, 소정의 소프트 웨어를 다운드하여, 설명하도록 한 소프트 웨어 처리에 의한, 특징 추출 처리, 플레이 리스트 처리(챕터 생성 처리(재생 구간, 재생 시점 위치 정보 생성 처리) 등이 행해진다.

소프트 웨어에 의한 다운로드에서는, 예를 들면, 본 발명의 처리가 탑재되어 있지 않은 장치가, 최초로부터 있었을 경우에, 시간을 두고 나중에 소프트적으로 본 발명을 적용할 수 있는 이점이 있으며, 예를 들면, 제조 판매 등의 시간적으로 사이에 맞지 않는 경우에는, 설계, 제조 측에 있어서는, 본 발명을 적용하지 않는 간단한 구성의 시스템과, 후술하는 본 발명을 적용한 시스템의 양쪽의 시스템을 사용자에게 제공할 수 있다.

사용자 측에서는, 본 발명을 적용하지 않는 간단한 구성의 시스템을 구입한 다음에, 소프트적인 처리로, 본 발명을 적용 가능하므로, 그 후 기능을 추가할 수 있는 등의 이점이 있다.

또, 처리계를 수정, 개량하는 등의 경우에도 소프트를 다운로드하여 업그레이드함으로써, 대응할 수 있는 이점이 있다.

본 발명을 소프트 웨어의 다운로드로 장비하는 경우에는, 사용자는 소정의 조작계(리모콘(22) 등)로, 소정의 인터넷 사이트에 네트워크계(24)를 통하여 접속하고, 소정의 조작계에 의한 조작으로 본 발명의 소프트 웨어를 다운로드한다.

다운로드된 본 발명의 소프트 웨어는, 시스템 컨트롤러계(20)로, 소정의 해석 처리, 인스톨 처리 등이 행해지고, 다음에 설명하는, 특징 추출 처리, 플레이 리스트 처리, 챕터 처리 외에, 본 발명의 소정의 처리 기능이 장비된다.

시스템 컨트롤러계(20)로서 소정 성능을 구비한 마이크로프로세서(MPU, 또는 CPU)를 사용함으로써 전술한 소정의 특징 추출 처리를 소정의 기록 처리와 동시에 행할 수 있다.

전술한 메모리계(11)도, 이 시스템 컨트롤러계(20) 내에 구비된 소정의 데이터 기억 메모리를 사용할 수 있다.

여기서, 전술한 바와 같이 소정의 기록 처리로서, 소정의 화상 음성의 대역 압축을 행하는 경우에, 전술한 바와 같은 소정의 성능을 구비한 MPU 또는 CPU, 또는 DSP(디지털 시그널 프로세서)를 사용할 수 있고, 이 대역 압축 처리를 행하고 있는 같은 MPU 또는 CPU, 또는 DSP로 상기 소정의 특징 추출 처리, 플레이 리스트 생성 처리 등을 행할 수 있다.

2.2.2 재생 측 신호 처리

이 도 20에 나타낸 기록 재생 장치(30A)에 있어서 전술한 기록 재생 장치(30)와 다른 것은, 재생 모드에 있어서, 특징 데이터를 검출하지 못하고 특징 추출 처리를 행하는 경우에, 일련의 신호 처리를 시스템 컨트롤러계(20)에 있어서 소프트 웨어적으로 행하는 것이다.

시스템 컨트롤러계(20)로서 소정 성능을 구비한 마이크로 프로세서(MPU, 또는 CPU)를 사용함으로써 전술한 소정의 특징 추출 처리를 소정의 기록 처리와 동시에 행할 수 있다.

(3) 특징 추출 처리

다음에, 음성계 특징 추출 처리 및 영상(화상)계 특징 추출 처리의 각 신호 처리에 대하여 설명한다.

3.1 음성계 특징 추출 처리

음성계 특징 추출 처리계에서는, 도 21에 나타낸 바와 같이, MPEG의 화상 음성 스트림 데이터가 스트림 분리계(100)에 입력되고, 분리된 음성 데이터는 음성 데이터 디코드계(101)에 입력되어 소정의 디코드 처리가 행해진다.

디코드된 음성 데이터(음성 신호)는 레벨 처리계(102), 데이터 카운터계(103), 데이터 버퍼계(104)에 각각 입력되고, 레벨 처리계(102)에서는, 음성 데이터의 소정 구간의 평균 파워(또는 평균 레벨) Pav를 연산하기 위해, 데이터의 절대값 화 처리를 행하고, 데이터 카운터계(103)로 소정 샘플 데이터수까지 계측되기까지, 음성 데이터 적산 처리계(105)로 적산 처리를 행한다.

여기서, 평균 파워 Pav는, 음성 데이터의 값(레벨)을 Ad(n)로 하여 이하의 (32)식의 연산에 의해 구할 수 있다.

[수식 2]

평균 레벨을 연산하는 소정 구간으로서, 예를 들면, 약 O. O1sec(10msec)~1sec가 고려되고, 예를 들면, 샘플링 주파수 Fs를 Fs= 48KHz으로 하면, 480~48000 샘플의 적산 연산 행하고, 샘플수 Sm으로 평균 처리를 행하여 평균 레벨(평균 파워) Pav를 구한다.

음성 데이터 적산 처리계(105)로부터 출력된 데이터 Pav는, 판정 처리계(106)에 입력되고, 임계값 설정계(107)에 의해 설정된 소정 임계값 Ath와 비교 처리되어 무음 판정 처리가 행해진다.

여기서, 임계값 설정계(107)에 있어서의 소정 임계값 Ath의 설정에 있어서, Ath는 고정값 Ath0로서 설정하는 것이 고려되지만, 고정값 Ath0 외에, 소정 음성 구간의 평균 레벨에 따른 변동 임계값 Athm를 설정하는 경우도 고려된다.

변동 임계값 Athm으로서 예를 들면, 지금 처리를 생각하고 있는 구간을 n으로 하고, 그보다 전의 구간(n-k)의 평균 레벨 Pav(n-k)를 생각하고, 다음의 (33)식과 같이 하는 것이 고려된다.

[수식 3]

예를 들면, t= 2로 하여

예를 들면, m은, 대체로 2~20 정도의 범위로 설정한다.

(그 외의 음성 특징 추출 처리)

데이터 버퍼계(104)에 축적된 소정 음성 데이터는, 주파수 해석 처리계(108)에 입력되어 소정의 주파수 해석 처리가 행해진다.

여기서, 주파수 해석 처리로서 FET(고속 푸리에 변환) 등이 고려되고, 데이터 버퍼계(104)로부터의 데이터의 소정 해석 샘플 데이터수는, 예를 들면, 512, 1024, 2048, 그 외, 등 2의 누승(累乘)의 소정 샘플수로 해석 처리를 행한다.

주파수 해석 처리계(108)로부터의 신호(데이터)는, 판정 처리계(109)에 입력되고, 소정의 판정 처리가 행해진다.

음악(악음)의 판별 처리는, 소정 주파수 대역의 스펙트럼 피크의 계속성으로부터 행할 수 있다.

예를 들면, 일본국 특개 2002-116784호 공보 등에는 이들 기술이 개시되어 있다.

말하는 사람 음성의 판정에서는, 사람의 회화 음성 파형에서 잠시 쉬는 구간이 있으므로, 파형에 소정의 급준한 상승, 또는 하강 구간이 보여지고, 그 소정 상승, 또는 하강 구간을 검출함으로써 소정의 신호 처리를 행할 수 있다.

이 경우에, 상기 음악(악음) 신호 파형의 경우에는 말하는 사람의 음성의 경우와 비교하여, 일반적으로 파형의 상승, 또는 하강 구간이 나타나는 확률은 작은 것으로 생각되므로, 이 악음(음악) 파형의 특성(특징)도 고려하여, 종합적으로 음성 신호의 속성 판정을 행하도록 한다.

전술한 바와 같은, 말하는 사람 음성 신호의 파형 특징(파형 특성), 음악(악음) 신호의 파형 특징(파형 특성)의 상위로부터 음성 신호의 속성 판정을 행하는 경우에, 파형에 있어서의 시간적인 물리 특성을 검출하게 되므로, 전술한 바와 같은 주파수 해석을 행한 후 소정의 판정 신호 처리를 행하는 방법(주파수 영역에서의 신호 해석, 판정 처리) 외에, 베이스 밴드 영역에서 소정의 판정 처리를 행하는 방법(시간 영역에서의 신호 해석, 판정 처리)을 사용할 수 있다.

여기서, 음성 신호(음성 데이터)를 디코드 처리하지 않고, 압축 대역인 채로 신호의 속성 해석을 행하는 경우의 음성계 특징 추출 처리계의 구성예를 도 22에 나타낸다.

도 22에 나타낸 음성계 특징 추출 처리계에서는, 소정의 대역 압축 신호 처리가 행해진 데이터 스트림, 예를 들면, MPEC 등의 화상 음성 데이터가 스트림 분리계(10O)에 입력되어, 화상 데이터와 음성 데이터로 분리되고, 음성 데이터는 스트림 데이터 해석계(110)에 입력되어, 소정의 샘플링 주파수, 양자화 비트 사운드 기타 등의 신호 해석 처리가 행해지고, 소정의 음성 데이터는 서브 밴드 해석 처리계(111)에 입력된다.

서브 밴드 해석 처리계(111)에 의해 소정의 서브 밴드 해석 처리가 행해지고, 소정 서브 밴드 대역의 데이터는 상기 (32)식~(34)식에서 설명한 것과 마찬가지의 소정 신호 처리가 행해진다.

즉, 음성 데이터 적산 처리계(105)에 입력되고, 데이터 카운트계(103)에서 소정의 샘플링 데이터수가 검출되기까지 소정의 적산 처리가 행해지고, 그 후, 임계값 설정계(107)에 의해 설정되는 소정 임계값에 따라 판정 처리계(106)에 의해 소정의 무음 판정 처리가 행해진다.

이 무음 판정 처리에서는, 음성 데이터의 스펙트럼을 고려하여, 에너지가 많이 모여 있는 대역에서, 서브 밴드 대역으로서는 대략 3KHz 이하의 소정 데이터 대역을 사용할 수 있다.

또, 주파수 해석에 의해 악음(음악), 말하는 사람 음성의 판정 처리가 행해지는 것을 기술하였으나, 서브 밴드 해석 처리계(111)의 처리에 의해, 이 신호 처리계로 소정의 주파수 해석을 하는 것과 마찬가지이므로, 전술한 바와 같은 소정 스펙트럼 피크의 계속성 판정 처리를 행함으로써 속성 판정의 신호 처리를 행할 수 있다.

이 경우, 스펙트럼 피크는, 각 소정 서브 밴드 대역 중의 최대 데이터 대역이므로, FFT 해석 처리의 경우와 마찬가지의 신호 처리를 행할 수 있다.

3.2 화상계 특징

다음에, 영상(화상)계의 특징 추출 처리에 대하여 설명한다.

영상계 특징 추출 처리계에서는, 도 23에 나타낸 바와 같이, 스트림 분리계에 의해 소정의 분리 처리가 행해진 화상 데이터는, 스트림 데이터 해석계(200)에 입력되고, 레이트 검출, 화소수 검출 기타 등 소정의 데이터 해석이 행해지고, DCT 계수 처리계(201)에 의해 DCT의 DC 계수 검출, AC 계수 검출 등 소정의 DCT 연산 처리(역DCT 연산 처리)가 행해지고, 이 DCT 계수 처리계(201)의 출력에 따라 장면 체인지 검출 처리계(202), 색특징 검출 처리계(203), 유사 화상 검출 처리계(204), 인물 검출 처리계(205) 및 텔롭 검출 판정 처리계(206)에 있어서의 각종 처리가 행해지고, 모션 벡터 처리계(208)에서는, 소정의 모션 벡터 검출 처리가 행해진다.

3.2.1 장면 체인지 특징

장면 체인지 검출 처리계(202)에서는, 예를 들면, 소정 화면 영역으로 분할하고 그 영역마다에 DCT의 DC 계수 데이터의 Y(휘도 데이터), Cb, Cr(색차 데이터)의 평균값을 연산하여 프레임 간 차분 연산 또는, 필드 간 차분 연산을 그 영역마다 행하고, 소정 임계값과 비교하여 소정의 장면 체인지 검출을 행한다.

장면 체인지가 없는 경우에는, 각 영역의 프레임 간(또는 필드) 차분 데이터는 소정 임계값보다 작고, 장면 체인지가 있으면 임계값보다 차분 데이터가 커지는 경우를 검출할 수 있다.

여기서, 화면 분할의 영역은, 예를 들면, 도 24에 나타낸 바와 같이 유효 화면을 16 분할하도록 한 영역으로 한다.

연산하는 화면 분할의 방법은 도 24의 경우에 한정되지 않고, 분할 수를 많이하는 것도, 적게 할 수도 있지만, 너무 적으면 장면 체인지의 검출 정밀도가 둔하게 되고, 분할 수가 많으면 정밀도가 예민해지는 것을 생각할 수 있으므로, 대략 256(16×16) 이하의 범위의 사이에서 적당한 소정의 분할 수를 설정한다.

3.2.2 색(컬러) 특징

색 특징 검출 처리계(203)에서는, DCT의 DC 계수의, 소정 영역에 있어서의 Y, Cb, Cr 데이터의 평균값으로부터 색 특징을 검출할 수 있다.

소정 영역으로서는, 예를 들면, 도 25에 나타낸 바와 같은 영역으로 할 수 있다. 이 도 25에서는, 유효 화면을 가로 방향으로 4분할하고 검출 영역 1 ~ 검출 영역 4, 세로 방향으로 4분할하여 검출 영역 5 ~ 검출 영역 8을 설정하고 있다. 각 검출 영역에는 영역 ID가 부여되고, 각 검출 영역의 데이터는 영역 ID에 의해 식별된다.

여기서, 경우에 따라 가로 방향만의 검출 영역 1 ~ 4, 또는 세로 방향만 검출 영역 5 ~ 8을 설정하도록 한다.

또, 도 25와 같은 영역 분할 이외에도, 5×5나, 6×6이라는 기반(基盤)형의 분할 방법으로 할 수도 있다.

예를 들면, 방송 프로그램에서 프로그램 장르로서 「스모」의 경우를 상정한 경우에, 도 25의 검출 영역 3 영역에서 갈색을 검출할 수 있는 경우에는 「씨름판의 장면」의 확률이 높은 것으로 상정할 수 있다.

이 색특징과 예를 들면, 음성의 속성 특징과 조합시키면, 「씨름판의 장면」 +「음성 속성 그 외(또는 말하는 사람 음성)」로부터 「대전을 개시하는 장면」의 확률이 높은 것을 상정할 수 있으므로, 이와 같은 장면 구간을 키 프레임 구간으로 설정할 수 있다.

이 경우에는, 대전 개시 장면에서는 관객의 환성 등으로 음성 레벨이 커지거나, 통상 상태와는 상이한 음성 주파수 대역의 데이터가 검출되게 되므로, 음성 레벨이나, 소정의 주파수 영역 데이터도 특징 데이터로 할 수 있다.

3.2.3 유사 장면(유사 화상) 특징

유사 화상 검출 처리계(204)에서는, 유사 장면(유사 화상, 유사 영상)마다, 소정의 ID(식별 번호, 또는 식별 기호)를 그 화상(장면)에 부여(부가)(또는, 할당)하는 처리로, 유사 화상(장면)에는 동일 ID가 부여(할당) 처리된다. 예를 들면, 일본국 특개 2002-344872호 공보에 그 기술이 개시되어 있다.

이 부가(부여)하는 처리는 그 화상(장면) 또는 화상(장면)의 위치 정보(프레임 번호, PTS, 기록 시각 등)와 1대 1로 대응하는 메모리에 그 ID를 기록하는 것이며, 그 화상을 표시 또는 그 화상으로부터 재생하는 등의 동작을 행하는 경우에, 그 화상(장면)의 위치 정보와 ID는 1대 1로 대응하고 있고, 화상(장면) 자체와 그 위치 정보도 말할 필요도 없이 1대 1로 대응하고 있으므로, 예를 들면, 동일 ID의 화상을 표시하는 등 유사 화상 분류나 동일 ID의 화상 장면의 시점을 스킵 재생하는 등, ID를 이용하는 다양한 소정 동작을 행할 수 있다.

이 특징 데이터로서는, 전술한 장면 ID에 대하여 설명한 바와 같이, 검출 빈도가 1위, 2위 등의 검출 출현 순위로 할 수 있다.

또, 도 7에 나타낸 바와 같은, 그 PU 구간 길이에 대한 그 출현 순위 1위, 2위 등, 검출한 ID의 검출 길이의 비율로 할 수도 있다.

이 특징 추출 처리는, 예를 들면, 화면을 복수개 분할(예를 들면, 25분할)하여, 그 각 분할한 화면 영역에 대응하는 영역의 DCT의 평균 DC 계수를 연산하여, 그 연산한 평균 DC 계수를 벡터 성분으로서, 소정 벡터 거리가 소정 임계값보다 작은 곳에 대응하는 화상(장면)을 유사 화상(유사 장면)으로 하고, 유사 화상(유사 장면)에는, 동일한 소정 ID(장면 ID)를 할당하는 처리이다.

예를 들면, ID로서 초기값을 1로 하고, 상기 소정 임계값보다 작은 화상(장면)이 검출되지 않은 경우에는, ID의 최대값에 1을 가산한 것을 새로운 ID로서 그 화상(장면)에 할당한다.

본 발명에 있어서의, 이 특징 데이터의 이용 방법으로서, 도 5를 참조하여 설명한 바와 같이, 소정 구간에서의 ID의 출현 빈도를 연산하여, 빈도 1위~ 2위의 검출을 행하는 등의 처리 방법이 있다.

이것은, 예를 들면, 뉴스 프로그램을 상정한 경우에, 어나운서 장면이 자주 출현하는 경우나, 스모, 야구 등, 유사 장면의 출현을 많이 볼 수 있는 것 같은 프로그램 장르에서는, 유효한 처리에 사용할 수 있다. 즉, 뉴스 프로그램에서 출현 빈도 1위나 2위에서는, 출현 빈도가 높은 것으로 상정할 수 있는 어나운서 장면을 검출할 수 있는 확률이 높을 것으로 생각된다.

도 26은, ID의 출현 빈도의 연산 방법을 설명하기 위한 개요를 나타내므로, 예를 들면, 구간 f1~f2, f3~f4, f5~f6, f7~f8의 4구간에서 동일 ID인 ID1가 검출되고어 있다. 즉, 이 구간에서는, 유사한 장면이 출현하고 있다.

도 26에 나타낸 바와 같이, 소정 구간 같은 ID가 연속되어 있는 구간을 1개로하여 세어, 그와 같은 구간이 몇개 있는지를 연산한다.

유사 장면이 출현하지 않게 되면 동일 ID는 아니므로, ID의 연속성, 불연속성의 수를 연산함으로써 소정의 빈도를 산출하는 경우도 고려된다.

3.2.4 인물 특징

인물 검출 처리계(205)에서는, 도 27에 나타낸 바와 같이 화면의 영역을 분할하고, 각 영역에 있어서의 소정의 특정 색을 검출함으로써, 인물이 화면에 나타나고 있는지를 판정할 수 있다.

도 27에 나타낸 예에서는, 유효 화면을 2×2로 분할한 영역 1~4의 4개의 영역과, 화면 중앙 부근의 영역 5의 5개의 영역으로 하고 있다.

예를 들면, 뉴스 프로그램에서는, 영역 5에 어나운서의 얼굴이 출현하는 경우의 확률이 높을 것이 고려된다.

또, 플립 또는 텔롭과 어나운서 장면이 출현하는 경우를 상정하면, 영역 1 또는 영역 2에 어나운서의 얼굴이 출현하는 경우가 있다. 그 경우에 영역 2 또는 영역 1에 플립 또는 텔롭이 출현하는 것을 상정할 수 있다.

예를 들면, 특정색으로서 백인의 살색을 상정하면, 이하의 조건식에 의해 특정 색을 검출하는 것을 실험으로부터 알고 있다.

이하에 설명하는 바와 같이, 도 27에 나타낸 영역에 있어서의 특정색의 검출에 의한 방법과 다른 방법을 이용할 수 있다.

여기서는, 간단하게 하기 위해 화면 사이즈를 720×480으로 한다.

(처리 1)

색신호(Cb, Cr)로부터의 검출 조건(백인계 살색 조건) DCT 계수 Cb, Cr의 DC성분에 있어서 매크로 블록은 16×6이며, x 방향은 720/16= 45이며, (0~44), y 방향은 480/16= 30이며, (0~29)마다 이하의 3.2.3식에 나타낸 판정 조건으로 데이터 포인트를 검출한다. 경우에 따라서는, x, y 방향 각각 1/2로 압축하여 X 방향 0~22, y 방향 0~14로서 처리한다. 여기서, 0≤Cb≤255, 0≤Cr≤255이다.

여기서, 예를 들면, 8비트 시프트(128배)하여 이하의 (38)식과 같은 판정 조건으로 할 수도 있다.

(처리 2)

휘도 신호 AC 계수로부터의 검출 조건(인물, 얼굴 등의 윤곽부 검출 조건) 전술한 (37)식이나 (38)식으로 하여 나타내는 판정 조건에 있어서, 소정 임계값 Ath 보다 큰 데이터를 x,y 방향마다 검출한다.

경우에 따라서는 검출 데이터로부터 모두 분산 처리를 행한다.

예를 들면, 도 28에 나타낸 바와 같이, ●의 부분이 검출점에서 예를 들면, 다음과 같이 된다.

(처리 3)

검출물의 크기의 정당성의 검출 조건을 생각하여, xh(x), yh(y)의 검출로, 소정 임계값 Hth 보다 큰 검출 데이터 점

에서, x 방향, y 방향마다 소정 임계값수 Lth 보다 큰 데이터

의 계속 길이를 검출한다.

예를 들면, 도 28에 나타낸 경우에는, Hth= 2이며

의 검출점이 계속되고 있는 부분의 계속 길이는,

로 검출되고, 예를 들면, Lth= 3으로 하면, xl(0), yl(0)이 이 처리에서의 검출 데이터로 된다.

(처리 4)

인물의 얼굴로서, 형상의 정당성의 검출 조건을 본다. 검출된, xl(n), yl(m)의 각각에 대하여 그, 차분 또는 비율이 소정 범위(0~Dth 또는 eth1~eth2)의 데이터를 검출한다.

또는

도 28의 예에서는, xl(0), yl(0)에 대하여 연산을 행한다.

여기서, 인물의 얼굴의 형상을 생각해, 얼굴을 4각 형태로 근사(近似)시키는 것으로 가정하고, 종횡비를 연산한다.

예를 들면,

을 검출 조건이라고 가정하면

그리고, 도 28의 xl(0), yl(0)의 영역의 물체는 인물의 얼굴의 확률이 높은 것으로 판정할 수 있다.

여기서, (3.2.4)의 인물 특징을 추출하도록 한 비트 시프트 처리를 사용할 수 있다.

전술한 (처리 1)~(처리 4)의 검출 조건 외에, 이하의 (처리 5)와 같은 검출 데이터의 계속성 판정을 행할 수 있다.

(처리 5)

검출 형상의 시간 계속성의 조건을 부여한다.

(계속성 판정 방법 5.1)

경우에 따라서는, 전술한 (처리 1)~(처리 4)의 검출의 시간 계속성(검출의 안정성)을 판정하도록 한다.

예를 들면, (48)식으로부터 픽쳐 N에서의 검출값 S(N)를

로 하고, S(N+1), S(N+2) 등을 검출하여 계속성의 판정을 행하도록 한다.

예를 들면,

과 3픽쳐 계속한 경우에 검출한 것으로 판정한다.

여기서, 검출 처리를 행하는 픽쳐는, I픽쳐를 사용할 수 있다.

(계속성 판정 방법 5.2)

그 외의 방법으로서, 전술한 (처리 1)~(처리 3)의 검출값 중 어느 하나, 또는 몇개인가를 픽쳐 N에서의 검출 데이터로 하여, N+1, N+2, N+3으로 계속 검출할 수 있는지를 판정하도록 해도 된다.

예를 들면, 프레임 N에서의 검출값을

로 하고,

과 같이, 3개의 I픽쳐를 계속하여 검출할 수 있었는지를 판정하고, 다음의 검출 처리로 이행하도록 한다.

또, 검출된 N~(N+2) 픽쳐의 데이터의 평균값을 연산하고, 조건 판정하도록 해도 된다.

즉, 검출된 3픽쳐 데이터의 평균값을 AvCol으로 하고,

을 판정 처리할 수 있다.

(계속성 판정 방법 5.3)

상기 (39)식, (40)식에 의해, 이들을 픽쳐 N에서의 검출값 xh(N)(x), yh(N)(y)로서 N+1, N+2 등의 픽쳐에서의 검출 판정의 계속성을 볼 수가 있다.

즉,

과 같이, 3개의 I픽쳐가 계속하여 검출되었는지를 판정하고, 다음의 검출 처리로 이행하도록 한다.

즉, 검출된 3픽쳐 데이터의 평균값을 Avxh 및 Avyh으로 하고,

을 판정 처리하도록 해도 된다.

(계속성 판정 방법 5.4)

상기 (43)식, (44)식에 의해, 이들을 픽쳐 N에서의 검출값 xl(N)(x), yl(N)(y)로 하여, N+1, N+2 등의 픽쳐에서의 검출 판정의 계속성을 보도록 해도 된다.

즉,

과 같이, 3I 픽쳐 계속해 검출할 수 있었는지를 판정하고, 다음의 검출 처리로 이행하도록 해도 된다.

즉, 검출된 3픽쳐 데이터의 평균값을 Avxl 및 Avyl로 하고,

을 판정 처리하도록 해도 된다.

(인물수 검출의 기본적인 처리 방법의 개요)

여기서, 인물수의 검출 판정을 설명한다.

(인원수 판정 방법 5.1B)

예를 들면, 도 29의 경우, x 방향의 소정 임계값 이상의 데이터 xl(0), xl(1)의 2개가 검출되고, y 방향은 yl(0)의 1개가 검출되어 있는 것으로 가정한다.

여기서, xl(0), xl(1)으로 특정되는 영역 1과, xl(1)와 yl(0)으로 특정되는 영역 2의 데이터 밀도를 설명한다.

영역 1에 대하여, 영역의 전체 데이터 포인트 S1은,

소정 임계값보다 큰 데이터수는,

데이터 밀도 Δ1, 즉 단위 데이터 포인트 당의 데이터수 Δ1은,

여기서, 영역 1이 모두 임계값보다 큰 데이터가 검출된 경우에는 데이터 밀도는 Δ1= 1로 된다. 그래서, 소정 임계값 Mth를 설정하고,

를 판정한다.

마찬가지로 영역 2에 대하여, 영역의 전체 데이터 포인트 S2는,

로 된다. 소정 임계값보다 큰 데이터수는,

로 된다. 데이터 밀도 Δ2는,

로 된다.

여기서, 예를 들면, 임계값 Mth를

라고 가정하면, (81)식, (85)식으로부터 영역 1 및 영역 2는 조건을 만족시키고, 인물이 검출된 것으로 할 확률이 높은 것으로 판정된다.

여기서, x 방향에 대하여, xl(0)+xl(1)과 yl(0)으로 특정되는 영역 St는, 전체 데이터 포인트수가,

로 된다. 검출 데이터수는

로 된다. 데이터 밀도는 Δ는

로 된다.

여기서, 영역 St에 대하여도

이므로, 영역 1과 영역 2는, 같은 y 방향의 위치에 인물이 검출되는 것으로 판정된다.

(그 외의 인원수 검출예 1 (영역이 겹치고 있는 경우))

도 30에 나타낸 예에 있어서는, x 방향으로 xl(0)의 1개가 검출되고, y 방향으로 yl(0)의 1개가 검출되어 있다.

*xl(0)과 yl(0)로 특정되는 영역 R에 대하여 전체 데이터 포인트 Sr은

로 된다. 검출 데이터수는,

데이터 밀도 Δr은,

로 된다.

Δr < Mth

그래서, 영역 R에는, 1개의 인물은 검출되는 것이라고는 판정할 수 없다.

데이터 밀도의 역수는,

1/Δr= 2.0

이며, 물체가 2개 있을 가능성이 있지만, 도 31과 같이 데이터 드문드문한 상태에 존재하는 경우에도 데이터 밀도는 같아지게 되는 경우가 있다.

도 30에 대하여, y 방향의 분산 σ를 본다.

yh(y)의 평균값을 yhav, 데이터수 m으로 하여

로 된다. x 방향에 대하여는, 평균값을 xhav 데이터수 n으로 하여

로 된다.

다음에, 도 37에 대하여, 마찬가지로 y 방향, x 방향의 분산은,

로 된다.

전술한 결과로부터, 도 36 쪽이 데이터의 분산값이 큰 것을 알 수 있다.

그래서, 분산값에 대하여 소정 임계값 Bth, 검출물수에 따른 임계값 d1, d2를 설정하고, 다음과 같은 조건을 판정하여, 검출물수를 검출할 수 있다.

예를 들면, 도 36의 예에서는,

와 같이, 임계값을 설정하여 판정할 수 있다.

(그 외의 검출예 2)(영역이 대각적(對角的)으로 이격되어 있는 경우)

도 32의 예에서는, X 방향으로 xl(0), xl(1)의 2개가 검출되고, y 방향으로 yl(0), yl(1)의 2개가 검출되어 있다.

xl(0)과 yl(0)으로 특정되는 영역 R00에 대하여 전체 데이터 포인트 S00은

검출 데이터수는,

데이터 밀도 Δr은,

여기서, 상기(3.2.52)로부터

Mth= 0.80

으로 하였으므로,

이며, 영역 R00에는, 1개의 인물이 검출될 확률은 높은 것으로 판정된다.

다음에, xl(0)과 (yl(0)+yl(1))로 특정되는 영역 Ra에 대하여 전체 데이터 포인트 Sa는

로 된다. 전체 검출 데이터수는, (107)식으로부터

이며, 데이터 밀도 Δa는,

로 된다. 이것은, 임계값 조건을 만족시키지 못한다.

즉, 지금, xl(O)과 (yl(0)+yl(1))를 생각하고 있으므로, 만일, Aa가 소정 임계값보다 큰 것으로 하면, 2개의 인물이 검출될 확률은 높은 것으로 판정된다.

그러나, (112)식으로부터 Δa는, 소정 임계값 이하이므로, xl(0)과 yl(0)+yl(1))로 특정되는 영역에는, 2개의 인물은 검출될 것이라고는 판정할 수 없고, (109)식으로부터, 하나의 인물이 검출될 것으로 판정할 수 있다.

즉, xl(O)과 yl(0)으로 특정되는 영역에는 인물이 검출될 확립은 낮을 것으로 판정된다.

마찬가지로, xl(1)와(yl(0)+yl(1))로 특정되는 영역 Rb에 대하여, 전체 데이터수는

로 된다. 전체 데이터 포인트수 Sb는,

로 된다. 데이터 밀도 Δb는,

로 된다.

이 (115)식으로부터 영역 Rb에는 2개의 인물이 검출될 확률은 낮아지게 된다. 여기서, xl(1)와 yl(O)로 특정되는 영역의 데이터 밀도 Δ10은, 검출 데이터수가 Σh(x)= 17

이며, 전체 데이터 포인트수가

xl(1)×yl(0)= 20

이므로,

xl(1)와 yl(O)로 특정되는 영역의 데이터 밀도 Δ11에 대하여도 마찬가지로

로 된다.

상기 (115)식~(117)식으로부터, 영역10이나 영역11 중 어느 하나는 인물이 검출될 확률은 낮아지게 된다.

다음에, (xl(0)+xl(1))과 yl(O)으로 특정되는 영역 Rc의 데이터 밀도에 대하여 고려한다. 검출 데이터수는,

Σyh(y)= 17

전체 데이터 포인트수는

(xl(0)+xl(1))×yl(0)= 40

따라서, 데이터 밀도 Δc는,

이것은, 전술한 소정 임계값 Mth 이하이므로, 영역 Rc는 2개의 인물이 검출될 확률은 낮고, (109)식 및 (115)식~(117)식 등으로부터, 결국, 인물이 검출되는 것은, xl(0)과 yl(0)으로 특정되는 영역, xl(1)와 yl(1)으로 특정되는 영역의 2개로 된다.

이상과 같은 판정 처리에 의해, 인물수 검출을 행할 수 있다.

(그 외의 사람 검출 처리 방법 (방식 2))

그 외의 방법으로서, x 방향(0~44) 및 y 방향(0~29)에 대하여 차례로, 소정 임계값 조건을 만족시키는지를 판정하여 인물 검출을 행할 수 있다.

데이터 계열을 d(x)(y)로 하여, 상기 (37)식, (41)식 및 (42)식의 조건을 만족시키는 데이터 계열을 검출하여 가고, 예를 들면,

이와 같이, x 방향과 y 방향으로 연속하여 검출된 것으로 하면, 검출물의 크기와 위치도 동시에 알 수 있게 된다.

이 방법에서는 전체 데이터를 1개씩 검출하고, 계열 데이터의 연속성의 판정을 행하는 등을 위해, 연산 시간이 전술한(방식 1)과 비교하여 많이 걸린다.

이 방법을 행하는 경우에는, 예를 들면, x 방향 및 y 방향으로 데이터를 1/2로 압축하여 데이터 처리수를 줄이고 나서 행하도록 한다.

(그 외의 사람 검출 처리 방법 (방식 3))

전술한 (방식 2)와 유사한 다른 방법으로서, 인물을 4각형으로 근사시키고, 4각형의 크기를 차례로 바꾸어, 그 4각형의 영역의 데이터가 소정의 조건을 만족시키는지를 판정함으로써 인물의 검출을 행하도록 할 수 있다.

예를 들면, 도 33과 같이 (2×2), (3×3), (4×4)의 4각형의 영역을 설정한다.

전술한 바와 같은 크기의 상이한 4각형의 영역을 차례로 작은 4각형으로부터 1 데이터씩 이동시키고, 그 영역 내의 데이터가 조건을 만족시키는지 판정하여 가고, 모든 영역에서 판정이 종료되면, 다음 크기의 4각형에 대하여도 마찬가지로 처리를 행한다.

모든 크기의 4각형에 대하여, 처리가 종료한 시점에서, 검출 영역과, 검출 개수를 알 수 있지만, 전술한 (방식 2)와 마찬가지로 처리 시간을 요하게 된다.

3.2.5 텔롭 특징

텔롭 검출 판정 처리계(206)에서는, 도 25에 나타낸 바와 같은 화면의 영역에 있어서의 DCT의 AC 계수의 평균값을 검출한다.

소정 영역에 있어서의 화면 내에서, 소정의 크기의 문자 정보를 포함하는 텔롭은 비교적, 윤곽이 확실하고, 도 25 중 어느 하나의 영역에 텔롭 화상이 나타났을 경우에, 소정 임계값 이상의 AC 계수를 검출할 수 있고, 이로써, 텔롭 검출을 행할 수 있다.

전술한 바와 같이 DCT의 AC 계수를 검출하는 방법 외에, 베이스 밴드 영역(시간 영역의 신호)에서 에지를 검출하는 방법을 이용할 수 있고, 예를 들면, 화상의 휘도 데이터의 프레임 간 차분에 의해 에지를 검출하도록 한다.

또, 웨이브렛 변환에 의해, 다중 해상도 해석을 행하고, 소정의 고주파 성분 데이터를 포함하는 소정의 다중 해석도 영역에 있어서의 데이터를 사용하여, 도 25에 대응하는 영역의 평균값을 연산하도록 하여 DCT의 AC 계수를 사용하는 경우와 마찬가지의 신호를 행한다.

텔롭은, 플립용으로 엷은 색 영역에 한정되지는 않고, 예를 들면, 뉴스 영상의 하부에 출현하는 문자 정보이며, 출현 영역은, 대개, 프로그램 장르에도 의하지만, 화면의 하부, 상부, 또는 좌측 시, 우측 시 등의 경우의 가능성이 크다.

텔롭 특징과 플립 특징을 함께, 문자 특징으로 하는 것도 고려된다.

3.2.6 카메라 특징

카메라 특징 판정 처리계(209)에서는, 줌, 팬 기타 등의 카메라 동작에 관한 특징으로, 예를 들면, 일본국 특개 2003-298981호 공보에 개시되어 있는 바와 같이, MPEG의 경우에는, P픽쳐의 움직임 벡터(모션 벡터)를 사용하여 판정할 수 있다.

그 외에 예를 들면, 일본국 특개 2002-535894호 공보에 카메라 특징에 관한 기술이 개시되어 있다.

(4) 재생 유닛(플레이 유닛) 처리

여기서, 요약 재생(다이제스트 재생)은, 소정의 신호 처리에 의한 음성계 특징 데이터, 영상계 특징 데이터의 각 특징 데이터를 사용하여 소정의 신호 처리에 의해, 소정 구간 내에 있어서 몇개의 중요 재생 구간(키 프레임 구간)을 선정(선택)하여, 그 각 구간을 순서대로, 스킵 재생하도록 할 수 있다.

스킵 재생을 행하는 경우에, 예를 들면, 말하는 사람 음성 구간의 도중에, 스킵하면, 화면 상은 보고 있어 그다지 위화감(違和感)이 없는 경우라도, 음성의 도중에 중단되는 경우에 사용자에 따라서는 청감(聽感) 상 위화감이 생기는 경우가 상정되므로, 소정 음성 레벨(음량) 이하의 구간을 무음 구간으로 설정하고, 그 구간 내의 소정의 시점을 스킵 시점의 후보로 한다.

또, 영상의 장면 체인지는, 방송 프로그램, 영화 그 외의 영상 재생에서는, 화제의 구획의 시점인 것으로 보여지므로, 장면 체인지점, 또는 그 근방을 스킵 시점의 후보로 할 수도 있다.

전술한 바와 같이, 소정 음성 신호에서의 소정 무음 구간과 소정 영상 신호의 장면 체인지 시점 또는 그 근방의 소정 시점에 따라 스킵 재생 시점, 스킵 재생 구간을 파악할 수 있다.

여기서는, 전술한 바와 같은 관점으로부터, (스킵 재생 시점 간(또는 그 구간))을, 편의상, 소정의 재생 단위(이하 재생 유닛 또는 플레이 유닛 Play Unit(또는 PU)를 설정하여 처리를 행한다.

이와 같이 설정된 재생 유닛(PU)에 있어서의 소정의 화상계 특징 데이터, 소정의 음성계 특징 데이터가 소정 처리되고, 이들 영상, 음성 특징 데이터와 요약 재생 시간에 따라 소정의 요약 재생(다이제스트 재생) 구간이 설정되고, 소정의 요약 재생 모드로 스킵 재생을 행함으로써 소정의 요약 재생이 실행된다.

또, 전술한 바와 같은 요약 재생을 행하는 것만 아니고, 소정의 신호 처리에 의해 설정된 PU의 최초(또는 그 근방) 또는 최후(또는 그 근방)의 시점에 챕터(또는 편집점, 또는 재생 구획점)를 설정할 수도 있다.

즉, 전술한 바와 같은 챕터를 설정함으로써, 그 챕터점을 소정의 신호 처리에 의해 썸네일 표시를 행하는 것이나, 사용자가 그 썸네일 표시를 보고 편집을 행하는 등의 조작을 행할 수 있다.

다음에, 재생 유닛(플레이 유닛)(PU)의 처리의 일례에 대하여, 도 34~도 35를 참조하여 설명한다.

(유음(有音) 구간의 경우 (음성 신호가 소정 레벨 이상의 경우))

도 34에 나타낸 처리법 1과 같이, 소정 평균 레벨 이상의 유음 구간에서, 그 음성 구간이 10초~ 20초 범위의 경우에는, 장면 체인지에 의하지 않고 음성 세그먼트가 15초에 가장 가까운 시점(소정의 무음 검출 시점)을 재생 유닛의 단락으로 한다.

도 34 (B)에 나타낸 처리법 2와 같이, 음성 구간이 연속하여 20초보다 길고, 장면 체인지 구간이 20초 이하인 경우에는, 장면 체인지의 시점이 15초에 가장 가까운 장면 체인지 검출점을 재생 유닛의 단락으로 한다.

도 34 (C)에 나타낸 처리법 3과 같이, 음성이 연속하여 20초보다 길고, 장면 체인지 구간이 20초보다 긴 경우에는, 음성 세그먼트, 장면 체인지에 의하지 않고, 재생 유닛이 20초로 되었으면 그 시점에서 구획하는 것으로 한다.

도 34 (D)에 나타낸 처리법 4와 같이, 음성 특징의 속성이 10초~ 20초의 범위에서 변화되는 경우에는, 그 속성 변화점을 재생 유닛의 구획점으로 한다.

도 34 (E)에 나타낸 처리법 5와 같이, CM(커머셜;commercial) 검출한 경우에는, CM 검출점을 재생 유닛의 구획점으로 한다.

여기서, CM 검출의 방법에 대하여 도 35를 참조하여 설명한다.

일반적으로 방송 프로그램의 CM의 구간 길이는 소정 시간 길이(통상 일반적으로는, 15초 또는 30초 또는 60초)이며, CM의 구획점(개시, 종료시점)에서는 장면 체인지가 있으므로, 상기 소정 시간 길이의 검출과 장면 체인지 검출을 행함으로써, 도 36에 나타낸 바와 같이 CM을 검출할 수 있다.

(무음 구간의 경우 (음성의 평균 레벨이 소정 이하인 경우)

도 35 (A)에 나타낸 처리법 6과 같이, 무음 구간(음성 평균 레벨이 소정 이하의 구간)이 20초보다 길고, 장면 체인지 검출 구간 길이가 20초 이하인 경우에는, 15초에 가장 가까운 장면 체인지 검출점을 재생 유닛의 구획점으로 한다.

도 35 (B)에 나타낸 처리법 7과 같이, 무음 구간이 20초보다 길고, 장면 체인지 검출 구간이 20초보다 긴 경우에는, 장면 체인지 검출점에 의하지 않고, 재생 유닛의 개시점으로부터 20초의 시점에서 구획점으로 한다.

전술한 어느 재생 유닛 처리의 설명에서, 재생 유닛의 개시점의 초기값은, 그 프로그램(방송 프로그램)을 기록한 개시 시점으로 한다.

전술한 바와 같은 재생 유닛 처리에 의해, 소정의 음성 특징, 소정의 영상 특징(장면 체인지 특징)에 따른 소정의 재생 단위를 재생할 수 있다.

(재생 유닛 생성 처리계 블록 구성예)

상기에서 설명한 재생 유닛을 생성하는 처리계와, 다음에 설명하는 이 재생 유닛에 특징 데이터를 넣는 유닛화 특징 데이터 처리계의 블록 구성예를 도 37에 나타낸다.

요약 재생, 챕터점 설정 등의 소정 시점 설정 처리는, 재생 유닛의 개시점, 종점으로 설정하므로, 상기에서 설명한 재생 유닛마다 특징 데이터를 대응시켜 처리를 행한다.

즉, 소정 구간마다 특징 추출한 소정의 각 특징 데이터, 음성계 특징 데이터, 영상계 특징 데이터를 재생 유닛의 구간에 따라 반영시키는 처리를 행한다.

여기서, 도 37에 나타낸 유닛화 특징 데이터 처리계의 블록 구성예에 대하여 설명한다.

도 37에 나타낸 블록 구성예에서는, 무음 판정 정보 데이터가 시간 계측계(301)에 입력되고, 상기에서 설명한 재생 유닛 처리에 따른 소정의 간격(시간 길이)이 계측되고, 그 처리 출력이 재생 유닛 처리계(302)에 입력된다.

재생 유닛 처리계(302)는, 장면 체인지 판정 정보 데이터와 CM 검출 판정 정보 데이터도 입력되고, 재생 유닛 처리의 각 처리 방법의 설명에서 행한 것과 같은 신호 처리를 행하여 소정의 재생 유닛을 생성한다.

여기서, CM 검출계(304)는, 무음 특징 검출 정보 데이터와 장면 체인지 특징 정보 데이터, 거기에 CM이 방송되고 있는 프로그램의 채널인지를 판정하는 채널 정보가 입력되고, 도 36을 참조하여 설명한 바와 같은 소정의 신호 처리 방법에 의해, CM 검출 처리를 행한다.

재생 유닛 특징 데이터 처리계(303)는, 음성 속성 정보, 무음 정보 등의 음성계 특징 데이터와, 장면 체인지 특징, 색 특징, 유사 화상 특징, 인물 특징, 텔롭 특징, 인물 특징 등의 각 특징 데이터가 입력되고, 다음에 설명하는 바와 같이 재생 유닛에 각 특징 데이터를 넣는 처리를 행하고 있다.

(5) PU 특징 데이터 처리

다음에, PU 특징 데이터 파일 처리에 대하여 설명한다.

PU 특징 데이터 파일에는, 음성계 특징 데이터 및 영상계(화상계) 특징 데이터가 있다.

이 특징 데이터 처리는, 전술한 재생 유닛에 특징 추출한 각 음성계, 영상계 특징 데이터를 넣는 처리를 행한 결과의 데이터(데이터 파일)이며, 재생 유닛마다 각종 특징 데이터가 소정의 기록 매체에 기록된다.

여기서, 재생 유닛마다 특징 데이터를 기록하는 경우에는, 각 특징 데이터를 소정의 검출 구간대로 검출한 각 특징 데이터를 소정 기록 매체에 기록하여, 그 후, 전술한 재생 유닛의 소정 구간에 따른 특징 데이터로 처리를 행한다.

특징 데이터는, 음성 신호(음성 데이터), 화상(영상) 신호(화상(영상) 데이터)로부터, 소정의 특성 데이터(특성 신호)를 인출하여, 그 인출한 신호(데이터)를 소정의 처리를 행함으로써, 음성, 화상의 특징을 나타내는 특징 데이터로 할 수 있지만, 여기서는, 특별한 설명을 하는 경우를 제외하고, 특성 데이터(특성 신호)로부터 소정의 처리를 행하여 특징을 나타내는 신호(데이터)도 특징 데이터(특징 신호)라고 기술하는 것으로 한다.

영상(화상) 신호는, MPEG 스트림으로부터 특성 데이터로서 I픽쳐에 있어서의 휘도 신호(Y신호), 색신호(색차 신호)(Cb, Cr신호)의 DCT의 DC 계수, B 또는 P픽쳐의 움직임 벡터(모션 벡터) 데이터, 또, DCT의 AC 계수를 각각 인출하고, 인출한 화면 위치 정보, 소정 임계값, 상관 연산 등으로부터, 장면 체인지 특징(scn 특징), 카메라 동작 특징(카메라 특징)(cam 특징), 유사 화상 특징(유사 장면 특징 또는 장면 ID 특징)(sid 특징), 텔롭 특징(tlp 특징), 색 특징(컬러 특징)(col 특징), 인물 특징(Person 특징) 등이 있다.

음성 신호는, 특성 데이터 처리로서, 예를 들면, 약 20ms마다 평균 레벨이 연산 처리되고 이 연산 데이터와 소정 임계값으로부터, 소정 구간에 있어서의 음성 신호의 속성(종류), 평균 파워(평균 레벨) 등의 음성 특징(seg 특징)이다.

여기서는, 음성 속성으로서, 말하는 사람 음성, 음악(악음), 스포츠 프로그램 등에서의 환성 등의 음성이 상정된다.

5.1 특징 데이터 파일의 구성

도 38에 나타낸 특징 데이터 파일의 구성예 1은, 전술한 음성계 특징 데이터, 장면 체인지 특징(scn 특징), 카메라 특징(cam 특징), 유사 장면 특징(sid 특징), 텔롭 특징(tlp 특징), 색 특징(col 특징), 인물 특징(Person 특징) 등의 영상계 특징 데이터를 각각 별개의 특징 데이터 파일로 하는 예이다.

각각의 특징 데이터 파일은 텍스트 형식의 데이터 또는, 바이너리 형식의 데이터로 기록되어 있다.

그리고, 이들 특징 데이터는, 소정의 기록 매체에 기록하는 파일 데이터로서 외에, 통상의 데이터로서 소정의 기록 매체(반도체 메모리 등)에 일시적으로 기억(기록)하여, 다음에 설명하는 요약 리스트 데이터 생성이나 소정 설정 시점 생성(챕터점의 생성) 등의 소정의 처리를 위해 판독하여 사용하는 것도 고려된다. 이하에 설명하는 도 39, 도 40의 경우도 마찬가지이다.

도 39에 나타낸 예 2는, 전술한 모든 음성계 특징 데이터를 텍스트 형식 또는, 바이너리 형식의 하나의 파일로 하여 정리하고, 전술한 모든 영상계 특징 데이터를 텍스트 형식 또는, 바이너리 형식의 하나의 파일로 하여 정리한 경우의 예이다.

도 40에 나타낸 예 3은, 상기한 모든 음성계 특징 데이터 및 상기한 모든 영상계 특징 데이터를 텍스트 형식 또는, 바이너리 형식의 하나의 파일로 하여 정리한 경우의 예이다.

이와 같이, 1개의 파일로 하여 정리한 것에 의해, 도 38의 예 1의 경우와 비교하여 파일수가 1개뿐이므로, 파일로서의 취급이 간단하게 되고, 또한, 바이너리 형식로 하면, 데이터 사이즈(파일 사이즈, 파일 용량)가 작아져 효율적이 된다.

여기서는, 특징 데이터 파일을 도 40의 예 3에 나타낸 바와 같은 경우에 특징 데이터를 바이너리 형식으로 기록하는 경우에 대하여 설명한다.

또, 도 40에 나타낸 예 3은, 도 39에 나타낸 예 2에 있어서, 모든 음성계 특징 데이터를 바이너리 형식으로 기술한 데이터와, 모든 영상계 특징 데이터를 바이너리 형식으로 기술한 데이터를 함께 한 것으로 된다.

전술한 것으로부터, 특징 데이터 파일에 있어서의 이하의 설명에서의 음성계 특징 데이터의 처리 방법(기술 방법)은, 도 39에 나타낸 음성계 특징 데이터에 대하여 적용할 수 있고, 영상계 특징 데이터의 처리 방법(기술 방법)은, 도 39의 예 2에 있어서의 영상계 특징 데이터에 대하여 적용할 수 있다.

5.2 특징 데이터의 계층 구조

재생 유닛을 단위로 하는 특징 데이터의 계층 구조를 도 41에 나타낸다.

이하에 나타낸 예는, 소정의 처리 단위(재생 유닛)에 있어서의 소정의 특징 데이터 처리이다.

특징 데이터는, 도 41에 나타낸 바와 같이, 특징 데이터 헤더 정보, 프로그램 1의 특징 데이터, 프로그램 2의 특징 데이터 등으로 구성된다.

특징 데이터 헤더 정보는, 도 42에 나타낸 바와 같이, 프로그램 1, 프로그램 2 등 프로그램 전체의 총기록 시간, 기록 개시, 기록 종료시각, 프로그램수, 그 외에 정보 등의 소정 데이터로 구성되어 있다.

다음에, 프로그램 1의 특징 데이터를 예로, 프로그램(프로그램)의 특징 데이터에 대하여 설명한다.

도 41에 나타낸 바와 같이, 프로그램 1의 특징 데이터는, 프로그램 1의 정보, 재생 유닛 1의 정보, 재생 유닛 2의 정보 등으로 구성되어 있다.

도 42에 나타낸 바와 같이, 프로그램 1의 정보는, 프로그램 기록 시간, 프로그램 개시, 종료시각, 프로그램 장르, 그 외에 정보 등의 소정 데이터로 구성되어 있다.

다음에, 재생 유닛 1의 정보를 예로, 재생 유닛의 데이터 구조에 대하여 설명한다.

도 41에 나타낸 바와 같이 재생 유닛 1의 정보는, 음성 특징 데이터, 영상 특징 데이터로 구성되어 있다.

(음성계 특징 데이터의 구성)

도 41에 나타낸 바와 같이, 음성계 특징 데이터는, 계열 번호 정보, 개시 종료 위치 정보, 음성 속성 정보, 특징 데이터, 그 외에 정보 데이터 등으로 구성되어 있다.

도 41에 나타낸 바와 같이, 영상계 특징 데이터는, 장면 체인지 특징, 색특징, 유사 화상 특징, 인물 특징, 텔롭 특징, 카메라 특징 등의 각 소정의 특징 정보 데이터로 구성되어 있다.

이하의 장면 체인지 특징, 색 특징, 유사 화상 특징, 인물 특징, 텔롭 특징, 카메라 특징 등 각 특징 데이터의 설명에서, 모든 소정 구간에서 그 각 항목의 특징 데이터를 소정 기록 매체에 기록(기록 처리)하는 처리 외에, 예를 들면, 소정 임계값 이상의 특징 데이터가 검출된 경우에만, 그 데이터로서 소정의 기록 매체에 기록(기록 처리)하도록 소정 데이터 처리를 행한다.

이와 같이, 소정 임계값 이상의 특징 데이터가 검출된 경우만, 소정의 데이터 처리를 행하는 경우에는, 임계값보다 작은 경우에는 소정의 특징 데이터가 기록되지 않으므로, 임계값 이상의 특징 데이터가 검출되어 소정의 기록(기입) 처리가 행해지고, 최초로부터 몇번째의 특징 데이터 검출인지를 아는 경우에는, 하기에 설명하는 계열 번호 정보로부터 알 수 있다.

(장면 체인지 특징)

도 43에 나타낸 바와 같이, 계열 번호 정보, 개시 종료 위치 정보, 특징 데이터, 그 외의 데이터로 이루어진다.

여기서, 계열 번호 정보는, 0, 1, 2, 3, … 과 그 프로그램(방법 프로그램)의 처음부터의 장면 체인지가 일어난 순번을 나타내는 정보이다.

개시 종료 위치 정보는, 상기 각 순번의 장면 체인지의 개시 종료의 위치를 나타내는 정보 데이터이며, 프레임(필드) 번호, PTS, DTS, 시간 등의 정보 데이터를 사용할 수 있다.

(색 특징)

도 43에 나타낸 바와 같이, 계열 번호 정보, 검출 영역을 식별하는 정보 데이터, 개시 종료 위치 정보 데이터, 특징 데이터, 그 외의 데이터 등으로 이루어진다.

여기서, 계열 번호 정보는, 0, 1, 2, 3, … 과 그 프로그램(방법 프로그램)의 처음부터의 색 특징 검출의 순번을 나타내는 정보이다.

개시 종료 위치 정보는, 상기 각 순서에 있어서의 색 특징 검출이며, 각 영역의 특징 검출한 개시 종료의 위치를 나타내는 정보 데이터이며, 프레임(필드) 번호, PTS, DTS, 시간 등의 정보 데이터를 사용할 수 있다.

특징 데이터는, 예를 들면, RGB, Y, Cb, Cr 등의 데이터가 있다.

(유사 화상 특징)

도 43에 나타낸 바와 같이, 계열 번호 정보, 빈도 정보 개시 종료 위치 정보, 특징 데이터, 그 외의 데이터 등으로 이루어진다.

여기서, 계열 번호 정보는, 0, 1, 2, 3, … 과 그 프로그램(방법 프로그램)의 처음부터의 유사 화상 특징 검출의 순번을 나타내는 정보이다.

특징 데이터로서는, 전술한 바와 같은 유효 화면을 소정수의 영역으로 분할(예를 들면, 25분할)한 각 분할 영역의 DCT의 평균 DC 계수 등이 있다.

(인물 특징)

여기서, 계열 번호 정보는, 0, 1, 2, 3, …과 그 프로그램(방법 프로그램)의 처음부터의 유사 화상 특징 검출의 순번을 나타내는 정보이다.

(텔롭 특징)

여기서, 계열 번호 정보는, 0, 1, 2, 3, … 과 그 프로그램(방법 프로그램)의 처음부터의 텔롭 특징 검출의 순번을 나타내는 정보이다.

(카메라 특징)

여기서, 계열 번호 정보는, 0, 1, 2, 3, …과 그 프로그램(방법 프로그램)의 처음부터의 카메라 특징 검출의 순번을 나타내는 정보이다.

여기서, 방송 프로그램을 기록하는 경우에, 방송 프로그램의 소정의 기록 처리와 동시에, 여기서 설명하는 특징 추출 처리, 특징 데이터의 기입 처리(기록 처리)를 행할 수 있지만, 이미, 기록이 완료된 방송 프로그램이나, 그 외의 영화, 드라마 그 외의 화상 음성 소프트에 대하여 소정의 특징 데이터 추출을 행하고, 특징 데이터 파일을 생성할 수 있다.

프로그램 1에 대하여, 전술한 바와 같이 PU와 특징 데이터를 사용할 때, 그 외의 프로그램 2, 프로그램 3 등을 기록하는 경우에도, 전술한 프로그램 1의 경우와 마찬가지로 PU와 특징 데이터를 사용할 수 있다.

(6) 플레이 리스트 처리 (요약 재생 리스트 생성 처리)

다음에, 상기한 특징 추출 처리가 생성한 PU 파일(PU 특징 데이터 파일)로부터, 요약 재생(다이제스트 재생)을 행하기 위한 요약 데이터 처리에 관한 설명을 행한다.

6.1 요약 룰 처리

본원에서 설명하는 특징 데이터를 사용하는 요약 재생(다이제스트 재생)에서는, 전술한 PU를 단위로 하는 소정 재생 구간을 스킵 재생 처리함으로써 원하는 요약 재생(다이제스트 재생)을 행한다.

6.2 소정 시점 설정 처리 (플레이 리스트 파일) 처리

다음에, 플레이 리스트 파일에 대하여 설명한다.

이 파일은, 상기한 특징 데이터에 따라 의미가 부여된 PU, 또는 PU의 접합체(PU의 집합체, 또는 PU의 연결체) 중 어떤 것을 선택하여 재생 처리를 행할 것인지의 소정 데이터의 정보가 소정의 서식에 따라 기술되어 있는 데이터이다.

여기서, 이 데이터는 특징 추출의 기초로 된 화상 음성 데이터가 기록된 소정의 기록 매체에 기록하는(기입 처리) 경우 외에, 소정의 메모리 수단에 일시적으로 기억하는 경우도 고려된다.

플레이 리스트 파일의 일례를 도 44 (A), 도 44 (B)에 나타낸다.

도 44에 나타낸 예 1에 있어서의 (a)의 세로 데이터 계열은, 재생 구간의 개시 위치 정보의 데이터이며, 프레임 번호, 시간(시각), 스트림(압축된 화상 음성 데이터)으로부터의 PTS(프리젠테이션 타임 스탬프), 또는 DTS(디코드 타임 스탬프) 등의 소정의 정보 데이터 등이다.

도 44 (A)에 나타낸 예 1에 있어서의 (b)의 세로 데이터 계열은, 재생 구간의 종료 위치 정보의 데이터이며, 예 1의 것 (a)의 데이터와 대응하여, 프레임 번호, 시간(시각), 스트림(압축된 화상 음성 데이터)로부터의 PTS(프리젠테이션 타임 스탬프), 또는 DTS(디코드 타임 스탬프) 등의 소정의 정보 데이터 등이다.

도 44 (A)에 나타낸 예 1에 있어서의 (c)의 세로 데이터 계열은, 그 PU(재생 유닛) 또는 재생 유닛군(PU군)의 중요도이다.

도 44 (A)에 나타낸 예 1에 있어서의 (d)의 세로 데이터 계열은, 요약 룰로 규정된, 또는 설정된 의미의 문자 데이터이다.

도 44 (B)에 나타낸 예 2는, 모든 PU 구간에 대하여 의미 문자와 평가값(중요도)을 기술하고, 재생 구간, 챕터 설정 등의 소정 시점을 나타내기 위해 「1」, 「0」의 식별 데이터를 설치한 경우의 예이다.

도 44 (B)에 나타낸 예 2의 (a)(b)에 나타낸 개시점, 종료점은, 다음 단의 데이터와 연속적으로 되어 있는 것을 알 수 있다.

예를 들면, 도 44 (B)에 나타낸 예 2에 있어서, 최초의 개시점 0 종료점 229이며, 다음의 개시점(230)에 연속적으로 연결되어 있다.

도 44 (B)에 나타낸 예 2에 있어서의 (e)의 세로 데이터 계열은, 요약 재생을 행할 것인가 여부의 플래그 정보 데이터이며, 「1」의 경우에는 재생을 행하는 경우에, 「0」의 경우에는 재생을 행하지 않는 경우이다.

또, 「1」의 최초의 시점, 「0」의 최초의 시점을 소정 시점 설정점(챕터점)이라고 볼 수 있다.

(7) 동작 플로차트

도 45는, 본 발명의 동작 플로차트의 일례이며, 이에 대하여 설명한다.

처리를 개시하면, 먼저, 최초의 스텝 S1에서 기록 모드인지 재생 모드인지 판정되고, 기록 모드인 경우에는 기록 처리(R)로, 또, 재생 모드인 경우에는 스텝 S2의 처리로 이행한다.

7.1 재생 처리 관계 동작 플로차트 (재생 처리 동작 플로차트의 일례)

재생 모드인 경우에는, 스텝 S2에서 요약 재생(다이제스트 재생) 모드인지 통상 재생 모드인지 판정되고, 통상 재생 모드인 경우에는 통상 재생 처리(P)로 이행한다.

요약 재생 모드인 경우에는, 스텝 S3에서 소정의 특징 데이터가 소정 기록 매체에 기록되어 있는지의 검출 처리, 또는 소정 파일 데이터로서 기록 매체의 소정 기록 영역에 기록되어 있는지의 검출 처리가 판정 처리된다.

스텝 S3에서 소정의 특징 데이터가 검출되는 경우에는 스텝 S4에서 소정의 플레이 리스트 데이터(데이터 파일)가 소정 기록 매체의 소정 기록 영역에 기록되어 있는가 검출되고, 플레이 리스트 데이터(플레이 리스트 파일)가 검출되는 경우에는, 스텝 S5에서 소정 플레이 리스트 데이터를 판독 처리한다.

스텝 S3에서 소정의 특징 데이터가 검출되지 않은 것으로 판정되는 경우에는, 스텝 S8에서 지금 요약 재생하려는 화상 음성 데이터(프로그램, 방송 프로그램)를 입력하여 소정의 특징 추출 처리를 행하고, 스텝 S9에서 처리가 종료되었는지가 판정되고, 종료되지 않은 경우에는 스텝 S8로 복귀하여 종료할 때까지 처리를 행한다.

스텝 S9에서 소정의 특징 추출 처리가 종료된 것으로 판정된 경우에는, 스텝 S6로 이행하여 소정의 플레이 리스트 데이터 생성 처리가 행해진다.

스텝 S4에서 소정의 플레이 리스트 데이터(파일)가 검출되지 않은 것으로 판정되는 경우에는, 스텝 S6에 있어서 소정의 기록 매체의 소정 기록 영역에 기록되거나, 또는 기억되어 있는 소정의 특징 데이터를 판독 처리하여 소정의 플레이 리스트 데이터(파일)를 생성 처리하여 소정의 기록 매체의 소정 영역에 순서대로, 또는 처리가 종료된 후 데이터를 기록하고, 스텝 S7에서 모든 플레이 리스트 생성 처리가 종료되었는지가 판정되고, 종료되지 않은 경우에는 스텝 S6으로 복귀하여 처리를 반복하고, S7에서 소정의 플레이 리스트 데이터가 모두 생성된 것으로 판정된 경우에는, 스텝 S5에서 기록한 플레이 리스트 데이터를 판독 처리한다.

여기서, 스텝 S6에 있어서, 순서대로 생성된 플레이 리스트 데이터는 상기 방송 프로그램 등의 화상 음성 정보 데이터가 기록되어 있는 것과 같은 기록 매체 상의 소정 기록 영역에, 순서대로 기록하도록 해도 되고, 또는 화상 음성 데이터가 기록된 것과는 별개의 기록 매체, 예를 들면, 장착, 착탈 가능한 소정 메모리 수단 등에 정보를 기록하도록 해도 된다.

이 경우에도, 소정 플레이 리스트 데이터가 순서대로 생성 처리되는 동시에, 순서대로 데이터를 기록하도록(기억 처리하도록) 해도 되고, 소정의 플레이 리스트 데이터가 모두 생성 처리되고, 플레이 리스트 처리가 종료한 후, 생성된 모든 플레이 리스트 데이터를 함께 기록(기억) 처리하도록 해도 된다.

또, 플레이 리스트 데이터는, 도 46, 도 47을 참조하여 설명하는 바와 같이, 기록 시간에 따라서 플레이 리스트 데이터를 생성하도록 해도 된다.

여기서는, 전술한 바와 같이, 소정 PU 구간, 또는 복수개의 PU 구간이 접합된 소정 구간마다, 소정 평가값도 설정 처리되므로, 평가값에 따라 요약 재생 시간을 조작할 수 있다.

스텝 S10에서 재생 시간 선택 모드로 되고, 스텝 S11에서, 사용자가 곧 재생 시간을 선택했거나, 또는 요약 재생 모드 선택한 후 플레이 리스트 데이터의 검출 처리 종료 후부터 소정 시간 tmod 내에 사용자가 재생 시간을 선택 처리했는지 판정되고, 선택되지 않은 경우에는, S12에서 사용자에 의해 재생 스톱이 선택되었는지가 판정 처리된다.

스텝 S12에서 사용자에 의해 재생 스톱이 선택된 경우에는 처리를 종료하고, 재생 스톱이 아닌 경우에는 스텝 S10으로 복귀하여 상기 소정의 처리를 반복한다.

스텝 S11에서, 사용자가 재생 시간을 곧 선택한 경우, 또는 상기 소정 시간의 tmod 내에서 재생 시간을 선택하지 않는 경우에는 스텝 S13에서 요약 재생 동작 처리로 이행한다.

여기서, 사용자가 재생 시간을 선택한 경우에는 그 요약 재생 시간에서, 재생 시간을 선택하지 않고 상기 소정 시간 tmod 경과한 경우에는, 소정의 디폴트 설정 재생 시간(소기 설정 재생 시간) tpbO이 설정된다.

여기서, 사용자에 의해 요약 재생 시간을 임의로 선택할 수 있도록 해도 되고, 기록한 프로그램 기록 시간과 플레이 리스트 데이터에 따른, 미리 설정된 재생 시간으로부터 선택 처리할 수 있도록 해도 된다.

이 경우, 예를 들면, 5분, 10분, 15분, 20분, 30분 등의 시간으로 한 경우에, 디폴트의 요약 재생 시간은, 기록 시간에 따라, 예를 들면, 도 46과 같이 설정할 수도 있다.

도 46에 나타낸 예에서는, 소정 기록 시간 이상(Trecmin)의 경우에만 요약 재생 모드를 설정할 수 있도록 하여, 이 소정 기록 시간 Trecmin로서, 기록 시간 Trec가 10분 미만의 경우에는, 시간이 짧으므로, 요약 재생은 설정되지 않고 통상 재생 만으로 하고 있다.

일례로서, 도 46으로부터 기록 시간 Trec가 60분의 경우에는, 사용자에 의한 선택 가능한 요약 재생 시간은, 10분, 15분, 30분, 40분으로 되고, 디폴트의 설정 시간은, 30분으로 된다.

도 46에 나타낸 예에서는, 기록 시간 Trec가 길어질 수록, 사용자에 의한 선택 가능한 요약 재생 시간의 선택수가 많아지게 되어 있지만, 상기한 바와 같이, 기록 시간이 짧은 경우는, 스킵 재생 처리에 의한 요약 재생에 의해 스킵 처리되는 총구간이 많아지면, 그만큼 정보가 결락되게 되므로, 재생 내용을 파악할 수 없게 되는 것을 생각할 수 있으므로 선택수를 적게 하고, 적절한 요약 시간의 선택을 행할 수 있도록 하고, 그에 비교하여 기록 시간이 긴 경우에는, 정보량이 많기 때문에 선택수를 많게 하여 사용자에 의한 효과적, 유효한 동작을 행할 수 있도록 되어 있다.

이와 같은 사용자에 의한 선택 가능한 요약 재생 시간의 일람, 디폴트의 재생 시간 등의 정보는, 본 발명을 적용한 기록 재생 장치에 있어서의 소정 표시 수단 또는, 그 장치에 접속된 소정의 표시 수단, 또는 장치의 리모콘 상에서의 액정 등의 소정 표시 화면 등에 표시하는 것이 고려된다.

여기서, 플레이 리스트 생성 처리와 동시에, 챕터 설정 처리를 행할 수도 있고, 기록 시간에 따라 도 44에 나타낸 바와 같이, 설정 가능한 챕터수에 따라 자동적으로 소정의 챕터 설정 처리가 행해진다.

예를 들면, 도 44로부터 기록 시간이 1시간인 경우에는, 5~40개의 챕터가 설정되도록 소정의 신호 처리가 행해진다.

스텝 S13에서는 요약 재생 동작이 행해지지만, 상기한 바와 같이, 소정 PU 구간 또는 복수개의 PU 구간의 접합 구간마다 소정 평가값이 설정되어 있으므로, 설정 시간과 평가값에 따라 스킵 재생 처리가 행해지고, 이로써, 요약 재생이 행해진다.

즉, 평가값이 높은 PU 구간으로부터 최우선하여 차례로 선택되고, 선택한 요약 재생 시간에 가능한 한 가까와지도록, 차례로, 상기 최우선 평가값과 비교하여 평가값이 작은 구간을 선택 처리하여 간다.

스텝 S14에서는 재생 동작을 종료할 것인지 판정되고, 종료의 경우에는 처리를 종료하고, 종료되지 않은 경우에는 스텝 S15에서 재생하고 있는 소정 프로그램(프로그램)이 종료되었는지 판정되고, 종료의 경우에는 처리를 종료하고, 종료되지 않은 경우에는, 스텝 S16으로 이행하여 재생 시간을 변경할 것인지 판정한다.

스텝 S16에서 재생 시간을 변경하는 경우에는 스텝 S10으로 복귀하고, 상기 처리를 반복하고, 변경하지 않는 경우에는 스텝 S13으로 복귀하여, 요약 재생 동작을 반복한다.

7.2 기록 처리 관계 동작 플로차트

(기록 처리 동작 플로차트의 일례)

기록 모드인 경우에서의 동작 플로차트의 예를 도 48에 나타낸다.

도 45에 나타낸 플로차트의 스텝 S1에서 기록 모드가 선택된 경우에는, 도 48에 나타낸 플로차트의 스텝 R1에서 타이머 기록 모드인지 통상 기록 모드인지가 판정되고, 통상 기록 모드인 경우에는, 스텝 R9로 이행하여 통상 기록 동작을 행한다.

스텝 R9의 통상 기록 동작으로 소정의 기록 신호 처리로 이행하여, 스텝 R10에 있어서 MPEG 등의 소정 인코드 처리되는 화상 음성 데이터, 또는 인코드 처리된 화상 음성 데이터로부터 소정의 특징 추출 처리가 행해진다.

여기서, 기록 신호 처리와 특징 추출 신호 처리는, 동시에 행할 수 있다.

소정 인코드 처리되는 화상 음성 데이터에 대하여는, 소정 인코드 처리되는 도중의 화상 음성 데이터를 사용하여 소정의 특징 추출 처리를 행하는 것이며, 예를 들면, 화상의 DCT 처리계로부터 DCT 신호 처리의 DC 계수 데이터, AC 계수 데이터 등을 인출할 수 있고, 이들 소정의 데이터를 사용하여 소정 신호 처리를 행함으로써 장면 체인지 특징의 검출(컷점 특징의 검출), 텔롭 특징의 검출 등 전술한 각 소정의 특징 추출 신호 처리를 행한다.

음성 데이터는, 소정의 대역 압축 신호 처리에 있어서의 소정 서브 밴드 신호 처리에 있어서, 소정 서브 밴드 대역에 있어서의 데이터를 사용함으로써, 말하는 사람 음성, 음악(악음) 판정 검출 등의 신호 처리를 행할 수 있다.

악음 판정 신호 처리에 대하여는, 예를 들면, 소정 서브 밴드 대역에 있어서의 데이터의 계속성을 판정함으로써 판정 처리를 행할 수 있다.

또, 베이스 밴드 대역의 화상 음성 데이터를 사용할 수도 있어, 예를 들면, 화상의 베이스 밴드 신호를 사용하여, 프레임(또는 필드) 간 차분 신호 처리에 의해 장면 체인지 검출 처리나, 그 차분 신호에 의한 에지 검출에 의해 텔롭 특징 신호 처리 등, 그 외에 소정의 특징 추출 신호 처리를 행할 수 있다.

여기서, 각 화상, 음성 특징 추출 신호 처리된 특징 데이터는, 화상 음성 데이터가 기록되는 같은 소정 기록 매체, 또는 소정의 버퍼 메모리 등의 소정 데이터 기억 수단(데이터 기록 수단)에 기록한다.

스텝 R11에서 통상 기록 모드가 종료인지 판정되고, 종료가 아닌 경우에는 스텝 R9으로 복귀하고, 상기 동작을 반복하고, 종료의 경우에는, 스텝 12로 이행하여 플레이 리스트 데이터 생성 처리(또는 챕터 데이터 생성 처리)로 이행한다.

스텝 R1에서 타이머 기록 모드인 경우에는, 스텝 R2에서 기록 개시, 기록 종료 시각 설정을 행하고, 스텝 R3에서 소정의 동작 시각인지 판정되고, 소정 시각이 아닌 경우에는, 스텝 R7에서 동작 대기하고, 스텝 R8에서 사용자에 의해 타이머 동작 해제의 중간개입 처리가 행해졌는지 판정되고, 타이머 동작을 계속하는 경우에는, 스텝 R3으로 복귀하여 상기 동작을 반복한다.

스텝 8에서 타이머 동작이 해제된 경우에는, 도 45의 스텝 S1로 복귀하고, 최초의 동작 모드 선택 처리를 행한다.

스텝 R3에서 소정의 기록 동작시각으로 된 것으로 판정되었으면, 기록 동작을 개시하고, 전술한 스텝 R9 ~스텝 R11과 마찬가지의 동작을 스텝 R4~스텝 R6에서 행한다.

특징 데이터는, 전술한 바와 같이, 각 화상, 음성 특징 추출 신호 처리된 특징 데이터(특징 추출 데이터)는 화상 음성 데이터가 기록되도록 한 소정 기록 매체, 또는 소정의 버퍼 메모리 등의 소정 데이터 기억 수단(데이터 기록 수단)에 기록한다. 스텝 R6에서 기록 종료 시각이라고 판정된 경우에는, 스텝 R12로 이행하여 플레이 리스트 데이터 생성 처리 또는 챕터 데이터 생성 처리를 행한다.

스텝 R12에서는, 각종의 소정 특징 추출 처리된 특징 데이터(특징 추출 처리된 소정 특징 데이터를 소정의 가공 처리, 소정의 신호 처리를 가한 데이터, 이들 데이터를 사용하여 소정 판정 처리를 행한 데이터 등도 포함함)를 소정 기록 매체로부터 판독 처리를 행하고, 소정의 플레이 리스트 데이터(파일) 생성 처리, 챕터 데이터 생성 처리를 행한다.

생성된 플레이 리스트 데이터, 챕터 데이터는, 소정 기록 매체에 기록되고, 스텝 R13에서 생성 처리가 종료되었는지 판정 처리되고, 종료되지 않은 경우에는, 스텝 R12로 복귀하여 상기 처리 동작을 반복하고, 스텝 R13에서 종료된 것으로 판정된 경우에는 동작을 종료한다.

여기서, 플레이 리스트 데이터, 챕터 데이터는 순차 데이터의 생성 처리와 동시에 소정 기록 매체에 기록하는 경우의 그 밖에, 상기, 처리 대상으로 하고 있는 소정의 방송 프로그램, 프로그램, 또는 소정 기록 구간에 대한 소정 플레이 리스트 데이터, 챕터 데이터의 모든 생성 처리가 종료한 후에, 함께 소정 기록 매체에 기록하도록 해도 된다.

(특징 추출 처리와 평행하게 (동시에) 플레이 리스트 데이터(챕터) 처리를 행하는 경우)

여기서, 전술한 설명에서는, 소정의 방송 프로그램, 프로그램 등 화상 음성 정보 데이터의 기록 처리와 동시에 소정의 특징 추출 처리를 행하고, 특징 추출 처리한 각종의 특징 데이터(특징 추출 데이터, 또는 특징 데이터를 사용하여 소정의 가공, 소정의 신호 처리를 가한 신호를 포함함)를 소정의 기록 매체에 기록하여, 상기 소정의 방송 프로그램, 프로그램이 종료한 후, 기록한 특징 데이터를 판독하여, 플레이 리스트 데이터(파일), 챕터 데이터 등을 생성 처리하는 경우를 기술하였으나, 특징 추출 처리와 동시에, 또는 특징 추출 처리와 평행하게 플레이 리스트 데이터(파일), 챕터 데이터 생성 처리를 행하도록 해도 된다.

7.3 재생 유닛 처리 관계 동작 플로 차트

(PU처리로 소정 데이터 구간마다 음성 세그먼트 처리와 장면 체인지 처리를 행하는 경우의 동작 플로차트)

전술한 PU 신호 처리의 경우에, 음성 세그먼트 검출점과 장면 체인지 검출점으로부터 소정 신호 처리를 행하는 동작 플로차트의 일례를 도 49에 나타낸다.

처리를 개시하면 스텝 P1에서 화상 음성 정보 데이터가 기록되어 있는 소정 기록 매체로부터 음성 데이터, 및 다음에 설명하는 장면 체인지 검출 처리를 위해 화상 데이터의 소정 샘플 데이터수를 판독 처리하여, 스텝 P2에서 판독한 데이터를 메모리 등 소정의 기록 수단인 데이터 버퍼에 기억 처리(기입 처리, 기록 처리)를 행하여 간다.

스텝 P3에서 소정 샘플수의 데이터가 버퍼에 기록된 것으로 판정된 경우에는 스텝 P4로 이행하고, 아직 소정 샘플 데이터가 기록되지 않은 것으로 판정된 경우에는 스텝 P2로 복귀하여 동작을 반복한다.

여기서, 스텝 P2~스텝 P7에서는 PU 처리를 위해, 소정, 음성 신호의 유음, 무음 판정 처리를 생각할 수 있으므로, 스텝 P2의 소정 샘플 데이터수로서는, 대략 0.1초 정도 내지 1초 정도의 소정 구간 사이에 상당하는 데이터수의 버퍼 처리를 행한다.

예를 들면, 샘플링 주파수 48KHz의 경우에는, 1초간에 48000 샘플 데이터이므로, 0.1초의 경우에는 4800 샘플의 데이터를 버퍼에 기록한다.

스텝 P4에서 버퍼로부터 음성 데이터를 판독 처리하고, 스텝 P5에서, 전술한 바와 같은 소정 구간의 음성 레벨의 연산 처리를 행하고, 스텝 P6에서 소정 레벨과 비교 처리를 행하고, 소정 레벨 이상인지 소정 레벨 이하인지의 판정 처리를 행하여, 무음 검출(무음 판정) 처리가 행해진다.

스텝 P6에서 그 구간이 무음 구간인 것으로 판정된 경우에는, 스텝 P7에서 그 정보를 소정 메모리(버퍼)에 기억(기록)하고, 무음이 아니고 유음인 것으로 판정된 경우에는 스텝 P8로 이행하고, 스텝 P1에서 읽어들인 버퍼의 데이터의 음성 버퍼 처리가 종료되었는지 판정 처리되고, 종료하지 않은 경우에는 스텝 P2로 복귀하여 상기의 처리를 반복하고, 종료한 경우에는 스텝 P9로 이행한다.

스텝 P9에서는, 스텝 P8에서 처리된 음성 세그먼트 정보 데이터를 판독하고, 스텝 P10에서 상기한 짧은 무음 구간, 유음 구간, 긴 무음 구간, 유음 구간의 세그먼트 처리를 행한다.

스텝 P11에서는, 소정 데이터 샘플수의 화상 데이터의 DCT 처리 데이터를 소정의 버퍼 메모리(소정 데이터 기록 수단)에 기록 처리를 행하고, 스텝 P12에서 소정 데이터량의 기록이 종료되었는지 판정되고, 소정 데이터량이 아닌 경우에는, 스텝 P11로 복귀하여 상기 버퍼 메모리계로의 기록 처리를 반복하고, 스텝 P12에서 소정 데이터량의 기록 처리가 종료된 것으로 판정된 경우에는, 스텝 P13으로 이행한다.

스텝 P13에서는 상기 소정의 버퍼 메모리계로부터 기록한(기입 처리한) 소정의 DCT 데이터를 판독 처리하고, 스텝 P14에 있어서, 프레임 간 차분 등의 소정 신호 처리를 행하고, 소정의 장면 체인지 검출 처리를 행한다.

스텝 P15에서 소정의 장면 체인지가 있었는지 판정 처리되고, 장면 체인지가 있었다고 판정되는 경우에는, 스텝 P16에서 소정의 메모리 수단(데이터 기록 수단, 데이터 버퍼 수단 등)에 장면 체인지가 있던 시점의 위치 정보 데이터를 기억(기입 처리)하여 스텝 P17로 이행하고, 스텝 P15에서 장면 체인지가 없는 것으로 판정된 경우에는 스텝 P17로 이행한다.

스텝 17에서는 소정 데이터 버퍼 내의 소정 데이터량의 상기 체인지 검출 처리가 종료되었는지 판정 처리되고, 종료하지 않은 경우에는 스텝 P11로 복귀하여 상기 신호 처리를 반복하고, 스텝 P17에서 종료했다고 판정되는 경우에는, 스텝 P18로 이행한다.

스텝 P18에서는 소정 버퍼 메모리 수단에 기록된(기억된) 장면 체인지 위치 정보를 판독하고, 스텝 P19에서 소정 구간 길이 보다 짧은 등, 너무 짧은 구간은 전후 구간과 접합하는 등의, 장면 체인지 검출 구간의 보정 처리를 행한다.

스텝 P20에서는 상기, 소정 구간에 있어서의 생성 처리된 음성 세그먼트 위치 정보 데이터 및 장면 체인지 위치 정보 데이터를 판독하고, 스텝 P21에서 음성 세그먼트 위치, 음성 세그먼트 구간 길이, 장면 체인지 위치, 장면 체인지 구간 길이 등의 소정 정보 데이터로부터, 소정의 PU의 위치 정보, 구간 정보 등 소정 PU 정보 데이터를 생성 처리한다.

스텝 P22에서는, 스텝 P21에서 처리된 PU 정보로부터, 그 PU 구간에 대응하는 특징 데이터(또는 특징 추출 데이터, 또는 특징 데이터를 소정의 신호 처리를 행한 신호 등을 소정의 기록 매체, 또는 소정의 데이터 버퍼에 기록 처리를 행한다.

상기한 바와 같이, 이들 기록 매체는, 지금 처리의 대상으로 하고 있는 방송 프로그램, 프로그램 등 소정 구간의 화상 음성 정보 데이터가 기록되어 있는 것과 같은 소정 기록 매체 상에서의 소정 기록 영역 외에, 다른 소정 기록 매체 상에 기록(기억, 기입 처리)을 행하는 것도 고려된다.

스텝 P23에서는 소정 데이터량의 상기 음성 세그먼트 처리, 장면 체인지 처리, PU처리 등 일련의 신호 처리가 종료되었는지 판정 처리되고, 종료된 것으로 판정되는 경우에는 처리를 종료하고, 종료되어 있지 않은 것으로 판정된 경우에는 스텝 P1으로 복귀하여, 전술한 처리를 반복한다.

(PU 처리로 모든 음성 세그먼트 처리를 행한 후에 장면 체인지 처리를 행하는 경우의 동작 플로 차트)

여기서, 전술한 예에서는, 기록한 소정 방송 프로그램, 프로그램 등의, 화상 음성 데이터의 소정 구간마다, 순서대로, 음성 데이터의 세그먼트 처리를 행하고, 그 후, 화상의 장면 체인지 검출 처리를 행하였으나, 전술한 바와 같이 소정 구간마다의 처리가 아니고, 지금 처리 대상으로 하고 있는 방송 프로그램, 프로그램의 소정 구간 모든 음성 세그먼트 처리가 종료된 후, 모든 장면 체인지 검출 처리를 행하고, 모든 장면 체인지 검출 처리가 종료된 후, 소정의 PU 처리를 행하도록 할 수도 있다.

전술한 PU 신호 처리의 경우에, 음성 세그먼트 검출점과 장면 체인지 검출점으로부터 소정 신호 처리를 행하는 동작 플로차트의 다른 일례를 도 50에 나타낸다.

처리를 개시하면, 먼저 최초의 스텝 T1에 있어서 도 49에 나타낸 플로차트에 있어서의 스텝 P1~스텝 P9에서 설명한 바와 같은 소정의 음성 세그먼트 처리를 행한다.

여기서, 음성 데이터는 소정 버퍼 메모리에 순서대로 소정 데이터 샘플량의 데이터를 입력하여 행한다.

스텝 T2에서 음성 세그먼트 처리를 행한 세그먼트 위치 정보의 데이터를 소정 메모리 수단(데이터 기억 수단, 데이터 기록 수단)에 기록하여 가고, 스텝 T3에 있어서, 지금 처리 대상으로 되고 있는 방송 프로그램, 프로그램 등의 소정 구간 모든 음성 데이터에 대하여 소정 세그먼트 처리가 종료되었는지 판정되고, 종료하지 않은 것으로 판정된 경우에는 스텝 T1으로 복귀하여 상기의 처리를 반복하고, 종료된 것으로 판정된 경우에는 스텝 T4로 이행한다.

스텝 T4에 있어서 상기 도 49의 플로차트에 있어서의 스텝 P11~스텝 P18에서 설명한 바와 같은 소정 장면 체인지 처리를 행한다. 여기서, 화상의 DCT 데이터는 소정 버퍼 메모리에 순서대로 소정 데이터 샘플량의 데이터를 입력하여 행한다.

스텝 T5에서 소정 장면 체인지 처리를 행한 장면 체인지 위치 정보의 데이터를 소정 메모리 수단(데이터 기억 수단, 데이터 기록 수단)에 기록하여 가고, 스텝 T6에 있어서, 지금 처리 대상으로 되어 있는 방송 프로그램, 프로그램 등의 소정 구간 모든 화상의 DCT 데이터에 대하여 소정 장면 체인지 처리가 종료되었는지 판정되고, 종료되지 않은 것으로 판정된 경우에는 스텝 T4로 복귀하여 전술한 처리를 반복하고, 종료된 것으로 판정된 경우에는 스텝 T7로 이행한다.

스텝 T7에서는 상기 소정 메모리 수단으로부터 소정 음성 세그먼트 위치 정보의 데이터와 소정 장면 체인지 위치 정보의 데이터를 판독하고, 스텝 T8에서 소정 PU처리를 행하고, 스텝 T9에서, 지금 처리 대상으로 되어 있는 방송 프로그램, 프로그램 등의 소정 구간 모든 구간에 걸쳐 소정 PU 처리가 종료되었는지 판정되고, 종료된 것으로 판정된 경우에는 처리를 종료하고, 종료되지 않은 것으로 판정된 경우에는 스텝 T7으로 복귀하여 상기 동작을 반복한다.

그리고, 본 발명은, 도면을 참조하여 설명한 전술한 실시예에 한정되지 않고, 첨부한 청구의 범위 및 그 주지를 일탈하지 않고, 다양한 변경, 치환 또는 그 마찬가지의 것을 행할 수 있는 것은 당업자에게 있어 명백하다.

[산업상 이용 가능성]

900: 룰 전환 처리계
901: 룰 전환 처리계

Claims

소정의 화상/음성 정보 신호 또는 그 신호를 소정의 대역 압축 처리한 화상 음성 정보 신호로부터 소정 구간마다의 소정의 음성 특성을 검출하고, 그 검출 결과와 소정 설정값에 대응하여 상기 음성 신호를 소정의 세그먼트 구간으로 하여 처리하고,
화상/음성 정보 신호로부터 화상 신호의 소정 구간마다의 소정의 특성 데이터를 추출하고, 상기 특성 데이터에 따라 상기 소정 구간의 화상 특징을 나타내는 장면 변화 특징을 포함한 화상 특징 데이터를 생성하고,
상기 장면 변화 특징 및 음성의 세그먼트 처리에 의해 생성된 신호와 소정 시간 길이 간의 비교를 통해, 화상/음성 정보 신호를 재생 유닛(playback unit)으로 세그먼트 처리하되, 만약 음성 신호의 세그먼트 구간의 지속시간과 장면 변화구간의 지속시간이 모두 소정 시간 길이를 초과하면, 임의의 음성 세그먼트와 장면 변화점이 아니라 재생 유닛의 이미 상기 소정 시간 길이만큼 지속된 시점을 재생 유닛의 중단점으로 하고,
화상 특징 데이터와 화상/음성 정보 신호의 세그먼트에 따라 음성 신호로부터 추출한 소정의 음성 특징 데이터를 소정의 기록 매체에 기록하는
것을 특징으로 하는 정보 신호 처리 방법.
제1항에 있어서,
소정의 입력 시스템에 의해 소정의 동작에 따라 상기 정보 신호 처리를 실행하기 위한 소프트웨어를 획득하고, 상기 정보 신호 처리를 실행 가능한 상태로 설정하고, 소정의 제어 시스템에 의해 소정의 동작 모드가 설정된 경우에 상기 정보 신호 처리를 실행하는 것을 특징으로 하는 정보 신호 처리 방법.
소정의 화상/음성 정보 신호 또는 그 신호를 소정의 대역 압축 처리한 화상/음성 정보 신호로부터 소정 구간마다의 소정 음성 특성을 검출하고, 그 검출 결과와 소정 설정값에 대응하여 상기 음성 신호를 소정의 세그먼트 구간으로 하여 처리하고,
화상/음성 정보 신호로부터 화상 신호의 소정 구간마다의 소정의 특성 데이터를 추출하고, 상기 특성 데이터에 따라 상기 소정 구간의 화상 특징을 나타내는 장면 변화 특징을 포함한 화상 특징 데이터를 생성하고,
상기 장면 변화 특징 및 음성의 세그먼트 처리에 의해 생성된 신호와 소정 시간 길이 간의 비교를 통해, 화상/음성 정보 신호를 재생 유닛으로 세그먼트 처리하되, 만약 음성 신호의 세그먼트 구간의 지속시간과 장면 변화 구간의 지속시간이 모두 소정 시간 길이를 초과하면, 임의의 음성 세그먼트와 장면 변화점 아니라 재생 유닛의 이미 상기 소정 시간 길이만큼 지속된 시점을 재생 유닛의 중단점으로 하고,
화상 특징 데이터와 화상/음성 정보 신호의 세그먼트에 따라 음성 정보에서 추출한 소정의 음성 특징 데이터를 사용하거나, 또는 이들 음성 특징 데이터와 화상 특징 데이터가 기록된 소정의 기록 매체에서 얻은 데이터를 사용하여, 소정의 재생 구간 확정 또는 소정의 재생 시점 설정과 대응하는 소정 데이터를 생성하는
것을 특징으로 하는 정보 신호 처리 방법.
제3항에 있어서,
소정의 입력 시스템에 의해 소정의 동작에 따라 상기 정보 신호 처리를 실행하기 위한 소프트웨어를 획득하고, 상기 정보 신호 처리를 실행 가능한 상태로 설정하고, 소정의 제어 시스템에 의해 소정의 동작 모드가 설정된 경우에 상기 정보 신호 처리를 실행하는 것을 특징으로 하는 정보 신호 처리 방법.
소정의 화상 음성 정보 신호 또는 그 신호를 소정의 대역 압축 처리한 화상 음성 정보 신호로부터 소정 구간마다의 소정 음성 특성을 검출하고, 그 검출 결과와 소정 설정값에 대응하여 상기 음성 신호를 소정의 세그먼트 구간으로 하여 처리하고,
화상 음성 정보 신호로부터 화상 신호의 소정 구간마다의 소정의 특성 데이터를 추출하고, 상기 특성 데이터에 따라 소정 구간의 화상 특징을 나타내는 장면 변화 특징을 포함한 화상 특징 데이터를 생성하고,
상기 장면 변화 특징 및 음성의 세그먼트 처리에 의해 생성된 신호와 소정 시간 길이 간의 비교를 통해, 화상/음성 정보 신호를 재생 유닛으로 세그먼트 처리하되, 만약 음성 신호의 세그먼트 구간의 지속시간과 장면 변화 구간의 지속시간이 모두 소정의 시간 길이를 초과하면, 임의의 음성 세그먼트와 장면 변화점이 아니라 재생 유닛의 이미 상기 소정 시간 길이만큼 지속된 시점을 재생 유닛의 중단점으로 하고,
화상 특징 데이터와 화상/음성 정보 신호의 세그먼트에 따라 음성 정보에서 추출한 소정의 음성 특징 데이터를 사용하거나, 또는 이들 음성 특징 데이터와 화상 특징 데이터가 기록된 소정의 기록 매체 상에서 얻은 데이터를 사용하여, 소정의 재생 구간 확정과 대응하는 화상/음성 정보 신호의 다수개의 소정의 재생 구간, 및 재생 구간 확정 또는 소정의 재생 시점 설정과 대응하는 소정의 데이터를 생성하고, 또한,
생성된 데이터 또는 상기 생성된 데이터가 기록된 소정의 기록 매체로부터 얻은 데이터를 사용하여, 소정의 동작 모드에 따라 소정 구간을 재생하거나 또는 소정의 시점을 표시하는
것을 특징으로 하는 정보 신호 처리 방법.
제5항에 있어서,
소정의 입력 시스템에 의해 소정의 동작에 따라 상기 정보 신호 처리를 실행하기 위한 소프트웨어를 획득하고, 상기 정보 신호 처리를 실행 가능한 상태로 설정하고,
소정의 제어 시스템에 의해 소정의 동작 모드가 설정된 경우에 상기 정보 신호 처리를 실행하는 것을 특징으로 하는 정보 신호 처리 방법.
소정의 화상/음성 정보 신호 또는 그 신호를 소정의 대역 압축 처리한 화상 음성 정보 신호로부터 소정 구간마다의 소정 음성 특성을 검출하고, 그 검출 결과와 소정 설정값에 대응하여 상기 음성 신호를 소정의 세그먼트 구간으로 하여 처리를 행하는 음성 신호 처리부;
화상/음성 정보 신호로부터 화상 신호의 소정 구간마다의 소정의 특성 데이터를 추출하고, 상기 특성 데이터에 따라 소정 구간의 화상 특징을 나타내는 장면변화 특징을 포함한 화상 특징 데이터를 생성하는 화상 특징 데이터 처리부;
상기 화상 특징 데이터 처리부로부터의 장면 변화 특징 및 음성 신호 처리부로부터의 신호와 소정 시간 길이 간의 비교를 통해, 화상/음성 정보 신호를 재생 유닛으로 세그먼트 처리하되, 만약 음성 신호의 세그먼트 구간의 지속시간과 장면 변화 구간의 지속시간이 모두 소정 시간 길이를 초과하면, 임의의 음성 세그먼트와 장면 변화점이 아니라 재생 유닛의 이미 상기 소정 시간 길이만큼 지속된 시점을 재생 유닛의 중단점으로 하는 정보 신호 세그먼트 처리부; 및
상기 화상 특징 데이터와 정보 신호 세그먼트 처리부로부터의 신호를 이용하여 음성 신호에서 소정의 음성 특징 데이터를 추출하여 소정의 기록매체에 기록하는 데이터 기록부
를 포함하는 것을 특징으로 하는 정보 신호 처리 장치.
제7항에 있어서,
소정의 동작에 의해 소정의 정보 신호 처리를 실행하기 위한 소프트웨어를 획득하는 데이터 입력 시스템;
상기 데이터 입력 시스템에 의해 얻은 소프트웨어에 의해 소정의 정보 신호 처리를 실행 가능한 상태로 설정하는 신호 처리 설정 장치; 및
소정의 제어 시스템에 의해 소정의 동작 모드가 설정된 경우에 상기 정보 신호 처리를 실행하는 장치를 더 포함하는 것을 특징으로 하는 정보 신호 처리 장치.
소정의 화상/음성 정보 신호 또는 그 신호를 소정의 대역 압축 처리한 화상/음성 정보 신호로부터 소정 구간마다의 소정 음성 특성을 검출하고, 그 검출 결과와 소정의 설정값에 대응하여, 상기 음성 신호를 소정의 세그먼트 구간으로 하여 처리하는 음성 신호 처리부;
화상/음성 정보 신호로부터 화상 신호의 소정 구간마다의 소정의 특성 데이터를 추출하고, 상기 특성 데이터에 따라 상기 소정 구간의 화상 특징을 나타내는 장면 변화 특징을 포함한 화상 특징 데이터를 생성하는 화상 특징 데이터 처리부;
상기 화상 특징 데이터 처리부로부터의 장면 변화 특징 및 음성 신호 처리부로부터의 신호와 소정 시간 길이 간의 비교를 통해, 화상/음성 정보 신호를 재생 유닛으로 세그먼트 처리하되, 만약 음성 신호의 세그먼트 구간의 지속시간과 장면 변화 구간의 지속시간이 모두 소정 시간 길이를 초과하면, 임의의 음성 세그먼트와 장면 변화점이 아니라 재생 유닛의 이미 상기 소정 시간 길이만큼 지속된 시점을 재생 유닛의 중단점으로 하는 정보 신호 세그먼트 처리부; 및
상기 화상 특징 데이터와 정보 신호 세그먼트 처리부로부터의 신호에 따라 음성 신호로부터 추출한 소정 음성 특징 데이터를 이용하거나 또는 이들 음성 및 화상 특징 데이터가 기록된 소정의 기록 매체에서 얻은 데이터를 이용하여, 소정의 재생 구간 확정 또는 소정의 재생 시점 설정과 대응하는 소정의 데이터를 생성하는 데이터 생성부
를 포함하는 것을 특징으로 하는 정보 신호 처리 장치.
제9항에 있어서,
소정의 동작에 의해 소정의 정보 신호 처리를 실행하기 위한 소프트웨어를 회득하는 데이터 입력 시스템;
상기 데이터 입력 시스템을 통해 얻은 소프트웨어에 의해 소정의 정보 신호 처리를 실행 가능한 상태로 설정하는 신호 처리 설정 장치; 및
소정의 제어 시스템에 의해 소정의 동작 모드가 설정된 경우에 상기 정보 신호 처리를 실행하는 장치를 더 포함하는 것을 특징으로 하는 정보 신호 처리 장치.
소정의 화상/음성 정보 신호 또는 그 신호를 소정의 대역 압축 처리한 화상/음성 정보 신호로부터 소정 구간마다의 소정 음성 특성을 검출하고, 그 검출 결과와 소정의 설정값에 대응하여, 상기 음성 신호를 소정의 세그먼트 구간으로 하여 처리하는 음성 신호 처리부;
화상/음성 정보 신호로부터 화상 신호의 소정 구간마다의 소정의 특성 데이터를 추출하고, 상기 특성 데이터에 따라 상기 소정 구간의 화상 특징을 나타내는 장면 변화 특징을 포함한 화상 특징 데이터를 생성하는 화상 특징 데이터 처리부;
상기 화상 특징 데이터 처리부로부터의 장면 변화 특징 및 음성 신호 처리부로부터의 신호와 소정 시간 길이 간의 비교를 통해, 화상/음성 정보 신호를 재생 유닛으로 세그먼트 처리하되, 만약 음성 신호의 세그먼트 구간의 지속시간과 장면 변화 구간의 지속시간이 모두 소정 시간 길이를 초과하면, 임의의 음성 세그먼트와 장면 변화점이 아니라 재생 유닛의 이미 상기 소정 시간 길이만큼 지속된 시점을 재생 유닛의 중단점으로 하는 정보 신호 세그먼트 처리부; 및
화상 특징 데이터와 정보 신호 세그먼트 처리부로부터의 신호에 따라 음성 신호 로부터 추출한 소정의 음성 특징 데이터를 이용하거나 또는 이들 음성 및 화상 특징 데이터가 기록된 소정의 기록 매체에서 얻은 데이터를 이용하여, 소정의 재생 구간 확정 또는 소정의 재생 시점 설정과 대응하는 소정의 데이터를 생성하는 데이터 생성부;
소정의 동작 모드일 경우에, 상기 데이터 생성부로부터의 데이터 또는 데이터 생성부로부터의 데이터가 기록된 소정의 기록 매체로부터 얻은 데이터에 따라 소정의 구간을 재생하거나 또는 소정의 시점을 표시하는 정보신호 처리부
를 포함하는 것을 특징으로 하는 정보 신호 처리 장치.
제11항에 있어서,
소정의 동작에 의해 소정의 정보 신호 처리를 실행하기 위한 소프트웨어를 획득하는 데이터 입력 시스템;
상기 데이터 입력 시스템을 통해 얻은 소프트웨어에 의해 소정의 정보 신호 처리를 실행 가능한 상태로 설정하는 신호 처리 설정 장치; 및
소정의 제어 시스템에 의해 소정의 동작 모드가 설정된 경우에 상기 정보 신호 처리를 실행하는 장치를 더 포함하는 것을 특징으로 하는 정보 신호 처리 장치.