KR20070028535A

KR20070028535A - 화상 음성 스트림 처리 장치 및 화상 음성 스트림 처리방법

Info

Publication number: KR20070028535A
Application number: KR1020077000823A
Authority: KR
Inventors: 오사무 고토; 도루 이나다; 아키라 기타무라
Original assignee: 마쯔시다덴기산교 가부시키가이샤
Priority date: 2004-06-28
Filing date: 2005-06-20
Publication date: 2007-03-12
Also published as: WO2006001247A1; US20080028426A1; JP2006014091A; CN1977264A

Abstract

화상 음성 데이터를 HDD(115)기억함과 동시에, 그 화상 음성 데이터에 관한 정보를 생성하여 화상 음성 데이터에 부가하고 기억한다. 비교부(111)는, 화상음성 데이터와 셀렉터부(111)에 격납된 특징 데이터를 비교하여, 특징 데이터가 포함되어 있는 위치를 검출한다. 검출이 행해졌을 때에 태그 정보 작성부(113)에서 태그 정보를 생성하고, 그 태그 정보를 화상 음성 데이터에 부가하여 HDD(115)에 기억한다.

Description

화상 음성 스트림 처리 장치 및 화상 음성 스트림 처리 방법{VIDEO/AUDIO STREAM PROCESSING DEVICE AND VIDEO/AUDIO STREAM PROCESSING METHOD}

본 발명은, 화상 음성 스트림 처리 장치에 관한 것이며, 보다 특정적으로는, 화상 음성 데이터에, 해당 화상 음성 데이터에 관한 정보를 부가하여 기억하는 화상 음성 스트림 처리 장치 및 화상 음성 스트림 처리 방법에 관한 것이다.

현재, 방송파를 이용하여 전자 프로그램 가이드(EPG:Electric Program Guide)가, 또, 웹 사이트로부터 인터넷 등의 통신회선을 통해서 상세 목차 정보(프로그램 내 정보)가 제공되고 있다. 시청자는, 전자 프로그램 가이드나 상세 목차 정보 등을 이용함으로써, 예를 들면 각 방송 프로그램의 개시·종료시각이나 프로그램의 내용 등의 정보를 얻을 수 있다.

그러나, 최근, 녹화한 프로그램의 검색을 용이하게 하기 위해서, 프로그램 데이터에 그 프로그램의 상세 목차 정보를 부가하여 기억하는 화상 음성 스트림 처리 장치(이하, AV스트림 처리 장치라고 한다)가 제안되고 있다(예를 들면, 특허 문헌 1).

도 23은, 종래의 AV스트림 처리 장치(1)의 블록도이다. AV스트림 처리 장치(1)는, 디지털 튜너(2), 아날로그 튜너(3), MPEG2 인코더(4), 호스트 CPU(5), 모뎀 (6), 하드디스크 드라이브(HDD)(8), MPEG2 디코더(9), 그래픽 생성부(10), 합성기(11), 메모리(12) 및 사용자 패널(13)을 구비하고 있다.

예를 들면, 방송 사업자로부터 디지털 방송에 의해서 제공된 방송 프로그램의 화상 음성 신호는, 도시하지 않은 안테나로 수신되고, 디지털 튜너(2)에 입력된다. 디지털 튜너(2)는, 입력된 화상 음성 신호를 처리하고, 프로그램의 MPEG2 트랜스포토 스트림(이하, MPEG2TS라고 한다)을 출력한다.

또, 방송 사업자로부터 아날로그 방송에 의해서 제공된 방송 프로그램의 화상 음성 신호는, 도시하지 않은 안테나로 수신되고, 아날로그 튜너(3)에 입력된다. 아날로그 튜너(3)는, 입력된 화상 음성 신호를 처리하고, 처리 후의 화상 음성 신호를 MPEG2 인코더(4)에 출력한다. MPEG2 인코더(4)는, 입력된 화상 음성 신호를 MPEG2 형식으로 부호화하여 출력한다. 디지털 튜너(2) 및 MPEG2 인코더(4)로부터 출력된 디지털 방송 프로그램 및 아날로그 방송 프로그램의 MPEG2TS는, HDD(8)에 기억된다.

AV스트림 처리 장치(1)는, 이와 같이 방송 프로그램의 MEPG2TS를 HDD(8)에 기억하는 것과 병행하고, 또는, 기억시킨 후에, 인터넷을 통해 상세 목차 정보를 다운로드하고, 기억한 방송 프로그램의 MPEG2TS에 관련시켜 HDD(8)에 기록한다.

그래픽 생성부(10)는, 사용자 패널(13)에의 입력에 따라서 호스트 CPU(5)로부터 출력된 명령 신호에 기초하여, HDD(8)에 기억된 상세 목차 정보를 기본으로 프로그램 정보 화면을 작성한다. 작성된 프로그램 정보 화면은, 도시하지 않은 표시부에 표시되므로, 사용자는 그 화면을 봄으로써 프로그램 내용을 파악할 수 있 다. 또, 이 AV스트림 처리 장치(1)는, 상세 목차 정보에 기재된 각 토픽의 위치로부터 AV데이터 스트림을 재생할 수 있다.

따라서, 이 AV스트림 처리 장치(1)를 이용하면, 녹화한 방송 프로그램 중에서, 보고 싶은 토픽을 포함하는 프로그램을 효율적으로 찾아낼 수 있다. 또, AV스트림 처리 장치(1)에 의하면, 보고 싶은 토픽이 기록되어 있는 위치를, 빨리 감기, 재생, 되감기 등의 처리를 반복하면서 찾아내는 번잡함으로부터도 해방된다.

특허 문헌1:일본국 특허공개2003-199013호 공보

그러나, AV스트림 처리 장치(1)에서는, 예를 들면 비디오 테이프에 녹화된 화상 음성 데이터나 스스로 촬영한 동영상의 화상 음성 데이터와 같이, 상세 목차 정보를 갖지 않는 화상 음성 데이터에는, 상세 목차 정보를 부가하여 녹화할 수 없다. 따라서, 상세 목차 정보를 갖지 않는 화상 음성 데이터는 검색의 대상으로 할 수 없었다.

또, 상세 목차 정보를 갖는 화상 음성 데이터라도, 상세 목차 정보에서 제공되고 있는 정보는 한정되어 있기 때문에, 내용을 파악하거나 검색하거나 하기 위해서 필요한 정보가 반드시 포함되어 있다고는 한정할 수 없었다.

그러므로, 본 발명의 목적은, 상세 목차 정보 등을 갖고 있지 않는 화상 음성 데이터에 대해서도, 검색에 이용할 수 있는 정보를 독자적으로 작성할 수 있는 AV스트림 처리 장치를 제공하는 것이다

본 발명의 제1 국면은, 화상 음성 데이터에 그 화상 음성 데이터에 관한 정보를 부가하여 기억하는 화상 음성 스트림 처리 장치로서, 화상 또는 음성 혹은 문자에 관한 특징 데이터를 기억하는 특징 데이터 유지부와, 화상 음성 데이터로부터 특징 데이터가 포함되어 있는 위치를 검출하는 특징 데이터 검출부와, 특징 데이터 검출부에 있어서 특징 데이터가 검출되었을 때에 태그 정보를 생성하는 태그 정보 생성부와, 화상 음성 데이터와 태그 정보를 기억하는 화상 음성 데이터 기억부를 구비한다.

또, 바람직한 실시예에 의하면, 검출된 위치의 화상 음성 데이터 상에서의 시각을 측정하는 타이머를 더 구비하고, 태그 정보는, 타이머로 계측된 시각에 기초하는 시간 정보를 포함하는 것을 특징으로 한다.

또, 다른 바람직한 실시예에 의하면, 화상 음성 데이터를 구성하는 복수 종류의 데이터로부터, 특징 데이터 검출부에서의 검출에 이용하는 특정 데이터를 추출하고, 특징 데이터 검출부에 출력하는 특정 데이터 추출부를 더 구비한다.

또, 화상 음성 데이터를 소정 형식의 디지털 데이터로 변환하여 특정 데이터 추출부에 출력하는 데이터 형식 변환부를 더 구비고, 데이터 형식 변환부는, 아날로그 데이터를 소정 형식의 디지털 데이터로 변환하는 아날로그 데이터 변환부와, 소정 형식 이외의 형식의 디지털 데이터를 소정 형식의 디지털 데이터로 변환하는 디지털 데이터 변환부를 포함해도 좋다.

또한, 또 다른 바람직한 실시예에 의하면, 태그 정보는, 어느 특징 데이터를 이용하여 검출된 것인지를 나타내는 식별자 데이터를 포함하는 것을 특징으로 한다.

또한, 또 다른 바람직한 실시예에 의하면, 태그 정보를 이용하여, 재생 위치를 사용자에게 선택시키기 위한 화면으로서, 검출된 위치를 재생 위치 후보로서 표시하는 화면을 생성하는 그래픽 생성부를 더 구비한다.

또한, 또 다른 바람직한 실시예에, 화상 음성 데이터에 부가되어 있는 문자 데이터를 이용하여 키워드 검색용 정보를 작성하는, 키워드 검색용 정보 작성부를 더 구비한다.

또한, 화상 음성 데이터 중 자막이 포함되어 있는 특정 영역의 화상 데이터를 추출하는 화상 데이터 추출부와, 화상 데이터 추출부에서 추출된 화상 데이터에 포함되는 자막을 문자 데이터로 변환하는 자막 인식부를 더 구비하고, 키워드 검색용 정보 작성부는, 화상 인식부에서 얻어진 문자 데이터를 이용하여, 키워드 검색용 정보를 작성하도록 되어 있어도 좋다.

또, 화상 음성 데이터 중 음성 데이터를 추출하는 음성 데이터 추출부와, 음성 데이터 추출부에서 추출된 음성 데이터를 문자 데이터로 변환하는 음성인식부를 더 구비하고, 키워드 검색용 정보 작성부는, 음성인식부에서 얻어진 문자 데이터를 이용하여, 키워드 검색용 정보를 작성하도록 되어 있어도 좋다.

또한, 또 다른 바람직한 실시예에 의하면, 검색하고 싶은 문자를 입력하는 키워드 입력부와, 키워드 입력부로부터 입력된 문자를 키워드 검색용 정보로부터 검색하는 키워드 검색부를 더 구비한다.

본 발명의 제2 국면에 의하면, 화상 음성 데이터에 해당 화상 음성 데이터에 관한 정보를 부가하여 기억하는 화상 음성 스트림 처리 방법으로서, 화상 음성 데이터를 기억하는 것과 동시에, 해당 화상 음성 데이터로부터 화상 또는 음성 혹은 문자에 관한 소정의 특징 데이터가 포함되는 위치를 검출하고, 검출이 행해졌을 때에 태그 정보를 생성하고, 태그 정보를 상기 화상 음성 데이터에 부가하여 기억한다.

바람직한 실시예에 의하면, 검출된 위치의, 화상 음성 데이터 상의 시각을 측정하고, 태그 정보에, 특정한 시각에 기초하는 시간 정보를 포함하는 것을 특징으로 한다.

또, 별도의 바람직한 실시예에 의하면, 검출을 행하기 전에, 화상 음성 데이터를 구성하는 복수 종류의 데이터로부터 검출에 이용하는 데이터를 추출한다.

또한, 화상 음성 데이터가 아날로그 데이터 또는 소정 형식 이외의 형식의 디지털 데이터일 때, 검출에 이용하는 데이터를 추출하기 전에, 화상 음성 데이터를 소정 형식의 디지털 데이터로 변환해도 좋다.

또, 별도의 바람직한 실시예에 의하면, 태그 정보에, 특징 데이터 중 어느 것을 이용하여 검출된 것인지를 나타내는 식별자 데이터를 포함한다.

또, 별도의 바람직한 실시예에 의하면, 재생 위치를 사용자에게 선택시키기 위한 화면으로서, 검출된 위치를 재생 위치 후보로서 표시하는 화면을, 상기 태그 정보를 이용하여 생성한다.

또, 별도의 바람직한 실시예에 의하면, 화상 음성 데이터에 부가되어 있는 문자 데이터를 취득하고, 취득한 문자 데이터를 이용하여 키워드 검색용 정보를 생성한다.

또한 문자 데이터는, 화상 음성 데이터로부터, 자막이 포함된 특정 영역의 화상 데이터를 추출하고, 추출된 화상 데이터에 포함되는 자막을 문자 데이터로 변환함으로써 취득해도 좋다.

또, 문자 데이터는, 화상 음성 데이터로부터 음성 데이터를 추출하고, 추출된 음성 데이터를 문자 데이터로 변환함으로써 취득해도 좋다.

또, 별도의 바람직한 실시예에 의하면, 키워드 검색용 정보를, 검출된 위치로 구획되어 이루어지는 섹션마다 생성하고, 사용자에 의해서 입력된 문자를, 키워드 검색용 정보로부터 검색하고, 섹션마다 검색 결과를 나타내는 화면을 생성한다.

(발명의 효과)

본 발명에 관한 AV스트림 처리 장치는, 기억하는 화상 음성 데이터로부터 사용자에 의해서 지정된 특징 부분을 검출하고, 검출 결과에 기초해서 검색용 정보를 독자적으로 생성한다. 따라서, 사용자는, 생성된 검색용 정보를 이용함으로써, 화상 음성 데이터 중에서 보고 싶은 위치를 용이하게 찾아낼 수 있다.

또, 본 발명에 관한 AV스트림 처리 장치에서는, 기억하는 AV스트림으로부터 얻어진 문자 데이터를 기본으로 키워드 검색용 정보를 작성할 수 있다. 따라서, 사용자는, 시청하고 싶은 부분을 말로 나타낸 키워드를, 키워드 검색용 정보로부터 검색함으로써, AV스트림 중의 시청하기에 적당한 위치를 용이하게 찾아낼 수 있다.

도 1은, 본 발명의 제1 실시 형태에 관한 AV스트림 처리 장치의 블록도.

도 2는, AV특징량 유지부 및 셀렉터부에 격납되는 데이터를 설명하는 도면.

도 3은, 비교부에 있어서의 처리를 설명하는 도면.

도 4는, 정보 파일 작성 순서를 나타내는 플로우도.

도 5는, 세그먼트 테이블의 일례를 나타낸 도면.

도 6은, 태그 정보 파일의 일례를 나타낸 도면.

도 7은, 도 6에 계속되는 도면.

도 8은, HDD에 보존되는 데이터를 나타낸 도면.

도 9는, 태그 정보 파일을 기본으로 작성된 화면의 일례를 나타낸 도면.

도 10은, AV데이터의 재생 처리를 나타낸 플로우도.

도 11은, 본 발명의 제2 실시 형태에 관한 AV스트림 처리 장치의 블록도.

도 12는, DVD의 VR포맷을 설명하는 도면.

도 13은, 키워드 검색용 파일 작성시의 타이밍 차트를 나타낸 도면.

도 14는, 키워드 검색용 파일 작성 순서를 나타내는 플로우도.

도 15는, 세그먼트 테이블의 일례를 나타낸 도면.

도 16은, 태그 정보 파일의 일례를 나타내는 도면.

도 17은, 도 16에 계속되는 도면.

도 18은, 정보 파일 및 키워드 검색용 파일을 바탕으로 작성한 검색 결과 표시 화면의 일례를 나타낸 도면.

도 19는, 검색 처리 순서를 설명하는 플로우도.

도 20은, 검색 처리에 이용되는 구성을 나타낸 도면.

도 21은, 본 발명의 제3 실시 형태에 관한 AV스트림 처리 장치의 블록도.

도 22는, 본 발명의 제4 실시 형태에 관한 AV스트림 처리 장치의 블록도.

도 23은, 종래의 AV스트림 처리 장치의 블록도.

*도면의 간단한 설명에 대한 부호의 설명*

100, 200, 300, 400 AV스트림 처리 장치 101 디지털 튜너

102 아날로그 튜너 103 스위치부

104 포맷 변환부 105 디코드 처리부

106 A/D변환부 107 스플리터부

108 MPEG 인코더 110 AV특징량 유지부

111 셀렉터부 112 비교부

113 태그 정보 작성부 114 호스트 CPU

115 HDD 116 메모리

117 MPEG 디코더 118 그래픽 생성부

119 합성기 120 사용자 패널

201 문자 데이터 축적부 202 문자열 검색부

251 검색 키워드 유지부 252 검색용 비교기

253 검색 일치수 카운터 301 음성인식부

401 자막 인식부

(제1 실시 형태)

도 1은, 본 발명의 제1 실시 형태에 관한 AV스트림 처리 장치(100)의 구성을 나타내는 블록도이다. AV스트림 처리 장치(100)는, 디지털 튜너(101), 아날로그 튜너(102), 스위치부(103), 포맷 변환부(104), 스플리터부(107), MPEG 인코더(108), AV특징량 유지부(110), 셀렉터부(111), 비교부(112), 태그 정보 작성부(113), 호스트 CPU(114), 하드 디스크 드라이브(이하, HDD라고 기재한다)(115), 메모리(116), MPEG 디코더(117), 그래픽 생성부(118), 합성기(119) 및 사용자 패널(120)을 구비하고 있다.

사용자 패널(120)은, AV스트림 처리 장치(100)의 본체에 설치된 버튼이나, 리모트 콘트롤러나 키보드 등으로서, 사용자가 AV스트림 처리 장치(100)를 조작하기 위한 패널이다. 호스트 CPU(114)는 AV스트림 처리 장치(100)를 구성하는 각부의 제어 전반을 행하는 연산 처리부이다.

디지털 튜너(101)는, 예를 들면, 도시하지 않은 안테나로 수신한 디지털 방송 프로그램의 화상 음성 신호를 처리하고, 프로그램의 MPEG2 트랜스포토 스트림(MPEG2TS)을 출력한다. 또, 아날로그 튜너(102)는, 안테나로 수신한 아날로그 방송 프로그램의 화상 음성 신호를 처리하고, 프로그램의 아날로그 화상 음성 신호를 출력한다.

스위치부(103)에는, HDD(115)에 기억하고자 하는 프로그램의 화상 음성 데이터가, 디지털 튜너(101)나 아날로그 튜너(102)나 인터넷 등을 통해 입력된다. 또, 스위치부(103)에는, USB나 IEEE1394 규격을 이용하여, 예를 들면 DVD, LD, 외부부착 HDD, VHS 비디오 등의 외부 접속 기기에 축적된 화상 음성 데이터도 입력된다. 따라서, 스위치부(103)에는, 아날로그 화상 음성 데이터, 압축되어 있지 않은 디지 털 화상 음성 데이터 및 압축된 디지털 화상 음성 데이터가 입력된다. 이와 같이 AV스트림 처리 장치(100)는, 어떠한 종류나 형식의 화상 음성 데이터라도 취급할 수 있다. 또한 본 명세서 중에서는, 아날로그 화상 음성 데이터, 압축되어 있지 않은 디지털 화상 음성 데이터 및 압축된 디지털 화상 음성 데이터를 총칭하여 화상 음성 데이터(이하, AV데이터라고 기재한다)라고 한다.

스위치부(103)는, 입력된 AV데이터를, 그 종류에 의해서 적당한 출력처로 배분하는 역할을 갖고 있다. 보다 구체적으로 설명하면, 스위치부(103)에 입력된 아날로그 AV데이터는, 포맷 변환부(104)의 A/D변환부(106)에 입력된다. AD변환부(106)는, 아날로그 AV데이터를, 압축되어 있지 않은 소정 형식의 디지털 AV데이터로 변환한다. 또, 스위치부(103)에 입력된 디지털 AV데이터는, 포맷 변환부(104)의 디코드 처리부(105)에 입력된다. 디코드 처리부(105)는, 입력된 데이터의 형식을 판단하고, 필요에 따라서, 소정 형식으로 복호화하는 처리를 행한다.

이와 같이, 포맷 변환부(104)에는, 종류나 형식이 여러 가지인 AV데이터가 입력되고, 미리 정해진 소정 형식의 AV데이터가 출력된다. 또한, 포맷 변환부(104)로부터 출력되는 데이터는, 예를 들면, 음성 데이터가 PCM 데이터, 화상 데이터가 REC656 데이터와 같이, 음성 데이터 및 화상 데이터가 각각 별도의 데이터로 되어 있어도 좋고, 예를 들면, MPEG2PS(MPEG2 program stream)로 대표되는 MPEG 형식의 데이터와 같이, 양자가 1개의 데이터로 되어 있어도 좋다. 단, 포맷 변환부(104)로부터 출력되는 데이터의 형식과, 후술하는 셀렉터부(111)에 기억되는 데이터의 형식은, 비교부(112)에서의 비교가 가능한 바와 같이 구비해 둘 필요가 있다.

포맷 변환부(104)로부터 출력된 AV데이터는, 스플리터부(107)에 입력된다. 스플리터부(107)는, 입력된 AV데이터를 모두 출력하는 녹화용 데이터 출력 포트와, 정보 파일을 작성하기 위해서 추출된 특정 데이터만을 출력하는 태그 정보 작성용 데이터 출력 포트를 가지고 있다.

스플리터부(107)의 녹화용 데이터 출력 포트로부터 출력된 AV데이터가 MPEG 형식의 데이터인 경우에는, 그 AV데이터는 그대로 HDD(115)에 기억된다. 한편, 스플리터부(107)의 녹화용 데이터 출력 포트로부터 출력된 AV데이터가, MPEG 형식의 데이터가 아닌 경우, 그 AV데이터는 MPEG 인코더(108)에 입력된다. MPEG 인코더(108)는, 입력된 AV데이터를, 예를 들면 MPEG 형식으로 부호화하여 출력한다. MPEG 인코더(108)로부터 출력된 MPEG는, HDD(115)에 기억된다.

스플리터부(107)의 태그 정보 작성용 데이터 출력 포트로부터 출력되는 특정 데이터는, 화상 음성 데이터 상의 특징적인 부분을 검출하기 위해서 이용되는 데이터이며, 셀렉터부(111)에 기억되어 있는 데이터에 의해서, 그 종류가 결정된다.

도 2는, 셀렉터부(111)와 AV특징량 유지부(110)에 기억되어 있는 데이터의 일례를 나타낸 도면이다. AV특징량 유지부(110)에는, 녹화하는 화상 음성 데이터의 특징적인 부분을 검출하기 위해서 이용하는 데이터의 후보가 되는 것이 기억되어 있다. 예를 들면, AV특징량 유지부(110)에는, 복수의 음성특징량 데이터, 각 음성특징량 데이터의 특징량 타이틀 데이터 및 음성용 일치 계속치 데이터 및 복수의 화상 특징량 데이터, 각 화상특징량 데이터의 특징량 타이틀 데이터 및 화상용 일치 계속치 데이터가 기억되어 있다. 또한, 특징량 타이틀 데이터란, 어느 특징량 데이터를 이용하여 검출된 것인지를 사용자가 식별할 수 있도록 하기 위해서 각 특징량 데이터에 첨부된 식별자 데이터이다.

그래픽 생성부(118)는, AV특징량 유지부(110)에 어떠한 특징량 데이터 등이 기억되어 있는지를 나타내는 화면을 생성한다. 그래픽 생성부(118)에서 생성된 화면은, 텔레비젼 화면이나 퍼스널 컴퓨터의 모니터 등의 표시부에 표시된다. 따라서, 녹화를 행하기 전에 사용자는, 이 화면을 보면서, 사용자 패널(120)을 이용하여, 원하는 특징량 데이터 및 일치 계속치 데이터를 선택해 둔다. 선택된 특징량 데이터 및 특징량 타이틀 데이터 및 일치 계속치 데이터는, 셀렉터부(111)에 기억된다. 또한 AV특징량 유지부(110)에 기억되어 있는 데이터 판독이나 셀렉터부(111)에의 데이터 기입 등, 일련의 처리의 제어는, 호스트 CPU(114)가 행한다. AV특징량 유지부(110)에 기억시키는 특징량 데이터는, AV스트림 처리 장치(100)를 제조하는 메이커측에서 작성하여 미리 기억하게 해도 좋고, 사용자가 작성하여 기억하도록 되어 있어도 된다.

도 2는, AV특징량 유지부(110)로부터 셀렉터부(111)에 음성용 데이터와 화상용 데이터가 선택된 모습을 나타내고 있다. 도 2에 나타내는 셀렉터부(111)에 선택되어 있는 음성 특징량 데이터는, "무음"이라는 타이틀이 붙여진 무음 판단용 역치(Pa)이다. 음성용 일치 계속치는 Qa이다. 또, 화상용 특징량 데이터는, "흑화면"이라고 하는 타이틀이 붙여진 흑화면 판단치용 역치(Pb)이다. 화상용 일치 계속치는 Qb이다. 또한 Pa는 음량을 나타내고, Pb는 휘도를 나타낸다. 또, Qa 및 Qb는, 시간을 나타낸다. 도 2에 나타내는 바와 같이, 셀렉터부(111)에 음성 특징량 데이터와 화상 특징량 데이터가 선택되었을 경우에는, 스플리터부(107)로부터 비교부(112)에, 압축되어 있지 않은 음성 데이터(예를 들면, PCM 데이터)와 화상 데이터(예를 들면, REC656 데이터)가 출력된다.

다음에, 셀렉터부(111) 및 비교부(112)의 블록도인 도 3과, 태그 정보를 작성하는 순서를 나타낸 도 4를 이용하여, AV스트림 처리 장치(100)에서의 태그 정보 작성에 대해 설명한다. 도 3에 나타내는 바와 같이 비교부(112)는, 예를 들면, 음성 비교부(150)와 화상 비교부(160)를 구비하고 있다. 음성 비교부(150)는, 특징량 비교기(151), 카운터(152) 및 계속치 비교기(153)를, 또, 화상 비교부(160)는, 특징량 비교기(161), 카운터(162) 및 계속치 비교기(163)를 구비하고 있다.

음성 비교부(150)의 특징량 비교기(151)는, 스플리터부(107)로부터 출력된 음성 데이터와, 셀렉터부(111)에 격납되어 있는 무음 판단용 역치(Pa)를 비교한다. 특징량 비교부(151)에 있어서, 음량이 역치(Pa) 이하라고 판단되면, 음량이 Pa보다 커질 때까지의 시간이 카운터(152)에서 계수된다. 또, 계속치 비교기(153)는, 카운터(152)에서의 계수치와 음성용 일치 계속치(Qa)를 비교한다. 계속치 비교기(153)에 있어서 카운터(152)의 계수치와 음성용 일치 계속치(Qa)가 일치했다고 판단되면, 계속치 비교기(153)는 트리거 신호를 출력한다(도 4의 스텝 S3).

마찬가지로, 화상 비교부(160)의 특징량 비교기(161)는, 스플리터부(107)로부터 출력된 화상 데이터와, 셀렉터부(111)에 격납되어 있는 흑화면 판단용 역치(Pb)를 비교한다. 여기서, 흑화면 판단용 역치(Pb)는, 예를 들면, 화상 데이터 1 필드 분의 휘도치의 합계이다. 특징량 비교기(161)에서는, 스플리터부(107)로부터 출력된 화상 데이터 1필드의 휘도치의 합계(S)가 구해지고, 합계(S)와 셀렉터부(111)에 격납되고 있는 흑화면 판단용 역치(Pb)가 비교된다. 특징량 비교기(161)에 있어서, 합계(S)가 흑화면 판단용 역치(Pb) 이하라고 판단되면, 합계(S)가 흑화면 판단용 역치(Pb)보다 커질 때까지의 시간이, 카운터(162)에서 계수된다. 카운터(162)에서의 계수치는, 계속치 비교기(163)에서 일치 계속치(Qb)와 비교된다. 계속치 비교기(163)에서 카운터(162)의 계수치와 일치 계속치(Qb)와의 일치가 판단되면, 계속치 비교기(163)는 트리거 신호를 출력한다(도 4의 스텝 S3).

계속치 비교기(153 및 163)로부터 출력된 트리거 신호는, 모두 호스트 CPU(114)에 인터럽트신호로서 입력된다. 태그 정보 작성부(113)는, AV데이터의 개시로부터의 경과시간을 계측하는 타이머를 구비하고 있다. 트리거 신호를 받은 호스트 CPU(114)는, 태그 정보 작성부(113)의 타이머로부터 시간을 판독하고, 또, 셀렉터부(111)로부터 타이틀을 판독하도록, 판독 명령 신호를 출력한다(스텝 S4).

태그 정보 작성부(113)의 타이머로부터 판독된 시간과 셀렉터부(111)로부터 판독된 타이틀은, 각각 섹션 개시시각 T(i)과 섹션 타이틀 ID(i)로서, 메모리(116)의 세그먼트 테이블에 기입된다(스텝 S5). 즉, 특징 데이터가 검출된 위치에서 AV데이터를 구획한 각 부분이 섹션이 된다. 또한, 번호(i)는, AV데이터의 선두로부터의 경과시간이 빠른 순서대로 0, 1, 2···로 붙여지는 섹션 번호이다.

또한, 메모리(116)에 기억된 섹션 개시시각 T(i)과 섹션 개시시각 T(i-1)의 차이가 연산되고(스텝 S6), 그 결과는, 섹션길이 A(i-1)로서 메모리(116)의 세그먼트 테이블에 기입된다(스텝 S7). 도 5는, 작성된 세그먼트 테이블의 일례를 나타내 고 있다. 또한, 섹션 번호 0의 개시 위치는, AV데이터의 선두 위치이기 때문에, 세그먼트 테이블의 섹션 번호 O의 부분에는, 미리 섹션 타이틀ID(0)와 섹션 개시시각 T(0)를 기억시켜 두면 좋다.

세그먼트 테이블에의 섹션 타이틀 ID(i), 섹션 개시시각 T(i), 섹션길이 A(i-1)의 기입이 종료된면, 섹션 번호 i의 값이 1만큼 앞당겨 진다(스텝 S8). 그리고, 비교부(112)에 있어서 비교가 종료되어 있지 않으면(스텝 S2의 NO), 트리거 신호가 출력될 때까지의 시간이 계측된다. 또, 비교부(112)에 있어서 모든 비교가 종료되어 있으면, 마지막에 트리거가 출력된 시각 T(i-1)로부터 AV데이터의 종료시각 T(end)까지의 시간 T(end)-T(i-1)이 계산되고, 세그먼트파일에 섹션길이 A(i-1)로서 기입된다(스텝 S9, S10). 이로 인해서, 세그먼트 테이블에의 기입은 종료한다.

세그먼트 테이블에의 기입이 종료되면, 세그먼트 테이블에 기억된 데이터를 이용하여, 예를 들면 도 6에 나타내는 태그 정보 파일이 작성된다(스텝 S11). 또한, 태그 정보 파일은, 메모리(116) 등에 미리 기억된 태그 정보 파일 작성 프로그램을 호스트 CPU(114)가 실행함으로써 작성된다. 작성된 태그 정보 파일은, 화상 음성 데이터에 부가되어 HDD(115)에 기입된다(스텝 S12). 즉, HDD(115)에는, 도 8에 나타내는 바와 같이, AV데이터(170)와, 그 정보 데이터(171)가 기억된다.

그러나, 도 6 및 도 7에 나타내는 정보 파일은, XML에서 기재되는 검색용 기술 방식인 MPEG7 포맷으로 작성되어 있다. 도 6에 나타내는 태그 정보 파일에 있어서, (A)의 부분에는, HDD(115)에 있어서의 디렉토리가 나타나 있다. 이 디렉토리는, 녹화한 AV데이터의, HDD(115) 내에 있어서의 디렉토리이다. 또, (B)의 부분에 는, 섹션 타이틀 ID(i)가, (C)의 부분에는 섹션의 개시시각 T(i)가, 또 (D)의 부분에는 섹션길이 A(i)가 나타나 있다. 상기 (B)~(D)를 포함하는 (E)의 부분은, 섹션마다 작성된다.

상기와 같이 AV스트림 처리 장치(100)는, AV데이터로부터 특징 데이터를 포함하는 위치를 검출하고, 그 부분에 관한 정보를 포함한 태그 정보 파일을 작성한다. 이와 같이 작성된 태그 정보 파일은, HDD(115)에 기억된 AV데이터의 재생시에 이용할 수 있다.

다음에, HDD(115)에 기억된 AV데이터의 재생에 대해서, 도 9, 도 10을 이용하여 설명한다. 도 9는, HDD(115)에 기억된 태그 정보 파일을 이용하여 도 1에 나타내는 그래픽 생성부(118)에서 생성한 화면으로서, 재생 위치를 사용자에게 선택시키기 위한 화면의 일례를 나타낸 도면이다. 이 화면(180)에는, AV데이터의 타이틀이나 섹션 번호, 섹션 개시시각 및 섹션 타이틀이 표시되어 있다. 이러한 화면(180)은, 사용자 패널(120)에 설치된 섹션 화면 표시 버튼을 사용자가 누르면, 표시부에 표시된다.

사용자는, 표시부에 표시되어 있는 섹션 중에서, 지금부터 재생하고자 하는 섹션을, 사용자 패널(120)을 이용하여 선택한다(도 10의 스텝 S21). 도 9에 나타내는 바와 같이, 현재 선택되어 있는 섹션은 하이라이트 표시(181)되어 있고, 다른 섹션과의 식별이 가능한 상태로 되어 있다. 또, 선택하는 섹션은, 재생 버튼(182)이 눌려 호스트 CPU(114)로부터 재생 명령이 출력될 때까지는(스텝 S23), 사용자 패널(120)의 이동 키 등에 의해 바꿀 수 있다(스텝 S22, S25).

화면(180)의 재생 버튼(182)이 눌리면, 호스트 CPU(114)에는, 선택된 섹션을 나타내는 신호가 입력된다. 호스트 CPU(114)는, 선택된 섹션 부분의 데이터를 출력하도록 HDD(115)에 명령하고, HDD(115)는 지정된 데이터를 MPEG 디코더(117)에 대해서 출력한다. MPEG 디코더(117)는, 입력된 데이터를 복호화처리하여 모니터 등에 출력한다.

상기 설명에 있어서 섹션 개시 위치의 검출에 이용한 "무음"상태는, 장면 체인지 시에 발생하기 쉽다. 예를 들면 뉴스 프로그램의 각 토픽이 시작되기 전에는 일정시간 이상의 무음 구간이 있다. 따라서, 본 실시 형태에 있어서 설명한 바와 같이, 무음 상태가 발생한 위치를 섹션 개시 위치로 정해두면, 각 섹션의 선두 부분에서는, 반드시 새로운 화제가 다루어지게 된다. 따라서 AV스트림 처리 장치(100)에서 태그 정보 파일을 작성하고, 각 섹션의 시작 부분을 보고 가면, 보고 싶었던 화제 부분을 비교적 용이하게 찾아낼 수 있다.

종래의 AV스트림 처리 장치에서는, 녹화한 콘텐츠의 AV데이터가 상세 목차 정보를 갖지 않는 것이었던 경우, 콘텐츠 내용을 나타내는 정보 화면을 작성할 수 없었다. 그러나, 본 실시 형태에 관한 AV스트림 처리 장치(100)에서는, 예를 들면 VHS 비디오에 녹화된 화상 음성 데이터와 같이 상세 목차 정보나 EPG 정보를 갖지 않는 것이라도, 독자적으로 정보 파일을 작성할 수 있다. 그리고, 이 정보 파일을 이용하여 재생 위치 선택용의 화면을 생성하여 재생 위치 후보(섹션 개시 위치)를 사용자에게 제시할 수 있으므로, 사용자는, 되감기나 빨리 감기 등의 조작을 반복하는 일 없이 적당한 시청 개시 위치를 알 수 있다.

또, 본 실시 형태에 관한 AV스트림 처리 장치(100)에서는, 섹션 개시 위치를 결정할 때에 이용하는 특징 데이터를 사용자가 개별적으로 설정할 수 있으므로, 개개의 사용자의 검색 효율을 향상시킬 수 있다.

또, AV스트림 처리 장치(100)는, 포맷 변환부(104)를 구비하고 있기 때문에, 녹화하고 싶은 AV데이터가 어떠한 형식이나 종류의 데이터라도, 비교부(112)에서의 처리가 가능한 적당한 형식으로 변환할 수 있다. 따라서, 어떠한 형식의 AV데이터로부터도 정보 파일을 작성할 수 있다.

또한, 상술한 실시 형태에 있어서는, 1개의 음성 특징량과 1개의 화상 특징량을 이용하여 섹션 개시 위치를 결정했다. 그러나, 음성 특징량이나 화상 특징량 중 어느 한쪽만을 이용해도 좋고, 또, 복수의 음성 특징량이나 복수의 화상 특징량을 이용해도 좋다.

또, 예를 들면, 도 3에 있어서의 음성 비교부(150)에 음성 비교 장치를 이용하여, 화상 비교부(160)에 화상 비교 장치를 이용하여 미리 셀렉터부(111)에 등록해 둔 음성 데이터나 화상 데이터와 일치하는 음성 데이터나 화상 데이터가 검출되었을 때에 트리거 신호를 출력하도록 해도 좋다. 이와 같이, 비교부(112)가 구비하는 장치 구성은, 도 2에 나타낸 구성으로 한정되지 않는다. 또한 AV데이터를 섹션으로 분할하기 위해서 이용하는 데이터는, 음성 데이터나 화상 데이터로 한정되지 않고, 예를 들면 텍스트 데이터여도 좋다.

또한, 본 실시 형태에 있어서의 HDD(115)는, 예를 들면 DVD-RW 등의 기억부라도 좋다. 또, 음성 비교부(150)와 화상 비교부(160)에서 처리 속도가 다른 경우, 태그 정보 작성부(113)에는, 음성 비교부(150)로부터 트리거 신호가 출력된 시각을 계측하는 음성용 타이머와, 화상 비교부(160)로부터 트리거 신호가 출력된 시각을 계측하는 화상용 타이머를 개별적으로 설치하도록 해도 좋다.

또한, 이상의 설명에서는, 비교부(112)로부터 트리거 신호가 출력되었을 때의 시각을 섹션 개시시각으로 했지만, 특징량 데이터의 성질에 따라서는, 비교부(112)로부터 트리거 신호가 출력된 시각보다 소정 시간만큼 전의 시각을 섹션 개시시각으로 해도 좋다. 이로 인해, 섹션의 선두로부터 AV데이터를 재생했을 때에, 사용자가 시청하고 싶은 최초의 부분이 재생되지 않는다는 불편을 방지할 수 있다.

또한, 도 1, 도 2에서는, AV특징량 유지부(110) 등에 기억되고 있는 각 특징량의 타이틀 데이터도 기억하고 있지만, 이러한 식별자 데이터는 반드시 필요하지는 않는다. 그러나, 각 특징량 데이터에, 식별자 데이터를 부가해 두면, 복수의 AV특징량을 이용하여 각각 다른 특징부분을 검출한 경우에, 어느 특징량이 이용되었는지를 식별하기 쉬워진다. 또한, 식별자 데이터는, 텍스트 파일에 한정하지 않고, JPEG 형식 등의 화상 데이터여도 좋다. 또, 화상 데이터인 식별자 데이터의 파일명 등을 정보 파일에 기입해 두고, 도 9에 나타내는 검색시에 이용되는 화면에 화상 표시할 수 있도록 해도 좋다.

(제2 실시 형태)

도 11은, 본 발명의 제2 실시 형태에 관한 AV스트림 처리 장치(200)의 구성을 나타내는 블록도이다. 방송파에 의한 문자방송이나 DVD에는, 화상 정보나 음성 정보와는 별도로, 자막 정보나 문자 정보가 부수되어 있는 경우가 있다. AV스트림 처리 장치(200)는 AV데이터에 부수되어 있는 문자 정보를 이용하여, 키워드 검색에 이용할 수 있는 키워드 검색용 파일을 작성한다. 이것을 실현하기 위한 특유의 구성으로서 AV스트림 처리 장치(200)는, 문자 데이터 축적부(201) 및 문자열 검출부(202)를 구비하고 있다. 또, 스플리터부(207)는, 입력된 AV데이터를 모두 출력하는 녹화용 출력포트와, 비교부(112)에 특정 데이터를 출력하는 출력포트 및 문자 데이터 축적부(201)에 문자 데이터를 출력하는 출력포트를 구비하고 있다.

또한, 본 실시 형태에 관한 AV스트림 처리 장치(200)의 구성요소 중, 제1 실시 형태에서 설명하고, 도 1에 나타낸 구성요소와 같은 것에는, 동일한 참조 부호를 부여하고 설명을 생략한다. 또, 본 실시 형태에 관한 AV스트림 처리 장치(200)에서 행해지는 처리로서, 제1 실시 형태에서 설명한 처리와 같은 것에 대해서는, 그 설명을 생략한다

도 12는, DVD의 VR포맷에 기초한 AV데이터를 설명하기 위한 도면이다. 도 12에 나타내는 VOB(Video Object)(210)는, 화상 데이터 및 음성 데이터의 기록 단위이다. VOBU(Video Object Unit)(220)는 VOB(210)를 구성하는 단위로서, 0.4~1초에 상당하는 화상 데이터 및 음성 데이터이다. 이 VOBU(220)는, 문자 정보가 격납된 네비팩(221)과, 영상 정보가 격납되어 있는 비디오팩(222)과, 음성 데이터가 격납되어 있는 오디오팩(223)으로 구성되어 있다. 또한, 네비팩(221), 비디오팩(222) 및 오디오팩(223)은, 도면 중에 각각, "N", "V" 및 "A"로 나타내고 있다. 또, 1개의 VOBU(220)는, 1개 또는 2개의 GOP(Group of Pictures)(230)로 구성되어 있다.

네비팩(221)은, "GOP 헤더"와 "확장·사용자 데이터 영역"으로 구성되어 있 다. 또, 오디오팩(223)과 비디오팩(222)은, 15 프레임분의 화상·음성 정보를 나타내기 위한 I픽쳐(Intra-coded picture), P픽쳐(Predictive coded picture), B픽쳐(Bi-directionally coded picture)로 구성되어 있다.

네비팩(221)의 "확장·사용자 데이터 영역"에는, 1프레임에 대해 각 2문자분의 문자 데이터, 즉, 전체 30문자의 문자 데이터가 포함된다. 이 문자 데이터는, 스플리터부(207)로부터 문자 데이터 축적부(201)에 출력된다.

또한, 이상에서는 DVD를 예로 들어 설명했지만, 녹화하고자 하는 AV데이터가 아날로그 방송 프로그램의 데이터인 경우에는, 스플리터부(207)로부터 문자 데이터 축적부(201)에는 제1 필드와 제2 필드의 21라인의 정보가 출력되도록 되어 있으면 좋다. 즉, 문자 데이터 축적부(201)에는, 기록하는 AV데이터가 보유하는 문자 데이터만이 입력된다.

이하에, HDD(115)에 기록하는 AV데이터의 검색용 파일을 작성하는 순서를 도 13 및 도 14를 이용하여 설명한다. 도 13의 최상단은, 비교부(112)로부터 트리거 신호가 출력되는 타이밍을 나타내고 있다. 또, 위로부터 2단째는, 수직 동기 신호의 출력 타이밍을 나타내고 있다. 또, 위로부터 3단째는, 문자 데이터 축적부(201)에의 문자입력 타이밍과 입력되는 문자를 나타내고 있다. 또, 위로부터 4단째는, 문자 데이터 축적부(201)에 일시적으로 축적된 문자를 나타내고 있다. 그리고, 도 13의 최하단은, 문자 데이터 축적부(201)에 일시적으로 축적된 문자 데이터를 기본으로 작성된 키워드 검색용 파일에 기재되는 문자열을 나타내고 있다.

도 14는, 키워드 검색용 파일을 작성하는 순서를 나타낸 플로우차트이다. 우 선, HDD(115)에의 녹화가 개시되면, 새로운 텍스트 파일이 오픈된다(도 14의 스텝 S32). 스플리터부(207)는, 녹화하는 AV데이터 중에서 문자 데이터를 검출했을 때에는, 이것을 문자 데이터 축적부(201)에 출력한다.

문자 데이터 축적부(201)는, 입력된 문자 데이터를, 비교부(112)로부터 트리거 신호가 출력될 때까지 일시적으로 축적한다(스텝 S34~S36). 도 13에 있어서, 트리거 신호가 출력될 때까지의 사이에 문자 데이터 축적부(201)에 축적된 문자 데이터는, 순서대로, "ab", "cd", "ef", "gh", "."이다. 트리거 신호가 출력된 후에 문자 데이터 축적부(201)에 입력된 문자 데이터 "ij", "kl"은, 트리거 신호가 출력되기 전에 문자 데이터 축적부(201)에 입력된 문자 데이터 "ab", "cd", "ef", "gh", "."와는 구별되어, 문자 데이터 축적부(201)에 일시적으로 축적된다.

비교부(112)로부터 트리거 신호가 출력되면, 문자 데이터 축적부(201)에 일시적으로 축적되어 있던 문자 데이터 "ab", "cd", "ef", "gh", "."는, 스텝 S32에서 오픈된 파일에 기입된다(스텝 S37). 이 후, 이 텍스트 파일은 닫히고(스텝 S38), 예를 들면 mute0.txt와 같이 섹션 타이틀 ID(i)에 관련하는 파일명이 첨부 되고, 키워드 검색용 파일로서 HDD(115)에 보존된다(스텝 S39). 이 처리가 끝나면, 섹션 번호 i가 1 앞당겨진다(스텝 S40). 이와 같이 키워드 검색용 파일을 작성하는 처리는, 비교부(112)에서의 비교가 종료할 때까지 행해진다(스텝 S33, S41).

각 키워드 검색용 파일의 명칭 등은, 도 15에 나타내는 바와 같이, 메모리(116)의 세그먼트 테이블에도 기록된다. 도 16 및 도 17은, 이 세그먼트 테이블을 이용하여 작성되는 태그 정보 파일의 일례를 나타낸 도면이다. 도 16 및 도 17은, XML로 기재되는 검색용 기술 방식인 MPEG7 포맷으로 작성되어 있다. 도 16에 나타내는 태그 정보 파일에 있어서, (A)의 부분에는, HDD(115)에 있어서의 디렉토리가 나타나 있다. 이 디렉토리는, 녹화한 AV데이터의, HDD(115) 내에 있어서의 디렉토리이다. 또, (B)의 부분은, 섹션 타이틀 ID(i)를, (C)의 부분에는 섹션의 개시시각 T(i)를, 또, (D)의 부분은 섹션길이 A(i)를 나타내고 있다. 그리고, (E)의 부분은, 이 섹션의 키워드 검색용 파일이 기억되어 있는 HDD(115) 내에 있어서의 디렉토리를 나타내고 있다. 상기 (B)~(E)를 포함하는 (F)의 부분은, 섹션마다 작성된다.

다음에, 작성된 키워드 검색용 파일을 이용하여, 녹화한 콘텐츠의 내용을 검색하는 방법을, 도 18~도 20을 이용하여 설명한다. 도 18은, 모니터 등의 표시부에 표시하는 화면(키워드 입력용 프롬프트)(240)의 일례를 나타내고 있다. 이 화면(240)은, HDD(115)에 녹화한 AV데이터의 섹션 정보나 키워드 검색 결과를 표시하는 화면이다. 화면(240)의 상부에는, 검색하고 싶은 문자를 입력하는 검색 키워드 입력박스(241)나 검색 버튼(242)이 설치되어 있다. 또, 검색 버튼(242)의 하방에는, 섹션 번호, 섹션 개시시각이 표시되어 있고 또, 섹션마다의 검색 결과를 표시하는 검색 일치수의 표시부(244)를 나타낸 섹션 정보란이나, 재생 버튼(245)이 설치되어 있다. 이러한 화면(240)은, 이하에 나타내는 순서대로 작성된다.

우선, 사용자 패널(120)의 검색 화면 표시 버튼이 눌리면, HDD(115)에 기억되어 있는 태그 정보 파일이 판독되고, 검색 일치수의 표시부(244)의 영역이 작성된다(도 19의 스텝 S51). 그리고, 모니터에는, 도 18에 나타내는 화면(240)이 표시된다(스텝 S52). 단, 이때에는, 검색 일치수의 표시부(244)나 검색 키워드 입력박 스(241)에는, 아무것도 표시되어 있지 않다고 한다.

화면이 표시되면, 사용자는, 검색 키워드 입력박스(241)에, 검색 키워드를 입력한다. 도 18에서는, 검색 키워드로서 "ichiro"라는 문자가 입력되어 있다. 이 상태로 검색 버튼(242)이 눌리면, 키워드 검색용 파일 내로부터, "ichiro"라는 문자가 검색된다.

도 20은, 도 11에 나타내는 AV스트림 처리 장치(200)의 구성요소 중, 검색에 이용되는 구성을 중심으로 나타낸 것이다. 문자열 검출부(202)는, 검색 키워드 유지부(251), 검색용 비교기(252) 및 검색 일치수 카운터(253)를 구비하고 있다. 사용자 패널(120)로부터 키워드가 입력되면, 그 키워드는, 문자열 검출부(202)의 검색 키워드 유지부(251)에 격납된다. 이 상태로 화면(240)의 검색 버튼(242)이 눌리면, 신호를 받은 호스트 CPU(114)는, HDD(115)로부터 키워드 검색용 파일을 판독하도록 명령 신호를 출력한다.

HDD(115)로부터 판독된 키워드 검색용 파일에 기재되어 있는 문자 데이터는, 데이터열의 선두로부터 순서대로 검색용 비교기(252)에 입력된다. 검색용 비교기(252)는, 검색 키워드 유지부(251)에 격납되어 있는 "ichiro"라고 하는 문자열과 키워드 검색용 파일에 기재되어 있는 문자열을 비교하여, 양자가 일치했을 때에 검색 일치수 카운터(253)에 신호를 출력한다.

검색 일치수 카운터(253)는, 신호가 입력될 때마다 카운터 수를 1씩 앞당겨 감으로써, 키워드 검색용 파일 내의 일치수를 카운트한다(도 19의 스텝 S55). 하나의 키워드 검색용 파일의 검색이 종료하면, 호스트 CPU(114)는, 검색 일치수카운터 (253)로부터 값을 판독하고, 판독된 값은, 메모리(116)에 기입된다. 검색은 전섹션의 키워드 검색용 파일에 대해서 행해진다. 검색이 종료하면, 메모리(116)에 기억된 수치가 판독되고, 화면(240)의 검색 일치수의 표시부(244)에 표시된다(스텝S57).

도 18에 나타내는 화면(240)에서는, 제0, 제1 및 제2 섹션에서의 검색 일치수가, 각각 1, 12 및 0이었을 경우를 나타내고 있다. 사용자는 이 검색 결과를 보고 재생하는 섹션을 선택할 수 있다. 예를 들면, 사용자가, 도 18에 나타내는 바와 같이 검색 일치수가 가장 많은 제1 섹션을 선택하여 재생 버튼(245)을 누르면, HDD(115)로부터 MPEG 디코더(117)에 AV데이터의 제1 섹션 부분이 판독되고, 제1 섹션의 선두로부터 재생이 행해진다.

본 실시 형태에 관한 AV스트림 처리 장치(200)에서는, 녹화하는 콘텐츠에 포함되는 문자 데이터를 이용하여, 태그 정보 작성부(113)에서 결정한 섹션마다 키워드 검색용 파일을 작성한다. 또, 작성된 키워드 검색용 파일은 키워드 검색에 이용할 수 있다. 따라서, AV스트림 처리 장치(200)를 이용하면, 사용자에 의한 검색 효율을 더 향상시킬 수 있다.

또한, 본 실시 형태의 문자 데이터 축적부(201)는, 키워드 검색용 파일을 작성하기 위해서, 연산 처리부로서의 기능과 메모리로서의 기능을 갖고 있다. 그러나, 문자 데이터 축적부(201)를 설치하는 대신에, 호스트 CPU(114)와 메모리(116)에서 문자 데이터 축적부(201)에서 행하는 처리를 행하도록 해도 좋다.

(제3 실시 형태)

도 21은, 본 발명의 제3 실시 형태에 관한 AV스트림 처리 장치(300)의 구성을 나타내는 블록도이다. 본 실시 형태의 AV스트림 처리 장치(300)는, 음성 데이터로부터 검색에 이용하는 문자 데이터를 작성한다고 하는 특징을 가지고 있다. 이것을 실현하기 위한 특유의 구성으로서 AV스트림 처리 장치(300)는, 음성인식부(301), 문자 데이터 축적부(201) 및 문자열 검색부(202)를 구비하고 있다.

스플리터부(307)는, 입력된 AV데이터를 모두 출력하는 녹화용 출력 포트와, 비교부(112)에 특정 데이터를 출력하는 출력 포트와, 음성인식부(301)에 음성 데이터를 출력하는 출력 포트를 갖고 있다.

또한 AV스트림 처리 장치(300)의 구성요소 중, 제1 및 제2 실시 형태에서 설명하고, 도 1 및 도 11에 나타낸 구성요소와 같은 것에는, 동일한 참조 부호를 부여하고 설명을 생략한다. 또, 본 실시 형태에 관한 AV스트림 처리 장치(300)에서 행해지는 처리로서, 제1 및 제2 실시 형태에서 설명한 처리와 같은 것에 대해서는, 그 설명을 생략한다.

음성인식부(301)는, 스플리터부(107)로부터 출력된 음성 데이터에 대해서 음성인식을 행하고, 사람이 회화를 하고 있는 부분의 데이터를 텍스트 데이터로 변환하고, 문자 데이터 축적부(201)에 출력한다. 문자 데이터 축적부(201)는, 1섹션분의 데이터, 즉, 비교부(112)로부터 트리거 신호가 출력되고 나서 다음의 트리거 신호가 출력될 때까지, 스플리터부(107)로부터 출력된 데이터를 내부에 축적한다.

본 실시 형태의 AV스트림 처리 장치(300)는, 음성 데이터로부터 얻어진 텍스트 데이터를 기초로, 섹션마다 키워드 검색 파일을 작성한다. 작성된 키워드 검색 용 파일은, 키워드 검색에 이용할 수 있다.

또한, 음성 데이터가 5.1ch용 음성 데이터인 경우는, 스플리터부(307)에 있어서, 예를 들면 센터 채널에 포함되는 음성 데이터만을 추출하고, 음성인식부(301)에 출력하도록 해도 좋다. 이와 같이, 검색에 사용할 수 있을 가능성이 높은 특정 채널의 음성 데이터만을 추출하면, 음성인식부(301)에 있어서의 데이터 처리 속도 및 정밀도를 향상시킬 수 있다.

(제4 실시 형태)

도 22는, 본 발명의 제4 실시 형태에 관한 AV스트림 처리 장치(400)의 구성을 나타내는 블록도이다. 본 실시 형태에 관한 AV스트림 처리 장치(400)는, 자막을 포함한 화상 데이터로부터, 검색에 이용하는 텍스트 데이터를 작성한다는 특징을 갖고 있다. 이것을 실현하기 위한 특유의 구성으로서 AV스트림 처리 장치(400)는, 자막 인식부(401), 문자 데이터 축적부(201) 및 문자열 검색부(202)를 구비하고 있다.

스플리터부(407)은, 입력된 AV데이터를 모두 출력하는 녹화용 출력 포트와, 비교부(112)에 특정 데이터를 출력하는 출력 포트와, 자막인식부(401)에 화상 데이터를 출력하는 출력 포트를 구비하고 있다. 또한, AV스트림 처리 장치(400)의 구성요소 중, 제1 및 제2 실시 형태에서 설명하고, 도 1 및 도 11에 나타낸 구성요소와 같은 것에는, 동일한 참조 부호를 부여하고 설명을 생략한다. 또, 본 실시 형태에 관한 AV스트림 처리 장치(400)에서 행해지는 처리로서, 제1 및 제2 실시 형태에서 설명한 처리와 같은 것에 대해서는, 그 설명을 생략한다.

본 실시 형태에 있어서, 스플리터부(407)로부터 자막 인식부(401)에는, 자막을 포함한 화상 데이터만이 출력된다. 자막을 포함한 화상 데이터란, 예를 들면 프레임의 아래로부터 1/4의 영역의 화상 데이터를 말한다. 자막 인식부(401)는, 입력된 화상 데이터의 자막 부분에 쓰여져 있는 문자를 인식하고, 인식한 문자열의 데이터를 문자 데이터 축적부(201)에 출력한다.

문자 데이터 축적부(201)는, 1 섹션 내에 포함되는 문자 데이터를, 내부에 축적한다. 이와 같이 작성된 문자 데이터는, HDD(115)에 기억된다. 또, AV스트림 처리 장치(400)에 의해서 작성된 태그 정보 파일에는, 각 섹션 정보로서, 각 섹션의 키워드 검색용 파일의 주소 등이 기재된다.

본 실시 형태에 관한 AV스트림 처리 장치(400)는, 화상 내의 자막으로부터 얻어진 문자 데이터를 기초로, 섹션마다 키워드 검색용 파일을 작성한다. 작성된 키워드 검색용 파일은, 문자열 검색에 이용할 수 있다.

이상, 본 발명의 실시의 형태를 설명했지만, 상술의 설명은 모든 점에 있어서 본 발명의 예시에 지나지 않고, 그 범위를 한정하고자하는 것은 아니다. 따라서, 본 발명의 범위를 일탈하는 일 없이 여러 가지의 개량이나 변형을 행할 수 있는 것은 말할 것도 없다.

본 발명에 관한 화상 음성 스트림 처리 장치는, AV데이터의 보존, 열람 장치등으로서 유용하다. 또, AV데이터의 편집, 재생 기기, AV데이터 서버 등의 용도에도 응용할 수 있다.

Claims

화상 음성 데이터에, 상기 화상 음성 데이터에 관한 정보를 부가하여 기억하는 화상 음성 스트림 처리 장치로서,

화상 또는 음성 혹은 문자에 관한 특징 데이터를 기억하는 특징 데이터 유지부와,

상기 화상 음성 데이터로부터 상기 특징 데이터가 포함되어 있는 위치를 검출하는 특징 데이터 검출부와,

상기 특징 데이터 검출부에 있어서 상기 특징 데이터가 검출되었을 때에 태그 정보를 생성하는 태그 정보 생성부와,

상기 화상 음성 데이터와 상기 태그 정보를 기억하는 화상 음성 데이터 기억부를 구비한 것을 특징으로 하는 화상 음성 스트림 처리 장치.
청구항 1항에 있어서, 상기 검출된 위치의 상기 화상 음성 데이터 상에서의 시각을 측정하는 타이머를 더 구비하고,

상기 태그 정보는, 상기 타이머로 계측된 시각에 기초하는 시간 정보를 포함하는 것을 특징으로 하는 화상 음성 스트림 처리 장치.
청구항 1항에 있어서, 상기 화상 음성 데이터를 구성하는 복수 종류의 데이터로부터, 상기 특징 데이터 검출부에서의 검출에 이용하는 특정 데이터를 추출하 여, 상기 특징 데이터 검출부에 출력하는 특정 데이터 추출부를 더 구비하는, 화상 음성 스트림 처리 장치.
청구항 3항에 있어서, 상기 화상 음성 데이터를 소정 형식의 디지털 데이터로 변환하여 상기 특정 데이터 추출부에 출력하는 데이터 형식 변환부를 더 구비하고,

상기 데이터 형식 변환부는,

아날로그 데이터를 소정 형식의 디지털 데이터로 변환하는 아날로그 데이터 변환부와,

소정 형식 이외의 형식의 디지털 데이터를 소정 형식의 디지털 데이터로 변환하는 디지털 데이터 변환부를 포함하는, 화상 음성 스트림 처리 장치.
청구항 1항에 있어서, 상기 태그 정보는, 어느 상기 특징 데이터를 이용하여 검출된 것인지를 나타내는 식별자 데이터를 포함하는 것을 특징으로 하는 화상 음성 스트림 처리 장치.
청구항 1항에 있어서, 상기 태그 정보를 이용하여, 재생 위치를 사용자에게 선택시키기 위한 화면으로서, 상기 검출된 위치를 재생 위치 후보로서 표시하는 화면을 생성하는 그래픽 생성부를 더 구비하는, 화상 음성 스트림 처리 장치.
청구항 1항에 있어서, 상기 화상 음성 데이터로부터 취득한 문자 데이터를 이용하여 키워드 검색용 정보를 작성하는, 키워드 검색용 정보 작성부를 더 구비하는, 화상 음성 스트림 처리 장치.
청구항 7항에 있어서, 화상 음성 데이터 중 자막이 포함되어 있는 특정 영역의 화상 데이터를 추출하는 화상 데이터 추출부와,

상기 화상 데이터 추출부에서 추출된 화상 데이터에 포함되는 자막을 문자 데이터로 변환하는 자막 인식부를 더 구비하고,

상기 키워드 검색용 정보 작성부는, 상기 화상 인식부에서 얻어진 문자 데이터를 이용하여, 상기 키워드 검색용 정보를 작성하는 것을 특징으로 하는 화상 음성 스트림 처리 장치.
청구항 7항에 있어서, 화상 음성 데이터 중 음성 데이터를 추출하는 음성 데이터 추출부와,

상기 음성 데이터 추출부에서 추출된 음성 데이터를 문자 데이터로 변환하는 음성인식부를 더 구비하고,

상기 키워드 검색용 정보 작성부는, 상기 음성인식부에서 얻어진 문자 데이터를 이용하여, 상기 키워드 검색용 정보를 작성하는 것을 특징으로 하는 화상 음성 스트림 처리 장치.
청구항 7항에 있어서, 검색하고 싶은 문자를 입력하는 키워드 입력부와,

상기 키워드 입력부로부터 입력된 문자를 상기 키워드 검색용 정보로부터 검색하는 키워드 검색부를 더 구비하는, 화상 음성 스트림 처리 장치.
화상 음성 데이터에, 상기 화상 음성 데이터에 관한 정보를 부가하여 기억하는 화상 음성 스트림 처리 방법으로서,

화상 음성 데이터를 기억함과 동시에, 상기 화상 음성 데이터로부터 화상 또는 음성 혹은 문자에 관한 소정의 특징 데이터가 포함되는 위치를 검출하고,

상기 검출이 행해졌을 때에 태그 정보를 생성하고,

상기 태그 정보를 상기 화상 음성 데이터에 부가하여 기억하는 것을 특징으로 하는 화상 음성 스트림 처리 방법.
청구항 11항에 있어서, 상기 검출된 위치의, 상기 화상 음성 데이터 상의 시각을 측정하고,

상기 태그 정보에, 상기 특정한 시각에 기초하는 시간 정보를 포함하는 것을 특징으로 하는 화상 음성 스트림 처리 방법.
청구항 11항에 있어서, 상기 검출을 행하기 전에, 상기 화상 음성 데이터를 구성하는 복수 종류의 데이터로부터 상기 검출에 이용하는 데이터를 추출하는, 화상 음성 스트림 처리 방법.
청구항 13항에 있어서, 상기 화상 음성 데이터가 아날로그 데이터 또는 소정 형식 이외의 형식의 디지털 데이터일 때, 상기 검출에 이용하는 데이터를 추출하기 전에, 상기 화상 음성 데이터를 소정 형식의 디지털 데이터로 변환하는, 화상 음성 스트림 처리 방법.
청구항 11항에 있어서, 상기 태그 정보에, 상기 특징 데이터 중 어느 것을 이용하여 검출된 것인지를 나타내는 식별자 데이터를 포함하는 것을 특징으로 하는 화상 음성 스트림 처리 방법.
청구항 11항에 있어서, 재생 위치를 사용자에게 선택시키기 위한 화면으로서, 상기 검출된 위치를 재생 위치 후보로서 표시하는 화면을, 상기 태그 정보를 이용하여 생성하는, 화상 음성 스트림 처리 방법.
청구항 11항에 있어서, 상기 화상 음성 데이터로부터 문자 데이터를 취득하고,

상기 취득한 문자 데이터를 이용하여 키워드 검색용 정보를 생성하는, 화상 음성 스트림 처리 방법.
청구항 17항에 있어서, 상기 문자 데이터는, 상기 화상 음성 데이터로부터, 자막이 포함된 특정 영역의 화상 데이터를 추출하고,

상기 추출된 화상 데이터에 포함되는 자막을 문자 데이터로 변환함으로써 취득하는 것을 특징으로 하는 화상 음성 스트림 처리 방법.
청구항 17항에 있어서, 상기 문자 데이터는,

상기 화상 음성 데이터로부터 음성 데이터를 추출하고,

상기 추출된 음성 데이터를 문자 데이터로 변환함으로써 취득하는 것을 특징으로 하는 화상 음성 스트림 처리 방법.
청구항 17항에 있어서, 상기 키워드 검색용 정보를, 상기 검출된 위치로 구획되어 이루어지는 섹션마다 생성하고,

사용자에 의해서 입력된 문자를, 상기 키워드 검색용 정보로부터 검색하고,

상기 섹션마다 검색 결과를 나타내는 화면을 생성하는, 화상 음성 스트림 처리 방법.