WO2006093184A1

WO2006093184A1 - 映像編集装置、映像編集方法および映像編集を行うためのコンピュータプログラム

Info

Publication number: WO2006093184A1
Application number: PCT/JP2006/303858
Authority: WO
Inventors: Masayuki Hosoi
Original assignee: Pioneer Corporation
Priority date: 2005-03-01
Filing date: 2006-03-01
Publication date: 2006-09-08

Abstract

　映像データを分割することによって形成されるデータユニットごとに、撮影対象物、撮影日時および撮影場所に関する情報を生成または取得し、これらの情報に基づいて、撮影対象物の種類、撮影年月日、撮影場所などを判断し、これらの判断に基づいて、映像内容に即した映像編集を行う。

Description

明細書

映像編集装置、映像編集方法および映像編集を行うためのコンピュータプログラム

技術分野

[0001] 本発明は、例えばビデオカメラなどにより撮影された映像のデータを自動編集する映像編集装置、映像編集方法およびコンピュータプログラムに関する。

背景技術

[0002] 従来から、ビデオカメラで撮影した映像を編集する作業は、映画制作、テレビ番組制作、あるいは企業のプロモーション活動のための映像制作などの目的で行われている。このような映像編集は、専門家によって行われるのが一般的である。

[0003] 他方、最近では、優れた映像処理能力を有するパーソナルコンピュータの普及や、安価なデジタルビデオカメラの普及により、映像編集は、個人のプライベートビデオ制作あるいは家族のホームビデオ制作などの目的でも行われるようになった。このような映像編集は、パーソナルコンピュータの操作に慣れた一般人によって行われることが多い。例えば、親力入学式や卒業式、運動会などに参加している子をビデオ力メラで撮影し、そして、子の成長過程を友人に見せる目的で、撮影した映像を、パーソナルコンピュータを用いて編集することがある。

[0004] さらに、今日では、パーソナルコンピュータの機能を取り込んだデジタル家電の開発が進められている。例えば、デジタル情報家電の分野では、映像編集機能を備えた DVDレコーダの開発が進められている。家電製品は、誰にでも手軽に操作できるほどに、きわめて優れた操作性が要求される。映像編集機能を備えた DVDレコーダにおいてこの要求を満たす 1つの方法は、映像編集の自動化である。そこで、今日では、映像の自動編集に関する研究が進められている。例えば、特開 2004— 32763 号公報には、ビデオコンポジションを自動的にォーサリングする方法が記載されて!ヽる。

[0005] 特許文献 1 :特開 2004— 32763号公報

発明の開示発明が解決しょうとする課題

[0006] 映像の自動編集の性能を高めるためには、変化に富んで、て、視聴者を退屈させない、メリノ、リのある映像の自動編集を実現することが望ましい。また、適切なタイトルや字幕が付加されており、視聴者が理解しやすい映像の自動編集を実現することが望ましい。

[0007] しかし、視聴者が退屈せずかつ理解しやす!/、映像を自動編集することは容易ではない。例えば、単に各ショットを短くカットしてつなげるだけでは、必ずしも変化に富んだ映像にはならない。また、単にショットの切り替わりにトランジシヨン効果などの映像効果を付加するだけでは、十分にメリノ、リのある映像にならない。また、単に音楽 (B GM)を付けるだけでは、退屈な映像になってしまう場合がある。また、視聴者の理解を助けるためのタイトルや字幕を、編集者による入力なしに自動的に付加することはきわめて困難である。

[0008] 本出願の発明者は、映像内容に合致した映像効果、音響効果およびタイトルなどを映像に自動的に付加することができれば、視聴者が退屈せずかつ理解しやすい映像を自動編集することができると考えた。

[0009] しかし、このような自動編集を実現するためには、映像内容の自動認識技術、映像内容に合致した映像効果 '音響効果の自動選択技術、および映像内容に合致したタィトル文字の自動選択技術など、いくつかの未解決な技術的課題を克服しなければならない。なお、上述した特開 2004— 32763号公報には、このような技術について詳細な記載がない。

[0010] 本発明は上記に例示したような問題点に鑑みなされたものであり、本発明の第 1の課題は、視聴者が退屈せずかつ理解しやすい映像の自動編集を行うことができる映像編集装置、映像編集方法およびコンピュータプログラムを提供することにある。

[0011] また、本発明の第 2の課題は、映像内容に合致した映像編集を行うことができる映像編集装置、映像編集方法およびコンピュータプログラムを提供することにある。

[0012] また、本発明の第 3の課題は、臨場感のある映像および音声の編集を実現することができる映像編集装置、映像編集方法およびコンピュータプログラムを提供することにある。課題を解決するための手段

[0013] 上記課題を解決するために本発明の第 1映像編集装置は、複数のデータユニットを含む映像データを取得する映像データ取得手段と、前記各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報を生成する対象物情報生成手段と、前記対象物情報を第 1記録媒体に記録する記録手段と、前記第 1記録媒体に記録された前記対象物情報に基づいて、前記撮影対象物の種類、個数、個性、名または態様を判断する対象物判断手段と、前記対象物判断手段の判断結果に基づいて、前記映像データの自動編集を行う編集手段とを備えて、る。

[0014] 上記課題を解決するために本発明の第 2映像編集装置は、複数のデータユニットを含む映像データを取得する映像データ取得手段と、前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得する日時情報取得手段と、前記日時情報を第 1記録媒体に記録する記録手段と、前記第 1記録媒体に記録された前記日時情報に基づいて、前記各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する日時判断手段と、前記日時判断手段の判断結果に基づ!、て、前記映像データの自動編集を行う編集手段とを備えている。

[0015] 上記課題を解決するために本発明の第 3映像編集装置は、複数のデータユニットを含む映像データを取得する映像データ取得手段と、前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得する場所情報取得手段と、前記場所情報を第 1記録媒体に記録する記録手段と、前記第 1記録媒体に記録された前記場所情報に基づ、て、前記各データユニットに対応する映像が撮影された位置、場所、地域または国を判断する場所判断手段と、前記場所判断手段の判断結果に基づ、て、前記映像データの自動編集を行う編集手段とを備えて、る。

[0016] 上記課題を解決するために本発明の第 4映像編集装置は、複数のデータユニットを含む映像データを取得する映像データ取得手段と、前記各データユニットに対応する映像に含まれる撮影対象物および当該撮影対象物の画面中の位置を認識し、前記撮影対象物および当該撮影対象物の位置を示す対象物情報を生成する対象物情報生成手段と、前記撮影対象物から発せられる音声を認識し、この音声を示す音声認識情報を生成する音声認識情報生成手段と、前記対象物情報と前記音声認識情報とを対応づけ、これらを第 1記録媒体に記録する記録手段と、複数の出力チヤンネルを有する音声出力手段と、前記第 1記録媒体に記録された前記対象物情報および前記音声認識情報に基づいて、前記撮影対象物の画面中の位置と当該撮影対象物から発せられる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択する出力チャンネル選択手段とを備えている。

[0017] 上記課題を解決するために本発明の第 1映像編集方法は、複数のデータユニットを含む映像データを取得する映像データ取得工程と、前記各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報を生成する対象物情報生成工程と、前記対象物情報を記録媒体に記録する記録工程と、前記記録媒体に記録された前記対象物情報に基づいて、前記撮影対象物の種類、個数、個性、名または態様を判断する対象物判断工程と、前記対象物判断工程における判断結果に基づいて、前記映像データの自動編集を行う編集工程とを備えてヽる。

[0018] 上記課題を解決するために本発明の第 2映像編集方法は、複数のデータユニットを含む映像データを取得する映像データ取得工程と、前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得する日時情報取得工程と、前記日時情報を記録媒体に記録する記録工程と、前記記録媒体に記録された前記日時情報に基づいて、前記各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する日時判断工程と、前記日時判断工程における判断結果に基づいて、前記映像データの自動編集を行う編集工程とを備えている。

[0019] 上記課題を解決するために本発明の第 3映像編集方法は、複数のデータユニットを含む映像データを取得する映像データ取得工程と、前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得する場所情報取得工程と、前記場所情報を記録媒体に記録する記録工程と、前記記録媒体に記録された前記場所情報に基づいて、前記各データユニットに対応する映像が撮影された位置、場所、地域または国を判断する場所判断工程と、前記場所判断工程における判断結果に基づ、て、前記映像データの自動編集を行う編集工程とを備えて、る。

[0020] 上記課題を解決するために本発明の第 4映像編集方法は、複数のデータユニットを含む映像データを取得する映像データ取得工程と、前記各データユニットに対応する映像に含まれる撮影対象物および当該撮影対象物の画面中の位置を認識し、前記撮影対象物および当該撮影対象物の位置を示す対象物情報を生成する対象物情報生成工程と、前記撮影対象物から発せられる音声を認識し、この音声を示す音声認識情報を生成する音声認識情報生成工程と、前記対象物情報と前記音声認識情報とを対応づけ、これらを第 1記録媒体に記録する記録工程と、複数の出力チヤンネルを有する音声出力工程と、前記第 1記録媒体に記録された前記対象物情報および前記音声認識情報に基づいて、前記撮影対象物の画面中の位置と当該撮影対象物から発せられる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択する出力チャンネル選択工程とを備えている。

[0021] 上記課題を解決するために本発明のコンピュータプログラムは、コンピュータを本発明の第 1ないし第 4映像編集装置として機能させる。

[0022] コンピュータ読取可能な媒体内のコンピュータプログラム製品は上記課題を解決するために、コンピュータにより実行可會なプログラム命令を明白に具現ィ匕し、該コンビユータを、本発明の第 1ないし第 4映像編集装置として機能させる。

[0023] 本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納する ROM、 CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウン口ードすれば、上述した本発明の第 1ないし第 4映像編集装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の第 1な、し第 4映像編集装置として機能させるコンピュータ読取可能なコード (或、はコンピュータ読取可能な命令)から構成されてよい。 [0024] 本発明のこのような作用及び他の利得は次に説明する実施形態及び実施例から更に明らかにされる。

図面の簡単な説明

[0025] [図 1]本発明の映像編集装置の実施形態の構造を示すブロック図である。

[図 2]図 1中の編集手段の内部構造を示すブロック図である。

[図 3]データユニットに対応する映像の一例を示す説明図である。

[図 4]データユニットに対応する映像の他の例を示す説明図である。

[図 5]映像データの構造の一例を示す説明図である。

[図 6]映像データの構造の他の例を示す説明図である。

[図 7]データユニットとコンテンツスクリプト情報との対応関係の一例を示す説明図である。

[図 8]コンテンツスクリプト情報の構造を示す説明図である。

[図 9]データユニットとコンテンツスクリプト情報との対応関係の他の例を示す説明図である。

[図 10]データユニットの再生順序入替処理を示すフローチャートである。

[図 11]物語編集処理を示すフローチャートである。

[図 12]風景編集処理を示すフローチャートである。

[図 13]データライブラリの一例を示す説明図である。

[図 14]データライブラリの他の例を示す説明図である。

[図 15]本発明の映像編集装置の変形態様の構造を示すブロック図である。

[図 16]本発明の映像編集装置の変形態様における撮影対象物の画面上の位置の特定方法を示す説明図である。

[図 17]本発明の映像編集装置の変形態様における撮影対象物の器官の画面上の位置の特定方法を示す説明図である。

[図 18]本発明の映像編集装置の変形態様におけるスピーカの配置を示す説明図である。

[図 19]本発明の映像編集装置の変形態様における出力チャンネル選択処理を示すフローチャートである。 [図 20]本発明の映像編集装置の変形態様におけるデータユニットと対象物情報'音声認識情報との対応関係の一例を示す説明図である。

[図 21]本発明の映像編集装置の変形態様における対象物情報の構造を示す説明図である。

[図 22]本発明の映像編集装置の変形態様における音声認識情報の構造を示す説明図である。

[図 23]本発明の映像編集装置の変形態様におけるデータユニットと対象物情報 '音声認識情報との対応関係の他の例を示す説明図である。

[図 24]本発明の映像編集装置の第 1実施例である DVDレコーダの構造を示すプロック図である。

[図 25]本発明の映像編集装置の第 2実施例である DVDレコーダの構造を示すプロック図である。

[図 26]本発明の映像編集装置の第 3実施例である DVDレコーダの構造を示すプロック図である。

符号の説明

1, 200 映像編集装置

11 映像データ取得手段

12 映像データ分割手段

13、 201 対象物情報生成手段

13A、201A 部位情報生成手段

13B、 201B 器官情報生成手段

14 日時情報取得手段

15 場所情報取得手段

16、 203 記録手段

17 対象物判断手段

18 日時判断手段

19 場所判断手段

20 編集手段 21 ライブラリ作成手段

204 音声出力手段

205 出力チャンネル選択手段

発明を実施するための最良の形態

[0027] 以下、本発明を実施するための最良の形態について実施例毎に順に図面を参照しながら説明する。

[0028] (映像編集装置）

図 1は、本発明の映像編集装置の実施形態を示している。図 1に示す映像編集装置 1は、例えばビデオカメラなどの映像撮影手段により撮影された映像のデータを自動編集する装置である。映像編集装置 1は、映像編集専用の独立した製品として巿場に提供される場合もある。また、映像編集装置 1は、ビデオレコーダ、 DVDレコーダ、録画機能を備えた多機能型テレビなどの映像記録装置に組み込まれて、市場に提供される場合もある。

[0029] 図 1に示すように、映像編集装置 1は、映像データ取得手段 11、映像データ分割手段 12、対象物情報生成手段 13、日時情報取得手段 14、場所情報取得手段 15、記録手段 16、対象物判断手段 17、日時判断手段 18、場所判断手段 19、編集手段 20およびライブラリ作成手段 21を備えている。さらに、映像編集装置 1には、第 1記録媒体 22および第 2記録媒体 23が接続されている。

[0030] 映像データ分割手段 12、対象物情報生成手段 13、日時情報取得手段 14、場所情報取得手段 15、対象物判断手段 17、日時判断手段 18、場所判断手段 19、編集手段 20およびライブラリ作成手段 21はそれぞれ、演算処理回路、高速アクセス可能な半導体記憶回路およびこれらを制御する制御プログラムなど、情報処理を行うための一般的なハードウェアおよびソフトウェアを用いて実現することができる。

[0031] 第 1記録媒体 22は、主としてデータを一時的に記録することを目的とする記録媒体である。第 1記録媒体 22は、例えば書換可能な半導体メモリまたはハードディスクが望まヽが、書換可能な光ディスクまたは書換可能な光磁気ディスクなどでもよヽ。一方、第 2記録媒体 23は、主としてデータを長期間保存することを目的とする記録媒体である。第 2記録媒体 23は、例えば記録可能または書換可能な光ディスク、記録可能または書換可能な光磁気ディスクまたはハードディスクなどが望ましい。

[0032] 映像データ取得手段 11は、例えばビデオカメラなどの映像撮影手段により撮影された映像のデータ（以下、これを「映像データ」という。）を取得する。映像データ取得手段 11は、例えば、映像撮影手段と映像編集装置 1とを接続するためのインターフイス回路である。一例をあげて具体的に説明すると、ビデオカメラに設けられた映像データ出力端子と、映像撮影装置 1に設けられた映像データ入力端子 11Aとを接続する。そして、映像データ取得手段 11は、ビデオカメラとの間に通信を確立する。そして、映像データ取得手段 11は、ビデオカメラから送信される映像データを受信する。映像データ取得手段 11と映像撮影手段との間の接続には、 IEEE1394 (the Ins titute of Electrical and Electronics Engineers

(Universal Sen al Bus)規格を用いることができる。

[0033] 映像データは、デジタルデータであることが望ましい。映像データのフォーマットには、例えば DV規格に基づくフォーマットを採用することができる。また、映像データのフォーマットに、ビデオテープレコーダ（VTR)に関する他の規格に基づくフォーマットを採用してもよい。また、映像データのフォーマットに、 MPEG (Moving Picture E xperts Group)規格などに基づく高圧縮方式のフォーマットを採用することもできる。映像データ取得手段 11として用いるインターフェイス回路は、映像データのフォーマットに応じて適宜選択することが望ましい。

[0034] 映像データ取得手段 11により取得された映像データは、第 1記録媒体 22に記録することが望ましい。なお、映像撮影手段から取り込んだ映像データを映像編集装置 1 における映像編集に適した映像データに変換するデータ変換手段 (例えばコンパ一タまたはエンコーダなど）を、映像データ取得手段 11に追加してもよい。この場合には、変換後の映像データを第 1記録媒体 22に記録することが望ましい。

[0035] 映像データ分割手段 12は、映像データを複数のデータユニットに分割する。映像データ分割手段 12による映像データの分割方法には、様々な方法を採用することができる。例えば、映像データをショットごとに分割する方法を採用してもよい。また、映像データを撮影日付ごとに分割する方法を採用してもよい。映像データの分割方法は、映像データの構造に応じて適宜選択することが望ましい。映像データの構造については図 5および図 6を参照しながら後に説明する。

[0036] 映像データがショットごとに分割された場合には、データユニットはショットである。また、映像データが撮影日付ごとに分割された場合には、データユニットは、同一の日に撮影された（同一の撮影日付が付された)映像に対応するデータの集まりである。映像編集装置 1における種々の処理は、主としてデータユニットごとに行われる。例えば、対象物情報生成手段 13による撮影対象物の認識、日時情報取得手段 14による日時情報の取得、場所情報取得手段 15による場所情報の取得、対象物判断手段 17による判断、日時判断手段 18による判断、場所判断手段 19による判断、編集手段 20による編集処理、およびライブラリ作成手段 21によるライブラリ作成処理は、主としてデータユニットごとに行われる。

[0037] 対象物情報生成手段 13は、各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報を生成する。撮影対象物とは、映像の中に映っている物である。例えば、撮影対象物とは、映像データを構成する複数のフレームのうちの少なくとも 1個のフレームに対応する画像の全部または一部であって、人間が 1個の物または 1個の物の集合であると視覚的に認識することができるものである。図 3は、 1個のフレームに対応する映像（画像）の例を示している。この映像の中央には人間 51が映っており、左側にはブランコ 52が映っており、右側には花 53および鳥 54などが映っている。したがって、この映像における撮影対象物は、人間 51、ブランコ 52、花 53および鳥 54などである。図 4 は、別の 1個のフレームに対応する映像 (画像)の例を示している。この映像の中央には山 56が映っており、下側には木々 57が映っている。したがって、この映像における撮影対象物は、山 56および木々 57である。

[0038] 対象物情報生成手段 13は、各データユニットに対応する映像に含まれる撮影対象物のすべてを認識することができる。しかし、対象物情報生成手段 13が認識する撮影対象物を絞り込むことが望ましい。例えば、映像の中でもっとも大きく映っている撮影対象物、あるいは映像の中でもっとも長時間映っている撮影対象物だけを、対象物情報生成手段 13が認識する構成としてもよい。この場合、対象物情報生成手段 1 3は、図 3に示す画像の中の人間 51だけを認識する。また、対象物情報生成手段 14 は、図 4に示す画像の中の山 56だけを認識する。このように、対象物情報生成手段 1 3の認識範囲を絞り込むことにより、対象物判断手段 19による判断を容易にすることができ、また、映像編集の精度を高めることができる。

[0039] なお、対象物情報生成手段 13が認識する撮影対象物を、必ずしも、 1データュニットにっき、または 1フレームにっき、 1個に絞り込む必要はない。例えば、 1データュ- ットまたは 1フレームに対応する映像の中に大きく映っている撮影対象物または長時間映って!/、る撮影対象物が複数ある場合には、これら複数の対象物をそれぞれ認識してちよい。

[0040] 撮影対象物の認識は、周知の画像認識方法を用いて実現することができる。撮影対象物の認識を行うときには、第 1記録媒体 22または第 2記録媒体 23に記録された画像データベースを用いることができる。また、ライブラリ作成手段 21により第 2記録媒体に記録されたデータライブラリを用いることができる。これにより、認識精度を高めることができる。

[0041] 対象物情報生成手段 13は、撮影対象物を認識した後、対象物情報を生成する。

対象物情報生成手段 13は、データユニットごとに対象物情報を生成する。対象物情報には、対象物情報生成手段 13により認識された撮影対象物を特定することができる固有の情報が含まれる。固有の情報は、例えば名である。図 3中の画像の人間 51 の名前が「太郎」であるならば、固有の情報は、「太郎」である。図 4中の画像の山 56 の名称が「富士山」であるならば、固有の情報は、「富士山」である。

[0042] 対象物情報には、固有の情報以外の情報を追加してもよ!、。例えば、撮影対象物の一般名称および撮影対象物の態様を表す形容表現を追加してもよい。より具体的には、対象物情報を、撮影対象物を示す一般名詞、固有名詞および形容詞 (または形容動詞その他の修飾語ないし修飾句）からなる文字列としてもよい。例えば、撮影対象物が図 3に示す画像の人間 51の場合には、対象物情報は、「人間、太郎、かわいい」である。また、撮影対象物が図 4に示す画像の山 56の場合には、対象物情報は、「山、富士山、壮大な」である。撮影対象物が人間の場合には、対象物情報に、その人間の職業、年齢、性別、役名などをさらに追加してもよい。また、撮影対象物が山などの風景の場合にも、他の関連情報をさらに追加してもよい。対象物情報に含まれる情報量を増やすことにより、対象物判断手段 19による判断を容易にすることができ、また、映像編集の精度を高めることができる。

[0043] 対象物情報生成手段 13が、 1個のデータユニットに対応する映像に映っている複数の撮影対象物を認識した場合には、対象物情報生成手段 13は、複数の撮影対象物のそれぞれについて固有の情報など (例えば一般名詞 +固有名詞 +形容詞の文字列)を生成し、これらをまとめて 1個の対象物情報として提供する。対象物情報の構造については、図 8を参照しながら後に説明する。

[0044] 対象物情報生成手段 13には、部位情報生成手段 13Aを設けてもよい。部位情報生成手段 13Aは、撮影対象物の部位を認識し、この部位を示す部位情報を生成する。部位の認識は、周知の画像認識方法を用いて実現することができる。部位の認識を行うときには、第 1記録媒体 22または第 2記録媒体 23に記録された画像データベースを用いることができる。また、ライブラリ作成手段 21により第 2記録媒体に記録されたデータライブラリを用いることができる。これにより、認識精度を高めることができる。撮影対象物の部位は、例えば撮影対象物が人間の場合には、顔、胴体、手、足などである。撮影対象物が人間以外の動物である場合には、例えば尾なども部位に当たる。撮影対象物が植物である場合には、花、枝、葉などが部位に当たる。撮影対象物が飛行機の場合には、胴体、主翼、尾翼、タイヤなどが部位に当たる。例えば、図 3に示すように、部位情報生成手段 13Aは、人間 51の顔 51Aを撮影対象物の部位として認識することができる。部位情報生成手段 13Aは、認識された部位が人間の顔'胴体 '手'足、直物の花 '枝'葉、または飛行機の胴体 ·主翼'尾翼 ·タイヤなどであることを示す部位情報を生成する。

[0045] 対象物情報生成手段 13には、器官情報生成手段 13Bを設けてもよい。器官情報生成手段 13Bは、撮影対象物の器官を認識し、この器官を示す器官情報を生成する。器官の認識は、周知の画像認識方法を用いて実現することができる。器官の認識を行うときには、第 1記録媒体 22または第 2記録媒体 23に記録された画像データベースを用いることができる。また、ライブラリ作成手段 21により第 2記録媒体に記録されたデータライブラリを用いることができる。これにより、認識精度を高めることができる。撮影対象物の器官は、例えば撮影対象物が人間の場合には、目、鼻、口、耳などである。例えば、図 3に示すように、器官情報生成手段 13Bは、人間 51の口 51B を撮影対象物の器官として認識することができる。器官情報生成手段 13Bは、認識された器官が人間の目、鼻、口または耳などであることを示す器官情報を生成する。

[0046] 日時情報取得手段 14は、各データユニットに対応する映像が撮影された日時を示す日時情報を取得する。日時情報は、例えば、各データユニットに対応する映像が撮影された年、月、日および時刻を示す情報である。デジタルビデオカメラなどの映像撮影手段は、一般に、撮影日時を示す情報を映像データと共に出力する機能を備えている。日時情報取得手段 14は、映像撮影手段から出力された撮影日時を示す情報を取得し、これを日時情報として提供する。

[0047] 場所情報取得手段 15は、各データユニットに対応する映像が撮影された場所を示す場所情報を取得する。場所情報は、各データユニットに対応する映像が撮影された位置の緯度、経度および高度を示す情報である。デジタルビデオカメラなどの映像撮影手段には、例えば GPS (Global Positioning System)受信情報に基づいて撮影位置を示す情報を、映像データと共に出力する機能を備えているものがある。場所情報取得手段 15は、映像撮影手段から出力された撮影位置を示す情報を取得し、これを場所情報として提供する。

[0048] 記録手段 16は、対象物情報生成手段 13により生成された対象物情報、日時情報取得手段 14により生成された日時情報、および場所情報取得手段 15により生成された場所情報を、第 1記録媒体 22に記録する。記録手段 16は、対象物情報、日時情報および場所情報を記録するとき、対象物情報、日時情報および場所情報を、 1 個の情報群としてまとめ、この情報群をコンテンツスクリプト情報として記録する。また、記録手段 16は、対象物情報、日時情報および場所情報を、これらの情報を生成または取得したデータユニットと対応づける。対象情報、日時情報および場所情報とデータユニットとの対応づけについては、図 7および図 9を参照しながら後に説明する。また、対象物情報生成手段 13に部位情報生成手段 13 Aまたは器官情報生成手段 1 3Bを設け、部位情報または器官情報を生成する構成とした場合には、記録手段 16 は、部位情報または器官情報を第 1記録媒体 22に記録する。部位情報または器官情報を第 1記録媒体 22に記録するとき、記録手段 16は、当該部位情報の示す部位または当該器官情報の示す器官に関連する対象物の対象物情報と部位情報または器官情報とを対応づけると共に、部位情報または器官情報をコンテンツスクリプト情報に組み込む。これにより、部位情報または器官情報は、コンテンツスクリプト情報の一部として記録される。

[0049] 対象物判断手段 17は、第 1記録媒体 22に記録された対象物情報に基づいて、撮影対象物の種類、個数、個性、名または態様を判断する。対象物情報には、少なくとも撮影対象物を特定することができる固有の情報が含まれている。対象物判断手段 17は、この固有の情報を参照することにより、撮影対象物の種類、個数、個性、名、態様または撮影対象物に関するその他の事項を判断することができる。また、撮影対象物についての一般名詞、固有名詞および形容詞 (修飾語)の文字列が対象物情報に含まれている場合には、対象物判断手段 17は、一般名詞を参照することにより、撮影対象物の種類を容易かつ正確に判断することができる。また、対象物判断手段 17は、固有名詞を参照することにより、撮影対象物の個性または名を容易かつ正確に判断することができる。また、対象物判断手段 17は、形容詞 (修飾語)を参照することにより、撮影対象物の態様を容易かつ正確に判断することができる。また、対象物情報生成手段 13に部位情報生成手段 13 Aまたは器官情報生成手段 13Bを設け、部位情報または器官情報を生成する構成とした場合には、対象物判断手段 17は、第 1記録媒体 22に記録された部位情報または器官情報に基づ、て、撮影対象物の部位または器官の種類、個数、個性、名または態様を判断する。

[0050] 日時判断手段 18は、第 1記録媒体 22に記録された日時情報に基づ、て、各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期、季節または撮影日時に関するその他の事項を判断する。日時情報は、各データユニットに対応する映像が撮影された年、月、日および時刻を示す情報である。日時判断手段 18は、日時情報により示された時刻を参照することにより、映像が撮影された時刻を容易かつ正確に判断することができる。また、日時判断手段 18は、日時情報により示された時刻を参照することにより、映像が撮影された時間帯を容易かつ正確に判断することができる。時間帯とは、例えば、早朝、朝、昼、夜、深夜、おやつの時間などである。また、日時判断手段 18は、日時情報により示された年、月または日を参照することにより、映像が撮影された年月日を容易かつ正確に判断することができる。例えば、月および日を参照することにより、映像が撮影された日が春分の日であることを判断することができる。また、年、月および日を参照することにより、映像が撮影された曜日を判断することができる。また、日時判断手段 18は、日時情報により示された年および月を参照することにより、映像が撮影された時期または季節を容易かつ正確に判断することができる。時期とは、例えば、学校に入学する時期、運動会が催される時期、株主総会が開かれる時期、田植えの時期、梅雨の時期、オリンピックが開催される時期などである。なお、日時判断手段 18が判断を行うときに、第 1記録媒体 22または第 2記録媒体 23に記録されたカレンダー情報を参照してもよい。また、ライブラリ作成手段 21により第 2記録媒体に記録されたデータライブラリを用いてもよい。これにより、認識精度を高めることができる。

[0051] 場所判断手段 19は、第 1記録媒体 22に記録された場所情報に基づいて、各データユニットに対応する映像が撮影された位置、場所、地域、国または撮影場所に関するその他の事項を判断する。場所情報は、各データユニットに対応する映像が撮影された位置の緯度、経度および高度を示す情報である。場所判断手段 19は、場所情報により示された緯度、経度および高度を参照することにより、映像が撮影された位置、場所、地域または国を容易かつ正確に判断することができる。なお、場所判断手段 19が判断を行うときに、第 1記録媒体 22または第 2記録媒体 23に記録された地図情報を参照してもよい。また、ライブラリ作成手段 21により第 2記録媒体に記録されたライブラリを用いてもよい。これにより、認識精度を高めることができる。

[0052] 編集手段 20は、対象物判断手段 17、日時判断手段 18または場所判断手段 19〖こよる判断、または、これらの手段による判断の組合せにより、映像データの自動編集を行う。すなわち、編集手段 20は、撮影対象物の種類、個数、個性、名、態様または撮影対象物に関するその他の事項に基づいて、映像データの自動編集を行う。また、編集手段 20は、各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期、季節または撮影場所に関するその他の事項に基づいて、映像データの自動編集を行う。また、編集手段 20は、各データユニットに対応する映像が撮影された位置、場所、地域、国または撮影場所に関するその他の事項に基づいて、映像データの自動編集を行う。編集手段 20は、これら、撮影対象物に関する事項、撮影日時に関する事項および撮影場所に関する事項の中から必要な 1個の事項を選択し、または複数の事項を組み合わせて、またはすベての事項を用いて総合的に判断して、映像内容に即した自動編集を行う。

[0053] 図 2は、編集手段 20の内部構造を示している。図 2に示すように、編集手段 20は、映像編集処理を行うための様々な手段を備えている。編集手段 20は、これらの手段を制御し、データユニットの順序入替、再生速度変更、色変更、トランジシヨン効果の付加、音響効果の付加、音楽 (BGM)の付加、ナレーションの付加、タイトルの付加、字幕の付加などの映像編集処理を行う。個々の手段の詳細については後に説明する。

[0054] ライブラリ作成手段 21は、対象物情報、日時情報または場所情報を、これに対応するデータユニットと共に長期間記録保持可能な第 2記録媒体に記録することによつて、データライブラリを作成する。ライブラリの作成の詳細については、図 13および図 14を参照しながら後に説明する。

[0055] 映像編集装置 1は、以下のように動作する。まず、映像データ取得手段 11が、映像撮影手段から映像データを受け取り、これを第 1記録媒体 22に記録する。続いて、映像データ分割手段 12が映像データを複数のデータユニットに分割する。続いて、対象物情報生成手段 13、日時情報取得手段 14および場所情報取得手段 15が、各データユニットについて、対象物情報、日時情報、場所情報を生成または取得する。続いて、対象物判断手段 17、日時判断手段 18および場所判断手段 19が、対象物情報、日時情報、場所情報に基づいて、撮影対象物、撮影日時および撮影場所に関する事項を判断する。続いて、編集手段 20が、撮影対象物、撮影日時および撮影場所に関する事項に基づいて、映像編集処理を自動的に行う。映像編集処理の結果生成された編集映像データは、例えば、第 1記録媒体 22または第 2記録媒体 23に記録される。

[0056] 映像編集装置 1における、これらの一連の動作は、編集者が、例えば映像編集装置 1の操作部（例えばコントロールパネル、図示せず）に設けられた編集開始ボタンを 1度押すだけで自動的に実行されることが望まし、。 [0057] もっとも、映像データの取得と自動編集とは別の時に行うことができるようにしてもよい。この場合には、例えば、編集者がまず映像撮影手段力も映像編集装置 1の第 1 記録媒体 22に映像データを転送する。そして、別の日に、編集者が映像編集装置 1 の編集開始ボタンを押して、映像データの自動編集を行う。この場合、対象物情報、日時情報および場所情報を生成または取得する処理、および、これらの情報をコンテンッスクリプト情報としてまとめて第 1記録媒体 22に記録する処理は、映像データが第 1記録媒体 22に転送される時またはその直後に実行してもよい。また、そうではなぐこれらの処理を、映像データの自動編集が開始される直前、すなわち、編集者が前記別の日に映像編集装置 1の編集開始ボタンを押した直後に実行してもよい。なお、撮影対象物、撮影日時および撮影場所に関する事項の判断は、自動編集処理の直前または自動編集処理の最中に実行することが望ま、。

[0058] (映像データの構造）

図 5は、映像データの構造の一例を示している。映像データ 61は、複数のデータュニット 62、 62、…を含んでいる。すなわち、映像データ 61は、複数のデータユニット 6 2に分割することができる。上述したように、映像編集装置 1における種々の処理は、主としてデータユニットごとに行われる。映像データ 61を細力べ分割し、各データュ- ット 62のサイズを小さくすれば、きめ細かい映像編集処理を実現することができる。

[0059] データユニット 62は、ショットであることが望まヽ。撮影者がビデオカメラなどの映像撮影手段を用いて撮影を行うとき、連続して撮影を行う時間はたかだカゝ 5〜 10秒であることが多い。すなわち、例えば撮影者が撮影対象物にビデオカメラを向け、実際に録画を開始し、連続的な録画を行い、そして録画を停止するまでの時間は、たかだか 5〜： LO秒であることが多い。この連続的な録画により生成された映像データの 1部がショットである。ショットは、連続的な録画により生成されているため、映像の内容的な観点力もみて、 1個のまとまりがある場合が多い。例えば、運動会の徒競走に出場している子どもをその親が撮影する場合、親は、徒競走のスタートからゴールまでを一気に走り抜ける子どもを連続的に録画するであろう。このようにして生成されたショットは、徒競走を走る子どもの映像として、内容的に 1個のまとまりがある。したがつて、ショットをデータユニット 62とし、撮影対象物の認識、日時情報の取得、場所情報の取得、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、撮影場所に関する事項の判断、映像編集、およびデータライブラリの作成をショットごとに行うことにより、映像内容に即した映像編集を実現することができる。

[0060] また、データユニット 62を、同一の日に撮影された（同一の撮影日付が付された）映像に対応するデータの集まりとしてもよい。すなわち、映像データ 61を撮影日付ごとに分割し、分割された個々の映像データ片をデータユニット 62としてもよい。撮影の日付が変わると、映像内容が大きく変化することが多い。例えば、第 1の撮影日（12 月 24日）の映像がクリスマスパーティの映像で、第 2の撮影日（翌年の 1月 1日）の映像が初詣 (または-ユーィヤーパティ一）の映像である場合には、撮影日の違いによつて映像内容が大きく変化する。したがって、同一の日に撮影された映像に対応するデータの集まりをデータユニット 62とし、このデータの集まりごとに映像編集などを行うことにより、映像内容に即した映像編集を実現することができる。

[0061] 図 6は、映像データの構造の他の例を示している。図 6に示すように、映像データを 3以上の階層構造としてもよい。図 6に示す階層構造によれば、映像データはムービ一 71と呼ばれる。そして、ムービー 71はまず複数のストーリー 72に分割される。続いて、各ストーリー 72は、複数のシーン 73に分割される。続いて、各シーン 73は、複数のショット 74に分割される。例えば、ストーリー 72は、同一の日に撮影された（同一の撮影日付が付された)映像に対応するデータの集まりである。シーン 73は、同じ背景が続く映像に対応するデータの集まりである。ショット 74は、上述したように、連続的な録画により生成された映像に対応するデータである。このような階層構造の場合、データユニットは、ストーリー 72であり、シーン 73であり、ショット 74である。すなわち、処理に応じてデータユニットが変化する。例えば、撮影対象物の認識、撮影対象物に関する事項の判断は、ショット 74ごとに行う。日時情報のうち年月日の取得、年月日に関する事項の判断は、ストーリー 72ごとに行う。場所情報の取得、撮影場所に関する事項の判断は、シーン 73ごとに行う。また、再生順序の入れ替えはショット 74ごとに行う。再生速度の変更は、シーン 73ごとに行う。トランジシヨン効果の付カ卩はスト一リー 72、シーン 73またはショット 74ごとに行う。音楽（BGM)の付カ卩はストーリー 72 またはシーン 73ごとに行う。タイトルの付カ卩は、ストーリー 72ごとに行う。なお、各処理の対象として、ストーリー 72、シーン 73およびショット 74のいずれを選択するかは、適宜変更することができる。

[0062] (コンテンツスクリプト情報）

図 7は、データユニットとコンテンツスクリプト情報 (対象物情報、日時情報および場所情報）との対応づけの一例を示している。図 7に示すように、対象物情報 81、日時情報 82および場所情報 83は、コンテンツスクリプト情報 84という 1個のデータのまとまりとして配列することが望ましい。そして、 1個のコンテンツスクリプト情報 84を 1個のデータユニット 85に対応させることが望ましい。これにより、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、撮影場所に関する事項の判断、および映像編集を容易かつ正確に行うことが可能となる。

[0063] 図 8は、 1個のコンテンツスクリプト情報 84の内部構造を示している。上述したように、対象物情報生成手段 13が、 1個のデータユニットに対応する映像に映っている複数の撮影対象物を認識した場合には、対象物情報生成手段 13は、複数の撮影対象物のそれぞれについて固有の情報など (例えば一般名詞 +固有名詞 +形容詞の文字列)を生成し、これらをまとめて 1個の対象物情報 81として提供する。この場合、 1 個のデータユニットに対応する映像中において認識された複数の撮影対象物 l〜n の総数を示す情報 81 Aが生成される。さら〖こ、複数の撮影対象物 l〜nのそれぞれについて固有の情報など (例えば一般名詞 +固有名詞 +形容詞の文字列）が情報 8 1B、 81B、…として配列される。そして、情報 81Aおよび情報 81Bは、 1個の対象物情報 81としてまとめられ、 1個のコンテンツスクリプト情報 84中に配置される。

[0064] 対象物情報生成手段 13に、部位情報生成手段 13 Aまたは器官情報生成手段 13 Bを設けた場合には、コンテンツスクリプト情報 84中に、部位情報または器官情報が追加される。部位情報または器官情報は、部位情報の示す部位または器官情報の示す器官に関連する対象物の対象物情報と対応づけられる。部位情報または器官情報は対象物情報ごとに配置することが望ましい。図 8に示す例では、部位情報および器官情報の双方を含む部位器官情報 81Dと、部位器官情報 81Dの総数を示す部位器官総数情報 81Cとが、対象物情報ごとに配置されている。

[0065] 図 9は、データユニットとコンテンツスクリプト情報との対応づけの他の例を示している。映像データ力ムービー 71、ストーリー 72、シーン 73およびショット 74力もなる階層構造である場合には、 1個のムービー 71に 1個のコンテンツスクリプト情報 91が対応づけられる。また、 1個のストーリー 72に 1個のコンテンツスクリプト情報 92が対応づけられる。また、 1個のシーン 73に 1個のコンテンツスクリプト情報 93が対応づけられる。また、 1個のショット 74に 1個のコンテンツスクリプト情報 94が対応づけられる。ストーリー 72、シーン 73およびショット 74はそれぞれ、通常、複数存在するので、これらの個数に対応する個数のコンテンツスクリプト情報 92、 93、 94が存在する。コンテンッスクリプト情報 91、 92、 93、 94の内容は、図 9に示すようにそれぞれ異なる。また、図 9に示す例では、コンテンツスクリプト情報 91、 92、 93、 94に、対象物情報 94A、日時情報 94Bおよび場所情報 94C以外の情報が追加されている。コンテンツスクリプト情報 91には、ムービータイトル情報 91Aおよびストーリー再生順序情報 91 Bが含まれている。これらは、ムービータイトル情報 91Aは、タイトル付カ卩手段 40 (図 2 参照）によって付加されたタイトルを示す情報である。ストーリー再生順序情報 91Bは、再生順序変更手段 30によって設定されたストーリー 72の再生順序を示す情報である。同様に、コンテンツスクリプト情報 92には、ストーリータイトル情報 92Aおよびシーン再生順序情報 92Bが含まれている。また、コンテンツスクリプト情報 93には、シーンタイトル情報 93A、ショット再生順序情報 93Bおよび音楽情報 93Cが含まれて、る。コンテンツスクリプト情報 94には、対象物情報 94A、日時情報 94Bおよび場所情報 9 4C以外に、再生速度情報 94D、音響効果情報 94E、ショットタイトル情報 94Fなどが含まれている。ムービータイトル情報 91 A、ストーリー再生順序情報 91B、ストーリータイトル情報 92A、シーン再生順序情報 92B、シーンタイトル情報 93A、ショット再生順序情報 93B、音楽情報 93C、再生速度情報 94D、音響効果情報 94Eおよびショットタイトル情報 94Fなどは、編集手段 20による映像編集処理の過程で生成された情報である。映像編集処理の過程で生成された情報をコンテンツスクリプト情報 91、 92、 93、 94【こ含めて、ムーヒ、、一 71、ストーリー 72、シーン 73およびショット 74【こ対応づけることにより、次段階の映像編集処理を容易かつ高精度に行うことが可能となる。例えば、音楽情報 93Cに音楽のテンポ情報を含ませておけば、音楽のテンポ変化に合わせて移動速度が変化する字幕を映像に容易に付加することができる。 [0067] (様々な映像編集処理 1：再生順序入替）

以下、図 2および図 10、図 11、図 12を参照しながら、編集手段 20による様々な映像編集処理について説明する。図 2に示すように、編集手段 20は、映像編集処理を行うための様々な手段を備えてヽる。

[0068] 再生順序入替手段 30は、データユニットの再生順序を、現実の撮影日時とは異なる順序となるように入れ替える。本発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、データュニットの再生順序の入替を行うので、映像内容に即した映像編集を実現することができる。例えば、各データユニットに対応する映像について、対象物情報生成手段 13が対象物情報を生成し、続いて対象物判断手段 17が対象物情報 (特に撮影対象物を示す一般名詞）に基づいて撮影対象物の種類を判断する。さらに、対象物判断手段 17 力撮影対象物の総数を示す情報（図 8中の情報 81A)に基づいて、撮影対象物の個数を判断する。そして、再生順序入替手段 30が、撮影対象物の種類および個数に基づ!/、て、データユニットの再生順序の入替を行う。

[0069] 図 10ないし図 12は、このような再生順序入替処理の流れを示している。図 10に示すように、再生順序入替手段 30は、まず、撮影対象物が人間またはペットか否かを判定する (ステップ Sl)。撮影対象物が人間またはペットであるときには (ステップ SI： YES)、続いて、再生順序入替手段 30は、現在処理の対象としているデータユニットと前回処理の対象として、たデータユニットとを比較し、人間またはペットの個数が変化している力否かを判定する (ステップ S2)。人間またはペットの個数が変化しているときには (ステップ S2 : YES)、再生順序入替手段 30は、物語編集処理を実行する（ステップ S3)。

[0070] 図 11は、物語編集処理の流れを示している。図 10のステップ S3において物語編集処理の実行が開始されると、再生順序入替手段 30は、図 11に示すように、次の 3 個の処理のいずれかを実行する。第 1の処理は、映像中の人間またはペットの個数が増えるようにデータユニットの再生順序を決める (ステップ Sl l)。第 2の処理は、映像中の人間またはペットの個数が減るようにデータユニットの個数を決める（ステップ S12)。第 3の処理は、映像中の人間またはペットの個数が増力 II ·減少を繰り返すようにデータユニットの順序を決める (ステップ S 13)。続いて、再生順序入替手段 30は、人間またはペットが映っている映像と風景が映っている映像とが交互に並ぶように、データユニットの再生順序を決める。具体的には、現在処理の対象としているデータユニットに対応する映像には人間またはペットが映っているので、このデータユニットの次に再生すべきデータユニットとして、風景が映っている映像に対応するデータュニットを選択する (ステップ S 14)。

[0071] 第 1の処理 (ステップ S11)によれば、映像中の人間またはペットの個数が増えるようにデータユニットの再生順序を決めることにより、徐々ににぎやかになる映像をつくり出すことができる。第 2の処理 (ステップ S 12)によれば、映像中の人間またはペットの個数が減るようにデータユニットの再生順序を決めることにより、徐々に落ち着いていく映像をつくり出すことができる。第 3の処理 (ステップ S 13)によれば、映像中の人間またはペットの個数が増カロ'減少を繰り返すようにデータユニットの順序を決めることにより、変化に富んだメリノ、リのある映像をつくり出すことができる。また、ステップ S14 において、人間またはペットが映っている映像と風景が映っている映像とが交互に並ぶようにデータユニットの再生順序を決めることにより、変化に富んだメリノ、リのある映像をつくり出すことができる。

[0072] なお、ステップ S11ないしステップ S13の 3個の処理の中から 1個の処理を選択する方法は、例えば次のように行う。すなわち、現在対象となっているデーユニットが映像データの前半部分に位置する場合には、第 1の処理を選択する。現在対象となっているデーユニットが映像データの中間部分に位置する場合には、第 2の処理を選択する。現在対象となっているデーユニットが映像データの後半部分に位置する場合には、第 3の処理を選択する。また、この選択を、編集者が与えた指示に基づいて行つてもよい。

[0073] 一方、図 10に示すように、撮影対象物が人間またはペットでないとき (ステップ S1： NO)、または人間またはペットの個数が変化していないときには (ステップ S2 : NO)、再生順序入替手段 30は、風景編集処理を実行する (ステップ S4)。

[0074] 図 12は、風景編集処理の流れを示している。図 10のステップ S4において風景編集処理の実行が開始されると、再生順序入替手段 30は、図 12に示すように、撮影対象物が人間またはペットか否かを確認する (ステップ S21)。撮影対象物が人間またはペットであるときには (ステップ S21： YES)、人間またはペットが映っている映像と風景が映っている映像とが交互に並ぶようにデータユニットの再生順序を決める (ステツプ S22)。一方、ステップ S21における確認の結果、撮影対象物が人間またはべットでないときには (ステップ S21： NO)、データユニットに対応する映像の輝度または色相の平均値に基づいて、データユニットの再生順序を決める (ステップ S23)。例えば、現在処理の対象としているデータユニットの輝度または色相の平均値と、前回処理の対象として、たデータユニットの輝度または色相の平均値とを比較して、輝度または色相の平均値が徐々に増加または減少するように、データユニットの再生順序を決める。

[0075] ステップ S22において、人間またはペットが映っている映像と風景が映っている映像とが交互に並ぶようにデータユニットの再生順序を決めることにより、変化に富んだメリノ、リのある映像をつくり出すことができる。また、ステップ S23において、データュニットに対応する映像の輝度または色相の平均値に基づいて、データユニットの再生順序を決めることにより、映像の変化をなめらかにすることができる。

[0076] (様々な映像編集処理 2：再生速度変更）

再生速度変更手段 31は、複数のデータユニットのうち少なくとも 1個のデータュ-ットの再生速度を変更する。本発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、データユニットの再生速度を変更するので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像について、対象物情報生成手段 13が対象物情報を生成し、続いて対象物判断手段 17が対象物情報 (特に撮影対象物を示す一般名詞または固有名詞）に基づいて撮影対象物の種類または名を判断する。そして、再生速度変更手段 31が、当該データユニットに対応する映像中の撮影対象物に変化があるカゝ否かを判定する。撮影対象物に変化がなぐ映像中に同じ撮影対象物が継続的に映っているときには、再生速度変更手段 31は、当該データユニットの再生速度を速くする。これにより、変化に乏しい映像の再生時間を短くすることができ、視聴者に退屈さを感じさせな、映像をつくり出すことができる。

[0077] また、あるデータユニットに対応する映像について、日時情報取得手段 14が日時情報を生成し、続いて日時判断手段 18が日時情報に基づいて、当該データユニットに対応する映像の撮影年月日を判断する。そして、再生速度変更手段 31が、現在の年月日と撮影年月日とを比較する。現在の年月日と撮影年月日との差が大きいとき、例えは両者間に半年程度以上の差があるときには、当該データユニットの開始部分の再生速度を遅くする。これにより、スローモーション効果をつくり出すことができ、過去の出来事に関する映像であることを視聴者に理解させることができる。

[0078] (様々な映像編集処理 3 :映像効果付加）

映像効果付加手段 32は、複数のデータユニットのうち少なくとも 1個のデータュ-ットに対応する映像に映像効果を付加する。映像効果付加手段 32は、色変更手段 33 およびトランジシヨン効果付加手段 34を備えている。

[0079] 色変更手段 33は、少なくとも 1個のデータユニットに対応する映像の色を変更する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、映像の色を変更するので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像につ V、て、日時情報取得手段 14が日時情報を生成し、続、て日時判断手段 18が日時情報に基づいて、当該データユニットに対応する映像の撮影年月日を判断する。そして、色変更手段 33が、現在の年月日と撮影年月日とを比較する。現在の年月日と撮影年月日との差が大きいときには、色変更手段 33は、当該データユニットに対応する映像の色をモノクロまたはセピア色にする。例えば、現在の年月日と撮影年月日との差が 3ヶ月以上半年以内であるときには、映像の色をモノクロにし、現在の年月日と撮影年月日との差が半年よりも大きいときには、映像の色をセピア色にする。これにより、過去の出来事に関する映像であることを視聴者に理解させることができる。

[0080] トランジシヨン効果付加手段 34は、少なくとも 1個のデータユニットに対応する映像にトランジシヨン効果 (例えばクロスフェードまたはディゾルブなどの効果）を付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、映像にトランジシヨン効果を付加するので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像について、対象物情報生成手段 13が対象物情報を生成し、続いて対象物判断手段 17が対象物情報に基づいて、撮影対象物の種類を判断する。そして、トランジシヨン効果付加手段 34が、撮影対象物の種類に基づいて、撮影対象物が人間か風景かを判定する。撮影対象物が人間のときには、トランジシヨン効果付加手段 34は、映像にトランジシヨン効果を付加しない。撮影対象物が風景のときには、トランジシヨン効果付加手段 34は、映像にトランジシヨン効果を付加する。これにより、映像に適切なアクセントを付けることができる。

[0081] (様々な映像編集処理 4：音声付加）

音声付加手段 35は、複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に音声を付加する。音声付加手段 35は、音響効果付加手段 36、音楽付カ卩手段 37およびナレーション付カ卩手段 38を備えている。

[0082] 音響効果付加手段 36は、少なくとも 1個のデータユニットに対応する映像に音響効果を付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、映像に音響効果を付加するので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像について、対象物情報生成手段 13が対象物情報を生成し、日時情報取得手段 14が日時情報を生成する。続いて対象物判断手段 17が対象物情報に基づいて、撮影対象物の種類を判断する。さらに、日時判断手段 18が日時情報に基づいて、当該データユニットに対応する映像が撮影された季節を判断する。例えば、撮影対象物の種類が山であり、映像が撮影された季節が夏であるときには、音響効果付加手段 36は、当該データユニットに対応する映像にセミまたはカツコゥの鳴き声を付加する。これにより、映像にその内容に合致した音響効果を付けることができ、視聴者が理解しやす、映像をつくり出すことができる。 [0083] 音楽付加手段 37は、少なくとも 1個のデータユニットに対応する映像に音楽 (BGM )を付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、映像に音楽を付加するので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像について、対象物情報生成手段 13が対象物情報を生成し、続いて対象物判断手段 17が対象物情報に基づいて、撮影対象物の種類を判断する。例えば、撮影対象物の種類が山のときには、音楽付加手段 37は、山に関連する楽曲を映像に付加する。これにより、視聴者が理解しやすい映像をつくり出すことができる。

[0084] 特に、対象物情報に、撮影対象物を示す形容表現、具体的には、撮影対象物を形容する形容詞、形容動詞、修飾語または修飾句の文字列を含める構成を採用した場合には、映像内容を的確に反映した音楽を映像に付加することができる。例えば、撮影対象物の種類が山の場合に、対象物情報に「壮大な」という形容動詞が含まれているときには、音楽付加手段 37は、山に関連する複数の楽曲の中から、山の壮大さを表現した音楽を選択することができる。

[0085] また、あるデータユニットに対応する映像について、場所情報取得手段 15が場所情報を生成し、続いて場所判断手段 19が対象物情報に基づいて、当該データュ- ットに対応する映像が撮影された場所を判断する。例えば、映像が撮影された場所がハワイのときには、ハワイアンミュージックを映像に付加する。これにより、視聴者の映像に対する興味を高めることができる。

[0086] ナレーション付カ卩手段 38は、少なくとも 1個のデータユニットに対応する映像にナレーシヨンを付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、映像にナレーションを付カロするので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像について、対象物情報生成手段 13、日時情報取得手段 14 および場所情報取得手段 15がそれぞれ、当該データユニットに対応する映像について、対象物情報、日時情報および場所情報を生成する。続いて、対象物判断手段 17が撮影対象物の名を判断し、日時判断手段 18が撮影の時間帯を判断し、場所判断手段 19が撮影場所を判断する。そして、ナレーション付加手段 38が、撮影対象物の名（例えば太郎）、撮影の時間帯 (例えば朝)および撮影場所 (例えば京都)などの言葉を含むナレーションを映像に付加する。これにより、映像内容を詳細に説明したナレーションを映像に付けることができる。また、対象物情報生成手段 13に部位情報生成手段 13Aまたは器官情報生成手段 13Bを設け、撮影対象物の部位または器官を示す部位情報または器官情報を生成する構成とした場合には、部位情報または器官情報に基づいて、対象物判断手段 17が撮影対象物の部位または器官の種類、個数、個性、名または態様などを判断し、ナレーション付加手段 38が、撮影対象物の部位または器官の名または態様などに関する言葉を含むナレーションを映像に付カロすることができる。

[0087] (様々な映像編集処理 5 :文字付加）

文字付カ卩手段 39は、複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に文字を付加する。文字付加手段 39は、タイトル付加手段 40および字幕付加手段 41を備えている。

[0088] タイトル付カ卩手段 40は、少なくとも 1個のデータユニットに対応する映像にタイトルを付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、映像にタイトルを付加するので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像にっ、て、日時情報取得手段 14が日時情報を生成し、続、て日時判断手段 18が日時情報に基づいて、当該データユニットに対応する映像が撮影された季節および時間帯を判断する。例えば、撮影の季節が春であり、撮影の時間帯が夕方のときには、タイトル付加手段 40は、「春の宵」というタイトルを映像に付加する。これにより、映像内容に合致したタイトルを映像に付加することができる。

[0089] また、あるデータユニットに対応する映像について、対象物情報生成手段 13が対象物情報を生成し、日時情報取得手段 14が日時情報を生成する。続いて対象物判断手段 17が対象物情報に基づいて、撮影対象物の名を判断する。さらに、日時判断手段 18が日時情報に基づいて、当該データユニットに対応する映像が撮影された時期を判断する。例えば、撮影対象物の名が太郎であり、映像が撮影された時期が夏休みの時期であるときには、タイトル付加手段 40は、「太郎くんの夏休み」というタイトルを映像に付加する。これにより、映像内容に合致したタイトルを映像に付加することができる。

[0090] また、あるデータユニットに対応する映像について、日時情報取得手段 14が日時情報を生成し、場所情報取得手段 15が場所情報を生成する。続いて日時判断手段 18が日時情報に基づいて、当該データユニットに対応する映像が撮影された月日を判断する。さらに、場所情報判断手段 19が場所情報に基づいて、当該データュニットに対応する映像が撮影された場所を判断する。例えば、撮影年月日力月 1日であり、撮影場所がハワイであるときには、タイトル付加手段 40は、「ハワイでの正月」というタイトルを映像に付加する。これにより、映像内容に合致したタイトルを映像に付カロすることができる。

[0091] 字幕付加手段 41は、少なくとも 1個のデータユニットに対応する映像に字幕を付カロする。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断に基づいて、映像に字幕を付加するので、映像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映像について、対象物情報生成手段 13、日時情報取得手段 14および場所情報取得手段 15がそれぞれ、当該データユニットに対応する映像について、対象物情報、日時情報および場所情報を生成する。続いて、対象物判断手段 17が撮影対象物の名を判断し、日時判断手段 18が撮影の時間帯を判断し、場所判断手段 19が撮影場所を判断する。そして、字幕付加手段 41が、撮影対象物の名（例えば太郎）、撮影の時間帯 (例えば朝)および撮影場所 (例えば京都)などの文字を含む字幕を映像に付加する。これにより、映像内容を詳細に説明した字幕を映像に付けることができる。また、対象物情報生成手段 13に部位情報生成手段 13 Aまたは器官情報生成手段 13B を設け、撮影対象物の部位または器官を示す部位情報または器官情報を生成する構成とした場合には、部位情報または器官情報に基づいて、対象物判断手段 17が撮影対象物の部位または器官の種類、個数、個性、名または態様などを判断し、字幕付加手段 41が、撮影対象物の部位または器官の名または態様などに関する言葉を含む字幕を映像に付加することができる。

[0092] (データライブラリ作成）

図 13は、ライブラリ作成手段 21により作成され、そして第 2記録媒体 23に記録されたデータライブラリの一例を示してヽる。映像編集の過程で生成 ·取得された対象物情報、日時情報および場所情報は、コンテンツスクリプト情報として 1個にまとめられ、第 1記録媒体 22に記録される。ライブラリ作成手段 21は、このコンテンツスクリプト情報と、これに対応するデータユニットを、第 1記録媒体 22から読み出し、これらを第 2 記録媒体 23に記録する。図 13に示すように、コンテンツスクリプト情報 101およびデータユニット 102を第 2記録媒体 23に記録するとき、ライブラリ作成手段 21は、コンテンッスクリプト情報 101とデータユニット 102とを隣り合うように配列する。これにより、コンテンツスクリプト情報 101とデータユニット 102との対応関係を明確にすることができる。

[0093] 図 14は、ライブラリ作成手段 21により作成され、そして第 2記録媒体 23に記録されたデータライブラリの他の例を示している。図 14に示すように、第 2記録媒体 23上に、複数のコンテンツスクリプト情報を 1個にまとめたコンテンツスクリプトグループ情報 1 11を配置し、それに続いて、複数のデータユニット 112を配列してもよい。この場合、複数のデータユニット 112にそれぞれ対応する複数のコンテンツスクリプト情報を、コンテンッスクリプトグループ情報 111として 1個にまとめる。

[0094] 以上、本発明の実施形態である映像編集装置 1は、映像データを分割することによつて形成されるデータユニットごとに、撮影対象物、撮影日時および撮影場所に関する情報を生成または取得し、これらの情報に基づいて、撮影対象物の種類、撮影年月日、撮影場所などを判断し、これらの判断に基づいて映像編集を行う。これにより、映像内容に即した映像編集を行うことができる。したがって、視聴者が退屈せずかつ理解しやすい映像の自動編集を行うことができる。また、映像内容に合致した映像編集を行うことができる。

[0095] また、対象物情報生成手段 13に部位情報生成手段 13Aまたは器官情報生成手段 13Bを設け、撮影対象物の部位または器官を示す部位情報または器官情報を生成し、部位情報または器官情報に基づ!、て撮影対象物の部位または器官の種類、名または態様などを判断し、この判断に基づいて映像編集を行う構成を採用した場合には、映像内容に即したきめ細やかな映像編集を行うことができる。

[0096] さらに、映像編集装置 1によれば、対象物情報、日時情報および場所情報を生成して記録することにより、これらの情報を参照するだけで、撮影対象物、撮影日時および撮影場所に関する事項の判断を、容易かつ正確に行うことができる。例えば、対象物情報、日時情報および場所情報の生成、取得および記録を映像データの取得の段階で行う構成とすれば、判断の段階で、映像データを分析する必要がなくなる。したがって、撮影対象物、撮影日時および撮影場所に関する事項の判断を、容易かつ正確に行うことができ、映像編集の迅速ィ匕を図ることができる。

[0097] なお、映像編集装置 1では、撮影対象物に関する処理を行う対象物情報生成手段 13および対象物判断手段 17のセット、撮影日時に関する処理を行う日時情報取得手段 14および日時判断手段 18のセット、撮影場所に関する処理を行う場所情報取得手段 15および場所判断手段 19のセットを備えている。しかし、本発明はこれに限らない。映像編集手段に、撮影対象物に関する処理を行う対象物情報生成手段および対象物判断手段のセットだけを設ける構成としてもよい。また、映像編集手段に、撮影日時に関する処理を行う日時情報取得手段および日時判断手段のセットだけを設ける構成としてもよい。また、映像編集手段に、撮影場所に関する処理を行う場所情報取得手段および場所判断手段のセットだけを設ける構成としてもよい。

[0098] また、例えば映像データ力データユニット間の境界を明確に検出することができるフォーマットを採用している場合には、映像データ分割手段 12を排除してもよい。

[0099] また、ライブラリ作成手段 21によりデータライブラリを作成することによって、映像編集の精度を高めることができるのであるが、映像編集の精度を他の方法で高められる場合には、ライブラリ作成手段 21を排除してもよい。また、映像編集精度の高度化の要求よりも、データ処理の簡素化または小さなデータ記録容量などの要求が優先されるような製品に本発明を適用する場合には、ライブラリ作成手段 21を排除してもよい。 [0100] また、映像編集装置 1の編集手段 20は、図 2に示すように、映像編集処理を行う多数の手段を有するが、図 2に示す手段をすベて備えなくてもよい。また、図 2に示す手段以外の映像編集処理手段を映像編集装置 1に追加してもよヽ。

[0101] (映像編集装置の変形態様）

図 15は、本発明の映像編集装置の変形形態を示している。図 15に示す映像編集装置 200において、図 1に示す映像編集装置 1の構成要素と同一の構成要素には同一の符号を付し、その説明を省略する。

[0102] 映像編集装置 200の特徴は、撮影対象物から発せられる音声を認識し、撮影対象物の画面中の位置と当該撮影対象物力発せられる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択することにめる。

[0103] このような特徴を実現するために映像編集装置 200が新たに備えた構成要素は、対象物情報生成手段 201、音声認識情報生成手段 202、音声出力手段 204および出力チャンネル選択手段 205である。

[0104] 対象物情報生成手段 201は、上述した対象物情報生成手段 13とほぼ同様に、各データユニットに対応する映像に含まれる撮影対象物を認識する。さらに対象物情報生成手段 201は、当該撮影対象物の画面中の位置をも認識する。そして、対象物情報生成手段 201は、撮影対象物と当該撮影対象物の位置とを示す対象物情報を生成する。撮影対象物の画面中の位置は、例えば図 16に示すように特定する。まず、フレーム領域の縦方向に伸びる X軸と横方向に伸びる Y軸とが直角に交わる二次元座標をこのフレーム領域上に設定する。そして、フレーム領域中において撮影対象物が占める領域の外縁を例えば 4つの座標値:左上 (X、 y )、右上 (X、 y )、左下

1 1 2 2

(X、 y )

3 3、右下 (X、 y )

4 4を用いて指し示す。これら 4つの座標値は、撮影対象物の位置を示す情報として対象物情報に組み込まれる。なお、撮影対象物が占める領域の外縁を指し示すための座標値の個数は、 4個に限られず、 3個でもよいし、 5個以上でもよい。

[0105] 対象物情報生成手段 201には、部位情報生成手段 201Aを設けてもょ、。部位情報生成手段 201Aは、上述した部位情報生成手段 13Aとほぼ同様に、撮影対象物の部位を認識する。さらに部位情報生成手段 201Aは、当該部位の画面中の位置をも認識する。そして、部位情報生成手段 201Aは、部位および当該部位の画面中の位置を示す部位情報を生成する。部位情報生成手段 201Aは、フレーム領域中において撮影対象物の部位が占める領域の外縁を例えば 4つの座標値:左上 (X、y )、右上 (X、 y )、左下 (X、 y )、右下 (X、 y )を用いて指し示すことによって部位の画

2 2 3 3 4 4

面中の位置を特定する。これら 4つの座標値が撮影対象物の部位の位置を示す情報として部位情報に組み込まれる。

[0106] 対象物情報生成手段 201には、器官情報生成手段 201Bを設けてもよい。器官情報生成手段 201Bは、上述した器官情報生成手段 13Bとほぼ同様に、撮影対象物の器官を認識する。さらに器官情報生成手段 201Bは、当該器官の画面中の位置をも認識する。そして、器官情報生成手段 201Bは、器官および当該器官の画面中の位置を示す器官情報を生成する。器官情報生成手段 201Bは、図 17に示すように、フレーム領域中にぉ、て撮影対象物の器官（図 17の例では口）が占める領域の外縁を例えば 4つの座標値：左上 (X、 y )、右上 (X、 y )、左下 (X、 y )、右下 (X、 y )

1 1 2 2 3 3 4 4 を用いて指し示すことによって器官の画面中の位置を特定する。これら 4つの座標値が撮影対象物の器官の位置を示す情報として器官情報に組み込まれる。

[0107] 音声認識情報生成手段 202は、撮影対象物から発せられる音声を認識し、この音声を示す音声認識情報を生成する。具体的には、音声認識情報生成手段 202は、まず、撮影対象物を認識し、続いて当該撮影対象物から発せられる音声を他の音声から識別し、続いて当該音声の再生開始時刻および再生時間を測定する。続いて、音声認識情報生成手段 202は、当該音声に識別記号 (ID)を付し、この識別記号と当該音声の再生開始時刻を示す情報と再生時間を示す情報とを音声認識情報に組み込む。音声認識情報生成手段 202は例えば演算処理回路および半導体メモリなどにより実現することができる。音声認識情報生成手段 202における音声認識には、周知の音声認識方法を採用することができる。

[0108] 記録手段 203は、対象物情報と音声認識情報とを対応づけ、これらをコンテンツスタリブト情報として第 1記録媒体 22に記録する。すなわち、記録手段 203は、ある撮影対象物を示す対象物情報と、当該撮影対象物から発せられた音声を示す音声認識情報とを対応づける。また、部位情報生成手段 201Aまたは器官情報生成手段 20 1Bを設けた場合には、記録手段 203は、さらに、部位情報または器官情報と対象物情報とを対応づけ、これらをまとめてコンテンツスクリプト情報として第 1記録媒体 22 に記録する。すなわち、記録手段 203は、部位情報の示す部位または器官情報の示す器官と関連のある対象物の対象物情報に、部位情報または対象物情報を対応づける。

[0109] 音声出力手段 204は、複数の出力チャンネルを有する。例えば、音声出力手段 20 4は、図 15に示すように、 8個の出力チャンネル 204Aないし 204Hを有する。各出力チャンネノレ 204Aな!/、し 204Ηίま、スピーカ 210Aな!/、し 210F、 211A、 211B【こそれぞれ接続されている。図 18に示すように、スピーカ 210Aないし 210Fは、それぞれ透明であり、シート状に形成された平面スピーカである。これら平面スピーカは、デイスプレイ装置 220のディスプレイ画面に対し平行な面内に並べられ、ディスプレイ画面上に重ねられている。一方、スピーカ 211 Aおよび 211Bは、ディスプレイ装置 220 の両脇に取り付けられて、る。

[0110] 出力チャンネル選択手段 205は、第 1記録媒体 22に記録された対象物情報および音声認識情報に基づいて、撮影対象物の画面中の位置と当該撮影対象物から発せられる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択する。また、対象物情報生成手段 201に部位情報生成手段 201Aが設けられている場合には、出力チャンネル選択手段 205は、第 1 記録媒体 22に記録された対象物情報、部位情報および音声認識情報に基づいて、撮影対象物の部位の画面中の位置と当該撮影対象物の部位力発せられる音声の発生位置とがー致するように、当該撮影対象物の部位から発せられる音声を出力すべき出力チャンネルを選択する。また、対象物情報生成手段 201に器官情報生成手段 201Bが設けられている場合には、出力チャンネル選択手段 205は、第 1記録媒体 22に記録された対象物情報、器官情報および音声認識情報に基づいて、撮影対象物の器官の画面中の位置と当該撮影対象物の器官から発せられる音声の発生位置とがー致するように、当該撮影対象物の器官から発せられる音声を出力すべき出力チャンネルを選択する。 [0111] 図 19は、出力チャンネル選択手段 205による出力チャンネル選択処理の一例を示している。図 19に示すように、出力チャンネル選択手段 205は、まず、対象物情報および音声認識情報を第 1記録媒体 22から読み出す (ステップ S31)。続いて、出力チヤンネル選択手段 205は、これら対象物情報および音声認識情報に基づいて、撮影対象物が背景であり、当該撮影対象物から発せられた音声が背景音声である力否かを判定する (ステップ S32)。続いて、撮影対象物が背景であり、当該撮影対象物から発せられた音声が背景音声であるときには (ステップ S32 : YES)、出力チャンネル選択手段 205は、出力チャンネル 204Gおよび 204Hを選択する（ステップ S33)。これにより、背景音声は、出力チャンネル 204Gおよび 204Hを介してスピーカ 211Aおよび 211Bに出力される。すなわち、背景音声は、ディスプレイ装置 220の両脇に取り付けられたスピーカ 211A、 21 IBから出力される。

[0112] 一方、撮影対象物が背景ではなく個物であり、当該撮影対象物から発せられた音声が個物音声であるときには (ステップ S32 :NO)、出力チャンネル選択手段 205は、出力チャンネル 204Aないし 204Fのいずれかを選択する。なお、個物とは、背景以外の物であり、例えば、画面上に大きく映っている人間、ペットなどである。個物音声とは、個物から発せられた音声であり、例えば人間の声や、手をたたく音などである。ここで、対象物情報生成手段 201に部位情報生成手段 201Bが設けられている場合を例にあげて、出力チャンネル選択手段 205における出力チャンネル 204Aないし 204Fの選択について具体的に説明する。例えば、図 17に示すように、撮影対象物から発せられた音声が人間 230の声であるときには、出力チャンネル選択手段 2 05は、当該音声の音声認識情報に対応づけられた器官情報を第 1記録媒体 22から読み出す (ステップ S34)。続いて、出力チャンネル選択手段 205は、この器官情報に基づいて当該撮影対象物の器官、すなわち当該人間 230の口 230Aの画面上の位置を特定する (ステップ S35)。次に、出力チャンネル選択手段 205は、スピーカ 2 10Aないし 210Fの中から、当該口 230Aの画面上の位置に対応する位置に配置されたスピーカを選択し、続いて、出力チャンネル 204Aないし 204Fの中力ら、この選択されたスピーカに接続された出力チャンネルを選択する (ステップ S36)。図 17〖こ示す例では、口 230Aの画面上の位置は図 18中のスピーカ 210Aの位置と対応する。したがって、スピーカ 210Aに接続された出力チャンネル 204Aが出力チャンネル選択手段 205により選択される。それゆえ、口 230A力も発せられた音声は、出力チヤンネル 204Aを介してスピーカ 210Aから出力される。この結果、撮影対象物の部位の画面中の位置と当該撮影対象物の部位力発せられる音声の発生位置とがー致する。これにより、臨場感のある映像および音声の編集を実現することができる。

[0113] 図 20は、データユニットとコンテンツスクリプト情報 (対象物情報および音声認識情報）との対応づけの一例を示している。図 20に示すように、対象物情報 241および音声認識情報 242は、コンテンツスクリプト情報 243という 1個のデータのまとまりとして配列することが望ましい。そして、 1個のコンテンツスクリプト情報 243を 1個のデータユニット 244に対応させることが望ましい。これにより、出力チャンネルの選択処理を容易かつ正確に行うことが可能となる。

[0114] 図 21は、 1個の対象物情報 241の内部構造を示している。対象物情報 241には、個々の対象物 1ないし nについての対象物情報 251および対象物の総数を示す情報 252が配置されている。個々の対象物情報 251には、対象物 IDを示す情報 253と、対象物情報本体 254と、対象物の画面上の範囲を示す情報 255と、音声 IDを示す情報 256と、当該対象物情報が示す対象物に関連する部位'器官の総数を示す情報 257と、当該対象物情報が示す対象物に関連する部位情報'器官情報 258とが配置されている。部位情報'器官情報 258には、部位 Π 器官 IDを示す情報 259と、部位の範囲 ·器官の範囲を示す情報 260とが配置されて、る。部位の範囲'器官の範囲を示す情報 260には、部位または器官のフレーム領域上における例えば 4個の座標値を示す情報 261が配置されている。なお、対象物 IDは、対象物を特定するための固有の記号である。対象物情報本体は、上述した「太郎」「富士山」など対象物を特定するための固有の情報である。音声 IDは、音声を特定するための固有の記号である。部位 IDは部位を特定するための固有の記号である。器官 IDは器官を特定するための固有の記号である。対象物情報内に配置された音声 IDは、対象物情報 2 51と音声認識情報 277とを対応づける役割を果たす。

[0115] 図 22は、 1個の音声認識情報 242の内部構造を示している。音声認識情報 242には、背景音声認識情報 271と個物音声認識情報 272とが配置されている。背景音声認識情報 271には、音声 IDを示す情報 273と、背景音声の再生開始時刻を示す情報 274と、背景音声の再生時間を示す情報 275とが配置されている。個物音声認識情報 272には、個物音声についての個々の音声認識情報の総数を示す情報 276と、個々の個物音声についての音声認識情報 277とが配置されている。個々の個物音声についての音声認識情報 277には、音声 IDを示す情報 278と、個物音声の再生開始時刻を示す情報 279と、個物音声の再生時間を示す情報 280と、対象物 IDを示す情報 281とが配置されている。対象物 IDは、個々の個物音声についての音声認識情報 277が対応する対象物情報 251に付された対象物 IDである。音声認識情報内に配置された対象物 IDは、音声認識情報 277と対象物情報 251とを対応づける役割を果たす。

[0116] 図 23は、データユニットとコンテンツスクリプト情報との対応づけの他の例を示してヽる。図 23は、映像データ力ムービー 291、ス卜一!;一 292、シーン 293、シ 3ッ卜 29 4およびフレーム 295からなる階層構造である場合を示している。ムービー 291、スト一リー 292、シーン 293およびショット 294については、図 6に示すムービー 71、スト一リー 72、シーン 73、ショット 74と同じである。フレーム 295は、ショット 294に含まれる映像のフレームを意味する。この場合、音声認識情報 242は、ショット 294に対応づけられる。すなわち、音声認識情報 242は、ショット 294ごとに生成され、ショット 29 4との対応づけを維持するように情報管理が行われる。一方、対象物情報 241は、フレーム 295に対応づけられる。すなわち、対象物情報 241は、フレーム 295ごとに生成され、フレーム 295との対応づけを維持するように情報管理が行われる。対象物情報 241をフレームごとに設けることにより、きめ細かな映像編集を実現することができる。

[0117] なお、映像編集装置 200では、音声出力手段 204の出力チャンネルを 8個としたが、本発明の映像編集装置において出力チャンネルの個数は限定されない。また、スピー力 210Aないし 210F、 211A、 21 IBの個数または配置も変更することができる。また、映像編集装置 200では、スピーカ 210Aないし 210Fを平面スピーカとし、これをディスプレイ装置 220の画面に重ねるようにして配置した力本発明の映像編集装置においてはこの点についても限定されない。例えば、箱状の筐体に組み込まれたスピーカを 5個用意し、これらを視聴者の正面、左前側、右前側、左後側、右後側に配置する構成を採用することも可能である。また、出力チャンネル選択手段 205における出力チャンネルの選択は、上述したように 1個の出力チャンネルを選択する方法に限られない。例えば、 2個以上の出力チャンネルを同時に選択し、選択した各出力チャンネルの音量バランスを設定することにより、音声の音像定位の位置を決定し、これによつて、撮影対象物の画面上の位置と当該撮影対象物から発せられる音声の発生位置とを一致させる構成を採用してもよい。

[0118] (映像編集方法）

映像編集装置 1と同様の効果は、以下に述べる映像編集方法を実施することによつても実現することができる。

[0119] すなわち、第 1の映像編集方法は、複数のデータユニットを含む映像データを取得する映像データ取得工程と、各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報を生成する対象物情報生成工程と、対象物情報を記録媒体に記録する記録工程と、記録媒体に記録された対象物情報に基づいて、撮影対象物の種類、個数、個性、名または態様を判断する対象物判断工程と、撮影対象物の種類、個数、個性、名または態様に基づ、て、映像データの自動編集を行う編集工程とを備えて、る。

[0120] 第 2の映像編集方法は、複数のデータユニットを含む映像データを取得する映像データ取得工程と、各データユニットに対応する映像が撮影された日時を示す日時情報を取得する日時情報取得工程と、日時情報を記録媒体に記録する記録工程と、記録媒体に記録された日時情報に基づいて、各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する日時判断工程と、各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節に基づいて、映像データの自動編集を行う編集工程とを備えている。

[0121] 第 3の映像編集方法は、複数のデータユニットを含む映像データを取得する映像データ取得工程と、各データユニットに対応する映像が撮影された場所を示す場所情報を取得する場所情報取得工程と、場所情報を記録媒体に記録する記録工程と、記録媒体に記録された場所情報に基づいて、各データユニットに対応する映像が撮影された位置、場所、地域または国を判断する場所判断工程と、各データユニットに対応する映像が撮影された位置、場所、地域または国に基づいて、映像データの自動編集を行う編集工程とを備えてヽる。

[0122] 映像編集装置 200と同様の効果は、以下に述べる映像編集方法を実施すること〖こよっても実現することができる。すなわち、複数のデータユニットを含む映像データを取得する映像データ取得工程と、各データユニットに対応する映像に含まれる撮影対象物および当該撮影対象物の画面中の位置を認識し、撮影対象物および当該撮影対象物の位置を示す対象物情報を生成する対象物情報生成工程と、撮影対象物カゝら発せられる音声を認識し、この音声を示す音声認識情報を生成する音声認識情報生成工程と、対象物情報と音声認識情報とを対応づけ、これらを第 1記録媒体に記録する記録工程と、複数の出力チャンネルを有する音声出力工程と、第 1記録媒体に記録された対象物情報および音声認識情報に基づいて、撮影対象物の画面中の位置と当該撮影対象物力発せられる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択する出力チャンネル選択工程とを備えて!/、る。

[0123] (映像編集を行うためのコンピュータプログラム）

上述した映像編集装置 1は、コンピュータを、対象物情報生成手段、日時情報取得手段、場所取得手段、記録手段、対象物判断手段、日時判断手段、場所判断手段、編集手段およびライブラリ作成手段などとして動作させる制御プログラムを作成し、これをコンピュータに読み込ませることによって実現することが可能である。

[0124] 上述した映像編集装置 200は、コンピュータを、対象物情報生成手段、音声情報生成手段、記録手段、音声出力手段、出力チャンネル選択手段などとして動作させる制御プログラムを作成し、これをコンピュータに読み込ませることによって実現することが可能である。

実施例 1

[0125] 以下、本発明の第 1実施例について図 24を参照しながら説明する。以下の実施例は、本発明の映像編集装置をノヽードディスク内蔵型の DVDレコーダに適用した例であり、本発明を実施するための好適な一例である。 [0126] 図 24は、本発明の映像編集装置の第 1実施例であるハードディスク内蔵型の DVD レコーダを示している。図 24に示すように、 DVDレコーダ 120は、 IEEE1394規格に基づく映像入力端子 121を備えて!/ヽる。映像入力端子 121にはデジタルビデオ力メラ 122が接続されている。ユーザーの操作により、デジタルビデオカメラ 122から映像データが出力される。デジタルビデオカメラ 122から出力された映像データは、映像入力端子 121およびインターフェイス回路 123を介して録画部 124に入力される。録画部 124は、例えば、ビデオカメラから出力された映像データが DVフォーマットである場合には、これを圧縮して MPEGフォーマットにエンコードする。そして、録画部 124は、エンコードした映像データをノヽードディスクドライブ 125に転送する。ハードディスクドライブ 125はこの映像データを内蔵ディスクに記録する。なお、インターフエイス回路 123は、映像データ取得手段の具体例である。また、ハードディスクドライブ 125が第 1記録媒体の具体例である。

[0127] ユーザーが DVDレコーダ 120のコントロールパネルに設けられた自動編集の開始ボタン（図示せず）を押すと、データ編集部 126は、ハードディスクドライブ 125の内蔵ディスクに記録された映像データを読み出し、これをデータ編集部 126内に設けられた RAM (ランダムアクセスメモリ）に記録する。続いて、データ編集部 126は、映像データを複数のデータユニットに分割する。続いて、データ編集部 126は、各データユニットについて、対象物情報、日時情報および場所情報を生成または取得し、これらを 1個にまとめ、これをコンテンツスクリプト情報としてハードディスクドライブ 125に転送する。ハードディスクドライブ 125は、転送されたコンテンツスクリプト情報を内蔵ディスクに記録する。なお、データ編集部 126は、映像データ分割手段、対象物情報生成手段、日時情報取得手段、場所情報取得手段および記録手段の具体例である

[0128] 続いて、データ編集部 126は、対象物情報、日時情報および撮影情報に基づいて、各データユニットにっき、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影場所に関する事項の判断を行う。続いて、データ編集部 126 は、撮影対象物に関する事項の判断結果、撮影日時に関する事項の判断結果、および撮影場所に関する事項の判断結果に基づいて、映像編集処理を行う。映像編集処理には、データユニットの順序入替、再生速度変更、色変更、トランジシヨン効果の付加、音響効果の付加、音楽 (BGM)の付加、ナレーションの付加、タイトルの付加、字幕の付加などの処理が含まれる。単語辞書 127は、データ編集部 126によるナレーション付加、タイトルの付加、または字幕の付加などの処理を支援する。また、ユーザーはデータ編集物に対し、必要な情報を音声入力または操作入力により与えることができる。続いて、データ編集部 126は、編集が完了した編集映像データを、ハードディスクドライブ 125に転送する。ハードディスクドライブ 125は編集映像データを内蔵ディスクに記録する。なお、データ編集部 126は、対象物判断手段、日時判断手段、場所判断手段および編集手段の具体例でもある。

[0129] 画像 ·音声再生部 128は、画像 ·音声制御部 129の制御に従って、ハードディスクドライブ 125により記録された編集映像データを再生することができる。再生された編集映像データの映像はモニタ 130に出力され、音声はスピーカ 131に出力される。また、ハードディスクドライブ 125により記録された編集映像データを DVD記録部 132 により、 DVD133に記録することができる。

[0130] ライブラリ制御部 134は、データ編集部 126により生成されたコンテンツスクリプト情報 (対象物情報、日時情報および場所情報)を、データ編集部 126から、またはハードディスクドライブ 125を介して取得し、これを、対応するデータユニットと共に、 DVD 記録部 132に転送する。 DVD記録部 132は、転送されたコンテンツスクリプト情報およびデータユニットを DVD133に記録する。このようにして、ライブラリ制御部 134は、コンテンツスクリプト情報およびデータユニットから構成されるデータライブラリを作成する。なお、ライブラリ制御部 134は、ライブラリ作成手段の具体例である。また、 D VD133は、第 2記録媒体の具体例である。なお、システム制御部 135は、 DVDレコーダ 120の種々の動作を統括する。

実施例 2

[0131] 本発明の第 2実施例について図 25を参照しながら説明する。なお、以下に述べる第 2実施例において、第 1実施例と同一の構成要素には同一の符号を付し、その説明を省略する。図 25は、本発明の第 2実施例である DVDレコーダを示している。図 2 5に示すように、 DVDレコーダ 140は、ネットワーク制御部 141を備えている。 DVDレコーダ 140は、ネットワーク制御部 141を介して、他の映像編集装置などとの間で、映像データ、編集映像データ、データライブラリなどの送信'受信を行うことができる。実施例 3

[0132] 本発明の第 3実施例について図 26を参照しながら説明する。なお、以下に述べる第 3実施例において、第 1実施例と同一の構成要素には同一の符号を付し、その説明を省略する。図 26は、本発明の第 3実施例である DVDレコーダを示している。図 2 6に示すように、 DVDレコーダ 150は、音声記録部 151を備えている。音声記録部 1 51は、 DVDレコーダ 150に音声入力端子 152およびインターフェイス回路 153を介して接続されたオーディオ機器 154から、音声データを受け取る。そして、音声記録部 151は、この音声データをノヽードディスクドライブ 125に転送する。ハードディスクドライブ 125はこの音声データを内蔵ディスクに記録する。データ編集部 126は、ハードディスクドライブ 125または DVD133に記録された静止画ライブラリまたは動画ライブラリを用いて、ハードディスクドライブ 125により記録された音声データに画像または映像を付加する。これにより、画像、映像または視覚エフェクトが付いた音楽コンテンッを容易につくり出すことができる。

[0133] なお、本発明は、請求の範囲および明細書全体力読み取るこのできる発明の要旨または思想に反しない範囲で適宜変更可能であり、そのような変更を伴う映像編集装置および映像編集方法並びにこれらの機能を実現するコンピュータプログラムもまた本発明の技術思想に含まれる。

産業上の利用可能性

[0134] 本発明に係る映像編集装置、映像編集方法および映像編集を行うためのコンビュータプログラムは、例えば、例えばビデオカメラなどにより撮影された映像のデータを自動編集する映像編集装置に利用可能である。また、例えば民生用或いは業務用の各種コンピュータ機器に搭載される又は各種コンピュータ機器に接続可能な映像編集装置等にも利用可能である。

Claims

請求の範囲

[1] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、

前記各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報を生成する対象物情報生成手段と、

前記対象物情報を第 1記録媒体に記録する記録手段と、

前記第 1記録媒体に記録された前記対象物情報に基づ!、て、前記撮影対象物の種類、個数、個性、名または態様を判断する対象物判断手段と、

前記対象物判断手段の判断結果に基づ!/、て、前記映像データの自動編集を行う編集手段と

を備えてヽることを特徴とする映像編集装置。

[2] 対象物情報生成手段は、前記撮影対象物の部位を認識し、前記部位を示す部位情報を生成する部位情報生成手段を備え、

前記記録手段は、前記部位情報を前記撮影対象物と対応づけて前記第 1記録媒体に記録し、

前記対象物判断手段は、前記第 1記録媒体に記録された前記部位情報に基づヽて、前記部位の種類、個数、個性、名または態様を判断することを特徴とする請求の範囲第 1項に記載の映像編集装置。

[3] 対象物情報生成手段は、前記撮影対象物の器官を認識し、前記器官を示す器官情報を生成する器官情報生成手段を備え、

前記記録手段は、前記器官情報を前記撮影対象物と対応づけて前記第 1記録媒体に記録し、

前記対象物判断手段は、前記第 1記録媒体に記録された前記器官情報に基づヽて、前記器官の種類、個数、個性、名または態様を判断することを特徴とする請求の範囲第 1項に記載の映像編集装置。

[4] 前記編集手段は、前記データユニットの再生順序を、現実の撮影日時とは異なる順序となるように入れ替える順序入替手段を備えていることを特徴とする請求の範囲第 1項に記載の映像編集装置。

[5] 前記順序入替手段は、編集後の映像データの再生時間が経過するに従って映像内に登場する前記撮影対象物の数が変化するように、前記データユニットの再生順序を入れ替える手段を備えていることを特徴とする請求の範囲第 4項に記載の映像編集装置。

[6] 前記順序入替手段は、編集後の映像データの再生時間が経過するに従って、前記撮影対象物が人間である映像と前記撮影対象物が風景である映像とが交互に再生されるように、前記データユニットの再生順序を入れ替える手段を備えて、ることを特徴とする請求の範囲第 4項に記載の映像編集装置。

[7] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットの再生速度を変更する再生速度変更手段を備えていることを特徴とする請求の範囲第 1項に記載の映像編集装置。

[8] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に映像効果を付加する映像効果付加手段を備えていることを特徴とする請求の範囲第 1項に記載の映像編集装置。

[9] 前記映像効果付加手段は、前記少なくとも 1個のデータユニットに対応する映像の色を変更する色変更手段を備えていることを特徴とする請求の範囲第 8項に記載の映像編集装置。

[10] 前記映像効果付加手段は、前記少なくとも 1個のデータユニットに対応する映像にトランジシヨン効果を付加するトランジシヨン効果付加手段を備えていることを特徴とする請求の範囲第 8項に記載の映像編集装置。

[11] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に音声を付加する音声付加手段を備えていることを特徴とする請求の範囲第 1項に記載の映像編集装置。

[12] 前記音声付加手段は、前記少なくとも 1個のデータユニットに対応する映像に音響効果を付加する音響効果付加手段を備えて、ることを特徴とする請求の範囲第 11 項に記載の映像編集装置。

[13] 前記音声付加手段は、前記少なくとも 1個のデータユニットに対応する映像に音楽を付加する音楽付加手段を備えていることを特徴とする請求の範囲第 11項に記載の映像編集装置。

[14] 前記音声付加手段は、前記少なくとも 1個のデータユニットに対応する映像にナレーシヨンを付加するナレーション付加手段を備えていることを特徴とする請求の範囲第 11項に記載の映像編集装置。

[15] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に文字を付加する文字付加手段を備えていることを特徴とする請求の範囲第 1項に記載の映像編集装置。

[16] 前記文字付加手段は、前記少なくとも 1個のデータユニットに対応する映像にタイトルを付加するタイトル付加手段を備えていることを特徴とする請求の範囲第 15項に記載の映像編集装置。

[17] 前記文字付加手段は、前記少なくとも 1個のデータユニットに対応する映像に字幕を付加する字幕付加手段を備えていることを特徴とする請求の範囲第 15項に記載の映像編集装置。

[18] 前記対象物情報をこれに対応する前記データユニットと共に長期間記録保持可能な第 2記録媒体に記録することによって、データライブラリを作成するライブラリ作成手段をさらに備えていることを特徴とする請求の範囲第 1項に記載の映像編集装置。

[19] 前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得する日時情報取得手段と、

前記日時情報に基づいて、前記各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する日時判断手段とをさらに備え前記編集手段は、前記日時判断手段の判断結果に基づいて、前記映像データの自動編集を行うことを特徴とする請求の範囲第 1項に記載の映像編集装置。

[20] 前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得する場所情報取得手段と、

前記場所情報に基づ、て、前記各データユニットに対応する映像が撮影された位置、場所、地域または国を判断する場所判断手段をさらに備え、

前記編集手段は、前記場所判断手段の判断結果に基づいて、前記映像データの自動編集を行うことを特徴とする請求の範囲第 1項に記載の映像編集装置。

[21] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、

前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得する日時情報取得手段と、

前記日時情報を第 1記録媒体に記録する記録手段と、

前記第 1記録媒体に記録された前記日時情報に基づいて、前記各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する日時判断手段と、

前記日時判断手段の判断結果に基づ!、て、前記映像データの自動編集を行う編集手段と

を備えてヽることを特徴とする映像編集装置。

[22] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットの再生速度を変更する再生速度変更手段を備えていることを特徴とする請求の範囲第 21項に記載の映像編集装置。

[23] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に映像効果を付加する映像効果付加手段を備えていることを特徴とする請求の範囲第 21項に記載の映像編集装置。

[24] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に音声を付加する音声付加手段を備えていることを特徴とする請求の範囲第 21項に記載の映像編集装置。

[25] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に文字を付加する文字付加手段を備えていることを特徴とする請求の範囲第 21項に記載の映像編集装置。

[26] 前記日時情報をこれに対応する前記データユニットと共に長期間記録保持可能な第 2記録媒体に記録することによって、データライブラリを作成するライブラリ作成手段をさらに備えていることを特徴とする請求の範囲第 21項に記載の映像編集装置。

[27] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、

前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得する場所情報取得手段と、

前記場所情報を第 1記録媒体に記録する記録手段と、

前記第 1記録媒体に記録された前記場所情報に基づ!、て、前記各データユニットに対応する映像が撮影された位置、場所、地域または国を判断する場所判断手段と前記場所判断手段の判断結果に基づ!/、て、前記映像データの自動編集を行う編集手段と

を備えてヽることを特徴とする映像編集装置。

[28] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に音声を付加する音声付加手段を備えていることを特徴とする請求の範囲第 27項に記載の映像編集装置。

[29] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニットに対応する映像に文字を付加する文字付加手段を備えていることを特徴とする請求の範囲第 27項に記載の映像編集装置。

[30] 前記場所情報をこれに対応する前記データユニットと共に長期間記録保持可能な第 2記録媒体に記録することによって、データライブラリを作成するライブラリ作成手段をさらに備えていることを特徴とする請求の範囲第 27項に記載の映像編集装置。

[31] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、

前記各データユニットに対応する映像に含まれる撮影対象物および当該撮影対象物の画面中の位置を認識し、前記撮影対象物および当該撮影対象物の位置を示す対象物情報を生成する対象物情報生成手段と、

前記撮影対象物から発せられる音声を認識し、この音声を示す音声認識情報を生成する音声認識情報生成手段と、

前記対象物情報と前記音声認識情報とを対応づけ、これらを第 1記録媒体に記録する記録手段と、

複数の出力チャンネルを有する音声出力手段と、

前記第 1記録媒体に記録された前記対象物情報および前記音声認識情報に基づいて、前記撮影対象物の画面中の位置と当該撮影対象物から発せられる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択する出力チャンネル選択手段と

を備えてヽることを特徴とする映像編集装置。

[32] 対象物情報生成手段は、前記撮影対象物の部位および当該部位の画面中の位置を認識し、前記部位および当該部位の画面中の位置を示す部位情報を生成する部位情報生成手段を備え、

前記出力チャンネル選択手段は、前記第 1記録媒体に記録された前記対象物情報、前記部位情報および前記音声認識情報に基づいて、前記撮影対象物の部位の画面中の位置と当該撮影対象物の部位力発せられる音声の発生位置とがー致するように、当該撮影対象物の部位力も発せられる音声を出力すべき出力チャンネルを選択することを特徴とする請求の範囲第 31項に記載の映像編集装置。

[33] 対象物情報生成手段は、前記撮影対象物の器官および当該器官の画面中の位置を認識し、前記器官および当該器官の画面中の位置を示す器官情報を生成する器官情報生成手段を備え、

前記出力チャンネル選択手段は、前記第 1記録媒体に記録された前記対象物情報、前記器官情報および前記音声認識情報に基づいて、前記撮影対象物の器官の画面中の位置と当該撮影対象物の器官から発せられる音声の発生位置とがー致するように、当該撮影対象物の器官から発せられる音声を出力すべき出力チャンネルを選択することを特徴とする請求の範囲第 31項に記載の映像編集装置。

[34] 前記映像データを前記複数のデータユニットに分割する映像データ分割手段をさらに備え、

前記映像データ分割手段は、前記映像データをショットごとに分割することを特徴とする請求の範囲第 1項に記載の映像編集装置。

[35] 前記映像データを前記複数のデータユニットに分割する映像データ分割手段をさらに備え、

前記映像データ分割手段は、前記映像データを撮影日付ごとに分割することを特徴とする請求の範囲第 1項に記載の映像編集装置。

[36] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、

前記各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報を生成する対象物情報生成工程と、

前記対象物情報を記録媒体に記録する記録工程と、

前記記録媒体に記録された前記対象物情報に基づ!ヽて、前記撮影対象物の種類、個数、個性、名または態様を判断する対象物判断工程と、

前記対象物判断工程における判断結果に基づいて、前記映像データの自動編集を行う編集工程と

を備えて、ることを特徴とする映像編集方法。

[37] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、

前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得する日時情報取得工程と、

前記日時情報を記録媒体に記録する記録工程と、

前記記録媒体に記録された前記日時情報に基づいて、前記各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する日時判断工程と、

前記日時判断工程における判断結果に基づいて、前記映像データの自動編集を行う編集工程と

を備えて、ることを特徴とする映像編集方法。

[38] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、

前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得する場所情報取得工程と、

前記場所情報を記録媒体に記録する記録工程と、

前記記録媒体に記録された前記場所情報に基づいて、前記各データユニットに対応する映像が撮影された位置、場所、地域または国を判断する場所判断工程と、前記場所判断工程における判断結果に基づいて、前記映像データの自動編集を行う編集工程と

を備えて、ることを特徴とする映像編集方法。

[39] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、前記各データユニットに対応する映像に含まれる撮影対象物および当該撮影対象物の画面中の位置を認識し、前記撮影対象物および当該撮影対象物の位置を示す対象物情報を生成する対象物情報生成工程と、

前記撮影対象物から発せられる音声を認識し、この音声を示す音声認識情報を生成する音声認識情報生成工程と、

前記対象物情報と前記音声認識情報とを対応づけ、これらを第 1記録媒体に記録する記録工程と、

複数の出力チャンネルを有する音声出力工程と、

前記第 1記録媒体に記録された前記対象物情報および前記音声認識情報に基づいて、前記撮影対象物の画面中の位置と当該撮影対象物から発せられる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択する出力チャンネル選択工程と

を備えて、ることを特徴とする映像編集方法。

[40] コンピュータを請求の範囲第 1項に記載の映像編集装置として機能させることを特徴とするコンピュータプログラム。