WO2000045596A1 - Procede de description de donnees et unite de traitement de donnees - Google Patents

Procede de description de donnees et unite de traitement de donnees Download PDF

Info

Publication number
WO2000045596A1
WO2000045596A1 PCT/JP2000/000424 JP0000424W WO0045596A1 WO 2000045596 A1 WO2000045596 A1 WO 2000045596A1 JP 0000424 W JP0000424 W JP 0000424W WO 0045596 A1 WO0045596 A1 WO 0045596A1
Authority
WO
WIPO (PCT)
Prior art keywords
descriptor
data
video
scene
feature
Prior art date
Application number
PCT/JP2000/000424
Other languages
English (en)
French (fr)
Inventor
Toby Walker
Hiroshi Matsubara
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP00901940A priority Critical patent/EP1067786B1/en
Priority to US09/647,265 priority patent/US6996171B1/en
Priority to DE60045699T priority patent/DE60045699D1/de
Publication of WO2000045596A1 publication Critical patent/WO2000045596A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/327Table of contents
    • G11B27/329Table of contents on a disc [VTOC]

Definitions

  • a typical 30-minute television program contains hundreds of shots. Therefore, in the above-described conventional video extraction technology, the user needs to examine a storyboard in which a huge number of shots are arranged, and understand such a storyboard. In such a case, it was necessary to impose a heavy burden on the user.
  • the conventional video extraction technology has a problem that shots in a conversation scene in which two persons are alternately photographed in response to a change in a speaker are often redundant. As described above, the shot has a too low hierarchy for extracting the video structure, and the amount of wasted information is large, and the conventional video structure extraction technology based on such shot extraction requires a user. It was necessary to impose a heavy burden.
  • the video structure extraction technology needs to grasp the video structure at various levels according to the content of the video data, including the level higher than the shot.
  • the process of extracting such a video structure is very complicated, and as a result, a device for extracting such a video structure has a high processing capability and a large amount of computational resources. It needed to be. Therefore, given the cost and labor involved, it was extremely difficult to do this at home.
  • DISCLOSURE OF THE INVENTION The present invention has been made in view of such circumstances, and has realized an advanced method for searching and browsing the contents of video data. It is another object of the present invention to provide a data description method for describing a video structure obtained by automatic content analysis of various video data.
  • a data description method that achieves the above object is a data description method for describing characteristic data representing characteristics of the content of input data, and a descriptor serving as a unit element for defining the description method includes: It has a structure in which attributes as lower elements are defined, and is characterized by being able to include descriptors as attributes.
  • a data processing device for achieving the above object is a data processing device for generating characteristic data representing characteristics of contents of input data, and relates to a descriptor serving as a unit element for defining a description method. It has a structure in which an attribute as a lower element is defined, and has a generating means for generating feature data based on a descriptor that can include a descriptor as an attribute.
  • Such a data processing device generates structured feature data using a set of descriptors having a structure.
  • a data processing apparatus that achieves the above-described object includes a data processing apparatus that uses characteristic data representing characteristics of contents of input data.
  • a descriptor that is a unit that defines a description method and has a structure in which attributes as lower elements are defined, and is generated based on descriptors that can include descriptors as attributes It is characterized by having a restoration means for restoring the characteristics of the contents of the input data using the extracted characteristic data.
  • FIG. 1 is a diagram for explaining the structure of video data applied in the present invention, and is a diagram for explaining the structure of modeled video data.
  • FIG. 2 is a diagram showing an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a configuration of a data transmission / reception processing system shown as FIG.
  • FIG. 3 is a diagram illustrating the description format of the descriptor
  • FIG. 4 is a diagram illustrating the inheritance relationship of the descriptor.
  • FIG. 6 is a view for explaining the description format of the AV segment ⁇ descriptor.
  • FIG. 7 is a view for explaining the description format of an AV abstract.descriptor.
  • FIG. 8 is a view for explaining the description format of the AV prototype descriptor.
  • FIG. 9 is a diagram illustrating a prototype.
  • FIG. 10 is a diagram for explaining the description format of the hierarchal descriptor.
  • FIG. 11 is a view for explaining the description format of the cluster descriptor.
  • FIG. 12 is a diagram illustrating clustering.
  • FIG. 13 is a diagram illustrating a composite.
  • FIG. 14 is a diagram illustrating the description format of a composite 'segment' descriptor.
  • FIG. 15 is a diagram for explaining the description format of the AV graph 'descriptor.
  • Fig. 16A is a diagram showing a series of shots forming a conversation scene
  • Fig. 16B is an AV graph showing a linear structure in the series of shots shown in Fig. 16A
  • FIG. 16C is a diagram showing an AV graph showing a semantic structure in the series of shots shown in FIG. 16A
  • FIG. 17 is a view for explaining the description format of the AV descriptor.
  • FIG. 18 is a view for explaining the description format of the signature descriptor.
  • FIG. 19 is a view for explaining the description format of the temporal signature descriptor.
  • FIG. 20 is a diagram for explaining a description format of the activity level 'descriptor.
  • FIG. 21 is a diagram for explaining the description format of the wait vector descriptor.
  • FIG. 23 is a view for explaining the description format of Synopsys' descriptor.
  • FIG. 24 is a view for explaining the description format of the color descriptor.
  • FIG. 25 is a view for explaining the description format of the color space 'descriptor.
  • FIG. 31 is a view for explaining the description format of the scene 'descriptor.
  • FIG. 32 is a view for explaining the description format of the program 'descriptor.
  • FIG. 9 is a diagram illustrating dynamic feature amount sampling processing.
  • FIG. 37 is a flowchart illustrating a series of steps in grouping segments in the transmission device in the data transmission / reception processing system.
  • FIG. 39 is a diagram illustrating an example of a scene description as feature data.
  • Embodiments to which the present invention is applied include, for example, a transmitter in a broadcasting station or the like that supplies multimedia contents such as video data composed of video data and audio data, and a transmitter such as a digital video or home server.
  • This is a data transmission / reception processing system composed of a receiving device that receives and processes multimedia content from the Internet.
  • This data transmission / reception processing system here handles multimedia data as video data.
  • video data targeted in the present invention is modeled as shown in FIG. 1, and has a hierarchical structure at the level of frames, segments, scenes, and programs.
  • scenes are used to describe the content of video data at a higher level based on meaning.
  • the segments obtained by video segment (shot) detection or audio segment detection can be used, for example, in the segments. They are grouped into meaningful units using features that represent the characteristics of the segment, such as the amount of perceptual activity.
  • the transmitting device 10 includes a storage unit 11 for holding the above-mentioned video data, and a feature that describes the features of the content of the video data from the storage unit 11 and describes the video structure and the like.
  • a generator that generates data A feature data generation unit 12 which is a stage; a multimedia 13 from the storage unit 11; an encoder 13 for encoding content; and an encoder 14 for encoding feature data from the feature data generation unit 12 Is provided.
  • the receiving apparatus 20 is provided with a decoder 21 for decoding the encoded multimedia content from the transmitting apparatus 10 and an encoder 21 from the transmitting apparatus 10.
  • a search engine 23 which is a restoration means for decoding a video structure based on the characteristic data and providing desired contents to a user.
  • the transmission device 10 In such a data transmission / reception processing system, the transmission device 10 generates characteristic data describing the video structure and the like of the video data held in the storage unit 11 and transmits the characteristic data via a transmission path (not shown). Is transmitted to the receiving device 20 together with the video data. Then, the receiving device 20 recovers the video structure of the received video data based on the received characteristic data, and for example, is a data that enables browsing of a series of frames representing each scene described above. Generate a tory board or the like.
  • the apparatus 20 can analyze the video structure of the recovered video data by the search engine 23 and provide desired contents to the user. Therefore, the user can easily and personally access the video data, and can browse easily. It can be performed efficiently.
  • the descriptor of the higher class shown as the above-mentioned super class refers to the original descriptor inherited by the descriptor in a so-called object-oriented representation. That is, the descriptor in the present invention is described by an object-oriented expression. In other words, the lower-level descriptor inherits the function of the higher-level descriptor. As a result, these descriptors can be easily extended to those having advanced functions, and feature data described using these descriptors can be configured more easily.
  • Fig. 4 shows the inheritance relationship of all descriptors in the present invention.
  • the inheritance descriptor in the AV segment, the AV Abtract, the hierarchy, the cluster, and the AV graph is an AV element.
  • a descriptor that gives an attribute to the AV graph is an AV graph edge.
  • AV element 'descriptor provides an abstract element for describing the content of the video and audio stream. That is, in VCS, all other descriptors that describe some aspect of the content of the video / audio stream will inherit this AV element descriptor.
  • AV Element 'Descriptor may refer to actual video data as feature data, or may refer to an abstract or analytical component created to describe the content of video data. .
  • the description format of such an AV segment 'descriptor is as shown in FIG.
  • This AV segment 'descriptor' inherits the higher class AV element 'descriptor.
  • the AV segment 'descriptor has a type of Position, which is a descriptor indicating a lower-level element descriptor or attribute, and a start point indicating the start position of the segment in video data. (Start Point), its type is Position, and an end point (End Point) indicating the end position of the segment in the video data, and its type is a stream reference (Streamref).
  • the position (Position) in the figure is an arbitrary data type that can represent time information. The only necessary condition is that it enables measurement of the duration time, and It is a quantitative scale that gives a common time axis for all streams in the video data. A specific example is the time measured from the start of video data in seconds.
  • Streamref is an arbitrary data type that allows reference to a single stream in a composite stream ⁇ multimedia document.
  • the AV Abstruct Descriptor gives a summary of the contents of the AV element. For example, in a certain AV element, a lower-level AV element that represents it (for example, if this AV element points to a scene, the lower-level AV element is a shot Become. If you select), this may be a summary of the AV element.
  • the composite's segment descriptor is described. Hierarchical classification based on similarity is constructed independently of the temporal order between segments. Therefore, a composite segment is introduced to give a temporal hierarchical structure of video data.
  • the composite expresses a hierarchical structure formed from AV elements arranged on the time axis, for example, as shown in FIG.
  • the description format of the composite segment descriptor is as shown in Figure 14.
  • This composite 'segment ⁇ Descriptor inherits the higher class AV segment' Xi descriptor.
  • the composite 'segment' descriptor has components (Components) whose type is a set of AV segments (AVSegment) as features indicating descriptors or attributes of lower elements. Note that this composite 'segment descriptor' is a special kind of AV segment 'descriptor, and it is possible to express how segmentation is repeatedly generated by introducing the above-mentioned components.
  • a member (Members) whose weights are shown in a one-to-one relationship by weights, its type is a string, and its type (Kind) indicates the type of signature. Having. Note that comparison of signatures is valid only when their types are equal.
  • This activity level 'descriptor' indicates the degree of activity of the AV object in the AV element. Note that the method of generating the activity level 'descriptor' depends on the application.
  • This concept descriptor is a concept that has a descriptor indicating the descriptor or attribute of a lower element, and a node whose type indicates a reference to data described in RDF or XML. ).
  • Colors and its type is a weight vector (WeightVector), a weight indicating the weight of each color (Colors) to the signature
  • the video data is constructed as a four-layer hierarchical structure. That is, here, frames (audio frames and video frames), segments, scenes, and programs.
  • the first is the shot descriptor.
  • Shot ⁇ The descriptor description format is as shown in Figure 30. This The shot.descriptor inherits the ancestor class browsing node's descriptor.
  • the shot 'descriptor is an activity level (ActivityLevel) as a feature indicating the descriptor or attribute of a lower element, and indicates the activity level of the shot.
  • ActivityLevel activity level
  • the abstract will allow the following short summaries to be given to the shots.
  • the first is a content summary using temporal 'signatures, which include audio frames, video frames, and AV prototypes.
  • the second is audio frames, video frames. This is a content summary using Signature.
  • This shot's descriptor represents the lowest level of the audio visual unit, that is, the shot.
  • This scene 'descriptor describes a scene that is a collection of semantically related shots.
  • a hierarchical structure can be constructed for all shots in video data that are classified according to their similarities. If it is desired to display information at a certain level of detail or higher based on this, the hierarchical structure may be divided into upper and lower levels at the specified level of detail, and only the structure above that level may be used. Furthermore, in the group of AV elements in each node at the division detail level, members representing each group are selected from each group and sequentially displayed, thereby displaying the program at the detail level. An overview can be given.
  • the transmission device 10 automatically extracts the video structure by measuring the similarity between the segments using the feature amounts of the video segment and the audio segment in the video data, and combining these segments into a scene. . At this time, since similar segments that are repeated closely in time are almost part of the same scene, the transmitting apparatus 10 detects such segments and performs grouping by detecting such segments. Detect scenes. Such a transmitting device 10 detects a scene by performing a series of processes as schematically shown in FIG.
  • Video segmentation is performed by such a method.
  • Such a video division method is well known in the art, and it is assumed that the transmitting device 10 can apply any video division method.
  • the transmitting device 10 Scenes can be detected from the data. Therefore, by using this result, the user can summarize the contents of the video data and quickly access a point of interest in the video data.
  • a feature is an attribute of a segment that represents the characteristics of the segment and supplies data for measuring the similarity between different segments.
  • the transmitting device 10 calculates the feature amount of each segment, and Represents the characteristics of
  • the feature values considered effective when used in the transmitting device 10 include, for example, the following video feature values. , Audio features, and video and audio common features.
  • a necessary condition of these feature amounts that can be applied in the transmitting device 10 is that the dissimilarity can be measured.
  • the transmitting apparatus 10 may simultaneously perform the feature extraction and the above-described video division for efficiency. The features described below enable such processing.
  • the transmitting apparatus 10 can also use pitches such as an average pitch and a maximum pitch, and audio levels such as average loudness / maximum loudness as effective audio feature amounts representing an audio segment.
  • Still another feature quantity is a video-audio common feature quantity. This is neither a video feature nor an audio feature, but gives useful information to the transmitting device 10 to represent the feature of a segment in a scene.
  • the transmitting device 10 uses the video / audio common feature amount as Use segment length and activity.
  • the transmitting device 10 can represent a dynamic feature by extracting a plurality of static feature amounts and using the plurality of static feature amounts.
  • the transmitting device 10 measures the similarity of the segments using the dissimilarity metric which is a function for calculating a real value for measuring the degree of dissimilarity between the two feature amounts.
  • the dissimilarity metric is a function for calculating a real value for measuring the degree of dissimilarity between the two feature amounts.
  • a small value indicates that the two features are similar, and a large value indicates dissimilarity.
  • feature quantity two segments S about F the dissimilarity the function that computes the dissimilarity of S 2 metric d F (S:, S 2) is defined as.
  • S:, S 2 Such a function defines the relationship given by equation (2) below. Need to be satisfied
  • transmitting apparatus 10 calculates the dissimilarity metric using the feature amounts extracted in step S2 in FIG. 33, and measures the similarity between the segments. be able to.
  • step S15 the transmitting apparatus 10 calculates the dissimilarity metric d c and detects the two most similar clusters from the N clusters. However, here, since the variable t is 1, the transmitting apparatus 10 calculates the dissimilarity metric d c between adjacent clusters and detects the most similar cluster pair from among them.
  • step S18 the transmitting device 10 removes the cluster C i from the set of clusters. If the value of C ⁇ 1 at the start changes by combining the two clusters C 1 and C i, the transmitting apparatus 10 determines the elements of the set of clusters based on the start Cta. It is average again.
  • step S16 the transmitting device 10 determines whether or not the dissimilarity values d and i are greater than the dissimilarity threshold ⁇ S l ra .
  • the dissimilarity value d is smaller than the dissimilarity threshold ⁇ 5 im .
  • the transmitting apparatus 10 may set the dissimilarity threshold ⁇ sira by the user or may automatically determine the threshold. It is. However, when a fixed value is used as the dissimilarity threshold ⁇ S lra . The optimal value depends on the content of the video data. For example, in the case of video data having a variety of video contents, the dissimilarity threshold S sim needs to be set to a high value. On the other hand, in the case of video data having video contents with little change, the dissimilarity threshold 5 Sim needs to be set to a low value.
  • the dissimilarity threshold ⁇ s im the number of detected scenes is small, and when the dissimilarity threshold ⁇ is low, the number of detected scenes is large.
  • the transmitting apparatus 10 can automatically determine the effective dissimilarity threshold ⁇ im by the following method.
  • each result of detecting a scene for each feature amount is referred to as a scene layer.
  • the transmitting apparatus 10 detects the scene layer based on the respective feature values and the scene layer and the segment length of the color histogram. And a silicon layer of Then, the transmitting apparatus 10 can combine these scene layers into a single scene structure.
  • a scene layer obtained based on information from the video area and the audio area can be combined into a single scene structure in the same manner as in the case of combining structures based on collection.
  • Shall have the F k, corresponding to each feature amount F i, the dissimilarity metric d ⁇ , the dissimilarity threshold [delta] ⁇ , it is assumed that there is a time threshold T '.
  • the fifth line in the figure indicates the beginning of the synopsis descriptor, and specifies the key frame (KEY_FRAME) for the user to browse.
  • the first, second, and third synopsis key frames are described as KEY-FRAME1, KEY-FRAME2, and KEY-FRAME3 on the seventh, eighth, and ninth lines in FIG. specify.
  • KEY-FRAME 1, KEY-FRAME 2, and KEY-FRAME 3 are not specified as to which frame they are, but actually, it is necessary to specify somewhere. Bite.
  • the scene description indicates the beginning of the signature and descriptor on the 13th line in the figure, and specifies a part of the scene to be used for clustering and the like. Here, it is declared that it is indicated by “shot” signature (SHOT-SIGNATURE). Further, the scene description indicates the start of the designation of the members of the signature on the 14th line in FIG.
  • the scene description declares, on line 40 in the figure, that some AV Hierarchy 'descriptors indicating the index of this scene (index) are described below.
  • the scene description indicates the start of a hierarchy and a descriptor in the fourth line in the same figure, and declares that the hierarchy is indicated by a shot 'index (SHOT-INDEX).
  • the scene description indicates the beginning of a cluster descriptor on the second and fourth lines in the figure, and the first cluster is described below, and this cluster has an identifier of cluster 1.
  • the scene description indicates the prototype and the descriptor on the 47th line in the figure. Here, it is shown that the identifier of the portion representing the content of the cluster is shot4.
  • the user does not need to know the structure of the content of the video data in advance, and can easily and individually access the video data, and can browse efficiently.

Description

明細書 データ記述方法及びデータ処理装置 技術分野 本発明は、 入力データの内容の特徴を表す特徴データを記述する ためのデータ記述方法に関する。 また、 本発明は、 この特徴データ を生成するデータ処理装置に関する。 さらに、 本発明は、 この特徴 データを利用するデータ処理装置に関する。 背景技術 例えばビデオデータに録画されたテレビ番組といった大量の異な る映像データにより構成される映像アプリケ一シヨ ンの中から、 興 味のある部分等の所望の部分を探して再生したい場合がある。
このよ うに、 所望の映像内容を抽出するための一般的な技術と し ては、 アプリケーションの主要場面を描いた一連の映像を並べて作 成されたパネルであるス ト一リーボ一ドがある。 このス トーリーボ —ドは、 ビデオデータをいわゆるショ ッ トに分解し、 各ショ ッ トに おいて代表される映像を表示したものである。 このような映像抽出 技術は、 そのほとんどが、 例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital v ideo, J. of Visual Communication and Image Representation 7: 28-4, 1996" に記載されているように、 ビデオ構造からショ ッ トを 自動的に検出して抽出するものである。
ところで、 例えば代表的な 3 0分のテレビ番組中には、 数百もの ショ ッ トが含まれている。 そのため、 上述した従来の映像抽出技術 においては、 ユーザは、 抽出された膨大な数のショ ッ トを並べたス ト一リーボ一ドを調べる必要があり、 このようなス トーリ一ボード を理解する際、 ユーザに大きな負担を強いる必要があった。 また、 従来の映像抽出技術においては、 例えば話し手の変化に応じて交互 に 2者を撮影した会話場面におけるショ ッ トは、 冗長のものが多い という問題があった。 このように、 ショ ッ トは、 ビデオ構造を抽出 する対象と しては階層が低すぎて無駄な情報量が多く、 このような ショ ッ ト抽出に基づく従来のビデオ構造抽出技術は、 ユーザに大き な負担を強いる必要があった。
すなわち、 ユーザにとっての利便を考盧すれば、 ビデオ構造抽出 技術は、 ショ ッ トより上位のレベルを含めて、 ビデオデータの内容 に応じた様々なレベルにおけるビデオ構造を把握する必要がある。 しかしながら、 このようなビデオ構造を抽出する処理は、 非常に複 雑であり、 その結果、 このようなビデオ構造を抽出するための装置 は、 高度な処理能力ゃ大容量の計算資源を有するものである必要が あった。 したがって、 要するコス トや労力を踏まえると、 家庭にお いてこのような処理を行うことは、 非常に困難であった。 発明の開示 本発明は、 このような実情に鑑みてなされたものであり、 ビデオ データの内容を検索してブラウジングするための高度な方法を実現 し、 種々のビデオデータの自動内容解析により得られたビデオ構造 を記述するためのデータ記述方法を提供することを目的とするもの である。 また、 本発明は、 ビデオデータの自動內容解析に基づいて. このようなデータを生成するデータ処理装置を提供することを目的 とするものである。 さらに、 本発明は、 このようなデータを利用し て、 特に家庭等において、 ビデオ ' コンテンツに容易で且つ個人的 なアクセスを可能とするデータ処理装置を提供することを目的とす るものである。
上述した目的を達成する本発明にかかるデータ記述方法は、 入力 データの内容の特徴を表す特徴データを記述するためのデータ記述 方法であって、 記述方法を定義する単位要素となる記述子は、 下位 要素と しての属性が定義される構造を有し、 属性と して記述子を含 み得ることを特徴と している。
このような本発明にかかるデータ記述方法は、 構造を有する記述 子の集合を用いて、 特徴データの構造化した記述を可能とする。 また、 上述した目的を達成する本発明にかかるデータ処理装置は. 入力データの内容の特徴を表す特徴データを生成するデータ処理装 置であって、 記述方法を定義する単位要素となる記述子に関し、 下 位要素と しての属性が定義される構造を有し、 属性と して記述子を 含み得る記述子に基づいて特徴データを生成する生成手段を備える ことを特徴と している。
このような本発明にかかるデータ処理装置は、 構造を有する記述 子の集合を用いて、 構造化された特徴データを生成する。
さらに、 上述した目的を達成する本発明にかかるデータ処理装置 は、 入力データの内容の特徴を表す特徴データを利用するデータ処 理装置であって、 記述方法を定義する単位要素となる記述子に関し, 下位要素と しての属性が定義される構造を有し、 属性と して記述子 を含み得る記述子に基づいて生成された特徴データを利用して、 入 力データの内容の特徴を復元する復元手段を備えることを特徴と し ている。
このような本発明にかかるデータ処理装置は、 特徴データに基づ いて、 入力データの内容の特徴を復元する。 図面の簡単な説明 図 1は、 本発明において適用するビデオデータの構成を説明する 図であって、 モデル化したビデオデータの構造を説明する図である < 図 2は、 本発明の実施の形態と して示すデータ送受信処理システ ムの構成を説明するプロック図である。
図 3は、 ディスク リプタの記述フォーマッ トを説明する図である ( 図 4は、 ディスク リプタの継承関係を説明する図である。
図 5は、 A Vエレメント ' ディスクリプタの記述フォーマッ トを 説明する図である。
図 6は、 A Vセグメント ■ ディスク リプタの記述フォーマツ トを 説明する図である。
図 7は、 A Vアブス トラク ト . ディスク リプタの記述フォーマッ トを説明する図である。
図 8は、 A Vプロ トタイプ · ディスク リプタの記述フォーマッ ト を説明する図である。
図 9は、 プロ トタイプを説明する図である。 図 1 0は、 ハイアラキ ' ディスク リプタの記述フォーマッ トを説 明する図である。
図 1 1は、 クラスタ ' ディスク リプタの記述フォーマッ トを説明 する図である。
図 1 2は、 クラスタリングを説明する図である。
図 1 3は、 コンポジッ ドを説明する図である。
図 1 4は、 コンポジッ ド 'セグメント ' ディスク リプタの記述フ ォーマツ トを説明する図である。
図 1 5は、 A Vグラフ ' ディスク リプタの記述フォーマツ トを説 明する図である。
図 1 6 Aは、 会話場面を形成する一連のシヨ ッ トを示す図であり、 図 1 6 Bは、 図 1 6 Aに示す一連のシヨ ッ トにおける直線的構造を 示す A Vグラフを示す図であり、 図 1 6 Cは、 図 1 6 Aに示す一連 のショ ッ トにおける意味的構造を示す A Vグラフを示す図である。 図 1 7は、 A Vダラフェツジ ' ディスク リプタの記述フォーマッ トを説明する図である。
図 1 8は、 シグネチヤ ' ディスク リプタの記述フォーマツ トを説 明する図である。
図 1 9は、 テンポラル · シグネチヤ · ディスク リプタの記述フォ —マッ トを説明する図である。
図 2 0は、 アクティ ビティ · レベル ' ディスク リプタの記述フォ —マツ トを説明する図である。
図 2 1は、 ウェイ ト ■べク トノレ ' ディスク リプタの記述フォーマ ッ トを説明する図である。
図 2 2は、 コンセプト ' ディスク リプタの記述フォ一マッ トを説 明する図である。
図 2 3は、 シノプシス 'ディスク リプタの記述フォーマツ トを説 明する図である。
図 2 4は、 カラー ' ディスク リプタの記述フォーマッ トを説明す る図である。
図 2 5は、 カラー · スペース ' ディスク リプタの記述フォーマツ トを説明する図である。
図 2 6は、 カラー ' シグネチヤ ' ディスク リプタの記述フォーマ ッ トを説明する図である。
図 2 7は、 音声フレーム ' ディスク リプタの記述フォーマッ トを 説明する図である。
図 2 8は、 映像フレーム ·ディスク リプタの記述フォーマツ トを 説明する図である。
図 2 9は、 ブラウジング ' ノード ' ディスク リプタの記述フォー マッ トを説明する図である。
図 3 0は、 ショ ッ ト ■ ディスク リプタの記述フォ一マッ トを説明 する図である。
図 3 1は、 シーン ' ディスク リプタの記述フォーマッ トを説明す る図である。
図 3 2は、 プログラム ' ディスク リプタの記述フォ一マッ トを説 明する図である。
図 3 3は、 データ送受信処理システムにおける送信装置において. セグメントをグループ化してシーンを検出する際の一連の工程を説 明するフローチヤ一トである。
図 3 4は、 データ送受信処理システムにおける送信装置において. 動的特徴量サンプリ ング処理を説明する図である。
図 3 5は、 非類似性閾値を説明する図である。
図 3 6は、 時間閾値を説明する図である。
図 3 7は、 データ送受信処理システムにおける送信装置において, セグメントをグループ化する際の一連の工程を説明するフローチヤ ートである。
図 3 8は、 シーンを記述するディスク リプシヨン ' スキームのー 例を説明する図である。
図 3 9は、 特徴データと してのシーン記述の一例を説明する図で ある。 発明を実施するための最良の形態 以下、 本発明を適用した具体的な実施の形態について図面を参照 しながら詳細に説明する。
本発明を適用した実施の形態は、 例えば、 映像データと音声デー タとからなるビデオデータといったマルチメディァ · コンテンツ等 を供給する放送局等における送信装置と、 例えばデイジタルビデオ やホーム ■ サーバといった送信装置からのマルチメディァ · コンテ ンッ等を受信して処理する受信装置とにより構成されるデータ送受 信処理システムである。 このデータ送受信処理システムは、 ここで は、 マルチメディァ ■ コンテンツと してビデオデータを扱う ものと する。 データ送受信処理システムの具体的な説明を行う前に、 ここ ではまず本発明において対象とするマルチメディア ■ コンテンツで あるビデオデータに関する説明を行う。 本発明において対象とするビデオデータについては、 図 1に示す ようにモデル化し、 フレーム、 セグメント、 シーン、 プログラムと いったレベルに階層化された構造を有するものとする。 すなわち、 ビデオデータは、 最下位層において、 一連のフレームにより構成さ れる。 また、 ビデオデータは、 フレームの 1つ上の階層として、 連 続するフレームのひと続きから形成されるセグメン トにより構成さ れる。 さらに、 ビデオデータは、 セグメントのさらに 1つ上の階層 と して、 このセグメン トを意味のある関連に基づきまとめて形成さ れるシーンにより構成される。 さらにまた、 ビデオデータは、 ここ では図示しないが、 関連するシーンをまとめて形成されるプロダラ ムといったさらに上の階層をも必要に応じて有するものとする。 このビデオデータは、 一般に、 映像及び音声の両方の情報を含む c すなわち、 このビデオデータにおいてフレームには、 単一の静止画 像である映像フレームと、 一般に数 H "〜数百ミ リセカンド Z長とい つた短時間においてサンプルされた音声情報を表す音声フレームと が含まれる。
また、 セグメン トは、 単一のカメラにより連続的に撮影された映 像フレームのひと続きから構成され、 一般にはショ ッ トと呼ばれる c そして、 セグメントには、 映像セグメン卜と音声セグメントとが含 まれ、 ビデオ構造における基本単位となる。 これらのセグメントの 中で、 特に音声セグメントについては、 多くの定義が可能であり、 例と して次に示すようなものが考えられる。 まず、 音声セグメント は、 一般によく知られている方法により検出されたビデオデータ中 の無音期間により境界を定められて形成される場合がある。 また、 音声セクメン卜は、 D. Kimber and L. Wi l cox, Acoust i c Segmen tation for Audio Browsers, Xerox Pare Technical Report" に記 載されているように、 例えば、 音声、 音楽、 ノイズ、 無音等のよう に少数のカテゴリに分類された音声フレームのひと続きから形成さ れる場合もある。 さらに、 音声セグメントは、 "S. Pfeiffer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, P roceeding of ACM Multimedia 96, Nov. 1996, pp21-30" に記載さ れているように、 2枚の連続する音声フレーム間の或る特徴におけ る大きな変化を音声力ッ ト点と して検出し、 この音声力ッ ト点に基 づいて決定される場合もある。
さらに、 シーンは、 ビデオデータの内容を意味に基づく より高い レベルで記述するために、 映像セグメ ン ト (ショ ッ ト) 検出或いは 音声セグメ ン ト検出により得られたセグメントを、 例えばセグメン ト内の知覚的ァクティ ビティ量といったセグメントの特徴を表す特 徴量を用いて意味のあるまとまりにグループ化したものである。
さらにまた、 プログラムは、 意味的に関連するシーンの並びを表 すものである。 具体例と しては、 映画、 一般のテレビ番組、 ニュー ス番組、 スポーツ中継等がある。
本発明を適用した実施の形態と して図 2に示すデータ送受信処理 システムは、 マルチメディァ · コンテンッと しての上述したビデオ データ等の各種データを供給する送信装置 1 0と、 この送信装置 1 0からビデオデータ等の各種データを受信する受信装置 2 0 とを備 える。
送信装置 1 0は、 同図に示すように、 上述したビデオデータを保 持する記憶部 1 1 と、 この記憶部 1 1からのビデオデータの内容の 特徴を表してビデオ構造等を記述した特徴データを生成する生成手 段である特徴データ生成部 1 2と、 記憶部 1 1からのマルチメディ ァ . コンテンツをエンコードするエンコーダ 1 3 と、 特徴データ生 成部 1 2からの特徴データをェンコ一ドするエンコーダ 1 4とを備 える。
また、 受信装置 2 0は、 同図に示すよ うに、 送信装置 1 0からの ェンコ一ドされたマルチメディァ · コンテンツをデコードするデコ —ダ 2 1 と、 送信装置 1 0からのェンコ一ドされた特徴データをデ コー ドするデコーダ 2 2と、 特徴データに基づいてビデオ構造を解 折し、 所望の内容をユーザに提供する復元手段である検索エンジン 2 3 とを備える。
このようなデータ送受信処理システムにおいて、 送信装置 1 0は, 記憶部 1 1に保持されたビデオデータのビデオ構造等を記述する特 徴データを生成し、 図示しない伝送路を介して、 この特徴データを ビデオデータとともに受信装置 2 0へ送信する。 そして、 受信装置 2 0は、 受信した特徴データに基づき、 受信したビデオデータのビ デォ構造を回復し、 例えば、 上述した各シーンを代表する一連のフ レームを閲覧可能と したデータであるス トーリーボ一ド等を生成す る。
このことにより、 データ送受信処理システムにおいては、 例えば、 ユーザが受信装置 2 0における検索エンジン 2 3を介して、 ビデオ データにおける所望の内容を見たいという要求を受信装置 2 0に与 えると、 受信装置 2 0は、 検索エンジン 2 3によって、 回復された ビデオデータのビデオ構造を解析し、 所望の内容をユーザに提供す ることができる。 したがって、 ユーザは、 ビデオデータに対して容 易で且つ個人的にアクセスすることが可能となり、 ブラウジングを 効率よく行うことができる。
このよ うに、 ビデオデータの内容から抽出された低レベルの特徴 を用いて高レベルのビデオ構造を抽出するための特徴データの記述 内容について詳細に説明する。
まず、 ビデオデータのビデオ構造等を記述するのに必要となる特 徴項目をディスク リプタ (Descriptor) 、 さらに、 これらのデイス ク リプタの構造化された集合体をディスク リプシヨン ' スキーム
(Description Scheme) と称することとする。 本発明において、 こ のディスク リプショ ン · スキームは、 ビデオデータにおける映像と 音声との両方の特徴に基づいてビデオデータの基本的な構造を記述 するためのビデオ ' コア ' ディスク リプション · スキーム (Video Core Description Scheme; 以下、 V C Sと略記する。 ) と、 この V C Sを、 ビデオ構造を視覚化するのに必要なディスク リプタにより 拡張し、 特にビデオデータのブラゥジングでの使用を目的と したビ デォ ■ ブラウジング ■ ディスク リプショ ン ■ スキーム (Video Brow sing Description Scheme; 以下、 V B Sと略記する。 ) と力 らなる,
V C Sは、 ビデオデータにおける様々なビデオ構造を捉えるため に使用されるものであって、 ビデオデータにおける映像セグメント 及び音声セグメントの構造とそれらの相互関係との記述を可能とす るものである。 V C Sでは、 ビデオデータにおける互いに類似する セグメントをまとめて形成された類似セグメント構造と、 時間的に 連続したセグメントの集合である時間セグメント構造と、 セグメン ト間の論理的関係に基づく論理セグメン ト構造という 3つの異なる 構造を記述するためのディスク リブシヨン ' スキームが、 単一のデ イスク リプシヨン ' スキームと して調和的に統合されている。 また、 V C Sは、 ビデオデータの低レベルから意味的構造までの様々なレ ベルにおけるビデオ構造の記述を可能とする。 すなわち、 V C Sは、 構造化されたビデオデータにおける様々な詳細レベルにおいて、 ビ デォデータに関する様々な情報にアクセスすることを可能とする。 一方、 V B Sは、 ビデオデータを論理的に再構成して、 視聴者が その内容を理解し、 興味がある部分を見出すことを可能とするもの である。 また、 V B Sは、 フレームのような低レベルのみではなく、 シーンのような高レベルについても、 類似性に基づく検索を可能と するものである。
本発明におけるディスク リプタは、 複数の属性を有する構造体で あって、 下位要素と して自らを含めた他のディスク リプタ及び /又 は特定の属性が定義されることにより構成される。 以下、 本発明に おけるディスク リプタを、 図 3に示すような記述フォ一マツ トにし たがって説明する。 同図に示す記述フォーマッ トにおいて、 デイス ク リプタ (Des cr iptor) は、 当該ディスク リプタ名を表し、 スーパ —ク ラス (Superc l as s ) は、 当該ディスク リプタの上位クラスのデ イスタ リプタ名を表し、 フィーチャ (Feature) は、 下位要素のディ スク リプタ及び/又は属性を表し、 フィーチャタイプ (Feature Ty pe) は、 フィ一チヤのデータ型を表すこととなる。 なお、 必要に応 じて、 実例値 (Examp l e Va lue) と して、 下位要素のフィーチャの数 値例を与える。
ここで、 上述したスーパークラスと して示される上位クラスのデ イスク リプタとは、 いわゆるオブジェク ト指向表現において、 当該 ディスク リプタが継承する元のディスク リプタを指す。 すなわち、 本発明におけるディスク リプタは、 オブジェク ト指向表現により記 述され、 下位のディスク リプタは、 その上位となるディスク リプタ の機能を継承することとする。 このことにより、 これらのディスク リプタは、 高度な機能を有するものへと容易に拡張することができ、 このディスク リプタを用いて記述される特徴データを、 より簡便に 構成することができる。 本発明における全てのディスク リプタの継 承関係を図 4に示す。
本発明における全てのディスク リプタは、 同図に示すように、 V C S或いはその拡張ディスク リブシヨン ■ スキームである V B Sの いずれかに属し、 全体と して 1つの体系を形成する。
すなわち、 V C Sに属するディスク リプタと しては、 オーディオ ' ビジユアノレ ' エレメ ン ト (Audio Visual Element; 以下、 AVェ レメ ン ト又は AV E l e m e n t と略記する。 ) と、 オーディォ - ビジュアル ' セグメント (Audio Visual Segment ; 以下、 AVセグ メ ン ト又は A V S e g m e n t と略記する。 ) と、 オーディォ · ビ ジュアル . ァブス トラタ ト (Audio Visual Abstract ; 以下、 A Vァ ブス トラク ト又は AVA b s t r a c t と略記する。 ) と、 オーデ ィォ · ビジユアノレ■ プロ トタイプ (Audio Visual Prototype; 以下、 AVプロ トタイプ又は A V P r o t o t y p e と略記する。 ) と、 ハイアラキ (Hierarchy) と、 クラスタ (Cluster) と、 コンポジッ ド ' セグメント (Composite Segment) と、 オーディオ · ビジユアノレ ' グラフ (Audio Visual Graph; 以下、 AVグラフ又は AVG r a p h と略記する。 ) と、 オーディオ ' ビジュアル ' グラフエッジ (Audio Visual Graph Edge; 以下、 A Vグラフエツジ又は A V G r a p h E d g e と略記する。 ) と、 シグネチヤ (Signature) と、 テ ンポラル · シグネチヤ (Temporal Signature) と、 アクティ ビティ • レべノレ (Activity Level) と、 ウェイ ト ·ベタ トノレ (Weight Vec tor) と、 コンセプト (Concept) とがあり、 コンセプトが参照可能 な情報と して XML, RD Fがある。
一方、 V B Sに属するディスク リプタとしては、 シノプシス (Sy nopsis) と、 カラー (Color) と、 カフ一 ' ス^ ス (Color Spac e) と、 カラー - シグネチヤ (Color Signature) と、 才ーディ才 ' フレーム (Audio Frame; 以下、 音声フレームと略記する。 ) と、 ビ ジュアル . フレーム (Visual Frame; 以下、 映像フレームと略記す る。 ) と、 ブラウジング ' ノード (Browsing Node) と、 ショ ッ ト (Shot) と、 シーン (Scene) と、 プログラム (Program) と力 ある。 ここで、 同図中において、 △が付随しているディスクリプタは、 ディスク リプタ間の継承関係における上位クラスのディスク リプタ であることを示し、 ◊が付随しているディスク リプタは、 それと接 続しているディスク リプタに属性を与えるディスクリプタであるこ とを示している。 すなわち、 ディスク リプタ間の関係において、 A Vセグメントと、 A Vァブス トラク トと、 ハイァラキと、 クラスタ と、 A Vグラフとにおける継承元のディスク リプタは、 AVエレメ ントである。 また、 ディスク リプタ間の関係において、 AVグラフ に属性を与えるディスク リプタは、 AVグラフエッジである。 同様 に、 他のディスク リプタについても、 継承元のディスク リプタと、 属性を表すディスク リプタとを示すことができる。
以下、 これらのディスクリプタについて順次説明していく。 なお、 以下の議論の中では、 ビデオデータは、 1つの映像ス トリームと 1 つの音声ス トリームとが存在するものと して説明を進めるが、 本発 明におけるディスク リプション · スキームは、 ビデオデータ中に任 意の数の映像ス トリームと音声ス トリームとが含まれているような 一般的な場合も取り扱うことができるものである。
まず、 V C Sに属するディスク リプタと して、 A Vエレメント ' ディスク リプタについて説明する。 この A Vエレメ ン ト ' ディスク リプタは、 映像音声ス トリームの内容解析を行うための論理ュニッ トを表す抽象的なディスク リプタである。 ここで、 A Vエレメ ン ト の定義は、 映像フレームのような基本的な解析ユニッ ト、 ショ ッ ト やシーンのような高レベルの構造ユニッ ト、 若しくは、 或る俳優が 登場する全てのフレーム等といった分類法に基づくユニッ ト等、 映 像音声ス トリ一ム内における任意のュニッ トを表すものとする。
このような A Vエレメント ' ディスク リプタの記述フォーマツ ト は、 図 5に示すようなものになる。 この A Vエレメント ' ディスク リプタは、 映像音声ス トリームの内容を記述するための抽象的なェ レメントを与える。 すなわち、 V C Sにおいて、 映像音声ス トリー ムの内容の何らかの側面を記述する他の全てのディスクリプタは、 この A Vエレメント · ディスク リプタを継承することとなる。 A V エレメント ' ディスク リプタは、 特徴データと して、 実際のビデオ データを指してもよく、 或いは、 ビデオデータの内容を記述するた めに作られた抽象的或いは解析的構成物を指してもよい。
つぎに、 A Vセグメント ·ディスク リプタについて説明する。 V C Sにおいて最も重要なディスク リプタは、 この A Vセグメント - ディスク リプタである。 ここで、 A Vセグメントとは、 少なく とも 1つ以上の映像音声ス トリームを含むビデオス トリームを部分的に 区切ったもの、 すなわち、 セグメントである。 このセグメントは、 ビデオデータに付随された統一的な時間情報を用いて指定してもよ く、 または、 ビデオデータに統一的に付けられたフレーム番号等を 用いて指定してもよい。
このような AVセグメント ' ディスク リプタの記述フォーマツ ト は、 図 6に示すようなものになる。 この A Vセグメント ' ディスク リプタは、 上位クラスである AVエレメ ン ト ' ディスク リプタを継 承している。 また、 AVセグメント ' ディスク リプタは、 下位要素 のディスク リプタ或いは属性を示すフィ一チヤと して、 その型がポ ジシヨン (Position) であり、 ビデオデータ内での当該セグメント の開始位置を示すスタートポイント (Start Point) と、 その型がボ ジシヨン (Position) であり、 ビデオデータ内での当該セグメント の終了位置を示すエン ドポイン ト (End Point) と、 その型がス ト リ ーム参照 (Streamref) の集合であり、 対象ビデオデータへの参照を 示すス ト リームズ (Streams) と、 その型が A Vアブス トラク ト (A VAbstract) の集合であり、 当該セグメ ン トの映像音声上の内容要約 を示し、 実例値と してキ一フレーム (Key frame) が挙げられるアブ ス トラク ト (Abstract) と、 その型がコンセプト (Concept) の集合 であり、 当該セグメントの概念的な内容を与える 0個以上の注釈を 示し、 実例値と して当該セグメントの R D Fに基づく構造記述デー タへの参照が挙げられるコンセプト (Concept) とを有する。
AVセグメントは、 それ自体と しては、 それが扱うセグメントの 詳細レベルに制限はない。 すなわち、 A Vセグメン トは、 例えば、 単一の映像フレームのような低レベルセグメントから、 テレビ番組 中におけるコマ一シャノレのような高レベルセグメン トまで、 様々な 詳細レベルのセグメント表すのに用いることができる。
ここで、 映像ス ト リーム及び音声ス ト リ一ムにおける最小の A V セグメントを、 それぞれ、 映像フレーム及び音声フレームと称する 映像ス ト リームにおいて、 映像フレームとは、 上述したように、 単 一の静止画像を示す。 一方、 音声ス ト リームにおいて、 音声フレー ムとは、 単一の音声サンプリング値ではなく、 解析を可能とするに 足る音声サンプリング値の集合である。 V C Sにおいては、 映像フ レーム及び音声フレームは、 A Vセグメントの最も基本的なノード と して取り扱われる。 A Vセグメントのその他の例と しては、 ショ ッ トゃシーン等がある。
なお、 同図におけるポジショ ン (Pos i t i on) は、 時間情報を表現 することが可能である任意のデータ型であり、 その唯一の必要条件 は、 それが継続時間の計測を可能と し、 且つビデオデータ内の全て のス トリームについて共通の時間軸を与える数量スケールであるこ とである。 具体例と しては、 ビデオデータの開始からの時間を秒単 位で計測したものが挙げられる。 また、 Streamrefは、 複合ス トリー ム ■ マルチメディァ文書内の単一ス トリームへの参照を可能とする 任意のデータ型である。
つぎに、 A Vアブス トラク ト · ディスクリプタについて説明する この A Vァブス トラク ト ' ディスク リプタの記述フォーマッ トは、 図 7に示すようなものになる。 この A Vァブス トラク ト ■ ディスク リプタは、 上位クラスである A Vエレメ ン ト ' ディスク リプタを継 承している。
A Vァブス トラク ト · ディスク リプタは、 A Vエレメ ン トの内容 の要約を与えるものである。 例えば、 或る A Vエレメ ン トにおいて、 それを代表するような下位の A Vエレメ ン ト (例えばこの A Vエレ メントがシーンを指すならば、 下位の A Vエレメントはシヨ ッ トと なる。 ) を選択すれば、 これを当該 A Vエレメ ン トの要約となる場 合もある。
ところで、 A Vアブス トラク ト · ディスク リプタで示される要約 とは、 それが代表するところの AVエレメン トの内容を代替して表 現するものである。 VC Sにおいて、 この A Vアブス トラク ト ' デ イスタ リプタの最も重要な使用方法は、 類似 AVエレメントの検索 等において、 その要約を比較するだけで、 目的の AVエレメントの 同定を可能とすることである。 すなわち、 この要約とは、 AVエレ メ ン トの検出、 比較、 検索等を行うためのキーと しての役割を果た すものである。
つぎに、 AVプロ トタイプ ' ディスク リプタについて説明する。 この AVプロ トタイプ . ディスク リプタの記述フォーマツ トは、 図 8に示すようなものになる。 この AVプロ トタイプ · ディスク リプ タは、 上位クラスである A Vァブス トラク ト ' ディスクリプタを継 承している。 また、 AVプロ トタイプ ' ディスク リプタは、 下位要 素のディスク リプタ或いは属性を示すフィ一チヤと して、 その型が 文字列 (String) であり、 この AVプロ トタイプ . ディスク リプタ が示す A Vエレメ ン トの種類を示し、 実例値と してショ ッ ト (Sho t) 、 シーン (Scene) 若しくは映像フレーム (VisualFrame) が挙げ られる種別 (Kind) と、 その他必要に応じて、 その型が任意のディ スク リプタである複数の特徴 (Featurel, · · · , Featuren) と、 その型が重みべク トル (Weight Vector) であり、 当該 A Vプロ トタ イブ · ディスク リプタが下位要素と して持つ特徴の重要度の重み付 けを示すウェイ ト (Weights) とを有する。
AVプロ トタイプは、 対象とする AVエレメントの概略を与える。 V C Sにおいては、 この A Vプロ トタイプによって、 或る型の A V エレメントの概略を、 ディスク リプタ値の集合と して記述すること ができる。 別の見方をすれば、 或るプロ トタイプ ' エレメ ン トは、 それが示す A Vエレメントに含まれる任意数の具体的要素或いはそ の解析物によって、 その A Vエレメントの概略を与えるものである c ここで、 解析物の例と して、 図 9に示すように、 例えば或る単一 のショ ッ トにおいて、 そのショ ッ トが含む全ての画像を考える。 こ の画像グループについて、 プロ トタイプと しての画像を定義したい 場合、 画像グループの中の或る画像を用いる代わりに、 ショ ッ ト中 の全画像の平均値画像を求めることによって、 この平均値画像を、 プロ トタイプ中の特徴値と して用いることができる。
一方、 A Vプロ トタイプ · ディスクリプタは、 例えばシヨ ッ トや シーンといったビデオデータの構造解析の際に使用されるセグメン トを代表するフレームを示すこともある。 例えば、 後述するように- 複数のショ ッ トに対し、 各ショ ッ トにおける特徴値と して、 それら が A Vプロ トタイプと して示した映像フレームに関する特徴値を抽 出して比較し、 時間的に近接して類似したショ ッ トを検出して繰り 返しまとめていく ことによって、 最終的にシーンを生成することが できる。
つぎに、 ハイアラキ · ディスク リプタについて説明する。 ビデオ データにおいて互いに類似する或いは関連する映像セグメントゃ音 声セグメントを一緒にグループ化することは、 内容に基づく検索や ブラウジングのためにビデオデータを階層構造化する基本的な方法 である。 そこで、 V C Sにおいては、 ツリーに基づく階層構造を用 いることにより、 構造内の様々な詳細レベルにおいて、 映像セグメ ントゃ音声セグメン トの集合のグループ化を表すことを可能と して いる。 この階層構造は、 以下の特徴を提供する。 すなわち、 第 1の 特徴と しては、 様々な詳細レベルでのアクセスを可能とすることで あり、 第 2の特徴と しては、 上位レベルにおいて内容要約を提供す ることである。 また、 第 3の特徴と しては、 階層的分類法を提供す ることであり、 第 4の特徴と しては、 高レベルの層において、 近似 的に意味論的分類を提供することである。
ハイアラキ · ディスク リプタの記述フォ一マッ トは、 図 1 0に示 すようなものになる。 このハイアラキ ' ディスク リプタは、 上位ク ラスである A Vエレメント ' ディスク リプタを継承している。 また、 ハイアラキ 'ディスク リプタは、 下位要素のディスク リプタ或いは 属性を示すフィーチャと して、 その型がクラスタ (Cluster) であり 階層の起点を示すルート (Root) と、 その型が文字列 (Str i ng) で あり、 階層の種類を示す種別 (Kind) とを有する。
このようなハイァラキ · ディスク リプタは、 関連した或いは類似 した複数の A Vエレメントを 1つの階層構造と してまとめた結果そ つぎに、 クラスタ ' ディスク リプタについて説明する。 このクラ スタ · ディスク リプタの記述フォーマッ トは、 図 1 1に示すような ものになる。 このクラスタ ' ディスク リプタは、 上位クラスである A Vエレメ ン ト ■ ディスク リプタを継承している。 また、 クラスタ •ディスク リプタは、 下位要素のディスク リプタ或いは属性を示す フィーチャと して、 その型が A Vエレメント (AVElement) の集合で あり、 このグループ内に直接含まれる複数の A Vエレメントを示す メンバー (Members) と、 その型が A Vアブス トラク ト (AVAbstrac t) であり、 このクラスタに含まれるメンバーのうち、 このクラスタ を代表する典型的なメンバ一を表す値を示すアブス トラク ト (Abst ract) とを有する。
このようなクラスタ ' ディスク リプタは、 関連した或いは或いは 類似した A Vエレメントを一緒にグループ化して、 1つのまとまり を形成することを表すものである。 この定義は再帰的であって、 或 るクラスタは、 メンバーと して他のクラスタを含んでもよい。 その 場合、 それらのクラスタ群は、 階層的な分類構造を構成することと なる。
このクラスタ · ディスク リプタを用いることによって、 例えば図 1 2に示すように、 セグメント間の類似性 (similarity) を基にし たセグメントのクラスタリングを行い、 その結果を記述することが できる。 具体的には、 クラスタ ' ディスク リプタを用いることによ つて、 後述するように、 類似性に基づく ショ ッ トのクラスタリング を行うことができる。
このような類似性によるッリ一構造を構成する方法と しては、 多 数のものが知られており、 例えば、 凝集階層クラスタリング法 (ag glomerative hierarchical clustering methods) 等力 あ o。
つぎに、 コンポジッ ド ' セグメント · ディスク リプタについて説 明する。 類似性に基づく階層的分類は、 セグメント間の時間的順序 とは無関係に構築されたものである。 そこで、 ビデオデータの時間 的階層構造を与える目的で、 コンポジッ ド · セグメントを導入する。 ここで、 コンポジッ ドとは、 例えば図 1 3に示すように、 時間軸上 に並ぶ A Vエレメントから形成される階層構造を表現するものであ る。 コンポジッ ド . セグメント ·ディスク リプタの記述フォーマッ ト は、 図 1 4に示すようなものになる。 このコンポジッ ド 'セグメン ト ■ ディスク リプタは、 上位クラスである A Vセグメント ' ザイ ス ク リプタを継承している。 また、 コンポジッ ド ' セグメント ' ディ スク リプタは、 下位要素のディスク リプタ或いは属性を示すフィ一 チヤと して、 その型が A Vセグメント (AVSegment) の集合であるコ ンポーネント (Components) を有する。 なお、 このコンポジッ ド ' セグメン ト · ディスク リプタは、 特別な種類の A Vセグメント ' デ イスク リプタであり、 上述したコンポーネントの導入によって、 セ グメンテーションが繰り返し生起される様子を表現することができ る。
コンポジッ ド · セグメント · ディスク リプタは、 A Vセグメント の時間軸上のシーケンスが、 互いに類似するサブシーケンス或いは 関連するサブシーケンスに分割される様子を記述する。 このコンポ ジッ ド . セグメント ■ ディスク リプタを用いることによって、 ビデ ォデータの構造を時間軸上のッリ一構造と して記述することができ る。 具体的には、 コンポジッ ド 'セグメント ' ディスクリプタを用 いることによって、 後述するように、 類似するセグメントをグルー プ化してクラスタリ ングした結果をシーンと して記述したり、 シ一 ンをさらにクラスタ リングして、 ビデオデータ全体の構造をッリ一 構造と して記述することができる。
つぎに、 A Vグラフ 'ディスク リプタ及び A Vグラフエッジ · デ イスタ リプタについて説明する。 ビデオデータの論理的構造を捉え るために、 A Vグラフを導入する。 なお、 ここでは、 A Vグラフを、 A Vグラフエッジにより構成されるグラフと定義する。 また、 ここ では、 A Vグラフエッジを、 各節点が A Vエレメ ン トを表し、 節点 を結ぶ枝 (edge) 、 一方の A Vエレメントから他方の A Vエレメ ントへの関係を表すグラフエッジと定義する。
この A Vグラフは、 A Vエレメント間の異なる種類の関係を示す ラベルの付いた枝を有するグラフエッジの集合体と して、 各 A Vェ レメ ントが互いに結合される様子を記述する。
このような A Vグラフ · ディスク リプタの記述フォーマツ トは、 図 1 5に示すようなものになる。 この A Vグラフ 'ディスク リプタ は、 上位クラスである A Vエレメント ' ディスク リプタを継承して いる。 また、 A Vグラフ ' ディスクリプタは、 下位要素のディスク リプタ或いは属性を示すフィ一チヤと して、 その型が複数の A Vグ ラフエッジ (AVGraphEdge) の集合であり、 その A Vグラフを構成す る A Vグラフエッジを示す枝 (Edges) と、 その型が文字列 (Strin g) であり、 その A Vグラフの種類を示す種別 (Ki nd) とを有する。
この A Vグラフ ■ ディスク リプタによって、 ビデオデータの繰り 返し構造が記述できるようになる。 具体的には、 A Vグラフ · ディ スク リプタによって、 後述するように、 検出したシーンの内容を、 そのシーンの繰り返し構造と して記述することで、 ビデオデータ全 体の構造解析を行う ことを可能とする。 例と して、 図 1 6 Aに示す ような会話場面を形成する一連のショ ッ トにおける 2つの異なる A Vグラフを図 1 6 B及び図 1 6 Cに示す。 図 1 6 Bに示す例は、 単 純な直線的構造を示すものであり、 図 1 6 Cに示す例は、 話し手に 応じて交代するショ ッ トという特徴を有する意味的構造を示すもの である。
一方、 A Vグラフエッジ ' ディスクリプタの記述フォーマッ トは、 図 1 7に示すようなものになる。 この A Vグラフエッジ ■ ディスク リプタは、 下位要素のディスク リプタ或いは属性を示すフィ一チヤ と して、 その型が A Vエレメント (AVElement) であり、 この枝の起 点エレメ ン トであることを示すソース (Source) と、 その型が A V エレメ ン ト (AVElement) であり、 この枝の終点エレメ ン トであるこ とを示すターゲッ ト (Target) と、 その型が文字列 (String) であ り、 この枝に結合されたエレメント間の関係の種類を表すラベル ( Labe l ) とを有する。
このような A Vグラフエッジ · ディスク リプタは、 2つの A Vェ レメ ン 卜の間の有向関係 ( directed connect ion) を表す。
ここで、 全ての A Vグラフエッジは、 或る特定の A Vグラフに属 する。 また、 同じ A Vエレメ ン トが、 異なる A Vグラフに属するこ ともあり得る。 さらに、 同じ A Vエレメントが、 異なる A Vグラフ に属しつつも、 互いに結合されることもあり得る。
なお、 A Vグラフの定義においては、 節点が参照できる A Vエレ メ ン トの型について、 何ら特定の制約をも課さない。 すなわち、 節 点は、 A Vプロ トタイプをも参照することができる。 そのような場 合には、 その A Vグラフは、 A Vプロ トタイプ · グラフと称され、 ビデオデータの構造の原型 (prototype) を表す。 このような構造を 用いて、 例えばテレビのニュース番組における構造を表すことがで きる。
また、 A Vグラフは、 1つのグラフ中の節点が、 他のまとまった グラフを示すような入れ子構造になった A Vグラフを形成すること を許容する。 これにより、 A Vグラフは、 様々なレベルで表現され た構造を捉えることを可能とする。 つぎに、 シグネチヤ ' ディスク リプタについて説明する。 このシ グネチヤ · ディスク リプタの記述フォーマツ トは、 図 1 8に示すよ うなものになる。 このシグネチヤ · ディスク リプタは、 上位クラス である AVァブス トラク ト · ディスク リプタを継承している。 また、 シグネチヤ · ディスク リプタは、 下位要素のディスク リプタ或いは 属性を示すフィーチャと して、 その型が重みベク トル (WeightVect or) であるウェイ ト (Weights) と、 その型が AVエレメント (AVE lement) の集合であり、 それぞれの重み付けがウェイ ト (Weights) により 1対 1に示されるところのメンバー (Members) と、 その型が 文字列 (String) であり、 シグネチヤの種類を示す種別 (Kind) と を有する。 なお、 シグネチヤの比較は、 その種別が等しい場合のみ 有効である。
このシグネチヤ · ディスク リプタは、 代表的な複数の A Vエレメ ン トと、 それぞれのエレメ ン トの重み値 (Weights) の組み合わせに より、 それが示すところの AVエレメ ン トの静的な内容を代表して このシグネチヤの第 1 の例と しては、 ショ ッ ト ■ キーフレーム (Shot Key Frames) がある。 ショ ッ ト ' キーフレームとは、 コンテ ンッから抽出された各ショ ッ トを代表する複数のフレームである。 各キーフレームの重みは、 そのショ ッ トを代表するフレームにおい て、 それぞれがどの程度重要であるかを示す指標となる。
また、 シグネチヤの第 2の例と しては、 プログラム · シグネチヤ (Program Signature) がある。 プログラム · シグネチヤとは、 或る プログラムの特徴を強く表すショ ッ トの組である。 例えば、 ニュー スプログラムを考えたとき、 オープニングの口ゴが出現するショ ッ ト、 キャスターのショ ッ ト、 最後のロゴのショ ッ ト等がそのニュー スプログラムの特徴を最も表したものと して使用できる。
つぎに、 テンポラル · シグネチヤ ' ディスク リプタについて説明 する。 このテンポラル ' シグネチヤ · ディスク リプタの記述フォー マッ トは、 図 1 9に示すようなものになる。 このテンポラル ' シグ ネチヤ ' ディスク リプタは、 上位クラスである A Vアブス トラク ト -ディスク リプタを継承している。 また、 テンポラル ' シグネチヤ - ディスク リプタは、 下位要素のディスク リプタ或いは属性を示す フィーチャと して、 その型が重みベク トル (We i ghtVector) であり、 対象とする A Vエレメ ン トにおいて、 各部分 A Vエレメン トが占め る相対的継続時間を示すタイム (Time) と、 その型が A Vエレメン ト (AVElement ) のシーケンスであり、 対象とする A Vエレメ ン トを 代表する部分 A Vエレメントの時間軸に沿ったシーケンスであるメ ンバー (Members) と、 その型が文字列 (Str ing) であり、 テンポラ ノレ · シグネチヤの種類を示す種別 (Kind) とを有する。 なお、 テン ポラル . シグネチヤの比較は、 その種別が等しい場合のみ有効であ る。
このようなテンポラル · シグネチヤ · ディスク リプタは、 そのメ ンバーである複数の代表的な部分 A Vェレメン トのシーケンスによ り、 当該テンポラル ' シグネチヤ ' ディスク リプタが対象とする A Vエレメ ン トの動的な内容を代表して表すものである。 なお、 それ ぞれの部分 A Vエレメントに対しては重み係数が与えられており、 それは、 各 A Vエレメン 卜の相対的な継続時間に基づく。
ところで、 対象とする A Vエレメントを代表するのに必要な部分 A Vエレメントの数は、 当該 A Vエレメン トそれ自体の動的変化の 程度と、 必要とする内容の細かさとの両方に依存する。 例えば、 当 該 A Vエレメン トの変化が非常に少ない場合、 これは 1つの部分 A Vエレメントで代表させることができる。 一方、 当該 A Vエレメン トの変化が激しい場合には、 その変化を正確に表すために、 多数の 部分 A Vエレメントを要することとなる。
さて、 テンポラル · シグネチヤの第 1の例と しては、 ショ ッ ト - テンポラノレ - シグネチヤ (Shot Temporal Signature) 力 ある。 この ショ ッ ト ' テンポラル · シグネチヤは、 ショ ッ トが含む複数のキー フレームの並びであって、 これによりショ ッ トを特徴付けること力 S できる。
また、 テンポラル ' シグネチヤの第 2の例と しては、 テレビジョ ン - プログラム · テンポラノレ■ シグネチヤ (Television Program T emporal Signature) がある。 このテレビジョン . プログラム . テン ポラル · シグネチヤは、 プログラムから抜き出したそのプログラム の特徴を表すキ一ショ ッ トの組である。 例えば、 ニュースプロダラ ムの場合には、 代表的なロゴの或るショ ッ ト、 キャスターのショ ッ ト、 スポーツのショ ッ ト、 天気予報等が、 当該ニュースプログラム の特徴をよく表したものと して使用することができる。
ところで、 上述したシグネチヤとこのテンポラル■ シグネチヤと は、 ともに、 重み付けされた部分 AVエレメ ン トにより構成される。 しかしながら、 シグネチヤとは異なり、 テンポラル . シグネチヤは、 そのメ ンバー間に時間的順序を有している。 すなわち、 テンポラル
• シグネチヤは、 それが含む A Vエレメントが時間の経過にともな つて提示されることとなる部分 A Vエレメントのシーケンスを記述 する。 ここで、 重み係数は、 各部分 AVエレメントがどの程度の (相対的) 時間を必要とするかを示す指標である。
つぎに、 その他のディスク リプタと して、 ァクティ ビティ ■ レべ ノレ ' ディスク リプタと、 ウェイ ト ·べク トル 'ディスク リプタと、 コンセプト · ディスク リプタとについて説明する。
アクティ ビティ · レベル · ディスク リ プタの記述フォーマッ トは、 図 2 0に示すようなものになる。 このアクティ ビティ · レベル - デ イスク リプタは、 下位要素のディスク リプタ或いは属性を示すフィ 一チヤと して、 その型が 0以上 1以下の実数 (Rea l ) であり、 0は ァクティ ビティがないことを示すとともに、 1はァクティビティ力 s 最大であることを示すアクティ ビティ · レベル (Act i v i tyLeve l ) を 有する。
このァクティ ビティ · レベル ' ディスク リプタは、 A Vエレメ ン トにおける A Vオブジェク トの活動量の度合いを表す。 なお、 ァク ティ ビティ · レベル ' ディスク リプタの生成方法は、 アプリケーシ ョンに依存する。
ここで、 映像セグメントを考えた場合、 映像セグメント中の活動 量は、 様々な方法で測定することができる。 例えば、 活動量は、 セ グメント内の隣接フレーム間の映像オブジェク ト平均距離や、 セグ メント内で生起する全体的な動き量或いは運動量等の測定により求 めることができる。
このアクティ ビティ · レベル ' ディスク リプタによって、 後述す るように、 映像及び音声の特徴を記述することができる。 すなわち、 アクティビティ · レベル■ ディスク リプタは、 ビデオデータの内容 の変化の大きさを測るパラメータと して利用できる。
また、 ウェイ ト .ベク トノレ . ディスク リプタの記述フォ一マツ ト は、 図 2 1に示すようなものになる。 このウェイ ト ·べク トノレ ' デ イスク リプタは、 下位要素のディスク リプタ或いは属性を示すフィ
—チヤと して、 その型が実数の n次元ベク トル (Real[n]) であるゥ エイ ト (Weights) と、 その型が論理値 (Boolean) であり、 ウェイ ト (Weights) に含まれる値が正規化された値か否かを示すフラグで ある正規化(Normalized) とを有する。 なお、 ウェイ ト (Weights) には、 制約条件を課すことができる。
このウェイ ト 'べク トル ' ディスク リプタは、 AVエレメントに 適用される重み係数の n次元べク トルを表す。 このウェイ ト 'べク トル ' ディスク リプタによって、 ビデオデータの特徴抽出の結果得 られたパラメータの重み付けを指定することができる。
さらに、 コンセプト ' ディスク リプタの記述フォーマツ トは、 図 2 2に示すようなものになる。 このコンセプト ·ディスク リプタは、 下位要素のディスク リプタ或いは属性を示すフィ一チヤと して、 そ の型が R D Fや XM Lで記述されたデータへの参照を示すノ一ド等 であるコンセプト (Concept) を有する。
このコンセプ ト ' ディスク リ プタによって、 AVエレメ ン トを、 その概念的内容 (conceptual contents) を記述したデータに結合す ることができる。 V C Sにおいては、 この概念的内容の記述に関し、 特定の手段を指定するものではない。
つぎに、 V C Sを拡張、 又は継承した V B Sに属するディスクリ プタ群について説明していく。
まず、 V B Sに属するディスク リプタと して、 シノプシス ' ディ スク リプタについて説明する。 ここでは、 ユーザに対して、 ビデオ データをブラウジングするためのビデオ要約を提供するディスク リ プタについて記述する。 このシノプシス ' ディスク リプタの意図す るところは、 或るビデオデータの内容を要約した後、 視聴者に対し て、 視覚的、 聴覚的、 又はその両方によりこれを提供する際に用い る A Vエレメ ントを記述することである。
このシノプシス ' ディスク リプタの記述フォーマッ トは、 図 2 3 に示すようなものになる。 このシノプシス · ディスク リプタは、 上 位クラスである A Vエレメ ン ト ' ディスク リプタを継承している。 また、 シノプシス · ディスク リプタは、 下位要素のディスク リプタ 或いは属性を示すフィーチャと して、 その型が文字列 (Str i ng) で あり、 シノプシスの種類を示す種別 (K i nd) と、 その型が A Vエレ メン ト (AVE l ement ) のリス トであり、 そのシノプシスを構成する A Vエレメントの並びを示すシーケンス (Sequence) と、 その型が論 理値 ( Boo l ean) であり、 シーケンス内の A Vエレメ ン トの順序が重 要かどうかを示すフラグである I s O r d e r dとを有する。
このシノプシス ' ディスク リプタは、 ユーザに対して要約を提供 する際に表示すべき A Vエレメント集合を示している。
一見すると、 A Vアブス トラク トとシノプシスとは、 同じような 情報を表現していると思われる。 しかしながら、 そこには大きな違 いがある。 それは、 シノプシスがユーザのために A Vエレメ ン トを 要約しているのに対し、 A Vアブス トラク トにおいては、 検索或い はオーディオ ' ビジュアルへの索引付け (indexi ng) 等のための要 約を行っていることである。
想定されるシノプシスの第 1 の例と しては、 キーフレーム (Key frames ) の集合がある。 これは、 A Vエレメ ン トの概要を要約する ための順序付けられたフレーム群である。 また、 第 2の例と しては、 ダイジェス ト (Digest) がある。 これ は、 A Vエレメントの要約を提示するための順序付けられた A Vセ グメ ン ト群であり、 例えば、 ビデオデ一タから切り出されたク リ ツ プの並びである。
このシノプシス · ディスク リプタによって、 ビデオデータの内容 の概要が把握できるようになる。 具体的には、 シノプシス ' ディス タ リプタによって、 後述するように、 検出したシーンを、 そのシ一 ンの代表フレームで代表させ、 ス トーリ一ボードと して表示するこ とができる。
つぎに、 カラー · ディスク リプタについて説明する。 カラー ' デ イスタリプタの記述フォーマッ トは、 図 2 4に示すようなものにな る。 このカラー ' ディスク リプタは、 下位要素のディスク リプタ或 いは属性を示すフィ一チヤと して、 その型が実数の 3次元べク トル
(Real[3]) であり、 各要素が 0以上 1以下の範囲で表現された色彩 要素値を示すカラー (Color) を有する。
このカラ一 · ディスク リプタは、 色彩を 3つの異なる実数で表現 する。 各値は、 色彩空間における 3軸に相当する。
つぎに、 カラー ' スペース ' ディスク リプタについて説明する。 カラー ' スペース ' ディスク リプタの記述フォーマツ トは、 図 2 5 に示すようなものになる。 このカラー ' スペース ' ディスク リプタ は、 下位要素のディスク リプタ或いは属性を示すフィ一チヤと して、 その型が文字列 (String) であり、 色彩空間の名称を示すカラー - スペース (ColorSpace) を有する。
なお、 ひとつの色彩は、 様々な異なる色彩空間で符号化すること ができる。 これより、 V B Sにおいては、 カラー ' スペース ' ディ スク リプタを用いることによって、 カラー ' ディスクリプタの意味 をどう解釈するかを決定する。
つぎに、 カラ一 ' シグネチヤ ' ディスクリプタについて説明する カラー . シグネチヤ ' ディスク リプタの記述フォーマッ トは、 図 2 6に示すようなものになる。 このカラー ' シグネチヤ ' ディスク リ プタは、 下位要素のディスク リプタ或いは属性を示すフィ一チヤと して、 その型がカラー ' スペース (ColorSpace) であり、 当該カラ 一 · シグネチヤ · ディスク リプタが計算された色彩空間を示すカラ 一 ' スペース (ColorSpace) と、 その型がカラー型のベク トノレ (Co lor[n]) であり、 このシグネチヤを定義する色の集合を表すカラー
(Colors) と、 その型が重みべク トノレ (WeightVector) であり、 各 カラー (Colors) のシグネチヤに対する重み付けを示すウェイ ト
(Weights) とを有する。
このカラー · シグネチヤ · ディスク リプタは、 色ヒス トグラムを 一般化したものを表している。 概念上、 ヒス トグラムとは、 色彩を 何らかのカテゴリに分類し、 或るィメージ内におけるピクセルのそ れぞれのカテゴリにおける出現頻度を表したものとみなすことがで きる。 そこで、 カラー ' シグネチヤにおいては、 この方法を一般化 し、 任意の b i n (色空間における最小分割領域) の設定を可能と したものである。 なお、 各 b i nは、 その領域における代表的な色 で表現される。
例えば、 或るカラーイメージが与えられ、 このイメージで使用さ れているカラ一をカラー · シグネチヤと して記述したい場合を考え る。 まず、 カラ一を表す色彩空間を幾つかの領域に分割する。 次に、 それぞれのカラ一領域へ、 ィメ一ジ内のピクセルを分類していく。 その結果得られるピクセル出現頻度の相対的割合がウェイ ト (Weig hts) となる。
つぎに、 構造ディスク リプタと して、 音声フレーム 'ディスク リ プタと、 映像フレーム ' ディスク リプタと、 ブラウジング ' ノード ' ディスク リプタと、 ショ ッ ト 'ディスクリプタと、 シーン ' ディ スク リプタと、 プログラム ' ディスク リプタとについて説明する。 ビデオデータは、 上述したように、 4層の階層構造と して構築され る。 すなわち、 ここでは、 フレーム (音声フレーム及び映像フレー ム) 、 セグメント、 シーン、 プログラムである。
音声フレーム · ディスク リプタの記述フォ一マッ トは、 図 2 7に 示すようなものになる。 この音声フレーム ' ディスク リプタは、 上 位クラスである A Vセグメント ·ディスク リプタを継承している。 また、 音声フレーム ' ディスク リプタは、 下位要素のディスク リプ タ或いは属性を示すフィ一チヤと して、 同図では省略しているが、 例えば音声フレームのスぺク トラムを記述可能とするフィーチャを 始め、 音声情報の記述、 解析等に関わる任意のフィーチャを有する この音声フレーム ■ ディスク リプタは、 単一の音声フレームに相 当する A Vセグメン トを表す。
一方、 映像フレーム ' ディスクリプタの記述フォーマッ トは、 図 2 8に示すようなものになる。 この映像フレーム ' ディスク リプタ は、 上位クラスである A Vセグメント ' ディスク リプタを継承して いる。 また、 映像フレーム ' ディスクリプタは、 下位要素のデイス クリプタ或いは属性を示すフィーチャと して、 その型がカラー ■ シ グネチヤ (ColorSi gnature) であり、 そのフレームの色特徴を示す カラー (Co lor) を有する。 この映像フレーム 'ディスクリプタは、 A Vセグメントの特別な 場合と して、 単一の映像フレームを表す場合に用いられる。
また、 ブラウジング ' ノード ' ディスク リプタの記述フォーマツ トは、 図 2 9に示すようなものになる。 このブラウジング · ノード -ディスク リプタは、 上位クラスであるコンポジッ ド ■ セグメント 'ディスク リプタを継承している。 また、 ブラウジング ' ノード ' ディスク リプタは、 下位要素のディスク リプタ或いは属性を示すフ ィーチヤと して、 その型が A Vハイアラキ (AVHi erarchy) の集合で あり、 その下層にあるサブエレメントを用いて当該 A Vセグメント の内容のインデックス化をする際に用いる階層的分類の集合を示し、 実例値と してビデオデータにおけるショ ッ トの分類階層構造が挙げ られるインデックス (Index) と、 その型が A Vシノプシス (AVSyn ops i s) の集合であり、 ビデオデータの或る一部分における要約を示 し、 実例値と してキーフレームの並びが挙げられるシノプシス (Sy nops i s ) と、 その型が A Vグラフ (AVGraph) であり、 ビデオデータ の或る一部分における構造を示す構造 (Structure) とを有する。 このブラウジング ' ノード ' ディスク リプタは、 ブラウジングに て使用される様々なビデオ構造のュニッ トを提供するための共通の 抽象クラスである。
このブラウジング ' ノード ' ディスク リプタから継承されるディ スク リプタを用いることによって、 ビデオデータの内容を具体的に 記述することができる。 以下、 これらのディスク リプタについて順 次説明する。
まずはショ ッ ト · ディスクリプタである。 ショ ッ ト ■ディスクリ プタの記述フォーマッ トは、 図 3 0に示すようなものになる。 この ショ ッ ト . ディスク リプタは、 上位クラスであるブラウジング · ノ —ド ' ディスク リプタを継承している。 また、 ショ ッ ト ' ディスク リプタは、 下位要素のディスク リプタ或いは属性を示すフィ一チヤ と して、 その型がアクティ ビティ · レベル (ActivityLevel) であり そのショ ッ トのアクティ ビティ ■ レベルを示し、 実例値と して例え ば 0. 5が挙げられるアクティ ビティ (Activity) と、 その型が A Vセグメントを継承する任意のディスク リプタ (FromAVSegment) で あり、 そのショ ッ トの内容の要約を示すアブス トラク ト (Abstrac t) と、 その型がブラウジング ' ノードを継承する任意のディスク リ プタ (FromBrowsingNode) であり、 音声フレーム及び Z又は映像フ レームの並びから構成される Synopsis型の要約を示すシノプシス (Synopsis) と、 その型がブラウジング ' ノードを継承する任意の ディスク リプタ (FromBrowsingNode) であり、 音声フレーム及び Z 又は映像フレームの分類構造と して構成される当該ショ ッ トへのィ ンデックスを示すインデックス (Index) とを有する。 なお、 これら のフィーチャのうち、 インデックスの指定は、 必ずしも行う必要は ない。 また、 アブス トラク トは、 当該ショ ッ トに対し、 次のような 内容要約を与えることを可能とする。 まず第 1 と しては、 音声フレ ーム、 映像フレーム、 AVプロ トタイプを要素とするテンポラル ' シグネチヤを用いた内容要約であり、 第 2と しては、 音声フレーム、 映像フレームを要素とするシグネチヤを用いた内容要約である。
このシヨ ッ ト ' ディスク リプタは、 ォ一ディォ■ ビジュアル · ュ ニッ 卜の最低レベル、 すなわち、 ショ ッ トを表す。
次にシーン ·ディスク リプタである。 シーン · ディスクリプタの 記述フォーマッ トは、 図 3 1に示すようなものになる。 このシーン 'ディスクリプタは、 上位クラスであるブラウジング ' ノード ' デ イスク リプタを継承している。 また、 シーン ' ディスク リプタは、 下位要素のディスク リプタ或いは属性を示すフィ一チヤとして、 そ の型が文字列 (String) であり、 対象とするシーンの種類を示し、 実例値と して DIALOGや CO删 ERCIALや ACTIONや ANCHORが挙げられる種 別 (Kind) と、 その型が A Vセグメントを継承する任意のディスク リプタ (FromAVSegment) であり、 そのシーンの内容の要約を示すァ ブス トラク ト (Abstract) と、 その型がブラウジング · ノードを継 承する任意のディスク リプタ (FrotnBrowsingNode) であり、 ショ ッ トの並びから構成される Synopsis型の要約を示すシノプシス (Syno psis) と、 その型がブラウジング ' ノードを継承する任意のデイス タリプタ (FromBrowsingNode) であり、 ショ ッ トの分類構造と して 構成される当該シーンへのィンデッタスを示すィンデッタス (Inde x) と、 その型がブラウジング · ノードを継承する任意のディスク リ プタ (FrotnBrowsingNode) であり、 例と して、 ノードが類似ショ ッ トのクラスタを表し、 リンクがクラスタ間の推移を表すような AV グラフを示す構造 (Structure) とを有する。 なお、 アブス トラク ト は、 当該シーンに対し、 次のような内容要約を与えることを可能と する。 すなわち、 ショ ッ ト又は AVプロ トタイプを要素とするシグ ネチヤ或いはテンポラル■ シグネチヤを用いた内容要約である。
このシーン ' ディスク リプタは、 意味的に関連するシヨ ッ トのま とまりであるシーンを表す。
さらに、 プログラム ' ディスク リプタである。 プログラム ' ディ スク リプタの記述フォ一マツ トは、 図 3 2に示すようなものになる。 このプログラム .ディスク リプタは、 上位クラスであるブラゥジン グ - ノード ' ディスク リプタを継承している。 また、 プログラム · ディスク リプタは、 下位要素のディスク リプタ或いは属性を示すフ ィ一チヤと して、 その型が A Vセグメントを継承する任意のディス ク リプタ (FromAVSegment) であり、 そのシーンの内容の要約を示す アブス トラク ト (Abstract ) と、 その型がブラウジング · ノードを 継承する任意のディスク リプタ (FromBrows ingNode) であり、 シー ン或いはショ ッ トの並びから構成される Synops i s型の要約を示すシ ノプシス (Synops i s ) と、 その型がブラウジング · ノードを継承す る任意のディスク リプタ (FromBrows ingNode ) であり、 ショ ッ ト及 びシーンの分類構造と して構成される当該プログラムへのィンデッ タスを示すインデックス (Index ) と、 その型がブラウジング ' ノー ドを継承する任意のディスク リプタ (FromBrows i ngNode) であり、 例と して、 ノードが類似シーンのクラスタを表し、 リ ンクがクラス タ間の推移を表すような A Vグラフを示す構造 (Struc ture) とを有 する。 なお、 アブス トラク トは、 当該プログラムに対し、 次のよう な内容要約を与えることを可能とする。 第 1 と しては、 シーンを要 素とするシグネチヤ或いはテンポラル ' シグネチヤを用いた内容要 約である。 第 2 と しては、 ショ ッ トを要素とするシグネチヤ或いは テンポラル · シグネチヤを用いた内容要約である。 また、 プロダラ ムへのィンデッタスは、 全てのショ ッ トへの階層的ィンデックス及 びノ又は全てのシーンへの階層的ィンデックスといった様々なレべ ルに対するインデッタスよ り構成される。
このプログラム ' ディスクリプタは、 シーンの並びから構成され るプログラムを表す。
以上のようなディスク リプタの集合からなる V B Sにおいては、 様々なブラウジングノードにおけるインデックスに含まれる情報を 用いることによって、 階層構造を有するビデオデータのオーディォ ' ビジュアル . イ ンデックスを、 様々な詳細レベルにおいて構築す ることが可能となる。 例えば、 プログラムにおいては、 ビデオデー タ内の全てのショ ッ トに対し、 その類似性により分類された階層構 造を構築することができる。 これを基に、 或る詳細レベル以上の情 報を表示したい場合には、 階層構造を指定された詳細レベルにて上 下に分割し、 その上の構造のみを用いればよい。 さらに、 分割詳細 レベルの各ノ一ドにおける A Vエレメ ン トのグループにおいて、 各 グループを代表するようなメンバーをそれぞれのグループから選択 し、 これを順次表示することによって、 その詳細レベルにおけるプ ログラムの概要を与えることができる。
また、 V B Sにおいては、 階層化ビデオ構造のそれぞれのレベル に関係付けられたシノプシスを用いることによって、 そのビデオデ ータにおけるオーディオ · ビジュアルな目次を表示することができ る。 例えば、 それぞれのレベルが以下の表 1で示すようなシノプシ スを有する場合、 これを目次と して表示したいときには、 各ショ ッ トを代表するキーフレームの中から、 各レベルにおけるキーフレー ムを取り出すことで、 オーディオ ' ビジュアルな目次を表示するこ とができる。
表 1 ビデオ構造のレベルに対する シノプシス レベル シノプシス ショ 'ソ 卜 —連のキーフレーム
シーン 一連のキーショッ 卜
プログラム —連のキーシーン 以下、 ビデオデータから構造を抽出する具体的な処理と、 このよ うな処理に対応して、 上述したディスク リプション · スキームと し て定義される記述方法を用いてビデオ構造等を記述する特徴データ とについて説明する。 なお、 ビデオデータから構造を抽出する処理 は、 上述したデータ送受信処理システムにおける送信装置 1 0及び 受信装置 2 0の両方において行うことができる。 ここでは、 送信装 置 1 0においてビデオデータからシーン構造を抽出するとともに、 それに対応して特徴データを生成し、 ビデオデータとともに特徴デ —タを受信装置 2 0へと送信するものと して説明する。
送信装置 1 0は、 ビデオデータにおける映像セグメント及び音声 セグメントの特徴量を用いてセグメン ト間の類似性を測定し、 これ らのセグメントをシーンにまとめることによって、 ビデオ構造を自 動的に抽出する。 この際、 時間的に近接して反復している類似した セグメントは、 ほぼ同一シーンの一部であるため、 送信装置 1 0は、 このようなセグメン トを検出してグループ化していく ことによって、 シーンを検出する。 このような送信装置 1 0は、 図 3 3に概略を示 すような一連の処理を行うことによって、 シーンを検出する。
まず、 送信装置 1 0は、 同図に示すように、 ステップ S 1におい て、 ビデオ分割を行う。 すなわち、 送信装置 1 0は、 入力されたビ デォデータを映像セグメント又は音声セグメン トのいずれか、 或い は可能であればその両方に分割する。 送信装置 1 0は、 適用するビ デォ分割方法に特に前提要件を設けない。 例えば、 送信装置 1 0は、
G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communicat ion and Image Representation 7: 28-4, 1996" ίこ g己載されてレヽるよ うな方法により ビデオ分割を行う。 このようなビデオ分割の方法は、 当該技術分野ではよく知られたものであり、 送信装置 1 0は、 いか なるビデオ分割方法も適用できるものとする。
次に、 送信装置 1 0は、 ステップ S 2において、 特徴量の抽出を 行う。 すなわち、 送信装置 1 0は、 そのセグメントの特徴を表す特 徴量を計算する。 送信装置 1 0においては、 例えば、 各セグメント の時間長、 カラーヒス トグラムやテクスチャフィーチャといった映 像特徴量や、 周波数解析結果、 レベル、 ピッチといった音声特徴量 や、 アクティ ビティ測定結果等が、 適用可能な特徴量と して計算さ れる。 勿論、 送信装置 1 0は、 適用可能な特徴量と してこれらに限 定されるものではない。
さらに、 送信装置 1 0は、 ステップ S 3において、 特徴量を用い たセグメントの類似性測定を行う。 すなわち、 送信装置 1 0は、 セ グメント間の非類似性測定を行い、 その測定基準によって、 2つの セグメントがどの程度類似しているかを測定する。 送信装置 1 0は、 先のステップ S 2において抽出した特徴量を用いて、 非類似性測定 基準を計算する。
そして、 送信装置 1 0は、 ステップ S 4において、 セグメントの グループ化を行う。 すなわち、 送信装置 1 0は、 先のステップ S 3 において計算した非類似性測定基準と、 先のステップ S 2において 抽出した特徴量とを用いて、 時間的に近接して類似したセグメント を繰り返しまとめ、 これらのセグメントをグループ化する。 送信装 置 1 0は、 このようにして最終的に生成されたグループを検出シ一 ンと して出力する。
このような一連の処理を経ることによって、 送信装置 1 0は、 ビ デォデータからシーンを検出することができる。 したがって、 ユー ザは、 この結果を用いることによって、 ビデオデータの内容を要約 したり、 ビデオデータ中の興味のあるポィントに迅速にアクセスし たりすることが可能となる。
以下、 同図に示した送信装置 1 0における処理を各工程毎により 詳細に説明していく。
まず、 ステップ S 1におけるビデオ分割について説明する。 送信 装置 1 0は、 入力されたビデオデータを映像セグメン ト又は音声セ グメントのいずれか、 或いは可能であればその両方に分割するが、 このビデオデータにおけるセグメン トの境界を自動的に検出するた めの技術は多くのものがあり、 当該送信装置 1 0において、 このビ デォ分割方法に特別な前提要件を設けないことは上述した通りであ る。 一方、 送信装置 1 0において、 後の工程によるシーン検出の精 度は、 本質的に、 基礎となるビデオ分割の精度に依存する。 なお、 送信装置 1 0におけるシーン検出は、 或る程度ビデオ分割時のエラ —を許容することができる。 特に、 送信装置 1 0において、 ビデオ 分割は、 セグメント検出が不十分である場合より も、 セグメント検 出を過度に行う場合の方が好ましい。 送信装置 1 0は、 類似したセ グメン トの検出が過度である結果である限り、 一般に、 シーン検出 の際に検出過度であるセグメントを同一シーンと してまとめること ができる。
つぎに、 ステップ S 2における特徴量抽出について説明する。 特 徴量とは、 セグメ ン トの特徴を表すとともに、 異なるセグメ ン ト間 の類似性を測定するためのデータを供給するセグメン 卜の属性であ る。 送信装置 1 0は、 各セグメントの特徴量を計算し、 セグメント の特徴を表す。 送信装置 1 0は、 いかなる特徴の具体的詳細にも依 存するものではないが、 当該送信装置 1 0において用いて効果的で あると考えられる特徴量と しては、 例えば以下に示す映像特徴量、 音声特徴量、 映像音声共通特徴量のようなものがある。 送信装置 1 0において適用可能となるこれらの特徴量の必要条件は、 非類似性 の測定が可能であることである。 また、 送信装置 1 0は、 効率化の ために、 特徴量抽出と上述したビデオ分割とを同時に行うことがあ る。 以下に説明する特徴量は、 このような処理を可能にするもので ある。
特徴量と しては、 まず映像に関するものが挙げられる。 以下では、 これを映像特徴量と称することにする。 映像セグメントは、 連続す る映像フレームにより構成されるため、 映像セグメントから適切な 映像フレームを抽出することによって、 その映像セグメントの描写 内容を、 抽出した映像フレームで特徴付けることが可能である。 す なわち、 映像セグメントの類似性は、 適切に抽出された映像フレー ムの類似性で代替可能である。 このことから、 映像特徴量は、 送信 装置 1 0で用いることができる重要な特徴量の 1つである。 この場 合の映像特徴量は、 単独では静的な情報しか表せないが、 送信装置
1 0は、 後述するような方法を適用することによって、 この映像特 徴量に基づく映像セグメントの動的な特徴を抽出することもできる c 映像特徴量と して既知のものは多数存在するが、 シーン検出のた めには以下に示す色特徴量 (ヒス トグラム) 及び映像相関が、 計算 コス トと精度との良好な兼ね合いを与えることを見出したことから、 送信装置 1 0は、 映像特徴量と して、 これらの色特徴量及び映像相 関を用いることとする。 送信装置 1 0において、 映像における色は、 2つの映像が類似し ているかを判断する際の重要な材料となる。 カラーヒス トグラムを 用いて映像の類似性を判断することは、 例えば "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexi ng digital video, J. of Visual Communication and Image Repre sentation 7:28—4, 1996" (こ記載されてレヽるよう ίこ、 よく知られて いる。 ここで、 カラ一ヒス トグラムとは、 例えば H S Vや R G B等 の 3次元色空間を n個の領域に分割し、 映像における画素の、 各領 域での出現頻度の相対的割合を計算したものである。 そして、 得ら れた情報からは、 n次元ベク トルが与えられる。 圧縮されたビデオ データに関しても、 例えば U. S. Patent #5, 708, 767号公報に記載さ れているように、 カラーヒス トグラムを、 圧縮データから直接抽出 することができる。
送信装置 1 0では、 セグメントを構成する映像におけるもともと の YU V色空間を、 色チャンネル当たり 2ビッ トでサンプルして構 成した、 22 ·3= 6 4次元のヒス トグラムべク トルを用いている。
このようなヒス トグラムは、 映像の全体的な色調を表すが、 これ には時間情報が含まれていない。 そこで、 送信装置 1 0においては、 もう 1つの映像特徴量と して、 映像相関を計算する。 送信装置 1 0 におけるシーン検出において、 複数の類似セグメントが互いに交差 した構造は、 それがまとまった 1つのシーン構造であることを示す 有力な指標となる。 例えば会話場面において、 カメラの位置は、 2 人の話し手の間を交互に移動するが、 カメラは通常、 同一の話し手 を再度撮影するときには、 ほぼ同じ位置に戻る。 このような場合に おける構造を検出するためには、 グレイスケールの縮小映像に基づ く相関がセグメントの類似性の良好な指標となることを見出したこ とから、 送信装置 1 0では、 元の映像を M X Nの大きさのグレイス ケール映像へ間引き縮小し、 これを用いて映像相関を計算する。 こ こで、 Mと Nは、 両方とも小さな値で十分であり、 例えば 8 X 8で ある。 すなわち、 これらの縮小グレイスケール映像は、 M N次元の 特徴量べク トルと して解釈される。
さらに上述した映像特徴量とは異なる特徴量と しては、 音声に関 するものが挙げられる。 以下では、 この特徴量を音声特徴量と称す ることにする。 音声特徴量とは、 音声セグメントの内容を表すこと ができる特徴量であり、 送信装置 1 0は、 この音声特徴量と して、 周波数解析、 ピッチ、 レベル等を用いることができる。 これらの音 声特徴量は、 種々の文献により知られているものである。
まず、 送信装置 1 0は、 フーリエ変換等の周波数解析を行うこと によって、 単一の音声フレームにおける周波数情報の分布を決定す ることができる。 送信装置 1 0は、 例えば、 1つの音声セグメント にわたる周波数情報の分布を表すために、 F F T (Fast Fouri er T ransform; 高速フ一リエ変換) 成分、 周波数ヒス トグラム、 パワー スペク トル、 その他の特徴量を用いることができる。
また、 送信装置 1 0は、 平均ピッチや最大ピッチ等のピッチや、 平均ラウ ドネスゃ最大ラゥ ドネス等の音声レベルもまた、 音声セグ メントを表す有効な音声特徴量と して用いることができる。
さらに他の特徴量と しては、 映像音声共通特徴量が挙げられる。 これは、 映像特徴量でもなく音声特徴量でもないが、 送信装置 1 0 において、 シーン内のセグメン トの特徴を表すのに有用な情報を与 えるものである。 送信装置 1 0は、 この映像音声共通特徴量と して、 セグメント長とアクティ ビティ とを用いる。
送信装置 1 0は、 映像音声共通特徴量と して、 セグメント長を用 いることができる。 このセグメント長は、 セグメントにおける時間 長である。 一般に、 シーンは、 そのシーンに固有のリズム特徴を有 する。 このリズム特徴は、 シーン内のセグメント長の変化と して表 れる。 例えば、 迅速に連なった短いセグメントは、 コマーシャ /レを 表す。 一方、 会話シーンにおけるセグメ ン トは、 コマーシャルの場 合より も長く、 また会話シーンには、 相互に組み合わされたセグメ ントが互いに類似しているという特徴がある。 送信装置 1 0は、 こ のような特徴を有するセグメント長を映像音声共通特徴量と して用 いることができる。
また、 送信装置 1 0は、 映像音声共通特徴量と して、 ァクティ ビ ティを用いることができる。 アクティ ビティ とは、 セグメン トの内 容がどの程度動的或いは静的であるように感じられるかを表す指標 である。 例えば、 視覚的に動的である場合、 アクティビティは、 力 メラが対象物に沿って迅速に移動する度合い若しくは撮影されてい るオブジェク トが迅速に変化する度合いを表す。
このァクティ ビティは、 カラ一ヒス トグラムのような特徴量のフ レーム間非類似性の平均値を測定することによって、 間接的に計算 される。 ここで、 フレーム i とフレーム j との間で測定された特徴 量 Fに対する非類似性測定基準を d F ( i , j ) と定義すると、 映像 アクティ ビティ V Fは、 次式 ( 1 ) のように定義される。
/ - 1
+ ( 1 )
f - b 式 ( 1 ) において、 b と f は、 それぞれ、 1セグメントにおける 最初と最後のフレームのフレーム番号である。 送信装置 1 0は、 具 体的には、 例えば上述したヒス トグラムを用いて、 映像ァクテイ ビ ティ V Fを計算することができる。
ところで、 上述した映像特徴量を始めとする特徴量は、 基本的に はセグメン卜の静的情報を表すものであることは上述した通りであ るが、 セグメントの特徴を正確に表すためには、 動的情報をも考慮 する必要がある。 そこで、 送信装置 1 0は、 以下に示すような特徴 量のサンプリング方法により動的情報を表す。
送信装置 1 0は、 例えば図 3 4に示すように、 1セグメント内の 異なる時点から 1以上の静的な特徴量を抽出する。 このとき、 送信 装置 1 0は、 特徴量の抽出数を、 そのセグメ ン ト表現における忠実 度の最大化とデータ冗長度の最小化とのバランスをとることにより 決定する。 例えば、 セグメン ト内の或る 1画像が当該セグメ ン トの キーフレームと して指定可能な場合には、 そのキーフレームから計 算されたヒス トグラムが、 抽出すべき特徴量となる。
送信装置 1 ◦は、 後述するサンプリング方法を用いて、 対象とす るセグメントにおいて、 特徴と して抽出可能なサンプルのうち、 ど のサンプルを選択するかを決定する。
ところで、 或るサンプルが常に所定の時点、 例えばセグメント内 の最後の時点において選択される場合を考える。 この場合、 黒フレ ームへ変化 (fade) していく任意の 2つのセグメントについては、 サンプルが同一の黒フレームとなるため、 同一の特徴量が得られる 結果になる恐れがある。 すなわち、 これらのセグメントの映像内容 がいかなるものであれ、 選択した 2つのフレームは、 極めて類似し ていると判断されてしまう。 このような問題は、 サンプルが良好な 代表値でないために発生するものである。
そこで、 送信装置 1 0は、 このように固定点で特徴量を抽出する のではなく、 セグメント全体における統計的な代表値を抽出するこ ととする。 ここでは、 一般的な特徴量のサンプリング方法を 2つの 場合、 すなわち、 ( 1 ) 特徴量を実数の n次元べク トルと して表す ことができる場合と、 ( 2 ) 非類似性測定基準しか利用できない場 合とについて説明する。 なお、 ( 1 ) には、 ヒス トグラムやパワー スぺク トル等、 最もよく知られている映像特徴量及び音声特徴量が 含まれる。
( 1 ) においては、 サンプル数は、 事前に kと決められており、 信装 li 1 0は、 'し Kaufman and P. J. Rousseeuw, Finding Gro ups in Data: An Introduction to Cluster Analysis, John - Wiley and sons, 1990" に記載されてよく知られている k平均値クラスタ リング法 (k- means - clustering method) を用レヽて、 セグメン ト全体 についての特徴量を k個の異なるグループに自動的に分割する。 そ して、 送信装置 1 0は、 サンプル値と して、 k個の各グループから、 グループの重心ィ直 (centroid) 又はこの重心値に近いサンプルを選 択する。 送信装置 1 0におけるこの処理の複雑度は、 サンプル数に 関して単に直線的に増加するにとどまる。
—方、 (2 ) においては、 送信装置 1 0は、 "L. Kaufman and P. J. Rousseeuw, rinding Groups in Data: An Introduction to し丄 us ter Analysis, John-Wiley and sons, 1990" ίこ言己載され,てレヽる k— メ ドィ ドアノレコ、'リズム法 (k-medoids algorithm method) を用レヽて、 k個のグループを形成する。 そして、 送信装置 1 0は、 サンプル値 と して、 k個のグループ毎に、 上述したグループのメ ドィ ド (medo i d) を用いる。
なお、 送信装置 1 0においては、 抽出された動的特徴を表す特徴 量についての非類似性測定基準を構成する方法は、 その基礎となる 静的な特徴量の非類似性測定基準に基づく ± これについては後述 する。
このようにして、 送信装置 1 0は、 静的な特徴量を複数抽出し、 これらの複数の静的な特徴量を用いることによって、 動的特徴を表 すことができる。
以上のように、 送信装置 1 0は、 種々の特徴量を抽出することが できる。 これらの各特徴量は、 一般に、 単一ではセグメントの特徴 を表すのに不十分であることが多い。 そこで、 送信装置 1 0は、 こ れらの各種特徴量を組み合わせることで、 互いに補完し合う特徴量 の組を選択することができる。 例えば、 送信装置 1 0は、 上述した カラーヒス トグラムと映像相関とを組み合わせることによって、 各 特徴量が有する情報より も多くの情報を得ることができる。
つぎに、 図 3 3中ステップ S 3における特徴量を用いたセグメン トの類似性測定について説明する。 送信装置 1 0は、 2つの特徴量 について、 それがどの程度非類似であるかを測定する実数値を計算 する関数である非類似性測定基準を用いて、 セグメントの類似性測 定を行う。 この非類似性測定基準は、 その値が小さい場合は 2つの 特徴量が類似していることを示し、 値が大きい場合は非類似である ことを示す。 ここでは、 特徴量 Fに関する 2つのセグメント S , S 2の非類似性を計算する関数を非類似性測定基準 d F ( S : , S 2 ) と 定義する。 このような関数は、 以下の式 ( 2 ) で与えられる関係を 満足させる必要がある
dF[S , S2) = 0 のとき)
Figure imgf000051_0001
d {S ,S \≥Q 全ての ,について
F\ V 2) ί \ 1 ,S 2 J I (2) dF S S2) = dF[S2 , (全ての , S2 について
ところで、 非類似性測定基準の中には、 或る特定の特徴量にのみ 適用可能なものがある力 "G. Ahanger and T. D. C. Little, A su rvey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7 :28 - 4, 199o や L. Kaufman and P. J. Rousseeu , Finding Groups in Data: An Introduction to Cluster Analysis, John-Wiley and son s, 1990" に記載されているよ うに、 一般には、 多くの非類似性測定 基準は、 n次元空間における点と して表される特徴量についての類 似性を測定するのに適用可能である。 その具体例は、 ユーク リ ッ ド 距離、 内積、 L 1距離等である。 ここで、 特に L 1距離が、 ヒス ト グラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作 用することから、 送信装置 1 0は、 L 1距離を導入する。 ここで、 2つの n次元ベク トルを A, Bと した場合、 A, B間の L 1距离隹 d L i (A, B ) は、 次式 ( 3 ) で与えられる。
Α ~Β (3) „〜
PCT/JP00/00424
50 ここで、 下付文字 i は、 n次元ベク トル A, Bのそれぞれの i 番 目の要素を示すものである。
また、 送信装置 1 0は、 上述したように、 動的特徴を表す特徴量 と して、 セグメントにおける様々な時点での静的な特徴量を抽出す る。 そして、 送信装置 1 0は、 抽出された 2つの動的特徴量の間の 類似性を決定するために、 その非類似性測定基準と して、 その基礎 となる静的特徴量の間の非類似性測定基準を用いる。 これらの動的 特徴量の非類似性測定基準は、 多くの場合、 各動的特徴量から選択 された最も類似した静的特徴量の対の非類似性値を用いて決定され るのが最良である。 この場合、 2つの抽出された動的特徴量 S F S F 2の間の非類似性測定基準は、 次式 (4 ) のように定義される。
d(SF,SF )= min d (F,F) ίΛ
上式 (4 ) における関数 d F ( F ! , F ,) は、 その基礎となる静的 特徴量 Fについての非類似性測定基準を示す。 なお、 場合によって は、 特徴量の非類似性の最小値をとる代わりに、 最大値又は平均値 をとつてもよレ、。
ところで、 送信装置 1 0は、 セグメントの類似性を決定する上で、 単一の特徴量だけでは不十分であり、 同一セグメン トに関する多数 の特徴量からの情報を組み合わせることを必要とする場合も多い。 この 1つの方法と して、 送信装置 1 0は、 種々の特徴量に基づく非 類似性を、 それぞれの特徴量の重み付き組み合わせと して計算する。 すなわち、 送信装置 1 0は、 k個の特徴量 F F:, · · · , F kが PC画麵 424
51 存在する場合、 次式 ( 5) に表される組み合わせた特徴量に関する 非類似性測定基準 d F (S:, S 2) を用いる。
^^2) =∑^ ^2) ' ' ' (5)
ここで、 {w ,} は、 ∑ i w i = 1 となる重み係数である。
以上のように、 送信装置 1 0は、 図 3 3中ステップ S 2におレヽて 抽出された特徴量を用いて非類似性測定基準を計算し、 当該セグメ ン ト間の類似性を測定することができる。
つぎに、 図 3 3中ステップ S 4におけるセグメントのグノレーフ化 について説明する。 送信装置 1 0は、 非類似性測定基準と抽出した 特徴量とを用いて、 時間的に近接して類似したセグメントを繰り返 しまとめてグループ化し、 最終的に生成されたグループを検出シー ンと して出力する。
送信装置 1 0は、 セグメントをグループ化してシーンを検出する 際に、 2つの基本的な処理を行う。 送信装置 1 0は、 まず第 1の処 理と して、 互いに時間的に近接して類似したセグメントのグループ を検出する。 この処理により得られるグループは、 ほとんどが同一 シーンの一部となるものである。 そして、 送信装置 1 0は、 第 2の 処理と して、 互いに時間が重複したセグメントのグループを 1つに まとめる。 送信装置 1 0は、 このような処理を各セグメントが独立 した状態から開始し、 反復して繰り返す。 そして、 送信装置 1 0は- 徐々にセグメントのグループを大きく構築していき、 最終的に生成 したグループをシーンの組と して出力する。 このような処理において、 送信装置 1 0は、 その処理動作を制御 するために 2つの制約を用いる。
すなわち、 送信装置 1 0は、 第 1の制約と して、 2つのセグメン トがどの程度類似している場合に、 同一のシーンのものであるとみ なすかを決定する非類似性閾値 δ s を用いる。 例えば、 図 3 5に示 すように、 送信装置 1 0は、 或るセグメントに対して、 一方のセグ メン トが類似性領域に属するか非類似性領域に属するかを判断する。 なお、 送信装置 1 0は、 非類似性閾値 δ s i mをユーザにより設定す るようにしてもよく、 また、 後述するよ うに、 自動的に決定しても よい。
また、 送信装置 1 0は、 第 2の制約と して、 2つのセグメントが なお同一シーン内のセグメン トとみなし得る時間軸上の隔たりの最 大値と して、 時間閾値 Tを用いる。 例えば、 図 3 6に示すように、 送信装置 1 0は、 時間閾値 Tの範囲内で互いに近接して続いている 類似した 2つのセグメン ト A Bを同一シーンにまとめるが、 時間 的に大きく離れていて時間閾値 Tの範囲外である 2つのセグメン ト B , Cをまとめることはない。 このように、 送信装置 1 0は、 この 時間閾値 τによる時間制約があるために、 互いに類似しているもの の時間軸上で大きく隔たっているセグメントを同一シーンにまとめ てしまう というエラーを発生することがない。
なお、 この時間閾値 Tと しては、 6 8ショ ッ ト分に相当する時 間を設定した場合が概して良好な結果を与えることを見出したこと から、 送信装置 1 0は、 基本的に、 時間閾値 Tを 6 8ショ ッ ト単 位と して用いることとする。
送信装置 1 0は、 類似セグメントのグループを求めるために、 こ こで ίま、 "L. Kaufman and P. J. Rousseeuw, Finding Groups in D ata: An Introduction to Cluster Analysis, John - Wiley and sons,
1990" に記載されている階層的クラスタ分割方法 (hierarchical clustering method) を適合させて用いることにする。 このアルゴリ ズムにおいては、 2つのクラスタ C C 2間の非類似性測定基準 d c (C:, C 2 ) について、 次式 (6 ) に示すように、 それぞれのクラ スタに含まれる要素間の最小非類似性と して定義する。
d ie , c )= 画
dists{S , S2)
(6)
なお、 送信装置 1 0においては、 上式 (6 ) で示される最小関数 を最大関数又は平均関数に容易に置換することができる。
まず、 送信装置 1 0は、 図 3 7に示すように、 ステップ S 1 1に おいて、 変数 Nを初期状態のセグメントの数に初期化する。 この変 数 Nは、 常に現在検出されているグループの数を示すものである。 続いて、 送信装置 1 0は、 ステップ S 1 2において、 クラスタの 組を生成する。 送信装置 1 0は、 初期状態では、 N個の各セグメン トを異なるクラスタとみなす。 すなわち、 初期状態では、 N個のク ラスタが存在することになる。 各クラスタは、 C s ' 3 ' 'と C e ndとに より表されるその開始時と終了時とを示す特徴を有する。 クラスタ に含まれる要素は、 C 'により順序付けられたリ ス ト と して管理 される。
続いて、 送信装置 1 0は、 ステップ S 1 3において、 変数 tを 1 に初期化し、 ステップ S 1 4において、 変数 tが時間閾値丁よ り も 大きいか否かを判別する。 ここで、 送信装置 1 0は、 変数 tが時間 閾値 Tより も大きい場合には、 ステップ S 2 3へと処理を移行し、 変数 tが時間閾値 Tより も小さい場合には、 ステップ S 1 5へと処 理を移行する。 ただし、 ここでは、 変数 tが 1であるため、 送信装 置 1 0は、 ステップ S 1 5へと処理を移行する。
送信装置 1 0は、 ステップ S 1 5において、 非類似性測定基準 d cを計算し、 N個のクラスタの中から最も類似した 2つのクラスタを 検出する。 ただし、 ここでは、 変数 tが 1であるため、 送信装置 1 0は、 隣接したクラスタ間の非類似性測定基準 d cを計算し、 その中 から最も類似したクラスタの対を検出する。
このような最も類似した 2つのクラスタを検出する方法と しては、 対象となる全てのクラスタの対を求めることが考えられる。 しかし ながら、 ここでは、 対象とするクラスタの時間的隔たりを表す変数 tがセグメン ト単位で与えられ、 さらにクラスタが時間順に整頓さ れていることから、 送信装置 1 0は、 或るクラスタにおいて、 その 前後 t個までのクラスタを非類似性の計算対象とすればよい。
ここで、 検出された 2つのクラスタをそれぞれ C i, C ,と定義し、 これらのクラスタ C i, C ,の間の非類似性の値を d ; iと定義する。 送信装置 1 0は、 ステップ S 1 6において、 非類似性値 d が非 類似性閾値 δ s ,mより も大きいか否かを判別する。 ここで、 送信装置 1 0は、 非類似性値 d uが非類似性閾値 δ s i raより も大きい場合には. ステップ S 2 1へと処理を移行し、 非類似性値 d uが非類似性閾値 δ s i mより も小さい場合には、 ステップ S 1 7へと処理を移行する。 ここでは、 非類似性値 d が非類似性閾値 δ s i raより も小さいものと する。 送信装置 1 0は、 ステップ S I 7において、 クラスタ C iをクラス タ。 >に結合する。 すなわち、 送信装置 1 0は、 クラスタ C iの要素 の全てをクラスタ に加える。
続いて、 送信装置 1 0は、 ステップ S 1 8において、 クラスタ C iをクラスタの組から除去する。 なお、 2つのクラスタ C ,, C iを結 合することにより開始時 C ^ 1の値が変化した場合には、 送信装 置 1 0は、 クラスタの組の要素を開始時 C t a に基づいて再び並 ベ替 る。
続いて、 送信装置 1 0は、 ステップ S 1 9において、 変数 Nから 1を減じる。
そして、 送信装置 1 0は、 ステップ S 2 0において、 変数 Nが 1 であるか否かを判別する。 ここで、 送信装置 1 0は、 変数 Nが 1で ある場合には、 ステップ S 2 3へと処理を移行し、 変数 Nが 1でな い場合には、 ステップ S 1 5へと処理を移行する。 ここでは、 変数 Nが 1でないものとする。
すると、 送信装置 1 0は、 ステップ S 1 5において、 再び非類似 性測定基準 d cを計算し、 N— 1個のクラスタの中から最も類似した 2つのクラスタを検出する。 ここでも、 変数 tが 1であるため、 送 信装置 1 0は、 隣接したクラスタ間の非類似性測定基準 d cを計算し その中から最も類似したクラスタの対を検出する。
続いて、 送信装置 1 0は、 ステップ S 1 6において、 非類似性値 d , iが非類似性閾値 δ S l raより も大きいか否かを判別する。 ここでも. 非類似性値 d が非類似性閾値 δ 5 imより も小さいものとする。
そして、 送信装置 1 0は、 ステップ S 1 7乃至ステップ S 2 0の 処理を行う。 送信装置 1 0は、 このような処理を繰り返し、 変数 Nが減算され ていった結果、 ステップ S 2 0において、 変数 Nが 1であると判別 した場合には、 ステップ S 2 3において、 単一のセグメントのみを 含むクラスタを結合する。 最終的には、 送信装置 1 0は、 この場合 は、 全てのセグメントが 1つのクラスタにまとめられる形となり、 一連の処理を終了する。
さて、 送信装置 1 0は、 ステップ S 1 6において、 非類似性値 d が非類似性閾値 δ s i mより も大きいと判別した場合には、 ステップ S 2 1へと処理を移行するが、 この場合には、 ステップ S 2 1にお いて、 時間的に重複しているクラスタを繰り返し結合する。 すなわ ち、 C iの時間間隔 [C i , C ,e nd] 、 C ,の時間間隔 [C is t a r t, C ie nd] と相交している場合には、 2つのクラスタ と C i は、 時間軸上で重複している。 これにより、 送信装置 1 0は、 クラ スタをその組の開始時 C■ に基づいて整頓することによって、 重複しているクラスタを検出し、 それらのクラスタを 1つに結合す ることができる。
そして、 送信装置 1 0は、 ステップ S 2 2において、 変数 tに 1 を加算して t = 2と し、 ステップ S 1 4へと処理を移行して変数 t が時間閾値 Tより も大きいか否かを判別する。 ここでも、 変数 が 時間閾値 Tより も小さいものと し、 送信装置 1 0は、 ステップ S 1 5へと処理を移行するものとする。
送信装置 1 0は、 ステップ S 1 5において、 非類似性測定基準 d cを計算し、 現在存在する複数のクラスタの中から最も類似した 2つ のクラスタを検出する。 ただし、 ここでは、 変数 tが 2であるため、 送信装置 1 0は、 隣接クラスタ及び 1つおきに隔たっているクラス タ間の非類似性測定基準 d cを計算し、 その中から最も類似したクラ スタの対を検出する。
そして、 送信装置 1 0は、 ステップ S 1 6において、 隣接クラス タ及び 1つおきに隔たっているクラスタ C C ,の非類似性値 d u が非類似性閾値 δ s i mより も大きいか否かを判別する。 ここでも、 非 類似性値 d が非類似性閾値 δ s i mより も大きいものと し、 送信装置 1 0は、 ステップ S 2 1及びステップ S 2 2の処理を経て、 変数 t に 1 を加算して t = 3 と して再びステップ S 1 4以降の処理へと移 行する。 ここで、 送信装置 1 0は、 変数 tが 3のときには、 ステツ プ S 1 5において、 2つおきに隔たっているクラスタまでに存在す るクラスタとの間の非類似性測定基準 d cを計算し、 その中から最も 類似したクラスタの対を検出する。
送信装置 1 0は、 このよ うな処理を繰り返し、 変数 tが加算され ていった結果、 ステップ S 1 4において、 変数 tが時間閾値丁よ り も大きいと判別すると、 ステップ S 2 3へと処理を移行し、 単一の セグメ ン トのみを含むクラスタを結合する。 すなわち、 送信装置 1 0は、 孤立しているクラスタを単一のセグメン トのみを含むクラス タとみなし、 このよ うな一連のクラスタが存在している場合には、 これらのクラスタをまとめて結合していく。 この工程は、 近接のシ ーンとは類似性関連を有さないセグメン トをまとめるものである。 なお、 送信装置 1 0は、 必ずしもこの工程を行う必要はない。
このような一連の処理によって、 送信装置 1 0は、 複数のクラス タをまとめていき、 検出シーンを生成することができる。
なお、 送信装置 1 0は、 非類似性閾値 δ s i raをユーザにより設定す るようにしてもよく、 自動的に決定してもよいことは上述した通り である。 ただし、 非類似性閾値 δ S lraと して固定値を用いる場合には. その最適値は、 ビデオデータの内容に依存することとなる。 例えば、 変化に富んだ映像内容を有するビデオデータの場合、 非類似性閾値 S s i mは、 高い値に設定される必要がある。 一方、 変化が少ない映像 内容を有するビデオデータの場合、 非類似性閾値 5 S imは、 低い値に 設定される必要がある。 ここで一般に、 非類似性閾値 δ s imが高い場 合には、 検出されるシーンは少なくなり、 非類似性閾値 δ が低い 場合には、 検出されるシーンが多くなるという性質がある。
これより、 送信装置 1 0においては、 最適な非類似性閾値 δ S i mを 決定することが、 その性能を左右する上で重要となる。 そのため、 送信装置 1 0においては、 非類似性閾値 δ s imをユーザにより設定す る場合には、 上述したことを考慮した上で設定する必要がある。 一 方、 送信装置 1 0は、 以下に示す方法により、 有効な非類似性閾値 δ imを自動的に決定すること もできる。
例えば、 その 1 つの方法と して、 送信装置 1 0は、 (n ) ( n— 1 ) Z 2個のセグメント対の間の非類似性の分布における平均値や メジアン (中央値) といった統計量を用いて、 非類似性閾値 0 s , mを 得ることができる。 いま、 全てのセグメント対における非類似性の 平均値とその標準偏差をそれぞれ μ, σ と した場合、 非類似性閾値 5 s i mは、 a / + b ひ の形式で表すことができる。 ここで、 a及び b は定数であり、 それぞれ、 0. 5及び 0. 1に設定することが良好 な結果を与えることを見出している。
実用上においては、 送信装置 1 0は、 全てのセグメン ト対につい て、 それらの間の非類似性を求める必要はなく、 その平均値 及び 標準偏差 σが真値に十分近い結果を与えるに足りるセグメ ン ト対を、 全セグメント対集合からランダムに選択し、 その非類似性を求めれ ばよい- 送信装置 1 0は、 このよ うにして得られた平均値 μ及び標 準偏差 σを用いることによって、 適切な非類似性閾値 δ s i raを自動的 に決定することができる。
また、 送信装置 1 0は、 シ一ンを検出する際に、 セグメン トが同 一グループに属するか否かを決定するために、 単一の非類似性測定 基準を用いるばかりではなく、 重み付け関数を用いて、 異種の特徴 量に関する多様な非類似性測定基準を組み合わせることができるこ とは上述した通りである。 送信装置 1 0において、 このような特徴 量の重み付けは、 試行錯誤の末得られるものであるが、 各特徴量が 質的に異なるタイプのものである場合には、 通常、 適切な重み付け を行う ことは困難である。 しかしながら、 例えば、 カラ一ヒス トグ ラムとテクスチャフィーチャとを組み合わせる場合には、 送信装置 1 0は、 各特徴量に関してそれぞれシーンを検出し、 検出された各 シーン構造を単一のシーン構造に合成することによって、 両者の特 徴を考慮したシーン検出を実現することができる。 ここで、 各特徴 量に関してシーンを検出したそれぞれの結果をシーン層と称するこ とにする。 例えば、 特徴量と してカラ一ヒス トグラムとセグメン ト 長とを用いる場合、 送信装置 1 0は、 それぞれの特徴量に基づいた シーン検出によって、 カラーヒス トグラムについてのシ一ン層と、 セグメント長についてのシ一ン層とを得ることができる。 そして、 送信装置 1 0は、 これらのシーン層を単一のシーン構造に組み合わ せることができる。
さらに、 一般には、 映像領域と音声領域とからの情報を組み合わ せることはできないが、 送信装置 1 0は、 質的に異なるタイプの特 徴量に基づいた構造を組み合わせる場合と同様な方法により、 映像 鎮域と音声領域とからの情報に基づいて得られるシーン層を単一の シーン構造に組み合わせることができる。
このような処理のアルゴリズムについて説明する。 ここでは、 そ れぞれが類似性の 1つの基準を表す k個の特徴量 F F 2, · · ■ ,
F kがあるものと し、 各特徴量 F iに対応して、 非類似性測定基準 d ^と、 非類似性閾値 δ ^と、 時間閾値 Τ 'とがあるものとする。 送 信装置 1 0は、 これらの各特徴量 F iに対する非類似性測定基準 d F と、 非類似性閾値 δ i mと、 時間閾値 T :とを用いて、 シーン層の 組 X i = { X i ' J を検出する。 例えば、 送信装置 1 0は、 映像情報と 音声情報とに対して分割的にシーン層を検出し、 映像情報と音声情 報とに関する 2つの独立したシーン層 X; = { X i ' } ( i = 1 , 2 ) を生成する。
送信装置 1 0においては、 異なるシーン層を単一のシーン構造に 組み合わせるため、 シーン境界の組み合わせ方を決定する必要があ る。 このシーン境界は、 互いにそろっている保証はない。 ここで、 各シーン層に関して、 シーン境界を示す一連の時間で表される境界 点を い t , 2 , · · ■ , t i I X i Iで与えることとする。 まず、 送信装置 1 0は、 種々のシーン層を単一のグループに組み合わせる ために、 最初に或るシーン層を境界点の整列に関する基礎とするた めに選択する。 そして、 送信装置 1 0は、 他のシーン層の境界が最 終的に組み合わせて生成するシーン構造におけるシーン境界かどう かを各境界点!: , t i 2 > · · · , t i I X i Iに対して決定してい <。
ここで、 Β ; ( t ) を、 i番目のシーン層 X において、 或る時間 6L tで近接にそのシーン層の境界点があるかどうかを示す論理関数と する。 この 「近接」 の意味は、 シーン層 X ,の状況に応じて変化し、 例えば、 映像情報と音声情報とのそれぞれに基づくシーン層を結合 する場合には、 0. 5秒程度が適当である。
送信装置 1 0は、 各境界点 t i= t ij, j = i, · · · , I Xi I に関して、 1 = 1, ■ · · , kのそれぞれについて、 関数 ( t ;) の結果を計算する。 この結果は、 それぞれのシーン層に関して、 時間 t iの近くに境界点があるかどうかを示している。 そして、 送信 装置 1 0は、 結合シーン構造において時間 t ,がシーン境界であるカ どうかを決定する際に、 決定関数と して、 B , ( t i) の値を用いる。 このような決定関数の 1つの単純な例は、 ( t i) が真である 個数を計数し、 この個数が定数 m以上となった場合に、 結合シーン 構造のシーン境界とみなすことである。 特に、 m= lの場合には、 全てのシーン層の境界点を最終シーン構造の境界点とみなすことと 同義であり、 一方、 m= kの場合には、 全てのシーン層において共 通してシーン境界とみなされた場合のみ、 結合シーン構造の境界点 とすることと同義である。
このようにして、 送信装置 1 0は、 異なるシーン層を単一のシ一 ン構造に結合することができる。
このよ うな送信装置 1 0における処理結果は、 上述したディスク リプタを用いて記述することができる。
図 3 3中ステップ S 2における特徴量抽出結果を記述するために 用いられるディスク リプタと しては、 例えば、 アクティ ビティ · レ ベル ' ディスク リプタ、 シグネチヤ ' ディスク リプタ、 テンポラル • シグネチヤ ' ディスク リプタ、 シノプシス ' ディスク リプタ等が ある。
アクティ ビティ · レベル · ディスク リプタは、 特徴量抽出結果と して得られた映像音声ともに関する特徴と してのアクティ ビティを 記述するのに用いられる。 また、 シグネチヤ ' ディスク リプタは、 特徴量抽出結果と して得られた、 セグメン卜の静的情報を表すため の特徴を記述するのに用いられる。 さらに、 テンポラル ' シグネチ ャ - ディスク リプタは、 特徴量抽出結果と して得られた、 セグメン トの動的情報を表すための最適な特徴を記述するのに用いることが できる。 さらにまた、 シノプシス ' ディスク リプタは、 同図中ステ ップ S 4において検出したシーンを、 特徴量抽出工程における動的 特徴の抽出により検出した代表フレームで代表させることを記述す る際に用いられる。
また、 同図中ステップ S 3における特徴量を用いたセグメン トの 類似性測定結果を記述するために用いられるディスク リプタと して は、 例えば、 ウェイ ト ' ベク トル · ディスク リプタ等がある。
さらに、 同図中ステップ S 4におけるセグメ ントのグループ化結 果を記述するために用いられるディスク リプタと しては、 例えば、 A Vプロ トタイプ ' ディスク リプタ、 クラスタ ' ディスク リプタ、 コンポジッ ド . セグメン ト ' ディスク リプタ、 A Vグラフ · デイス ク リプタ、 ショ ッ ト ' ディスク リプタ、 シーン ' ディスク リプタ等 力 sある。
A Vプロ トタイプ · ディスク リプタやクラスタ , ディスク リプタ は、 グループ化工程の結果得られた A Vエレメン 卜のクラスタを記 述するのに用いられる。 また、 コンポジッ ド ' セグメント · デイス ク リブタは、 グループ化工程の結果得られた A Vセグメン トゃシ一 ンのクラスタを記述するのに用いられる。 さらに、 A Vグラフ ' デ イスク リプタは、 グループ化工程において検出したシーンの内容を、 幾つかのシーンの反復構造と して記述するのに用いられる。 さらに また、 ショ ッ ト ' ディスク リプタは、 グループ化工程においてシー ンを検出する際の基となるショ ッ トを記述するのに用いられ、 シー ン ' ディスク リプタは、 グループ化工程において検出したシーンを 記述するのに用いられる。
したがって、 或るビデオデータにおけるシーン構造を記述するデ イスク リプシヨ ン ' スキームは、 複数のディスク リプタの集合によ り表される。 この具体例と して、 或る 1つのシーンを記述するのに 必要なディスク リプション · スキーム及び特徴データと してのシ一 ン記述の一例を、 図 3 8及び図 3 9にそれぞれ示す。 ここで対象と するシーンは、 開始位置がフレーム番号 " 1 2 5 4 7 " であり、 終 了位置がフレ一ム番号 " 1 2 8 3 0 " であるものとする。 なお、 図 3 9中でセミ コロン ( ; ) の後の記載は、 この行において参照すベ きディスク リプタのクラスを示している。
まず、 シーン記述は、 図 3 9における 1行目で、 シーン記述を示 すディスク リプタの始まりを示す。 このシーンに対応する図 3 8上 でのノー ドは、 " Scene" とラベリングされたルー ト . ノードである t 次に、 シーン記述は、 図 3 9における 2、 3行目で、 それぞれ、 シーンの開始位置 (s tartPo i n t) 及び終了位置 (endPo int) を、 時 間やフレーム番号等により指定する。 なお、 図 3 8中においてこの 情報は、 ノレート ■ ノードに付カロされた " s tartT ime " 及び " endT ime " により表される。
また、 シーン記述は、 図 3 9における 4行目で、 このシーン記述 が参照とすべきビデオデータの場所を指定する。
さらに、 シーン記述は、 同図における 5行目で、 シノプシス (sy nopsis) · ディスク リプタの始まりを示し、 ユーザにブラウジング させるためのキーフレーム (KEY_FRAME) を指定する。
次に、 シーン記述は、 同図における 6行目のシーケンス (sequen ce) · ディスク リプタによって、 以下に AVエレメ ン ト (AVElemen t) のシーケンスがあることを示す。 ここでは、 AVエレメン トは、 キーフレームである。
また、 シーン記述は、 同図における 7、 8、 9行目で、 それぞれ、 1、 2、 3番目のシノプシスのキーフレームを KEY— F RAME 1、 KEY一 F RAME 2、 KEY一 F RAME 3 と指定す る。 ただし、 ここでは、 KEY— F RAME 1、 KEY— F RA ME 2、 KEY— F RAME 3が具体的にどのフレームである かという指定を行っていないが、 実際には、 どこかで指定する必要 かめる。
さらに、 シーン記述は、 同図における 1 0、 1 1行目で、 それぞ れ、 シーケンス · ディスク リプタの終わり及びシノプシス ' デイス ク リプタの終わりを示す。
次に、 シーン記述は、 同図における 1 2行目で、 アブス トラク ト (abstract) · ディスク リプタの始まりを示し、 ビデオコンテンツ の内容を代表する部分の指定を行う。
また、 シーン記述は、 同図における 1 3行目で、 シグネチヤ (si gnature) · ディスク リプタの始まりを示し、 クラスタリング等に用 いるためのシーンの一部分を指定する。 ここでは、 ショ ッ ト ' シグ ネチヤで示されること (SHOT一 SIGNATURE) が宣言されている。 さらに、 シーン記述は、 同図における 1 4行目で、 シグネチヤの メンバ一 (members) の指定開始を示す。
そして、 シーン記述は、 同図における 1 5、 1 6行目で、 シグネ チヤのメンバ一の 1つ目力 S s h o t l、 2つ目力 s h o t 2、 3つ 目力; s h o t 3であることを示す。 この s h o t l及び s h o t 2 は、 2 2行目及び 3 2行目に定義されている。
また、 シーン記述は、 同図における 1 7行目で、 シグネチヤのメ ンバーの指定終了を示す。
次に、 シーン記述は、 同図における 1 8行目で、 シグネチヤのメ ンバーに対する重み付けを指定する。 ここでは、 3 11 0 1 1 には0. 1、 s h o t 2及び s h o t 3には 0. 4 5の重要度があることを 示している。
そして、 シーン記述は、 同図における 1 9、 2 0行目で、 それぞ れ、 シグネチヤ ' ディスク リプタ及びアブス トラク ト ' ディスク リ プタの終わりを示す。
次に、 シーン記述は、 同図における 2 1行目で、 コンポーネン ト (components) · ディスク リプタの始まりを示し、 このシーンの構 成要素を指定する。 このコンポーネントに対応する図 3 8中のノー ドは、 ルート · ノードの一段だけ下位のノード、 すなわち、 "shot 1" 、 "shot2" 、 "shot n" とラベリ ングされたノードである。 また、 シーン記述は、 図 3 9における 2 2行目で、 ショ ッ ト (sh ot) ' ディスク リプタの始まりを示し、 第 1番目のショ ッ トの識別 子が s h o t lであることを指定し、 その内容を以下に記述するこ とを宣言する。
さらに、 シーン記述は、 同図における 2 3、 2 4行目で、 それぞ れ、 当該ショ ッ トの開始位置及び終了位置を、 時間やフレーム番号 等により指定する。 ここでは、 開始位置がフレーム番号 " 1 2 5 4 7 " であり、 終了位置がフレーム番号 " 1 2 6 1 6 " であることを 示している。 なお、 図 3 8中においてこの情報は、 ルー ト ' ノード の一段だけ下位にあり、 " shot l " とラベリングされたノードに付加 された " startTime" 及び " endTime" により表される。
次に、 シーン記述は、 図 3 9における 2 5行目で、 アブス トラク ト - ディスク リプタの始まりを示し、 当該ショ ッ 卜の内容を代表す る部分の指定を行う。
また、 シーン記述は、 同図における 2 6行目で、 シグネチヤ ' デ イスク リプタの始まりを示し、 クラスタ リング等に用いるための当 該ショ ッ トの一部分を指定する。 ここでは、 シグネチヤがフ レーム で示されること (FRAME— SIGNATURE) が宣言されている。
さらに、 シーン記述は、 同図における 2 7行目で、 シグネチヤの メンバーが 1つだけであることを示し、 そのフレーム番号を指定す る。 ここでは、 フレーム番号が " 1 2 5 9 0 " であることが記述さ れている。
また、 シーン記述は、 同図における 2 8行目で、 シグネチヤのメ ンバーに対する重み付けを指定する。 ここでは、 このシグネチヤを 構成するメンバーが 1つだけであるため、 その重要度が 1 . 0 とな つている。
そして、 シーン記述は、 同図における 2 9、 3 0、 3 1行目で、 それぞれ、 シグネチヤ · ディスク リプタの終わり、 アブス トラク ト • ディスク リプタの終わり及びショ ッ ト · ディスク リプタの終わり を示す。 次に、 シーン記述は、 同図における 3 2行目で、 ショ ッ ト ' ディ スク リプタの始まりを示し、 第 2番目のショ ッ トの識別子が s h o t 2であることを指定し、 その内容を以下に記述することを宣言す る。
また、 シーン記述は、 同図における 3 3、 3 4行目で、 それぞれ、 当該ショ ッ トの開始位置及び終了位置を、 時間やフレーム番号等に より指定する。 ここでは、 開始位置がフレーム番号 " 1 2 6 1 7 " であり、 終了位置がフレーム番号 " 1 2 6 2 8 " であることを示し ている。 なお、 図 3 8中においてこの情報は、 ルート ' ノー ドの一 段だけ下位にあり、 " shot 2" とラベリングされたノードに付加され た " startT ime " 及び " endTime" により表される。
また、 シーン記述は、 図 3 9における 3 5行目の位置に、 当該シ ョ ッ トの内容を示す多くのディスク リプタが記述されるが、 ここで は、 省略する。
そして、 シーン記述は、 同図における 3 6行目で、 ショ ッ ト ' デ イスク リプタの終わりを示す。
また、 シーン記述は、 同図における 3 7、 3 8行目の位置に、 そ れぞれ、 他のショ ッ トの内容を示す各種ディスク リプタ及び各ショ ッ トを記述する多くのディスク リプタが記述されるが、 ここでは、 省略する。
そして、 シーン記述は、 同図における 3 9行目で、 コンポーネン ト · ディスク リプタの終わりを示す。
次に、 シーン記述は、 同図における 4 0行目で、 このシーンのィ ンデッタス (i ndex) を示す幾つかの A Vハイアラキ (AVHi erarch y) ' ディスク リプタが以下に記述されることを宣言する。 また、 シーン記述は、 同図における 4 1行目で、 ハイアラキ (hi erarchy) · ディスク リプタの始まりを示し、 このハイアラキがショ ッ ト ' インデックスで示されること (SHOT— INDEX) を宣言する。 さらに、 シーン記述は、 同図における 4 2行目で、 クラスタ (cl uster) · ディスク リプタの始まりを示し、 第 1番目のクラスタを以 下に記述し、 このクラスタが c l u s t e r 1 という識別子を持つ ことを宣言する。
次に、 シーン記述は、 同図における 4 3行目で、 当該クラスタの メンバーの指定開始を示す。
また、 シーン記述は、 同図における 4 4行目で、 当該クラスタの メンバ一がショ ッ トであり、 その識別子が s h o t 2、 s h o t 4、 • · ' であることを指定する。
さらに、 シーン記述は、 同図における 4 5行目で、 当該クラスタ のメ ンバーの指定終了を示す。
次に、 シーン記述は、 同図における 4 6行目で、 アブス トラク ト - ディスク リプタの始まりを示し、 当該クラスタの内容を代表する 部分の指定を行う。
また、 シーン記述は、 同図における 4 7行目で、 プロ トタイプ (prototype) , ディスク リプタを示す。 ここでは、 当該クラスタの 内容を代表する部分の識別子が s h o t 4であることを示している。
さらに、 シーン記述は、 同図における 4 8、 4 9行目で、 それぞ れ、 ァブス トラク ト · ディスク リプタの終わり及びクラスタ , ディ スク リプタの終わりを示す。
次に、 シーン記述は、 同図における 5 0、 5 1行目で、 それぞれ、 クラスタ ' ディスク リプタを示し、 第 2、 3番目のクラスタが c l u s t e r 2、 c l u s t e r 3 という識別子を持つことを宣言す る。 なお、 これらの行の位置には、 その内容を記述する多くのディ スク リブタが示されるが、 ここでは、 省略する。
そして、 シーン記述は、 同図における 5 2行目で、 ハイアラキ - ディスク リプタの終わりを示す。
また、 シーン記述は、 同図における 5 3行目で、 このシーンのィ ンデックスを示す幾つかの A Vハイァラキの記述が終わることを宣 言する。
さらに、 シーン記述は、 同図における 5 4行目の位置に、 他にシ ーンの内容を示す多くのディスク リプタが記述されるが、 ここでは、 省略する。
次に、 シーン記述は、 同図における 5 5行目で、 このシーンの構 造を示す幾つかの A Vグラフ (AVGraph) ' ディスク リプタが以下に あることを宣言する。
そして、 シーン記述は、 同図における 5 6行目で、 AVグラフ - ディスク リプタの始まりを示し、 このグラフのエッジの構成要素が ショ ッ トであること (SHOT— GROUP) を宣言する。
また、 シーン記述は、 同図における 5 7乃至 6 1行目で、 AVグ ラフエッジ (AVGraphEdge) ' ディスク リプタを示す。 5 7行目では. グラフの開始点が c 1 u s t e r 1であることを示している。 この c 1 u s t e r 1は、 4 2行目で指定された識別子である。
さらに、 シーン記述は、 同図における 5 8、 5 9、 6 0行目で、 それそれ、 c l u s t e r l力 ら c l u s t e r 2に、 c l u s t e r i力 り c 1 u s t e r 2に、 c l u s t e r 2力 り c 1 u s t e r 3にグラフが伸びていることを示している。 そして、 シーン記述は、 同図における 6 1行目で、 グラフの終了 点が c 1 u s t e r 3であることを示し、 6 2行目で、 A Vグラフ • ディスク リプタの終わりを示す。
また、 シーン記述は、 同図における 6 3行目で、 このシーンの構 造を示す幾つかの A Vグラフ ' ディスク リプタの記述をこれで終わ ることを宣言する。
そして、 シーン記述は、 同図における 6 4行目の位置で、 このシ ーンの他の内容を記述する多くのディスク リプタを示した後、 6 5 行目で、 シーン記述を示すディスク リプタの終わりを示す。
このようにして、 或るビデオデータにおけるシーン構造を、 複数 のディスク リプタを用いた特徴データと して記述することができる。 送信装置 1 0は、 先に図 2に示した特徴データ生成部 1 2によつ て、 このような特徴データをビデオデータに応じて生成し、 ビデオ データとともに受信装置 2 0へと送信する。 そのため、 ビデオデー タとともに特徴データを受信した受信装置 2 0は、 特徴データに基 づき、 ビデオデータを解析するだけで、 ビデオデータのビデオ構造 を容易に回復することができ、 検索エンジン 2 3により例えばス ト 一リ一ボードを作成することができる。
したがって、 受信装置 2 0は、 ビデオデータのビデオ構造を解析 するための高度な処理能力ゃ大容量の計算資源を有する必要がなく、 低コス ト化及び小容量メモリ化を図ることができる。
そして、 ユーザは、 事前にビデオデータの内容の構造を知る必要 はなく、 ビデオデータに対して容易で且つ個人的にアクセスするこ とが可能となり、 ブラウジングを効率よく行うことができる。
うに、 ディスク リ プシヨ ン ' スキームと して定義される 本発明にかかるデータ記述方法は、 ビデオデータの内容を検索して ブラウジングする高度な方法を実現するものであって、 このデータ 記述方法により記述された特徴データは、 ビデオデータのビデオ構 造を的確に且つ簡便に効率よく表すことができる。 また、 上位クラ スのディスク リプタの機能を継承してディスク リプタを構成するこ とから、 ディスク リプタが高度な機能を有するものへと容易に拡張 され得て拡張性に優れたディスク リプシヨン ' スキームを構築する ことが可能であると ともに、 特徴データの容量を小さくすることが でき、 受信装置 2 0の小容量メモリ化に対する一助となる。
なお、 本発明は、 上述した実施の形態に限定されるものではなく - 例えば、 各ディスク リプタは、 上位のディスク リプタの機能が継承 されていなくてもよい。 ただしこの場合、 特徴データには、 1つの ディスク リプタに関して、 その上位のディスク リプタを全て書き下 す必要がある。
また、 本発明は、 ビデオデータからビデオ構造を抽出する処理と しては、 上述したもの以外であってもよいことは勿論である。
このように、 本発明は、 その趣旨を逸脱しない範囲で適宜変更が 可能であることはいうまでもない。 産業上の利用可能性 以上詳細に説明したように、 本発明にかかるデータ記述方法は、 入力データの内容の特徴を表す特徴データを記述するためのデータ 記述方法であって、 記述方法を定義する単位要素となる記述子は、 下位要素と しての属性が定義される構造を有し、 属性と して記述子 を含み得る。
したがって、 本発明にかかるデータ記述方法は、 構造を有する記 述子の集合を用いて構造化された特徴データを記述することができ、 この特徴データに基づいて、 容易に入力データの内容の特徴を抽出 することができる。
また、 本発明にかかるデータ処理装置は、 入力データの内容の特 徴を表す特徴データを生成するデータ処理装置であって、 記述方法 を定義する単位要素となる記述子に関し、 下位要素と しての属性が 定義される構造を有し、 属性と して記述子を含み得る記述子に基づ いて特徴データを生成する生成手段を備える。
したがって、 本発明にかかるデータ処理装置は、 構造を有する記 述子の集合を用いて構造化された特徴データを生成することができ、 この特徴データに基づいて、 的確且つ簡便に効率よく入力データの 内容の特徴を表現することができる。
さらに、 本発明にかかるデータ処理装置は、 入力データの内容の 特徴を表す特徴データを利用するデータ処理装置であって、 記述方 法を定義する単位要素となる記述子に関し、 下位要素と しての属性 が定義される構造を有し、 属性と して記述子を含み得る記述子に基 づいて生成された特徴データを利用して、 入力データの内容の特徴 を復元する復元手段を備える。
したがって、 本発明にかかるデ一タ処理装置は、 特徴データに基 づいて、 入力データの内容の特徴を復元することができ、 高度な処 理能力ゃ大容量の計算資源を必要とせずに入力データの内容の特徴 を抽出することができる。

Claims

請求の範囲
1 . 入力データの内容の特徴を表す特徴データを記述するためのデ ータ記述方法であって、
記述方法を定義する単位要素となる記述子は、 下位要素と しての 属性が定義される構造を有し、 上記属性と して記述子を含み得るこ と
を特徴とするデータ記述方法。
2 . 上記入力データは、 ビデオデータにおける映像データと音声デ ータとの少なく とも一方を含むこと
を特徴とする請求の範囲第 1項記載のデータ記述方法。
3 . 上記記述子は、 上記構造の形成能力を含めて上位の記述子の機 能が継承されて生成されること
を特徴とする請求の範囲第 1項記載のデータ記述方法。
4 . 上記下位要素と しての属性は、 記述子及び Z又は特定の属性を 定義することにより構成されること
を特徴とする請求の範囲第 1項記載のデータ記述方法。
5 . 入力データの内容の特徴を表す特徴データを生成するデータ処 理装置であって、
記述方法を定義する単位要素となる記述子に関し、 下位要素と し ての属性が定義される構造を有し、 上記属性と して記述子を含み得 る記述子に基づいて特徴データを生成する生成手段を備えること を特徴とするデータ処理装置。
6 . 上記入力データは、 ビデオデータにおける映像データと音声デ ータとの少なく とも一方を含むこと を特徴とする請求の範囲第 5項記載のデータ処理装置。
7 . 上記記述子は、 上記構造の形成能力を含めて上位の記述子の機 能が継承されて生成されたものであること
を特徴とする請求の範囲第 5項記載のデータ処理装置。
8 . 上記下位要素と しての属性は、 記述子及び Z又は特定の属性を 定義することにより構成されていること
を特徴とする請求の範囲第 5項記載のデータ処理装置。
9 . 上記特徴データを、 上記入力データとともに、 外部機器へと送 信すること
を特徴とする請求の範囲第 5項記載のデータ処理装置。
1 0 . 入力データの内容の特徴を表す特徴データを利用するデータ 処理装置であって、
記述方法を定義する単位要素となる記述子に関し、 下位要素と し ての属性が定義される構造を有し、 上記属性と して記述子を含み得 る記述子に基づいて生成された特徴データを利用して、 上記入力デ ータの内容の特徴を復元する復元手段を備えること
を特徴とするデータ処理装置。
1 1 . 上記入力データは、 ビデオデータにおける映像データと音声 データとの少なく とも一方を含むこと
を特徴とする請求の範囲第 1 0項記載のデータ処理装置。
1 2 . 上記記述子は、 上記構造の形成能力を含めて上位の記述子の 機能を継承して生成されたものであること
を特徴とする請求の範囲第 1 0項記載のデータ処理装置。
1 3 . 上記下位要素と しての属性は、 記述子及び/又は特定の属性 を定義することにより構成されていること を特徴とする請求の範囲第 1 0項記載のデータ処理装置。
1 4 . 上記復元手段は、 上記入力データの特徴を復元して上記入力 データの加工されたデータを生成すること
を特徴とする請求の範囲第 1 0項記載のデータ処理装置。
1 5 . 上記特徴データを、 上記入力データとともに、 外部機器から 受信すること
を特徴とする請求の範囲第 1 0項記載のデータ処理装置。
PCT/JP2000/000424 1999-01-29 2000-01-27 Procede de description de donnees et unite de traitement de donnees WO2000045596A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP00901940A EP1067786B1 (en) 1999-01-29 2000-01-27 Data describing method and data processor
US09/647,265 US6996171B1 (en) 1999-01-29 2000-01-27 Data describing method and data processor
DE60045699T DE60045699D1 (de) 1999-01-29 2000-01-27 Daten-beschreibungs-verfahren und daten-bearbeitung-vorrichtung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2306899 1999-01-29
JP11/23068 1999-01-29

Publications (1)

Publication Number Publication Date
WO2000045596A1 true WO2000045596A1 (fr) 2000-08-03

Family

ID=12100097

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/000424 WO2000045596A1 (fr) 1999-01-29 2000-01-27 Procede de description de donnees et unite de traitement de donnees

Country Status (4)

Country Link
US (1) US6996171B1 (ja)
EP (1) EP1067786B1 (ja)
DE (1) DE60045699D1 (ja)
WO (1) WO2000045596A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6593936B1 (en) * 1999-02-01 2003-07-15 At&T Corp. Synthetic audiovisual description scheme, method and system for MPEG-7
US6897892B2 (en) * 2000-10-13 2005-05-24 Alexander L. Kormos System and method for forming images for display in a vehicle
US7263660B2 (en) * 2002-03-29 2007-08-28 Microsoft Corporation System and method for producing a video skim
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
JP4336950B2 (ja) * 2003-05-15 2009-09-30 富士ゼロックス株式会社 画像処理装置
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
DE60319710T2 (de) * 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
JP5025893B2 (ja) * 2004-03-29 2012-09-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US7526725B2 (en) * 2005-04-08 2009-04-28 Mitsubishi Electric Research Laboratories, Inc. Context aware video conversion method and playback system
JP4556891B2 (ja) * 2006-03-17 2010-10-06 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
US7945757B1 (en) * 2008-02-13 2011-05-17 Nvidia Corporation Conserving and shaping address space with arrays
US8095746B1 (en) * 2008-02-13 2012-01-10 Nvidia Corporation Conserving and shaping address space with arrays
US8065302B2 (en) * 2008-08-27 2011-11-22 Satyam Computer Services Limited System and method for annotation aggregation
US9436876B1 (en) 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
KR102266579B1 (ko) 2015-02-11 2021-06-18 한국전자통신연구원 질의문 입력 장치 및 방법
US10390062B2 (en) * 2016-11-21 2019-08-20 Roku, Inc. Recommending content based on user behavior tracking and analysis
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10691950B2 (en) * 2017-03-10 2020-06-23 Turing Video, Inc. Activity recognition method and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995012197A1 (fr) * 1993-10-29 1995-05-04 Kabushiki Kaisha Toshiba Support d'enregistrement de plusieurs scenes et appareil de reproduction
JPH09247602A (ja) * 1996-03-07 1997-09-19 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像検索装置
EP0907147A2 (en) * 1997-09-26 1999-04-07 Matsushita Electric Industrial Co., Ltd. Clip display method and display device therefor
JPH11225307A (ja) * 1998-02-05 1999-08-17 Sony Corp 映像データ記録媒体および映像データ再生装置
JPH11289517A (ja) * 1998-04-02 1999-10-19 Sony Corp 再生装置及び再生方法
JPH11341443A (ja) * 1997-07-07 1999-12-10 Toshiba Corp 多画面表示システム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1341310C (en) * 1988-07-15 2001-10-23 Robert Filepp Interactive computer network and method of operation
JP2863818B2 (ja) 1990-08-31 1999-03-03 工業技術院長 動画像の変化点検出方法
US5953485A (en) * 1992-02-07 1999-09-14 Abecassis; Max Method and system for maintaining audio during video control
US5546475A (en) * 1994-04-29 1996-08-13 International Business Machines Corporation Produce recognition system
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
US5821945A (en) 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
JP3780623B2 (ja) 1997-05-16 2006-05-31 株式会社日立製作所 動画像の記述方法
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
US6081278A (en) * 1998-06-11 2000-06-27 Chen; Shenchang Eric Animation object having multiple resolution format
JP3270398B2 (ja) 1998-06-22 2002-04-02 株式会社東芝 情報再生装置及び情報再生方法
US6448980B1 (en) * 1998-10-09 2002-09-10 International Business Machines Corporation Personalizing rich media presentations based on user response to the presentation
US6373979B1 (en) * 1999-01-29 2002-04-16 Lg Electronics, Inc. System and method for determining a level of similarity among more than one image and a segmented data structure for enabling such determination
US6223183B1 (en) * 1999-01-29 2001-04-24 International Business Machines Corporation System and method for describing views in space, time, frequency, and resolution
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US6710822B1 (en) * 1999-02-15 2004-03-23 Sony Corporation Signal processing method and image-voice processing apparatus for measuring similarities between signals
US6411724B1 (en) * 1999-07-02 2002-06-25 Koninklijke Philips Electronics N.V. Using meta-descriptors to represent multimedia information
JP4683253B2 (ja) * 2000-07-14 2011-05-18 ソニー株式会社 Av信号処理装置および方法、プログラム、並びに記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995012197A1 (fr) * 1993-10-29 1995-05-04 Kabushiki Kaisha Toshiba Support d'enregistrement de plusieurs scenes et appareil de reproduction
JPH09247602A (ja) * 1996-03-07 1997-09-19 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像検索装置
JPH11341443A (ja) * 1997-07-07 1999-12-10 Toshiba Corp 多画面表示システム
EP0907147A2 (en) * 1997-09-26 1999-04-07 Matsushita Electric Industrial Co., Ltd. Clip display method and display device therefor
JPH11225307A (ja) * 1998-02-05 1999-08-17 Sony Corp 映像データ記録媒体および映像データ再生装置
JPH11289517A (ja) * 1998-04-02 1999-10-19 Sony Corp 再生装置及び再生方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1067786A4 *

Also Published As

Publication number Publication date
US6996171B1 (en) 2006-02-07
EP1067786A1 (en) 2001-01-10
DE60045699D1 (de) 2011-04-21
EP1067786A4 (en) 2004-11-24
EP1067786B1 (en) 2011-03-09

Similar Documents

Publication Publication Date Title
WO2000045596A1 (fr) Procede de description de donnees et unite de traitement de donnees
Vijayakumar et al. A study on video data mining
US7949050B2 (en) Method and system for semantically segmenting scenes of a video sequence
WO2000045604A1 (en) Signal processing method and video/voice processing device
Mei et al. Near-lossless semantic video summarization and its applications to video analysis
Asghar et al. Video indexing: a survey
TW200401981A (en) Presenting a collection of media objects
Liu et al. A framework for flexible summarization of racquet sports video using multiple modalities
Gornale et al. Analysis and detection of content based video retrieval
EP1894128A1 (en) Device for enabling to represent content items through meta summary data, and method thereof
WO2005093752A1 (en) Method and system for detecting audio and video scene changes
Yahiaoui et al. Generating Summaries Of Multi-Episode Video.
Narwal et al. A comprehensive survey and mathematical insights towards video summarization
Kishi et al. Correlation based feature fusion for the temporal video scene segmentation task
Liu et al. Computational approaches to temporal sampling of video sequences
Souza et al. A unified approach to content-based indexing and retrieval of digital videos from television archives.
Tsipas et al. Augmenting social multimedia semantic interaction through audio-enhanced web-tv services
JP2000287166A (ja) データ記述方法及びデータ処理装置
Muneesawang et al. A new learning algorithm for the fusion of adaptive audio–visual features for the retrieval and classification of movie clips
Hebbar et al. A dataset for audio-visual sound event detection in movies
Mishra et al. Parameter free clustering approach for event summarization in videos
Dong et al. Advanced news video parsing via visual characteristics of anchorperson scenes
Dong et al. An iteratively reweighting algorithm for dynamic video summarization
Rebecca et al. Predictive analysis of online television videos using machine learning algorithms
Ferman et al. Fuzzy framework for unsupervised video content characterization and shot classification

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2000901940

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09647265

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000901940

Country of ref document: EP