WO2001031502A1 - Dispositif et procede de classement et de rangement d'informations multimedia - Google Patents

Dispositif et procede de classement et de rangement d'informations multimedia Download PDF

Info

Publication number
WO2001031502A1
WO2001031502A1 PCT/JP1999/005950 JP9905950W WO0131502A1 WO 2001031502 A1 WO2001031502 A1 WO 2001031502A1 JP 9905950 W JP9905950 W JP 9905950W WO 0131502 A1 WO0131502 A1 WO 0131502A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
information set
unit
classification
feature amount
Prior art date
Application number
PCT/JP1999/005950
Other languages
English (en)
French (fr)
Inventor
Susumu Endou
Naoki Sashida
Daiki Masumoto
Shigemi Nagata
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP1999/005950 priority Critical patent/WO2001031502A1/ja
Priority to JP2001534014A priority patent/JP3615518B2/ja
Priority to PCT/JP2000/006684 priority patent/WO2001031503A1/ja
Priority to EP00962905A priority patent/EP1241585A4/en
Publication of WO2001031502A1 publication Critical patent/WO2001031502A1/ja
Priority to US10/101,272 priority patent/US6948123B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S715/00Data processing: presentation processing of document, operator interface processing, and screen saver display processing
    • Y10S715/961Operator interface with visual structure or function dictated by intended use
    • Y10S715/965Operator interface with visual structure or function dictated by intended use for process control and configuration
    • Y10S715/966Computer process, e.g. operation of computer
    • Y10S715/968Computer process, e.g. operation of computer interface for database querying and retrieval

Definitions

  • the present invention is directed to a multimedia information classification capable of efficiently and flexibly classifying and arranging a multimedia information group that is mixed not only with text information but also with various media information such as image information and audio information.
  • a multimedia information classification capable of efficiently and flexibly classifying and arranging a multimedia information group that is mixed not only with text information but also with various media information such as image information and audio information.
  • Internet www World Wide Web; hereafter, w
  • text search systems are known.
  • One or more pieces of text information representing the contents are appropriately allocated to the multimedia data to be searched, and text such as a word is specified as a search key in the search.
  • the same text information as the search key is assigned.
  • a method for detecting attached multimedia data is known: If the media information to be searched is text information, the content of the text information is searched by text, and the text information is searched. Tokey searches can often be performed appropriately.
  • the classification and arrangement of information in this text search system there is a sort and list display of data hit by the search.
  • text full-text search systems are known. This is a particularly effective search system when the multimedia data to be searched is text information.
  • Several methods have been proposed. For example, as preprocessing, all words representing the characteristics of the contents are automatically extracted from the entire text, and a search key file is generated and assigned. In the search, text such as a word is specified as a search key, and text information in which the same text as the relevant search key exists in the search key file is detected.
  • text data is used. It is difficult to properly perform a search using a search key.
  • examples of the classification and arrangement of information in this text full-text search system include those that sort and list the data hit by the search.
  • an image search method based on image pattern matching in which a specific part of an image is specified and a partial image is used as a search key. According to this image search method, it is possible to search for image information having a specified partial image.
  • the conventional information retrieval system on the WWW has no effective retrieval method for media information other than text information, for example, image information and audio information.
  • the first conventional text key search system it is difficult to properly perform image information and audio information. In other words, even if multiple keys are assigned to one piece of image information, it is difficult to accurately and flexibly express the features of the image in text, so that searchers can search It is difficult to perform appropriate and flexible image retrieval by using keywords according to the intention. Even if a search is performed indirectly using a text search server or the like, the resulting information is not very useful. Although it is possible to collect a large number of images and display them in sequence, there is a problem that it becomes difficult to find a target image from the large number of images.
  • the searcher must prepare and specify the partial image of the image to be searched. In some cases, it is not clear what kind of images the searcher wants to have, and it is not always possible to prepare partial images to be used for search, making it difficult to search. Furthermore, the searcher may not have a clear picture of the image he or she wants to search. In other words, you can specify the general content of the image you want to search, but you may not be able to specify the image itself, even if it is partial. In addition, searchers have vaguely no image available. Sometimes you may want to search by trial and error. In such cases, matching of partial images alone lacks flexibility and is insufficient. Disclosure of the invention
  • the present invention efficiently and flexibly searches multimedia information, such as text information, image information, and audio information, by utilizing various features of the multimedia information, and visually and easily understands the search results. It is an object of the present invention to provide a multimedia information classifying and arranging apparatus that can classify, arrange, and display the multimedia information in an easy manner. In particular, an object of the present invention is to provide a multimedia information classifying and arranging apparatus capable of efficiently and flexibly searching and classifying and arranging multimedia information on www.
  • the present invention provides a method in which a searcher can interactively narrow down desired multimedia information flexibly based on the displayed search results, or can perform a search from a different aspect based on the searched multimedia information.
  • An object of the present invention is to provide a multimedia information classification and arrangement device that can continue one after another.
  • the acquired images are not only presented to the user but also narrowed down according to the conditions specified by the searcher.
  • the related images can be placed nearby or images with specific characteristics can be placed at specific locations, and the Improve searchability.
  • the multimedia information classification and arrangement device of the present invention sets an information set of mutually related information among media information including image information, text information, and audio information.
  • An axis setting unit for setting a set arrangement space; an information set acquisition unit for acquiring an information set; a feature amount extraction unit for extracting a feature amount from each piece of media information of the information set; and the extracted features
  • An information set classifying and arranging unit for classifying and arranging the information set in the information set arranging space based on the amount; and media information of the information set categorized and arranged in the information set arranging space.
  • An information display unit for displaying media information according to a viewpoint with respect to the information set arrangement space is provided.
  • a feature amount to be assigned to one spatial axis may be a combination of a plurality of feature amounts. Conversely, a feature amount may be assigned to two or more axes.
  • One feature can be assigned.
  • media information including image information, text information, and audio information is collected, the relevance of the collected media information is analyzed by the association analysis unit, and the information set generation unit
  • a set of media information that has mutual relevance may be used as an information set.
  • the already generated information set may be read from a storage medium such as CD-ROM by the information set reading unit, or may be collected from the network by the information set collection unit.
  • text information, audio information, and the like can be associated with image information by making the associated media information into an information set. For example, the feature amount of audio information If the search is performed using the feature amount of the image information, the associated image information can be obtained at the same time.
  • the feature value used is a DCT transform as a feature value for image information. Conversion coefficient feature, image conversion coefficient feature for image information, HSI color histogram feature for image information, and the like.
  • Examples of the feature amount for the text information include a feature amount indicating the presence of the specific word, a feature amount of the number of times the specific word is used for the text information, and the like.
  • Examples of the feature value for the voice information include a voice frequency feature value, an amplitude feature value for the voice information, and a time shift feature value for the voice information.
  • the multimedia information classifying and arranging device is a part for resetting an information set arranging space axis, and assigns a feature amount extracted from each piece of media information to each axis of the information set arranging space axis.
  • the information set is classified and arranged in the information set arrangement space according to the extracted feature amount, and the information display unit is adapted to a viewpoint with respect to the reset information set arrangement space.
  • media information is displayed.
  • the searcher can view the search results executed by the searcher and interactively search again to narrow down the information flexibly.
  • the search can be continued one after another.
  • the information set can be rearranged and redisplayed.
  • a computer-readable recording medium recording a processing program for realizing the multimedia information classification and placement apparatus of the present invention is a processing step for setting an information set placement spatial axis, and an information set acquisition processing step. And the allocation of features extracted from each piece of media information to each information set layout space, and an information set layout space with one or more axes is set.
  • a processing program having information display processing steps for displaying media information is recorded.
  • the multimedia information classification and arrangement device of the present invention can be realized using the computer.
  • the multimedia information classification and placement method provides a multimedia information classifying method in which a large number of information sets, which are sets of information related to each other, exist among media information including image information, text information, and audio information. This is a method of searching for a specific information set from the media information group. The information set is acquired, and the allocation of the feature quantity extracted from each piece of media information to each axis of the information set arrangement space is set.
  • the search can be performed by repeatedly setting the axis of the information set arrangement space and classifying and arranging the information set in the information set arrangement space while switching the feature amount to be used. so
  • the search key used is not sufficient to narrow down the search, another search key belonging to the same type and the same feature amount is selected again and the search is performed again.
  • the search key can be re-searched by appropriately selecting a search key belonging to another type and another feature amount. An appropriate search can be performed.
  • search keys of different types and different feature amounts are used in this way, it is expected that search results that are unexpected for searchers may be obtained.
  • a primary search is performed using the feature amount indicating the presence of a specific word as the feature amount for the text information, and then the wavelet transform coefficient feature amount and the HSI color histogram feature amount are successively used as the feature amounts for the image information. If the information set is re-classified and rearranged in combination, information sets searched for specific words often have specific shapes and colors. It can also offer new ways to use the search system.
  • FIG. 1 is a diagram showing a device configuration example of a multimedia information classification and placement device according to a first embodiment of the present invention.
  • FIG. 2 is a flowchart showing a processing flow of the multimedia information classification and arrangement device according to the first embodiment of the present invention.
  • FIG. 3 is a display example when the information set collected by the keyword of “bag” is classified and arranged in the information set layout space in the multimedia information classification and layout apparatus according to the first embodiment of the present invention. It is a photograph shown.
  • FIG. 4 is a photograph showing an example in which an ID number of text information attached to the image information in the information set arrangement space shown in FIG. 3 is displayed in a pull-down menu.
  • FIG. 5 is a photograph showing an example in which the ID number of the text information is selected from the pull-down menu shown in FIG. 4 and the corresponding text is displayed.
  • FIG. 6 is a photograph showing an example in which the information setting arrangement space axis is reset by the axis setting unit 20, the feature amount is re-extracted, the information set is re-classified into the information set arrangement space, and the information is re-displayed.
  • FIG. 7 is a photograph showing an example in which image information similar to a key image is displayed as a similar image list.
  • FIG. 8 is a diagram showing a device configuration example of a multimedia information classification and placement device according to a second embodiment of the present invention.
  • FIG. 9 is a diagram showing a device configuration example of a multimedia information classification and arrangement device according to a third embodiment of the present invention.
  • FIG. 10 is a diagram showing a device configuration example of a multimedia information classification and arrangement device according to a fourth embodiment of the present invention.
  • FIG. 11 is a photograph showing a display example when the display viewpoint is advanced in the depth direction in the multimedia information classification and arrangement device according to the fourth embodiment of the present invention.
  • FIG. 12 is a diagram showing an example in which the multimedia information classification and arrangement device according to the fifth embodiment of the present invention is constructed in a client-server configuration.
  • FIG. 13 is a diagram showing an example in which the multimedia information classification and arrangement device according to the fifth embodiment of the present invention is constructed in a client-server configuration.
  • FIG. 14 is a diagram showing an example in which the multimedia information classification and arrangement device according to the fifth embodiment of the present invention is constructed in a client-server configuration.
  • the first 5 is a diagram showing an example of the multimedia information classification arrangement device processing the recording medium the content is recorded a program and the processing steps of the present invention c
  • the multimedia information classification and placement device uses a set of mutually related information sets of media information including image information, text information, and audio information as an information set, and sets the set information set.
  • the information set is classified and arranged in the space, and media information corresponding to the viewpoint of the information set arrangement space is displayed.
  • FIG. 1 shows a device configuration example of the multimedia information classification and placement device of the first embodiment.
  • FIG. 2 is a flowchart showing the processing flow of the multimedia information classification and placement device according to the first embodiment.
  • the multimedia information classifying and arranging device includes an information set acquiring unit 1, an axis setting unit 20, a feature amount extracting unit 30, an information set classifying unit 40, and an information display.
  • the unit 50 is provided.
  • Reference numeral 60 denotes a network network that can be accessed, such as the Internet, and the multimedia information source 70 is accessible via the network 60.
  • the multimedia information source 70 stores various types of multimedia information such as image information, text information, and audio information.
  • an information set which is a set of mutually related media information, is also stored. It is assumed that it is stored.
  • the information set is a set of various media information, such as text information, image information, and audio information, which are mutually related, and are associated with each other.
  • An example of an information set is an information set in which image information and text information are associated.
  • an image part is extracted as image information from an HTML document in which images and text on the WWW are mixed, and the text around the image in the HTML document is used as text. It is extracted as cost information and generated by associating both.
  • Another example is an information set in which image information, audio information, and text information of a moving image are associated with each other.
  • video data is extracted as moving image information from an XML file containing movie data including moving images and audio
  • audio data is extracted as audio information, and movie data is embedded. It is generated by extracting surrounding text as text information and associating them with each other.
  • information sets are created by extracting links from HTML data that has links to other data, extracting image information, text information, audio information, etc. at the link destination. It is good.
  • HTML documents that have image information and text information in the form of a single file from the beginning, multiple pieces of text information can be associated with one piece of image information, or vice versa. There may be cases where a plurality of pieces of image information are associated with text.
  • a URL Universal Resource Locator
  • By including a URL in a part of the information set it is possible to select an information set that is classified and arranged as described later and display a web page containing the information set based on the URL.
  • the information set acquisition unit 1 has an information set reading unit 2 and an information set collection unit 10.
  • the information set collection unit 10 is a unit that collects information sets, and collects information sets existing in the multimedia information source 70 via the network 60.
  • the information set reading unit 2 can also receive an input of an information set directly from a storage medium such as a CD-ROM.
  • the information set acquisition unit 1 is configured to appropriately include one or both of the information set reading unit 2 and the information set collection unit 10 so that the information set acquisition unit 1 can be configured to multiplex through the network 60. Collect information sets that exist in media information sources 70 And the function of accepting information set input directly from a storage medium such as a CD-ROM can be selectively retained.
  • the configuration example of the information set collection unit 10 described in the first embodiment includes a communication interface 11, a recording medium 12 such as a hard disk, and an information set collection key input unit 13. It communicates with the multimedia information source 70 on the network 60 via the communication interface 11.
  • the recording medium 12 can be used to store the collected information set.
  • the information set collection key input unit 13 is a part for specifying a range to be collected by using a keyword when collecting the information set. If there are a large number of information sets stored in the multimedia information source 70 on the network, collecting the information sets without specifying anything will greatly increase the amount of data collected. I will. Therefore, when collecting a set of information, if a keyword is input from the information set collection key input unit 13 to narrow the range in advance, the information set collection unit 10 sets the information set having the keyword in question. Collect kits.
  • the axis setting section 20 is a section for setting an information set arrangement space axis.
  • the axis setting section 20 sets assignment of a feature amount extracted from each piece of media information to each information set arrangement space axis, and sets one or more axes.
  • the feature amount that can be set may be any feature amount that can be extracted according to the media, such as image information, text information, and audio information.
  • a DCT transform coefficient feature for image information, there are a DCT transform coefficient feature, a wavelet transform coefficient feature, an HSI color histogram feature, and the like.
  • DCT transform coefficient feature amount on the information set arrangement spatial axis, it is possible to classify and arrange information according to the features of the spatial frequency components of the image information.
  • the wavelet transform coefficient features By setting the wavelet transform coefficient features on the information set arrangement spatial axis, the features of the image information, especially in the low frequency part of the spatial frequency, that is, the information based on the features of the outline of the large frame of the object appearing in the image Can be classified and arranged.
  • the wavelet transform is also a waveform / frequency transform like the DCT transform, but it can be done with the position (time) information kept.
  • the HSI color histogram feature quantity By setting the HSI color histogram feature quantity on the information set arrangement space axis, it is possible to classify and arrange information based on the color information of the image. According to the HSI color histogram, it is possible to grasp the characteristics of the image such as how much the human skin area is included.
  • the text information may include a feature amount indicating the presence of a specific word, a feature amount indicating the number of times the specific word is used, and the like.
  • a feature amount indicating the presence of a specific word and the feature amount of the number of times a specific word is used in the information set arrangement space axis it is possible to classify and arrange text information that includes the description of the specific word, etc. Becomes If the information set is an image set in which image information is associated with the text information, the image information represented by the specific word is also classified and arranged in the information set arrangement space.
  • an audio frequency feature, an amplitude feature of a voice, a time shift feature of a voice, and the like can be cited.
  • the audio frequency features By setting the audio frequency features on the information set arrangement space axis, it is possible to classify and arrange audio information according to the characteristics of the audio frequency, that is, the level of the audio, the audio quality, and the like.
  • the audio frequency it is possible to represent the characteristics of audio information such as the type of a sounding body, the sound of an animal, the voice of a male, the voice of a female, and, if the accuracy is improved, the person of the voice.
  • the amplitude feature and time-shift feature of the speech By setting the amplitude feature and time-shift feature of the speech on the information set arrangement space axis, it is possible to classify and arrange the speech information according to the size of the speech.
  • the assignment of the feature amount to one spatial axis by the axis setting unit 20 is as follows. It is possible to assign a combination of a plurality of feature amounts. Combinations of two or more features require conversion and adjustment of each other's units, but they can be combined by replacing them with scores such as scores. For example, for one spatial axis, if the specified color component of the HSI color histogram is included at a ratio equal to or greater than the threshold as the first feature, “1” is used. 0 ". The second feature value is" 1 "if it exists as a feature value indicating the presence of a specific word in the text information. If not, it is" 0 ".
  • one feature can be assigned to multiple axes.
  • assigning one feature to two or more axes One of such methods is to consider the feature as a vector, and to specify a dimension with a large variance for each dimension of the vector.
  • the feature amount extraction unit 30 is a part that extracts a feature amount from each media information of the information set. Although not shown in FIG. 1, as described above, the feature extraction unit 30 has a function for extracting various features from each piece of media information.
  • the extraction function includes a DCT conversion coefficient feature calculation function, a wavelet conversion coefficient feature calculation function, and an HSI color histogram feature calculation function.For example, as a feature extraction function for text information, a specific word It has a function to detect the presence or absence of a specific word, a function to calculate the number of times a specific word has been used, and the like. It has a time-shift feature extraction function for audio and the like. Features are extracted from the media information of each information set collected using these functions.
  • the feature amount extraction unit 30 enables addition, update, and deletion of a function of extracting a feature amount from each piece of media information.
  • Feature extractor If the functions are provided by a DSP (Digital Signal Processor), the contents can be easily rewritten and added as needed.
  • DSP Digital Signal Processor
  • the information set classifying and arranging section 40 is a section for classifying and arranging the information sets in the information set arranging space based on the feature amounts extracted by the feature amount extracting section 30. For example, if the information set arrangement space is set by the XYZ three axes, the information set is classified and arranged in the three-dimensional information set arrangement space.
  • the information display section 50 is a section for displaying the media information of the information set classified and arranged in the information set layout space by the information set classification and layout section 40, and according to the viewpoint of the information set layout space. Displays the media information in the information set layout space from the same direction. For example, if the XY plane is the front and the z-axis direction is the depth direction with respect to the information set arrangement space extending from the XYZ axes, the display surface is the XY plane and the screen depth is the z-axis direction. Is displayed as follows.
  • the processing of the multimedia information classifying and arranging apparatus is roughly divided into an information set acquisition processing (S101) and an information set arranging as follows.
  • Axis setting processing (S102) for setting the feature amount to be assigned to the axis of the space and defining the information set arrangement space, and feature amount extraction for extracting a predetermined feature amount from the media information of the information set Processing (S103), information classification arrangement processing (S104) for classifying and arranging the information set in the information set arrangement space according to the extracted feature amounts, information set arrangement space and information
  • the information display process (S105), which displays the set of information classified and arranged in the set placement space from the set viewpoint, and looked at the displayed search results, further refined or changed the cut as needed.
  • Information set to continue searching It has a re-axis setting process (loop to step S102) for resetting the feature amount to be assigned to the axis of the arrangement space and redefining the information set arrangement space.
  • the re-axis setting processing is indispensable. Not a thing. Also, in the above processing flow, it is assumed that the information set exists in an accessible state from the beginning, but as described later in the second embodiment, the multimedia information classification and placement apparatus Information set generation processing for defining and generating an information set by collecting mutually relevant information among media information including information, text information, and audio information may be executed as preprocessing.
  • the information set obtaining section 1 executes an information set obtaining process (S101).
  • the information set acquisition unit 1 sends a multimedia information source 70 such as a WWW server that is accessible to a network 60 such as the Internet via the communication interface 11. Collect the information set and get the information set.
  • a multimedia information source 70 such as a WWW server that is accessible to a network 60 such as the Internet via the communication interface 11.
  • information set acquisition processing (S101) a plurality of information sets in which image information and text information are associated are acquired.
  • only those that have been hit by keyword search may be acquired. In this example, it is assumed that an information set that hits the "bag" and the keyboard is acquired.
  • the multimedia information classification and placement device sets the feature amount to be assigned to the axis of the information set placement space by the axis setting unit 20 and performs an axis setting process (S102) for defining the information set placement space.
  • the axis setting unit 20 sets the characteristic amount to be assigned to each axis of the information set arrangement space from the characteristic amount that can be extracted from each media information such as the DCT transform coefficient characteristic amount for the image information described above.
  • the X-axis (horizontal direction) is assigned the ⁇ Ublet transform coefficient feature of the image information
  • the ⁇ -axis (vertical direction) is assigned the HSI color histogram feature
  • the Z-axis depth direction
  • a feature quantity indicating the number of times a specific word is used in the text information is assigned.
  • the number of uses of the word “bag” used in the information set collection is used as a feature quantity indicating the presence of a specific word assigned to the Z axis.
  • the multimedia information classification and placement device uses the feature amount extraction unit 30 to extract feature amounts assigned to each spatial axis from each piece of media information of the collected information set.
  • the extraction processing (S103) is executed.
  • the feature amount extraction unit 30 includes a function for calculating a wavelet transform coefficient feature amount, a function for calculating an HSI color histogram feature amount, and a function for calculating the number of times a specific word is used. It holds the wavelet transform coefficient feature, the HSI color histogram, and the number of times a specific word is used from each media information of the collected information set.
  • the multimedia information classifying and arranging apparatus uses the information set classifying and arranging unit 40 to classify and arrange the information sets in the information set arranging space according to the extracted feature amounts (S1). Execute 0 4). Then, the information display unit 50 executes an information display process (S105) in which the information set is classified into an information set arrangement space and the information set arranged and displayed from a set viewpoint.
  • Figure 3 shows an example in which information sets collected using the keyword "bag" are classified and placed in the set information set placement space.
  • each information set displays the image information of the associated media information as the front (XY plane). Since the X-axis is the wavelet transform coefficient feature, a bag with a similar outer shape is displayed at a position where the X-axis coordinates are similar.
  • the Y axis is the HSI color histogram feature. Therefore, bags with similar colors are displayed at positions where the Y-axis coordinates are similar.
  • some of the information sets classified and arranged in the information set arrangement space are associated with a plurality of pieces of text information.
  • image information is displayed in the foreground, but they are accompanied by text information.
  • the ID number of the accompanying text information (such as "Text 1") is displayed in a drop-down menu. Displayed with.
  • the ID number of the text information is selected from the pull-down menu, the corresponding text is displayed as shown in Figure 5.
  • Step S106 When the desired image information is obtained by the information display acquisition step S105 from the information set acquisition processing step S101, the purpose of the initial search processing is achieved, and the re-axis setting processing is not necessary. (Step S106: ⁇ 0), the search process may be terminated. However, if the original search process purpose has not been achieved and re-axis setting processing is required (Step S106: ⁇ 0). YES), the multimedia information classification and placement device of the present invention can loop to step S102 in order to perform the re-axis setting process. In other words, by looking at the classification / arrangement display results displayed in the information display processing step S105, the axis setting unit 20 is used to continue the search with further narrowing and changing the cut as necessary.
  • the feature amount to be assigned to the axis of the information set arrangement space is reset, and the re-axis setting process for redefining the information set arrangement space is executed.
  • the feature amount to be assigned to the information set arrangement space axis is reset (S102), and the feature amount reset from each media information of the information set is determined.
  • the information set is re-extracted (S103), the information set is re-classified and rearranged in the information set arrangement space based on the re-extracted feature amounts (S104), and the information display section 50 displays the information set. Information set relocated to the It is displayed again (S105).
  • the axis setting unit 20 changes the X-axis from the ⁇ -Ublet transform coefficient feature to the DCT-transform coefficient feature, or the Y-axis as a completely different aspect from the HSI color histogram feature, and the audio frequency feature. It is also possible to change the amount.
  • the X-axis is switched from the wavelet transform coefficient feature to the HSI color histogram feature, and the Y-axis is changed from the HSI color histogram feature to the DCT transform coefficient feature.
  • Fig. 6 shows an example of re-setting the information set arrangement space axis by the axis setting unit 20, re-extracting the feature values, re-classifying the information set arrangement space, and re-displaying. Such a series of axis resetting processes is repeated until a desired search result is obtained.
  • the following information processing is also possible by looking at the display result that is the classification and arrangement of information sets such as image information.
  • a web page that includes the selected information set from the classified and arranged information sets. If a URL that contains the information set, such as the image information, is also stored as part of the information set, the URL information will be displayed when the image information is selected by the user on the information display section 50.
  • the web page can be displayed based on the web page. For example, by selecting image information and clicking the button "Web page" from a menu or the like with a pointing device, the Web page is displayed.
  • a search key by looking at the information set in which the category is arranged, and to display a list of information sets similar to the key.
  • a key image an image serving as a key for Hattern matching
  • image information similar to the key image is obtained by pattern matching.
  • Fig. 7 shows an example.
  • a similar image list is displayed for the entered key image.
  • a key image is given as a search key, but text information can be given as a search key.
  • the input keyword and the similar image list are displayed.
  • a set of mutually relevant information among media information including image information, text information, and audio information is set as an information set.
  • the information set can be classified and arranged in the set information set arrangement space, and media information according to the viewpoint with respect to the information set arrangement space can be displayed.
  • the multimedia information classifying and arranging apparatus collects media information including image information, text information, and audio information as preprocessing prior to the information set classification and arrangement processing described in the first embodiment. It also has the function of analyzing the relevance of the collected media information and generating an information set by summarizing the related media information.
  • FIG. 8 shows a device configuration example of the multimedia information classification and placement device according to the second embodiment.
  • the multimedia information classifying and arranging device according to the second embodiment includes an axis setting unit 20, a feature amount extracting unit 30, an information set classifying and arranging unit 40, other than the information set obtaining unit 1.
  • the information display unit 50, the network 60, and the multimedia information source 70 may be the same as those of the configuration example of the multimedia information classification and arrangement device of FIG. 1 described in the first embodiment.
  • the information set collection unit 10 of the information set acquisition unit 1 includes a communication interface 11, a recording medium 12, and an information set.
  • the information collecting unit 14 collects media information including image information, text information, and audio information stored in the accessible multimedia information source 70 on the network 60.
  • Media information can be collected automatically using robots.
  • a selection criterion for collecting media information from the multimedia information group 70 on the network 60 is specified. For example, it is designated by selecting from a group of criteria including keyword information, site information, link information, and similarity information corresponding to a specific information set. If keyword information is included in the selection criterion, media information without the keyword is not collected, and the range can be limited. Give the key search key to the text search server, and search the page returned as a result.
  • the robot searches for the specified URL, the pages below the URL, and the pages linked from the URL. In this way, multiple Web pages are traversed by traversing the WWW and following links.
  • the information collecting unit 14 collects image information, text information, audio information, and the like, and stores the information in the storage medium 12.
  • the association analysis unit 15 is a unit that analyzes the association between the pieces of media information collected from the multimedia information sources by the information collection unit 14. For example, To analyze text related to image information, if it is an HTML document, interpret the HTML structure while referring to the text and HTML information near the image, and then convert the image part to an image. It is extracted as information, and the text around the image in the HTML document is extracted as text information, and the degree of relevance of text close to the image is analyzed. It is also possible to analyze the degree of association of voice information. In addition, if it is not a HTML but a file such as a PDF file, it is analyzed as having a high degree of relevance for the image information, text information, and audio information existing in the file. It is possible.
  • the file is not a single file
  • a plurality of pieces of media information have the same keyword, it can be analyzed as having a high degree of association. If the keyword is unusual and unique, it can be analyzed as having a higher degree of relevance.
  • the degree of relevance of a plurality of media information can be manually determined.
  • a PDF file includes movie data including moving images and audio
  • the moving image portion is extracted as moving image information
  • the audio data is extracted as audio information
  • the movie data is extracted.
  • the embedded surrounding text can be extracted as text information, and can be associated with each other to form an information set.
  • the information set generation unit 16 summarizes mutually related media information based on the analysis result by the association analysis unit 15 and associates the set as an information set to form one information set. Generated.
  • the multimedia information classification and placement apparatus performs image information, text information, and audio information as preprocessing prior to the information set classification and placement processing described in the first embodiment.
  • Media information including the media information, analyze the relevance of the collected media information, and analyze the related media information.
  • An information set can be generated collectively. The process of classifying and arranging information sets in the information set arrangement space using the generated information sets is the same as that described with reference to the flowchart of FIG. 2 in the first embodiment. Is omitted.
  • the multimedia information classifying and arranging apparatus applies a self-organizing map in classifying and arranging an information set arranging space based on a feature amount of media information by an information set arranging and arranging unit. It is.
  • FIG. 9 shows a device configuration example of the multimedia information classification and placement device according to the third embodiment.
  • the information set classification and placement unit 40 includes a self-organizing map processing unit 41.
  • the information set acquisition unit 1, axis setting unit 20, feature amount extraction unit 30, information display unit 50 network 60, and multimedia information source 70 other than the information set classification arrangement unit 40 May be the same as that of the multimedia information classification and arrangement device configuration example of FIG. 1 described in the first embodiment.
  • a self-organizing map is an unsupervised learning model using a neural network.
  • mapping is performed from a high-dimensional feature vector space to a low-dimensional space. At that time, those with similar feature vectors are located nearby even in low-dimensional space.
  • This self-organizing map is applied to media information classification and arrangement processing, and an information set is arranged using the self-organizing map processing based on the feature quantities extracted by the feature quantity extracting unit 30.
  • the self-organizing map processing section 41 executes the self-organizing map generation processing on the feature quantity extracted by the feature quantity extracting section 30.
  • the information set classifying and arranging unit 40 of the third embodiment classifies the information set into an information set arranging space based on the arrangement information obtained by the self-organizing map generated by the self-organizing map processing unit 41. Deploy.
  • the depth information may be displayed in descending order of relevance based on the relevance between the keyword returned by the text search server and the Web page. They can be switched and displayed.
  • an image is considered to be close in content in space, and the content is far in space. What you think can be placed far away from each other.
  • a multimedia information classification and placement device according to a fourth embodiment of the present invention will be described.
  • the multimedia information classification and arrangement device is obtained by adding a method to a display method and a browsing method of an information set arrangement space in which information sets are classified and arranged.
  • FIG. 10 shows a device configuration example of the multimedia information classification and placement device of the fourth embodiment.
  • the information display unit 50 includes a display viewpoint moving unit 51.
  • the source 70 may be the same as that of the configuration example of the multimedia information classification and arrangement device in FIG. 1 described in the first embodiment.
  • the display viewpoint moving unit 51 displays the information set arrangement space in which the information sets are classified and arranged by the information set classification and arrangement unit 40 in the information display unit 50. Function to move the viewpoint setting position It has.
  • the information display unit 50 displays the information set arrangement space viewed from the display viewpoint set by the display viewpoint moving unit 51.
  • FIG. 3 shows an example of the information set arrangement space displayed by the information display unit 50.
  • the display viewpoint in FIG. 3 is set as a default, and the display viewpoint moving unit 51 can dynamically change the display viewpoint.
  • the information set moves virtually freely in the information set placement space where the information sets are classified and arranged, and the information sets in the information set placement space that can be seen from the movement position are displayed. can do.
  • the display surface is basically a two-dimensional plane, so it is possible to display in perspective, but the information set at a deep position tends to be difficult to see.
  • the display viewpoint can be dynamically changed, and the classification of the information set that the searcher wants to see in more detail according to the searcher's operation.
  • the arrangement can be displayed near the display screen.
  • FIG. 11 shows a display example when the display viewpoint is advanced in the depth direction from the state of FIG.
  • a multimedia information classification and arrangement device according to a fifth embodiment of the present invention will be described.
  • the multimedia information classification and arrangement device according to the fifth embodiment is obtained by constructing the multimedia information classification and arrangement device according to the first to fourth embodiments by using a client-server system via a computer network.
  • Several patterns are possible depending on which of the components of the multimedia information classification and placement device according to the first to fourth embodiments is incorporated into the server computer and which is incorporated into the client computer.
  • an information set obtaining unit 1 is provided in a server-computer 100, and an axis setting unit 20, a feature amount extracting unit 30, and a client computer 101 are provided.
  • This is a configuration example of a client server provided with an information set classification arrangement section 40 and an information display section 50.
  • the server computer 100 has an information set acquisition unit 1 and a feature quantity extraction unit 30.
  • the client computer 101 has an axis setting unit 20, an information set classification and arrangement unit 40, and an information display. This is a configuration in which a unit 50 is provided.
  • the server computer 100 has an information set acquisition section 1, a feature quantity extraction section 30 and an information set classification and arrangement section 40, and the client computer 101 has an axis setting section 20 and information.
  • a display unit 50 is provided.
  • a server computer 100 automatically collects and automatically updates an information set having a predetermined content from a network or the like as a robot.
  • the information set acquisition unit 1 is shown in the server computer 100, but the information set acquisition unit 1 of the information set acquisition unit 1 receives the information set from the information set collection unit 10.
  • the client collection key input unit 13 is separated and provided in the client computer 101 (not shown), and the user of the client computer 101 uses the information set collection key input unit 13 to set information. Enter the collection key and pass the input information set collection key to the information set acquisition unit 1 of the server computer 100. The server computer 100 uses the information set collection key to obtain the relevant information. There is a method to collect sets dynamically from the network.
  • the multimedia information classification and arrangement of the present invention is provided by the client-server system by providing the device components of the multimedia information classification and arrangement according to the first to fourth embodiments separately in the server computer and the client computer.
  • the device can be built.
  • the sixth embodiment of the present invention uses a multimedia information search and classification process using the multimedia information classification and arrangement device described in the preceding first to fourth embodiments, and performs flexible classification, arrangement, and search for an information set. This is a classification and placement method that narrows down and switches to other search approaches.
  • the conventional search method is to provide a search keyword, look at the search results, narrow the search keyword to a limited one, perform a search again, or add a new search keyword when the search result is not good.
  • the search is executed again, and it can be said that the search is executed while adjusting the search keywords by trial and error.
  • search keyword one feature amount as text information called a search keyword.
  • the search result is checked, and then a media different from the media information is searched.
  • This is a method of performing a search one after another by searching using the feature amount of information or specifying the same media information but a different feature amount from the previous time.
  • the feature set extracted from each piece of media information is assigned to the information set arrangement space for each axis, and an information set arrangement space having one or more axes is set.
  • the X-axis is a wavelet transform coefficient feature
  • the Y-axis is a feature indicating the presence of a key word of female
  • the Z-axis is a feature of the bag indicating a keyword. Assume that they are allocated and classified and arranged in the information set layout space, and the display result is obtained.
  • the searcher finds an image in the displayed image information that shows a woman with a white-colored bag and a white-haired dog, the message "Women walking with dogs” May have a bag of the same color as the dog. "
  • assign different features to the information set arrangement spatial axis set the re-axis, and execute the information set re-classification, re-arrangement, and re-display.
  • the X-axis assigns the sum of the features indicating the presence of the keyword "bag” and the features indicating the presence of the keyword "dog” (that is, specifying that both the bag and the dog have keywords).
  • the information set arrangement space axis is reset, and the information set can be re-classified and rearranged to search for a new aspect.
  • the obtained classification and arrangement of image information can be used to determine whether or not many women carry bags and dogs of the same color, and judge the truth of the guess.
  • each image information is transmitted by the pointing device. Clicking on it may reveal new trends, such as women who carry bags of similar colors and dogs tend to have higher annual incomes.
  • the dog's bark voice information is included as the voice information associated with the information, one of the information set layout spatial axes is re-classified, placed, and re-displayed by allocating the voice frequency features of the voice information. If you execute, there may be a discovery from another perspective.
  • the method for classifying and arranging the information set according to the sixth embodiment looking at the search result that is the classification and arrangement of the information set obtained with a certain feature amount, the characteristics of the completely different aspects The amount can be used to experiment with the classification and placement of information sets, yielding new and discoverable information that is unexpected for searchers.
  • the multimedia information classification and arrangement device of the present invention provides various programs by recording and providing a program describing processing steps for realizing the processes described in the above embodiments on a computer-readable recording medium.
  • a recording medium storing a program having processing steps for realizing the multimedia information classification and arrangement device of the present invention is a CD-ROM 202 ⁇ flexible disk ⁇ .
  • the portable recording medium 201 such as 203
  • the recording medium 200 in a recording device on a network or the recording medium 205 such as a hard disk of a computer or RAM
  • the program is loaded onto computer 204 and executed in main memory.
  • image information, text A set of information related to each other, out of media information including cost information and audio information, is set as an information set, and the information set is classified and arranged in the set information set arrangement space, and the information set is set.
  • Media information according to the viewpoint with respect to the arrangement space can be displayed.
  • multimedia information classifying and arranging device of the present invention by holding the information set generating unit, image information, text information, and the like are preprocessed prior to the information set classification and arrangement processing.
  • Media information including audio information can be collected, the relationship between the collected media information can be analyzed, and related media information can be combined to generate an information set.
  • the self-organizing map processing unit by including the self-organizing map processing unit, the self-organizing map processing is applied to classify and arrange the information sets into the information set allocation space. Can do it.
  • the display viewpoint moving unit is provided, so that the display viewpoint can be dynamically changed. Classification of desired information set-The arrangement can be displayed near the display surface.
  • the information set classification and arrangement method of the present invention the information set is classified and arranged by using a completely different aspect of the feature set by looking at the search result that is the classification and arrangement of the information set obtained with a certain feature quantity. You can experiment with classifying and arranging objects, and get unexpected new and discoverable information for searchers.

Description

明 細 書 マルチメディア情報分類配置装置および分類配置方法 技術分野
本発明は、 テキス ト情報のみならず、 画像情報、 音声情報など多様な メディア情報と して混在しているマルチメディア情報群の分類 · 配置を 効率的かつ柔軟に行なうことのできるマルチメディア情報分類配置装置 に関する。 インターネッ トの www (ワールドワイ ドウェブ。 以下、 w
WWと略記する) 上においてアクセス可能であるマルチメディァ情報群 の分類 · 配置も可能である。 背景技術
現在、 テキス ト情報のみならず、 画像情報、 音声情報などマルチメデ ィァデータが大量に格納され、 アクセス可能となっている。 特に、 イン ターネッ トの発展に伴い、 www (ワールドワイ ドウヱブ) 上にある情 報は、 増加の一途をたどっており、 テキス ト情報、 画像情報、 音声情報 など多様なマルチメディァデータが大量に格納され、 アクセス可能とな つている。 その結果、 www上から必要な情報を的確に検索することが 非常に難しくなってきている。
従来の www 上での情報検索システムおよび当該検索システムにお ける情報の分類 ·配置処理と して以下のものが知られている。
第 1には、 テキス トキ一検索システムが知られている。 検索対象とな るマルチメディァデータに対してその内容を表わす 1または複数のテキ ス ト情報を適当に割り付けておき、 検索に当たっては、 単語などのテキ ス トを検索キーと して指定し、 当該検索キーと同一のテキス ト情報が割 り付けられているマルチメディァデータを検出する方法が知られている: 検索対象のメディア情報がテキス ト情報である場合には、 テキス ト情報 の内容をテキス トキ一により検索することとなり、 当該テキス トキー検 索はおおむね適切に実行できる場合が多い。 このテキス トキ一検索シス テムにおける情報の分類 .配置例と しては、 検索にてヒ ッ トしたデータ をソートしてリ ス ト表示するものが挙げられる。
第 2には、 テキス ト全文検索システムが知られている。 これは、 検索 対象となるマルチメディァデータがテキス ト情報の場合に特に有効な検 索システムである。 幾つかの方法が提案されているが、 例えば、 前処理 としてテキス ト全文からその内容の特徴を表わす単語すベてを自動的に 抽出しておき、 検索キーファイルを生成して割り付けておく。 検索に当 たっては、 単語などのテキス トを検索キ一と して指定し、 検索キーファ ィル中に当該検索キーと同一のテキス トが存在するテキス ト情報を検出 する。 この方法によっても上記第 1 のテキス トをキーと した検索方法と 同様、 テキス ト情報以外のメディア情報、 例えば、 画像情報については、 画像情報ごとに適切なテキス トキーを付与するのでなければ、 テキス ト をキーと した検索では、 検索を適切に行なうことは難しい。
このテキス ト全文検索システムにおける情報の分類 ·配置例もテキス トキー検索システム同様、 検索にてヒッ 卜したデータをソートしてリス ト表示するものが挙げられる。
第 3には、 画像情報を検索する方法として、 画像の特定部分を指定し て部分画像を検索キーと した画像パターン照合による画像検索方法が知 られている。 この画像検索方法によれば、 指定した部分画像を持つ画像 情報を検索することは可能である。
この画像パターン照合による画像検索システムにおける情報の分類 · 配置例も検索にてヒッ トしたデータをソートしてリ ス ト表示するものが 挙げられる。
しかし、 従来の WWW 上での情報検索システムは、 テキス ト情報以 外のメディア情報、 例えば、 画像情報や音声情報については有効な検索 方法が存在していない。
従来の第 1のテキス トキー検索システムでは、 画像情報や音声情報に ついて適切に行なうことは難しい。 つまり、 1つの画像情報に対して複 数のキ一ヮ一ドを割り付けたと しても、 画像の特徴を的確かつ柔軟にテ キス トで表現することが困難である以上、 検索者の検索する意図に応じ てキーヮードにより適切で柔軟な画像検索の実行は困難である。 テキス ト検索サーバーなどを用いて間接的に検索を行っても、 その結果得られ る情報はあまり有効なものではない。 数多くの画像を収集し、 それらを 順番に表示することが可能であるが、 画像数が多くなるとその中から目 的の画像を探し出すのが困難になるという問題があった。
従来の第 2の全文テキス ト検索システムの場合でも、 第 1 のテキス ト キー検索システムと同様、 画像情報や音声情報について適切に行なうこ とは難しい。 つまり、 画像情報や音声情報は元々テキス ト情報を持って おらず、 テキス ト情報の抽出は期待できない。
従来の第 3の画像パターン照合による画像検索システムによれば、 指 定した部分画像を持つ画像情報を検索することは可能である。 しかし、 検索者は、 検索したい画像が持つ部分画像を用意して指定する必要があ る。 検索者がもつとも欲しい画像がどのような部分画像を持つか明らか でない場合もあり、 また、 検索に用いる部分画像が常に用意できるとは 限らず、 検索が困難となる。 さらに、 検索者自身が検索したい画像を明 確に把握していない場合もある。 つまり、 検索したい画像のおおむねの 内容を指定することはできるが、 部分的であっても画像そのものの指定 ができない場合がある。 また、 検索者は漠然と何か利用できる画像がな いか試行錯誤的に検索したい場合もある。 このよ うな場合には部分画像 のマツチングのみでは柔軟性に欠け、 不充分である。 発明の開示
本発明は、 効率的にテキス ト情報、 画像情報、 音声情報などマルチメ ディア情報を、 マルチメディァ情報の持つ多様な特徴量を利用すること により効率的かつ柔軟に検索し、 検索結果をビジュアルかつ分かり易い ように分類 · 配置して表示することができるマルチメディア情報分類配 置装置を提供することを目的とする。 特に www 上のマルチメディア 情報を効率的かつ柔軟に検索し、 分類 '配置することができるマルチメ ディア情報分類配置装置を提供することを目的とする。
また、 本発明は、 上記表示した検索結果を基にして、 検索者がインタ ラクティブに所望のマルチメディア情報を柔軟に絞り込んだり、 検索し たマルチメディア情報を基にしてさらに異なる切り 口により検索を次々 と続行することができるマルチメディア情報分類配置装置を提供するこ とを目的とする。
本発明では、 取得した画像について、 その画像をただ利用者に提示す るだけでなく、 検索者の指定した条件にしたがって絞り込みを行う。 そ の上、 絞り込まれた画像について、 画像の特徴量や画像に関する付加情 報に基づき、 関連する画像を近くに配置したり、 特定の特徴を持つ画像 を特定の場所に配置することによって、 ユーザの検索性を向上させる。 上記目的を達成するために、 本発明のマルチメディア情報分類配置装 置は、 画像情報、 テキス ト情報、 音声情報を含むメディア情報のうち互 いに関連性を持った情報の集合を情報セッ トと し、 情報セッ ト配置空間 軸を設定する部分であって、 各メディア情報から抽出される特徴量の情 報セッ ト配置空間各軸への割り当てを設定し、 1以上の軸を備えた情報 セッ ト配置空間を設定する軸設定部と、 情報セッ トを取得する情報セッ ト取得部と、 前記情報セッ トの各メディア情報から特徴量を抽出する特 徴量抽出部と、 前記抽出した特徴量に基づいて前記情報セッ トを前記情 報セッ ト配置空間内に分類配置する情報セッ ト分類配置部と、 前記情報 セッ ト配置空間内に分類配置された情報セッ トのメディア情報のうち、 前記情報セッ ト配置空間に対する視点に応じたメディァ情報を表示する 情報表示部を備えたことを特徴とする。
上記構成により、 WWW上から効率的にテキス ト情報、 画像情報、 音 声情報などマルチメディア情報を、 マルチメディア情報の持つ多様な特 徴量を利用して効率的かつ柔軟に検索することができ、 また、 検索結果 をビジュアルかつ分かり易いように表示することができる。 前記軸設定 部における、 1つの空間軸に対して割り当てる特徴量が、 複数の特徴量 を組み合わせたものを用いることができ、 逆に、 二つ以上の軸に対して
1つの特徴量を割り当てることができる。
なお、 情報セッ トの生成にあたっては、 画像情報、 テキス ト情報、 音 声情報を含むメディア情報を収集し、 収集したメディア情報相互の関連 性を関連解析部により解析し、 情報セッ ト生成部により相互に関連性を 持つメディア情報の集合を情報セッ トとすれば良い。 もちろん既に生成 された情報セッ トを情報セッ ト読み込み部により C D— R O Mのような 記憶媒体から読み込んでも良く、 また、 情報セッ ト収集部によりネッ ト ワーク上から収集してきても良い。 このよ うに、 関連性を持つメディア 情報を情報セッ トと してく くることにより、 画像情報に対して、 テキス ト情報、 音声情報などを関連付けられるので、 例えば、 音声情報に関す る特徴量ゃテキス ト情報に関する特徴量を用レ、て検索すれば関連付けら れている画像情報も同時に得ることができる。
また、 用いる特徴量は、 画像情報に対する特徴量と しては、 D C T変 換係数特徴量、 画像情報に対するゥ ブレッ ト変換係数特徴量、 画像 情報に対する H S I色ヒス トグラム特徴量などが挙げられる。 テキス ト 情報に対する特徴量と しては、 特定単語の存在を示す特徴量、 テキス ト 情報に対する特定単語の使用回数の特徴量などが挙げられる。 音声情報 に対する特徴量と しては、 音声周波数特徴量、 音声情報に対する振幅特 徴量、 音声情報に対する時間変移特徴量などが挙げられる。
次に、 上記マルチメディア情報分類配置装置は、 情報セッ ト配置空間 軸を再設定する部分であって、 各メディア情報から抽出される特徴量の 情報セッ ト配置空間軸の各軸への割り当てを再設定し、 1以上の軸を備 えた情報セッ ト配置空間を再設定する軸再設定部を備え、 前記特徴量抽 出部が再設定にかかる特徴量を抽出し、 前記情報セッ ト分類配置部が前 記抽出された特徴量に応じて前記情報セッ トを前記情報セッ ト配置空間 内に分類配置し、 前記情報表示部が前記再設定された情報セッ ト配置空 間に対する視点に応じたメディア情報を表示することが好ましい。
上記構成により、 検索者が実行した検索結果を見て、 インタラクティ ブに再度検索を行なって柔軟に情報を絞り込んだり、 再設定した情報セ ッ ト配置空間軸を用いて、 さらに異なる切り 口により検索を次々と続行 することができる。 つまり、 検索結果を見て試行錯誤的に、 別の特徴量 を指定して情報セッ ト配置空間の軸再設定を行なうことができ、 再設定 した軸を用いた情報セッ ト配置空間を用いて情報セッ トを再配置し、 再 表示を行なうことができる。
次に、 本発明のマルチメディァ情報分類配置装置を実現する処理プロ グラムを記録したコンピュータ読み取り可能な記録媒体は、 情報セッ ト 配置空間軸を設定する処理ステップであって、 情報セッ ト取得処理ステ ップと、 各メディア情報から抽出される特徴量の情報セッ ト配置空間各 軸への割り当てを設定し、 1以上の軸を備えた情報セッ ト配置空間を設 定する軸設定処理ステップと、 前記情報セッ 卜の各メディア情報から特 徴量を抽出する特徴量抽出処理ステップと、 前記抽出した特徴量に基づ いて前記情報セッ トを前記情報セッ ト配置空間内に分類配置する情報セ ッ ト分類配置処理ステップと、 前記情報セッ ト配置空間内に分類配置さ れた情報セッ トのメディア情報のうち、 前記情報セッ ト配置空間に対す る視点に応じたメディァ情報を表示する情報表示処理ステツプを備えた 処理プログラムを記録したことを特徴とする。
上記構成により、 当該記録媒体をコンピュータに読み取らせることに より、 コンピュータを用いて本発明のマルチメディァ情報分類配置装置 を実現することができる。
次に、 本発明のマルチメディア情報分類配置方法は、 画像情報、 テキ ス ト情報、 音声情報を含むメディア情報のうち互いに関連性を持った情 報の集合である情報セッ トが多数存在するマルチメディア情報群から特 定の情報セッ トを検索する方法であって、 情報セッ トを取得し、 各メデ ィァ情報から抽出される特徴量の情報セッ ト配置空間各軸への割り当て を設定して 1以上の軸を備えた情報セッ ト配置空間を設定し、 前記情報 セッ トのメディア情報から抽出した特徴量に応じて前記情報セッ トを前 記情報セッ ト配置空間内に分類配置し、 前記分類配置した情報セッ トに 対して、 前記特徴量とは異なる特徴量を指定して前記情報セッ ト配置空 間各軸への割り当てを再設定し、 前記再設定に従って前記情報セッ トを 前記情報セッ ト配置空間内に再分類配置し、 用いる特徴量を切り替えつ つ前記情報セッ ト配置空間の軸設定と情報セッ トの情報セッ ト配置空間 への分類配置を繰り返すことを特徴とする:
上記構成により、 マルチメディア情報の検索において、 用いる特徴量 を切り替えつつ前記情報セッ ト配置空間の軸設定と情報セッ トの情報セ ッ ト配置空間への分類配置を繰り返すことにより検索を行なうことがで き、 従来の検索方法においては、 用いた検索キーでは検索絞り込みが不 充分な場合、 再度同じ種類、 同じ特徴量に属する別の検索キーを適当に 選んで再検索を行なっていたが、 本発明の分類配置方法においては、 用 いた検索キーでは検索絞り込みが不充分な場合は、 別の種類、 別の特徴 量に属する検索キーを適当に選んで再検索を行なうことができ、 より柔 軟で適切な検索が行なうことができる。 また、 このように別の種類、 別 の特徴量の検索キーを用いるので、 検索者にとつて予期しないような発 見的な検索結果を得ることも期待できる。 例えば、 テキス ト情報に対す る特徴量と して特定単語の存在を示す特徴量により一次検索を実行し、 引き続き、 画像情報に対する特徴量としてウェーブレッ ト変換係数特徴 量と H S I 色ヒス トグラム特徴量を組み合わせて当該情報セッ トを再分 類、 再配置すれば、 特定単語により検索された情報セッ トは、 特定の形 状部分と色を持つものが多いなど、 従来知られていなかった傾向を発見 できるなどと言った新しい検索システムの利用方法も提供できる。 図面の簡単な説明
第 1図は、 本発明の実施形態 1のマルチメディア情報分類配置装置の 装置構成例を示す図である。
第 2図は、 本発明の実施形態 1のマルチメディア情報分類配置装置の 処理の流れを示すフローチャートである。
第 3図は、 本発明の実施形態 1のマルチメディア情報分類配置装置に おいて、 "バッグ" のキーワードで収集された情報セッ トを情報セッ ト 配置空間に分類、 配置した場合の表示例を示す写真である。
第 4図は、 図 3に示した情報セッ ト配置空間上の画像情報に付随して いるテキス ト情報の I D番号がプルダウンメニューで表示された例を示 す写真である。 第 5図は、 図 4に示されたプルダウンメニューからテキス ト情報の I D番号を選んで該当するテキス トが表示された例を示す写真である。 第 6図は、 軸設定部 2 0により情報セッ ト配置空間軸を再設定し、 特 徴量の再抽出、 当該情報セッ ト配置空間へ再分類、 再表示した例を示す 写真である。
第 7図は、 キーィメージに類似する画像情報を類似ィメージリス トと して表示した例を示す写真である。
第 8図は、 本発明の実施形態 2のマルチメディァ情報分類配置装置の 装置構成例を示す図である。
第 9図は、 本発明の実施形態 3のマルチメディア情報分類配置装置の 装置構成例を示す図である。
第 1 0図は、 本発明の実施形態 4のマルチメディア情報分類配置装置 の装置構成例を示す図である。
第 1 1図は、 本発明の実施形態 4のマルチメディア情報分類配置装置 において、 表示視点を奥行き方向に進めた場合の表示例を示す写真であ る。
第 1 2図は、 本発明の実施形態 5のマルチメディア情報分類配置装置 をクライアントサーバ構成で構築した例を示す図である。
第 1 3図は、 本発明の実施形態 5のマルチメディア情報分類配置装置 をクライアントサーバ構成で構築した例を示す図である。
第 1 4図は、 本発明の実施形態 5のマルチメディア情報分類配置装置 をクライアントサーバ構成で構築した例を示す図である。
第 1 5図は、 本発明のマルチメディア情報分類配置装置の処理内容を 処理ステップとしたプログラムを記録した記録媒体の例を示す図である c
発明を実施するための最良の形態 以下、 本発明のマルチメディァ情報分類配置装置および分類配置方法 の実施形態について、 図面を参照しながら説明する。
(実施の形態 1 )
本発明の実施形態 1のマルチメディア情報分類配置装置を説明する。 本実施形態 1 のマルチメディア情報分類配置装置は、 画像情報、 テキス ト情報、 音声情報を含むメディア情報のうち互いに関連性を持った情報 の集合を情報セッ トと し、 設定した情報セッ ト配置空間に当該情報セッ トを分類配置し、 当該情報セッ ト配置空間に対する視点に応じたメディ ァ情報を表示するものである。
まず、 本実施形態 1 のマルチメディア情報分類配置装置の装置構成例 を図 1に示す。 また、 本実施形態 1 のマルチメディア情報分類配置装置 の処理の流れを図 2のフローチヤ一トに示す。
本実施形態 1のマルチメディア情報分類配置装置は図 1 に示すように 情報セッ ト取得部 1、 軸設定部 2 0、 特徴量抽出部 3 0、 情報セッ ト分 類配置部 4 0、 情報表示部 5 0を備えている。 また、 6 0はインターネ ッ トなどのアクセス可能なネッ トワーク網であって、 ネッ トワーク 6 0 を介してマルチメディァ情報源 7 0がアクセス可能な状態にある。 マル チメディア情報源 7 0には画像情報、 テキス ト情報、 音声情報などの多 様なマルチメディア情報が格納されており、 この例では相互に関連があ るメディア情報の集合である情報セッ トも格納されているとする。 ここで、 情報セッ ト とは、 テキス ト情報、 画像情報、 音声情報など多 様なメディア情報のうち、 相互に関連があるもの同士を一まとまりの集 合とし、 関連付けたものである。 情報セッ トの一例としては、 画像情報 とテキス ト情報が関連付けられた情報セッ トがある。 これは、 例えば、 WWW上の画像とテキス トが混在した H T M L文書から、 画像部分を画 像情報として抽出し、 また H T M L文書の画像まわりのテキス トをテキ ス ト情報と して抽出し、 両者を関連付けて生成されたものである。 他の 例と しては、 動画像の画像情報と音声情報とテキス ト情報が関連付けら れた情報セッ トがある。 これは、 例えば、 動画像と音声を含むムービー データを含む X M Lファイルから、動画部分を動画像情報と して抽出し、 また音声データを音声情報と して抽出し、 ムービーデータが埋め込まれ ている周辺のテキス トをテキス ト情報として抽出し、 それぞれを関連付 けて生成されたものである。 また、 他のデータに対してリ ンクが張られ ている H T M Lデータからリンクを迪り、 当該リ ンク先の画像情報、 テ キス ト情報、 音声情報などを抽出して生成したものを情報セッ トと して も良い。 また、 H T M L文書のように当初から画像情報とテキス ト情報 が 1 ファイルの形態で存在するもののみならず、 1つの画像情報に対し て複数のテキス ト情報が関連付けられたり、 その逆に 1つのテキス トに 対して複数の画像情報が関連付けられている場合もあり うる。 また、 情 幸艮セッ トの一部として U R L (Universal Resource Locator) を含めるこ とができる。 情報セッ トの一部に U R Lを含めることにより、 後述する ように分類配置された情報セッ トを選択し、 その U R Lを基に当該情報 セッ トを含むウェブのページを表示することが可能となる
図 1 の装置構成例において、 情報セッ ト取得部 1は、 情報セッ ト読み 込み部 2と情報セッ ト収集部 1 0を備えた構成としている。 情報セッ ト 収集部 1 0は、 情報セッ トを収集する部分であり、 ネッ トワーク 6 0を 介してマルチメディア情報源 7 0に存在する情報セッ トを収集する。 情 報セッ ト読み込み部 2は、 C D— R O Mなどの記憶媒体などから直接、 情報セッ トの入力を受け付けることもできるものである。 このように情 報セッ ト取得部 1は、 情報セッ ト読み込み部 2 と情報セッ ト収集部 1 0 のいずれかまたは両者を適宜備えた構成とすることにより、 ネッ トヮー ク 6 0を介してマルチメディァ情報源 7 0に存在する情報セッ トを収集 する機能、 C D— R O Mなどの記憶媒体などから直接、 情報セッ 卜の入 力を受け付ける機能を選択的に保持することができる。
この実施形態 1 で説明する情報セッ ト収集部 1 0の構成例は、 通信ィ ンタフェース 1 1 、 ハー ドディスクなどの記録媒体 1 2、 情報セッ ト収 集キー入力部 1 3を備えている。 通信ィンタフェース 1 1を介してネッ トワーク 6 0上のマルチメディァ情報源 7 0 と通信する。 記録媒体 1 2 は、 収集した情報セッ トを格納しておく場合に利用できる。 情報セッ ト 収集キー入力部 1 3は、 情報セッ トの収集に当たり、 キーワードを用い て収集する範囲を指定する部分である。 ネッ トワーク上のマルチメディ ァ情報源 7 0に格納されている情報セッ トが大量にある場合には何も指 定せずに情報セッ トを収集すれば、 収集するデータ容量が極めて大きく なってしまう。 そこで、 情報セッ トの収集にあたり、 あらかじめ範囲を 絞り込むために情報セッ ト収集キー入力部 1 3よりキーヮードが入力さ れた場合には、 情報セッ ト収集部 1 0は、 当該キーワードを持つ情報セ ッ トを収集する。
軸設定部 2 0は、 情報セッ ト配置空間軸を設定する部分であって、 各 メディァ情報から抽出される特徴量の情報セッ ト配置空間各軸への割り 当てを設定し、 1以上の軸を備えた情報セッ ト配置空間を設定する。 例 えば、 X軸 Y軸 Z軸の 3軸を指定し、 この X Y Z軸が張る空間を情報セ ッ ト配置空間とする。
ここで、 設定し得る特徴量は、 画像情報、 テキス ト情報、 音声情報な どメディァに応じて抽出し得る特徴量であれば良い。
例えば、 画像情報に対しては、 D C T変換係数特徴量、 ウエーブレツ ト変換係数特徴量、 H S I色ヒス トグラム特徴量などが挙げられる。 D C T変換係数特徴量を情報セッ ト配置空間軸に設定することにより、 画 像情報の空間周波数成分の特徴による情報の分類、 配置が可能となる。 ウェーブレツ ト変換係数特徴量を情報セッ ト配置空間軸に設定すること により、 画像情報の特に空間周波数の低周波部分の特徴、 つまり、 画像 中に写り込んでいる物体の大枠の外形の特徴による情報の分類、 配置が 可能となる。 ウェーブレツ ト変換も D C T変換と同じく波形 · 周波数変 換であるが、 位置 (時間) 情報を保ったまま変換することが出来る。 H S I色ヒス トグラム特徴量を情報セッ ト配置空間軸に設定することによ り、 画像の色情報に基づく情報の分類、 配置が可能となる。 H S I色ヒ ス トグラムによれば、 人間の肌領域がどの程度含まれているかなどの画 像の特徴を良く掴むことができる。
また、 例えば、 テキス ト情報に对しては、 特定単語の存在を示す特徴 量、 特定単語の使用回数の特徴量などを挙げることができる。 特定単語 の存在を示す特徴量や特定単語の使用回数の特徴量を情報セッ ト配置空 間軸に設定することにより、 特定単語の説明などが含まれているテキス ト情報の分類、 配置が可能となる。 これらテキス ト情報に画像情報が関 連付けられている情報セッ トであれば、 特定単語により表わされる画像 情報も併せて情報セッ ト配置空間に分類、 配置されることとなる。
また、 例えば、 音声情報に対しては、 音声周波数特徴量、 音声の振幅 特徴量、 音声の時間変移特徴量などを挙げることができる。 音声周波数 特徴量を情報セッ ト配置空間軸に設定することにより、 音声周波数の特 徴、 つまり、 音声の高低、 音質などにより音声情報の分類、 配置が可能 となる。 音声周波数によれば、 発音体の別、 動物の鳴き声、 男性の声、 女性の声の別、 精度が上がれば、 声の人物など音声情報の特徴を表わす ことができる。 音声の振幅特徴量や時間変移特徴量を情報セッ ト配置空 間軸に設定することにより、 音声の大小に応じた音声情報の分類、 配置 が可能となる。
なお、軸設定部 2 0による、一の空間軸に対する特徴量の割り当ては、 複数の特徴量を組み合わせて割り当てることが可能である。 2つ以上の 特徴量の組み合わせは、 互いの特徴量の単位を変換、 調整する必要があ るが、 スコアのような点数に置き換えて合算することが可能である。 例 えば、 一つの空間軸に対して、 第 1の特徴量と して H S I色ヒス トグラ ムの指定色成分が閾値以上の割合で含まれていれば " 1 "、 含まれてい ない場合に " 0 " とし、 第 2の特徴量と して、 テキス ト情報中の特定単 語の存在を示す特徴量と して存在すれば " 1 "、 存在しない場合に " 0 " と し、 第 1 の特徴量と第 2の特徴量を合算して一つの空間軸に割り当て るなどの処理が可能である。 逆に、 複数の軸に対して一つの特徴量を割 り当てることもできる。 一つの特徴量から二つ以上の軸に割り当てる方 法は数多く存在するが、 そのような方法の一つとして、 特徴量をべク ト ルとみなして、 ベタ トルの各次元について分散が大きい次元を複数選択 してその次元を軸とする方法が挙げられる。
特徴量抽出部 3 0は、 情報セッ トの各メディア情報から特徴量を抽出 する部分である。 図 1には図示していないが、 上述した通り、 特徴量抽 出部 3 0には、 各メディア情報から様々な特徴量を抽出するための機能 を備えており、 例えば、 画像情報の特徴量抽出機能として、 D C T変換 係数特徴量算出機能、 ウェーブレッ ト変換係数特徴量算出機能、 H S I 色ヒス トグラム特徴量算出機能などを備えており、 例えば、 テキス ト情 報の特徴量抽出機能として、特定単語が存在しているか否かの検知機能、 特定単語の使用回数算出機能などを備えており、 また例えば音声情報の 特徴量抽出機能として、 音声周波数特徴量抽出機能、 音声の振幅特徴量 抽出機能、 音声の時間変移特徴量抽出機能などを備えている。 これら諸 機能を利用して収集した情報セッ トのそれぞれのメディァ情報から、 特 徴量を抽出する。 また、 特徴量抽出部 3 0は、 各メディア情報から特徴 量を抽出する機能の追加、 更新、 削除などが可能とする。 特徴量抽出機 能を D S P (デジタルシグナルプロセッサ) などで提供しておけば、 必 要に応じて内容を容易に書き換え、 追加できる。
情報セッ ト分類配置部 4 0は、 特徴量抽出部 3 0により抽出した特徴 量に基づいて情報セッ トを情報セッ ト配置空間内に分類配置する部分で ある。 例えば、 情報セッ ト配置空間が X Y Z 3軸により設定されておれ ば、 情報セッ トは当該 3次元情報セッ ト配置空間内に分類、 配置される こととなる。
情報表示部 5 0は、 情報セッ ト分類配置部 4 0により情報セッ ト配置 空間内に分類配置された情報セッ トのメディア情報を表示する部分であ り、 情報セッ ト配置空間に対する視点に応じた方向から情報セッ ト配置 空間内のメディア情報を表示する。 例えば、 X Y Z軸から張られた情報 セッ ト配置空間に対して、 X Y平面が正面であり、 z軸方向を奥行き方 向とすると、 ディスプレイ面が X Y平面であり、 画面奥行きが z軸方向 であるように表示される。
以上のように構成された本発明の実施形態 1のマルチメディア情報分 類配置装置の処理の流れの例を図 2を参照しつつ説明する。
図 2に示すように、 本発明の実施形態 1 のマルチメディア情報分類配 置装置の処理は大別して、 次のように、 情報セッ トの取得処理 (S 1 0 1 ) と、 情報セッ ト配置空間の軸に割り付ける特徴量を設定し、 情報セ ッ ト配置空間を定義する軸設定処理 (S 1 0 2 ) と、 情報セッ トのメデ ィァ情報から所定の特徴量を抽出する特徴量抽出処理 (S 1 0 3 ) と、 抽出した特徴量に従って情報セッ トを情報セッ ト配置空間内に分類、 配 置する情報分類配置処理 (S 1 0 4 ) と、 情報セッ ト配置空間および情 報セッ ト配置空間に分類、 配置した情報セッ トを設定視点から表示する 情報表示処理 (S 1 0 5 ) と、 表示された検索結果を見て、 必要に応じ てさらなる絞り込みや切り 口を変えた検索を続行するため、 情報セッ ト 配置空間の軸に割り付ける特徴量を再設定し、 情報セッ ト配置空間を再 定義する再軸設定処理 (ステップ S 1 0 2へのループ) を備えている。 なお、 最初の軸設定処理 (S 1 0 2 ) により設定された情報セッ ト配置 空間に基づく情報セッ トの分類、 配置により所望の検索結果が得られた 場合には、 再軸設定処理は必須のものではない。 また、 上記処理の流れ では、 情報セッ トは当初からアクセス可能な状態で存在していることを 前提としたものであるが、 実施形態 2において後述するようにマルチメ ディア情報分類配置装置が、 画像情報、 テキス ト情報、 音声情報を含む メディア情報のうち互いに関連性を持った情報をまとめ、 情報セッ トを 定義 ·生成する情報セッ ト生成処理を前処理と して実行しても良い。 まず、 本発明のマルチメディア情報分類配置装置は、 情報セッ ト取得 部 1により情報セッ ト取得処理 (S 1 0 1 ) を実行する。 ここでは、 例 えば、 情報セッ ト取得部 1により、 通信インタフェース 1 1 を介してィ ンターネッ トなどのネッ トワーク 6 0上にアクセス可能な状態にある W WWサーバーなどのマルチメディア情報源 7 0から情報セッ トを収集し て情報セッ トを取得する。 この例では、 情報セッ ト取得処理 (S 1 0 1 ) として、 画像情報とテキス ト情報が関連付けられている情報セッ トを複 数取得する。 また、 取得する情報セッ トの範囲をある程度絞るため、 キ 一ワード検索により ヒッ トしたもののみ取得しても良い。 この例では、 "バッグ"とレ、うキーヮードにヒッ トする情報セッ トを取得したとする。 次に、 マルチメディア情報分類配置装置は、 軸設定部 2 0により情報 セッ ト配置空間の軸に割り付ける特徴量を設定し、 情報セッ ト配置空間 を定義する軸設定処理 (S 1 0 2 ) を実行する。 軸設定部 2 0は、 上記 に示した画像情報に対する D C T変換係数特徴量など各メディア情報か ら抽出可能な特徴量から、 情報セッ ト配置空間の各軸に対して割り付け る特徴量をそれぞれ設定し、 情報セッ ト配置空間を定義することにより 軸設定処理を実行する。 この例では、 X軸 (水平方向) と して画像情報 のゥユーブレッ ト変換係数特徴量を割り当て、 γ軸 (垂直方向) と して H S I色ヒス トグラム特徴量を割り当て、 Z軸 (奥行き方向) と してテ キス ト情報内での特定単語の使用回数を示す特徴量を割り当てる。 この 説明では、 Z軸に割り付ける特定単語の存在を示す特徴量と して、 情報 セッ ト収集において用いた "バッグ" という単語の使用回数とする。 次に、 マルチメディア情報分類配置装置は、 特徴量抽出部 3 0を用い て、 収集されている情報セッ トのそれぞれのメディア情報から、 各空間 軸に割り当てられている特徴量を抽出する特徴量抽出処理 (S 1 0 3 ) を実行する。 上述した通り、 図 1には示されていないが、 特徴量抽出部 3 0には、 ウェーブレッ ト変換係数特徴量算出機能、 H S I色ヒス トグ ラム特徴量算出機能、 特定単語の使用回数算出機能を保持しており、 収 集されている情報セッ トのそれぞれのメディア情報から、 ウェーブレツ ト変換係数特徴量、 H S I色ヒス トグラム、 特定単語の使用回数を抽出 する。
次に、 マルチメディア情報分類配置装置は、 情報セッ ト分類配置部 4 0を用いて、 抽出した特徴量に従って情報セッ トを情報セッ ト配置空間 内に分類、 配置する情報分類配置処理 (S 1 0 4 ) を実行する。 そして、 情報表示部 5 0により、 情報セッ ト配置空間および情報セッ ト配置空間 に分類、 配置した情報セッ トを設定視点から表示する情報表示処理 (S 1 0 5 ) を実行する。 図 3に、 "バッグ" のキーワードで収集された情 報セッ トを設定された情報セッ ト配置空間内に分類、配置した例を示す。 この表示例では各情報セッ トは関連付けられたメディア情報のうち、 画 像情報を前面 (X Y平面) として表示している。 X軸がウェーブレッ ト 変換係数特徴量であるので、 X軸座標が似通った位置には、 外形が似通 つたバッグが表示されている。 Y軸が H S I色ヒス トグラム特徴量であ るので Y軸座標が似通った位置には、 色合いが似通つたバッグが表示さ れている。
図 3に示したように、 情報セッ ト配置空間に分類、 配置された情報セ ッ トの中には、 複数のテキス ト情報が関連付けられているものがある。 図 3では画像情報が前面に表示されているが、 それらはテキス ト情報を 伴っている。 ここでは、 図 4に示すように情報セッ ト配置空間上の画像 情報をボインティングデバイスでク リ ックすると付随しているテキス ト 情報の I D番号 ("テキス ト 1 " など) がブルダウンメニューで表示さ れる。 プルダウンメニューからテキス ト情報の I D番号を選ぶと、 図 5 に示すように該当するテキス トが表示される。
以上の情報セッ ト取得処理ステップ S 1 0 1から情報表示処理ステツ プ S 1 0 5により所望の画像情報などが得られ、 当初の検索処理の目的 が達成され、 再軸設定処理が必要でない場合は (ステップ S 1 0 6 : Ν 0 )、 検索処理を終了すればよいが、 当初の検索処理の目的が達成され ておらず、 再軸設定処理が必要な場合は (ステップ S 1 0 6 : Y E S )、 本発明のマルチメディァ情報分類配置装置は、 再軸設定処理を行なうた めステップ S 1 0 2にループすることが可能である。 つまり、 情報表示 処理ステップ S 1 0 5により表示された分類 ·配置表示結果を見て、 必 要に応じてさらなる絞り込みや切り 口を変えた検索を続行するため、 軸 設定部 2 0を用いて、 情報セッ ト配置空間の軸に割り付ける特徴量を再 設定し、 情報セッ ト配置空間を再定義する再軸設定処理を実行する。 こ のように、 必要な画像情報が得られるまで情報セッ ト配置空間軸に割り 当てる特徴量を再設定し (S 1 0 2 )、 情報セッ トの各メディア情報か ら再設定した特徴量を再抽出し ( S 1 0 3 )、 再抽出した特徴量に基づ いて情報セッ トを情報セッ ト配置空間に再分類、 再配置し (S 1 0 4 )、 情報表示部 5 0により情報セッ ト配置空間に再配置された情報セッ トを 再表示する ( S 1 0 5 )。 例えば、 軸設定部 2 0により、 X軸をゥユー ブレツ ト変換係数特徴量から D C T変換係数特徴量に替えたり、 Y軸を H S I色ヒス トグラム特徴量から全く異なる切り 口と して音声周波数特 徴量に替えたりすることも可能である。 この例では、 X軸をウェーブレ ッ ト変換係数特徴量から H S I色ヒス トグラム特徴量に切り替え、 Y軸 を H S I色ヒス トグラム特徴量から D C T変換係数特徴量に替えたもの とする。 軸設定部 2 0により情報セッ ト配置空間軸を再設定し、 特徴量 の再抽出、 当該情報セッ ト配置空間への再分類、 再表示した例を図 6に 示す。 このような一連の軸再設定処理を、 所望の検索結果が得られるま で繰り返す。
このように、 ある特徴量で得られた情報セッ トの分類 · 配置の表示結 果を見て、 全く異なる切り 口の特徴量を使って情報セッ トの分類 ·配置 を試すことができ、 検索者にとって予期しない新しい発見的な情報が得 られる可能性が生じる。
また、 画像情報など情報セッ トの分類 ·配置である表示結果を見て、 以下のような情報処理も可能である。
第 1には、 分類 ·配置された情報セッ トのうち選択した情報セッ トが 含まれるウェブのページを表示することも可能である。 情報セッ トの一 部に当該画像情報など情報セッ トが含まれている U R Lを併せて保存し ておけば、 当該画像情報が情報表示部 5 0上において利用者より選ばれ た場合に U R L情報を基にしてそのウェブページを表示することが可能 となる。 例えば、 画像情報を選び、 メニューなどから "ウェブページ" というボタンをポインティングデバイスでク リ ックすることによりその ウェブページを表示する。
第 2には、 分類 '配置された情報セッ トを見て、 検索キーを与え、 当 該キーに類似する情報セッ トをリ ス ト表示することも可能である。 例え ば、 図 3のように分類 ' 配置された情報セッ トに対して、 検索キーと し てキーイメージ (ハターン照合用のキーとなる画像) を与え、 パターン 照合により当該キーイメージに類似する画像情報を類似ィメージリ ス ト と して表示する。 その例を図 7に示す。 入力されたキーイメージに対し て類似イメージリス トが表示されている。 図 7の例は、 検索キーとして キーイメージを与えるものであるが、 検索キ一と してテキス ト情報を与 えることもできる。 この場合、 当該入力キーワードと、 類似イメージリ ス トが表示される。
以上、 本実施形態 1 に示したマルチメディア情報分類配置装置によれ ば、 画像情報、 テキス ト情報、 音声情報を含むメディア情報のうち互い に関連性を持った情報の集合を情報セッ トと し、 設定した情報セッ ト配 置空間に当該情報セッ トを分類配置し、 当該情報セッ ト配置空間に対す る視点に応じたメディァ情報を表示することができる。
(実施形態 2 )
本発明の実施形態 2のマルチメディァ情報分類配置装置を説明する。 本実施形態 2のマルチメディア情報分類配置装置は、 実施形態 1で説明 した情報セッ トの分類、 配置処理に先立ち、 前処理として、 画像情報、 テキス ト情報、 音声情報を含むメディア情報を収集し、 収集したメディ ァ情報相互の関連性を解析し、 関連するメディァ情報をまとめて情報セ ッ トを生成する機能を備えたものである。
まず、 本実施形態 2のマルチメディア情報分類配置装置の装置構成例 を図 8に示す。 本実施形態 2のマルチメディァ情報分類配置装置は図 8 に示すように、 情報セッ ト取得部 1以外の、 軸設定部 2 0、 特徴量抽出 部 3 0、 情報セッ ト分類配置部 4 0、 情報表示部 5 0、 ネッ トワーク 6 0、 マルチメディア情報源 7 0については、 実施形態 1で説明した図 1 のマルチメディァ情報分類配置装置構成例のものと同様で良い。 本実施形態 2のマルチメディァ情報分類配置装置では、 図 8に示すよ うに、 情報セッ ト取得部 1の情報セッ ト収集部 1 0が、 通信ィンタフユ ース 1 1、 記録媒体 1 2、 情報セッ ト収集キー入力部 1 3に加え、 情報 収集部 1 4、 関連解析部 1 5、 情報セッ ト生成部 1 6を備えている。 情報収集部 1 4は、 ネッ トワーク 6 0上のアクセス可能なマルチメデ ィァ情報源 7 0に格納されている画像情報、 テキス ト情報、 音声情報を 含むメディァ情報を収集する。 メディァ情報の収集にはロボッ トを用い て自動収集することができる。 ロボッ トを用いる場合には、 ネッ トヮー ク 6 0上のマルチメディア情報群 7 0からメディァ情報を収集する選択 基準を指定する。 例えば、 キーワード情報、 サイ ト情報、 リ ンク情報、 特定情報セッ トに对する類似度情報を含む基準群から選んで指定する。 選択基準にキーヮード情報を持たせれば、 当該キーヮードが付されてい ないメディア情報は収集されず、 範囲を限定することができる。 テキス ト検索サーバにキーヮ一ドを与えて、 その結果返されるページの検索を 行う。
選択基準としてサイ ト情報、 リンク情報を持たせれば、 ロボッ トは、 指定されている U R Lおよびその U R L以下のページやその U R から リンクされているページを検索する。 このように、 WWW上を巡回し、 リンクをたどることによって、 複数の Webぺージをたどる。
選択基準として特定情報セッ トに対する類似度情報を持たせれば、 あ る情報セッ トのメディア情報と似通っているメディア情報を中心に収集 することができる。
情報収集部 1 4は、 画像情報、 テキス ト情報、 音声情報などを収集し、 記憶媒体 1 2に格納する。
関連解析部 1 5は、 情報収集部 1 4によりマルチメディア情報源から 収集したメディア情報相互間の関連性を解析する部分である。 例えば、 画像情報に関連しているテキス トの解析と しては、 H T M L文書であれ ば、 当該画像付近のテキス トや H T M Lの情報を参照しながら、 H T M Lの構造を解釈した上で、 画像部分を画像情報と して抽出し、 また H T M L文書の画像まわりのテキス トをテキス ト情報と して抽出し、 画像に 近いテキス トの関連度合を解析する。 音声情報の関連度合の解析も同様 に可能である。 また、 H T M Lでなく とも P D Fファイルなど 1つのフ アイルにまとめられているものであれば、 当該ファイル中に存在する画 像情報、 テキス ト情報、 音声情報について関連度合が高いと して解析す ることが可能である。 また、 例えば、 1つのまとまったファイルでなく とも、 複数のメディア情報に同じキーワードが付されていれば、 関連度 合が高いと して解析することが可能である。 当該キーワードがありふれ たものでなく、 特異なものであれば、 関連度合がより高いとして解析す ることも可能である。 さらに、 複数のメディア情報の関連度合を人手に よって決めることも可能であることは言うまでもない。 また、 他の例と して、 動画像と音声を含むムービーデータを含む P D Fファイルであれ ば、 動画部分を動画像情報として抽出し、 また音声データを音声情報と して抽出し、 ムービーデータが埋め込まれている周辺のテキス トをテキ ス ト情報と して抽出し、 それぞれを関連付け、 情報セッ トとすることが できる。
情報セッ ト生成部 1 6は、関連解析部 1 5による解析結果に基づいて、 相互に関連性を持つメディア情報同士をまとめ、 その集合を情報セッ ト と して関連付けて 1つの情報セッ トと して生成される。
以上のように、 本実施形態 2のマルチメディア情報分類配置装置は、 実施形態 1 で説明した情報セッ トの分類、 配置処理に先立ち、 前処理と して、 画像情報、 テキス ト情報、 音声情報を含むメディア情報を収集し、 収集したメディア情報相互の関連性を解析し、 関連するメディア情報を まとめて情報セッ トを生成することができる。 なお、 生成した情報セッ トを用いて、 情報セッ ト配置空間に情報セッ トを分類配置する処理は、 実施形態 1で図 2のフローチャートを用いて説明したものと同様であり ここでの詳しい説明は省略する。
(実施形態 3 )
本発明の実施形態 3のマルチメディア情報分類配置装置を説明する。 本実施形態 3のマルチメディァ情報分類配置装置は、 情報セッ ト分類配 置部によるメディア情報の特徴量に基づいた情報セッ ト配置空間への分 類、 配置において、 自己組織化マップを応用するものである。
本実施形態 3マルチメディァ情報分類配置装置の装置構成例を図 9に 示す。 図 9に示すように、 情報セッ ト分類配置部 4 0は、 自己組織化マ ップ処理部 4 1を備えている。 なお、 情報セッ ト分類配置部 4 0以外の、 情報セッ ト取得部 1、 軸設定部 2 0、 特徴量抽出部 3 0、 情報表示部 5 0ネッ トワーク 6 0、 マルチメディア情報源 7 0については、 実施形態 1で説明した図 1のマルチメディア情報分類配置装置構成例のものと同 様で良い。
自己組織化マップは、 ニューラルネッ トワークを用いた教師なし学習 モデルである。 自己組織化マップでは、 高次元の特徴ベク トル空間から 低次元空間に写像を行なう。 その際に、 特徴ベク トルが類似しているも のは低次元空間でも近くに配置される。 この自己組織化マップをメディ ァ情報の分類 ·配置処理に応用し、 特徴量抽出部 3 0が抽出した特徴量 をもとに自己組織化マップ処理を用いて情報セッ トを配置する。 自己組 織化マップ処理部 4 1は特徴量抽出部 3 0が抽出した特徴量に対して当 該自己組織化マップ生成処理を実行するものである。 本実施形態 3の情 報セッ ト分類配置部 4 0は、 自己組織化マップ処理部 4 1が生成した自 己組織化マップで得られた配置情報を基に情報セッ ト配置空間に分類 · 配置する。 また、 自己組織化マップ処理と併せて、 z軸 (奥行き方向) に割り当てられている特徴量を基にした奥行き表現も組み合わせること もできる。 例えば、 テキス ト情報を元に、 単語の頻度情報に分解し、 そ れぞれの頻度をべク トル化して、 そのべク トルに基づき、 奥行き方向の 軸の位置を決定する。 また、 他の例と しては、 キーワードを用いて Web を検索した場合、 テキス ト検索サーバが返すキーワードと Web ページ の関連度をもとに、 関連度が高い順に奥行き情報として表示する事もで き、 それらを切り替えて表示することができる。
以上のように、 本実施形態 3のマルチメディア情報分類配置装置によ れば、 自己組織化マップ処理を応用して、 画像を空間上で内容が近いと 思われるものが近くに、 内容が遠いと思われるものが遠くにそれぞれ配 置することが出来る。
(実施形態 4 )
本発明の実施形態 4のマルチメディァ情報分類配置装置を説明する。 本実施形態 4のマルチメディア情報分類配置装置は、 情報セッ トが分 類 ·配置された情報セッ ト配置空間の表示方法、 ブラウジング方法にェ 夫を加えたものである。
本実施形態 4のマルチメディア情報分類配置装置の装置構成例を図 1 0に示す。 図 1 0に示すように、 情報表示部 5 0は表示視点移動部 5 1 を備えている。 なお、 情報表示部 5 0以外の、 情報セッ ト取得部 1、 軸 設定部 2 0、 特徴量抽出部 3 0、 情報セッ ト分類配置部 4 0、 ネッ トヮ ーク 6 0、 マルチメディア情報源 7 0については、 実施形態 1で説明し た図 1のマルチメディア情報分類配置装置構成例のものと同様で良い。 表示視点移動部 5 1は、 情報表示部 5 0において、 情報セッ ト分類配 置部 4 0により情報セッ トが分類 ·配置された情報セッ ト配置空間を表 示するにあたり、 当該空間を表示する視点の設定位置を移動させる機能 を備えている。 情報表示部 5 0は、 表示視点移動部 5 1 により設定され た表示視点から見た情報セッ ト配置空間を表示する。
実施形態 1では、 情報表示部 5 0による情報セッ ト配置空間の表示例 として図 3を示した。 本実施形態 3のマルチメディァ情報分類配置装置 では、 この図 3の表示視点をデフォル トとし、 表示視点移動部 5 1によ り表示視点を動的に変化させることが可能となる。 言わば、 情報セッ ト が分類'配置された情報セッ ト配置空間内を仮想的に自由に動きまわり、 移動位置から見える情報セッ ト配置空間内の情報セッ 卜の分類 ·配置さ れた様子を表示することができる。 通常であれば、 ディスプレイ表示面 は、 基本的には 2次元平面であるので、 遠近法による表示が可能ではあ るものの、 奥行きの深い位置にある情報セッ トは見づらいものとなりが ちである。 しかし、 本実施形態 3のマルチメディア情報分類配置装置に よれば、 動的に表示視点を変化させることができ、 検索者の操作に応じ て、 検索者がより詳しく見たい情報セッ トの分類 ·配置の様子をディス プレイ表示面近くに表示させることができる。 図 1 1は、 図 3の状態か ら、 表示視点を奥行き方向に進めた場合の表示例を示したものである。
(実施形態 5 )
本発明の実施形態 5のマルチメディア情報分類配置装置を説明する。 本実施形態 5のマルチメディア情報分類配置装置は、 上述した実施形態 1〜 4のマルチメディア情報分類配置装置を、 コンピュータネッ トヮー クを介したクライアントサーバーシステムで構築したものである。 上述 した実施形態 1〜 4のマルチメディア情報分類配置装置の装置構成のう ち、 どの要素をサーバーコンピュータに組み込み、 どの要素をクライア ントコンピュータに組み込むかにより幾つかのパターンが可能である。 図 1 2は、サーバ一コンピュータ 1 0 0に情報セッ ト取得部 1を設け、 クライアン トコンピュータ 1 0 1に軸設定部 2 0、 特徴量抽出部 3 0、 情報セッ ト分類配置部 4 0、 情報表示部 5 0を設けたクライアントサー バ構成例である。
図 1 3は、 サーバーコンピュータ 1 0 0に情報セッ ト取得部 1、 特徴 量抽出部 3 0を設け、クライアントコンピュータ 1 0 1に軸設定部 2 0 、 情報セッ ト分類配置部 4 0、 情報表示部 5 0を設けた構成である。
図 1 4は、 サーバーコンピュータ 1 0 0に情報セッ ト取得部 1、 特徴 量抽出部 3 0、 情報セッ ト分類配置部 4 0を設け、 クライアン トコンビ ユータ 1 0 1に軸設定部 2 0、 情報表示部 5 0を設けた構成である。 ただし、 上記の図 1 2〜図 1 4のそれぞれの構成において、 情報セッ トの取得方法に関して幾通りかの方法が挙げられる。 例えば、 サーバコ ンピュータ 1 0 0がロボッ トと して、 あらかじめ指定されている内容の 情報セッ トをネッ トワーク上などから定期的に自動収集 · 自動更新する 方法がある。 他には、 図 1 2〜図 1 4はいずれも情報セッ ト取得部 1が サーバコンピュータ 1 0 0に図示されているが、 情報セッ ト取得部 1の 情報セッ ト収集部 1 0から情報セッ ト収集キー入力部 1 3を分離してク ライアントコンピュータ 1 0 1に設け (図示せず)、 クライアントコン ピュータ 1 0 1 の利用者が情報セッ ト収集キー入力部 1 3を用いて情報 セッ ト収集キーを入力し、 当該入力された情報セッ ト収集キーをサーバ コンピュータ 1 0 0の情報セッ ト取得部 1に渡し、 サーバコンピュータ 1 0 0が当該情報セッ ト収集キーを用いて、 該当する情報セッ トをネッ トワーク上などから動的に収集する方法がある。
このよ うに、 上述した実施形態 1 〜 4のマルチメディア情報分類配置 装置の装置構成要素を、 サーバーコンピュータとクラアン トコンピュー タに分けて設けることにより、 クライアントサーバシステムにより本発 明のマルチメディア情報分類配置装置を構築することができる。
(実施形態 6 ) 本発明の実施形態 6は、 上記先行する実施形態 1 〜 4で説明したマル チメディア情報分類配置装置などを用いたマルチメディア情報検索分類 処理を用いて、 情報セッ トに対する柔軟な分類、 配置、 検索絞り込み、 他の検索の切り 口に切り替えた分類配置方法である。
従来に見られる検索方法は、 検索キーヮードを与え、検索結果を見て、 さらに、 検索キーヮードを限定的なものに絞り込んで再検索を実行した り、 検索結果が思わしくない場合に、 新たな検索キーワードに代えて再 検索を実行するものであり、 試行錯誤的に検索キーヮードを調整しつつ 検索を実行するものと言える。
しかし、 検索キーワードというテキス ト情報と しての 1つの特徴量に ついて試行錯誤を重ねるのみである。
本実施形態 6の情報セッ トの分類配置方法は、 検索キーと してあるメ ディア情報のある特徴量を用いて検索した場合、検索結果を見て、 次に、 前記メディア情報とは異なるメディア情報の特徴量を用いた検索や、 同 じメディア情報であるが前回とは異なる特徴量を指定したり して、 検索 を次々と実行してゆく方法である。 つまり、 各メディア情報から抽出さ れる特徴量の情報セッ ト配置空間各軸への割り当てを設定して 1以上の 軸を備えた情報セッ ト配置空間を設定し、 分類配置した情報セッ トに対 して、 分類 ·配置に用いた特徴量とは異なる特徴量を指定して情報セッ ト配置空間各軸への割り当てを再設定し、 前記再設定に従って情報セッ トを前記情報セッ ト配置空間内に再分類配置し、 用いる特徴量を切り替 えつつ情報セッ ト配置空間の軸設定と情報セッ トの情報セッ ト配置空間 への分類配置を繰り返す分類配置方法である。
この方法であれば、 ある特徴量で得られた情報セッ トの分類 ·配置で ある検索結果を見て、 全く異なる切り 口の特徴量を使って情報セッ トの 分類 ·配置を試すことができ、 検索者にとって予期しない新しい発見的 な情報が得られる可能性が生じる。
例えば、 実施形態 1で説明したマルチメディァ情報分類配置装置を用 いて、 売れ筋の女性用バッグのデザインを調べるため、 "バッグ" とい うキーワードを指定して情報セッ トを収集し、 次に、 情報セッ ト配置空 間軸と して、 X軸にウエーブレッ ト変換係数特徴量、 Y軸に女性という キ一ヮ一ドの存在を示す特徴量、 Z軸にバッグというキーヮードの存在 を示す特徴量を割り付けて情報セッ ト配置空間内に分類配置し、 表示結 果が得られたとする。 ここで例えば、 検索者が、 表示された画像情報の 中に、 白系統色のバッグを持ち、 白毛の犬を連れていた女性が写ってい る画像を発見した場合、 「犬を連れ歩く女性は犬と同系統色のバッグを 持つ人が多いかも知れない」 という推測を持つ場合がある。 当該推測を 確かめるべく、 情報セッ ト配置空間軸に対して異なる切り 口の特徴量を 割り付けて、 再軸設定をし、 情報セッ トの再分類、 再配置、 再表示を実 行する。 例えば、 X軸に "バッグ" というキーワードの存在を示す特徴 量と "犬" というキーワードの存在を示す特徴量の合算を割り付け (つ まり、 バッグと犬の両方のキーワードを持つことを指定し)、 Y軸に色 ヒス トグラム特徴量を割り付けて、 情報セッ ト配置空間軸を再設定し、 情報セッ トを再分類 · 再配置するというような新たな切り 口の検索が可 能となる。 得られた画像情報の分類 · 配置の表示結果を見て、 同系統の 色のバッグと犬を持ち歩く女性が多いかも知れないという推測の真偽判 断に役立てることができる。
また、 ここで、 実施形態 1でも説明したように当該情報セッ トに他の メディア情報、 例えば、 テキス ト情報と して個人情報が付随している場 合、 ボインティングデバイスでそれぞれの画像情報をク リ ックすると、 同系統の色のバッグと犬を持ち歩く女性は年収が高い傾向があるなどの 新たな傾向が発見できるかも知れない。 さらに、 情報セッ ト中に、 画像 情報に関連づけられた音声情報と しての犬の鳴き声音声情報が含まれて おれば、 情報セッ ト配置空間軸の一つを音声情報の音声周波数特徴量を 割り付けて再分類 ·配置、 再表示を実行した場合に、 別の切り 口からの 発見があるかも知れない。 例えば、 音声周波数が高い座標に多くの画像 情報が配置されておれば、 犬の音声が高い傾向にある、 つまり、 室内で 飼えるような小型犬が多い傾向が発見できるかも知れない。 つまり 「小 型犬を連れ歩く女性は、 持ち歩くバッグの色を犬の色に合わせる傾向が ある」 とレ、う傾向を発見できるかも知れない:
このように、 本実施形態 6の情報セッ トの分類配置方法によれば、 あ る特徴量で得られた情報セッ トの分類 · 配置である検索結果を見て、 全 く異なる切り 口の特徴量を使って情報セッ トの分類 ·配置を試すことが でき、 検索者にとって予期しない新しい発見的な情報が得られる。
(実施形態 7 )
本発明のマルチメディア情報分類配置装置は、 上記実施形態に説明し た処理を実現する処理ステップを記述したプログラムをコンピュータ読 み取り可能な記録媒体に記録して提供することにより、 各種コンビユー タを用いて構築することができる。 本発明のマルチメディァ情報分類配 置装置を実現する処理ステップを備えたプログラムを記録した記録媒体 は、 図 1 5に図示した記録媒体の例に示すように、 C D— R O M 2 0 2 ゃフレキシブルディスク 2 0 3等の可搬型記録媒体 2 0 1だけでなく、 ネッ トワーク上にある記録装置内の記録媒体 2 0 0や、 コンピュータの ハードディスクゃ R A M等の記録媒体 2 0 5のいずれであっても良く、 プログラム実行時には、 プログラムはコンピュータ 2 0 4上にローディ ングされ、 主メモリ上で実行される。
産業上の利用可能性
本発明のマルチメディア情報分類配置装置によれば、 画像情報、 テキ ス ト情報、 音声情報を含むメディア情報のうち互いに関連性を持った情 報の集合を情報セッ トとし、 設定した情報セッ ト配置空間に当該情報セ ッ トを分類配置し、 当該情報セッ ト配置空間に対する視点に応じたメデ ィァ情報を表示することができる。
また、 本発明のマルチメディア情報分類配置装置によれば、 情報セッ ト生成部を保持することにより、情報セッ トの分類、 配置処理に先立ち、 前処理と して、 画像情報、 テキス ト情報、 音声情報を含むメディア情報 を収集し、 収集したメディア情報相互の関連性を解析し、 関連するメデ ィァ情報をまとめて情報セッ トを生成することができる。
また、 本発明のマルチメディア情報分類配置装置によれば、 自己組織 化マップ処理部を備えることにより、 自己組織化マップ処理を応用し、 情報セッ トの情報セッ ト配置空間への分類'配置を行なうことができる。 また、 本発明のマルチメディア情報分類配置装置によれば、 表示視点 移動部を備えることにより、 動的に表示視点を変化させることができ、 検索者の操作に応じて、 検索者がより詳しく見たい情報セッ トの分類 - 配置の様子をディスプレイ表示面近くに表示させることができる。
また、 本発明の情報セッ トの分類配置方法によれば、 ある特徴量で得 られた情報セッ 卜の分類 ·配置である検索結果を見て、 全く異なる切り 口の特徴量を使って情報セッ トの分類 ·配置を試すことができ、 検索者 にとつて予期しない新しい発見的な情報を得ることができる。

Claims

請求の範囲
1 . 画像情報、 テキス ト情報、 音声情報を含むメディア情報のうち互 いに関連性を持った情報の集合を情報セッ トと し、
情報セッ ト配置空間軸を設定する部分であって、 各メディア情報から 抽出される特徴量の情報セッ ト配置空間各軸への割り当てを設定し、 1 以上の軸を備えた情報セッ ト配置空間を設定する軸設定部と、
情報セッ トを取得する情報セッ ト取得部と、
前記情報セッ トの各メディァ情報から特徴量を抽出する特徴量抽出部 と、
前記抽出した特徴量に基づいて前記情報セッ トを前記情報セッ ト配置 空間内に分類配置する情報セッ ト分類配置部と、
前記情報セッ ト配置空間内に分類配置された情報セッ 卜のメディア情 報のうち、 前記情報セッ ト配置空間に対する視点に応じたメディァ情報 を表示する情報表示部を備えたことを特徴とするマルチメディア情報分 類配置装置。
2 . 前記軸設定部における、 1つの空間軸に対して割り当てる特徴量 が複数の特徴量を組み合わせたもの、 または、 複数の軸に対して 1つの 特徴量を割り当てたものである請求項 1に記載のマルチメディア情報分
3 . 前記軸設定部が、 各メディア情報から抽出される特徴量の情報セ ッ ト配置空間軸の各軸への割り当てを再設定し、 1以上の軸を備えた情 報セッ ト配置空間を再設定する軸再設定機能を備え、
前記特徴量抽出部が前記軸設定部による軸再設定に応じて特徴量を抽 出し、 前記情報セッ ト分類配置部が前記抽出された特徴量に応じて前記 情報セッ トを前記情報セッ ト配置空間内に分類配置し、 前記情報表示部 が前記再設定された情報セッ ト配置空間に対する視点に応じたメディア 情報を表示する請求項 1または 2に記載のマルチメディァ情報分類配置
4 . 画像情報、 テキス ト情報、 音声情報を含むメディア情報を収集す る情報収集部と、 前記収集したメディア情報相互の関連性を解析する関 連解析部と、 相互に関連性を持つメディア情報の集合を情報セッ トとす る情報セッ ト生成部を備えた請求項 1 に記載のマルチメディア情報分類
5 . 前記情報収集部が、 マルチメディア情報群からメディア情報を収 集する際に指定された選択基準に従ってメディァ情報を収集するもので あって、 前記選択基準を、 キーワー ド情報、 サイ ト情報、 リ ンク情報、 特定情報セッ トに対する類似度情報を含む基準群から選んで指定する請 求項 1に記載のマルチメディァ情報分類配置装置。
6 . 前記特徴量が、 画像情報に対する D C T変換係数特徴量、 画像情 報に対するゥ ーブレツ ト変換係数特徴量、 画像情報に対する H S I色 ヒス トグラム特徴量、 テキス ト情報に対する特定単語の存在を示す特徴 量、 テキス ト情報に対する特定単語の使用回数の特徴量、 音声情報に対 する音声周波数特徴量、 音声情報に対する振幅特徴量、 音声情報に対す る時間変移特徴量から選ばれた特徴量である請求項 1に記載のマルチメ ディア情報分類配置装置。
7 . 前記情報セッ ト分類配置部が、 局所相互作用を利用して学習によ り 自己組織化をおこなう 自己組織化マップ処理部を備え、
前記情報セッ ト分類配置部は、 前記特徴量抽出部が抽出した特徴量を もとに、 前記自己組織化マップ処理部による自己組織化マップ処理を用 いて情報セッ トを配置する請求項 1に記載のマルチメディア情報分類配 置装置。
8 . 前記情報表示部が、 情報セッ トおよび情報セッ ト配置空間を表示 する視点の設定位置を移動させる機能を持つ表示視点移動部を備え、 前記情報表示部は、 前記表示視点移動部が設定した視点位置に基づい て情報セッ トが分類 ·配置された情報セッ ト配置空間を表示する請求項 1に記載のマルチメディア情報分類配置装置。
9 . 画像情報、 テキス ト情報、 音声情報を含むメディア情報のうち互 いに関連性を持った情報の集合である情報セッ トを情報セッ ト配置空間 内に分類配置して表示するマルチメディア情報分類配置装置を実現する 処理プログラムを記録したコンピュータ読み取り可能な記録媒体であつ て、
情報セッ トを取得する情報セッ ト取得処理ステップと、
情報セッ ト配置空間軸を設定する処理ステップであって、 各メディア 情報から抽出される特徴量の情報セッ ト配置空間各軸への割り当てを設 定し、 1以上の軸を備えた情報セッ ト配置空間を設定する軸設定処理ス テツフ°と、
前記情報セッ トの各メディア情報から特徴量を抽出する特徴量抽出処 理ステップと、
前記抽出した特徴量に基づいて前記情報セッ トを前記情報セッ ト配置 空間内に分類配置する情報セッ ト分類配置処理ステップと、
前記情報セッ ト配置空間内に分類配置された情報セッ トのメディア情 報のうち、 前記情報セッ ト配置空間に対する視点に応じたメディア情報 を表示する情報表示処理ステップを備えた処理プログラムを記録したこ とを特徴とする記録媒体。
1 0 . 画像情報、 テキス ト情報、 音声情報を含むメディア情報のうち 互いに関連性を持った情報の集合である情報セッ トが多数存在するマル チメディア情報群から特定の情報セッ トを検索する方法であって、 情報セッ トを取得し、 各メディア情報から抽出される特徴量の情報セッ ト配置空間各軸への 割り当てを設定して 1以上の軸を備えた情報セッ ト配置空間を設定し、 前記情報セッ トのメディァ情報から抽出した特徴量に応じて前記情報 セッ トを前記情報セッ ト配置空間内に分類配置し、
前記分類配置した情報セッ トに対して、 前記特徴量とは異なる特徴量 を指定して前記情報セッ ト配置空間各軸への割り当てを再設定し、 前記 再設定に従って前記情報セッ トを前記情報セッ ト配置空間内に再分類配 置し、
用いる特徴量を切り替えつつ前記情報セッ ト配置空間の軸設定と情報 セッ トの情報セッ ト配置空間への分類配置を繰り返す情報セッ トの分類 配置方法。
PCT/JP1999/005950 1999-10-27 1999-10-27 Dispositif et procede de classement et de rangement d'informations multimedia WO2001031502A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP1999/005950 WO2001031502A1 (fr) 1999-10-27 1999-10-27 Dispositif et procede de classement et de rangement d'informations multimedia
JP2001534014A JP3615518B2 (ja) 1999-10-27 2000-09-27 マルチメディア情報分類配置装置および分類配置方法
PCT/JP2000/006684 WO2001031503A1 (fr) 1999-10-27 2000-09-27 Dispositif et procede de structuration/tri d'informations multimedia
EP00962905A EP1241585A4 (en) 1999-10-27 2000-09-27 DEVICE AND METHOD FOR STRUCTURING / SORTING MULTIMEDIA INFORMATION
US10/101,272 US6948123B2 (en) 1999-10-27 2002-03-20 Multimedia information arranging apparatus and arranging method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/005950 WO2001031502A1 (fr) 1999-10-27 1999-10-27 Dispositif et procede de classement et de rangement d'informations multimedia

Publications (1)

Publication Number Publication Date
WO2001031502A1 true WO2001031502A1 (fr) 2001-05-03

Family

ID=14237112

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP1999/005950 WO2001031502A1 (fr) 1999-10-27 1999-10-27 Dispositif et procede de classement et de rangement d'informations multimedia
PCT/JP2000/006684 WO2001031503A1 (fr) 1999-10-27 2000-09-27 Dispositif et procede de structuration/tri d'informations multimedia

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/006684 WO2001031503A1 (fr) 1999-10-27 2000-09-27 Dispositif et procede de structuration/tri d'informations multimedia

Country Status (4)

Country Link
US (1) US6948123B2 (ja)
EP (1) EP1241585A4 (ja)
JP (1) JP3615518B2 (ja)
WO (2) WO2001031502A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112218167A (zh) * 2019-07-10 2021-01-12 腾讯科技(深圳)有限公司 多媒体信息播放方法、服务器、终端及存储介质

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3738631B2 (ja) * 1999-09-27 2006-01-25 三菱電機株式会社 画像検索システムおよび画像検索方法
JP3840928B2 (ja) * 2001-07-17 2006-11-01 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
US20030126601A1 (en) * 2001-12-31 2003-07-03 Koninklijke Philips Electronics N.V. Visualization of entertainment content
JP4116325B2 (ja) * 2002-05-09 2008-07-09 富士フイルム株式会社 画像表示制御装置
GB2393271A (en) * 2002-09-19 2004-03-24 Sony Uk Ltd Information storage and retrieval
GB2395808A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
GB2395807A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
US7124149B2 (en) * 2002-12-13 2006-10-17 International Business Machines Corporation Method and apparatus for content representation and retrieval in concept model space
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
US20050193015A1 (en) * 2004-02-19 2005-09-01 Sandraic Logic, Llc A California Limited Liability Company Method and apparatus for organizing, sorting and navigating multimedia content
US8499248B1 (en) 2004-04-29 2013-07-30 Paul Erich Keel Methods and apparatus for managing and exchanging information using information objects
JP4539207B2 (ja) * 2004-07-21 2010-09-08 株式会社日立製作所 プレイリスト作成装置、その方法、ダビングリスト作成装置、及びその方法
US20060136259A1 (en) * 2004-12-17 2006-06-22 General Electric Company Multi-dimensional analysis of medical data
US20060136417A1 (en) * 2004-12-17 2006-06-22 General Electric Company Method and system for search, analysis and display of structured data
US20070011169A1 (en) * 2005-07-05 2007-01-11 Xerox Corporation Method and system for collecting data from diverse sources and transforming the collected data into a user-friendly format
JP2007066291A (ja) * 2005-08-02 2007-03-15 Seiko Epson Corp 画像表示方法および画像表示装置、画像表示システム、サーバ、プログラム、記録媒体
JP2007080061A (ja) * 2005-09-15 2007-03-29 Univ Of Tsukuba Webページの検索方法及びWebページのクラスタリング方法
US20070078873A1 (en) * 2005-09-30 2007-04-05 Avinash Gopal B Computer assisted domain specific entity mapping method and system
US7707204B2 (en) * 2005-12-13 2010-04-27 Microsoft Corporation Factoid-based searching
US20070209025A1 (en) * 2006-01-25 2007-09-06 Microsoft Corporation User interface for viewing images
JP4958456B2 (ja) * 2006-03-14 2012-06-20 学校法人同志社 画面の表示方法
WO2008017430A1 (de) * 2006-08-07 2008-02-14 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Verfahren zur herstellung skalierbarer bildmatrizen
US7707208B2 (en) 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
JP4296521B2 (ja) * 2007-02-13 2009-07-15 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
US20080208791A1 (en) * 2007-02-27 2008-08-28 Madirakshi Das Retrieving images based on an example image
JP4356027B2 (ja) * 2007-03-30 2009-11-04 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2008122914A2 (en) * 2007-04-04 2008-10-16 Koninklijke Philips Electronics N.V. Method and apparatus for rendering a plurality of multimedia objects
US8375312B2 (en) * 2007-06-08 2013-02-12 Apple Inc. Classifying digital media based on content
US8069404B2 (en) 2007-08-22 2011-11-29 Maya-Systems Inc. Method of managing expected documents and system providing same
US8601392B2 (en) 2007-08-22 2013-12-03 9224-5489 Quebec Inc. Timeline for presenting information
US20090199093A1 (en) * 2007-09-04 2009-08-06 Tridib Chakravarty Image Capture And Sharing System and Method
US8739050B2 (en) 2008-03-07 2014-05-27 9224-5489 Quebec Inc. Documents discrimination system and method thereof
JP2009266188A (ja) * 2008-03-31 2009-11-12 Yahoo Japan Corp 表示制御方法及びプログラム
JP4636141B2 (ja) * 2008-08-28 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5344715B2 (ja) * 2008-11-07 2013-11-20 国立大学法人北海道大学 コンテンツ検索装置およびコンテンツ検索プログラム
US8423916B2 (en) * 2008-11-20 2013-04-16 Canon Kabushiki Kaisha Information processing apparatus, processing method thereof, and computer-readable storage medium
KR101695490B1 (ko) * 2009-12-23 2017-01-12 삼성전자주식회사 컨텐츠 검색방법
US9384216B2 (en) * 2010-11-16 2016-07-05 Microsoft Technology Licensing, Llc Browsing related image search result sets
US9189129B2 (en) 2011-02-01 2015-11-17 9224-5489 Quebec Inc. Non-homogeneous objects magnification and reduction
US10289657B2 (en) 2011-09-25 2019-05-14 9224-5489 Quebec Inc. Method of retrieving information elements on an undisplayed portion of an axis of information elements
US9519693B2 (en) 2012-06-11 2016-12-13 9224-5489 Quebec Inc. Method and apparatus for displaying data element axes
US9646080B2 (en) 2012-06-12 2017-05-09 9224-5489 Quebec Inc. Multi-functions axis-based interface
JP6144968B2 (ja) * 2013-06-05 2017-06-07 日本電信電話株式会社 情報提示装置、方法、及びプログラム
CN103473040A (zh) * 2013-07-08 2013-12-25 北京百纳威尔科技有限公司 多媒体播放方法及装置
JP6058595B2 (ja) * 2013-07-31 2017-01-11 富士フイルム株式会社 画像検索装置、画像検索方法、プログラムおよび記録媒体
CN105488084A (zh) * 2014-12-24 2016-04-13 哈尔滨安天科技股份有限公司 基于树同构的软件安装包分类方法及系统
US10671266B2 (en) 2017-06-05 2020-06-02 9224-5489 Quebec Inc. Method and apparatus of aligning information element axes
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks
JP7014072B2 (ja) * 2018-07-17 2022-02-01 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259130A (ja) * 1996-03-19 1997-10-03 Fujitsu Ltd 情報探索方法及び装置
JPH1011463A (ja) * 1996-06-26 1998-01-16 Mitsubishi Materials Corp 音楽情報検索装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728687A (ja) * 1993-07-15 1995-01-31 Fujitsu Ltd マルチメディア知識ベ−ス装置,及び、情報提供装置
JP3715690B2 (ja) * 1995-08-02 2005-11-09 キヤノン株式会社 マルチメディアデータファイリングシステム
JPH09114859A (ja) * 1995-10-20 1997-05-02 Fuji Xerox Co Ltd 情報提示装置
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5915038A (en) * 1996-08-26 1999-06-22 Philips Electronics North America Corporation Using index keys extracted from JPEG-compressed images for image retrieval
US6253218B1 (en) * 1996-12-26 2001-06-26 Atsushi Aoki Three dimensional data display method utilizing view point tracing and reduced document images
US6633893B2 (en) * 1998-09-04 2003-10-14 Canon Kabushiki Kaisha File management system and method, and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09259130A (ja) * 1996-03-19 1997-10-03 Fujitsu Ltd 情報探索方法及び装置
JPH1011463A (ja) * 1996-06-26 1998-01-16 Mitsubishi Materials Corp 音楽情報検索装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HATANO et al., "Eizo Database no Douteki Clustering to Sozai Kensaku Kikou ni tsuite", Research Report of Information Processing Society of Japan (IPSJ) (96-DBS-109-18), Vol. 96, No. 68, 24 July 1996 (24.07.96), pages 105-110. *
HAYAKAWA et al., "User no Riyou Rireki ni motozuku WWW Server no Chizu gata Directory", Research Report of Information Processing Society of Japan(IPSJ) (97-HI-70-3), Vol. 97, No. 2, 16 January 1997 (16.01.97), pages 17-24. *
ISHIKAWA et al., "Toukei teki Inshou Kuukan wo mochiita Gazou Inshou Sousa Houshiki", Transactions of Symposium, Information Processing Society of Japan(IPSJ), Vol. 96, No. 10, 02 December 1996 (02.12.96), pages 131-137. *
SANO et al., "Jiko Soshikika Map wo mochiita Web Bunsho no Taiwa teki Bunrui to sono Shikaku ka", Research Report of Information Processing Society of Japan(IPSJ) (98-DBS-116(1)-5), Vol. 98, No. 57, 08 July 1998 (08.07.98), pages 33-40. *
SATO et al., "Color Gazou Database no Image Kensaku to Kansei Johou Shori", Proceedings of Fuzzy System Symposium, Vol. 12, 04 June 1996 (04.06.96), pages 379-380. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112218167A (zh) * 2019-07-10 2021-01-12 腾讯科技(深圳)有限公司 多媒体信息播放方法、服务器、终端及存储介质
CN112218167B (zh) * 2019-07-10 2022-04-15 腾讯科技(深圳)有限公司 多媒体信息播放方法、服务器、终端及存储介质

Also Published As

Publication number Publication date
JP3615518B2 (ja) 2005-02-02
WO2001031503A1 (fr) 2001-05-03
EP1241585A1 (en) 2002-09-18
US6948123B2 (en) 2005-09-20
US20020105541A1 (en) 2002-08-08
EP1241585A4 (en) 2007-08-08

Similar Documents

Publication Publication Date Title
WO2001031502A1 (fr) Dispositif et procede de classement et de rangement d'informations multimedia
JP4579404B2 (ja) 画像処理方法及びその装置
US7167823B2 (en) Multimedia information retrieval method, program, record medium and system
JP4540970B2 (ja) 情報検索装置及びその方法
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
TWI223171B (en) System for classifying files of non-textual subject data, method for categorizing files of non-textual data and method for identifying a class for data file at a classification node
KR20090023613A (ko) 다차원 검색 시스템, 다차원 검색을 수행하는 컴퓨터 구현 방법 및 컴퓨터 실행가능 시스템
US20060112142A1 (en) Document retrieval method and apparatus using image contents
JP2009509215A (ja) 画像データベースでのナビゲーション、視覚化、及びクラスタ化のための相互ランク類似度空間
JPWO2005038672A1 (ja) 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
JP4948607B2 (ja) 画像検索装置、画像分類装置及び方法並びにプログラム
Stober et al. Musicgalaxy: A multi-focus zoomable interface for multi-facet exploration of music collections
Terveen et al. Finding and visualizing inter-site clan graphs
KR100987330B1 (ko) 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
Bonnel et al. Effective organization and visualization of web search results
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2004240887A (ja) 検索情報表示システム及び検索キーワード情報表示方法及び検索キーワード情報表示プログラム
KR101401225B1 (ko) 문서 분석 시스템
JP4979528B2 (ja) コンテンツ表示装置、コンテンツ表示方法、プログラムおよび記録媒体
JP4295510B2 (ja) マルチメディア情報分類配置装置および分類配置方法
JP2003323454A (ja) メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP2005316897A (ja) 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体
JP2006107358A (ja) ウェブページ閲覧装置及びウェブページ閲覧プログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): GB JP US

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 10101272

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: JP