WO2007013390A1 - 情報処理装置、特徴抽出方法、記録媒体、および、プログラム - Google Patents

情報処理装置、特徴抽出方法、記録媒体、および、プログラム Download PDF

Info

Publication number
WO2007013390A1
WO2007013390A1 PCT/JP2006/314558 JP2006314558W WO2007013390A1 WO 2007013390 A1 WO2007013390 A1 WO 2007013390A1 JP 2006314558 W JP2006314558 W JP 2006314558W WO 2007013390 A1 WO2007013390 A1 WO 2007013390A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
class
data
metadata
combination
Prior art date
Application number
PCT/JP2006/314558
Other languages
English (en)
French (fr)
Inventor
Mitsuhiro Miyazaki
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP06781480A priority Critical patent/EP1909194A4/en
Publication of WO2007013390A1 publication Critical patent/WO2007013390A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • G06F16/639Presentation of query results using playlists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Definitions

  • the present invention relates to an information processing device, a feature extraction method, a recording medium, and a program, and in particular, an information processing device and a feature that can easily and accurately extract features of a class in which a plurality of elements are classified.
  • the present invention relates to an extraction method, a recording medium, and a program.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2005-102109
  • Patent Document 2 JP 2001-275056 A
  • the present invention has been made in view of such a situation, and makes it possible to easily and accurately extract the characteristics of a class in which a plurality of elements are classified.
  • a feature is extracted as a feature of a class obtained by classifying a plurality of the elements to which data representing the feature of each element is associated. For each of the elements belonging to the class, out of all the combinations of the data required by retrieving one or more of the data associated with the element for each of the elements belonging to the class,
  • feature extraction means is provided for extracting the combination of data that does not exist in the combination of the data obtained by taking out one or more of the data associated with the element.
  • the present invention may further include feature presentation control means for controlling presentation of the class feature so that one or more of the extracted combinations of data are presented to the user as the class feature.
  • a first association degree between the element belonging to the class and the data, and a second association degree between the element belonging to the other class and the data and the first association degree Based on the difference, the data extraction means for extracting the data more clearly representing the characteristics of the elements belonging to the class before extracting the combination of the data is further provided, A set of the data extracted by the data extracting means; A combination can be extracted.
  • the data extraction means obtains the weight of the data in the class based on the first relevance level and the difference between the second relevance level and the first relevance level. It is possible to extract a predetermined number of the data having a higher weight value or the data having the weight value equal to or higher than a predetermined threshold value.
  • the mutual information amount, the information gain ratio, the X-square value, or the log likelihood ratio can be obtained as the weight of the data in the class.
  • the class in which the combination of data is extracted from the elements belonging to the second group different from the first group constituted by the elements can be further provided.
  • the element extraction means may extract the elements belonging to the second group to which the data including the extracted combination of data is associated.
  • Element presentation control means for controlling presentation of the extracted element to the user can be further provided.
  • the element presentation control means can be controlled to further present a combination of the data used for extraction of the element as a basis for extracting the element.
  • the element may be content, and the data may be metadata related to the content.
  • an evaluation index calculation means for calculating an evaluation index indicating a degree of association between the extracted combination of the data and the element belonging to the extraction target class which is the class from which the combination of the data is extracted. Can do.
  • the evaluation index calculation means includes a recall that is a ratio occupied by the elements associated with the data including the combination of the data among the elements belonging to the extraction target class, and the data The ratio of the elements belonging to the extraction target class out of the elements associated with the data including the combination of The F value, which is the harmonic average of the relevance ratios, can be calculated as the evaluation index.
  • Class classification means for classifying the element to be classified into the class based on the evaluation index for the combination of data associated with the element to be classified can be further provided.
  • the classification power is based on the number that matches the extracted combination of the class powers.
  • Class classification means for classifying elements into the classes can be further provided.
  • the data included in the combination of the data that is associated with the combination of the data extracted from each of the class powers among the combinations of the data associated with the element to be presented with the feature; Further, it is possible to further provide a feature presenting means for presenting the feature of the element to be presented the feature based on the class from which the combination of the matching data is extracted.
  • the data representing features of each element are associated with each other, and the feature is extracted as features of a class in which the plurality of elements are classified. For each element belonging to a class, out of all the thread combinations of the data required by retrieving one or more of the data associated with the element, each element belonging to another class And extracting the combination of data that is not present in the combination of data determined by retrieving one or more of the data associated with the element.
  • each of the classes belonging to the class from which a feature is to be extracted as a class of features that classify a plurality of the elements associated with data representing the characteristics of each element.
  • each other element belonging to the other class is associated with the element.
  • the combination of data that does not exist in the combination of data obtained by extracting one or more of the data is extracted.
  • FIG. 1 is a block diagram showing a first embodiment of an information processing system to which the present invention is applied.
  • FIG. 2 is a block diagram illustrating an example of a functional configuration of a client calculation unit in FIG. 2.
  • FIG. 3 is a diagram showing an example of metadata associated with content.
  • FIG. 4 is a flowchart for explaining keyword extraction processing executed by the information processing system of FIG. 1.
  • FIG. 5 is a diagram for explaining a viewpoint for classifying content.
  • FIG. 6 is a diagram for explaining an example of metadata extraction.
  • FIG. 7 is a flowchart for explaining details of the metadata extraction process in step S3 of FIG.
  • FIG. 8 is an example of a screen that presents the extracted keywords to the user.
  • FIG. 9 is another example of a screen that presents extracted keywords to the user.
  • FIG. 10 is a flowchart for explaining content recommendation processing executed by the information processing system of FIG. 1.
  • FIG. 11 is a block diagram showing a second embodiment of the information processing system to which the present invention is applied.
  • FIG. 12 is a block diagram illustrating an example of a functional configuration of the client calculation unit in FIG. 11.
  • FIG. 13 is a flowchart for explaining a first embodiment of content classification processing executed by the information processing system of FIG. 11.
  • FIG. 14 is a diagram for explaining a viewpoint for classifying content.
  • FIG. 15 is a diagram for explaining an example of metadata extraction.
  • FIG. 16 is a flowchart for explaining a second embodiment of content classification processing executed by the information processing system of FIG. 11.
  • FIG. 17 is a block diagram showing an example of the configuration of a personal computer.
  • FIG. 1 is a block diagram showing an embodiment of an information processing system 1 to which the present invention is applied.
  • the information processing system 1 is configured to include a content viewing client 11, a context detection terminal 12, a content distribution server 13, and a content recommendation server 14.
  • the content viewing client 11 includes, for example, a client computer, a consumer-elect device (CE device), a portable information terminal, and the like.
  • the content viewing client 11 presents the content stored in the client storage unit 23 to the user, receives the content distributed from the content distribution server 13, and presents it to the user.
  • content is generally referred to as content.
  • content For example, a television program, a movie, a photo, a song, etc. (moving image, still image, audio, or It is a broad concept that refers to all software or hardware that can be used by the user, such as various information, documents, products (including articles), and conversations.
  • the content is an article (nodware), for example, data obtained by projecting the article onto a moving image or a still image is used as the content data.
  • Each content handled by the information processing system 1 is associated with metadata representing the feature of each content, as shown in an example with reference to FIG.
  • the content viewing client 11 is configured to include a user input unit 21, a client calculation unit 22, a client storage unit 23, and a client output unit 24.
  • the user input unit 21 is an input device for the user to perform operations on the content viewing client 11, and includes, for example, a keyboard, a mouse, a remote control, a touch panel, a microphone, and the like.
  • the operation content input by the user using the user input unit 21, more precisely, information indicating the operation content is supplied to the client calculation unit 22.
  • the client computing unit 22 is configured by a combination of a CPU (Central Processing Unit) and a program executed by the CPU, that is, hardware and software.
  • a CPU Central Processing Unit
  • the client computing unit 22 can be configured by software or hardware alone.
  • the client computing unit 22 controls the client output unit 24 to present the content stored in the client storage unit 23 to the user. Further, the client calculation unit 22 classifies a part or all of the content stored in the client storage unit 23 into a plurality of classes based on the viewpoint designated by the user. As will be described later with reference to FIG. 7, the client calculation unit 22 indicates the context information supplied from the context detection terminal 12 or the user operation supplied from the user input unit 21 as necessary. The information is used to extract metadata combinations that represent the characteristics of the classified classes. The client calculation unit 22 controls the client output unit 24 to present the extracted combination of metadata to the user as a feature of the class.
  • the client calculation unit 22 is based on the extracted metadata combination and is stored in the client storage unit 23. From this, the content recommended to the user is extracted. The client computing unit 22 controls the client output unit 24 to present information regarding the extracted content to the user.
  • the client computing unit 22 includes a part or all of the extracted metadata combination, and requests information to be extracted from the content recommended to the user based on the metadata combination (hereinafter, referred to as “the user”). (Referred to as recommended content extraction request information) is stored in the client storage unit 23.
  • the client calculation unit 22 acquires information indicating the extraction result corresponding to the client calculation unit 22 from the client storage unit 23. Based on the extraction result, the client calculation unit 22 controls the client output unit 24 to present information regarding the extracted content to the user.
  • the client computing unit 22 includes information related to a class classified by the user and metadata related to contents belonging to the class, and information that requests extraction of a combination of metadata representing characteristics of the class (hereinafter referred to as a combination). (Referred to as extraction request information) is stored in the client storage unit 23.
  • the client calculation unit 22 acquires information indicating the extraction result for the combination extraction request information from the client storage unit 23. Based on the extraction result, the client calculation unit 22 controls the client output unit 24 to present the extracted metadata combination to the user.
  • the client calculation unit 22 stores information requesting distribution (transmission) of content in the client storage unit 23.
  • the client storage unit 23 is configured to include a recording medium or a storage medium such as a hard disk or a RAM (Random Access Memory).
  • the client storage unit 23 appropriately stores context information used by the client client calculation unit 22 and information indicating a user operation command.
  • the client storage unit 23 transmits context information, information indicating the operation content of the user, recommended content extraction request information, or combination extraction request information to the server storage unit 51 of the content recommendation server 14 as necessary.
  • the client storage unit 23 transmits information requesting content distribution to the content distribution unit 41 of the content distribution server 13.
  • the client storage unit 23 transmits metadata from the server storage unit 51, information indicating the extraction result of content recommended to the user, and a mem- ory. The information which shows the extraction result of the data data combination is stored. Further, the client storage unit 23 stores the content transmitted from the content distribution unit 41. In addition, the client storage unit 23 supplies information notifying that the content or metadata related to the content has been received to the client calculation unit 22. Further, the client storage unit 23 supplies the stored content or content metadata to the client output unit 24.
  • the client output unit 24 includes, for example, an image output device such as a monitor or a printer, an audio output device such as a spin force, and the like.
  • the client output unit 24 presents the content stored in the client storage unit 23 to the user in the form of an image, text information, or sound, or a medium on which the image or text information is printed.
  • the client output unit 24 is a combination of metadata representing the characteristics of the class that classifies the content stored in the client storage unit 23 based on the control of the client calculation unit 22, or recommended to the user. Information about the content to be displayed is presented to the user.
  • the context detection terminal 12 is configured to include a context detection unit 31 and a context storage unit 32 from the viewpoint of a functional configuration.
  • the context detection unit 31 detects context information relating to, for example, the state and emotion of the user, the situation where the user is placed (for example, location and time), and the like. Specifically, the content detection unit 31 detects a GPS (Global Positioning System) receiver that detects the current position information of the user, a radio clock that measures (detects) the current time, and detects a person or an object located around the user. It is composed of wireless communication devices, various biological information sensors that detect the user's pulse, respiratory rate, sweating, pupil opening, etc., cameras, or image recognition devices that recognize various images. The context detection unit 31 detects the above-described context information in real time, and stores the detected context information in the context storage unit 32. Further, the context detection terminal 12 supplies the detected context information to the client calculation unit 22 of the content viewing client 11.
  • GPS Global Positioning System
  • the context storage unit 32 is configured to include, for example, a recording medium or storage medium such as a hard disk or a RAM, and stores context information along the time series supplied from the context detection unit 31.
  • the content distribution server 13 includes, for example, a broadcasting device for distributing content, or a server computer.
  • the content distribution server 13 is configured to include a content distribution unit 41 and a content metadata storage unit 42 from the viewpoint of a functional configuration.
  • the content distribution unit 41 is configured by, for example, a CPU and a program executed by the CPU, that is, a combination of hardware and software.
  • the content distribution unit 41 can also be configured by software or hardware alone.
  • the content distribution unit 41 is configured by a distribution server of a television broadcasting system, a streaming content server on the Internet, or the like.
  • the content distribution unit 41 distributes (sends) the content to the client storage unit 23 of the content viewing client 11.
  • the content metadata storage unit 42 is configured to include, for example, a recording medium or storage medium such as a hard disk or RAM, and is content that can be distributed by the content distribution server 13 and data related to the content. Store metadata. Note that the content or metadata stored in the content metadata storage unit 42 is appropriately updated in accordance with the operation rules of the content distributor.
  • the content recommendation server 14 is configured by, for example, a server computer.
  • the content recommendation server 14 is configured to include a server storage unit 51 and a server calculation unit 52 from the viewpoint of a functional configuration.
  • the server storage unit 51 is configured to include, for example, a recording medium or storage medium such as a hard disk or RAM.
  • the server storage unit 51 appropriately acquires and stores metadata of each content stored in the content metadata storage unit 42 of the content distribution server 13 and, if necessary, the client of the content viewing client 11.
  • the server storage unit 51 stores context information, information indicating user operation details, recommended content extraction request information, or combination extraction request information transmitted from the client storage unit 23.
  • the server storage unit 51 stores information indicating the extraction result of the content recommended to the user or information indicating the extraction result of the combination of metadata supplied from the server calculation unit 52, and stores the information stored in the client storage unit 51. It is transmitted to the storage unit 23 or the content metadata storage unit 42.
  • the server computing unit 52 is configured by, for example, a CPU and a program executed by the CPU, that is, a combination of hardware and software.
  • the server calculation unit 52 can be configured by software or hardware alone.
  • the server calculation unit 52 stores metadata in the server storage unit 51 on the basis of information indicating the user's operation content, context information, or recommended content extraction request information stored in the server storage unit 51.
  • the content recommended for the user is extracted from the contents stored.
  • the server calculation unit 52 causes the server storage unit 51 to store information indicating the result of extracting content recommended to the user.
  • the server computing unit 52 is metadata that represents the characteristics of the class based on information indicating the user's operation content, context information, or combination extraction request information stored in the server storage unit 51. Extract combinations.
  • the server calculation unit 52 stores information indicating the extraction result of the metadata combination in the server storage unit 51.
  • FIG. 1 shows an example of a functional configuration, and therefore, the connection form between the devices, that is, the connection form between each of the content viewing client 11 to the content recommendation server 14 is particularly special.
  • the form of connection is not particularly limited.
  • the connection form may be wired, wireless, or a combination thereof.
  • the connection form may be a form through a network, a form in which communication is performed directly between apparatuses, or a combination thereof.
  • the form of the network is not limited.
  • the Internet may be an intranet or the like.
  • the network is not limited to a single network, and a plurality of networks may exist. Therefore, although not shown in FIG. 1, in practice, each of the content viewing client 11 to the content recommendation server 14 is further provided with a communication unit corresponding to the corresponding connection form.
  • the context detection terminal 12, the content distribution server 13, and the content recommendation server 14 are not essential components in the information processing system 1. That is, as will be described later with reference to FIGS. 4 to 10, the keyword extraction process and the content recommendation process performed by the information processing system 1 are realized only by the content viewing client 11. Is possible.
  • FIG. 2 is a block diagram illustrating an example of a functional configuration of the client computing unit 22.
  • the client calculation unit 22 includes a content classification unit 81, a metadata extraction unit 82, a combination extraction unit 83, a keyword presentation unit 84, a recommended content extraction unit 85, and a recommended content presentation unit 86.
  • the content classification unit 81 acquires information indicating a viewpoint for classifying content input by the user via the user input unit 21 from the user input unit 21. As will be described later with reference to FIG. 4, the content classification unit 81 classifies a group composed of a part or all of the content stored in the content storage unit 23 based on a designated viewpoint into a plurality of classes. Classify into: The content classification unit 81 supplies information on the classified classes to the metadata extraction unit 82. Further, the content classification unit 81 transmits the combination extraction request information to the server calculation unit 52 via the client storage unit 23 and the server storage unit 51 as necessary.
  • the metadata extraction unit 82 associates the content belonging to the target class with the metadata and the association between the content belonging to the other class and the metadata. Based on the difference between the degree of content and the degree of association between content belonging to the target class and metadata! /, More clearly represent the characteristics of the content belonging to the target class! / Extract meta data.
  • the metadata extraction unit 82 supplies information indicating the extracted metadata to the combination extraction unit 83.
  • the combination extraction unit 83 extracts one or more metadata associated with the content for each content belonging to the class from which the feature is to be extracted. For all content belonging to other classes out of all the combinations of metadata required by, metadata that does not exist in the metadata combination required by extracting one or more metadata associated with the content A combination of data extracted by the metadata extraction unit 82 is extracted.
  • the combination extraction unit 83 supplies information indicating the extracted combination of metadata to the keyword presentation unit 84 or the recommended content extraction unit 85.
  • the combination extraction unit 83 sends information indicating the extraction result for the combination extraction request information transmitted from the content classification unit 81 via the server storage unit 51 and the client storage unit 23, to the server calculation unit 52. Receive from.
  • the combination extraction unit 83 supplies information indicating the combination of the extracted metadata to the keyword presentation unit 84 or the recommended content extraction unit 85.
  • the keyword presentation unit 84 uses one or more of the extracted metadata combinations as a feature of the class from which the metadata combination is extracted.
  • the client output unit 24 is controlled as shown in FIG. Further, the keyword presenting unit 84 acquires information for instructing determination or change of the keyword input by the user via the user input unit 21 from the user input unit 21.
  • the recommended content extraction unit 85 based on the metadata combination extracted by the combination extraction unit 83, the content belonging to the class from which the metadata combination is extracted. Relevant content is also extracted from the content stored in the client storage unit 23 as content recommended to the user.
  • the recommended content extraction unit 85 supplies information regarding the extracted content to the recommended content presentation unit 86.
  • the recommended content extraction unit 85 requests recommended content extraction request information for requesting the user to extract content recommended based on the combination of metadata extracted by the combination extraction unit 83, as client storage unit 23 and the server storage unit 51 through the server storage unit 51.
  • the recommended content extraction unit 85 receives information indicating the extraction result corresponding to the recommended content extraction request information from the server calculation unit 52 via the server storage unit 51 and the client storage unit 23.
  • the recommended content extraction unit 85 supplies information related to the extracted content to the recommended content presentation unit 86. Further, the recommended content extraction unit 85 acquires information notifying that the content or metadata related to the content has been received from the client storage unit 23.
  • the recommended content presentation unit 86 presents the content extracted by the recommended content extraction unit 85 to the user as recommended content, and as a basis (reason) for recommending the content, Present a combination of data In this manner, the client output unit 24 is controlled.
  • the recommended content presentation unit 86 acquires information for instructing determination of the recommended content input by the user via the user input unit 21 from the user input unit 21.
  • the recommended content presentation unit 86 supplies information for notifying the content determined by the user to the client storage unit 23.
  • FIG. 3 shows an example of content and its metadata when the content is music data.
  • FIG. 3 shows an example in which metadata is associated with each artist who plays music data (music). That is, the same metadata is associated with the music data of the same artist. Of course, you can associate metadata by song.
  • each content is associated with keyword power S metadata indicating the musicality of the music performed by the artist, such as color, glue, pretty, boom, winter, sentimental, etc. Yes.
  • This keyword is set from the viewpoint of an expert by, for example, a music critic, or a review paper or introductory article about an artist.
  • the lyrics of the music is extracted by text analysis of the lyrics of the music.
  • keywords that represent musicality use metadata that represents features such as music genre, artist's age and birthplace, features extracted from music data, and hit chart information.
  • Metadata set to 0 is metadata that the artist does not have, that is, keywords that do not represent the characteristics of the artist.
  • Metadata for which 1 is set is metadata that the artist has, that is, keywords that represent the characteristics of the artist. If the original value takes a value other than 2 other than 0 or 1, the metadata is converted to 0 or 1 based on a predetermined threshold. Is used after being converted. For example, when the artist's debut date is set in the metadata, if the debut date is earlier than that date, the metadata is converted to 0, and the debut date is after that date The metadata is converted to 1.
  • step S1 the content classification unit 81 classifies the content. Specifically, the user inputs information indicating a viewpoint for classifying content via the user input unit 21. The user input unit 21 supplies the input information to the content classification unit 81.
  • FIG. 5 is a diagram illustrating an example of a viewpoint for classifying content. Compared to the table shown in FIG. 3, the table shown in FIG. 5
  • FIG. 5 shows two examples of the user's likes and dislikes and the musical composition power selected in the playlist as viewpoints for classifying content.
  • a playlist is a group composed of songs arbitrarily selected by the user.For example, the user instructs playback of the songs in units of playlists, and plays the songs registered in the playlist in order. Can be made.
  • each content is classified into three classes: “like”, “dislike”, and “neither” .
  • This evaluation of likes and dislikes may be explicitly set by the user. For example, the evaluation of the artist who plays the downloaded music such as a server connected to the Internet by the user is “liked”.
  • the content viewing client 11 may be made to learn based on the user's operation history, such as setting the rating of the artist performing the music deleted by the user to ⁇ dislike ''. !
  • the content classification unit 81 classifies the content into a plurality of classes based on the viewpoint designated by the user.
  • the content classification unit 81 supplies information related to the classified content class to the metadata extraction unit 82.
  • step S2 the metadata extraction unit 82 weights the metadata and extracts the metadata. Specifically, the metadata extraction unit 82 weights metadata by measuring the frequency distribution of the metadata included in each content with a statistical measure. An example of a statistical measure for weighting metadata is described below.
  • tfidKCi, Wj) fij X ⁇ 1 + log (n / nj) ⁇ ⁇ ⁇ ⁇ (1)
  • Equation (1) the base of log is e (natural logarithm), but the value of tfdif itself is not so important, so the base may be 2 or 10.
  • tfidKCi, Wj is calculated as follows.
  • Tfidf has, for example, the following characteristics or advantages.
  • fij may be the proportion of content having metadata Wj in content belonging to class Ci, or nZnj may be (total number of content having content Z metadata Wj).
  • the mutual information MI (Ci, Wj) of metadata Wj in a class Ci calculated by the following equation (3) is used as the weight of metadata Wj in class Ci. Set.
  • MI (Ci, Wj) is calculated as follows.
  • Equation (3) the probability values appearing in Equation (3) are as shown in Equations (4) to (9) below.
  • MI (C, w) which is the weight of metadata w in class c
  • MI (C, W) 0.0375 Xlog ⁇ 0.0375 / (0.2X0.1375) 1 + 0.1 X log ⁇ 0.1 / ((1-0.2) X0.1
  • the mutual information amount is calculated by the amount of decrease in the entry rate of the metadata Wj by knowing the attribution to the class Ci.
  • Mutual information has the following characteristics or merits, for example.
  • the information gain ratio is a ratio between the amount of entropy reduction of the metadata Wj before and after class division and the entropy related to class division.
  • the information gain ratio has the following characteristics or merits, for example.
  • ⁇ 2 (Ci, Wj) force which is the ⁇ 2 value of metadata Wj in a class Ci, calculated by the following equation (15), metadata Wj in class Ci Set to the weight of.
  • the% square value is based on the difference between the actual number of content having metadata wj and the expected value among the contents belonging to class ⁇ , and the dependency of metadata wj on class ⁇ . Is shown. Note that the% square value has the following characteristics or merits, for example.
  • the LL (Ci, Wj) force which is the log-likelihood ratio of the metadata Wj in a certain class ⁇ , calculated by the following equation (16), the metadata Wj in the class Ci Set to weight.
  • the log likelihood ratio indicates the ratio between the real number of probabilities of having content data wj belonging to class ⁇ and the expected value.
  • the log-likelihood ratio has the following characteristics and merits, for example.
  • the metadata extraction unit 82 obtains the weight of each metadata in each class using any one of the above methods.
  • the weight of a certain metadata B in a certain class A is the relevance between the content belonging to the class A and the metadata B (the depth of association between the content belonging to the class A and the feature represented by the metadata B) And the difference between the degree of association between content belonging to other classes and metadata B and the degree of association between content belonging to class A and metadata B.
  • the metadata extraction unit 82 has, for example, a predetermined number of metadata (for example, 10) whose set weight value is higher for each class, or the set weight is equal to or greater than a predetermined threshold value. Extract metadata. That is, for each class, metadata that more clearly represents the characteristics of the content belonging to that class is extracted. More specifically, for each class, metadata that represents features that are deeply related to content belonging to that class and that is more closely related to content that belongs to other classes is extracted.
  • the metadata extraction unit 82 supplies information indicating the metadata extracted for each class to the combination extraction unit 83.
  • the metadata extracted for each class is referred to as class-specific important metadata.
  • step S2 from the class of the playlist selection song, that is, from the extraction target class, [Winter] [Love] [BGM] [Drama] [Summer Powerful ] [Refreshing power] [Actor] [Comfortable] [Nori] 10 metadata is extracted, and the class power of the non-playlist song is [Love] [Sentimental] [Summer] [Nostalgia] [Tie-up] ] [Comfort] [Drama] [Dance] [Epic] [Warmness] 10 metadata will be explained as extracted. Note that it is not always necessary to extract metadata for classes that do not extract key keywords.
  • step S3 the combination extraction unit 83 performs a metadata combination extraction process.
  • the details of the metadata combination extraction process executed by the combination extraction unit 83 will be described with reference to the flowchart of FIG.
  • step S21 the combination extraction unit 83 initializes the logical expression P.
  • step S22 the combination extraction unit 83 determines whether there is a content of the extraction target class that has not been compared with the content of the comparison target class. If it is determined that there is content of the extraction target class after the comparison with the content of the comparison target class is completed, the process proceeds to step S23.
  • step S23 the combination extraction unit 83 selects one content of the extraction target class that has not been compared.
  • the content selected in step S23 is referred to as extraction target content.
  • step S24 the combination extraction unit 83 initializes the logical expression Q.
  • step S25 the combination extraction unit 83 determines whether there is a content of the comparison target class that has not been compared with the extraction target content. If it is determined that there is a content of the comparison target class that has not been compared with the extraction target content, the process proceeds to step S26.
  • step S26 the combination extraction unit 83 selects one content of the comparison target class that has not been compared with the extraction target content.
  • the content selected in step S26 is referred to as comparison target content.
  • step S27 the combination extraction unit 83 extracts metadata that the extraction target content has but the comparison target content does not have. Specifically, the combination extraction unit 83 includes metadata that is included in the extraction target content in the class-specific important metadata of the extraction target class! To extract.
  • step S28 the combination extraction unit 83 generates the logical expression R by concatenating the extracted metadata with or. For example, among the important metadata for each playlist selected song that is the extraction target class, the metadata that the artist 1 that is the extraction target content has and the artist 12 that is the comparison target content does not have the metadata, When [Winter] [Love Puff] [Refreshing] and [Actor] are extracted, the logical formula R becomes the following formula (17).
  • R [Winter] or [Love] ⁇ Powerful] or [Refreshing] or [Actor] "'(17)
  • step S29 the combination extraction unit 83 concatenates the logical expression R with and to obtain a logical expression.
  • step S25 the processing of steps S25 to S29 is performed. Is repeatedly executed.
  • the content to be extracted is compared with all the content included in the comparison target class (classes other than the extraction target class), and the content to be extracted is included in the important metadata for each class of the extraction target class. Metadata that the content to be compared does not have is extracted and added to the formula Q.
  • the logical expression Q is represented by the following expression (20).
  • step S25 the comparison target clip for which the comparison with the extraction target content has not been completed. If it is determined that there is no final content, that is, if the comparison between the extraction target content and all the content of the comparison target class is completed, the process proceeds to step S30.
  • step S30 the combination extracting unit 83 simplifies the logical expression Q. Specifically, the combination extraction unit 83 converts the logical expression Q into a standard sum product form represented by the product of the maximum terms.
  • T1 ([Winter] or [Love] or [Powerful] or [Refreshing] or [Actor] or ⁇ [BGM] or ⁇ [Drama] or ⁇
  • is a symbol representing negation.
  • the combination extraction unit 83 converts the logical expression Q converted into the standard sum product form into the standard sum product form.
  • the term T1 is converted as shown in the following equation (22).
  • Tl ([Winter] and [Love] and Les Full] and [Refreshing Power] and [Actor] and [BGM] and [Drama] and [Summer] and [Comfortable] and [Nori]) or ([Winter] and [Koi] and Real] and [Beautiful Power] and [Actor] and [BGM] and [Drama] and [Summer] and [Comfortable] and ⁇ [Nori]) or ([Winter] and
  • the combination extraction unit 83 simplifies the logical expression Q converted into the standard product-sum form using the Quine's McLasky method or the like.
  • the logical expression Q in the equation (20) is simplified as the following equation (23).
  • each term connected with or in the logical expression Q of the equation (23) is obtained by extracting one or more metadata associated with the content for each content belonging to the extraction target class.
  • each content belonging to the comparison class is associated with the content. This is a combination of metadata that does not exist in the combination of metadata required by extracting one or more metadata, and indicates a combination of important metadata by class of the extraction target class.
  • step S31 the combination extraction unit 83 concatenates the logical expression Q with or to obtain a logical expression.
  • the logical expression ⁇ is represented by the following expression (26).
  • [0153] P ([BGM]) or ([I non-excellent]) or ([Winter] and [Comfort,]) or ([Love] and [Comfort,]) or ([Winter] and [Nori]) or ([Koi] and [Nori]) or ([Summer] and [Nori]) or ([Soryo power,] and [Nori]) or ([Drama] a nd [Sorry power] and [Comfortable]) or ([Powerful] and [Refreshing Power] and [Comfortable])... (26)
  • step S22 when it is determined that there is no content of the extraction target class that has not been compared with the content of the comparison target class, that is, for all the content of the extraction target class, If the comparison with the content is completed, the process proceeds to step S32.
  • step S32 the combination extraction unit 83 extracts a combination of metadata. Specifically, the combination extraction unit 83 extracts each term connected by or in the logical expression P as a feature of the extraction target class. For example, the logical expression P is the value shown in expression (26). In some cases, the following 10 metadata combinations are extracted.
  • step S33 the combination extraction unit 83 stores the metadata combination in the client storage unit 23, and the metadata combination extraction process ends. Specifically, the combination extraction unit 83 stores data indicating the extracted combination of metadata in the client storage unit 23. In addition, the combination extraction unit 83 supplies information indicating the extracted metadata combination to the keyword presentation unit 84 and the recommended content extraction unit 85.
  • step S4 the keyword presenting unit 84 presents the keyword.
  • the keyword presentation unit 84 selects one or more of the metadata combinations extracted in step S3. For example, a combination of metadata is selected according to the following criteria.
  • the keyword presentation unit 84 controls the client output unit 24 to present the selected metadata to the user. For example, the keyword presentation unit 84 generates image data for displaying the selected combination of metadata. The keyword presentation unit 84 supplies the generated image data to the client output unit 24, and clicks on an image based on the image data, that is, metadata (keyword) representing the characteristics of the playlist selection song class that is the extraction target class. Displayed on the client output unit 24.
  • metadata keyword
  • FIG. 8 is a diagram showing an example of a screen displayed on the client output unit 24 in step S4.
  • a pop-up window 101 is displayed on the client output unit 24 together with the table shown in FIG.
  • the pop-up window 101 displays a combination of metadata extracted as keywords (representing the characteristics of the playlist-selected song class) for the playlist-selected song.
  • the pop-up window 101 displays a message notifying that a combination of metadata has been extracted with priority given to a combination having a large number of included metadata.
  • the background power of the column of the playlist selection song item is shaded or a color different from other columns so that it can be divided that the playlist selection song is selected as the viewpoint for classifying the content. It is said that.
  • the background power in the column of artist 1 to 11 in the column indicating the content at the left end of the table is shaded so that the content belonging to the class targeted by the keyword displayed in the pop-up window 101 can be divided.
  • the color is different from other columns.
  • the user can easily confirm the characteristics (trends) of the playlist selected by the user.
  • FIG. 9 is a diagram showing another example of a screen displayed on the client output unit 24 in step S4.
  • the actual playlist is created on the screen for creating a playlist.
  • An example of displaying the selected keyword is shown below.
  • Title bar 111 displays the product name of the software displaying this screen.
  • the menu bar 112 displays a menu for displaying various operations.
  • the window 113 displays a GUI (Graphical User Interface) for adjusting the volume and switching the operation mode.
  • the window 114 displays a GUI for playing, stopping, skipping, etc. the content.
  • the window 115 displays a list of music pieces selected in the playlist.
  • the song list includes the serial number, title, artist name, performance time, genre to which the song belongs, the date and time when the song was registered in the playlist, the album name from which the song was sourced, and the track of the song in the source album No. is displayed.
  • window 116 keywords representing the characteristics of the playlist displayed in window 115 are displayed.
  • the user can easily check the characteristics (trends) of the playlist created by the user.
  • an appropriate playlist title is automatically selected based on the keyword displayed in the window 116, for example, “a powerful, refreshing and pleasant song collection”. Can be created.
  • the button 122 is pressed, the window 116 is closed without automatically creating a title.
  • step S5 the keyword presentation unit 84 determines whether or not to change the keyword. If it is determined not to change the keyword, the process proceeds to step S6.
  • step S6 the content classification unit 81 determines whether or not it has the power to change the viewpoint for classifying the content. If it is determined not to change the viewpoint for classifying content, the process proceeds to step S7.
  • step S7 the keyword presenting unit 84 determines whether or not the keyword can be determined. If it is determined not to determine a keyword, the process returns to step S5.
  • step S5 After that, in step S5, it is determined that the keyword is changed. In step S6, it is determined that the viewpoint for classifying the content is changed. In step S7, until it is determined that the keyword is determined, step S5 is performed. To S7 are executed repeatedly. [0174] In step S5, for example, when the user wishes to change the presented keyword and inputs information for instructing keyword change via the user input unit 21, the user input unit 21 acquires Information is supplied to the keyword presentation unit 84. When the keyword presenting unit 84 acquires the information for instructing the keyword change, it determines that the keyword is to be changed, and the process returns to step S4.
  • step S4 another combination is selected from the metadata combinations extracted in step S3, and the selected metadata is used as a keyword representing the characteristics of the extraction target class as a client output unit. Presented at 24.
  • step S6 for example, the user wants to extract keywords of a class that classifies content from another viewpoint, and changes the viewpoint for classifying content via the user input unit 21. Is input, the user input unit 21 supplies the acquired information to the content classification unit 81.
  • the content classification unit 81 acquires the information for instructing the change of the viewpoint for classifying the content
  • the content classification unit 81 determines to change the viewpoint for classifying the content, and the process returns to step S1.
  • step S1 content is classified from a new viewpoint (for example, content is classified from likes and dislikes), and the processing from step S2 is executed on the newly classified class.
  • a new viewpoint for example, content is classified from likes and dislikes
  • the user may explicitly specify a new viewpoint for classifying the content, or the content classification unit 81 may automatically set based on a predetermined setting! ,.
  • step S 7 when the user inputs information for instructing keyword determination via the user input unit 21, the user input unit 21 supplies the acquired information to the key word presentation unit 84.
  • the keyword presentation unit 84 acquires information for instructing keyword determination, it determines that the keyword is determined, and the keyword extraction process ends.
  • the present invention can be easily applied to a device having a low processing capability such as a portable music player.
  • step S41 the content is classified in the same manner as in step S1 of FIG.
  • step S42 metadata is weighted in the same manner as in step S2 in Fig. 4, and class-specific important metadata is extracted.
  • step S43 the metadata combination extraction process is executed in the same manner as the process of step S3 of FIG. 4, that is, according to the flowchart of FIG.
  • step S44 the recommended content extraction unit 85 extracts content recommended to the user. For example, based on the combination of metadata extracted in step S43, the recommended content extraction unit 85 selects from contents belonging to a group different from the group configured by the contents classified in step S1. Then, the content related to the content belonging to the extraction target class from which the combination of metadata is extracted is extracted as the content recommended to the user.
  • the client storage unit 23 when it is transmitted from the server storage unit 51 to the client storage unit 23 with respect to metadata about new content (for example, a new movie, program, song, etc.), the client storage unit 23 stores the transmitted metadata and supplies information indicating that there is a new content to the recommended content extraction unit 85.
  • the recommended content extraction unit 85 selects the metadata combination for extracting the content recommended to the user from the metadata combinations extracted in step S43, for example, as described in step S4 above. Select using the criteria. Recommendation
  • the content extraction unit 85 extracts content having metadata including a combination of the selected metadata from the newly arrived content whose metadata is stored in the client storage unit 23.
  • the recommended content extraction unit 85 supplies information regarding the extracted content to the recommended content presentation unit 86.
  • recommended content extraction request information for requesting the user to extract recommended content is sent from the recommended content extraction unit 85 to the client storage unit 23 and the server storage.
  • the content having metadata including the combination of metadata extracted from the content that is transmitted to the server computation unit 52 via the unit 51 and stored in the server storage unit 51 is sent to the server computation unit 52. It is pretty easy to extract.
  • the method of extracting content recommended to the user is not limited to the above-described method.
  • other methods such as matching by a vector space method or using a state action function may be used.
  • the recommended content presentation unit 86 recommends content to the user. Specifically, the recommended content presentation unit 86 controls the client output unit 24 to present the content extracted in step S44 to the user as recommended content. For example, the recommended content presentation unit 86 generates image data for recommending the content extracted in step S44 to the user. The recommended content presentation unit 86 supplies the generated image data to the client output unit 24, and displays an image based on the image data, that is, an image for recommending the content to the user. In this image, for example, information on the recommended content (for example, title, summary, etc.) and the basis for recommending the content (reason for recommendation) are displayed.
  • the reason for recommending content may be, for example, to display the metadata combination as it is for extracting recommended content, and to create and display a recommendation sentence based on the metadata combination. Please do it.
  • step S46 the recommended content presentation unit 86 changes the recommended content. Judgment whether or not the force. If it is determined that the recommended content is not changed, the process proceeds to step S47.
  • step S47 as in the process of step S47 of Fig. 4, it is determined whether or not the ability to change the viewpoint for classifying content is determined. If it is determined that the viewpoint for classifying content is not changed, the process proceeds to step S48.
  • step S48 the recommended content presentation unit 86 determines whether to determine the content. If it is determined that the content is not determined, the process returns to step S46.
  • step S46 it is determined that the recommended content is changed
  • step S47 it is determined that the viewpoint for classifying the content is changed. Steps S46 to S48 are repeatedly executed until
  • step S46 for example, when the user wants to change the recommended content and inputs information for instructing the content change via the user input unit 21, the user input unit 21 acquires Information is supplied to the recommended content presentation unit 86.
  • the recommended content presenting unit 86 acquires the information for instructing the change of the recommended content
  • the recommended content presenting unit 86 determines that the recommended content is to be changed, and the process returns to step S44.
  • step S44 another combination of the metadata combinations extracted in step S43 is selected, and the content extracted based on the selected metadata combinations is recommended to the user.
  • step S47 If it is determined in step S47 that the viewpoint for classifying content is to be changed, the process returns to step S41.
  • step S41 the contents are classified from a new viewpoint (for example, the contents are classified from likes and dislikes), and the processes in and after step S2 are executed for the newly classified class.
  • a new viewpoint for example, the contents are classified from likes and dislikes
  • step S48 for example, when the user likes the recommended content and wants to view the content and inputs information for instructing the content via the user input unit 21, the user input unit 21 supplies the acquired information to the recommended content presentation unit 86.
  • the recommended content presentation unit 86 obtains information for instructing content determination. In such a case, it is determined that the content is to be determined, and the content recommendation process ends.
  • the recommended content presentation unit 86 supplies information notifying the determined content to the client storage unit 23. For example, when the determined content is stored in the client storage unit 23, the client storage unit 23 supplies the content to the client output unit 24. For example, the client output unit 24 displays an image based on the content or outputs a sound.
  • the client storage unit 23 sends information requesting distribution of the determined content to the content distribution unit 41.
  • the content distribution unit 41 distributes the requested content to the client storage unit 23.
  • the client storage unit 23 stores the distributed content and supplies the content to the client output unit 24.
  • the client output unit 24 displays an image based on the content or outputs a sound.
  • the content extracted based on the combination of metadata representing the characteristics of the class classified according to the viewpoint specified by the user is recommended to the user, and the rationale (reason) for recommendation is recommended to the user.
  • content that accurately reflects the user's preferences is recommended to the user by using a combination of metadata that is also extracted from class powers classified by viewpoints based on user preferences (for example, user likes and dislikes) can do.
  • content provision ⁇ j content that aims to promote sales, etc. can also be recommended.
  • FIG. 11 is a block diagram showing a second embodiment of the information processing system to which the present invention is applied.
  • the information processing system 201 includes a content viewing client 211, a context detection terminal 2 12, a content distribution server 213 and a content recommendation server 214 are included.
  • the content viewing client 211 is configured to include a user input unit 221, a client calculation unit 222, a client storage unit 223, and a client output unit 224.
  • the context detection terminal 212 is configured to include a context detection unit 231 and a context storage unit 232.
  • the content distribution server 213 is configured to include a content distribution unit 241 and a content metadata storage unit 242 from the viewpoint of a functional configuration.
  • the content recommendation server 214 is configured to include a server storage unit 251 and a server calculation unit 252 from the viewpoint of a functional configuration.
  • the client calculation unit 222 includes information on content and metadata stored in the client storage unit 223, context information supplied from the context detection terminal 212, Alternatively, based on information indicating user operation details supplied from the user input unit 221, a content classification rule for classifying content into a predetermined class is generated and the reliability of the generated content classification rule is indicated. An evaluation index is calculated. Based on the generated content classification rule, the client computing unit 222 classifies the content designated as a target to be classified by the user or the like. The client calculation unit 222 controls the client output unit 224 to present the feature of the content to the user as a result of classifying the content. In addition, the client calculation unit 222 causes the client storage unit 223 to store information indicating the generated content classification rule and its evaluation index.
  • the client storage unit 223 stores information indicating the content classification rule and its evaluation index. Further, the client storage unit 223 transmits information indicating the content classification rule and its evaluation index to the server storage unit 251 of the content recommendation server 214 as necessary.
  • the client output unit 224 presents the content characteristics and the like to the user as a result of the content classification under the control of the client computing unit 222.
  • the server storage unit 251 stores information indicating the content classification rule and its evaluation index transmitted from the client storage unit 223.
  • the server storage unit 251 stores information indicating the content classification rule and its evaluation index, or information indicating the content classification result, supplied from the server calculation unit 252.
  • the server calculation unit 252 classifies the content stored in the server storage unit 251 based on the information stored in the server storage unit 251 and indicating the user's operation content and the context information. A content classification rule is generated and an evaluation index indicating the reliability of the generated content classification rule is calculated. The server computing unit 252 classifies the content stored in the server storage unit 251 based on the generated content classification rule. The server calculation unit 252 stores the information indicating the generated content classification rule and its evaluation index, or information indicating the content classification result in the server storage unit 251.
  • FIG. 11 shows a functional configuration example, and therefore, the connection form between the devices, that is, the connection form between the content viewing client 211 to the content recommendation server 214 is particularly illustrated.
  • the form of the connection is not particularly limited. That is, the form of connection may be wired, wireless, or a combination thereof.
  • connection form may be a form through a network, a form in which direct communication is performed between apparatuses, or a combination thereof.
  • the form of the network is not limited in the form of interposing the network, and may be, for example, the Internet or an intranet. Again, the network is not limited to a single network, and multiple networks may exist. Accordingly, although not shown in FIG. 11, in reality, each of the content viewing client 211 to the content recommendation server 214 is further provided with a communication unit corresponding to the corresponding connection form.
  • the context detection terminal 212, the content distribution server 213, and the content recommendation server 214 are not indispensable components in the information processing system 201.
  • the content classification processing performed by the information processing system 201 can be realized only by the content viewing client 211. It is.
  • FIG. 12 is a block diagram illustrating an example of a functional configuration of the client calculation unit 222.
  • the client calculation unit 222 is configured to include a content classification unit 281, a metadata extraction unit 282, a combination extraction unit 283, a content classification rule generation unit 291, an automatic content classification unit 292, and a classification result presentation unit 293.
  • the in the figure the parts corresponding to those in FIG. 2 are given the same reference numerals in the last two digits, and the description of the parts having the same processing will be omitted because it will be repeated.
  • the combination extraction unit 283 supplies information indicating the extracted combination of metadata to the content classification rule generation unit 291.
  • the content classification rule generation unit 291 generates a content classification rule and calculates an evaluation index of the generated content classification rule.
  • the content classification rule generation unit 291 supplies the generated content classification rule and information indicating the evaluation index to the content automatic classification unit 292 and causes the client storage unit 223 to store the information.
  • the automatic content classification unit 292 acquires, from the user input unit 221, information specifying the content to be automatically classified, which is input by the user via the user input unit 221. Further, the content automatic classification unit 292 acquires information indicating that there is a new arrival or recommended content from the client storage unit 223. As will be described later with reference to FIG. 13 or FIG. 16, the content automatic classification unit 292 is based on the content classification rule, and the content specified by the user or the new arrival or recommendation notified from the client storage unit 223. Content to be classified such as content is classified into a predetermined class. The automatic content classification unit 292 supplies information indicating the result of content classification to the classification result presentation unit 293.
  • the classification result presentation unit 293 controls the client output unit 224 to present the characteristics of the content to the user as a result of the classification of the content.
  • step S101 the content classification unit 281 classifies the content into a plurality of classes based on the viewpoint specified by the user by the same processing as in step S1 in FIG. Information about the class is supplied to the metadata extraction unit 282.
  • FIG. 14 is a diagram showing an example of a viewpoint for classifying the content shown in FIG. Compared with the table shown in Fig. 3, the table shown in Fig. 14 includes items from the viewpoint of classification.
  • FIG. 14 shows two examples of the viewpoint for classifying content: user likes and dislikes and folders in which content is stored. The user's likes and dislikes are the same as in the example described above with reference to FIG.
  • step S101 a folder in which content is stored is specified by the user as a viewpoint for classifying content.
  • step S102 the metadata extraction unit 282 weights the metadata by the same processing as in step S2 in Fig. 4 described above, and class-specific important metadata is obtained for each class. To extract.
  • the metadata extraction unit 282 supplies information indicating the extracted class-wise important metadata to the combination extraction unit 283.
  • step S102 in step S102, as shown in Fig. 15, from the pops class, [Winter] [Love] [BGM] [Drama] [Summer] [Powerful] [Refreshing] [Actor] [ [Comfortable] [Nori] 10 metadata is extracted as important metadata by class, and from Norad class, [Love] [Sentimental] [Summer] [Nostalgia] [Tie-up] [Comfortable] [Drama] 10 metadata of [Dance] [Grand] [Warmth] are extracted as important metadata by class.
  • step S103 the combination extraction unit 283 performs metadata combination extraction processing for each class by the same processing as in step S3 in Fig. 4 described above.
  • the combination extraction unit 283 stores data indicating the extracted combination of metadata in the client storage unit 223 and supplies the data to the content classification rule generation unit 291.
  • step S104 the content classification rule generation unit 291 generates a content classification rule. Specifically, first, the content classification rule generation unit 291 selects the combination of metadata extracted in step S103 as a condition part (If3 ⁇ 4), and sets the class from which the metadata combination is extracted as a conclusion part (then part). Generate content classification rules for each combination of extracted metadata. For example, the following 10 content classification rules Rpl to RplO are generated as content classification rules with the pops class as the conclusion (hereinafter simply referred to as pops class content classification rules).
  • rule Rpl if a piece of content has metadata [BGM] If the class into which the content is classified is “pops”, it represents a rule.
  • the combination of metadata shown in the condition part of the content classification rule is also simply referred to as a metadata combination of the content classification rule.
  • the class indicated in the conclusion part of the content classification rule is simply referred to as a content classification rule class.
  • the content classification rule generation unit 291 calculates an evaluation index for each content classification rule.
  • EI represents an evaluation index
  • Wi represents metadata included in the metadata combination of the content classification rule
  • Weight (Wi) represents metadata in the content classification rule class. Represents the weight of Wi.
  • the evaluation index increases as the proportion of content having metadata including a combination of metadata in the content classification rule is higher in the content classification rule class.
  • the second method is a method in which the average value of the weights of metadata included in the metadata combination of the content classification rule is used as an evaluation index, as shown in the following formula (28).
  • Nc represents the number of metadata included in the metadata combination of the content classification rule.
  • the metadata included in the condition part is the sum of the weight of the metadata [winter] in the class "pops" and the weight of the metadata [comfortable] in the class "pops".
  • the value divided by 2 is the evaluation index.
  • the evaluation index increases as the metadata weight included in the metadata combination of the content classification rule increases. That is, the individual metadata capabilities included in the content classification rule condition part belong to the content classification rule class. In other words, the higher the degree of representing the characteristics of the content belonging to the class of the content classification rule, the larger the evaluation index becomes, . In other words, the evaluation index increases as the proportion of content having at least one of the metadata included in the metadata combination of the content classification rule is higher in the content classification rule class.
  • the third method is the proportion of all content that satisfies the condition part of the content classification rule, in other words, content among all content.
  • the ratio of content having metadata included in the metadata of the classification rule that is, the coverage ratio, is used as an evaluation index.
  • all contents are contents classified into each class in step S1.
  • Count represents the number of contents that satisfy the condition part of the content classification rule, and N represents the total number of contents.
  • the proportion of content with V,] is an evaluation index.
  • the evaluation index increases as the proportion of the content satisfying the condition part of the content classification rule among all content increases.
  • the fourth method is a ratio of content satisfying the condition part of the content classification rule among the contents belonging to the content classification rule class, so-called reproduction rate.
  • This method uses (Recall) as an evaluation index.
  • Count represents the number of contents satisfying the condition part of the content classification rule among the contents belonging to the content classification rule class
  • Count Decision
  • This represents the number of contents belonging to the class.
  • the ratio of content having metadata [winter] and metadata [comfortable] out of content belonging to the class "pops" is an evaluation index.
  • the evaluation index increases as the ratio of the content belonging to the content classification rule class having metadata including the metadata combination of the content classification rule increases. In other words, the more closely the combination of content classification rule metadata is related to content belonging to the content classification rule class, in other words, the ability of the content classification rule metadata to be combined Content belonging to the content classification rule class The greater the degree of representing the characteristics of, the greater the evaluation index.
  • the fifth method is the proportion of content that belongs to the content classification rule class, out of the content that satisfies the condition part of the content classification rule, so-called conformity. This is a method using the rate (Precision) as an evaluation index.
  • the evaluation index increases as the proportion belonging to the content power content classification rule class having metadata including the metadata combination of the content classification rule increases.
  • the more closely the combination of content classification rule metadata is associated with content belonging to the content classification rule class in other words, the ability of the content classification rule metadata to be combined Content belonging to the content classification rule class
  • the sixth method is the harmony between the recall (Recall) obtained by equation (30) and the precision (Precision) obtained by equation (31). This is an average, so-called F value.
  • the evaluation index increases as the set of contents having metadata including a combination of metadata of the content classification rules and the class of the content classification rules become closer.
  • each conclusion part is regarded as one event, and the dependency of the probability that the condition part event occurs and the probability that the conclusion part event occurs is used as an evaluation index.
  • EI Count (and ondition & Decision)-then ount (and ondition) X Count (Decision) ⁇ N
  • Equation (33) is derived as follows.
  • Prob (Condition & Decision) Count (Condition & Decision) ⁇ N (36) [0272] Note that Prob (Condition) is the probability that the event in the condition part of the content classification rule will occur and Prob (Decision) is Prob (Condition & Decision) indicates the probability that the event of the content classification rule and the event of the conclusion will occur at the same time.
  • R Prob (Condition & Decision) — Prob (Condition) X Prob (Decision)
  • Equation (33) is derived by multiplying the dependency R by the total number N of contents.
  • the evaluation index increases as the probability that content has metadata including a combination of metadata of content classification rules and the probability of belonging to a class of content classification rules increases. growing. That is, the evaluation index increases as the relationship between the event having metadata including the metadata of the content classification rule and the event belonging to the class of the content classification rule is deeper. Also, When the event of the condition part and the event of the conclusion part of the content classification rule are independent, the following formula (38) holds, and therefore the evaluation index is the minimum 0.
  • Prob (Condition & Decision) Prob (Condition) X Prob (Decision) ⁇ ⁇ ⁇ ⁇ (38)
  • the evaluation index indicates the degree of appearance in the metadata included in the metadata included in the condition part of the content classification rule or the combination power conclusion part class.
  • the evaluation index calculated using the first, second, fourth to seventh methods is the relationship between the combination of metadata included in the condition part of the content classification rule and the content belonging to the class of the conclusion part. Represents degrees.
  • the evaluation index calculated using the first, second, fourth to seventh methods represents the feature of the content in which the combination of metadata included in the condition part of the content classification rule belongs to the class of the conclusion part. Indicates the degree.
  • the evaluation index EI for each content classification rule is as follows.
  • the content classification rule generation unit 291 stores the generated content classification rule and information indicating the evaluation index of each content classification rule in the client storage unit 223 and supplies the information to the automatic content classification unit 292.
  • step S105 the content automatic classification unit 292 sets the content to be automatically classified. Specifically, for example, a user is stored in the client storage unit 223 via the user input unit 221 and is still classified into each class from the content stored in the client storage unit 223. Newly selected music, movies, newly recorded programs, etc.) are selected for automatic classification, the user input unit 221 displays information indicating the content selected by the user as an automatic content classification unit. 292. The content automatic classification unit 292 sets the content selected by the user as a target to be automatically classified.
  • metadata relating to newly arrived content for example, newly arrived movie, program, song, etc.
  • metadata relating to recommended content determined by some recommendation algorithm is transferred from the server storage unit 251 to the client storage unit 223.
  • the client storage unit 223 stores the transmitted metadata and supplies information indicating that there is a new arrival or recommended content to the content automatic classification unit 292.
  • the automatic content classification unit 292 sets the new arrival or recommended content as a target to be automatically classified.
  • the content automatic classification unit 292 automatically classifies the content. Specifically, the automatic content classification unit 292 classifies each content set in step S105 into each class based on the content classification rule, and supplies information indicating the classification result to the classification result presentation unit 293. .
  • the content automatic classification unit 292 includes, for each content to be automatically classified, a content classification rule including a combination of metadata of the metadata possessed by the content (hereinafter, referred to as a metadata combination rule). (Also expressed as a content classification rule that matches the content). That is, the content automatic classification unit 292 extracts a content classification rule that matches the content for each content to be automatically classified. The automatic content classification unit 292 classifies the extracted content classification rules for each class of the conclusion unit, and totals the number. The automatic content classification unit 292 classifies the content into a class that maximizes the number of matched content classification rules.
  • the content may be classified into the content classification rule class having the maximum evaluation index among the applicable content classification rules.
  • the evaluation index of each content classification rule to which the content X matches is as follows.
  • content X has a content classification level with the maximum evaluation index of 0.429. It is classified into the class “pops” in the conclusion part of Rpl.
  • the evaluation index of the content classification rule to be matched is aggregated for each class of the conclusion part, and the total value of the evaluation index is the maximum. Try to categorize your content.
  • the evaluation index of each content classification rule to which the content X matches is aggregated for each class of the conclusion part as follows.
  • ⁇ EI (Rp) represents the total value of the evaluation indexes of the content classification rules whose class X is “Pops” among the content classification rules to which content X matches
  • ⁇ EI (Rb) is Of the content classification rules to which content X is applicable, this represents the total value of the evaluation indexes of the content classification rules whose conclusion part is the class “ballad”.
  • the content X has the class "pops" with the maximum total evaluation index.
  • each content to be automatically classified may be classified into a class in which the average value of the evaluation index of the suitable content classification rule is the maximum.
  • the average value for each class of the conclusion part of the evaluation index of the content classification norm to which the content X matches is as follows.
  • Elav (Rp) represents the average value of the evaluation index of the content classification rule with the conclusion part class "pops" among the content classification rules to which the content X matches
  • Elav (Rp) is the content classification rule.
  • the content X is classified into the class “pops” in which the average value of the evaluation index is the maximum.
  • each content is not classified into only one class, but each content is classified into one or more classes, and the degree to which the content conforms to that class. You can also set a goodness-of-fit that indicates good!
  • the content is classified into all classes included in the conclusion part of the conforming content classification rule, or the total value of the evaluation index, the average value of the evaluation index,
  • the content may be classified into all classes in which the maximum value of the evaluation index at or above is a predetermined threshold value or more.
  • the number of content classification rules whose conclusion part is the class of the conforming content classification rules, or the conclusion part of the conforming content classification rules is The total value, average value, maximum value, etc. of the evaluation index of the content classification rule that is the class may be set as the fitness.
  • the content X is classified into both “pops” and “ballad” classes included in the conclusion part of the conforming content classification rule, and the evaluation index of the class “pops” 0.929, which is the total value of content X, is set as the fitness for the class “pops” of content X, and 0.410, which is the total value of the evaluation index of class “ballad”, is set as the fitness for the class “ballad” of content X You can do it!
  • step S107 the classification result presentation unit 293 presents the result of automatic classification. Specifically, the classification result presentation unit 293 controls the client output unit 224 to present the result of automatic classification of content to the user in step S106.
  • the classification result presentation unit 293 controls the client output unit 224 to display the following information.
  • this information may be presented to the user, and the user may be recommended to classify content X into the group "pops".
  • the metadata included in the metadata combination that matches the condition part of the content classification rule, and the condition part Content features may be presented to the user based on the conclusion class of the content classification rule that matches. For example, content features may be presented to the user based on the class name into which the content is classified and the metadata used to classify the content.
  • the classification result presenting unit 293 controls the client output unit 224 to display the following information as a feature of the content X.
  • this example shows an example in which the fitness is set and the content is classified into one or more classes.
  • step S108 the automatic content classification unit 292 determines whether or not it has the power to change the content to be automatically classified. For example, when a user wants to automatically classify other content and inputs information for instructing a change of content to be automatically classified via the user input unit 221, the user input unit 221 This is supplied to the classification unit 292.
  • the content automatic classification unit 292 determines that the content to be automatically classified is changed when the information for instructing the change of the content to be automatically classified is acquired, and the process returns to step S105. After that, until it is determined in step S108 that the content to be automatically classified is not changed, the processing in steps S105 to S108 is repeatedly executed, and the content designated by the user is automatically classified.
  • step S108 If it is determined in step S108 that the content to be automatically classified is not changed, the process proceeds to step S109.
  • step S109 the content classification unit 281 determines whether or not the content classification unit 281 has the ability to change the viewpoint for classifying the content, as in the processing of step S6 in Fig. 4 described above. If it is determined that the viewpoint for classifying content is to be changed, the process returns to step S101, and then the processes in steps S101 to S109 are repeatedly executed until it is determined in step S109 that the viewpoint for classifying content is not changed. Is done. That is, content is automatically classified based on a new viewpoint (for example, a favorite or dislike viewpoint).
  • a new viewpoint for example, a favorite or dislike viewpoint
  • step S109 If it is determined in step S109 that the viewpoint for classifying content is not changed The content classification process ends.
  • the content classification unit 281 selects a viewpoint for generating a content classification rule. Specifically, the content classification unit 281 selects one of the viewpoints that have not yet generated a content classification rule. For example, in the case of the example shown in FIG. 14, the content classification rule is still generated from the two viewpoints of the user's likes and dislikes and the folder in which the content is stored, and one viewpoint is selected.
  • the content classification rule is still generated from the two viewpoints of the user's likes and dislikes and the folder in which the content is stored, and one viewpoint is selected.
  • step S152 the content classification unit 281 classifies the content into a plurality of classes based on the viewpoint selected in step S151 by the same process as in step S101 of FIG. Information about the class is supplied to the metadata extraction unit 282.
  • steps S153 to S155 is the same as the processing in steps S102 to S104 in Fig. 13 described above, and the description thereof will be repeated, so the power to be omitted, as described above.
  • a content classification rule for the viewpoint selected in step S 151 is generated, and an evaluation index for each content classification rule is calculated.
  • step S 156 the content classification unit 281 determines whether content classification rules have been generated for all viewpoints. If it is determined that content classification rules have not been generated for all viewpoints, the process returns to step S151, and in step S156, it is determined that content classification rules have been generated for all viewpoints. Until then, the processing of steps S151 to S156 is repeatedly executed. That is, for all viewpoints A content classification rule is generated, and an evaluation index for each content classification rule is calculated.
  • step S156 If it is determined in step S156 that content classification rules have been generated for all viewpoints, the process proceeds to step S157.
  • step S157 the content to be automatically classified is set in the same manner as in step S105 of Fig. 13 described above.
  • step S158 the content automatic classification unit 292 automatically classifies the content. Specifically, for example, first, the automatic content classification unit 292 extracts a content classification rule that matches the content from all content classification rules for each content to be automatically classified. The automatic content classification unit 292 totals the evaluation indexes of the extracted content classification rules for each class of the conclusion unit.
  • the automatic content classification unit 292 calculates, for each viewpoint, the difference in evaluation index between the class having the largest total evaluation index and the class having the second largest total evaluation index.
  • the viewpoint that maximizes the calculated difference that is, the viewpoint in which the feature of the content appears most noticeably is selected.
  • the automatic content classification unit 292 classifies the content into the class having the maximum evaluation index among the classes in the selected viewpoint.
  • the content is assigned to the class having the maximum total value, average value, or maximum value of the evaluation index of the content classification rule that is relevant to the viewpoint. Let's sort it.
  • the total value, average value, or maximum value of the evaluation index within a class is equal to or greater than a predetermined threshold value for the content classification rule to be matched.
  • the content may be classified into all the classes, and the above-mentioned degree of conformity may be set. In this case, one content may be classified as belonging to multiple classes within one viewpoint or belonging to multiple viewpoint classes.
  • the automatic content classification unit 292 supplies information indicating the result of classification of each content to the classification result presentation unit 293.
  • step S159 automatic processing is performed in the same manner as in step S108 in Fig. 13 described above. Similar results are presented to the user.
  • step S160 it is determined whether or not to automatically change the content to be classified, in the same manner as in step S109 of Fig. 13 described above. If it is determined that the content to be automatically classified is changed, the process returns to step S157, and steps S157 to S160 are repeatedly executed until it is determined in step S160 that the content to be automatically classified is not changed.
  • step S160 If it is determined in step S160 that the viewpoint for classifying content is not changed
  • the content classification process ends.
  • the data representing the characteristics of each element are associated with each other, and the elements for each element belonging to the class from which the features are extracted are classified as the characteristics of the class into which the plurality of elements are classified. Obtained by retrieving one or more data associated with an element for each element belonging to another class out of all combinations of data obtained by retrieving one or more data associated with When extracting a combination of data that does not exist in the combination of data to be obtained, it is possible to extract the characteristics of a class that classifies multiple elements. In addition, it is possible to easily and accurately extract the characteristics of a class that classifies multiple elements.
  • viewpoint for classifying content is one is shown, but two or more viewpoints may be combined.
  • combining the user's likes and dislikes viewpoints with the playlist selection song viewpoint for example, content that likes a user and is not selected in the playlist It is possible to easily extract metadata combinations that represent the characteristics of the class to which the belongs.
  • a multi-layer directory bookmark that manages contents can be used as a viewpoint for classifying contents.
  • this classification viewpoint for example, it is possible to extract a combination of metadata that represents the granularity and detail level characteristics of the content classification (directory or bookmark) performed by the user.
  • the class-specific important metadata may not be extracted.
  • characteristics of a class of a school are classified into data about students belonging to each class (for example, Data on products manufactured by each manufacturer (for example, price, function, shape, color, etc.), and the characteristics of multiple manufacturers that produce the same product.
  • the present invention classifies a plurality of elements associated with data representing the characteristics of each element into a plurality of classes, and classifies the characteristics of each class based on the data of each element. It can be applied when extracting
  • the present invention is, for example, a device or system that recommends content, products, etc. to a user, or extracts features of a class that classifies content products, etc. (eg, recommendation system, personal It can be applied to computers, mobile phones, PDAs (Personal Digital Assistants), various AV (Audio Visual) devices, etc.), or software.
  • playlists can be created according to operations such as creating and browsing playlists.
  • a combination of metadata representing features can be presented to the user, making the work of browsing and editing files comfortable and giving pleasure to perform the work.
  • the present invention can be applied to, for example, an apparatus or system for classifying and managing various contents, or software.
  • the second embodiment of the present invention to e-mail software, it is based on the contents of the e-mail that is not set as a condition for classifying the conventional e-mail sender, subject, header information, etc. Mail can be automatically classified.
  • the series of processes described above can be executed by hardware or can be executed by software.
  • various functions can be executed by installing a computer built in dedicated hardware or various programs that make up the software. It is installed from a program recording medium in a possible general-purpose personal computer, for example.
  • FIG. 17 is a block diagram showing an example of the configuration of a personal computer that executes the series of processes described above by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • a RAM Random Access Memory
  • FIG. 17 is a block diagram showing an example of the configuration of a personal computer that executes the series of processes described above by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • a RAM Random Access Memory
  • the CPU 901, ROM 902, and RAM 903 are connected to each other via a bus 904.
  • the CPU 901 is also connected with an input / output interface 905 via the bus 904.
  • the input / output interface 905 has an input unit consisting of a keyboard, mouse, microphone, etc.
  • An output unit 907 including 906, a display, a speaker, and the like is connected.
  • the CPU 901 executes various processes in response to commands input from the input unit 906. Then, the CPU 901 outputs the processing result to the output unit 907.
  • the recording unit 908 connected to the input / output interface 905 includes, for example, a node disk, and stores programs executed by the CPU 901 and various data.
  • the communication unit 909 communicates with an external device via a network such as the Internet or a local area network.
  • the program may be acquired via the communication unit 909 and stored in the recording unit 908.
  • the drive 910 connected to the input / output interface 905 drives the removable media 911 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and records them on the drive 910. Get programs and data. Acquired programs and data are transferred to the recording unit 908 and stored as necessary.
  • a program recording medium storing a program that is installed in a computer and is ready to be executed by a computer includes a magnetic disk (including a flexible disk), an optical disk (CD-ROM ( (Including Compact Disc-Read Only Memory), DV D (Digital Versatile Disc), magneto-optical disk, or removable media such as semiconductor memory, removable media 911, or programs can be stored temporarily or permanently ROM 902 and a hard disk constituting the recording unit 908.
  • the program is stored in the program recording medium via a wired or wireless communication medium such as a local area network, the Internet, or digital satellite broadcasting via a communication unit 909 that is an interface such as a router or a modem as necessary. It is done using it.
  • the step of describing the program stored in the program recording medium is not necessarily performed in time series in the order described, but is necessarily processed in time series. It also includes processing that is executed in parallel or individually.
  • the system refers to an entire apparatus including a plurality of apparatuses. It represents.

Abstract

本発明は、複数の要素を分類したクラスの特徴を簡単かつ正確に抽出することができる情報処理装置、特徴抽出方法、記録媒体、および、プログラムに関する。組み合わせ抽出部83は、コンテンツ分類部81がユーザの指令に基づいて複数のコンテンツを分類したクラスの特徴として、特徴を抽出する対象となる特徴抽出対象クラスに属するコンテンツごとのメタデータの全ての組み合わせのうち、他のクラスに属するコンテンツごとのメタデータの組み合わせには存在しないメタデータの組み合わせを抽出する。本発明は、推薦システムに適用することができる。

Description

明 細 書
情報処理装置、特徴抽出方法、記録媒体、および、プログラム
技術分野
[0001] 本発明は、情報処理装置、特徴抽出方法、記録媒体、および、プログラムに関し、 特に、複数の要素を分類したクラスの特徴を簡単かつ正確に抽出できるようにした情 報処理装置、特徴抽出方法、記録媒体、および、プログラムに関する。
背景技術
[0002] 従来、視聴者が番組を視聴中に番組に関連する情報をサーバに要求し、視聴中の 番組に予め関連づけられて記憶されて!、る番組関連情報を視聴者に提供するシス テムが提案されている (例えば、特許文献 1参照)。
[0003] また、近年、特許文献 1に記載の発明のようにユーザの要求に応えるだけではなく 、商品の購入、コンテンツ(例えば、テレビジョン番組や Webページなど)の視聴など の過去のユーザの実績に基づいて、ユーザの嗜好に合わせた商品やコンテンツを 推薦するシステムやサービスが普及してきて 、る。
[0004] 例えば、視聴者が選択した番組および選択しなカゝつた番組の番組名を構成する語 句を評価し、評価が高い語句を番組名に含む番組候補を優先して表示することが提 案されている(例えば、特許文献 2参照)。
[0005] 特許文献 1 :特開 2005— 102109号公報
特許文献 2:特開 2001— 275056号公報
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、現状の商品やコンテンツを推薦するシステムやサービスにおいては、 ユーザの過去の実績に基づいて、例えば、類似した購買パターンを有する他のユー ザの購買履歴を利用する強調フィルタリングなどの推薦アルゴリズムを用いる場合が 多いが、この場合、ユーザに明確な推薦理由を提示することが困難である。
[0007] また、例えば、データ集合力 規則または知識を発見するための理論であるラフ集 合理論を用いて、ユーザが過去に購入した商品、視聴したコンテンツなどのデータ属 性の中から、ユーザの嗜好を示すデータ属性の組み合わせを推薦理由として抽出す ることが考えられるが、アルゴリズムが複雑かつ膨大になり、計算量および計算に必 要な記憶媒体の記憶容量が膨大になってしまう。そのため、商品やコンテンツなどに 関連づけるデータ属性の数や種類を制限したり、あるいは、処理能力が高いコンビュ ータを準備するといつた対応が必要となる。
[0008] また、特許文献 2に記載の発明では、選択した番組の番組名を構成する語句から、 選択しなカゝつた番組名を構成する語句を単純に差し引いて、残った語句を含む番組 を推薦するものであり、必ずしもユーザの嗜好を正確に抽出し、反映しているとは限 らない。
[0009] 本発明は、このような状況に鑑みてなされたものであり、複数の要素を分類したクラ スの特徴を簡単かつ正確に抽出できるようにするものである。
課題を解決するための手段
[0010] 本発明の一側面の情報処理装置には、各要素の特徴を表すデータがそれぞれ関 連づけられている複数の前記要素を分類したクラスの特徴として、特徴を抽出する対 象となる前記クラスに属するそれぞれの前記要素について前記要素に関連づけられ ている 1つ以上の前記データを取り出すことにより求められる前記データの全ての組 み合わせのうち、他の前記クラスに属するそれぞれの前記要素につ 、て前記要素に 関連づけられている 1つ以上の前記データを取り出すことにより求められる前記デー タの組み合わせには存在しない前記データの組み合わせを抽出する特徴抽出手段 が設けられている。
[0011] 抽出された前記データの組み合わせのうち 1つ以上を前記クラスの特徴としてユー ザに提示するように前記クラスの特徴の提示を制御する特徴提示制御手段をさらに 設けることができる。
[0012] 前記クラスに属する前記要素と前記データとの第 1の関連度、および、他の前記ク ラスに属する前記要素と前記データとの第 2の関連度と前記第 1の関連度との違いに 基づいて、前記クラスに属する前記要素の特徴をより明確に表している前記データを 、前記データの組み合わせを抽出する前に抽出するデータ抽出手段をさらに設け、 前記特徴抽出手段には、前記データ抽出手段により抽出された前記データの組み 合わせを抽出させることができる。
[0013] 前記データ抽出手段には、前記第 1の関連度、および、前記第 2の関連度と前記 第 1の関連度との違いに基づいて、前記クラスにおける前記データの重みを求め、前 記重みの値が上位である所定の数の前記データ、または、前記重みの値が所定の 閾値以上の前記データを抽出させることができる。
[0014] Hij gd " ~~タ抽出牛段には、 tfiaf(term frequency with inverse document frequency;
、相互情報量、情報利得比、 X 2乗値、または、対数尤度比のうちいずれかを前記ク ラスにおける前記データの重みとして求めさせることができる。
[0015] 抽出された前記データの組み合わせに基づいて、前記要素により構成される第 1の グループとは異なる第 2のグループに属する要素の中から、前記データの組み合わ せが抽出された前記クラスに属する前記要素と関連のある要素を抽出する要素抽出 手段をさらに設けることができる。
[0016] 前記要素抽出手段には、抽出された前記データの組み合わせを含む前記データ が関連づけられている前記第 2のグループに属する前記要素を抽出させるようにする ことができる。
[0017] 抽出された前記要素のユーザへの提示を制御する要素提示制御手段をさらに設 けることができる。
[0018] 前記要素提示制御手段には、前記要素を抽出した根拠として、前記要素の抽出に 用いた前記データの組み合わせをさらに提示するように制御させることができる。
[0019] 前記要素はコンテンツであり、前記データは前記コンテンツに関するメタデータであ るよう〖こすることがでさる。
[0020] 抽出された前記データの組み合わせと前記データの組み合わせが抽出された前 記クラスである抽出対象クラスに属する前記要素との関連度を示す評価指標を算出 する評価指標算出手段をさらに設けることができる。
[0021] 前記評価指標算出手段には、前記抽出対象クラスに属する前記要素のうち、前記 データの組み合わせを含む前記データが関連づけられている前記要素の占める割 合である再現率、および、前記データの組み合わせを含む前記データが関連づけら れている前記要素のうち、前記抽出対象クラスに属する前記要素の占める割合であ る適合率の調和平均である F値を前記評価指標として算出させることができる。
[0022] 分類する対象となる要素に関連づけられている前記データの組み合わせに対する 前記評価指標に基づいて、前記分類する対象となる要素を前記クラスに分類するク ラス分類手段をさらに設けることができる。
[0023] 分類する対象となる要素に関連づけられている前記データの組み合わせのうち、そ れぞれの前記クラス力 抽出された前記データの組み合わせに一致する数に基づい て、前記分類する対象となる要素を前記クラスに分類するクラス分類手段をさらに設 けることができる。
[0024] 特徴を提示する対象となる要素に関連づけられて 、る前記データの組み合わせの うち、それぞれの前記クラス力 抽出された前記データの組み合わせに一致する前 記データの組み合わせに含まれる前記データ、および、一致する前記データの組み 合わせが抽出された前記クラスに基づいて、前記特徴を提示する対象となる要素の 特徴を提示する特徴提示手段をさらに設けることができる。
[0025] 本発明の一側面の特徴抽出方法またはプログラムは、各要素の特徴を表すデータ がそれぞれ関連づけられて 、る複数の前記要素を分類したクラスの特徴として、特徴 を抽出する対象となる前記クラスに属するそれぞれの前記要素について前記要素に 関連づけられている 1つ以上の前記データを取り出すことにより求められる前記デー タの全ての糸且み合わせのうち、他の前記クラスに属するそれぞれの前記要素につい て前記要素に関連づけられている 1つ以上の前記データを取り出すことにより求めら れる前記データの組み合わせには存在しない前記データの組み合わせを抽出する ステップを含む。
[0026] 本発明の一側面においては、各要素の特徴を表すデータがそれぞれ関連づけら れている複数の前記要素を分類したクラスの特徴として、特徴を抽出する対象となる 前記クラスに属するそれぞれの前記要素について前記要素に関連づけられている 1 つ以上の前記データを取り出すことにより求められる前記データの全ての組み合わ せのうち、他の前記クラスに属するそれぞれの前記要素について前記要素に関連づ けられている 1つ以上の前記データを取り出すことにより求められる前記データの組 み合わせには存在しない前記データの組み合わせが抽出される。 発明の効果
[0027] 以上のように、本発明の一側面によれば、複数の要素を分類したクラスの特徴を抽 出することができる。また、本発明の一側面によれば、複数の要素を分類したクラスの 特徴を簡単かつ正確に抽出することができる。
図面の簡単な説明
[0028] [図 1]本発明を適用した情報処理システムの第 1の実施の形態を示すブロック図であ る。
[図 2]図 2のクライアント演算部の機能の構成の例を示すブロック図である。
[図 3]コンテンツに関連づけられているメタデータの例を示す図である。
[図 4]図 1の情報処理システムにより実行されるキーワード抽出処理を説明するため のフローチャート図ある。
[図 5]コンテンツを分類する視点を説明するための図である。
[図 6]メタデータの抽出の例を説明するための図である。
[図 7]図 4のステップ S3のメタデータ抽出処理の詳細を説明するためのフローチヤ一 トである。
[図 8]抽出したキーワードをユーザに提示する画面の例である。
[図 9]抽出したキーワードをユーザに提示する画面の他の例である。
[図 10]図 1の情報処理システムにより実行されるコンテンツ推薦処理を説明するため のフローチャートである。
[図 11]本発明を適用した情報処理システムの第 2の実施の形態を示すブロック図で ある。
[図 12]図 11のクライアント演算部の機能の構成の例を示すブロック図である。
[図 13]図 11の情報処理システムにより実行されるコンテンツ分類処理の第 1の実施 の形態を説明するためのフローチャートである。
[図 14]コンテンツを分類する視点を説明するための図である。
[図 15]メタデータの抽出の例を説明するための図である。
[図 16]図 11の情報処理システムにより実行されるコンテンツ分類処理の第 2の実施 の形態を説明するためのフローチャートである。 [図 17]パーソナルコンピュータの構成の例を示すブロック図である。
符号の説明
[0029] 1 情報処理システム, 11 コンテンツ視聴クライアント, 12 コンテクスト検出端 末, 13 コンテンツ配信サーバ, 14 コンテンツ推薦サーバ, 21 ユーザ入力 部, 22 クライアント演算部, 23 クライアント記憶部, 24 クライアント出力部, 41 コンテンツ配信部, 81 コンテンツ分類部, 82 メタデータ抽出部, 83 組 み合わせ抽出部, 84 キーワード提示部, 85 推薦コンテンツ抽出部, 86 推 薦コンテンツ提示咅 201 †青報処理システム, 211 コンテンツ視 クライアント , 212 コンテクスト検出端末, 213 コンテンツ配信サーバ, 214 コンテンツ推 薦サーバ, 221 ユーザ入力部, 222 クライアント演算部, 223 クライアント記 憶部, 224 クライアント出力部, 241 コンテンツ配信部, 281 コンテンツ分類 部, 282 メタデータ抽出部, 283 組み合わせ抽出部, 291 コンテンツ分類 ルール生成部, 292 コンテンツ自動分類部, 293 分類結果提示部, 901 C PU, 902 ROM, 903 RAM, 908 記録部, 910 ドライブ, 911 リムーバ ブルメディア
発明を実施するための最良の形態
[0030] 以下、図を参照して、本発明の実施の形態について説明する。
[0031] 図 1は、本発明を適用した情報処理システム 1の一実施の形態を示すブロック図で ある。
[0032] 情報処理システム 1は、コンテンツ視聴クライアント 11、コンテクスト検出端末 12、コ ンテンッ配信サーバ 13、および、コンテンツ推薦サーバ 14を含むように構成される。
[0033] コンテンツ視 クライアント 11は、例えば、クライアントコンピュータ、コンシユーマエ レクト口-タス機器 (CE機器)、携帯型情報端末などにより構成される。コンテンツ視 聴クライアント 11は、クライアント記憶部 23に記憶されているコンテンツをユーザに提 示したり、コンテンツ配信サーバ 13から配信されるコンテンツを受信して、ユーザに 提示したりする。
[0034] なお、本明細書において、コンテンツとは、一般的にコンテンツと称されている、例 えば、テレビジョン番組、映画、写真、楽曲等 (動画像、静止画像、若しくは音声、ま たは、それらの組み合わせ等)の他、各種の情報、文書、商品(物品含)、会話等の ユーザが使用可能なソフトウェアまたはハードウェアの全てを指す広い概念である。 ただし、コンテンツが物品(ノヽ一ドウエア)の場合、例えば、その物品が動画像や静止 画像等に射影されてデータ化されたものが、コンテンツデータとして使用される。
[0035] また、情報処理システム 1により扱われる各コンテンツには、図 3を参照してその例 を示すように、各コンテンツの特徴を表すメタデータがそれぞれ関連づけられて ヽる。
[0036] コンテンツ視聴クライアント 11は、機能的構成の観点に立つと、ユーザ入力部 21、 クライアント演算部 22、クライアント記憶部 23、および、クライアント出力部 24を含む ように構成される。
[0037] ユーザ入力部 21は、コンテンツ視聴クライアント 11に対する操作をユーザが行うた めの入力機器であって、例えば、キーボード、マウス、リモコン、タツチパネル、マイク 等で構成される。ユーザ入力部 21を利用してユーザが入力した操作内容、正確には 、その操作内容を示す情報は、クライアント演算部 22に供給される。
[0038] クライアント演算部 22は、例えば、ここでは、 CPU (Central Processing Unit)とそれ が実行するプログラム、すなわち、ハードウェアとソフトウェアとの組み合わせにより構 成される。もちろん、クライアント演算部 22は、ソフトウェアまたはハードウェア単体で 構成することちできる。
[0039] クライアント演算部 22は、クライアント出力部 24を制御して、クライアント記憶部 23 に記憶されているコンテンツをユーザに提示する。また、クライアント演算部 22は、ュ 一ザにより指定された視点に基づいて、クライアント記憶部 23に記憶されているコン テンッの一部または全部を複数のクラスに分類する。クライアント演算部 22は、図 7を 参照して後述するように、必要に応じて、コンテクスト検出端末 12から供給されるコン テクスト情報、または、ユーザ入力部 21から供給されるユーザの操作内容を示す情 報を用いて、分類したクラスの特徴を表すメタデータの組み合わせを抽出する。クライ アント演算部 22は、クライアント出力部 24を制御して、抽出したメタデータの組み合 わせをそのクラスの特徴としてユーザに提示する。
[0040] また、クライアント演算部 22は、図 10を参照して後述するように、抽出したメタデー タの組み合わせに基づ 、て、クライアント記憶部 23に記憶されて 、るコンテンツの中 から、ユーザに推薦するコンテンツを抽出する。クライアント演算部 22は、クライアント 出力部 24を制御して、抽出したコンテンツに関する情報をユーザに提示する。
[0041] さらに、クライアント演算部 22は、抽出したメタデータの組み合わせの一部または全 部を含み、そのメタデータの組み合わせに基づいてユーザに推薦するコンテンツを 抽出するように要求する情報 (以下、推薦コンテンツ抽出要求情報と称する)をクライ アント記憶部 23に記憶させる。クライアント演算部 22は、それに対する抽出結果を示 す情報をクライアント記憶部 23から取得する。クライアント演算部 22は、抽出結果に 基づいて、クライアント出力部 24を制御して、抽出されたコンテンツに関する情報を ユーザに提示する。
[0042] また、クライアント演算部 22は、ユーザにより分類されたクラスに関する情報および そのクラス属するコンテンツに関するメタデータを含み、そのクラスの特徴を表すメタ データの組み合わせの抽出を要求する情報 (以下、組み合わせ抽出要求情報と称 する)をクライアント記憶部 23に記憶させる。クライアント演算部 22は、組み合わせ抽 出要求情報に対する抽出結果を示す情報をクライアント記憶部 23から取得する。ク ライアント演算部 22は、抽出結果に基づいて、クライアント出力部 24を制御して、抽 出されたメタデータの組み合わせをユーザに提示する。
[0043] さらに、クライアント演算部 22は、コンテンツの配信 (送信)を要求する情報をクライ アント記憶部 23に記憶させる。
[0044] クライアント記憶部 23は、例えば、ハードディスクや RAM (Random Access Memory) などの記録媒体または記憶媒体を含むように構成される。クライアント記憶部 23は、 ククライアント演算部 22が利用するコンテクスト情報、および、ユーザの操作指令を示 す情報を適宜記憶する。また、クライアント記憶部 23は、コンテクスト情報、ユーザの 操作内容を示す情報、推薦コンテンツ抽出要求情報、または、組み合わせ抽出要求 情報を、必要に応じて、コンテンツ推薦サーバ 14のサーバ記憶部 51に送信する。さ らに、クライアント記憶部 23は、コンテンツの配信を要求する情報をコンテンツ配信サ ーバ 13のコンテンツ配信部 41に送信する。
[0045] また、クライアント記憶部 23は、サーバ記憶部 51から送信されてくる、コンテンツに 関するメタデータ、ユーザに推薦するコンテンツの抽出結果を示す情報、および、メ タデータの組み合わせの抽出結果を示す情報を記憶する。さらに、クライアント記憶 部 23は、コンテンツ配信部 41から送信されてくるコンテンツを記憶する。また、クライ アント記憶部 23は、コンテンツ、または、コンテンツに関するメタデータを受信したこと を通知する情報をクライアント演算部 22に供給する。さらに、クライアント記憶部 23は 、記憶しているコンテンツ、または、コンテンツのメタデータをクライアント出力部 24に 供給する。
[0046] クライアント出力部 24は、例えば、モニタまたはプリンタなどの画像出力機器、スピ 一力などの音声出力機器などにより構成される。クライアント出力部 24は、クライアン ト記憶部 23に記憶されているコンテンツを、画像、テキスト情報、もしくは、音声、また は、画像もしくはテキスト情報を印刷した媒体などの形式によりユーザに提示する。ま た、クライアント出力部 24は、クライアント演算部 22の制御の基に、クライアント記憶 部 23に記憶されて ヽるコンテンツを分類したクラスの特徴を表すメタデータの組み合 わせ、または、ユーザに推薦するコンテンツに関する情報をユーザに提示する。
[0047] コンテクスト検出端末 12は、機能的構成の観点に立つと、コンテクスト検出部 31、 および、コンテクスト記憶部 32を含むように構成される。
[0048] コンテクスト検出部 31は、例えば、ユーザの状態や感情、ユーザが置かれている状 況 (例えば、場所や時間など)などに関するコンテクスト情報を検出する。具体的には 、コンテンツ検出部 31は、ユーザの現在位置情報を検出する GPS(Global Positioning System)レシーバ、現在時刻を計時 (検出)する電波時計、ユーザの周辺に位置する 人や物体を検出する無線通信機器、ユーザの脈拍、呼吸数、発汗、もしくは、瞳孔の 開き等を検出する各種の生体情報センサ、カメラ、または、各種の画像を認識する画 像認識装置などにより構成される。コンテクスト検出部 31は、上述したコンテクスト情 報をリアルタイムに検出し、検出したコンテクスト情報をコンテクスト記憶部 32に記憶 させる。また、コンテクスト検出端末 12は、コンテンツ視聴クライアント 11のクライアント 演算部 22に、検出したコンテクスト情報を供給する。
[0049] コンテクスト記憶部 32は、例えば、ハードディスクや RAMなどの記録媒体または記 憶媒体を含むように構成され、コンテクスト検出部 31から供給される時系列に沿った コンテクスト情報を格納する。 [0050] コンテンツ配信サーバ 13は、例えば、コンテンツを配信するための放送機器、また は、サーバコンピュータなどにより構成される。コンテンツ配信サーバ 13は、機能的 構成の観点に立つと、コンテンツ配信部 41、および、コンテンツメタデータ記憶部 42 を含むように構成される。
[0051] コンテンツ配信部 41は、例えば、ここでは、 CPUとそれが実行するプログラム、すな わち、ハードウェアとソフトウェアとの組み合わせにより構成される。もちろん、コンテ ンッ配信部 41は、ソフトウェアまたはハードウェア単体で構成することもできる。具体 的には、例えば、コンテンツ配信部 41は、テレビジョン放送システムの配信サーバ、 または、インターネット上のストリーミングコンテンツサーバなどにより構成される。コン テンッ配信部 41は、コンテンツ視聴クライアント 11のクライアント記憶部 23にコンテン ッを配信 (送信)する。
[0052] コンテンツメタデータ記憶部 42は、例えば、ハードディスクや RAM等の記録媒体ま たは記憶媒体を含むように構成され、コンテンツ配信サーバ 13が配信可能なコンテ ンッ、および、コンテンツに関するデータであるメタデータを記憶する。なお、コンテン ッメタデータ記憶部 42に記憶されて 、るコンテンツまたはメタデータは、コンテンツ配 信元の運用ルール等に従って適宜更新される。
[0053] コンテンツ推薦サーバ 14は、例えば、サーバコンピュータにより構成される。コンテ ンッ推薦サーバ 14は、機能的構成の観点に立つと、サーバ記憶部 51、および、サ ーバ演算部 52を含むように構成される。
[0054] サーバ記憶部 51は、例えば、ハードディスクや RAM等の記録媒体または記憶媒体 を含むように構成される。サーバ記憶部 51は、コンテンツ配信サーバ 13のコンテンツ メタデータ記憶部 42に記憶されて ヽる各コンテンツのメタデータを、適宜取得して記 憶するとともに、必要に応じて、コンテンツ視聴クライアント 11のクライアント記憶部 23 に送信する。また、サーバ記憶部 51は、クライアント記憶部 23から送信されてくる、コ ンテクスト情報、ユーザの操作内容を示す情報、推薦コンテンツ抽出要求情報、また は、組み合わせ抽出要求情報を記憶する。さらに、サーバ記憶部 51は、サーバ演算 部 52から供給される、ユーザに推薦するコンテンツの抽出結果を示す情報、または、 メタデータの組み合わせの抽出結果を示す情報を記憶するとともに、クライアント記 憶部 23、または、コンテンツメタデータ記憶部 42に送信する。
[0055] サーバ演算部 52は、例えば、ここでは、 CPUとそれが実行するプログラム、すなわ ち、ハードウェアとソフトウェアとの組み合わせにより構成される。もちろん、サーバ演 算部 52は、ソフトウェアまたはハードウェア単体で構成することもできる。
[0056] サーバ演算部 52は、サーバ記憶部 51に記憶されている、ユーザの操作内容を示 す情報、コンテクスト情報、または、推薦コンテンツ抽出要求情報に基づいて、サー バ記憶部 51にメタデータが記憶されて 、るコンテンツの中から、ユーザに推薦するコ ンテンッを抽出する。サーバ演算部 52は、ユーザに推薦するコンテンツの抽出結果 を示す情報をサーバ記憶部 51に記憶させる。
[0057] また、サーバ演算部 52は、サーバ記憶部 51に記憶されている、ユーザの操作内容 を示す情報、コンテクスト情報、または、組み合わせ抽出要求情報に基づいて、その クラスの特徴を表すメタデータの組み合わせを抽出する。サーバ演算部 52は、メタデ ータの組み合わせの抽出結果を示す情報をサーバ記憶部 51に記憶させる。
[0058] ところで、図 1は、機能的構成例を示しているため、各装置間の接続形態、すなわ ち、コンテンツ視聴クライアント 11乃至コンテンッ推薦サーバ 14のそれぞれの間の接 続の形態は特に図示されていないが、その接続の形態は特に限定されない。すなわ ち、接続の形態は、有線であってもよいし無線であってもよいし、その組み合わせで もよい。また、接続の形態は、ネットワークを介在する形態であってもよいし、装置間 で直接通信を行う形態であってもよいし、その組み合わせでもよい。さらに、ネットヮ ークを介在する形態の場合も、ネットワークの形態は限定されず、例えば、インターネ ットゃイントラネット等でもよい。この場合も、ネットワークは単一のネットワークに限定 されず、複数のネットワークが存在してもよい。従って、図 1には図示されていないが、 実際には、コンテンツ視聴クライアント 11乃至コンテンツ推薦サーバ 14のそれぞれに は、対応する接続形態に応じた通信部がさらに設けられることになる。
[0059] また、コンテクスト検出端末 12、コンテンツ配信サーバ 13、および、コンテンツ推薦 サーバ 14は、情報処理システム 1において必須な構成要素ではない。すなわち、図 4乃至図 10を参照して後述するように、情報処理システム 1により行われるキーワード 抽出処理およびコンテンツ推薦処理は、コンテンツ視聴クライアント 11のみで実現す ることが可能である。
[0060] 図 2は、クライアント演算部 22の機能の構成の例を示すブロック図である。クライア ント演算部 22は、コンテンツ分類部 81、メタデータ抽出部 82、組み合わせ抽出部 83 、キーワード提示部 84、推薦コンテンツ抽出部 85、および、推薦コンテンツ提示部 8 6を含むように構成される。
[0061] コンテンツ分類部 81は、ユーザ入力部 21を介してユーザが入力したコンテンツを 分類する視点を示す情報をユーザ入力部 21から取得する。コンテンツ分類部 81は、 図 4を参照して後述するように、指定された視点に基づいて、コンテンツ記憶部 23に 記憶されているコンテンツの一部または全部により構成されるグループを複数のクラ スに分類する。コンテンツ分類部 81は、分類したクラスに関する情報をメタデータ抽 出部 82に供給する。また、コンテンツ分類部 81は、必要に応じて、組み合わせ抽出 要求情報を、クライアント記憶部 23およびサーバ記憶部 51を介して、サーバ演算部 52に送信する。
[0062] メタデータ抽出部 82は、図 4を参照して後述するように、対象となるクラスに属する コンテンツとメタデータとの関連度、および、他のクラスに属するコンテンツとメタデー タとの関連度と対象となるクラスに属するコンテンツとメタデータとの関連度との違い に基づ!/、て、対象となるクラスに属するコンテンツの特徴をより明確に表して!/ヽるメタ データを抽出する。メタデータ抽出部 82は、抽出したメタデータを示す情報を組み合 わせ抽出部 83に供給する。
[0063] 組み合わせ抽出部 83は、図 7を参照して後述するように、特徴を抽出する対象とな るクラスに属するそれぞれのコンテンツについてコンテンツに関連づけられている 1つ 以上のメタデータを取り出すことにより求められるメタデータの全ての組み合わせのう ち、他のクラスに属するそれぞれのコンテンツについて、コンテンツに関連づけられて いる 1つ以上のメタデータを取り出すことにより求められるメタデータの組み合わせに は存在しないメタデータの組み合わせであって、メタデータ抽出部 82により抽出され たメタデータの組み合わせを抽出する。組み合わせ抽出部 83は、抽出したメタデー タの組み合わせを示す情報を、キーワード提示部 84または推薦コンテンツ抽出部 85 に供給する。 [0064] また、組み合わせ抽出部 83は、コンテンツ分類部 81から送信された組み合わせ抽 出要求情報に対する抽出結果を示す情報を、サーバ記憶部 51およびクライアント記 憶部 23を介して、サーバ演算部 52から受信する。組み合わせ抽出部 83は、抽出さ れたメタデータの組み合わせを示す情報を、キーワード提示部 84または推薦コンテ ンッ抽出部 85に供給する。
[0065] キーワード提示部 84は、図 4を参照して後述するように、抽出されたメタデータの組 み合わせのうち 1つ以上を、メタデータの組み合わせを抽出したクラスの特徴としてュ 一ザに提示するように、クライアント出力部 24を制御する。また、キーワード提示部 84 は、ユーザ入力部 21を介してユーザが入力したキーワードの決定または変更を指令 する情報をユーザ入力部 21から取得する。
[0066] 推薦コンテンツ抽出部 85は、図 10を参照して後述するように、組み合わせ抽出部 83により抽出されたメタデータの組み合わせに基づいて、メタデータの組み合わせ が抽出されたクラスに属するコンテンツと関連のあるコンテンツを、ユーザに推薦する コンテンツとしてクライアント記憶部 23に記憶されているコンテンツの中力も抽出する 。推薦コンテンツ抽出部 85は、抽出したコンテンツに関する情報を推薦コンテンツ提 示部 86に供給する。
[0067] また、推薦コンテンツ抽出部 85は、組み合わせ抽出部 83により抽出されたメタデー タの組み合わせに基づいて、ユーザに推薦するコンテンツを抽出するように要求する 推薦コンテンツ抽出要求情報を、クライアント記憶部 23およびサーバ記憶部 51を介 して、サーバ演算部 52に送信する。推薦コンテンツ抽出部 85は、推薦コンテンツ抽 出要求情報に対応する抽出結果を示す情報を、サーバ記憶部 51およびクライアント 記憶部 23を介して、サーバ演算部 52から受信する。推薦コンテンツ抽出部 85は、抽 出されたコンテンツに関する情報を推薦コンテンツ提示部 86に供給する。また、推薦 コンテンツ抽出部 85は、コンテンツ、または、コンテンツに関するメタデータを受信し たことを通知する情報をクライアント記憶部 23から取得する。
[0068] 推薦コンテンツ提示部 86は、推薦コンテンツ抽出部 85により抽出されたコンテンツ を推薦するコンテンツとしてユーザに提示するとともに、コンテンツを推薦した根拠( 理由)として、推薦するコンテンツの抽出に用いたメタデータの組み合わせを提示す るように、クライアント出力部 24を制御する。推薦コンテンツ提示部 86は、ユーザ入 力部 21を介してユーザが入力した推薦したコンテンツの決定を指令する情報をユー ザ入力部 21から取得する。推薦コンテンツ提示部 86は、ユーザにより決定されたコ ンテンッを通知する情報をクライアント記憶部 23に供給する。
[0069] 次に、図 3を参照して、情報処理システム 1で扱われるコンテンツおよびコンテンツ に関連づけられているメタデータの例を説明する。図 3は、コンテンツが音楽データで ある場合におけるコンテンツ、および、そのメタデータの例を示している。なお、図 3に は、以後の説明を簡単にするために、音楽データ (楽曲)を演奏するアーティストごと にメタデータが関連づけられている例を示している。すなわち、同じアーティストの音 楽データには、全て同じメタデータが関連づけられる。もちろん、楽曲単位でメタデー タを関連づけるようにしてもょ 、。
[0070] なお、以下、コンテンツ Aにメタデータ Bが関連づけられている場合、コンテンツ Aが メタデータ Bを有する、または、コンテンツ Aにメタデータ Bが設定されているというよう な表現を適宜用いる。
[0071] 図 3の例では、各コンテンツ(アーティスト)には、色彩、ノリ、かわいらしい、ブーム、 冬、センチメンタルなど、そのアーティストが演奏する楽曲の音楽性を表すキーワード 力 Sメタデータとして関連づけられている。なお、このキーワードは、例えば、音楽評論 家などにより専門家の視点で設定されたり、アーティストに関する評論文や紹介記事
、または、楽曲の歌詞などをテキスト解析することにより抽出される。また、音楽性を表 すキーワード以外に、音楽ジャンル、アーティストの年代および出身地、音楽データ から抽出される特徴量、ヒットチャート情報などの特徴を表すデータをメタデータに用 いるようにしてちょい。
[0072] また、各コンテンツにおけるメタデータ(キーワード)の有無は、 0または 1の 2値によ り示されている。 0が設定されているメタデータは、そのアーティストが有していないメ タデータ、すなわち、そのアーティストの特徴を表していないキーワードである。 1が設 定されているメタデータは、そのアーティストが有しているメタデータ、すなわち、その アーティストの特徴を表しているキーワードである。なお、元々の値が 0または 1以外 の 2値以外の値を取る場合、所定の閾値を基準にして、 0または 1の 2値にメタデータ が変換されて用いられる。例えば、アーティストのデビュー日がメタデータに設定され ている場合、所定の日にちを基準にして、デビュー日がその日にちより前の場合、メ タデータが 0に変換され、デビュー日がその日にち以降の場合、メタデータが 1に変 換される。
[0073] 次に、図 4乃至図 10を参照して、情報処理システム 1により実行される処理を説明 する。
[0074] まず、図 4のフローチャートを参照して、情報処理システム 1により実行されるキーヮ ード抽出処理を説明する。なお、この処理は、例えば、ユーザ入力部 21を介して、ュ 一ザがキーワード抽出処理の開始の指令を入力した場合、開始される。
[0075] ステップ S1において、コンテンツ分類部 81は、コンテンツを分類する。具体的には 、ユーザは、ユーザ入力部 21を介して、コンテンツを分類するための視点を示す情 報を入力する。ユーザ入力部 21は、入力された情報をコンテンツ分類部 81に供給 する。
[0076] 図 5は、コンテンツを分類するための視点の例を示す図である。なお、図 5に示され る表には、図 3に示される表と比較して、分類の視点の項目が追加されている。
[0077] 図 5には、コンテンツを分類するための視点として、ユーザの好き嫌い、および、プ レイリストに選択されている楽曲力否かの 2つの例が示されている。なお、プレイリスト とは、ユーザが任意に選曲した楽曲により構成されるグループであり、例えば、ユー ザは、プレイリスト単位で楽曲の再生を指示し、プレイリストに登録されている楽曲を 順に再生させることができる。
[0078] ユーザの好き嫌!、の視点に基づ!/、てコンテンツ (アーティスト)を分類する場合、各 コンテンツは、「好き」「嫌い」「どちらでもない」の 3つのクラスに分類される。この好き 嫌いの評価は、ユーザが明示的に設定するようにしてもよいし、例えば、ユーザがィ ンターネットに接続されているサーバなど力 ダウンロードした楽曲を演奏するァーテ ィストの評価を「好き」に設定し、ユーザが削除した楽曲を演奏するアーティストの評 価を「嫌い」に設定するなど、ユーザの操作履歴などに基づいて、コンテンツ視聴クラ イアント 11に学習させるようにするようにしてもよ!、。
[0079] プレイリスト選択曲の視点に基づいてコンテンツを分類する場合、各コンテンツは、 プレイリストに選択されて 、る(選択)、プレイリストに選択されて 、な 、(非選択)の 2 つのクラスに分類される。
[0080] コンテンツ分類部 81は、ユーザにより指定された視点に基づいて、コンテンツを複 数のクラスに分類する。コンテンツ分類部 81は、分類したコンテンツのクラスに関する 情報をメタデータ抽出部 82に供給する。
[0081] なお、以下の説明では、プレイリスト選択曲の視点に基づいてコンテンツが分類さ れ、プレイリストに選択されているコンテンツのメタデータ(キーワード)を抽出する場 合の例について説明する。また、以下、図 5に示されるように、プレイリスト選択曲のク ラスに属する要素(コンテンツ)をアーティスト 1乃至 11とし、プレイリスト非選択曲のク ラスに属する要素(コンテンツ)をアーティスト 12乃至 24とする。また、以下、キーヮー ドを抽出する対象となるクラスを抽出対象クラスと称し、それ以外のクラスを比較対象 クラスと称する。
[0082] ステップ S2において、メタデータ抽出部 82は、メタデータの重み付けを行い、メタ データを抽出する。具体的には、メタデータ抽出部 82は、各コンテンツが有するメタ データの頻度分布を統計的尺度で測ることによりメタデータの重み付けを行う。以下 に、メタデータの重み付けを行うための統計的尺度の例について説明する。
[0083] ま *f 、 tfidfUerm frequency with inverse document frequency)を用 ヽる方法にっ ヽ て説明する。
[0084] tfid 用いる場合、あるクラス Ciに属するコンテンツのうち、メタデータ Wjを有するコ ンテンッの出現頻度を ¾·、クラスの総数を n、メタデータ Wjを有するコンテンツが属す るクラスの数を njとしたとき、以下の式(1)により算出される tfid Ci, Wj)力 クラス Ciに おけるメタデータ Wjの重みに設定される。
[0085] tfidKCi, Wj) = fij X {1 + log (n/nj) } · · · ( 1 )
e
[0086] なお、式(1)では、 logの底を e (自然対数)としたが、 tfdifの値そのものはあまり重要 でないため、底を 2または 10としてもよい。
[0087] 例えば、以下の条件(1)乃至(3)が成立している場合、 tfidKCi, Wj)は以下のように 計算される。
[0088] (1)コンテンツ (アーティスト)を分類したクラス数 n=9とし、それぞれのクラスを C乃至 Cとする。
9
(2)メタデータ W (例えば、 [センチメンタル])を有するコンテンツが属するクラスの数 n
1
=8とする。
1
(3)クラス Cの属するコンテンツのうち、メタデータ W有するコンテンツの出現頻度(ク
1 1
ラス Cにおけるメタデータ Wを有するアーティスト数) f =5とする。
1 1 11
[0089] この場合、クラス Cにおけるメタデータ Wの重みである tfidf (C, W )は、以下の式(
1 1 1 1
2)のとおりに算出される。
[0090] tfidKC , W )=f X {1 + log(n/n )} = 5 X {1 + log(9/8)} =5.58891 (2)
1 1 11 1
[0091] すなわち、 tfidKC , W )は、メタデータ Wjの頻度による局所的重み fijに大域的重み {
1 1
l +log(nZnj)}を乗じたものである。なお、 tfidfには、例えば、以下のような特徴または メリットがある。
[0092] ·局所的分布と大域的分布とのバランスを考慮して、メタデータの重要性を測ることが できる。
•重み付けの計算式に様々なノ リエーシヨンがあり、用途に応じて使い分けることがで きる。
•文書分類における特徴語の重み付けで広く用いられている。
[0093] なお、 fijを、クラス Ciに属するコンテンツにおけるメタデータ Wjを有するコンテンツの 割合としたり、 nZnjを (コンテンツの総数 Zメタデータ Wjを有するコンテンツ数)とする ようにしてもよい。
[0094] 次に、相互情報量を用いる方法について説明する。
[0095] 相互情報量を用いる場合、以下の式(3)により算出される、あるクラス Ci内における メタデータ Wjの相互情報量 MI(Ci, Wj)が、クラス Ciにおけるメタデータ Wjの重みに設 定される。
[0096] [数 1] MI (Gi,Wj)
+
Figure imgf000020_0001
. . . ( 3 ) なお、 P()は、括弧内の事象が発生する確率を示す。
[0097] 例えば、以下の条件(1)乃至(5)が成立している場合、 MI(Ci, Wj)は以下のように 計算される。
[0098] (1)コンテンツ (アーティスト)を分類したクラス数 n=9とし、それぞれのクラスを C乃至 Cとする。
9
(2)コンテンツの総数 numA=80とする。
(3)メタデータ W (例えば、 [センチメンタル])を有するコンテンツの総数 aFreqW= 16
1
とする。
(4)クラス Cに属するコンテンツのうち、メタデータ Wを有するコンテンツの数 aFreqW
1 1
C = 3とする。
(5)クラス Cに属するコンテンツの数 aFreqC = l lとする。
1
[0099] この場合、式(3)に出てくる各確率値は、以下の式 (4)乃至(9)のとおりとなる。
[0100] [数 2]
P(Wj) = aFreqW/numA = 16/80 = 0.2 · · · (4)
P(Cj) = aFreqC/numA = 11/80 = 0.1375 · · · (5)
P (Wj, C|) = aFreqWC/numA = 3/80 = 0.0375 · ' · (6)
P(Wj, Ci)
= (aFreqC-aFreqWC)/numA = (11 -3)/80 = 0.1 * * * (7)
Figure imgf000021_0001
= (aFreqW-aFreqWO/numA = (16-3)/80 = 0.1625 * · * (8)
Figure imgf000021_0002
= 1 - {P (Wj, C| ) +P (Wj, C| ) +P (Wj, C| ) } = 0.7 · ' · (9)
[oioi] 従って、クラス cにおけるメタデータ wの重みである MI(C , w )の値は、以下の式(
1 1 1 1
10)に示されるように、式 (4)乃至(9)により算出された値を式(3)に代入することによ り求められる。
[0102] MI(C , W ) = 0.0375 Xlog {0.0375/(0.2X0.1375)1+0.1 X log {0.1/((1-0.2)X0.1
1 1 2 2
375)}+0.1625 X log {0.1625/(0.2 X (1-0.1375)1+0.7 X log {0.7/((1— 0.2) X (1— 0.
2 2
1375))}
= 0.01677···+ (-0.01375···) + (— 0.01400···) +0.01453···
= 0.00355 (10)
[0103] すなわち、相互情報量は、クラス Ciへの帰属を知ることによるメタデータ Wjのェント 口ピーの減少量により計算される。なお、相互情報量には、例えば、以下のような特 徴またはメリットがある。
[0104] ·事象の不確力さを表す情報理論のエントロピーが利用されており、クラス間の差異 が強調されやすい。
•重みの高い語で文書の要約を作成して、文書間の差異を知るような用途に強い。
[0105] また、具体的な計算例の説明は省略するが、この他にも、情報利得比、 X 2乗値、 対数尤度比などを、メタデータの重み付けを行う統計的尺度として用いることも可能 である。 [0106] 情報利得比を用いる場合、以下の式(11)乃至(14)により算出される、あるクラス Ci におけるメタデータ Wjの情報利得比 IGR(Ci, Wj)力 クラス Ciにおけるメタデータ Wjの 重みに設定される。
[0107] [数 3] info(Ci,Wi)— infOdivCGi'Wi)
(11) (Gi, W」) = ~ splits) info(Ci,Wj) = ∑ p(W|Ci) log2p(W|Ci) (12)
morph(C|) info(Gk,Wj: (13)
Figure imgf000022_0001
k)
spl itiCj) =一∑ Og (14) k
):クラス Giに属するコンテンツが有する
メタデータの総数
[0108] すなわち、情報利得比は、クラスを分割する前と後のメタデータ Wjのエントロピーの 減少量と、クラス分割に関するエントロピーとの比である。なお、情報利得比には、例 えば、以下のような特徴またはメリットがある。
[0109] •個々のクラスに対する重みではなぐ分類全体 (例えば、好き嫌いの分類そのもの) に対して偏って分布しているメタデータにより大きな重みが与えられる。
•階層構造になっているデータに対して、例えば、あるディレクトリ以下において特徴 的な語を知るような用途に有用である。
[0110] % 2乗値を用いる場合、以下の式(15)により算出される、あるクラス Ciにおけるメタ データ Wjの χ 2乗値である χ 2(Ci, Wj)力 クラス Ciにおけるメタデータ Wjの重みに設 定される。
[0111] [数 4]
Figure imgf000023_0001
- - · (15) f (Wj, C| |Hdep):クラス Giにおけるメタデータ Wjを有する
コンテンツ数の実数
f (Wj, Gi |Hindep):クラス Giにおけるメタデータ Wjを有する
コンテンツ数の期待値
[0112] すなわち、 % 2乗値は、クラス αに属するコンテンツのうち、メタデータ wjを有するコ ンテンッの数の実数と期待値との差に基づいており、クラス αに対するメタデータ wj の依存性を示している。なお、 % 2乗値には、例えば、以下のような特徴またはメリット がある。
[0113] •統計的期待値からメタデータの共起関係に基づいて重み付けされる。
•インターネット上に存在するコンピュータやネットワークにつけられる識別子であるド メイン別の専門語の抽出などに広く適用される。
[0114] 対数尤度比を用いる場合、以下の式(16)により算出される、あるクラス αにおける メタデータ Wjの対数尤度比である LL(Ci, Wj)力 クラス Ciにおけるメタデータ Wjの重 みに設定される。
[0115] [数 5]
, 、 ― P(W,C|Hdep)
LL(Ci,Wj) = ∑ ∑ log— -— - - - (16)
P(Wj,Ci|Hdep):クラス Cjに属するコンテンツが
メタデータ Wjを有する確率の実数
P(Wj,Ci|Hind ):クラス Gjに属するコンテンツが
メタデータ Wjを有する確率の期待値
[0116] すなわち、対数尤度比は、クラス αに属するコンテンツカ^タデータ wjを有する確率 の実数と期待値との比を示している。なお、対数尤度比には、例えば、以下のような 特徴およびメリットがある。
[0117] •統計的期待値からメタデータの共起関係に基づいて重み付けされる。 •インターネット上に存在するコンピュータやネットワークにつけられる識別子であるド メイン別の専門語の抽出などに広く適用される。
[0118] メタデータ抽出部 82は、以上の方法のうちいずれかの方法を用いて、各クラスにお ける各メタデータの重みを求める。すなわち、あるクラス Aにおけるあるメタデータ Bの 重みは、クラス Aに属するコンテンツとメタデータ Bとの関連度 (クラス Aに属するコン テンッとメタデータ Bにより表される特徴との関連の深さ)、および、他のクラスに属す るコンテンツとメタデータ Bとの関連度とクラス Aに属するコンテンツとメタデータ Bとの 関連度との違 、に基づ 、て求められる。
[0119] メタデータ抽出部 82は、例えば、クラスごとに、設定された重みの値が上位である 所定の数 (例えば、 10)のメタデータ、または、設定された重みが所定の閾値以上の メタデータを抽出する。すなわち、クラスごとに、そのクラスに属するコンテンツの特徴 をより明確に表しているメタデータが抽出される。より詳細に言えば、クラスごとに、そ のクラスに属するコンテンツと関連の深い特徴を表すとともに、他のクラスに属するコ ンテンッと比べてより関連の深い特徴を表すメタデータが抽出される。
[0120] メタデータ抽出部 82は、クラスごとに抽出したメタデータを示す情報を組み合わせ 抽出部 83に供給する。なお、以下、クラスごとに抽出されたメタデータをクラス別重要 メタデータと称する。
[0121] なお、以下、ステップ S2において、図 6に示されるように、プレイリスト選択曲のクラ ス、すなわち、抽出対象クラスからは、 [冬] [恋] [BGM] [ドラマ] [夏 パワフル] [爽ゃ力 ] [ 俳優] [心地よい] [ノリ]の 10個のメタデータが抽出され、プレイリスト非選択曲のクラス 力もは、 [恋] [センチメンタル] [夏] [ノスタルジー] [タイアップ] [心地よい] [ドラマ] [ダンス] [壮大] [ぬくもり]の 10個のメタデータが抽出されたものとして説明する。なお、キーヮ ードの抽出を行わないクラスについては、メタデータの抽出を必ずしも行う必要はな い。
[0122] ステップ S3において、組み合わせ抽出部 83は、メタデータ組み合わせ抽出処理を 行う。ここで、図 7のフローチャートを参照して、組み合わせ抽出部 83により実行され るメタデータ組み合わせ抽出処理の詳細を説明する。
[0123] ステップ S21において、組み合わせ抽出部 83は、論理式 Pを初期化する。 [0124] ステップ S22において、組み合わせ抽出部 83は、比較対象クラスのコンテンツとの 比較が完了していない抽出対象クラスのコンテンツがある力否かを判定する。比較対 象クラスのコンテンツとの比較が完了して ヽな 、抽出対象クラスのコンテンツがあると 判定された場合、処理はステップ S 23に進む。
[0125] ステップ S23において、組み合わせ抽出部 83は、比較が完了していない抽出対象 クラスのコンテンツを 1つ選択する。なお、以下、ステップ S23において選択されたコ ンテンッを抽出対象コンテンツと称する。
[0126] ステップ S24において、組み合わせ抽出部 83は、論理式 Qを初期化する。
[0127] ステップ S25において、組み合わせ抽出部 83は、抽出対象コンテンツとの比較が 完了していない比較対象クラスのコンテンツがあるカゝ否かを判定する。抽出対象コン テンッとの比較が完了していない比較対象クラスのコンテンツがあると判定された場 合、処理はステップ S 26に進む。
[0128] ステップ S26において、組み合わせ抽出部 83は、抽出対象コンテンツとの比較が 完了していない比較対象クラスのコンテンツを 1つ選択する。なお、以下、ステップ S2 6において選択されたコンテンツを比較対象コンテンツと称する。
[0129] ステップ S27において、組み合わせ抽出部 83は、抽出対象コンテンツが有してい て、比較対象コンテンツが有していないメタデータを抽出する。具体的には、組み合 わせ抽出部 83は、抽出対象クラスのクラス別重要メタデータのうち、抽出対象コンテ ンッが有して!/、て、比較対象コンテンツが有して ヽな 、メタデータを抽出する。
[0130] ステップ S28において、組み合わせ抽出部 83は、抽出したメタデータを orで連結し て論理式 Rを生成する。例えば、抽出対象クラスであるプレイリスト選択曲のクラス別 重要メタデータのうち、抽出対象コンテンツであるアーティスト 1が有していて、比較対 象コンテンツであるアーティスト 12が有していないメタデータとして、 [冬] [恋 パヮフ ル] [爽やかさ]および [俳優]が抽出された場合、論理式 Rは、以下の式(17)のように なる。
[0131] R= [冬] or [恋] οιΐパワフル] or [爽やかさ] or [俳優] "' (17)
[0132] なお、論理式 Rにおいて抽出されたメタデータを orで連結することにより、抽出対象 コンテンツと比較対象コンテンツを比較する場合、論理式 Rが満たされる力否かにより 、抽出対象コンテンツと比較対象コンテンツとを区別することができる。
[0133] ステップ S29において、組み合わせ抽出部 83は、論理式 Rを andで連結して論理式
Qに追加する。すなわち、以下の式(18)に示される論理演算が行われる。
[0134] Q Q and R 〜(18)
[0135] その後、処理はステップ S25に戻り、ステップ S25において、抽出対象コンテンツと の比較が完了して ヽな 、比較対象クラスのコンテンツがな 、と判定されるまで、ステツ プ S25乃至 S29の処理が繰り返し実行される。すなわち、抽出対象コンテンツが比較 対象クラス (抽出対象クラス以外のクラス)に含まれる全てのコンテンツと比較され、抽 出対象クラスのクラス別重要メタデータのうち、抽出対象コンテンツが有していて、比 較対象コンテンツが有していないメタデータが抽出され、論理式 Qに追加される。例 えば、比較対象クラスに属するコンテンツが m個あり、抽出対象コンテンツと比較対象 クラスの各コンテンツとを比較した結果を示す餘理式を餘理式 Ri (i= l, 2, · ··, m)と した場合、論理式 Qは、以下の式(19)で表される。
[0136] Q=R1 and R2 and · ·· and Rm · ,· (19)
[0137] より具体的には、例えば、論理式 Qは、以下の式(20)のようになる。
[0138] Q = ([冬] or [恋] orレ ヮフル] or [爽ゃ力、] or [俳優]) and ([冬] or [恋] or [ドラマ] orレヮフル] or [俳優]) and ([冬] orレヮフル] or [爽ゃ力、] or [俳優] or [心地よい] ) and ([冬] or [ドラマ] or [パワフル] or [爽ゃ力、] or [俳優] or [心地よい]) and ([冬] o r [恋] or [ドラマ] orレヮフノレ] or [爽ゃ力、] or [ィ非優]) and ([ィ非優] or [心地よい]) an d ([冬] or [恋] or [爽ゃ力、] or [ィ非優]) and ([パヮフノレ] or [爽ゃ力、] or [ィ非優] or [心 地よい]) and ([冬] or [ドラマ] or [爽やか] or [俳優] or [心地よい]) and ([冬] or [恋] or [ドラマ] or [爽やか] or [俳優] or [心地よい])
ー(20)
[0139] なお、論理式 Qにおいて各論理式 Riを andで連結することにより、抽出対象コンテン ッと比較対象クラスに属するコンテンツとを比較する場合、論理式 Qが満たされるか 否かにより、抽出対象コンテンツと比較対象クラスに属する全てのコンテンツとを区別 することができる。
[0140] ステップ S25において、抽出対象コンテンツとの比較が完了していない比較対象ク ラスのコンテンツがないと判定された場合、すなわち、抽出対象コンテンツと比較対 象クラスの全てのコンテンツとの比較が完了した場合、処理はステップ S30に進む。
[0141] ステップ S30において、組み合わせ抽出部 83は、論理式 Qを簡略する。具体的に は、組み合わせ抽出部 83は、論理式 Qを最大項の積で表した標準和積形に変換す る。例えば、式(20)の最初の項である項 Tl = ([冬] or [恋] orレヮフル] or [爽やか
] or [俳優])は、以下の式(21)のように変換される。
[0142] T1 = ([冬] or [恋] or [パワフル] or [爽やか] or [俳優] or 〜[BGM] or〜[ドラマ] or 〜
[夏] or〜[心地よい] or〜[ノリ]) and ([冬] or [恋] orレヮフル] or [爽やか] or [俳優] or 〜[BGM] or [ドラマ] or〜[夏] or〜[心地よい] or〜[ノリ]) and ([冬] or [恋] or [パヮフ ノレ] or [爽ゃ力、] or [ィ非優] or [BGM] or [ドラマ] or〜[夏] or〜[心地よい] or〜[ノリ])…
(以下、省略) ー(21)
なお、〜は否定を表す記号である。
[0143] 次に、組み合わせ抽出部 83は、標準和積形に変換した論理式 Qを、標準積和形 に変換する。例えば、項 T1は、以下の式(22)のように変換される。
[0144] Tl = ([冬] and [恋] andレヮフル] and [爽ゃ力、] and [俳優] and [BGM] and [ドラ マ] and [夏] and [心地よい] and [ノリ]) or ([冬] and [恋] andレヮフル] and [爽ゃ力、] and [俳優] and [BGM] and [ドラマ] and [夏] and [心地よい] and〜[ノリ]) or ([冬] and
[恋] and [パワフル] and [爽ゃ力、] and [俳優] and [BGM] and [ドラマ] and [夏] and 〜
[心地よ!/、] and [ノリ])' · · (以下、省略) …(22)
[0145] さらに、組み合わせ抽出部 83は、標準積和形に変換した論理式 Qをクワイン'マク ラスキー法などを用いて簡略ィ匕する。例えば、式(20)の論理式 Qは、以下の式(23) のように簡略ィ匕される。
[0146] Q = ([俳優]) or ([冬] and [心地よ 、]) or ([恋] and [心地よ 、]) or ([ドラマ] and [爽 や力] and [心地よい]) or ([パワフル] and [爽ゃ力] and [心地よい]) …(23)
[0147] すなわち、式(23)の論理式 Qにおいて orで連結されている各項は、抽出対象クラ スに属するそれぞれのコンテンツについてコンテンツに関連づけられている 1つ以上 のメタデータを取り出すことにより求められるメタデータの全ての組み合わせのうち、 比較対象クラスに属するそれぞれのコンテンッについてコンテンッに関連づけられて いる 1つ以上のメタデータを取り出すことにより求められるメタデータの組み合わせに は存在しな 、メタデータの組み合わせであって、抽出対象クラスのクラス別重要メタ データの組み合わせを示して 、る。
[0148] ステップ S31において、組み合わせ抽出部 83は、論理式 Qを orで連結して論理式
Pに追加する。すなわち、以下の式(24)に示される論理演算が行われる。
[0149] P P or Q - -- (24)
[0150] その後、処理はステップ S22〖こ戻り、ステップ S22において、比較対象クラスのコン テンッとの比較が完了して ヽな 、抽出対象クラスのコンテンツがな 、と判定されるま で、ステップ S22乃至 S31の処理が繰り返し実行される。すなわち、抽出対象クラス の全てのコンテンツが、比較対象クラスの全てのコンテンツと比較される。例えば、抽 出対象クラスのコンテンツが n個あり、抽出対象クラスの各コンテンツの比較結果によ り求められた論理式 Qを Qi (i= l, 2, · ··, n)とした場合、論理式 Pは、以下の式(25) で表される。
[0151] P = Q1 or Q2 or - " or Qn · '· (25)
[0152] より具体的には、例えば、論理式 Ρは、以下の式(26)のようになる。
[0153] P = ([BGM]) or ([ィ非優]) or ([冬] and [心地よ 、]) or ([恋] and [心地よ 、]) or ([冬] and [ノリ]) or ([恋] and [ノリ]) or ([夏] and [ノリ]) or ([爽や力、] and [ノリ]) or ([ドラマ] a nd [爽ゃ力 ] and [心地よい]) or ([パワフル] and [爽ゃ力] and [心地よい]) …(26)
[0154] なお、論理式 Pにおいて各論理式 Qiを orで連結することにより、論理式 Pが満たされ るカゝ否かにより、抽出対象クラスに属するコンテンツカゝ、比較対象クラスに属するコン テンッかを区別することができる。
[0155] ステップ S22において、比較対象クラスのコンテンツとの比較が完了していない抽 出対象クラスのコンテンツがないと判定された場合、すなわち、抽出対象クラスの全 てのコンテンツについて、比較対象クラスのコンテンツとの比較が完了した場合、処 理はステップ S32に進む。
[0156] ステップ S32において、組み合わせ抽出部 83は、メタデータの組み合わせを抽出 する。具体的には、組み合わせ抽出部 83は、論理式 Pの orで連結されている各項を 、抽出対象クラスの特徴として抽出する。例えば、論理式 Pが式(26)に示される値で ある場合、以下に示す 10組のメタデータの組み合わせが抽出される。
[0157] - [BGM]
' [俳優]
' [冬] and [心地よい]
' [恋] and [心地よい]
' [冬] and [ノリ]
' [恋] and [ノリ]
' [夏] and [ノリ]
' [爽や力 ] and [ノリ]
' [ドラマ] and [爽ゃ力 ] and [心地よい]
^パワフル] and [爽ゃ力、] and [心地よい]
[0158] ステップ S33において、組み合わせ抽出部 83は、メタデータの組み合わせをクライ アント記憶部 23に記憶させて、メタデータ組み合わせ抽出処理は終了する。具体的 には、組み合わせ抽出部 83は、抽出したメタデータの組み合わせを示すデータをク ライアント記憶部 23に記憶させる。また、組み合わせ抽出部 83は、抽出したメタデー タの組み合わせを示す情報をキーワード提示部 84および推薦コンテンツ抽出部 85 に供給する。
[0159] 図 4に戻り、ステップ S4において、キーワード提示部 84は、キーワードを提示する。
具体的には、キーワード提示部 84は、ステップ S3において抽出されたメタデータの 組み合わせのうち 1つ以上を選択する。例えば、以下の基準により、メタデータの組 み合わせが選択される。
[0160] (1)含まれるメタデータの数が最も多い組み合わせ (例えば、ステップ S32において 上述した例の場合、([ドラマ] and [爽ゃ力] and [心地よい])または (Iパワフル] and [爽やか ]and [心地よい]))
(2)含まれるメタデータの数が最も少な 、組み合わせ (例えば、ステップ S32にお ヽ て上述した例の場合、([BGM])または ([俳優]))
(3)ステップ S2において設定されたメタデータの重みの合計値または平均値が最も 大きい組み合わせ (4)抽出対象クラスに属する最も多くのコンテンツが有する組み合わせ
(5)抽出対象クラスに属する特定のコンテンツが有する組み合わせ
(6)全ての組み合わせ
[0161] なお、上述した基準は、例えば、抽出されたメタデータの組み合わせを使用するシ ステムまたはアプリケーションプログラムなどの仕様や目的などに応じて選択される。
[0162] キーワード提示部 84は、クライアント出力部 24を制御して、選択したメタデータをュ 一ザに提示する。例えば、キーワード提示部 84は、選択したメタデータの組み合わ せを表示させるための画像データを生成する。キーワード提示部 84は、生成した画 像データをクライアント出力部 24に供給し、画像データに基づく画像、すなわち、抽 出対象クラスであるプレイリスト選択曲クラスの特徴を表すメタデータ(キーワード)をク ライアント出力部 24に表示させる。
[0163] 図 8は、ステップ S4において、クライアント出力部 24に表示される画面の例を示す 図である。図 8の例においては、上述した図 5に示される表とともに、ポップアップウイ ンドウ 101がクライアント出力部 24に表示される。ポップアップウィンドウ 101には、プ レイリスト選択曲に対する(プレイリスト選択曲クラスの特徴を明確に表す)キーワード として抽出されたメタデータの組み合わせが表示されている。また、ポップアップウイ ンドウ 101には、含まれるメタデータの数が多い組み合わせを優先してメタデータの 組み合わせを抽出したことを通知するメッセージが表示されている。
[0164] さらに、コンテンツを分類する視点としてプレイリスト選択曲が選択されていることが 分力るように、例えば、プレイリスト選択曲の項目の列の背景力 網掛けまたは他の列 と異なる色とされている。また、ポップアップウィンドウ 101に表示されているキーヮー ドの対象となるクラスに属するコンテンツが分力るように、例えば、表の左端のコンテ ンッを示す列のアーティスト 1乃至 11の欄の背景力 網掛けまたは他の列と異なる色 とされている。
[0165] これにより、ユーザは、自分が選択したプレイリストの特徴 (傾向)を簡単に確認こと ができる。
[0166] 図 9は、ステップ S4において、クライアント出力部 24に表示される画面の他の例を 示す図である。図 9においては、実際にプレイリストを作成するための画面上に、抽出 したキーワードを表示する場合の例を示して ヽる。
[0167] タイトルバー 111には、この画面を表示させているソフトウェアの製品名などが表示 される。メニューバー 112には、各種の操作を表示するためのメニューなどが表示さ れる。ウィンドウ 113には、ボリュームを調整したり、動作のモードを切替えたりするた めの GUI (Graphical User Interface)などが表示される。ウィンドウ 114には、コンテン ッの再生、停止、スキップなどを行うための GUIなどが表示される。
[0168] ウィンドウ 115には、プレイリストに選択されている楽曲の一覧などが表示される。
楽曲の一覧には、シリアル No.、タイトル、アーティスト名、演奏時間、楽曲が属するジ ヤンル、楽曲をプレイリストに登録した日時、楽曲の出典元となるアルバム名、出典元 のアルバムにおける楽曲のトラック No.などが表示される。
[0169] ウィンドウ 116には、ウィンドウ 115に表示されているプレイリストの特徴を表すキー ワードなどが表示される。ユーザは、ウィンドウ 116を見ることにより、自分が作成した プレイリストの特徴 (傾向)を簡単に確認することができる。また、ユーザはボタン 121 を押下することにより、ウィンドウ 116に表示されているキーワードに基づいて、例え ば、「パワフルで爽やかで心地よいソング集」のように、適切なプレイリストのタイトルを 自動的に作成させることができる。ボタン 122が押下された場合、タイトルの自動作成 は行われずに、ウィンドウ 116が閉じられる。
[0170] ステップ S5において、キーワード提示部 84は、キーワードを変更するか否かを判定 する。キーワードを変更しないと判定された場合、処理はステップ S6に進む。
[0171] ステップ S6において、コンテンツ分類部 81は、コンテンツを分類する視点を変更す る力否かを判定する。コンテンツを分類する視点を変更しないと判定された場合、処 理はステップ S7に進む。
[0172] ステップ S7において、キーワード提示部 84は、キーワードを決定する力否かを判定 する。キーワードを決定しないと判定された場合、処理はステップ S5に戻る。
[0173] その後、ステップ S5において、キーワードを変更すると判定される力 ステップ S6に おいて、コンテンツを分類する視点を変更すると判定される力 ステップ S7において 、キーワードを決定すると判定されるまで、ステップ S5乃至 S7の処理が繰り返し実行 される。 [0174] ステップ S5において、例えば、ユーザが、提示されているキーワードを変更したいと 考え、ユーザ入力部 21を介してキーワードの変更を指令する情報を入力した場合、 ユーザ入力部 21は、取得した情報をキーワード提示部 84に供給する。キーワード提 示部 84は、キーワードの変更を指令する情報を取得した場合、キーワードを変更す ると判定し、処理はステップ S4に戻る。
[0175] その後、ステップ S4において、ステップ S3において抽出されたメタデータの組み合 わせの中から別の組み合わせが選択され、選択されたメタデータが、抽出対象クラス の特徴を表すキーワードとしてクライアント出力部 24に提示される。
[0176] ステップ S6にお!/、て、例えば、ユーザが、別の視点でコンテンツを分類したクラスの キーワードを抽出したいと考え、ユーザ入力部 21を介して、コンテンツを分類する視 点の変更を指令する情報を入力した場合、ユーザ入力部 21は、取得した情報をコン テンッ分類部 81に供給する。コンテンツ分類部 81は、コンテンツを分類する視点の 変更を指令する情報を取得した場合、コンテンツを分類する視点を変更すると判定し 、処理はステップ S1に戻る。
[0177] その後、ステップ S1において、新たな視点でコンテンツが分類され (例えば、好き嫌 いの視点でコンテンツが分類され)、新たに分類されたクラスについて、ステップ S2 以降の処理が実行される。なお、コンテンツを分類する新たな視点を、ユーザが明示 的に指定するようにしてもよいし、予め決められた設定に基づいて、コンテンツ分類 部 81が自動的に設定するようにしてもよ!、。
[0178] ステップ S7において、例えば、ユーザが、ユーザ入力部 21を介して、キーワードの 決定を指令する情報を入力した場合、ユーザ入力部 21は、取得した情報をキーヮー ド提示部 84に供給する。キーワード提示部 84は、キーワードの決定を指令する情報 を取得した場合、キーワードを決定すると判定し、キーワード抽出処理は終了する。
[0179] なお、キーワードがユーザに提示された後、ユーザからの反応がないアイドル状態 が所定の時間 «続した場合、例えば、自動的に提示するキーワードを変更したり、コ ンテンッを分類する視点を変更するようにしてもょ 、。
[0180] このようにして、ユーザの指定した視点により分類されたクラスの特徴を表すメタデ ータの組み合わせを簡単に抽出することができる。また、抽出されたメタデータの組 み合わせは、上述したように、比較対象クラスに対して抽出対象クラスを特徴づけるも のであり、抽出対象クラスの特徴を正確に表している。さらに、簡単な論理演算により 、メタデータの組み合わせを抽出することができる。さらに、メタデータの組み合わせ 抽出する前に、クラス別重要メタデータを抽出して、メタデータの数を絞り込むことに より、計算量および計算に必要な記憶媒体の記憶容量を削減することができ、例え ば、携帯音楽プレーヤーのような処理能力が低い機器においても、容易に本発明を 適用することができる。
[0181] 次に、図 10のフローチャートを参照して、情報処理システム 1により実行されるコン テンッ推薦処理を説明する。
[0182] ステップ S41において、図 4のステップ S1の処理と同様に、コンテンツが分類される
[0183] ステップ S42において、図 4のステップ S2の処理と同様に、メタデータの重み付け が行われ、クラス別重要メタデータが抽出される。
[0184] ステップ S43において、図 4のステップ S3の処理と同様に、すなわち、図 7のフロー チャートに従って、メタデータ組み合わせ抽出処理が実行される。
[0185] ステップ S44において、推薦コンテンツ抽出部 85は、ユーザに推薦するコンテンツ を抽出する。例えば、推薦コンテンツ抽出部 85は、ステップ S43において抽出された メタデータの組み合わせに基づ 、て、ステップ S 1にお 、て分類したコンテンツにより 構成されるグループとは異なるグループに属するコンテンツの中から、メタデータの 組み合わせが抽出された抽出対象クラスに属するコンテンツと関連のあるコンテンッ をユーザに推薦するコンテンッとして抽出する。
[0186] 具体的には、例えば、新着のコンテンツ (例えば、新着の映画、番組、楽曲など)に 関するメタデータ力 サーバ記憶部 51からクライアント記憶部 23に送信されてきた場 合、クライアント記憶部 23は、送信されてきたメタデータを記憶するとともに、新着のコ ンテンッがあることを示す情報を推薦コンテンツ抽出部 85に供給する。推薦コンテン ッ抽出部 85は、ステップ S43において抽出されたメタデータの組み合わせの中から 、ユーザに推薦するコンテンツを抽出するためのメタデータの組み合わせを、例えば 、上述したステップ S4において説明したものと同様の基準を用いて選択する。推薦コ ンテンッ抽出部 85は、クライアント記憶部 23にメタデータが記憶されている新着のコ ンテンッの中から、選択したメタデータの組み合わせを含むメタデータを有するコンテ ンッを抽出する。推薦コンテンツ抽出部 85は、抽出したコンテンツに関する情報を推 薦コンテンツ提示部 86に供給する。
[0187] また、抽出されたメタデータの組み合わせに基づいて、ユーザに推薦するコンテン ッを抽出するように要求する推薦コンテンッ抽出要求情報を、推薦コンテンッ抽出部 85から、クライアント記憶部 23およびサーバ記憶部 51を介して、サーバ演算部 52に 送信し、サーバ記憶部 51にメタデータが記憶されて 、るコンテンツの中から抽出した メタデータの組み合わせを含むメタデータを有するコンテンツをサーバ演算部 52に 抽出させることち可會である。
[0188] なお、ユーザに推薦するコンテンツを抽出する方法は上述した方法に限定されるも のではなぐ例えば、ベクトル空間法によるマッチングを行ったり、状態行動関数を用 いたりするなど、他の方法を用いて、抽出されたメタデータに基づいて、抽出対象クラ スに属するコンテンツに関するコンテンツ、すなわち、ユーザに推薦するコンテンツを 抽出することも可能である。
[0189] ステップ S45において、推薦コンテンツ提示部 86は、ユーザにコンテンツを推薦す る。具体的には、推薦コンテンツ提示部 86は、クライアント出力部 24を制御して、ス テツプ S44において抽出されたコンテンツを、推薦するコンテンツとしてユーザに提 示する。例えば、推薦コンテンツ提示部 86は、ステップ S44において抽出されたコン テンッをユーザに推薦するための画像データを生成する。推薦コンテンツ提示部 86 は、生成した画像データをクライアント出力部 24に供給し、画像データに基づく画像 、すなわち、ユーザにコンテンツを推薦する画像を表示させる。この画像には、例え ば、推薦するコンテンツに関する情報 (例えば、タイトル、概要など)とともに、コンテン ッを推薦する根拠 (推薦理由)が表示される。コンテンツの推薦理由は、例えば、推 薦するコンテンツの抽出に用 、たメタデータの組み合わせをそのまま表示するように してもょ ヽし、メタデータの組み合わせに基づく推薦文を作成して表示するようにして ちょい。
[0190] ステップ S46において、推薦コンテンツ提示部 86は、推薦するコンテンツを変更す る力否かを判定する。推薦するコンテンツを変更しないと判定された場合、処理はス テツプ S47に進む。
[0191] ステップ S47において、図 4のステップ S47の処理と同様に、コンテンツを分類する 視点を変更する力否かが判定される。コンテンツを分類する視点を変更しな 、と判定 された場合、処理はステップ S48に進む。
[0192] ステップ S48において、推薦コンテンツ提示部 86は、コンテンツを決定するか否か を判定する。コンテンツを決定しないと判定した場合、処理はステップ S46に戻る。
[0193] その後、ステップ S46において、推薦するコンテンツを変更すると判定される力、ス テツプ S47において、コンテンツを分類する視点を変更すると判定される力、ステップ S48において、コンテンツを決定すると半 IJ定されるまで、ステップ S46乃至 S48の処 理が繰り返し実行される。
[0194] ステップ S46において、例えば、ユーザが、推薦されているコンテンツを変更したい と考え、ユーザ入力部 21を介してコンテンツの変更を指令する情報を入力した場合 、ユーザ入力部 21は、取得した情報を推薦コンテンツ提示部 86に供給する。推薦コ ンテンッ提示部 86は、推薦するコンテンツの変更を指令する情報を取得した場合、 推薦するコンテンツを変更すると判定し、処理はステップ S44に戻る。
[0195] その後、ステップ S44において、ステップ S43において抽出されたメタデータの組 み合わせの中力 別の組み合わせが選択され、選択されたメタデータの組み合わせ に基づいて抽出されたコンテンツがユーザに推薦される。
[0196] ステップ S47において、コンテンツを分類する視点を変更すると判定された場合、 処理はステップ S41に戻る。
[0197] その後、ステップ S41において、新たな視点でコンテンツが分類され (例えば、好き 嫌いの視点でコンテンツが分類され)、新たに分類されたクラスについて、ステップ S 2以降の処理が実行される。
[0198] ステップ S48において、例えば、ユーザが、推薦されたコンテンツを気に入り、コン テンッを視聴したいと考え、ユーザ入力部 21を介して、コンテンツの決定を指令する 情報を入力した場合、ユーザ入力部 21は、取得した情報を推薦コンテンツ提示部 8 6に供給する。推薦コンテンツ提示部 86は、コンテンツの決定を指令する情報を取得 した場合、コンテンツを決定すると判定し、コンテンツ推薦処理は終了する。
[0199] その後、推薦コンテンツ提示部 86は、決定されたコンテンツを通知する情報をクラ イアント記憶部 23に供給する。例えば、決定されたコンテンツがクライアント記憶部 2 3に記憶されている場合、クライアント記憶部 23は、そのコンテンツをクライアント出力 部 24に供給する。クライアント出力部 24は、例えば、コンテンツに基づく画像を表示 したり、音声を出力したりする。
[0200] また、例えば、決定されたコンテンツがクライアント記憶部 23に記憶されて 、な 、場 合、クライアント記憶部 23は、決定されたコンテンツの配信を要求する情報を、コンテ ンッ配信部 41に供給する。コンテンツ配信部 41は、要求されたコンテンツを、クライ アント記憶部 23に配信する。クライアント記憶部 23は、配信されたコンテンツを記憶 するとともに、そのコンテンツをクライアント出力部 24に供給する。クライアント出力部 24は、例えば、コンテンツに基づく画像を表示したり、音声を出力したりする。
[0201] なお、コンテンツがユーザに推薦された後、ユーザからの反応がないアイドル状態 が所定の時間継続した場合、例えば、自動的に推薦するコンテンツを変更したり、コ ンテンッを分類する視点を変更したりするようにしてもよい。
[0202] このようにして、ユーザの指定した視点により分類されたクラスの特徴を表すメタデ ータの組み合わせに基づいて抽出されたコンテンツをユーザに推薦するとともに、推 薦する根拠 (理由)をユーザに明確に提示することができる。例えば、ユーザの嗜好( 例えば、ユーザの好き嫌いなど)に基づいた視点により分類されたクラス力も抽出さ れたメタデータの組み合わせを用いることにより、ユーザの嗜好を正確に反映したコ ンテンッをユーザに推薦することができる。また、ユーザの嗜好に基づく視点とは異 なる視点によりコンテンツを分類することにより、 ί列えば、コンテンツ提供佃 jの販売促 進を狙ったコンテンツなど、ユーザの嗜好に拠らな!/ヽコンテンツを推薦することもでき る。
[0203] 次に、図 11乃至図 16を参照して、本発明の第 2の実施の形態について説明する。
[0204] 図 11は、本発明を適用した情報処理システムの第 2の実施の形態を示すブロック 図である。
[0205] 情報処理システム 201は、コンテンツ視聴クライアント 211、コンテクスト検出端末 2 12、コンテンツ配信サーバ 213、および、コンテンツ推薦サーバ 214を含むように構 成される。コンテンツ視聴クライアント 211は、機能的構成の観点に立つと、ユーザ入 力部 221、クライアント演算部 222、クライアント記憶部 223、および、クライアント出力 部 224を含むように構成される。コンテクスト検出端末 212は、機能的構成の観点に 立つと、コンテクスト検出部 231、および、コンテクスト記憶部 232を含むように構成さ れる。コンテンツ配信サーバ 213は、機能的構成の観点に立つと、コンテンツ配信部 241、および、コンテンツメタデータ記憶部 242を含むように構成される。コンテンツ 推薦サーバ 214は、機能的構成の観点に立つと、サーバ記憶部 251、および、サー バ演算部 252を含むように構成される。
[0206] なお、図中、図 1と対応する部分については下 2桁が同じ符号を付してあり、処理が 同じ部分に関しては、その説明は繰り返しになるので省略する。
[0207] クライアント演算部 222は、図 13または図 16を参照して後述するように、クライアント 記憶部 223に記憶されているコンテンツおよびメタデータに関する情報、コンテクスト 検出端末 212から供給されるコンテクスト情報、または、ユーザ入力部 221から供給 されるユーザの操作内容を示す情報に基づいて、コンテンツを所定のクラスに分類 するためのコンテンツ分類ルールを生成するとともに、生成したコンテンツ分類ルー ルの信頼度を示す評価指標を算出する。クライアント演算部 222は、生成したコンテ ンッ分類ルールに基づ ヽて、ユーザなどにより分類する対象として指定されたコンテ ンッを分類する。クライアント演算部 222は、クライアント出力部 224を制御して、コン テンッを分類した結果、コンテンツの特徴などをユーザに提示する。また、クライアント 演算部 222は、生成したコンテンツ分類ルールおよびその評価指標を示す情報をク ライアント記憶部 223に記憶させる。
[0208] クライアント記憶部 223は、コンテンツ分類ルールおよびその評価指標を示す情報 を記憶する。また、クライアント記憶部 223は、コンテンツ分類ルールおよびその評価 指標を示す情報を、必要に応じて、コンテンツ推薦サーバ 214のサーバ記憶部 251 に送信する。
[0209] クライアント出力部 224は、クライアント演算部 222の制御の基に、コンテンツを分類 した結果、コンテンツの特徴などをユーザに提示する。 [0210] サーバ記憶部 251は、クライアント記憶部 223から送信されてくる、コンテンツ分類 ルールおよびその評価指標を示す情報を記憶する。また、サーバ記憶部 251は、サ ーバ演算部 252から供給される、コンテンツ分類ルールおよびその評価指標を示す 情報、または、コンテンツの分類結果を示す情報を記憶する。
[0211] サーバ演算部 252は、サーバ記憶部 251に記憶されている、ユーザの操作内容を 示す情報、および、コンテクスト情報に基づいて、サーバ記憶部 251に記憶されてい るコンテンツを分類するためのコンテンツ分類ルールを生成するとともに、生成したコ ンテンッ分類ルールの信頼度を示す評価指標を算出する。サーバ演算部 252は、 生成したコンテンツ分類ルールに基づ 、て、サーバ記憶部 251に記憶されて 、るコ ンテンッを分類する。サーバ演算部 252は、生成したコンテンツ分類ルールおよびそ の評価指標を示す情報、または、コンテンツの分類結果を示す情報をサーバ記憶部 251に記憶させる。
[0212] ところで、図 11は、機能的構成例を示しているため、各装置間の接続形態、すなわ ち、コンテンッ視聴クライアント 211乃至コンテンッ推薦サーバ 214のそれぞれの間 の接続の形態は特に図示されていないが、その接続の形態は特に限定されない。す なわち、接続の形態は、有線であってもよいし無線であってもよいし、その組み合わ せでもよい。
また、接続の形態は、ネットワークを介在する形態であってもよいし、装置間で直接通 信を行う形態であってもよいし、その組み合わせでもよい。さらに、ネットワークを介在 する形態の場合も、ネットワークの形態は限定されず、例えば、インターネットやイント ラネット等でもよい。この場合も、ネットワークは単一のネットワークに限定されず、複 数のネットワークが存在してもよい。従って、図 11には図示されていないが、実際に は、コンテンツ視聴クライアント 211乃至コンテンツ推薦サーバ 214のそれぞれには、 対応する接続形態に応じた通信部がさらに設けられることになる。
[0213] また、コンテクスト検出端末 212、コンテンツ配信サーバ 213、および、コンテンツ推 薦サーバ 214は、情報処理システム 201において必須な構成要素ではない。すなわ ち、図 13または図 16を参照して後述するように、情報処理システム 201により行われ るコンテンツ分類処理は、コンテンツ視聴クライアント 211のみで実現することが可能 である。
[0214] 図 12は、クライアント演算部 222の機能の構成の例を示すブロック図である。クライ アント演算部 222は、コンテンツ分類部 281、メタデータ抽出部 282、組み合わせ抽 出部 283、コンテンツ分類ルール生成部 291、コンテンツ自動分類部 292、および、 分類結果提示部 293を含むように構成される。なお、図中、図 2と対応する部分につ いては下 2桁が同じ符号を付してあり、処理が同じ部分に関しては、その説明は繰り 返しになるので省略する。
[0215] 組み合わせ抽出部 283は、抽出したメタデータの組み合わせを示す情報を、コンテ ンッ分類ルール生成部 291に供給する。
[0216] コンテンツ分類ルール生成部 291は、図 13を参照して後述するように、コンテンツ 分類ルールを生成するとともに、生成したコンテンツ分類ルールの評価指標を算出 する。
コンテンツ分類ルール生成部 291は、生成したコンテンツ分類ルール、および、その 評価指標を示す情報を、コンテンツ自動分類部 292に供給するとともに、クライアント 記憶部 223に記憶させる。
[0217] コンテンツ自動分類部 292は、ユーザ入力部 221を介してユーザが入力した、自動 分類する対象となるコンテンツを指定する情報を、ユーザ入力部 221から取得する。 また、コンテンツ自動分類部 292は、新着または推薦コンテンツがあることを示す情 報をクライアント記憶部 223から取得する。コンテンツ自動分類部 292は、図 13また は図 16を参照して後述するように、コンテンツ分類ルールに基づいて、ユーザにより 指定されたコンテンツ、または、クライアント記憶部 223から通知された新着または推 薦コンテンッなどの分類する対象となるコンテンッを所定のクラスに分類する。コンテ ンッ自動分類部 292は、コンテンツを分類した結果を示す情報を分類結果提示部 2 93に供給する。
[0218] 分類結果提示部 293は、コンテンツを分類した結果、コンテンツの特徴などをユー ザに提示するように、クライアント出力部 224を制御する。
[0219] 次に、図 13乃至図 16を参照して、情報処理システム 201により実行される処理を 説明する。 [0220] まず、図 13のフローチャートを参照して、情報処理システム 201により実行されるコ ンテンッ分類処理の第 1の実施の形態を説明する。なお、この処理は、例えば、ユー ザ入力部 221を介して、ユーザがコンテンツ分類処理の開始の指令を入力したとき、 開始される。
[0221] ステップ S101において、コンテンツ分類部 281は、上述した図 4のステップ S1と同 様の処理により、ユーザにより指定された視点に基づいて、コンテンツを複数のクラス に分類し、分類したコンテンツのクラスに関する情報をメタデータ抽出部 282に供給 する。
[0222] 図 14は、図 3に示されるコンテンツを分類するための視点の例を示す図である。な お、図 14に示される表には、図 3に示される表と比較して、分類の視点の項目が追カロ されている。また、図 14には、コンテンツを分類する視点として、ユーザの好き嫌い、 および、コンテンツが格納されているフォルダの 2つの例が示されている。ユーザの好 き嫌いの視点については、図 5を参照して上述した例と同様である。
[0223] なお、以下、コンテンツが格納されるフォルダを「ポップス」および「バラード」の 2種 類とした場合の例について説明する。例えば、ユーザは、コンテンツ (いまの例の場 合、楽曲)の曲調などに基づいて、各コンテンツを「ポップス」または「バラード」のフォ ルダに分類して管理する。従って、コンテンツが格納されているフォルダの視点に基 づいてコンテンツを分類する場合、各コンテンツは、「ポップス」「バラード」の 2つのク ラスに分類される。
[0224] また、説明を簡単にするために、図 5の例において、「プレイリスト選択曲」のクラス に属するコンテンツが、図 14の例において、「ポップス」のクラスに属し、すなわち、「 ポップス」のフォルダに格納され、図 5の例において、「プレイリスト非選択曲」のクラス に属するコンテンツが、図 14の例において、「バラード」のクラスに属し、すなわち、「 バラード」のフォルダに格納されているものとする。
[0225] なお、以下では、ステップ S101において、コンテンツを分類する視点としてコンテン ッが格納されているフォルダがユーザにより指定された場合の例について説明する。
[0226] ステップ S102において、メタデータ抽出部 282は、上述した図 4のステップ S2と同 様の処理により、メタデータの重み付けを行い、クラスごとに、クラス別重要メタデータ を抽出する。メタデータ抽出部 282は、抽出したクラス別重要メタデータを示す情報 を組み合わせ抽出部 283に供給する。
[0227] なお、以下、ステップ S102において、図 15に示されるように、ポップスのクラスから は、 [冬] [恋] [BGM] [ドラマ] [夏] [パワフル] [爽やか] [俳優] [心地よい] [ノリ]の 10個のメ タデータがクラス別重要メタデータとして抽出され、ノラードのクラスからは、 [恋] [セン チメンタル] [夏] [ノスタルジー] [タイアップ] [心地よい] [ドラマ] [ダンス] [壮大] [ぬくもり] の 10個のメタデータがクラス別重要メタデータとして抽出されたものとして説明する。
[0228] ステップ S103において、組み合わせ抽出部 283は、上述した図 4のステップ S3と 同様の処理により、各クラスについて、メタデータ組み合わせ抽出処理を行う。組み 合わせ抽出部 283は、抽出したメタデータの組み合わせを示すデータを、クライアン ト記憶部 223に記憶させるとともに、コンテンツ分類ルール生成部 291に供給する。
[0229] なお、以下、ポップスのクラスからは、以下に示す 10組のメタデータの組み合わせ が抽出されとものとして説明する。
[0230] - [BGM]
' [俳優]
' [冬] and [心地よい]
' [恋] and [心地よい]
' [冬] and [ノリ]
' [恋] and [ノリ]
' [夏] and [ノリ]
' [爽や力 ] and [ノリ]
' [ドラマ] and [爽ゃ力 ] and [心地よい]
^パワフル] and [爽ゃ力、] and [心地よい]
[0231] また、以下、バラードのクラスからは、以下に示す 10組のメタデータの組み合わせ が抽出されとものとして説明する。
[0232] ' [夏] and [ノスタルジー]
' [ノスタルジー] and [タイアップ]
' [ドラマ] and [壮大] ' [心地よい] and [壮大]
' [ぬくもり] and [壮大]
' [恋] and [夏] and [ドラマ]
' [センチメンタル] and [夏] and [ドラマ]
' [恋] and [ノスタルジー] and [ダンス]
' [センチメンタル] and [タイアップ] and [ドラマ]
' [夏] and [タイアップ] and [ドラマ]
[0233] ステップ S104において、コンテンツ分類ルール生成部 291は、コンテンツ分類ル ールを生成する。具体的には、まず、コンテンツ分類ルール生成部 291は、ステップ S103において抽出されたメタデータの組み合わせを条件部(If¾)、そのメタデータ の組み合わせが抽出されたクラスを結論部 (then部)とするコンテンツ分類ルールを、 抽出されたメタデータの組み合わせごとに生成する。例えば、ポップスのクラスを結論 部とするコンテンツ分類ルール(以下、単に、ポップスのクラスのコンテンツ分類ルー ルとも表現する)として、以下の Rpl乃至 RplOの 10個のコンテンツ分類ルールが生成 される。
[0234] ノレ一ノレ Rpl: if ([BGM] = true) then (クラス =「ポップス」 )
ルール Rp2 :if ([俳優] = true) then (クラス =「ポップス」)
ルール Rp3 :if ([冬] = true and [心地よい] = true) then (クラス =「ポップス」) ルール Rp4:if ([恋] = true and [心地よい] = true) then (クラス =「ポップス」) ルール Rp5 :if ([冬] = true and [ノリ] = true) then (クラス =「ポップス」)
ルール Rp6 :if ([恋] = true and [ノリ] = true) then (クラス =「ポップス」)
ルール Rp7 :if ([夏] = true and [ノリ] = true) then (クラス =「ポップス」)
ルール Rp8 :if ([爽や力 ] = true and [ノリ] = true) then (クラス =「ポップス」) ノレ一ノレ Rp9 : if ([ドラマ] = true and [爽ゃ力、] = true and [心地よい] = true) then (クラ ス=「ポップス」)
ノレ一ノレ RplO : if ([パヮフノレ] = true and [爽ゃ力、] = true and [心地よい] = true) then ( クラス =「ポップス」)
[0235] 例えば、ルール Rplは、あるコンテンツが [BGM]というメタデータを有している場合、 そのコンテンツが分類されるクラスは「ポップス」であると 、うルールを表して 、る。
[0236] 同様に、ノ《ラードのクラスを結論部とするコンテンツ分類ルール (以下、単に、バラ ードのクラスのコンテンツ分類ルールとも表現する)として、以下の Rbl乃至 RblOの 10 個のコンテンツ分類ルールが生成される。
[0237] ルール Rbl: if ([夏] = true and [ノスタルジー] = true) then (クラス =「バラード」 )ルール Rb2 : if ([ノスタルジー] = true and [タイアップ] = true) then (クラス =「バラード」) ルール Rb3 :if ([ドラマ] = true and [壮大] = true) then (クラス =「バラード」) ルール Rb4: if ([心地よい] = true and [壮大] = true) then (クラス =「バラード」) ルール Rb5 : if ([ぬくもり] = true and [壮大] = true) then (クラス =「バラード」) ノレ一ノレ Rb6 :if ([恋] = true and [夏] = true and [ドラマ] = true) then (クラス =「バラード 」)
ルール Rb7 : if ([センチメンタル] = true and [夏] = true and [ドラマ] = true) then (クラ ス=「バラード」)
ルール Rb8 :if ([恋] = true and [ノスタルジー] = true and [ダンス] = true) then (クラス =「バラード」)
ルール Rb9 : if ([センチメンタル] = true and [タイアップ] = true and [ドラマ] = true) th en (クラス =「バラード」)
ルール RblO : if ([夏] = true and [タイアップ] = true and [ドラマ] = true) then (クラス = 「バラード」)
[0238] なお、以下、コンテンツ分類ルールの条件部に示されるメタデータの組み合わせを 、単に、コンテンツ分類ルールのメタデータの組み合わせとも称する。また、以下、コ ンテンッ分類ルールの結論部に示されるクラスを、単に、コンテンツ分類ルールのク ラスとち称する。
[0239] 次に、コンテンツ分類ルール生成部 291は、各コンテンツ分類ルールの評価指標 を算出する。
[0240] ここで、評価指標の算出方法の例について説明する。
[0241] 第 1の方法は、以下の式(27)に示されるように、コンテンツ分類ルールのメタデー タの組み合わせに含まれるメタデータの重みの合計値を評価指標とする方法である [0242] EI=∑Weight(Wi) - -- (27)
[0243] なお、 EIは、評価指標を表し、 Wiは、コンテンツ分類ルールのメタデータの組み合 わせに含まれるメタデータを表し、 Weight(Wi)は、コンテンツ分類ルールのクラスにお けるメタデータ Wiの重みを表す。
[0244] 例えば、ルール Rp3の場合、クラス「ポップス」におけるメタデータ [冬]の重みとクラス 「ポップス」におけるメタデータ [心地よ!/、]の重みとを合計した値が評価指標となる。
[0245] 第 1の方法においては、コンテンツ分類ルールのメタデータの組み合わせに含まれ るメタデータの数が多いほど、または、コンテンツ分類ルールのメタデータの組み合 わせに含まれるメタデータの重みが大きいほど、評価指標が大きくなる。すなわち、コ ンテンッ分類ルールのメタデータの組み合わせが、コンテンッ分類ルールのクラスに 属するコンテンツとの関連が深いほど、換言すれば、コンテンツ分類ルールのメタデ ータの組み合わせが、コンテンッ分類ルールのクラスに属するコンテンッの特徴を表 す度合いが大きいほど、評価指標が大きくなる。さらに換言すれば、コンテンツ分類 ルールのクラスにぉ 、て、コンテンツ分類ルールのメタデータの組み合わせを含むメ タデータを有するコンテンツの占める割合が高いほど、評価指標が大きくなる。
[0246] 第 2の方法は、以下の式(28)に示されるように、コンテンツ分類ルールのメタデー タの組み合わせに含まれるメタデータの重みの平均値を評価指標とする方法である
[0247] EI={∑Weight(Wi)}÷Nc · '· (28)
[0248] なお、 Ncは、コンテンツ分類ルールのメタデータの組み合わせに含まれるメタデー タの数を表す。
[0249] 例えば、ルール Rp3の場合、クラス「ポップス」におけるメタデータ [冬]の重みとクラス 「ポップス」におけるメタデータ [心地よい]の重みとを合計した値を、条件部に含まれ るメタデータの数である 2で割った値が評価指標となる。
[0250] 第 2の方法においては、コンテンツ分類ルールのメタデータの組み合わせに含まれ るメタデータの重みが大きいほど、評価指標が大きくなる。すなわち、コンテンツ分類 ルールの条件部に含まれる個々のメタデータ力 コンテンツ分類ルールのクラスに属 するコンテンツとの関連が深いほど、換言すれば、コンテンツ分類ルールの条件部に 含まれる個々のメタデータ力 コンテンツ分類ルールのクラスに属するコンテンツの特 徴を表す度合いが大きいほど、評価指標が大きくなる。さらに換言すれば、コンテン ッ分類ルールのクラスにぉ 、て、コンテンツ分類ルールのメタデータの組み合わせに 含まれるメタデータのうち少なくとも 1つを有するコンテンツの占める割合が高いほど、 評価指標が大きくなる。
[0251] 第 3の方法は、以下の式(29)に示されるように、全てのコンテンツのうちコンテンツ 分類ルールの条件部を満たすコンテンツの占める割合、換言すれば、全てのコンテ ンッのうちコンテンツ分類ルールのメタデータの組み合わせに含まれるメタデータを 有するコンテンツの占める割合、いわゆる、被覆率を評価指標とする方法である。な お、ここで、全てのコンテンツとは、ステップ S 1において、各クラスに分類されたコンテ ンッのことである。
[0252] EI = Count(Condition) ÷ N - - - (29)
[0253] なお、 Count(Condition)は、コンテンツ分類ルールの条件部を満たすコンテンツの 個数を表し、 Nは、コンテンツの全個数を表す。
[0254] 例えば、ルール Rp3の場合、全コンテンツのうち、メタデータ [冬]とメタデータ [心地よ
V、]を有するコンテンツの占める割合が評価指標となる。
[0255] 第 3の方法においては、全コンテンツのうち、コンテンツ分類ルールの条件部を満 たすコンテンツの占める割合が高いほど、評価指標が大きくなる。
[0256] 第 4の方法は、以下の式(30)に示されるように、コンテンツ分類ルールのクラスに 属するコンテンツのうち、コンテンツ分類ルールの条件部を満たすコンテンツの占め る割合、いわゆる、再現率 (Recall)を評価指標とする方法である。
[0257] EI = Recall = Count(Condition & Decision) ÷Count(Decision) · · · dO)
[0258] なお、 Count(Condition & Decision)は、コンテンツ分類ルールのクラスに属するコン テンッのうち、コンテンツ分類ルールの条件部を満たすコンテンツの個数を表し、 Cou nt(Decision)は、コンテンッ分類ルールのクラスに属するコンテンッの個数を表す。
[0259] 例えば、ルール Rp3の場合、クラス「ポップス」に属するコンテンツのうち、メタデータ [ 冬]とメタデータ [心地よい]を有するコンテンツの占める割合が評価指標となる。 [0260] 第 4の方法においては、コンテンツ分類ルールのクラスに属するコンテンツが、コン テンッ分類ルールのメタデータの組み合わせを含むメタデータを有する割合が高くな るほど、評価指標が大きくなる。すなわち、コンテンツ分類ルールのメタデータの組み 合わせが、コンテンツ分類ルールのクラスに属するコンテンツと関連が深いほど、換 言すれば、コンテンツ分類ルールのメタデータの組み合わせ力 コンテンツ分類ルー ルのクラスに属するコンテンツの特徴を表す度合いが大きいほど、評価指標が大きく なる。
[0261] 第 5の方法は、以下の式(31)に示されるように、コンテンツ分類ルールの条件部を 満たすコンテンツのうち、コンテンツ分類ノレ一ノレのクラスに属するコンテンツの占める 割合、いわゆる、適合率 (Precision)を評価指標とする方法である。
[0262] EI = Precision =し ount (し onmtion & Decision) ÷し ount (し ondition) · " Κά ΐ )
[0263] 例えば、ルール Rp3の場合、メタデータ [冬]とメタデータ [心地よ ヽ]を有するコンテン ッのうち、クラス「ポップス」に属するコンテンツの占める割合が評価指標となる。
[0264] 第 5の方法においては、コンテンツ分類ルールのメタデータの組み合わせを含むメ タデータを有するコンテンツ力 コンテンツ分類ルールのクラスに属する割合が高くな るほど、評価指標が大きくなる。すなわち、コンテンツ分類ルールのメタデータの組み 合わせが、コンテンツ分類ルールのクラスに属するコンテンツと関連が深いほど、換 言すれば、コンテンツ分類ルールのメタデータの組み合わせ力 コンテンツ分類ルー ルのクラスに属するコンテンツの特徴を表す度合いが大きいほど、評価指標が大きく なる。
[0265] 第 6の方法は、以下の式(32)に示されるように、式(30)により求められる再現率 (R ecall)と式(31)により求められる適合率(Precision)との調和平均、いわゆる、 F値を 評価指標とする方法である。
[0266] EI = F = 2 ÷ (1 ÷ Recall + 1 ÷ Precision) · , · (32)
[0267] 第 6の方法においては、コンテンツ分類ルールのメタデータの組み合わせを含むメ タデータを有するコンテンツの集合と、コンテンツ分類ルールのクラスとが近くなるほ ど、評価指標が大きくなる。
[0268] 第 7の方法は、以下の式(33)に示されるように、コンテンツ分類ルールの条件部と 結論部をそれぞれ 1つの事象としてとらえ、条件部の事象が発生する確率と結論部 の事象が発生する確率の依存性を評価指標とする方法である。
[0269] EI = Count (し ondition & Decision)―し ount (し ondition) X Count(Decision) ÷ N
•••(33)
[0270] なお、式(33)は、以下のようにして導出される。
[0271] Prob(Condition) = Count(Condition) ÷ N - - - (34)
Prob(Decision) = L,ount(Decision) ÷ N · · ·、35)
Prob(Condition & Decision) = Count(Condition & Decision)÷N · · · (36) [0272] なお、 Prob(Condition)は、コンテンツ分類ルールの条件部の事象が発生する確率 、 Prob(Decision)は、コンテンツ分類ルールの結論部の事象が発生する確率、 Prob(C ondition & Decision)は、コンテンツ分類ルールの条件部の事象と結論部の事象が同 時に発生する確率を表す。
[0273] 式(34)乃至式(36)より、コンテンツ分類ルールの条件部の事象が発生する確率と 結論部の事象が発生する確率の依存性 Rは、以下の式(37)により求められる。
[0274] R=Prob(Condition & Decision)— Prob(Condition) X Prob(Decision)
= Count(C ondition & Decision) ÷N—Count(Condition) X Count(Decision) ÷ N2
- (37)
[0275] そして、コンテンツの全個数 Nは、全てのコンテンツ分類ルールに共通な値であるの で、依存性 Rにコンテンツの全個数 Nを乗じることにより、式(33)が導出される。
[0276] 例えば、ルール Rp3の場合、クラス「ポップス」に属し、かつ、メタデータ [冬]とメタデ ータ [心地よ 、]を有するコンテンツの数から、メタデータ [冬]とメタデータ [心地よ 、]を 有するコンテンツの数 Xクラス「ポップス」に属するコンテンツの数 ÷Nを引いた値が 評価指標となる。
[0277] 第 7の方法においては、コンテンツが、コンテンツ分類ルールのメタデータの組み合 わせを含むメタデータを有する確率と、コンテンツ分類ルールのクラスに属する確率 の依存性が高いほど、評価指標が大きくなる。すなわち、コンテンツが、コンテンツ分 類ルールのメタデータの組み合わせを含むメタデータを有する事象と、コンテンツ分 類ルールのクラスに属する事象との関連が深いほど、評価指標が大きくなる。また、コ ンテンッ分類ルールの条件部の事象と結論部の事象とが独立して 、る場合、以下の 式(38)が成り立つので、評価指標は最小の 0となる。
[0278] Prob(Condition & Decision) = Prob(Condition) X Prob(Decision) · · · (38)
[0279] このように、評価指標は、コンテンツ分類ルールの条件部に含まれるメタデータまた はその組み合わせ力 結論部のクラスに属するコンテンツが有するメタデータに出現 する度合いを示す。特に、第 1、第 2、第 4乃至第 7の方法を用いて算出した評価指 標は、コンテンツ分類ルールの条件部に含まれるメタデータの組み合わせと、結論部 のクラスに属するコンテンツとの関連度を表す。すなわち、第 1、第 2、第 4乃至第 7の 方法を用いて算出した評価指標は、コンテンツ分類ルールの条件部に含まれるメタ データの組み合わせが、結論部のクラスに属するコンテンツの特徴を表す度合いを 示す。
[0280] なお、以下、評価指標を算出する方法として第 5の方法を採用した場合、すなわち 、評価指標を F値とする場合の例について説明する。また、以下、各コンテンツ分類 ルールの評価指標 EIが以下の値となるものとして説明する。
EI(Rpl) = = 0.429
EI(Rp2) = = 0.240
EI(Rp3) = =0.167
EI(Rp4) = :0.333
EI(Rp5) = =0.167
EI(Rp6) = =0.167
EI(Rp7) = =0.167
EI(Rp8) = =0.167
EI(Rp9) = =0.167
EI(Rb勝 = 0.167
EI(Rbl) = = 0.267
EI(Rb2) = = 0.267
EI(Rb3) = = 0.267
EI(Rb4) = :0.333 EI(Rb5) = 0.143
EI(Rb6) = 0.267
EI(Rb7) = 0.143
EI(Rb8) = 0.143
EI(Rb9) = 0.143
EI(RblO) = 0.143
[0282] コンテンツ分類ルール生成部 291は、生成したコンテンツ分類ルール、および、各 コンテンツ分類ルールの評価指標を示す情報を、クライアント記憶部 223に記憶させ るとともに、コンテンツ自動分類部 292に供給する。
[0283] ステップ S105において、コンテンツ自動分類部 292は、自動分類するコンテンツを 設定する。具体的には、例えば、ユーザが、ユーザ入力部 221を介して、クライアント 記憶部 223に記憶されて 、るコンテンツの中から、まだ各クラスに分類されて 、な!/ヽ コンテンツ (例えば、ユーザが新たに購入した楽曲、映画、新たに録画した番組など) を 1つ以上を自動分類する対象として選択した場合、ユーザ入力部 221は、ユーザ により選択されたコンテンツを示す情報をコンテンツ自動分類部 292に供給する。コ ンテンッ自動分類部 292は、ユーザにより選択されたコンテンツを自動分類する対象 に定する。
[0284] また、例えば、新着コンテンツ (例えば、新着の映画、番組、楽曲など)に関するメタ データ、または、何らかの推薦アルゴリズムにより決定した推薦コンテンツに関するメ タデータが、サーバ記憶部 251からクライアント記憶部 223に送信されてきた場合、ク ライアント記憶部 223は、送信されてきたメタデータを記憶するとともに、新着または 推薦コンテンツがあることを示す情報をコンテンツ自動分類部 292に供給する。コン テンッ自動分類部 292は、それらの新着または推薦コンテンツを自動分類する対象 に設定する。
[0285] ステップ S106において、コンテンツ自動分類部 292は、コンテンツを自動分類する 。具体的には、コンテンツ自動分類部 292は、コンテンツ分類ルールに基づいて、ス テツプ S105において設定した各コンテンツを各クラスに分類し、分類した結果を示 す情報を分類結果提示部 293に供給する。 [0286] 例えば、コンテンツ自動分類部 292は、自動分類する対象となる各コンテンツにつ いて、そのコンテンツが有するメタデータの組み合わせ力 条件部のメタデータの組 み合わせを含むコンテンツ分類ルール (以下、コンテンツに適合するコンテンツ分類 ルールとも表現する)を抽出する。すなわち、コンテンツ自動分類部 292は、自動分 類する対象となる各コンテンツについて、そのコンテンツに適合するコンテンツ分類 ルールを抽出する。コンテンツ自動分類部 292は、抽出されたコンテンツ分類ルール を結論部のクラスごとに分類し、その数を集計する。コンテンツ自動分類部 292は、 適合したコンテンツ分類ルールの数が最大となるクラスに、そのコンテンツを分類する
[0287] 例えば、 [BGM] [恋] [夏] [ノリ] [心地よ 、] [ノスタルジー] [ダンス]の 7個のメタデータを 有するコンテンツ Xについて考えた場合、コンテンツ Xは、 RP1、 RP4、 Rp7、 Rbl、 Rb8 の 5つのコンテンツ分類ルールに適合する。そして、適合したコンテンツ分類ルール の数を、結論部のクラスごとに集計すると、結論部が「ポップス」となるコンテンツ分類 ルールの数が 3となり、結論部が「バラード」となるコンテンツ分類ルールの数が 2とな る。
従って、この場合、結論部が「ポップス」となるコンテンツ分類ルールの数が最大とな るため、コンテンツ Xはクラス「ポップス」に分類される。
[0288] また、例えば、自動分類する対象となる各コンテンツについて、適合するコンテンツ 分類ルールのうち、評価指標が最大となるコンテンツ分類ルールのクラスにそのコン テンッを分類するようにしてもょ 、。
[0289] 例えば、上述したコンテンツ Xの場合、コンテンツ Xが適合する各コンテンツ分類ノレ ールの評価指標は、以下のとおりとなる。
[0290] EI(Rpl) = 0.429
EI(Rp4) = 0.333
EI(Rp7) = 0.167
EI(Rbl) = 0.267
EI(Rb8) = 0.143
[0291] 従って、この場合、コンテンツ Xは、評価指標が最大の 0.429となるコンテンツ分類ル ール Rplの結論部のクラス「ポップス」に分類される。
[0292] さらに、例えば、自動分類する対象となる各コンテンツについて、適合するコンテン ッ分類ルールの評価指標を、結論部のクラスごとに集計し、評価指標の合計値が最 大となるクラスにそのコンテンツを分類するようにしてもょ 、。
[0293] 例えば、上述したコンテンツ Xの場合、コンテンツ Xが適合する各コンテンツ分類ノレ ールの評価指標を、結論部のクラスごとに集計すると、以下のとおりとなる。
[0294] ∑ EI(Rp) = EI(Rpl) + EI(Rp4) + EI(Rp7) = 0.929 · '· (39)
∑ EI(Rb) = EI(Rbl) + EI(Rb8) = 0.410 · · · (40)
[0295] なお、∑EI(Rp)は、コンテンツ Xが適合するコンテンツ分類ルールのうち、結論部が クラス「ポップス」であるコンテンツ分類ルールの評価指標の合計値を表し、∑ EI(Rb) は、コンテンツ Xが適合するコンテンツ分類ルールのうち、結論部がクラス「バラード」 であるコンテンツ分類ルールの評価指標の合計値を表す。
[0296] 従って、この場合、コンテンツ Xは、評価指標の合計値が最大となるクラス「ポップス
」に分類される。
[0297] また、例えば、自動分類する対象となる各コンテンツについて、適合するコンテンツ 分類ルールの評価指標の平均値が最大となるクラスに分類するようにしてもよい。
[0298] 例えば、上述したコンテンツ Xの場合、コンテンツ Xが適合するコンテンツ分類ノレ一 ルの評価指標の、結論部のクラスごとの平均値は、以下のとおりとなる。
[0299] Elav(Rp) =∑ EI(Rp) ÷ 3 = 0.929 ÷ 3 = 0.309 (41)
Elav(Rb) =∑ EI(Rb) ÷ 2 = 0.410 ÷ 2 = 0.205 · · · (42)
[0300] なお、 Elav(Rp)は、コンテンツ Xが適合するコンテンツ分類ルールのうち、結論部が クラス「ポップス」であるコンテンツ分類ルールの評価指標の平均値を表し、 Elav(Rp) は、コンテンツ Xが適合するコンテンツ分類ルールのうち、結論部がクラス「バラード」 であるコンテンツ分類ルールの評価指標の平均値を表す。
[0301] 従って、この場合、コンテンツ Xは、評価指標の平均値が最大となるクラス「ポップス 」に分類される。
[0302] なお、各コンテンツをそれぞれただ 1つのクラスに分類するのではなぐ各コンテン ッを 1つ以上のクラスに分類するとともに、そのコンテンツがそのクラスに適合する度 合 ヽを示す適合度を設定するようにしてもよ!ヽ。
[0303] 例えば、自動分類する対象となる各コンテンツについて、適合したコンテンツ分類 ルールの結論部に含まれる全てのクラスにコンテンツを分類したり、評価指標の合計 値、評価指標の平均値、クラス内での評価指標の最大値などが、所定の閾値以上と なる全てのクラスにそのコンテンツを分類するようにしてもよい。そして、例えば、コン テンッが分類された各クラスにっ ヽて、適合したコンテンツ分類ルールのうち結論部 がそのクラスであるコンテンツ分類ルールの数、または、適合したコンテンツ分類ルー ルのうち結論部がそのクラスであるコンテンツ分類ルールの評価指標の合計値、平 均値、あるいは、最大値などを適合度として設定するようにしてもよい。
[0304] 例えば、上述したコンテンツ Xの場合、適合したコンテンツ分類ルールの結論部に 含まれる「ポップス」と「バラード」の両方のクラスにコンテンッ Xを分類するとともに、ク ラス「ポップス」の評価指標の合計値である 0.929を、コンテンツ Xのクラス「ポップス」 に対する適合度として設定し、クラス「バラード」の評価指標の合計値である 0.410を、 コンテンツ Xのクラス「バラード」に対する適合度として設定するようにしてもよ!、。
[0305] ステップ S107において、分類結果提示部 293は、 自動分類の結果を提示する。具 体的には、分類結果提示部 293は、クライアント出力部 224を制御して、ステップ S1 06にお 、てコンテンツを自動分類した結果をユーザに提示する。
[0306] 例えば、分類結果提示部 293は、クラインアント出力部 224を制御して、以下の情 報を表示させる。
[0307] コンテンツ X:「ポップス」 キーワード: BGM,恋,ノリ,心地よい
[0308] これにより、ユーザは、コンテンツ Xが、メタデータ(いまの場合、ユーザに対しては キーワードとして提示されて 、る) [BGM] [恋] [ノリ] [心地よ 、]に基づ 、て、グループ「 ポップス」に分類されたことを知ることができる。
[0309] なお、例えば、コンテンツ Xを実際に分類する前に、この情報をユーザに提示し、コ ンテンッ Xをグループ「ポップス」に分類することをユーザに推薦するようにしてもよい
[0310] また、各コンテンツが有するメタデータの組み合わせのうち、コンテンツ分類ルール の条件部と一致するメタデータの組み合わせに含まれるメタデータ、および、条件部 に一致したコンテンツ分類ルールの結論部のクラスに基づ ヽて、コンテンツの特徴を ユーザに対して提示するようにしてもよい。例えば、コンテンツが分類されたクラス名、 コンテンツの分類に用いたメタデータに基づいて、コンテンツの特徴をユーザに対し て提示するようにしてもょ ヽ。
[0311] 例えば、上述したコンテンツ Xの場合、分類結果提示部 293は、クラインアント出力 部 224を制御して、コンテンツ Xの特徴として、以下の情報を表示させる。
[0312] コンテンツ X: BGM風の「ポップス」、ノスタルジー感のある夏の「バラード」
[0313] これにより、ユーザは、コンテンツ Xの特徴を、容易かつ具体的に知ることができる。
なお、この例は、適合度を設定して、 1つ以上のクラスにコンテンツを分類する場合の 例を示している。
[0314] ステップ S108において、コンテンツ自動分類部 292は、自動分類するコンテンツを 変更する力否かを判定する。例えば、ユーザが、他のコンテンツを自動分類したいと 考え、ユーザ入力部 221を介して、自動分類するコンテンツの変更を指令する情報 を入力した場合、ユーザ入力部 221は、取得した情報をコンテンツ自動分類部 292 に供給する。コンテンツ自動分類部 292は、自動分類するコンテンツの変更を指令 する情報を取得した場合、自動分類するコンテンツを変更すると判定し、処理はステ ップ S105に戻る。その後、ステップ S108において、自動分類するコンテンツを変更 しないと判定されるまで、ステップ S 105乃至 S 108の処理が繰り返し実行され、ユー ザにより指定されたコンテンツが自動分類される。
[0315] ステップ S108において、自動分類するコンテンツを変更しないと判定された場合、 処理はステップ S 109に進む。
[0316] ステップ S109において、コンテンツ分類部 281は、上述した図 4のステップ S6の処 理と同様に、コンテンツを分類する視点を変更する力否かを判定する。コンテンツを 分類する視点を変更すると判定された場合、処理はステップ S101に戻り、その後、 ステップ S 109において、コンテンツを分類する視点を変更しないと判定されるまで、 ステップ S101乃至 S109の処理が繰り返し実行される。すなわち、新たな視点(例え ば、好き嫌いの視点)に基づいて、コンテンツが自動分類される。
[0317] ステップ S109において、コンテンツを分類する視点を変更しないと判定された場合 、コンテンツ分類処理は終了する。
[0318] このようにして、メタデータに依存しないユーザの視点に基づいて、例えば、上述し た好き嫌い、フォルダなどの視点に基づいて、ユーザがコンテンツを分類するための メタデータの条件の設定を行うことなぐ各コンテンツを自動的に分類することができ る。
[0319] 次に、図 16のフローチャートを参照して、情報処理システム 201により実行されるコ ンテンッ分類処理の第 2の実施の形態について説明する。なお、この処理は、例え ば、ユーザ入力部 221を介して、ユーザがコンテンツ分類処理の開始の指令を入力 した場合、開始される。
[0320] ステップ S151において、コンテンツ分類部 281は、コンテンツ分類ルールを生成す る視点を選択する。具体的には、コンテンツ分類部 281は、まだコンテンツ分類ルー ルを生成していない視点のうち 1つを選択する。例えば、上述した図 14に示される例 の場合、ユーザの好き嫌い、および、コンテンツが格納されているフォルダの 2つの 視点のうち、まだコンテンツ分類ルールを生成して 、な 、視点が 1つ選択される。
[0321] ステップ S152において、コンテンツ分類部 281は、上述した図 13のステップ S101 と同様の処理により、ステップ S 151において選択した視点に基づいて、コンテンツを 複数のクラスに分類し、分類したコンテンツのクラスに関する情報をメタデータ抽出部 282に供給する。
[0322] ステップ S 153乃至ステップ S 155の処理は、上述した図 13のステップ S 102乃至 S 104の処理と同様であり、その説明は繰り返しになるので省略する力 上述したように 、これらの処理により、ステップ S 151において選択された視点に対する、コンテンツ 分類ルールが生成されるとともに、各コンテンツ分類ルールに対する評価指標が算 出される。
[0323] ステップ S 156において、コンテンツ分類部 281は、全ての視点についてコンテンツ 分類ルールを生成したかを判定する。全ての視点につ!、てコンテンツ分類ルールを 生成していないと判定された場合、処理はステップ S151に戻り、ステップ S 156にお いて、全ての視点についてコンテンツ分類ルールを生成したと判定されるまで、ステ ップ S151乃至 S156の処理が繰り返し実行される。すなわち、全ての視点について 、コンテンツ分類ルールが生成されるとともに、各コンテンツ分類ルールに対する評 価指標が算出される。
[0324] ステップ S 156において、全ての視点についてコンテンツ分類ルールが生成された と判定された場合、処理はステップ S157に進む。
[0325] ステップ S157において、上述した図 13のステップ S105の処理と同様に、自動分 類するコンテンツが設定される。
[0326] ステップ S158において、コンテンツ自動分類部 292は、コンテンツを自動分類する 。具体的には、例えば、まず、コンテンツ自動分類部 292は、自動分類する対象とな る各コンテンツについて、全てのコンテンツ分類ルールの中から、そのコンテンツに 適合するコンテンツ分類ルールを抽出する。コンテンツ自動分類部 292は、抽出した コンテンツ分類ルールの評価指標を、結論部のクラスごとに集計する。
[0327] 次に、コンテンツ自動分類部 292は、各視点ごとに、評価指標の合計値が最大とな るクラスと評価指標の合計値が 2番目に大きいクラスとの間の評価指標の差を算出し 、算出した差が最大となる視点、すなわち、そのコンテンツの特徴が最も顕著に現れ る視点を選択する。コンテンツ自動分類部 292は、選択した視点におけるクラスのう ち、評価指標の合計値が最大となるクラスに、そのコンテンツを分類する。
[0328] また、例えば、自動分類する対象となる各コンテンツについて、視点に関係なぐ適 合するコンテンツ分類ルールの評価指標の合計値、平均値、または、最大値が最大 となるクラスにそのコンテンツを分類するようにしてもょ 、。
[0329] さらに、例えば、自動分類する対象となる各コンテンツについて、適合するコンテン ッ分類ルールの評価指標の合計値、平均値、または、クラス内での評価指標の最大 値が所定の閾値以上となる全てのクラスにそのコンテンツを分類するとともに、上述し た適合度を設定するようにしてもよい。この場合、 1つのコンテンツが、 1つの視点内 の複数のクラスに属したり、複数の視点のクラスに属するように分類される場合がある
[0330] コンテンツ自動分類部 292は、各コンテンツを分類した結果を示す情報を分類結果 提示部 293に供給する。
[0331] ステップ S159において、上述した図 13のステップ S108の処理と同様に、自動分 類の結果がユーザに提示される。
[0332] ステップ S160において、上述した図 13のステップ S109の処理と同様に、自動分 類するコンテンツを変更するカゝ否かが判定される。自動分類するコンテンツを変更す ると判定された場合、処理はステップ S157に戻り、ステップ S160において、自動分 類するコンテンツを変更しないと判定されるまで、ステップ S157乃至 S160が繰り返 し実行される。
[0333] ステップ S160にお 、て、コンテンツを分類する視点を変更しな 、と判定された場合
、コンテンツ分類処理は終了する。
[0334] このようにして、一度に複数の視点に基づいて、コンテンツを自動分類することがで きる。
[0335] 以上のように、各要素の特徴を表すデータがそれぞれ関連づけられて 、る複数の 要素を分類したクラスの特徴として、特徴を抽出する対象となるクラスに属するそれぞ れの要素について要素に関連づけられている 1つ以上のデータを取り出すことにより 求められるデータの全ての組み合わせのうち、他のクラスに属するそれぞれの要素に ついて要素に関連づけられている 1つ以上のデータを取り出すことにより求められる データの組み合わせには存在しないデータの組み合わせを抽出する場合には、複 数の要素を分類したクラスの特徴を抽出することができる。また、複数の要素を分類 したクラスの特徴を簡単かつ正確に抽出することができる。
[0336] なお、以上の説明では、コンテンツを分類する視点を 1つとする例を示したが、 2つ 以上の視点を組み合わせるようにしてもよい。例えば、図 5に示される例を用いれば、 ユーザの好き嫌いの視点とプレイリスト選択曲の視点とを組み合わせて、例えば、ュ 一ザが好きであって、かつ、プレイリストに選択されていないコンテンツが属するクラス の特徴を表すメタデータの組み合わせを容易に抽出することができる。
[0337] また、複数の視点を組み合わせる例として、コンテンツを管理する多層構造のディ レクトリゃブックマークを、コンテンツを分類する視点に用いることができる。この分類 の視点を用いることにより、例えば、ユーザが行ったコンテンツの分類 (ディレクトリま たはブックマークなど)の粒度や詳細度の特徴を表すメタデータの組み合わせを抽 出することができる。 [0338] さらに、例えば、コンテンツが属しているディレクトリと、ユーザの好き嫌いの 2つの視 点を組み合わせて分類したクラスの特徴を表すメタデータの組み合わせを抽出する ことも可能である。
[0339] なお、コンテンツを分類する視点が増えても、コンテンツを複数のクラスに分類した 後の処理には影響しないため、図 4、図 7、図 10、図 13、または、図 16を参照して上 述した本発明のアルゴリズムをそのまま適用することができる。また、コンテンツを分 類する視点を複数組み合わせることにより、ユーザの嗜好などをより精緻に表すメタ データの組み合わせを抽出することができるようになる。
[0340] また、例えば、メタデータの種類が少な 、場合、または、処理能力が高 、コンビユー タなどにより処理を行う場合、クラス別重要メタデータの抽出を行わないようにしてもよ い。全てのメタデータを用いてメタデータの組み合わせを抽出する場合、クラスの特 徴をより正確に表すメタデータの組み合わせが抽出される可能性が高くなる。
[0341] さらに、以上の説明では、コンテンツに関連づけられているメタデータの組み合わ せを抽出する例を示したが、例えば、ある学校のクラスの特徴を、各クラスに所属する 生徒に関するデータ (例えば、成績、身長、体重など)に基づいて抽出したり、同じ商 品を製造する複数の製造者の特徴を、各製造者が製造する商品に関するデータ (例 えば、価格、機能、形、色など)に基づいて抽出する場合など、本発明は、各要素の 特徴を表すデータが関連づけられている複数の要素を複数のクラスに分類し、各要 素が有するデータに基づいて、各クラスの特徴を抽出する場合に適用することができ る。
[0342] なお、本発明は、例えば、ユーザにコンテンツや商品などを推薦したり、または、コ ンテンッゃ商品などを分類したクラスの特徴を抽出したりする装置やシステム(例えば 、推薦システム、パーソナルコンピュータ、携帯電話機、 PDA (Personal Digital Assist ant)、各種の AV (Audio Visual)機器など)、または、ソフトウェアなどに適用することが できる。
[0343] 例えば、ユーザの視聴履歴を学習する TV番組推薦機能を持つ装置に本発明を適 用することにより、例えば、抽出されたタレント Aとバラエティ番組というメタデータの組 み合わせに基づ 、て、ユーザが好きなタレント Aの出演するバラエティ番組を推薦す る一方、ユーザが嫌いなタレント Aの出演する歌番組は推薦しないというように、ユー ザの精緻な嗜好パターンに基づいて、ユーザに番組を推薦することができるとともに 、その推薦理由を提示することが可能となり、推薦された番組に対するユーザの受容 度を高めることができる。
[0344] また、例えば、音楽プレーヤーと連携したパーソナルコンピュータで実行される楽曲 ファイル閲覧および編集ソフトウェアに本発明を適用することにより、プレイリストの作 成や閲覧などの操作に応じて、プレイリストの特徴を表すメタデータの組み合わせを ユーザに提示することができ、ファイルを閲覧したり、編集したりする作業を快適にす るとともに、その作業を行う楽しみを与えることができる。
[0345] また、本発明は、例えば、各種のコンテンツを分類して管理する装置やシステム、ま たは、ソフトウェアなどに適用することができる。例えば、本発明の第 2の実施の形態 を電子メールのソフトウェアに適用することにより、従来のメールの差出人、件名、へ ッダ情報などを分類する条件として設定することなぐメールの内容に基づいて自動 的にメールを分類することができる。
[0346] 上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェア により実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、 そのソフトウェアを構成するプログラム力 専用のハードウェアに組み込まれているコ ンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行 することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒 体からインストールされる。
[0347] 図 17は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータ の構成の例を示すブロック図である。 CPU (Central Processing Unit) 901は、 ROM (R ead Only Memory) 902、または記録部 908に記憶されているプログラムに従って各 種の処理を実行する。 RAM (Random Access Memory) 903には、 CPU901力実行す るプログラムやデータなどが適宜記憶される。これらの CPU901、 ROM902、および R AM903は、バス 904により相互に接続されて!ヽる。
[0348] CPU901にはまた、バス 904を介して入出力インタフェース 905が接続されて!、る。
入出力インタフェース 905には、キーボード、マウス、マイクロホンなどよりなる入力部 906、ディスプレイ、スピーカなどよりなる出力部 907が接続されている。 CPU901は、 入力部 906から入力される指令に対応して各種の処理を実行する。そして、 CPU90 1は、処理の結果を出力部 907に出力する。
[0349] 入出力インタフェース 905に接続されている記録部 908は、例えばノヽードディスク からなり、 CPU901が実行するプログラムや各種のデータを記憶する。通信部 909は 、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と 通信する。
[0350] また、通信部 909を介してプログラムを取得し、記録部 908に記憶してもよ 、。
[0351] 入出力インタフェース 905に接続されているドライブ 910は、磁気ディスク、光デイス ク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア 911が装着され たとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。 取得されたプログラムやデータは、必要に応じて記録部 908に転送され、記憶される
[0352] コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプロ グラムを格納するプログラム記録媒体は、図 17に示すように、磁気ディスク (フレキシ ブルディスクを含む)、光ディスク(CD- ROM(Compact Disc-Read Only Memory),DV D(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなる パッケージメディアであるリムーバブルメディア 911、または、プログラムが一時的もし くは永続的に格納される ROM902や、記録部 908を構成するハードディスクなどによ り構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モ デムなどのインタフェースである通信部 909を介して、ローカルエリアネットワーク、ィ ンターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行 われる。
[0353] なお、本明細書にぉ 、て、プログラム記録媒体に格納されるプログラムを記述する ステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも 時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むもので ある。
[0354] また、本明細書において、システムとは、複数の装置により構成される装置全体を 表すものである。
さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなぐ 本発明の要旨を逸脱しな 、範囲にぉレ、て種々の変更が可能である。

Claims

請求の範囲
[1] 各要素の特徴を表すデータがそれぞれ関連づけられて 、る複数の前記要素を分 類したクラスの特徴として、特徴を抽出する対象となる前記クラスに属するそれぞれの 前記要素につ 、て前記要素に関連づけられて 、る 1つ以上の前記データを取り出す ことにより求められる前記データの全ての組み合わせのうち、他の前記クラスに属す るそれぞれの前記要素につ 、て前記要素に関連づけられて 、る 1つ以上の前記デ ータを取り出すことにより求められる前記データの組み合わせには存在しない前記デ ータの組み合わせを抽出する特徴抽出手段を
含む情報処理装置。
[2] 抽出された前記データの組み合わせのうち 1つ以上を前記クラスの特徴としてユー ザに提示するように前記クラスの特徴の提示を制御する特徴提示制御手段を さらに含む請求項 1に記載の情報処理装置。
[3] 前記クラスに属する前記要素と前記データとの第 1の関連度、および、他の前記ク ラスに属する前記要素と前記データとの第 2の関連度と前記第 1の関連度との違いに 基づいて、前記クラスに属する前記要素の特徴をより明確に表している前記データを 、前記データの組み合わせを抽出する前に抽出するデータ抽出手段を
さらに含み、
前記特徴抽出手段は、前記データ抽出手段により抽出された前記データの組み合 わせを抽出する
請求項 1に記載の情報処理装置。
[4] 前記データ抽出手段は、前記第 1の関連度、および、前記第 2の関連度と前記第 1 の関連度との違いに基づいて、前記クラスにおける前記データの重みを求め、前記 重みの値が上位である所定の数の前記データ、または、前記重みの値が所定の閾 値以上の前記データを抽出する
請求項 3に記載の情報処理装置。
[5] Hij gd " ~~タ抽出牛段は、 tfiaf(term frequency with inverse document frequency)、 相互情報量、情報利得比、 X 2乗値、または、対数尤度比のうちいずれかを前記クラ スにおける前記データの重みとして求める 請求項 4に記載の情報処理装置。
[6] 抽出された前記データの組み合わせに基づいて、前記要素により構成される第 1の グループとは異なる第 2のグループに属する要素の中から、前記データの組み合わ せが抽出された前記クラスに属する前記要素と関連のある要素を抽出する要素抽出 手段を
さらに含む請求項 1に記載の情報処理装置。
[7] 前記要素抽出手段は、抽出された前記データの組み合わせを含む前記データが 関連づけられている前記第 2のグループに属する前記要素を抽出する
請求項 6に記載の情報処理装置。
[8] 抽出された前記要素のユーザへの提示を制御する要素提示制御手段を
さらに含む請求項 6に記載の情報処理装置。
[9] 前記要素提示制御手段は、前記要素を抽出した根拠として、前記要素の抽出に用 V、た前記データの組み合わせをさらに提示するように制御する
請求項 8に記載の情報処理装置。
[10] 前記要素はコンテンツであり、前記データは前記コンテンツに関するメタデータであ る 請求項 1に記載の情報処理装置。
[11] 抽出された前記データの組み合わせと前記データの組み合わせが抽出された前 記クラスである抽出対象クラスに属する前記要素との関連度を示す評価指標を算出 する評価指標算出手段を
さらに含む請求項 1に記載の情報処理装置。
[12] 前記評価指標算出手段は、前記抽出対象クラスに属する前記要素のうち、前記デ ータの組み合わせを含む前記データが関連づけられている前記要素の占める割合 である再現率、および、前記データの組み合わせを含む前記データが関連づけられ ている前記要素のうち、前記抽出対象クラスに属する前記要素の占める割合である 適合率の調和平均である F値を前記評価指標として算出する
請求項 11に記載の情報処理装置。
[13] 分類する対象となる要素に関連づけられている前記データの組み合わせに対する 前記評価指標に基づいて、前記分類する対象となる要素を前記クラスに分類するク ラス分類手段を
さらに含む請求項 11に記載の情報処理装置。
[14] 分類する対象となる要素に関連づけられている前記データの組み合わせのうち、そ れぞれの前記クラス力 抽出された前記データの組み合わせに一致する数に基づい て、前記分類する対象となる要素を前記クラスに分類するクラス分類手段を
さらに含む請求項 1に記載の情報処理装置。
[15] 特徴を提示する対象となる要素に関連づけられている前記データの組み合わせの うち、それぞれの前記クラス力 抽出された前記データの組み合わせに一致する前 記データの組み合わせに含まれる前記データ、および、一致する前記データの組み 合わせが抽出された前記クラスに基づいて、前記特徴を提示する対象となる要素の 特徴を提示する特徴提示手段を
さらに含む請求項 1に記載の情報処理装置。
[16] 各要素の特徴を表すデータがそれぞれ関連づけられて!、る複数の前記要素を分 類したクラスの特徴として、特徴を抽出する対象となる前記クラスに属するそれぞれの 前記要素につ 、て前記要素に関連づけられて 、る 1つ以上の前記データを取り出す ことにより求められる前記データの全ての組み合わせのうち、他の前記クラスに属す るそれぞれの前記要素につ 、て前記要素に関連づけられて 、る 1つ以上の前記デ ータを取り出すことにより求められる前記データの組み合わせには存在しない前記デ ータの組み合わせを抽出する
ステップを含む特徴抽出方法。
[17] 各要素の特徴を表すデータがそれぞれ関連づけられている複数の前記要素を分 類したクラスの特徴として、特徴を抽出する対象となる前記クラスに属するそれぞれの 前記要素につ 、て前記要素に関連づけられて 、る 1つ以上の前記データを取り出す ことにより求められる前記データの全ての組み合わせのうち、他の前記クラスに属す るそれぞれの前記要素につ 、て前記要素に関連づけられて 、る 1つ以上の前記デ ータを取り出すことにより求められる前記データの組み合わせには存在しない前記デ ータの組み合わせを抽出する
ステップをコンピュータに実行させるプログラム。 [18] 請求項 17に記載のプログラムが記録されて 、る記録媒体。
PCT/JP2006/314558 2005-07-26 2006-07-24 情報処理装置、特徴抽出方法、記録媒体、および、プログラム WO2007013390A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP06781480A EP1909194A4 (en) 2005-07-26 2006-07-24 INFORMATION PROCESSING DEVICE, METHOD OF CHARACTERIZATION, RECORDING MEDIUM AND PROGRAM

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005-215906 2005-07-26
JP2005215906 2005-07-26
JP2006-162419 2006-06-12
JP2006162419A JP2007058842A (ja) 2005-07-26 2006-06-12 情報処理装置、特徴抽出方法、記録媒体、および、プログラム

Publications (1)

Publication Number Publication Date
WO2007013390A1 true WO2007013390A1 (ja) 2007-02-01

Family

ID=37683287

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/314558 WO2007013390A1 (ja) 2005-07-26 2006-07-24 情報処理装置、特徴抽出方法、記録媒体、および、プログラム

Country Status (4)

Country Link
EP (1) EP1909194A4 (ja)
JP (1) JP2007058842A (ja)
KR (1) KR20080031148A (ja)
WO (1) WO2007013390A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695353A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4965322B2 (ja) * 2007-04-17 2012-07-04 日本電信電話株式会社 ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
US9269090B2 (en) * 2008-08-18 2016-02-23 Nokia Technologies Oy Method, apparatus and computer program product for providing indications regarding recommended content
JP4650552B2 (ja) 2008-10-14 2011-03-16 ソニー株式会社 電子機器、コンテンツ推薦方法及びプログラム
KR101224135B1 (ko) * 2011-03-22 2013-01-21 계명대학교 산학협력단 엔트로피 러프 근사화 기술에 기반한 감별진단을 위한 주요 파라미터 추출방법 및 이를 이용한 통합 임상 의사결정 지원 시스템
JP5545883B2 (ja) * 2011-05-16 2014-07-09 日本電信電話株式会社 推薦データ成形方法、推薦データ成形装置および推薦データ成形プログラム
JP5038521B1 (ja) * 2011-06-30 2012-10-03 楽天株式会社 評価情報特定装置、評価情報特定方法、評価情報特定プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP2013033376A (ja) 2011-08-02 2013-02-14 Sony Corp 情報処理装置、情報処理方法、および、プログラム
KR102238672B1 (ko) 2014-03-03 2021-04-09 에스케이플래닛 주식회사 멀티클래스 분류 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN105812844B (zh) * 2014-12-29 2019-02-26 深圳市Tcl高新技术开发有限公司 一种电视的用户广告推送方法及系统
WO2016136104A1 (ja) * 2015-02-23 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7288319B2 (ja) * 2019-03-14 2023-06-07 株式会社radiko レコメンド情報を生成するための装置、方法、システム及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675985A (ja) * 1992-04-22 1994-03-18 Togami Electric Mfg Co Ltd データの分類方法
JPH09325969A (ja) * 1996-04-01 1997-12-16 Fujitsu Ltd 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体
JPH11259509A (ja) * 1998-03-12 1999-09-24 Hitachi Ltd 情報検索分類方法および情報検索分類システム
US20020164070A1 (en) 2001-03-14 2002-11-07 Kuhner Mark B. Automatic algorithm generation
JP2003233622A (ja) * 2002-02-13 2003-08-22 Matsushita Electric Ind Co Ltd コンテンツ推薦システム、コンテンツ推薦装置、コンテンツ推薦方法、そのプログラム、および、そのプログラム記憶媒体
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10210553B4 (de) * 2002-03-09 2004-08-26 Xtramind Technologies Gmbh Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675985A (ja) * 1992-04-22 1994-03-18 Togami Electric Mfg Co Ltd データの分類方法
JPH09325969A (ja) * 1996-04-01 1997-12-16 Fujitsu Ltd 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体
JPH11259509A (ja) * 1998-03-12 1999-09-24 Hitachi Ltd 情報検索分類方法および情報検索分類システム
US20020164070A1 (en) 2001-03-14 2002-11-07 Kuhner Mark B. Automatic algorithm generation
JP2003233622A (ja) * 2002-02-13 2003-08-22 Matsushita Electric Ind Co Ltd コンテンツ推薦システム、コンテンツ推薦装置、コンテンツ推薦方法、そのプログラム、および、そのプログラム記憶媒体
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1909194A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695353A (zh) * 2020-06-12 2020-09-22 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP1909194A1 (en) 2008-04-09
JP2007058842A (ja) 2007-03-08
KR20080031148A (ko) 2008-04-08
EP1909194A4 (en) 2009-09-02

Similar Documents

Publication Publication Date Title
WO2007013390A1 (ja) 情報処理装置、特徴抽出方法、記録媒体、および、プログラム
Schedl et al. Current challenges and visions in music recommender systems research
US10853415B2 (en) Systems and methods of classifying content items
US8611676B2 (en) Information processing apparatus, feature extraction method, recording media, and program
US8601003B2 (en) System and method for playlist generation based on similarity data
US10152517B2 (en) System and method for identifying similar media objects
US7716220B2 (en) Content recommendation device with an arrangement engine
CN101821735B (zh) 生成与内容项的集合相关联的元数据
US7849092B2 (en) System and method for identifying similar media objects
US20090138457A1 (en) Grouping and weighting media categories with time periods
US9369514B2 (en) Systems and methods of selecting content items
US20090055376A1 (en) System and method for identifying similar media objects
JP2011175362A (ja) 情報処理装置、重要度算出方法及びプログラム
EP2156294A1 (en) Probabilistic recommendation system
EP2161668A1 (en) System and method for playlist generation based on similarity data
JP2010061600A (ja) 推薦装置および方法、プログラム、並びに記録媒体
Chang et al. Music recommender using deep embedding-based features and behavior-based reinforcement learning
JP2011227717A (ja) 情報提示装置
CN100481083C (zh) 信息处理装置、特征提取方法
JP2008513877A (ja) 追従情報を提供する方法
JP5625792B2 (ja) 情報処理装置、潜在特徴量算出方法、及びプログラム
Hyung et al. Music recommendation based on text mining
Uno et al. MALL: A life log based music recommendation system and portable music player

Legal Events

Date Code Title Description
REEP Request for entry into the european phase

Ref document number: 2006781480

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2006781480

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020077006744

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 200680000904.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 11662250

Country of ref document: US