WO2010061535A1 - 情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体 - Google Patents

情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体 Download PDF

Info

Publication number
WO2010061535A1
WO2010061535A1 PCT/JP2009/005887 JP2009005887W WO2010061535A1 WO 2010061535 A1 WO2010061535 A1 WO 2010061535A1 JP 2009005887 W JP2009005887 W JP 2009005887W WO 2010061535 A1 WO2010061535 A1 WO 2010061535A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
ranking
keywords
common
categories
Prior art date
Application number
PCT/JP2009/005887
Other languages
English (en)
French (fr)
Inventor
渚泉
宮崎陽司
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010540321A priority Critical patent/JP5516416B2/ja
Publication of WO2010061535A1 publication Critical patent/WO2010061535A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data

Definitions

  • the present invention relates to an information retrieval apparatus, an information retrieval method, and a program for efficiently retrieving content.
  • Patent Document 1 assigns a keyword as supplementary information to each acquired image, classifies the keyword, ranks the keyword for each classification, and assigns the keyword and the keyword based on the ranking.
  • a technique for displaying a captured image According to the technique of Patent Document 1, since the user can easily find the keyword to be obtained, it is considered that the problem that the necessary content cannot be found in the search is solved.
  • Patent Document 2 discloses a technique for generating a classification keyword for classifying a content set composed of document sets into categories.
  • a category suitability V is calculated for each word in the word set W included therein.
  • the category suitability V is obtained by dividing the number of contents in the category in which the word appears by the number of contents in all categories in which the word appears. Then, using the category suitability V, the category N category keyword is selected and the importance of the selected category keyword is calculated. Thereafter, using the obtained classification keyword, category classification is performed on the target content set. According to this category classification, it is considered that the user can easily find the necessary content.
  • JP 2004-139401 A Information processing apparatus JP 2003-99445 A Classification keyword generation method, classification keyword generation program, and recording medium on which the program is recorded
  • keywords are used in a plurality of categories, and different classifications may be performed depending on the same keyword.
  • keywords are ranked for each category (classification). At this time, keywords appear only in one category and well represent the characteristics of the category. There is no distinction between keywords and general keywords that appear in multiple categories.
  • the category suitability V is obtained based on the number of contents of all categories in which words appear as described above, and the number of categories should be taken into consideration. It is sought after. Therefore, it is difficult to indicate how much this word appears in a plurality of categories or frequently appears in one category by the category suitability V.
  • An object of the present invention is to solve the above-mentioned problems, and when searching a content set classified into categories, an information search that can specify keywords that appear more frequently than other categories in a target category
  • An apparatus, an information search method, and a storage medium storing a program are provided.
  • an information search apparatus searches a plurality of contents classified in a plurality of categories, and includes any of the plurality of contents and the plurality of contents.
  • a keyword that expresses an attribute of the content searched by the search unit is extracted from the search unit that searches for content including the search keyword and the plurality of keywords stored in the content storage unit, and the extracted keyword
  • a keyword research unit that investigates at least a category to which the category belongs, and the category A keyword ranking unit for assigning a ranking to the extracted keywords, and the keyword ranking unit determines the number of categories to which each keyword belongs for each of the extracted keywords from the result of the survey by the keyword survey unit. And the number of contents for which each keyword expresses an attribute, and the ranking is given based on the obtained number of categories and the number of contents.
  • an information search method is an information search method for searching for a plurality of contents classified in a plurality of categories, wherein: (a) the plurality of contents; and A step of storing a plurality of keywords expressing attributes of any of a plurality of contents and the plurality of categories; and (b) receiving an input of a search keyword from the outside, and storing it in the step of (a).
  • a program according to the present invention is a program for causing a computer to perform information search using a plurality of contents classified in a plurality of categories as a search target. Storing a plurality of contents, a plurality of keywords expressing attributes of any of the plurality of contents, and the plurality of categories; (b) receiving an input of a search keyword from the outside; A step of searching for the content including the search keyword from the plurality of contents stored in the step; and (c) the step of (b) from the plurality of keywords stored in the step of (a).
  • the keyword expressing the attribute of the content searched in is extracted, and the extracted keyword A step of investigating at least the category to which the keyword belongs; and (d) the number of categories to which each keyword belongs and the content of the content that each keyword represents an attribute for each of the extracted keywords from the result of the investigation in step (c) And a step of assigning the ranking to the extracted keywords for each category based on the determined number of categories and the number of contents. .
  • the other category is the target category. Keywords that appear more frequently than the category can be identified.
  • FIG. 1 is a block diagram showing a schematic configuration of an information search apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of the information search apparatus according to Embodiment 1 of the present invention.
  • FIG. 3 is a diagram illustrating an example of a content set to be searched.
  • FIG. 4 is a diagram illustrating an example of a content set to be searched.
  • FIG. 5 is a diagram showing an example of keyword extraction processing by the keyword extraction unit shown in FIG.
  • FIG. 6 is a diagram illustrating an example of a search result of the keyword search unit illustrated in FIG.
  • FIG. 7 is a diagram showing another example of keyword extraction processing by the keyword extraction unit shown in FIG. FIG.
  • FIG. 8A is a diagram showing another example of the search result of the keyword search unit shown in FIG.
  • FIG. 8B is a diagram showing another example of the search result of the keyword search unit shown in FIG.
  • FIG. 9 is a diagram showing the number of contents and the number of categories obtained by the keyword ranking unit shown in FIG.
  • FIG. 10A is a diagram showing rankings assigned to keywords for each category.
  • FIG. 10B is a diagram illustrating rankings assigned to keywords for each category.
  • FIG. 11 is a diagram illustrating an example of a display screen of a display device connected to the information search device illustrated in FIG.
  • FIG. 12 is a flowchart showing an information search method according to Embodiment 1 of the present invention.
  • FIG. 13 is a block diagram showing a schematic configuration of the information search apparatus according to Embodiment 2 of the present invention.
  • FIG. 14 is a diagram illustrating an example of the common keyword extracted by the common keyword extraction unit illustrated in FIG.
  • FIG. 15 is a diagram showing an example of a display screen of a display device connected to the information search device shown in FIG.
  • FIG. 16 is a flowchart showing an information search method according to Embodiment 2 of the present invention.
  • FIG. 17 is a block diagram showing a schematic configuration of the information search apparatus according to Embodiment 3 of the present invention.
  • FIG. 18A is a diagram illustrating an example of a common keyword in which duplicate keywords are specified.
  • FIG. 18B is a diagram illustrating an example of a feature keyword in which duplicate keywords are specified.
  • FIG. 19 is a diagram showing an example of a display screen of a display device connected to the information search device shown in FIG.
  • FIG. 20 is a flowchart showing processing in the keyword classification unit 35 shown in FIG.
  • FIG. 21 is a flowchart showing processing performed by the keyword classification unit that constitutes the information search apparatus according to Embodiment 4 of the present invention.
  • FIG. 22A is a diagram illustrating an example of a common keyword processed by the keyword classification unit.
  • FIG. 22B is a diagram illustrating an example of a feature keyword processed by the keyword classification unit.
  • FIG. 23 is a diagram showing an example of a display screen of a display device connected to the information search device in Embodiment 4 of the present invention.
  • FIG. 24 is a block diagram showing a schematic configuration of the information search apparatus according to Embodiment 5 of the present invention.
  • 25A is a diagram showing an example of a display screen of a display device connected to the information search device shown in FIG.
  • FIG. 25B is also a diagram showing an example of a display screen of a display device connected to the information search device shown in FIG.
  • the information search apparatus 1 uses a plurality of contents classified in a plurality of categories as search targets.
  • the information search apparatus 1 includes a content storage unit 10, a search unit 20, a keyword survey unit 31, and a keyword ranking unit 32.
  • the content storage unit 10 stores a plurality of contents, a plurality of keywords expressing attributes of any of the plurality of contents, and a plurality of categories.
  • the search unit 20 receives an input of a search keyword from the outside, and searches the content including the search keyword from a plurality of contents stored in the content storage unit 10.
  • the keyword survey unit 31 extracts keywords expressing the attributes of the content searched for by the search unit from a plurality of keywords stored in the content storage unit 10, and searches at least the category to which the extracted keyword belongs.
  • the keyword ranking unit 31 gives a ranking to the extracted keywords for each category.
  • the keyword ranking unit 32 obtains, for each extracted keyword, the number of categories to which each keyword belongs and the number of contents for which each keyword expresses an attribute from the result of the survey by the keyword survey unit 31. Ranking is given based on the determined number of categories and content.
  • keywords that appear more frequently in the target category than in other categories can be specified.
  • FIG. 2 is a block diagram showing a schematic configuration of the information search apparatus according to Embodiment 1 of the present invention.
  • 3 and 4 are diagrams illustrating an example of a content set to be searched.
  • the information search device 1 according to the first embodiment of the present invention shown in FIG. 2 is a device that performs information search using a plurality of contents (content sets) classified in a plurality of categories as search targets.
  • the information search device 1 according to the first embodiment includes a content storage unit 10, a search unit 20, and a feature keyword generation unit 30.
  • a content set to be searched for example, a content set classified by a plurality of categories shown in FIG. 3 or a plurality of hierarchical categories shown in FIG. Content set.
  • the content storage unit 10 stores a plurality of contents, a plurality of keywords, and a plurality of categories.
  • Each of the plurality of keywords expresses any attribute of the plurality of contents. That is, each keyword corresponds to any content.
  • the content storage unit 10 includes, for example, the content set shown in FIG. 3 or FIG. 4, the category classification of the content set (category classification and its hierarchical structure in the example of FIG. 4), and a set of keywords corresponding to each content. Is remembered.
  • the search unit 20 receives an input of a search keyword from the outside, and searches the content including the search keyword from a plurality of contents stored in the content storage unit 10. In addition, the search unit 20 inputs the search result to the feature keyword generation unit 30. For example, when the content set shown in FIG. 3 is stored in the content storage unit 10, when “EPG” is input as a search keyword, the search unit 20 searches the content 10 and 11. When the content set shown in FIG. 4 is stored in the content storage unit 10, when “DVD recorder” is input as a search keyword, the search unit 20 searches for the contents C1 to C6.
  • the feature keyword generation unit 30 includes a keyword survey unit 31 and a keyword ranking unit 32.
  • the keyword research part 31 extracts the keyword expressing the attribute of the content searched by the search part 20 from the plurality of keywords stored in the content storage part 10. Further, the keyword survey unit 31 surveys at least the category to which the extracted keyword belongs, and inputs the survey result to the keyword ranking unit 32.
  • the keyword ranking unit 32 obtains, for each extracted keyword, the number of categories to which each keyword belongs and the number of contents in which each keyword expresses an attribute from the result of the survey by the keyword survey unit 31. Further, the keyword ranking unit 32 assigns rankings to the extracted keywords for each category based on the obtained number of categories and the number of contents.
  • the information search apparatus 1 assigns rankings to the extracted keywords for each category. This ranking is given so that each keyword appears higher in the category where ranking is given, so that it frequently appears in that category. Therefore, according to the information search device 1, it is possible to specify a keyword that appears more frequently in a target category than other categories from among a plurality of contents (target content sets) searched by the search unit 20. .
  • the identified keyword that is, the keyword with the ranking above, is a keyword that can be narrowed down for each category. Therefore, the user can easily find the desired content by performing a search using this keyword. Furthermore, since this keyword represents the characteristics of each category, the user can grasp what kind of content is included in the category simply by looking at this keyword. The search is also made easier.
  • FIG. 5 is a diagram showing an example of keyword extraction processing by the keyword extraction unit shown in FIG.
  • FIG. 6 is a diagram illustrating an example of a search result of the keyword search unit illustrated in FIG.
  • FIG. 7 is a diagram showing another example of keyword extraction processing by the keyword extraction unit shown in FIG. 8A and 8B are diagrams illustrating another example of the search result of the keyword search unit illustrated in FIG.
  • FIG. 9 is a diagram showing the number of contents and the number of categories obtained by the keyword ranking unit shown in FIG.
  • FIG. 10 is a diagram showing rankings assigned to keywords for each category, and FIGS. 10A and 10B show different categories.
  • FIG. 11 is a diagram illustrating an example of a display screen of a display device connected to the information search device illustrated in FIG.
  • the information search device 1 further includes a keyword extraction unit 40.
  • the keyword extraction unit 40 is connected to the database 70, and the search unit 20 is connected to the input device 50 and the display device 60.
  • the keyword ranking unit 32 is also connected to the display device 60.
  • the database 70 is a database in which a plurality of contents (content sets) to be searched are stored in a state classified into a plurality of categories.
  • Examples of content sets stored in the database 70 include FAQs, product catalogs, and various document sets.
  • Examples of the various document sets include a set of documents created inside the company and a large amount of e-mail managed by e-mail software.
  • Other content sets include an image set managed by photo management software, a music data set managed by music management software, and the like.
  • the content set shown in FIG. 3 or 4 is stored in the database. Further, at this time, the content set may adopt a one-level category classification as shown in FIG. 3, or may adopt a multi-level category classification as shown in FIG.
  • the keyword extraction unit 40 extracts keywords that need to be stored in the content storage unit 10 from the external database 70 and stores the extracted keywords in the content storage unit 10.
  • the keyword that needs to be stored is a keyword that expresses the attributes of each of the plurality of contents and belongs to one of a plurality of categories.
  • the keyword extraction unit 40 stores a plurality of contents themselves and a plurality of categories (category classifications) originally stored in the database 70 in the content storage unit 10 in addition to the keywords expressing the attributes of the contents.
  • categories categories
  • the keyword extraction unit 40 stores the hierarchized category classification (category classification and hierarchical structure of category classifications) as content.
  • the storage unit 10 In the first embodiment, the storage of information in the content storage unit 10 is performed by the keyword extraction unit 40, but can be performed manually by the user.
  • the keyword extraction method executed by the keyword extraction unit 40 is not particularly limited. For example, a method of extracting a word from content to obtain a keyword, or a hierarchy and category stored in the data base 70 There are methods that use classification.
  • the keyword extraction unit 40 divides a sentence included in each content into words, and each word obtained by the division represents a keyword representing an attribute of each content. Can be extracted as For example, as shown in FIG. 5, if the content 20 includes “Can you dubb from HDD to DVD?”, The keyword extraction unit 40 divides this sentence into words and is prepared in advance. Extract only nouns using part of speech information. Specifically, the keyword extraction unit 40 extracts “HDD”, “DVD”, and “dubbing” from the content 20 as keywords.
  • the keyword extracting unit 40 extracts “disc” and “backup” as keywords from “Can you backup to disc?” Included in the content 21. Furthermore, the keyword extraction unit 40 extracts “HDD”, “DVD”, and “recording” from “Can you record to HDD and DVD?” Of the content 22, and “How long is the DVD recording time of the content 23? “DVD” and “recording time” are extracted from “??”.
  • the keyword extraction unit 40 can also extract verbs and the like other than nouns, and FIG. 5 shows an example only. Further, the process shown in FIG. 5 is effective as long as each content is associated with one of the categories, even if the category classification layer is one layer or two or more layers.
  • the keyword extracting unit 40 obtains the lowest category to which each content is directly associated from the content set having a hierarchical structure stored in the database 70, and expresses these attributes of the content. Can be extracted as a keyword. Specifically, in the case of a content set having a hierarchical structure shown in FIG. 4, the lowermost component category is extracted as a keyword.
  • the keyword “HDD” is extracted for the content C1
  • the keyword “tuner” is extracted for the content C2.
  • the keyword “HDD” and the keyword “DVD-R” are extracted.
  • the keyword “DVD-R” is extracted for the content C4
  • the keyword “tuner” is extracted for the content C5
  • the keyword “HDD” is extracted for the content C6.
  • the keyword extraction unit 40 stores the extracted keywords in the content storage unit 10 in a state in which the extracted keywords are associated with the contents C1 to C6.
  • the input device 50 is a device used for a user to input a search keyword for searching for content.
  • the input device 50 is realized by an input device such as a keyboard or a mouse.
  • the search keyword can be input by the user freely inputting text data from the keyboard.
  • the search keyword can also be input by the user selecting a search keyword using a mouse from search keyword candidates such as categories and keywords displayed on the display screen of the display device 60.
  • the display device 60 is a device for displaying information on a display screen.
  • the display device 60 is realized by a display device having a display screen such as a liquid crystal display device or a printing device for printing information on a medium. it can.
  • a display device is used as the display device 60.
  • keywords ranked by the keyword ranking unit 32, content searched by the search unit 20, and the like are displayed.
  • the search unit 20 accepts input of a search keyword or searches for content including the search keyword, and then inputs a search result to the display device 60, and the searched content is displayed on the display device 60. On the display screen. Thereby, the convenience for the user is improved. Further, the search unit 20 also inputs the search result to the common keyword generation unit 30.
  • the keyword research unit 31 stores the category classification of the content set (or the category classification and the hierarchical structure of the category classification) stored in the content storage unit 10 and the keyword corresponding to each content.
  • the keyword survey unit 31 extracts keywords expressing the attributes of each searched content by this consideration, and at this time, it investigates which category the extracted keyword relates to. Further, the keyword survey unit 31 inputs the survey result to the keyword ranking unit 32.
  • the keyword research unit 31 extracts these keywords.
  • the keyword survey unit 31 considers the relationship between the category and the content shown in FIG. 3, investigates the category related to the extracted keyword (see FIG. 5), and creates the survey result shown in FIG. .
  • the keywords “HDD” and “DVD” relate to the categories “dubbing function” and “recording function”.
  • the keywords “dubbing”, “disc”, and “backup” are related to the category “dubbing function”, and the keywords “recording” and “recording function” are related to the category “recording function”.
  • the keyword survey unit 31 creates a survey result indicating these relationships, and inputs this into the keyword ranking unit 32.
  • the keyword search unit 31 uses the relationship between the content and the keyword shown in FIG. 7 stored in the content storage unit 10 as keywords included in the contents C1 to C6 as “HDD”, “tuner”. And “DVD-R” are extracted.
  • the keyword search unit 31 refers to the category classification and the hierarchical structure of the category classification (see FIG. 4) stored in the content storage unit 10, and extracts the extracted “HDD”, “tuner”, and “DVD-R”. Is related to which category of which hierarchy.
  • the category of the fourth hierarchy which is the lowest layer is a keyword. Therefore, the keyword survey unit 31 creates a survey result using the category of the third hierarchy or the category of the second hierarchy.
  • “HDD” is “recording” “EPG” “dubbing”
  • “tuner” is category “EPG” “dubbing”
  • the keyword “DVD- A survey result indicating that “R” relates to “dubbing” is created.
  • “HDD” is “model ⁇ ” “model ⁇ ”
  • “tuner” is “model ⁇ ”
  • “DVD-R” is “model ⁇ ”.
  • a survey result showing that it is related is created.
  • the keyword survey unit 31 inputs the survey result to the keyword ranking unit 32.
  • the keyword ranking unit 32 determines the number of categories to which each keyword belongs and the attribute of each keyword for each keyword extracted by the keyword survey unit 31. Find the number of content to be expressed.
  • a column 60 indicates a keyword
  • a column 61 indicates the number of categories (the number of categories)
  • a column 62 indicates the number of contents (the number of contents).
  • keywords “HDD”, “DVD”, “dubbing”, and the like included in the target content set are extracted.
  • the keyword ranking part 32 calculates
  • the keyword ranking unit 32 associates, for each keyword, the number of contents associated with category A (dubbing function), the number of contents associated with category B (recording function), and category C (playback function). Find the number of content received.
  • the keyword “HDD” is associated with 20 contents
  • the keyword “DVD” is associated with 20 contents
  • the keyword “dubbing” is 25 pieces.
  • the keyword “HDD” is associated with 30 contents
  • the keyword “DVD” is associated with one content.
  • the keyword “dubbing” is not associated with any content in category B (recording function), and the number of content is “0”.
  • the keyword ranking unit 32 can obtain the number of categories to which each keyword belongs based on the survey result (see FIG. 6) created by the keyword survey unit 31.
  • the number of categories to which the keyword “HDD” belongs is 10 and the number of categories to which the keyword “DVD” belongs is 2.
  • the hierarchy used when the keyword ranking unit 32 obtains the number of categories is particularly limited. Is not to be done.
  • the hierarchy used in this case may be set in advance or may be set by the user.
  • the hierarchy to be used may be set according to a preset rule.
  • the keyword ranking unit 32 uses the hierarchy one level below the selected hierarchy, It can be set as the aspect which calculates
  • the search unit 20 searches the contents C1 to C6.
  • the keyword survey unit 31 extracts keywords that express the attributes of the contents C1 to C6, and then investigates the category to which the extracted keyword belongs.
  • the second hierarchy one level below the selected category is searched. Will be investigated.
  • the keyword ranking unit 32 obtains the number of categories to which each keyword belongs for the category of the second hierarchy such as “model ⁇ ” and “model ⁇ ”. When “model ⁇ ” is selected, the number of categories to which each keyword belongs is obtained for the category of the third hierarchy.
  • the keyword ranking unit 32 is obtained by dividing the number of contents by the number of categories or the value calculated from the number of categories, as shown in FIGS. 10A and 10B. Ranking is given based on the division value.
  • the importance can also be obtained by directly dividing the number of contents by the number of categories (Y / X).
  • logX + 1 the influence of the variation in the number of categories X on the importance can be reduced, and the variation in the importance can be prevented from becoming too large.
  • the importance of the keyword “HDD” is “10” from 20 / (log10 + 1) because the number of contents is 20 and the number of categories is 10.
  • the importance is similarly obtained.
  • the keyword ranking unit 32 sets, as characteristic keywords, keywords that have been given rankings among ranking keywords. Set and generate a ranking table with the set feature keywords.
  • the keyword ranking is 1st place “dubbing”, 2nd place “DVD”, 3rd place “disc”, 4th place “HDD”, 5th place “backup”, 6th place “VTR”. It becomes.
  • the keyword ranking part 32 sets the 1st to 4th among these as characteristic keywords, and produces
  • the keyword ranking unit 32 also assigns a ranking to each keyword in the category B, and further sets the keyword as a feature keyword.
  • the keyword ranking unit 32 sends the generated ranking table to the display device 60, and displays the ranking table on the display screen as shown in FIG.
  • the feature keyword and the content (for example, FAQ) searched by the search unit 20 are also displayed together with the ranking table.
  • the keyword ranking unit 32 can display the feature keywords by switching the display screen or scrolling the display screen when the number of feature keywords is large and cannot be displayed on the display screen at one time.
  • FIG. 12 is a flowchart showing an information search method according to Embodiment 1 of the present invention.
  • the information retrieval method according to the first embodiment is implemented by operating the information retrieval apparatus 1 according to the first embodiment shown in FIG. Therefore, the information search method according to the first embodiment will be described together with the operation of the information search apparatus 1 shown in FIG. 2 with appropriate reference to FIGS.
  • the keyword extraction unit 40 extracts a keyword that expresses the attribute of each content (corresponding to each content) from the content set stored in the database 70, and extracts this from the content storage unit. 10 (step S201).
  • the keyword extraction unit 40 extracts a plurality of contents themselves and a plurality of categories (only category classification or a hierarchical structure of category classification and category classification) originally stored in the database 70, and these are also contents. It memorize
  • the search unit 20 searches the content including the search keyword input by the user via the input device 50 from the plurality of contents stored in the content storage unit 10, and displays the search result on the display device 60. It is displayed (step S203). In step S203, the search result is presented to the user. Further, the search unit 20 inputs the content set (target content set) searched in step S203 to the keyword research unit 31 (step S204).
  • step S203 the search unit 20 searches the content C1 from the content C1.
  • step S204 the search unit 20 inputs information specifying the contents C1 to C6 to the keyword search unit 31.
  • the keyword search unit 31 extracts keywords expressing the attributes of the content searched in step S204 from the plurality of keywords stored in the content storage unit 10, and further checks the category to which the extracted keyword belongs. (Step S205).
  • the keyword research unit 31 refers to the relationship between the category and the content shown in FIG. 3, for example. Further, the keyword research unit 31 creates a survey result (see FIG. 6). The keyword survey unit 31 inputs the extracted keyword and the survey result to the keyword ranking unit 32.
  • the keyword ranking unit 32 includes the number of categories to which each keyword belongs (see the column 61 shown in FIG. 7) and the content of the content in which each keyword represents an attribute. The number is obtained (step S206).
  • step S206 the keyword ranking unit 32 uses the results of these steps to obtain the importance for each keyword in each category and give the ranking (step S207).
  • step S207 as shown in FIG. 11, the keyword ranking unit 32 sets a keyword to which a preset ranking is assigned as a feature keyword, and generates a ranking table using the set feature keyword.
  • the keyword ranking unit 32 sends the generated ranking table to the display device 60, and displays the ranking table on the display screen as shown in FIG. 11 (step S208).
  • the keyword ranking unit 32 causes the display device 60 to display the content searched by the search unit 20 in addition to the ranking table based on the characteristic keywords.
  • the feature keyword and content displayed on the display screen can be selected by the user using the input device 50.
  • the search unit 20 determines whether one of the feature keywords displayed on the display screen of the display device 60 is selected (step S209). If one of the feature keywords is selected as a result of the determination in step S209, the search unit 20 accepts the input using the selected feature keyword as a search keyword. And the search part 20 searches the content corresponding to the characteristic keyword which received the input from the some content memorize
  • step S210 determines whether an instruction to end the process is given (step S210). If the end of the process is not instructed as a result of the determination in step S210, the search unit 20 executes step S203 again. On the other hand, if the end of the process is instructed as a result of the determination in step S210, the process in the information search apparatus 1 ends.
  • the ranking table based on the feature keyword is generated, a new process is performed using the feature keyword as a search keyword. Each time such processing is repeated, the possibility that the feature keyword can search for the content desired by the user is increased.
  • keywords that can be narrowed down for each category are specified as in the case where the information search apparatus 1 according to the first embodiment is operated. Therefore, the user can easily find the desired content by performing a search using this keyword. Furthermore, since this keyword represents the characteristics of each category, the user can grasp what kind of content is included in the category simply by looking at this keyword. The search is also made easier.
  • steps S201 and S202 do not have to be performed continuously with other steps, and are executed anytime before the execution of other steps. it can.
  • the storage medium storing the program according to the first embodiment may be any storage medium storing a program that causes a computer to execute steps S201 to S211 shown in FIG. Moreover, if the program in this Embodiment 1 is installed in a computer and this is run, the information processing apparatus 1 in this Embodiment 1 will be implement
  • the CPU central processing unit of the computer functions as the search unit 20, the keyword survey unit 31, the keyword ranking unit 32, and the keyword extraction unit 40 to perform processing.
  • a storage device such as a hard disk or a memory device provided in the computer functions as the content storage unit 10.
  • Embodiment 2 Next, an information search apparatus, an information search method, and a storage medium storing a program according to Embodiment 2 of the present invention will be described with reference to FIGS. First, a schematic configuration of the information search apparatus according to the second embodiment will be described with reference to FIGS.
  • FIG. 13 is a block diagram showing a schematic configuration of the information search apparatus according to Embodiment 2 of the present invention.
  • FIG. 14 is a diagram illustrating an example of the common keyword extracted by the common keyword extraction unit illustrated in FIG.
  • FIG. 15 is a diagram showing an example of a display screen of a display device connected to the information search device shown in FIG.
  • the information processing apparatus 2 includes a common keyword extraction unit 33 and a common keyword ranking unit 34.
  • the information processing apparatus 1 according to the first embodiment. (See FIG. 2).
  • the information processing apparatus 2 in the second embodiment is configured in the same manner as the information processing apparatus 1 in the first embodiment except that the common keyword extraction unit 33 and the common keyword ranking unit 34 are provided. ing.
  • the same reference numerals as those used in FIG. 2 are given to components common between the first embodiment and the second embodiment. Hereinafter, differences will be described.
  • the feature keyword generation unit 30 further includes a common keyword extraction unit 33 and a common keyword ranking unit 34 in addition to the keyword survey unit 31 and the keyword ranking unit 32.
  • the keyword research unit 31 can also investigate which category of which hierarchy the keyword belongs to.
  • the common keyword extraction unit 33 extracts keywords belonging to a plurality of categories in the same hierarchy as the common keywords from the keywords extracted by the keyword search unit 31 based on the result of the search by the keyword search unit 31 ( (See FIG. 14). In addition, the common keyword extraction unit 33 inputs the extracted common keyword to the common keyword ranking unit 34.
  • the common keyword extraction unit 33 uses the keywords “HDD” and “DVD” as belonging to a plurality of categories. Extract.
  • the common keyword extraction unit 33 uses the keywords “HDD” and “tuner” to belong to a plurality of categories. Extract as Furthermore, when the result of the keyword search unit 31 is the example shown in FIG. 8B, the common keyword extraction unit 33 extracts only the keyword “HDD” as a common keyword because it belongs to a plurality of categories.
  • the common keyword ranking unit 34 assigns a ranking to each of the extracted common keywords according to the degree of commonality.
  • “giving a ranking according to the degree of commonality” means that a common keyword linked to more categories has higher ranking.
  • the common keyword ranking unit 34 displays a hierarchy of a plurality of categories to which the common keyword belongs for each of the plurality of common keywords. Ask. And the common keyword ranking part 34 can provide a ranking according to the calculated
  • the common keyword ranking unit 34 determines that a keyword that is duplicated in a shallow category (upper layer) has a higher importance (ranking) than a keyword that is duplicated in a deep category (lower layer). Can be determined. 8A and 8B, as shown in FIGS. 8A and 8B, the common keyword “HDD” is duplicated in the second and third hierarchies. On the other hand, the common keyword “tuner” is duplicated only in the third hierarchy.
  • the importance of the common keyword “HDD” is set higher than the importance of the common keyword “tuner”, and the ranking of “HDD” is set higher than the ranking of “tuner”.
  • the common keyword ranking unit 34 can determine the importance (ranking) of the common keyword according to the number of categories to which the common keyword belongs. Specifically, the common keyword ranking unit 34 can determine that a keyword having a large number of overlapping categories is higher in importance than a keyword having a small number of overlapping categories.
  • the common keyword extraction unit 33 extracts “HDD” and “tuner” as common keywords will be described.
  • the common keyword “HDD” belongs to the third hierarchy and belongs to three categories of “recording”, “EPG”, and “dubbing”.
  • the common keyword “tuner” belongs to two categories of “EPG” and “dubbing” in the third layer.
  • the common keyword ranking unit 33 sets the importance of the common keyword “HDD” to be higher than the importance of the common keyword “tuner”.
  • the common keyword ranking unit 34 obtains the number of corresponding contents for each common keyword based on the plurality of contents and the plurality of keywords stored in the content storage unit 10, and ranks according to the number of contents. Can also be given. For example, the common keyword ranking unit 34 determines that a common keyword having a large number of extracted contents has higher importance (ranking) than a common keyword having a small number of extracted contents.
  • the search unit 20 searches the contents C1 to C6 shown in FIG.
  • the keyword research unit 31 uses the relationship between the content and the keyword shown in FIG. 7 stored in the content storage unit 10, and uses the keywords “HDD”, “tuner”, and “DVD-” included in the content C1 to C6. R "is extracted.
  • the common keyword ranking unit 34 refers to the relationship between the content and the keyword shown in FIG. 7 stored in the content storage unit 10, and extracts “HDD”, “tuner”, and “DVD-R”, respectively. Calculate the number of contents. Specifically, in this case, the common keyword “HDD” corresponds to three cases of contents “C1”, “C3”, and “C6”, and the common keyword “tuner” includes two cases of contents “C2” and “C5”. Correspond. Therefore, the common keyword ranking unit 34 determines that the importance level of “HDD” is higher than the importance level of the common keyword “tuner”.
  • the common keyword ranking unit 34 can also give a ranking to the common keyword based on the number of times the search keyword is input. Specifically, the common keyword ranking unit 34 determines whether or not each of the plurality of common keywords matches a past search keyword (see FIG. 15). Is calculated (number of inputs).
  • the common keyword ranking unit 34 determines the ranking of each common keyword based on the obtained number of inputs. For example, the common keyword ranking unit 34 determines that a common keyword that is frequently input as a search keyword is higher in importance than a keyword that is input as a search keyword.
  • the common keyword ranking unit 34 inputs a plurality of common keywords with rankings (ranked) to the display device 60, and displays them on the display screen together with the ranking as shown in a column 181 in FIG. Note that a column 182 in FIG. 15 indicates characteristic keywords displayed on the display screen.
  • the characteristic keyword is set in the same manner as that in the first embodiment.
  • the common keyword ranking unit 34 can determine whether or not the common keyword is also displayed as a feature keyword (whether or not it is duplicated) when the common keyword is displayed on the display device 60. Further, if there is an overlap as a result of the determination, the common keyword ranking unit 34 displays the feature keyword in a state where the display mode of the overlapping feature keyword is different from the display mode of other feature keywords. Can be displayed.
  • the common keyword ranking unit 34 can perform display by changing the color of the overlapping feature keyword and the surrounding color from those of other feature keywords.
  • “HDD” appearing in both category A (dubbing function) and category B (recording function) is also extracted as a common keyword. Therefore, the common keyword ranking unit 34 makes the color of “HDD” different from the color of other characteristic keywords.
  • a keyword spanning a plurality of categories can be searched at once by selecting from a common keyword rather than searching from a feature keyword displayed for each category. In this case, the user is likely to notice the common keyword whose display color has been changed, and is considered to use it.
  • FIG. 16 is a flowchart showing an information search method according to Embodiment 2 of the present invention.
  • the information search method according to the second embodiment is performed by operating the information search device 2 according to the first embodiment shown in FIG. For this reason, the information search method according to the second embodiment will be described together with the operation of the information search apparatus 1 shown in FIG. 13 with appropriate reference to FIGS.
  • steps S201 to S207 are executed to set feature keywords. Steps S201 to S207 are the same as steps S201 to S207 shown in FIG. 12 in the first embodiment.
  • the common keyword extraction unit 33 extracts keywords belonging to a plurality of categories as common keywords from the survey results by the keyword survey unit 31 (step S212). Subsequently, the common keyword ranking unit 33 assigns rankings to a plurality of common keywords (step S213).
  • the keyword ranking unit 32 displays the characteristic keywords (ranking table) on the display screen
  • the common keyword extraction unit 33 displays the common keywords on the display screen (step S214).
  • the feature keyword can be selected by the user using the input device 50.
  • Step S214 the search unit 20 determines whether one of the feature keyword or the common keyword displayed on the display screen of the display device 60 is selected (step S215).
  • Step S215 is the same as step S209 shown in FIG. 12 in the first embodiment.
  • step S215 If, as a result of the determination in step S215, one of the feature keyword or common keyword is selected, the search unit 20 accepts the input using the selected feature keyword or common keyword as the search keyword. Then, the search unit 20 searches the content corresponding to the feature keyword or the common keyword for which the input has been received from the plurality of contents stored in the content storage unit 10 (step S217). After executing step S217, the search unit 20 executes step S204 again.
  • step S215 if one of the feature keyword or the common keyword is not selected, the search unit 20 determines whether an instruction to end the process is given (step S216). If the end of the process is not instructed as a result of the determination in step S216, the search unit 20 executes step S203 again. On the other hand, if the end of the process is instructed as a result of the determination in step S216, the process in the information search device 1 ends.
  • step S216 is the same as step S210 shown in FIG. 12 in the first embodiment. Also in the second embodiment, steps S201 and S202 do not have to be performed continuously with other steps, and can be performed at any time before the execution of other steps.
  • two types of keywords that is, a common keyword appearing redundantly in a plurality of categories and a feature keyword indicating a feature for each category are extracted and displayed to the user. For this reason, users can use common keywords when they want to search for content based on a general concept, and can use feature keywords when they want to search for content with typical content in each category, and narrow down the content according to the purpose. be able to.
  • the common keyword is particularly effective when a plurality of categories are hierarchized, and the user has to go back up the hierarchy many times due to the category selection or wrong category selection.
  • the common keyword can reduce the labor of the user.
  • the possibility of searching for the content desired by the user is increased by repeating the processing.
  • the storage medium storing the program according to the second embodiment may be any storage medium storing a program for causing a computer to execute steps S201 to S207 and S212 to S217 shown in FIG. Further, if the program according to the second embodiment is installed in a computer and executed, the information processing apparatus 1 according to the second embodiment is realized.
  • the CPU central processing unit of the computer functions as the search unit 20, keyword research unit 31, keyword ranking unit 32, common keyword extraction unit 33, common keyword ranking unit 33, and keyword extraction unit 40, and performs processing.
  • a storage device such as a hard disk or a memory device provided in the computer functions as the content storage unit 10.
  • FIG. 17 is a block diagram showing a schematic configuration of the information search apparatus according to Embodiment 3 of the present invention.
  • FIG. 18A is a diagram illustrating an example of a common keyword in which duplicate keywords are identified
  • FIG. 18B is a diagram illustrating an example of a feature keyword in which duplicate keywords are identified.
  • 19 is a diagram showing an example of a display screen of a display device connected to the information search device shown in FIG.
  • FIG. 20 is a flowchart showing processing in the keyword classification unit 35 shown in FIG.
  • the information processing apparatus 3 in the third embodiment includes a keyword classifying unit 35, and is different from the information processing apparatus in the second embodiment (see FIG. 13) in this respect.
  • the information processing device 3 in the third embodiment is configured in the same manner as the information processing device 2 in the second embodiment except that the keyword classification unit 35 is provided.
  • the same reference numerals as those used in FIG. 12 are given to components common between the second embodiment and the third embodiment. Hereinafter, differences will be described.
  • the feature keyword generation unit 30 further includes a keyword classification unit 35 in addition to the keyword survey unit 31, the keyword ranking unit 32, the common keyword extraction unit 33, and the common keyword ranking unit 34. ing.
  • the keyword classification unit 35 compares the feature keyword set by the keyword ranking unit 32 with the common keyword extracted by the common keyword extraction unit 33, and identifies a keyword that overlaps both as a duplicate keyword. In practice, the keyword classification unit 35 compares the output from the keyword ranking unit 32 with the output from the common keyword ranking unit 34.
  • the keyword classifying unit 35 regards the duplicate keyword as a common keyword, and can delete the keyword corresponding to the duplicate keyword from the feature keyword ranking table.
  • the common keyword ranking unit 34 outputs the ranking result shown in FIG. 18A and the keyword ranking unit 33 outputs the ranking result shown in FIG. 18B for category A and category B.
  • the common keyword and the feature keyword of category A the three keywords “HDD”, “DVD”, and “VTR” are duplicated.
  • the five keywords “HDD”, “DVD”, “VTR”, “recording”, and “recording time” overlap.
  • the keyword classification unit 35 uses “HDD”, “DVD”, “VTR”, “recording”, and “recording time” as duplicate keywords as common keywords, and from the category A characteristic keywords, “HDD”, “DVD” And “VTR” are deleted. Further, the keyword classification unit 35 deletes “HDD”, “DVD”, “VTR”, “recording”, and “recording time” from the feature keyword of category B.
  • the keyword classification unit 35 causes the display screen of the display device 60 to display a feature keyword ranking table in a state where duplicate keywords are deleted as shown in FIG.
  • the third embodiment differs from the second embodiment (see FIG. 15) in which keywords such as “HDD”, “DVD”, and “recording” are displayed in duplicate, and common keywords and features. The keyword that overlaps with the keyword is not displayed.
  • two types of keywords that is, a common keyword appearing redundantly in a plurality of categories and a characteristic keyword indicating a feature for each category are displayed without overlapping.
  • a common keyword appearing redundantly in a plurality of categories and a characteristic keyword indicating a feature for each category are displayed without overlapping.
  • the occurrence of a situation where the user is confused by which keyword should be selected is suppressed.
  • Users can use common keywords when searching for content with a general concept, and can use feature keywords when searching for content with typical contents in each category, and can narrow down the content according to the purpose. .
  • the keyword classification unit 35 displays the feature keywords on the display screen in a state where the display mode is different from the display mode of other feature keywords. Can be displayed. Specifically, the keyword classifying unit 35 can perform display by changing the color of the overlapping feature keyword and the surrounding color thereof from those of other feature keywords. Moreover, the keyword classification
  • the information search method in the third embodiment is executed according to the flowchart shown in FIG. 16, as in the information search method in the second embodiment.
  • step S214 in FIG. 16 is executed by the keyword classification unit 35.
  • the process shown in FIG. 20 is performed as step S214.
  • the other steps are executed as in the second embodiment.
  • the keyword classification unit 35 compares the output from the keyword ranking unit 32 with the output from the common keyword ranking unit 34, and identifies duplicate keywords (step S2101).
  • the keyword classification unit 35 regards the duplicate keyword as a common keyword, identifies a feature keyword corresponding to the duplicate keyword from the feature keyword ranking table (step S2102), and deletes the identified keyword (S2103).
  • the keyword classification unit 35 directs the common keyword extracted in step S212 shown in FIG. 16 and given the ranking in step S212 and the feature keyword from which the duplicate keyword is deleted in step S2103 to the display device 60.
  • Output (S2104) Thereby, the result shown in FIG. 19 is displayed on the display screen of the display device 60.
  • the storage medium storing the program according to the third embodiment stores a program for causing the computer to execute steps S201 to S207, S212 to S217 shown in FIG. 16, and steps S2101 to S2104 shown in FIG. Any storage medium may be used.
  • the CPU (central processing unit) of the computer is different from the second embodiment and further functions as the keyword classification unit 35 to perform processing.
  • FIG. 21 is a diagram showing a process performed by the keyword classification unit that constitutes the information search apparatus according to Embodiment 4 of the present invention.
  • FIG. 22A shows an example of a common keyword processed by the keyword classifying unit
  • FIG. 22B shows an example of a feature keyword processed by the keyword classifying unit.
  • FIG. 23 is a diagram showing an example of a display screen of a display device connected to the information search device in Embodiment 4 of the present invention.
  • the information processing apparatus in the fourth embodiment is different from the information processing apparatus 3 in the third embodiment (see FIG. 17) in terms of processing in the keyword classification unit.
  • the information processing apparatus in the fourth embodiment is configured in the same manner as the information processing apparatus 3 in the third embodiment.
  • the block diagram of the information processing apparatus in the fourth embodiment is also the same as the block diagram shown in FIG. 17 used in the third embodiment.
  • the information search method according to the fourth embodiment is executed according to the flowchart shown in FIG. 16 in the same manner as the information search method according to the third embodiment. Note that step S214 in FIG. 16 is different from that in the third embodiment. Hereinafter, differences will be described.
  • the keyword classification unit 35 (see FIG. 17) identifies duplicate keywords. However, in the fourth embodiment, the keyword classification unit 35 deletes the duplicate keyword from one of the ranking tables according to the ranking of the feature keyword of the duplicate keyword and the ranking of the common keyword of the duplicate keyword.
  • the keyword classification unit 35 compares the output from the keyword ranking unit 32 with the output from the common keyword ranking unit 34, and specifies duplicate keywords (step S2111). ).
  • This step S2111 is the same as step S2101 shown in FIG.
  • the common keyword ranking unit 34 outputs the ranking results shown in FIG. 14 and the keyword ranking unit 33 outputs the ranking results shown in FIGS. 10A and 10B for the categories A and B.
  • the duplicate keywords are “HDD”, “DVD”, “VTR”, “recording”, and “recording time”.
  • the keyword classification unit 35 determines, for each duplicate keyword, whether the ranking ranking of the common keyword is equal to or lower than a threshold value (whether it is higher than the set ranking) (S2112).
  • a threshold value for example, the number of common keywords that can be displayed on one screen can be used.
  • the threshold is set to “6”.
  • the common keyword ranking for the duplicate keyword “HDD” is 1, and it is determined that the threshold is 6 or less (see FIG. 22A).
  • the ranking of the duplicate keywords “DVD”, “VTR”, and “recording” is also determined to be equal to or less than the threshold 6 (see FIG. 22A).
  • the keyword classification unit 35 sets the duplicate keyword as a common keyword and deletes the corresponding keyword from the ranking result of the feature keyword (S2113).
  • “HDD”, “DVD”, “VTR”, and “recording” for which the ranking ranking of the common keyword is equal to or less than the threshold in S2112 are common keywords.
  • “DVD”, “HDD”, and “VTR” are deleted from the ranking result of the feature keyword of category A (see FIG. 22B).
  • “HDD”, “recording”, “DVD”, and “VTR” are deleted from the ranking result of the category B feature keywords (see FIG. 22B).
  • step S2114 is executed.
  • the keyword classification unit 35 determines whether there is one or more categories for which the ranking ranking of the characteristic keywords is equal to or less than the threshold for the duplicate keywords.
  • the keyword classification unit 35 examines the ranking ranking of the feature keywords for category A and category B. For category A, there is no keyword corresponding to “recording time”, but for category B, the ranking ranking as the characteristic keyword of “recording time” is second.
  • the threshold value for example, the number of feature keywords of each category that can be displayed on one screen can be employed.
  • the threshold value can be set to 4. In this case, the ranking ranking 2 in the characteristic keyword of the overlapping keyword “recording time” is equal to or less than the threshold value 4.
  • the keyword classification unit 35 sets the overlapping keyword as a feature keyword (step S2115). Further, the keyword classification unit 35 deletes the corresponding keyword from the ranking result of the common keyword. For example, the keyword classification unit 35 sets “recording time” in which the ranking ranking of the feature keyword is equal to or less than the threshold in S2114 as the feature keyword, and deletes it from the ranking result of the common keyword.
  • step S2114 if the ranking ranking of the feature keyword of the duplicate keyword is larger than the threshold, the keyword classification unit 35 sets the duplicate keyword as a common keyword and deletes the corresponding keyword from the ranking result of the feature keyword. (Step S2116).
  • the keyword classification unit 35 determines whether or not processing has been completed for all duplicate keywords (step S2117). If the result of determination is that processing has not been completed for all duplicate keywords, step S2112 and subsequent steps are executed again. On the other hand, if the processing has been completed for all duplicate keywords, the keyword classification unit 35 executes Step S2118.
  • step S2118 the keyword classification unit 35 outputs the processed common keyword and feature keyword to the display device 60, and then ends the process. Thereby, the result shown in FIG. 23 is displayed on the display screen of the display device 60.
  • the common keyword and the feature keyword The display of overlapping keywords is omitted.
  • a keyword having a high commonness among keywords common to a plurality of categories is more likely to be displayed as a common keyword than in the third embodiment.
  • a keyword having a higher characteristic as a feature keyword of each category is more likely to be displayed as a feature keyword than in the third embodiment. For example, as shown in FIG. 22B, a keyword “recording time” having a high ranking as a feature keyword in category B (recording function) is displayed as a feature keyword of category B, not a common keyword.
  • the two types of keywords that is, the common keyword appearing redundantly in a plurality of categories and the feature keyword indicating the characteristics of each category are: Displayed without duplication.
  • the occurrence of a situation where the user is confused by which keyword should be selected is suppressed.
  • Users can use common keywords when searching for content with a general concept, and can use feature keywords when searching for content with typical contents in each category, and can narrow down the content according to the purpose .
  • FIG. 24 is a block diagram showing a schematic configuration of the information search apparatus according to Embodiment 5 of the present invention.
  • 25 is a diagram showing an example of a display screen of a display device connected to the information search device shown in FIG. 24. In FIG. 25A, common keywords having higher rankings are displayed, and in FIG. 25B, rankings are lower. The common keyword of is displayed.
  • the information processing apparatus 4 in the fifth embodiment has a configuration in which the keyword ranking unit 32 is removed from the configuration of the information processing apparatus 2 shown in the second embodiment shown in FIG. .
  • the characteristic keyword is not set, and only the common keyword is displayed on the display screen of the display device 60 as shown in FIG.
  • the information processing apparatus 4 in the fifth embodiment is configured in the same manner as the information processing apparatus 2 in the second embodiment.
  • the fifth embodiment only common keywords for efficiently searching for contents included in a plurality of categories are displayed. This common keyword is effective when the user is at a loss in category selection or goes back up the hierarchy many times by mistake in category selection.
  • the fifth embodiment is effective for the purpose of solving only the above problem.
  • the information retrieval apparatus supplies a storage medium storing a program for realizing the functions of the above-described embodiments to a system or apparatus, and a computer or CPU (Central Processing Unit) included in the system or apparatus.
  • MPU Micro Processing Unit
  • MPU Micro Processing Unit
  • this program can be stored in various types of storage media and can be transmitted via a communication medium.
  • examples of the storage medium include a flexible disk, hard disk, magnetic disk, magneto-optical disk, CD-ROM (Compact Disc Read Only Memory), DVD (Digital Versatile Disc), BD (Blu-ray Disc), ROM ( Includes a Read Only Memory cartridge, a battery-backed RAM (Random Access Memory) memory cartridge, a flash memory cartridge, and a non-volatile RAM cartridge.
  • the communication medium includes a telephone line wired communication medium and a microwave line wireless communication medium, and includes the Internet.
  • the present invention may be implemented. It is included in the form.
  • an efficient search can be performed in a portal site or a reception business department that manages a set of contents such as FAQ and product information classified in a plurality of categories.
  • the present invention is particularly applicable to a use such as search support and has industrial applicability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 カテゴリ分類されたコンテンツ集合に対して、検索を行う際に、対象となるカテゴリにおいて他のカテゴリよりも頻繁に出現するキーワードを特定し得る情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体を提供する。情報検索装置1は、複数のカテゴリで分類されている複数のコンテンツ、各コンテンツの属性を表現する複数のキーワード、及びカテゴリを記憶するコンテンツ記憶部10と、検索キーワードの入力を受け付け、検索キーワードを含むコンテンツを検索する検索部20と、検索されたコンテンツの属性を表現するキーワードを抽出し、抽出されたキーワードが属するカテゴリを調査するキーワード調査部31と、抽出されたキーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とから、抽出されたキーワードにランキングを付与するキーワードランキング部32とを備えている。

Description

情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体
 本発明は、コンテンツを効率良く検索するための情報検索装置、情報検索方法、及びプログラムに関する。
 従来から、FAQ、商品情報、写真アルバムなどのコンテンツ集合を検索する際において、必要なコンテンツが見つからないという問題が発生している。この問題を解決するため、コンテンツ集合に対して、カテゴリ分類ごとに、絞り込み可能なキーワードを表示する技術が提案されている(例えば、特許文献1及び特許文献2参照。)。
 具体的には、特許文献1は、取得された各画像に付帯情報としてキーワードを付与し、そしてキーワードを分類すると共に、分類毎にキーワードに順位を付け、順位に基づいて、キーワードとそれが付与された画像とを表示する技術を開示している。特許文献1の技術によれば、ユーザは簡単に求めるキーワードを見つけることができるので、検索の際に必要なコンテンツが見つからないという問題は解消されると考えられる。
 また、特許文献2は、文書集合で構成されたコンテンツ集合をカテゴリに分類するための分類キーワードを生成する技術を開示している。特許文献2に記載された技術では、任意のカテゴリNに属する文書集合(「文書集合S」とする)において、それに含まれる単語集合Wの各単語に対して、カテゴリ適合度Vが算出される。具体的には、カテゴリ適合度Vは、文書集合Sにおける各単語の出現文書数Dと、全カテゴリの文書集合SFにおける各単語の出現文書数DFとを、V=D/DFに算入することによって求められる。
 このように、カテゴリ適合度Vは、単語が出現するカテゴリ内のコンテンツ数を、この単語が出現する全カテゴリのコンテンツ数で除算することによって求められる。そして、カテゴリ適合度Vを用いて、カテゴリNの分類キーワードの選択と、選択された分類キーワードの重要度の算出とが行われる。その後、得られた分類キーワードを用いて、対象となるコンテンツ集合に対してカテゴリ分類が行われる。このカテゴリ分類によれば、ユーザは、必要とするコンテンツを簡単に見つけることができると考えられる。
特開2004-139401号公報 情報処理装置 特開2003-99445号公報 分類キーワード生成方法および分類キーワード生成プログラムと該プログラムを記録した記録媒体
 ところで、特許文献1に開示の技術では、一部のキーワードは、複数のカテゴリで使用され、同一のキーワードによって異なる分類が行われている場合がある。また、特許文献1に開示の技術では、上述したように、キーワードはカテゴリ(分類)毎にランキングされるが、このとき、一つのカテゴリにだけ出現し、且つ、当該カテゴリの特徴を良く表したキーワードと、複数のカテゴリに出現する一般的なキーワードとは区別されない。
 このため、特許文献1に開示の技術では、絞り込みのためのキーワードとして、複数のカテゴリに満遍なく出現するキーワードではなく、一つのカテゴリに頻繁に出現するキーワードを特定することが困難である。つまり、特許文献1に開示の技術を用いても、検索の際に必要なコンテンツが見つからないという問題を完全に解消することは困難である。
 また、特許文献2に開示の技術において、カテゴリ適合度Vは、上述したように、単語が出現する全カテゴリのコンテンツ数を基準にして求められており、カテゴリの数については何ら考慮されることなく求められている。よって、カテゴリ適合度Vによって、この単語が、どの程度、複数のカテゴリに分散して出現しているか、又は一つのカテゴリに頻繁に出現しているかを表すことは困難である。
 つまり、特許文献2に開示の技術を用いても、特許文献1に開示の技術と同様に、一つのカテゴリに頻繁に出現するキーワードを特定することは難しく、この場合も、検索の際に必要なコンテンツが見つからないという問題を完全に解消することは、困難である。
 本発明の目的は、上記問題を解消し、カテゴリ分類されたコンテンツ集合に対して、検索を行う際に、対象となるカテゴリにおいて他のカテゴリよりも頻繁に出現するキーワードを特定し得る、情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体を提供することにある。
 上記目的を達成するために本発明における情報検索装置は、複数のカテゴリで分類されている複数のコンテンツを検索対象とする、情報検索装置であって、前記複数のコンテンツと、前記複数のコンテンツいずれかの属性を表現する複数のキーワードと、前記複数のカテゴリとを記憶するコンテンツ記憶部と、外部からの検索キーワードの入力を受け付け、前記コンテンツ記憶部に記憶されている前記複数のコンテンツから、前記検索キーワードを含むコンテンツを検索する検索部と、前記コンテンツ記憶部に記憶されている前記複数のキーワードから、前記検索部によって検索されたコンテンツの属性を表現するキーワードを抽出し、抽出された前記キーワードが属するカテゴリを少なくとも調査するキーワード調査部と、前記カテゴリ毎に、抽出された前記キーワードにランキングを付与するキーワードランキング部とを備え、前記キーワードランキング部は、前記キーワード調査部による調査の結果から、抽出された前記キーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求め、更に、求めた前記カテゴリの数と前記コンテンツの数とに基づいて、前記ランキングを付与する、ことを特徴とする。
 また、上記目的を達成するため本発明における情報検索方法は、複数のカテゴリで分類されている複数のコンテンツを検索対象とする、情報検索方法であって、(a)前記複数のコンテンツと、前記複数のコンテンツいずれかの属性を表現する複数のキーワードと、前記複数のカテゴリとを記憶するステップと、(b)外部からの検索キーワードの入力を受け付け、前記(a)のステップで記憶されている前記複数のコンテンツから、前記検索キーワードを含むコンテンツを検索するステップと、(c)前記(a)のステップで記憶されている前記複数のキーワードから、前記(b)のステップで検索されたコンテンツの属性を表現するキーワードを抽出し、抽出された前記キーワードが属するカテゴリを少なくとも調査するステップと、(d)前記(c)のステップによる調査の結果から、抽出された前記キーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求め、更に、求めた前記カテゴリの数と前記コンテンツの数とに基づいて、前記カテゴリ毎に、抽出された前記キーワードに前記ランキングを付与するステップとを有する、ことを特徴とする。
 更に、上記目的を達成するため本発明におけるプログラムは、複数のカテゴリで分類されている複数のコンテンツを検索対象として、コンピュータに情報検索を行わせるプログラムであって、前記コンピュータに、(a)前記複数のコンテンツと、前記複数のコンテンツいずれかの属性を表現する複数のキーワードと、前記複数のカテゴリとを記憶するステップと、(b)外部からの検索キーワードの入力を受け付け、前記(a)のステップで記憶されている前記複数のコンテンツから、前記検索キーワードを含むコンテンツを検索するステップと、(c)前記(a)のステップで記憶されている前記複数のキーワードから、前記(b)のステップで検索されたコンテンツの属性を表現するキーワードを抽出し、抽出された前記キーワードが属するカテゴリを少なくとも調査するステップと、(d)前記(c)のステップによる調査の結果から、抽出された前記キーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求め、更に、求めた前記カテゴリの数と前記コンテンツの数とに基づいて、前記カテゴリ毎に、抽出された前記キーワードに前記ランキングを付与するステップとを実行させる、ことを特徴とする。
 以上の特徴により、本発明における情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体によれば、カテゴリ分類されたコンテンツ集合に対して、検索を行う際に、対象となるカテゴリにおいて他のカテゴリよりも頻繁に出現するキーワードを特定できる。
図1は、本発明の実施の形態1における情報検索装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態1における情報検索装置の構成を示すブロック図である。 図3は、検索対象となるコンテンツ集合の一例を示す図である。 図4は、検索対象となるコンテンツ集合の一例を示す図である。 図5は、図2に示したキーワード抽出部によるキーワードの抽出処理の一例を示す図である。 図6は、図2に示したキーワード調査部の調査結果の一例を示す図である。 図7は、図2に示したキーワード抽出部によるキーワードの抽出処理の他の例を示す図である。 図8Aは、図2に示したキーワード調査部の調査結果の他の例を示す図である。 図8Bは、図2に示したキーワード調査部の調査結果の他の例を示す図である。 図9は、図2に示したキーワードランキング部によって求められたコンテンツ数及びカテゴリ数を示す図である。 図10Aは、カテゴリ毎にキーワードに付与されたランキングを示す図である。 図10Bは、カテゴリ毎にキーワードに付与されたランキングを示す図である。 図11は、図2に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。 図12は、本発明の実施の形態1における情報検索方法を示すフロー図である。 図13は、本発明の実施の形態2における情報検索装置の概略構成を示すブロック図である。 図14は、図13に示した共通キーワード抽出部によって抽出された共通キーワードの一例を示す図である。 図15は、図13に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。 図16は、本発明の実施の形態2における情報検索方法を示すフロー図である。 図17は、本発明の実施の形態3における情報検索装置の概略構成を示すブロック図である。 図18Aは、重複キーワードが特定された共通キーワードの一例を示す図である。 図18Bは、重複キーワードが特定された特徴キーワードの一例を示す図である。 図19は、図17に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。 図20は、図17に示すキーワード分類部35における処理を示すフロー図である。 図21は、本発明の実施の形態4における情報検索装置を構成している、キーワード分類部によって行われる処理を示すフロー図である。 図22Aは、キーワード分類部によって処理された共通キーワードの一例を示す図である。 図22Bは、キーワード分類部によって処理された特徴キーワードの一例を示す図である。 図23は、本発明の実施の形態4における情報検索装置に接続された表示装置の表示画面の一例を示す図である。 図24は、本発明の実施の形態5における情報検索装置の概略構成を示すブロック図である。 図25Aは、図24に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。 図25Bも同じく、図24に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。
 (実施の形態1)
 以下、本発明の実施の形態1における情報検索装置、情報検索方法及びプログラムが格納された記憶媒体について、図1~図11を参照しながら説明する。最初に、本実施の形態1における情報検索装置の概略構成について図1を用いて説明する。
 図1に示すように、本実施の形態にかかる情報検索装置1は、複数のカテゴリで分類されている複数のコンテンツを検索対象とする。この情報検索装置1は、コンテンツ記憶部10と、検索部20と、キーワード調査部31と、キーワードランキング部32とを備える。
 コンテンツ記憶部10は、複数のコンテンツと、複数のコンテンツいずれかの属性を表現する複数のキーワードと、複数のカテゴリとを記憶する。検索部20は、外部からの検索キーワードの入力を受け付け、コンテンツ記憶部10に記憶されている複数のコンテンツから、検索キーワードを含むコンテンツを検索する。キーワード調査部31は、コンテンツ記憶部10に記憶されている複数のキーワードから、検索部によって検索されたコンテンツの属性を表現するキーワードを抽出し、抽出された前記キーワードが属するカテゴリを少なくとも調査する。キーワードランキング部31は、カテゴリ毎に、抽出された前記キーワードにランキングを付与する。そして、キーワードランキング部32は、キーワード調査部31による調査の結果から、抽出されたキーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求め、更に、求めたカテゴリの数とコンテンツの数とに基づいて、ランキングを付与する。
 このように構成された情報検索装置1においては、カテゴリ分類されたコンテンツ集合に対して、検索を行う際に、対象となるカテゴリにおいて他のカテゴリよりも頻繁に出現するキーワードを特定できる。
 以下、本実施の形態について更に詳細に説明する。先ず、本実施の形態1における情報検索装置の構成について図2~図4を用いて説明する。図2は、本発明の実施の形態1における情報検索装置の概略構成を示すブロック図である。図3及び図4は、検索対象となるコンテンツ集合の一例を示す図である。
 上述したように、図2に示す本発明の実施の形態1における情報検索装置1は、複数のカテゴリで分類されている複数のコンテンツ(コンテンツ集合)を検索対象として、情報検索を行う装置である。図2に示すように、本実施の形態1における情報検索装置1は、コンテンツ記憶部10と、検索部20と、特徴キーワード生成部30とを備えている。本実施の形態1において、検索となるコンテンツ集合としては、例えば、図3に示す、複数のカテゴリで分類されているコンテンツ集合や、図4に示す、階層化された複数のカテゴリで分類されているコンテンツ集合が挙げられる。
 コンテンツ記憶部10は、複数のコンテンツと、複数のキーワードと、複数のカテゴリとを記憶している。複数のキーワードは、それぞれ、複数のコンテンツのいずれかの属性を表現している。つまり、各キーワードは、いずれかのコンテンツに対応している。コンテンツ記憶部10は、例えば、図3または図4に示されたコンテンツ集合と、コンテンツ集合のカテゴリ分類(図4の例では、カテゴリ分類及びその階層構造)と、各コンテンツに対応するキーワードの集合とを記憶している。
 検索部20は、外部からの検索キーワードの入力を受け付け、コンテンツ記憶部10に記憶されている複数のコンテンツから、検索キーワードを含むコンテンツを検索する。また、検索部20は、検索結果を、特徴キーワード生成部30に入力する。例えば、図3に示されたコンテンツ集合がコンテンツ記憶部10によって記憶されている場合に、検索キーワードとして「EPG」が入力されると、検索部20は、コンテンツ10及び11を検索する。また、図4に示されたコンテンツ集合がコンテンツ記憶部10によって記憶されている場合に、検索キーワードとして「DVDレコーダ」が入力されると、検索部20は、コンテンツC1~C6を検索する。
 特徴キーワード生成部30は、キーワード調査部31と、キーワードランキング部32とを備えている。このうち、キーワード調査部31は、コンテンツ記憶部10に記憶されている複数のキーワードから、検索部20によって検索されたコンテンツの属性を表現するキーワードを抽出する。また、キーワード調査部31は、抽出されたキーワードが属するカテゴリを少なくとも調査し、調査結果をキーワードランキング部32に入力する。
 キーワードランキング部32は、キーワード調査部31による調査の結果から、抽出されたキーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求める。更に、キーワードランキング部32は、求めたカテゴリの数とコンテンツの数とに基づいて、カテゴリ毎に、抽出されたキーワードにランキングを付与する。
 このように、本実施の形態1における情報検索装置1は、カテゴリ毎に、抽出されたキーワードにランキングを付与する。そして、このランキングは、各キーワードが、ランキング付与が行われているカテゴリにおいて、そのカテゴリに頻繁に出現する程、上位となるように付与されている。よって、情報検索装置1によれば、検索部20によって検索された複数のコンテンツ(対象コンテンツ集合)の中から、他のカテゴリよりも対象となるカテゴリに頻繁に出現するキーワードの特定が可能となる。
 また、この特定されたキーワード、即ち、ランキングが上記のキーワードは、カテゴリごとに絞り込み可能なキーワードである。従って、ユーザは、このキーワードを用いて検索を行うことで、簡単に求めるコンテンツを見つけることができる。更に、このキーワードは、カテゴリ毎の特徴を表しているため、ユーザは、このキーワードを見ただけで、カテゴリ内にどのような内容のコンテンツが含まれているかを把握することもでき、この点からも検索の容易化が図られている。
 ここで、本実施の形態1における情報検索装置1について、図5~図11を用いて具体的に説明する。図5は、図2に示したキーワード抽出部によるキーワードの抽出処理の一例を示す図である。図6は、図2に示したキーワード調査部の調査結果の一例を示す図である。図7は、図2に示したキーワード抽出部によるキーワードの抽出処理の他の例を示す図である。図8A及び図8Bは、図2に示したキーワード調査部の調査結果の他の例を示す図である。
 図9は、図2に示したキーワードランキング部によって求められたコンテンツ数及びカテゴリ数を示す図である。図10は、カテゴリ毎にキーワードに付与されたランキングを示す図であり、図10A及び図10Bはそれぞれ異なるカテゴリを示している。図11は、図2に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。
 本実施の形態1では、図2に示すように、情報検索装置1は、更に、キーワード抽出部40を備えている。また、キーワード抽出部40は、データベース70に接続され、検索部20は、入力装置50と表示装置60とに接続されている。なお、キーワードランキング部32も表示装置60に接続されている。
 データベース70は、検索対象となる複数のコンテンツ(コンテンツ集合)が、複数のカテゴリで分類された状態で格納されているデータベースである。データベース70に格納されているコンテンツ集合の例としては、例えば、FAQ、商品カタログ、各種の文書集合が挙げられる。また、各種の文書集合としては、企業内部で作成された文書の集合や、電子メールソフトウェアで管理されている大量の電子メールが挙げられる。その他のコンテンツ集合としては、写真管理ソフトウェアによって管理されている画像集合や、音楽管理ソフトウェアによって管理されている音楽データ集合等も挙げられる。
 具体的には、データベースには、図3又は図4で示したコンテンツ集合が格納されている。また、このとき、コンテンツ集合は、図3に示すような、一階層のカテゴリ分類を採用していても良いし、図4に示すような、多階層のカテゴリ分類を採用していても良い。
 キーワード抽出部40は、この外部のデータベース70から、コンテンツ記憶部10に記憶させることが必要なキーワードを抽出し、抽出したキーワードをコンテンツ記憶部10に記憶させる。記憶させることが必要なキーワードとは、上述した、複数のコンテンツそれぞれの属性を表現し、且つ、複数のカテゴリのいずれかに属するキーワードである。
 また、キーワード抽出部40は、コンテンツの属性を表現するキーワードに加え、データベース70に元々記憶されていた、複数のコンテンツ自体と、複数のカテゴリ(カテゴリ分類)もコンテンツ記憶部10に記憶させる。なお、データベース70に格納されているカテゴリ分類が図4に示すように階層化されている場合は、キーワード抽出部40は、階層化されたカテゴリ分類(カテゴリ分類とカテゴリ分類の階層構造)をコンテンツ記憶部10に記憶させる。また、本実施の形態1では、コンテンツ記憶部10における情報の記憶は、キーワード抽出部40によって行われるが、ユーザが手作業によって行うこともできる。
 更に、キーワード抽出部40が実行するキーワードの抽出方法は、特に限定されるものではないが、例えば、コンテンツから単語を抽出してキーワードとする方法や、テータベース70に記憶されている階層とカテゴリ分類とを利用する方法などがある。
 前者の場合は、キーワード抽出部40は、データベース70に格納されているコンテンツ毎に、各コンテンツに含まれる文章を単語に分割し、分割によって得られた各単語を、各コンテンツの属性を表すキーワードとして抽出できる。例えば、図5に示すように、コンテンツ20に「HDDからDVDへダビングできますか?」が含まれている場合は、キーワード抽出部40は、この文章を単語に分割し、予め用意されている品詞情報を使って名詞のみ抽出する。具体的には、キーワード抽出部40は、コンテンツ20から、キーワードとして、「HDD」、「DVD」、「ダビング」を抽出する。
 同様に、キーワード抽出部40は、コンテンツ21に含まれている「ディスクへバックアップできますか?」からは、キーワードとして「ディスク」及び「バックアップ」を抽出する。更に、キーワード抽出部40は、コンテンツ22の「HDDとDVDへ録画できますか?」から、「HDD」、「DVD」、「録画」を抽出し、コンテンツ23の「DVDの録画時間はどれくらいですか?」から、「DVD」及び「録画時間」を抽出する。なお、キーワード抽出部40は、名詞以外の動詞等を抽出することもでき、図5は、あくまでも一例を示している。また、図5に示された処理は、カテゴリ分類の層が一層であっても、更に二層以上であっても、各コンテンツがいずれかのカテゴリに関連付けられていれば、有効である。
 後者の場合は、キーワード抽出部40は、データベース70に格納されている階層構造を持つコンテンツ集合から、各コンテンツが直接関連付けられている最下層のカテゴリを求め、これらを各コンテンツの属性を表現するキーワードとして抽出できる。具体的には、図4に示す階層構造をもったコンテンツ集合の場合、最下層の部品カテゴリがキーワードとして抽出される。
 この場合、図4に示すように、コンテンツC1に対してキーワード「HDD」が、コンテンツC2に対してキーワード「チューナー」が抽出される。また、コンテンツC3に対しては、キーワード「HDD」とキーワード「DVD-R」とが抽出される。更に、コンテンツC4に対してキーワード「DVD-R」が、コンテンツC5に対してキーワード「チューナー」が、コンテンツC6に対してキーワード「HDD」が抽出される。そして、キーワード抽出部40は、図7に示すように、抽出されたキーワードを、各コンテンツC1~C6に対応付けた状態で、コンテンツ記憶部10に記憶させる。
 入力装置50は、ユーザがコンテンツを検索するための検索キーワードを入力するために利用する装置である。具体的には、入力装置50は、キーボードや、マウス等の入力装置によって実現される。本実施の形態1では、検索キーワードの入力は、ユーザが、キーボードから自由にテキストデータを入力することによって行うことができる。また、検索キーワードの入力は、表示装置60の表示画面に表示されているカテゴリやキーワード等の検索キーワード候補の中から、ユーザが、マウスを用いて検索キーワードを選択することによって行うこともできる。
 また、表示装置60は、情報を表示画面に表示するための装置であり、具体的には、液晶表示装置等の表示画面を備えたディスプレイ装置や、媒体に情報を印刷する印刷装置等によって実現できる。本実施の形態1では、表示装置60としては、ディスプレイ装置が用いられている。表示装置60の表示画面には、例えば、キーワードランキング部32によってランク付けされたキーワードや、検索部20が検索したコンテンツ等が表示される。
 本実施の形態1において、検索部20は、検索キーワードの入力の受け付けや、検索キーワードを含むコンテンツの検索を行った後、検索結果を表示装置60に入力し、検索されたコンテンツを表示装置60の表示画面に表示させる。これにより、ユーザにおける利便性の向上が図られる。更に、検索部20は、共通キーワード生成部30にも検索結果を入力する。
 また、本実施の形態において、キーワード調査部31は、コンテンツ記憶部10に記憶されている、コンテンツ集合のカテゴリ分類(又は、カテゴリ分類及びカテゴリ分類の階層構造)と、各コンテンツに対応するキーワードとを参酌する。そして、キーワード調査部31は、この参酌により、検索されたコンテンツそれぞれの属性を表現するキーワードを抽出するが、このとき、抽出されたキーワードが、どのカテゴリに関係しているかも調査している。また、キーワード調査部31は、調査結果をキーワードランキング部32に入力する。
 例えば、図3に示されたコンテンツ集合(コンテンツ20、21、22、23)が検索部20によって検索されている場合について説明する。図3に示したコンテンツ20~23には、図5に示すように、属性を表現するキーワードとして、「HDD」「DVD」「ダビング」「ディスク」「録画」「録画時間」及び「バックアップ」が存在している。よって、キーワード調査部31は、これらのキーワードを抽出する。
 そして、キーワード調査部31は、図3に示されたカテゴリとコンテンツとの関係を参酌し、抽出されたキーワード(図5参照)が関係するカテゴリを調査し、図6に示す調査結果を作成する。図6に示すように、キーワード「HDD」及び「DVD」は、カテゴリ「ダビング機能」及び「録画機能」に関係する。また、キーワード「ダビング」、「ディスク」及び「バックアップ」は、カテゴリ「ダビング機能」に関係し、キーワード「録画」及び「録画機能」は、カテゴリ「録画機能」に、関係する。キーワード調査部31は、これらの関係を示す調査結果を作成し、これをキーワードランキング部32に入力する。
 また、別の例として、図4に示されたコンテンツ集合がコンテンツ記憶部10によって記憶され、検索キーワードとして「DVDレコーダ」が入力され、そして、コンテンツC1~C6が検索された場合を考える。この場合、キーワード調査部31は、コンテンツ記憶部10に記憶されている、図7に示すコンテンツとキーワードとの関係を使って、コンテンツC1~C6に含まれるキーワードとして、「HDD」、「チューナー」及び「DVD-R」を抽出する。
 更に、キーワード調査部31は、コンテンツ記憶部10に記憶されているカテゴリ分類とカテゴリ分類の階層構造と(図4参照)を参酌し、抽出された「HDD」、「チューナー」及び「DVD-R」が、どの階層のどのカテゴリに関係しているかを調査する。図4の例では、この場合、最下層である第4階層のカテゴリがキーワードとなっている。よって、キーワード調査部31は、第3階層のカテゴリ又は第2階層のカテゴリを用いて調査結果を作成する。
 具体的には、図8Aに示すように、第3階層については、「HDD」は「録画」「EPG」「ダビング」に、「チューナー」はカテゴリ「EPG」「ダビング」に、キーワード「DVD-R」は「ダビング」に関係することを示す、調査結果が作成される。また、第2階層については、図8Bに示すように、「HDD」は「機種α」「機種β」に、「チューナー」は「機種β」に、「DVD-R」は「機種β」に関係することを示す調査結果が作成される。この場合も、キーワード調査部31は、調査結果を、キーワードランキング部32に入力する。
 また、本実施の形態1では、キーワードランキング部32は、例えば、図9に示すように、キーワード調査部31によって抽出されたキーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求める。図9において、欄60は、キーワードを示し、欄61は、カテゴリの数(カテゴリ数)を示し、欄62はコンテンツの数(コンテンツ数)示している。図9の例では、対象コンテンツ集合に含まれるキーワード「HDD」、「DVD」及び「ダビング」等が抽出されている。
 そして、キーワードランキング部32は、例えば、図3に示したキーワードとコンテンツとの関係から、全てのカテゴリについて、各キーワードが属性を表現するコンテンツの数を求める。図9の例では、キーワードランキング部32は、キーワード毎に、カテゴリA(ダビング機能)と関連づけられたコンテンツ数、カテゴリB(録画機能)と関連づけられたコンテンツ数、カテゴリC(再生機能)と関連づけられたコンテンツ数等を求める。
 具体的には、カテゴリA(ダビング機能)において、キーワード「HDD」は、20個のコンテンツに関連づけられ、キーワード「DVD」は、20個のコンテンツに関連づけられ、キーワード「ダビング」は、25個のコンテンツに関連づけられている。また、カテゴリB(録画機能)においては、キーワード「HDD」は、30個のコンテンツに関連づけられ、キーワード「DVD」は、1個のコンテンツに関連づけられている。一方、キーワード「ダビング」は、カテゴリB(録画機能)においては、いずれのコンテンツとも関連づけられておらず、コンテンツ数は「0」である。
 更に、キーワードランキング部32は、キーワード調査部31によって作成された調査結果(図6参照)に基づいて、各キーワードが属するカテゴリの数を求めることができる。図9の例では、キーワード「HDD」が属するカテゴリの数が10、キーワード「DVD」が属するカテゴリの数が2、といったように求められている。
 また、対象となるコンテンツ集合が、図4に示すように、階層化された複数のカテゴリで分類されている場合において、キーワードランキング部32がカテゴリの数を求める際に使用する階層は、特に限定されるものではない。この場合に使用される階層は、予め設定されていても良いし、ユーザが設定しても良い。また、使用される階層は、予め設定されたルールに従って、設定されても良い。
 例えば、図4に示されたカテゴリが選択メニューとして表示され、ユーザがこの選択メニューからカテゴリの一つを選択すると、キーワードランキング部32が、選択された階層の一つ下の階層を用いて、カテゴリ数を求める、態様とすることができる。この態様によれば、ユーザが選択したカテゴリを基準として、ランキングが行われるため、ユーザは、自己が選択したカテゴリにどのようなコンテンツが含まれているかを容易に把握できる。このため、ユーザは、次に、どのカテゴリを選択すればよいかを簡単に決定することができる。
 具体的には、例えば、図4において、ユーザが、「DVDレコーダ」を検索キーワードとして選択すると、まず、検索部20は、コンテンツC1~C6を検索する。そして、キーワード調査部31は、コンテンツC1~C6の属性を表現するキーワードを抽出し、その後、抽出したキーワードが属するカテゴリを調査するが、このとき、選択されたカテゴリーの一つ下の第2階層が調査される。そして、キーワードランキング部32は、「機種α」や「機種β」等の第2階層のカテゴリについて、各キーワードが属するカテゴリの数を求める。また、「機種α」が選択されている場合は、第3階層のカテゴリについて、各キーワードが属するカテゴリの数が求められる。
 また、本実施の形態1においては、キーワードランキング部32は、図10A及び図10Bに示すように、コンテンツの数を、カテゴリの数又はカテゴリの数から算出された数値によって除算し、得られた除算値に基づいて、ランキングを付与している。
 具体的には、除算して得られる値を「重要度」、コンテンンツ数をY、カテゴリの数をXとすると、重要度は、重要度=Y/(logX+1)によって求めることができる。なお、重要度は、コンテンツの数を直接カテゴリの数で除算(Y/X)することによっても、求めることができる。但し、「logX+1」を用いた場合は、カテゴリの数Xの変動が重要度に与える影響を小さくでき、重要度の変動が大きくなり過ぎないようにできる。
 例えば、図10Aに示すように、カテゴリAでは、キーワード「HDD」の重要度は、コンテンツの数が20、カテゴリの数が10であるから、20/(log10+1)より、「10」となる。また、同様に、キーワード「DVD」の重要度は、コンテンツの数が20、カテゴリの数が2であるから、20/(log2+1)=15.37となる。更に、キーワード「ダビング」の重要度は、コンテンツの数が25、カテゴリの数が1であるから、25/(log1+1)=25となる。また、図10Bに示すカテゴリBにおいても、同様にして重要度が求められる。
 更に、本実施の形態1では、キーワードランキング部32は、図11に示すように、ランキングが付与されたキーワードのうち、付与されたランキングが予め設定された順位となったキーワードを、特徴キーワードに設定し、設定された特徴キーワードによってランキング表を生成する。
 例えば、図10Aに示すカテゴリAでは、キーワードのランキングは、1位「ダビング」、2位「DVD」、3位「ディスク」、4位「HDD」、5位「バックアップ」、6位「VTR」となる。そして、キーワードランキング部32は、このうち1位から4位までを特徴キーワードに設定し、これらによってランキング表を生成する(図11参照)。また、キーワードランキング部32は、図10Bに示すように、カテゴリBにおいても、各キーワードにランキングを付与し、更に、上記のキーワードを特徴キーワードに設定する。
 また、キーワードランキング部32は、生成したランキング表を表示装置60に送り、図11に示すように、ランキング表を表示画面に表示させる。図11の例では、特徴キーワードと、検索部20が検索したコンテンツ(例えば、FAQ)も、ランキング表と共に表示されている。なお、キーワードランキング部32は、特徴キーワードの個数が多く、一度に表示画面に表示できないときは、表示画面の切り替えや、表示画面のスクロールによって、特徴キーワードを表示させることができる。
 次に、本発明の実施の形態1における情報検索方法について図12を用いて説明する。図12は、本発明の実施の形態1における情報検索方法を示すフロー図である。本実施の形態1における情報検索方法は、図2に示した本実施の形態1における情報検索装置1を動作させることによって実施される。このため、本実施の形態1における情報検索方法は、適宜、図2~図11を参酌しながら、図2に示した情報検索装置1の動作と共に説明する。
 図12に示すように、先ず、キーワード抽出部40は、データベース70に記憶されているコンテンツ集合から、各コンテンツの属性を表現する(各コンテンツに対応する)キーワードを抽出すると、これをコンテンツ記憶部10に記憶させる(ステップS201)。
 次に、キーワード抽出部40は、データベース70に元々記憶されている、複数のコンテンツ自体と、複数のカテゴリ(カテゴリ分類のみ、又はカテゴリ分類とカテゴリ分類の階層構造)とを抽出し、これらもコンテンツ記憶部10に記憶させる(ステップS202)。
 次に、検索部20は、コンテンツ記憶部10が記憶している複数のコンテンツの中から、入力装置50を介してユーザが入力した検索キーワードを含むコンテンツを検索し、検索結果を表示装置60に表示させる(ステップS203)。ステップS203により、検索結果がユーザに提示される。また、検索部20は、ステップS203によって検索されたコンテンツ集合(対象コンテンツ集合)を、キーワード調査部31に入力する(ステップS204)。
 具体的には、例えば、ユーザが、図4に示された例において、「DVDレコーダ」を検索キーワードとして入力した場合、ステップS203では、検索部20は、コンテンツC1からコンテンツC6を検索する。そして、ステップS204では、検索部20は、コンテンツC1~C6を特定する情報を、キーワード調査部31に入力する。
 次に、キーワード調査部31は、コンテンツ記憶部10に記憶する複数のキーワードから、ステップS204で検索されたコンテンツの属性を表現するキーワードを抽出し、更に、抽出されたキーワードが属するカテゴリを調査する(ステップS205)。ステップS205においては、キーワード調査部31は、例えば、図3に示されたカテゴリとコンテンツとの関係を参酌する。また、キーワード調査部31は、調査結果を作成する(図6参照)。キーワード調査部31は、抽出したキーワードと、調査結果とをキーワードランキング部32に入力する。
 次に、キーワードランキング部32は、キーワード調査部31によって抽出されたキーワード毎に、各キーワードが属するカテゴリの数(図7に示す欄61参照)と、各キーワードが属性を表現しているコンテンツの数とを求める(ステップS206)。
 そして、ステップS206が終了すると、キーワードランキング部32は、これらのステップの結果を用いて、各カテゴリおいて、キーワード毎に、重要度を求め、ランキングを付与する(ステップS207)。また、ステップS207では、キーワードランキング部32は、図11に示すように、予め設定されたランキングが付与されているキーワードを、特徴キーワードに設定し、設定された特徴キーワードによってランキング表を生成する。
 次に、キーワードランキング部32は、生成したランキング表を表示装置60に送り、図11に示すように、ランキング表を表示画面に表示させる(ステップS208)。また、ステップS208では、キーワードランキング部32は、図11に示すように、表示装置60に、特徴キーワードによるランキング表に加え、検索部20が検索したコンテンツも表示させる。更に、本実施の形態1においては、表示画面に表示された特徴キーワードや、コンテンツは、ユーザが入力装置50によって選択可能となっている。
 次に、ステップS208の実行後、検索部20は、表示装置60の表示画面に表示された特徴キーワードの一つが選択されているかどうかを判定する(ステップS209)。ステップS209の判定の結果、特徴キーワードの一つが選択されている場合は、検索部20は、選択された特徴キーワードを検索キーワードとしてその入力を受け付ける。そして、検索部20は、コンテンツ記憶部10が記憶している複数のコンテンツの中から、入力を受け付けた特徴キーワードに対応するコンテンツを検索する(ステップS211)。ステップS211の実行後は、再度、検索部20は、ステップS204を実行する。
 一方、ステップS209の判定の結果、特徴キーワードの一つが選択されていない場合は、検索部20は、処理の終了が指示されているかどうかを判定する(ステップS210)。ステップS210の判定の結果、処理の終了が指示されていない場合は、検索部20は、再度、ステップS203を実行する。一方、ステップS210の判定の結果、処理の終了が指示されている場合は、情報検索装置1における処理は終了する。
 このように、本実施の形態1では、特徴キーワードによるランキング表が生成された後は、特徴キーワードを検索キーワードとして新たに処理が行われる。そして、このような処理が繰り返される度に、特徴キーワードが、ユーザの望むコンテンツを検索できる可能性が高められていくことになる。
 また、本実施の形態1における情報検索方法を実施した場合も、本実施の形態1における情報検索装置1を動作させた場合と同様に、カテゴリごとに絞りこみ可能なキーワードが特定される。よって、ユーザは、このキーワードを用いて検索を行うことで、簡単に求めるコンテンツを見つけることができる。更に、このキーワードは、カテゴリ毎の特徴を表しているため、ユーザは、このキーワードを見ただけで、カテゴリ内にどのような内容のコンテンツが含まれているかを把握することもでき、この点からも検索の容易化が図られている。
 本実施の形態1における情報検索方法では、上述したステップのうち、ステップS201及びS202は、他のステップと連続して行われている必要はなく、他のステップの実行前であれば何時でも実行できる。
 本実施の形態1におけるプログラムが格納された記憶媒体は、コンピュータに、図12に示すステップS201~S211を実行させるプログラムが格納された記憶媒体であれば良い。また、本実施の形態1におけるプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態1における情報処理装置1が実現される。
 この場合、コンピュータのCPU(central processing unit)は、検索部20、キーワード調査部31、キーワードランキング部32及びキーワード抽出部40として機能し、処理を行なう。また、コンピュータに備えられたハードディスク等の記憶装置やメモリ装置は、コンテンツ記憶部10として機能する。
 (実施の形態2)
 次に、本発明の実施の形態2における情報検索装置、情報検索方法及びプログラムが格納された記憶媒体について、図13~図16を参照しながら説明する。最初に、本実施の形態2における情報検索装置の概略構成について図13~図15を用いて説明する。
 図13は、本発明の実施の形態2における情報検索装置の概略構成を示すブロック図である。図14は、図13に示した共通キーワード抽出部によって抽出された共通キーワードの一例を示す図である。図15は、図13に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。
 図12に示すように、本実施の形態2における情報処理装置2は、共通キーワード抽出部33と、共通キーワードランキング部34とを備えており、この点で、実施の形態1における情報処理装置1(図2参照)と異なっている。なお、共通キーワード抽出部33と共通キーワードランキング部34とが備えられている点以外においては、本実施の形態2における情報処理装置2は、実施の形態1における情報処理装置1と同様に構成されている。また、実施形態1と実施の形態2との間で共通の構成要素には、図12において、図2で使用された符号と同一の符号が付されている。以下、相違点について説明する。
 本実施の形態2では、特徴キーワード生成部30は、キーワード調査部31と、キーワードランキング部32とに加えて、共通キーワード抽出部33と、共通キーワードランキング部34とを更に備えている。また、キーワード調査部31は、カテゴリ分類が階層化されている場合は、キーワードがどの階層のどのカテゴリに属するかを調査することもできる。
 共通キーワード抽出部33は、キーワード調査部31による調査の結果に基づいて、キーワード調査部31によって抽出されたキーワードの中から、同一階層にある複数のカテゴリに属するキーワードを、共通キーワードとして抽出する(図14参照)。また、共通キーワード抽出部33は、抽出した共通キーワードを、共通キーワードランキング部34に入力する。
 例えば、共通キーワード抽出部33は、キーワード調査部31の結果が図6に示す例である場合は、キーワード「HDD」と「DVD」とが複数のカテゴリに属しているので、これらを共通キーワードとして抽出する。
 また、共通キーワード抽出部33は、キーワード調査部31の調査結果が図8Aに示す例である場合は、キーワード「HDD」と「チューナー」とが複数のカテゴリに属しているので、これらを共通キーワードとして抽出する。更に、共通キーワード抽出部33は、キーワード調査部31の結果が図8Bに示す例である場合は、キーワード「HDD」のみが複数のカテゴリに属しているので、これを共通キーワードとして抽出する。
 共通キーワードランキング部34は、共通キーワード抽出部33によって複数の共通キーワードが抽出されると、抽出された複数の共通キーワードそれぞれに、共通度合いに応じてランキングを付与する。ここで、「共通度合いに応じてランキングを付与する」とは、より多くのカテゴリに結び付けられる共通キーワード程、ランキングが高くなることを意味する。
 例えば、共通キーワードランキング部34は、検索対象となるコンテンツ集合が、階層化された複数のカテゴリによって分類されている場合は、複数の共通キーワードそれぞれ毎に、共通キーワードが属する複数のカテゴリの階層を求める。そして、共通キーワードランキング部34は、求めた階層に応じてランキングを付与することができる。
 具体的には、共通キーワードランキング部34は、階層の浅いカテゴリ(上層)で重複しているキーワードを、階層の深いカテゴリ(下層)で重複しているキーワードよりも重要度(ランキング)が高いと判定することができる。図8A及び図8Bの例を用いて説明すると、図8A及び図8Bに示すように、共通キーワード「HDD」は第2階層と第3階層で重複している。一方、共通キーワード「チューナー」は第3階層でのみ重複している。
 この場合、共通キーワード「HDD」の重要度は、共通キーワード「チューナー」の重要度よりも高くに設定され、「HDD」のランキングは「チューナー」のランキングよりも高くに設定される。
 また、共通キーワードランキング部34は、共通キーワードが属するカテゴリの数によって、共通キーワードの重要度(ランキング)を決定することもできる。具体的には、共通キーワードランキング部34は、カテゴリの重複数が多いキーワードを、カテゴリの重複数が少ないキーワードよりも重要度が高いと判定することができる。
 図8A及び図8Bに示すように、共通キーワード抽出部33が、共通キーワードとして「HDD」と「チューナー」とを抽出している場合について説明する。図8Aに示すように、共通キーワード「HDD」は第3階層で、「録画」、「EPG」、及び「ダビング」の3つのカテゴリに属している。一方、共通キーワード「チューナー」は第3階層で、「EPG」と「ダビング」との2つのカテゴリに属している。この場合、共通キーワードランキング部33は、共通キーワード「HDD」の重要度を、共通キーワード「チューナー」よりも重要度も高くに設定する。
 更に、共通キーワードランキング部34は、コンテンツ記憶部10に記憶されている、複数のコンテンツ及び複数のキーワードに基づいて、共通キーワード毎に、対応するコンテンツの数を求め、コンテンツの数に応じてランキングを付与することもできる。例えば、共通キーワードランキング部34は、抽出されているコンテンツの数が多い共通キーワードは、抽出されているコンテンツの数が少ない共通キーワードよりも重要度(ランキング)が高いと判定する。
 ここで、図4に示したコンテンツ集合が検索対象であり、ユーザが検索キーワードとして「DVDレコーダ」を入力した例について説明する。この場合、検索部20によって、図4に示すコンテンツC1~C6が検索される。キーワード調査部31は、コンテンツ記憶部10に記憶されている、図7に示すコンテンツとキーワードとの関係を利用して、コンテンツC1~C6に含まれるキーワード「HDD」、「チューナー」及び「DVD-R」を抽出する。
 そして、共通キーワードランキング部34は、コンテンツ記憶部10に記憶されている、図7に示すコンテンツとキーワードとの関係を参照し、「HDD」「チューナー」「DVD-R」それぞれが抽出されているコンテンツ数を算出する。具体的には、この場合、共通キーワード「HDD」は、コンテンツ「C1」「C3」「C6」の3件に対応し、共通キーワード「チューナー」は、コンテンツ「C2」「C5」の2件に対応する。そのため、共通キーワードランキング部34は、「HDD」の重要度を、共通キーワード「チューナー」の重要度よりも高いと判定する。
 また、共通キーワードランキング部34は、検索キーワードの入力回数に基づいて、共通キーワードにランキングを付与することもできる。具体的には、共通キーワードランキング部34は、複数の共通キーワードそれぞれが、過去の検索キーワード(図15参照)と、一致するかどうかを判定し、一致する場合は、検索キーワードとして過去に入力されている回数(入力回数)を求める。
 そして、共通キーワードランキング部34は、求めた入力回数に基づいて、各共通キーワードのランキングを決定する。例えば、共通キーワードランキング部34は、検索キーワードとして入力されている回数の多い共通キーワードを、検索キーワードとして入力されている回数の少ないキーワードよりも重要度が高いと判定する。
 共通キーワードランキング部34は、ランキングが付与された(順位付けされた)複数の共通キーワードを、表示装置60に入力し、図15中の欄181に示すように、ランキングと共に表示画面に表示させる。なお、図15中の欄182は、表示画面に表示された特徴キーワードを示している。特徴キーワードの設定は、実施の形態1におけるそれと同様に行われている。
 また、共通キーワードランキング部34は、表示装置60に共通キーワードを表示させる際に、共通キーワードが、特徴キーワードとしても表示されているかどうか(重複しているかどうか)を判定することができる。更に、共通キーワードランキング部34は、判定の結果、重複している場合は、重複している特徴キーワードの表示態様をそれ以外の特徴キーワードの表示態様と異ならせた状態で、特徴キーワードを表示画面に表示させることができる。
 具体的には、共通キーワードランキング部34は、重複している特徴キーワードの色や、その周辺の色を、他の特徴キーワードのものと変えて表示を行うことができる。図15の例では、カテゴリA(ダビング機能)と、カテゴリB(録画機能)との両方に出現する「HDD」は、共通キーワードとしても抽出されている。よって、共通キーワードランキング部34は、「HDD」の色を他の特徴キーワードの色と異ならせる。そして、複数のカテゴリにまたがっているキーワードは、カテゴリごとに表示される特徴キーワードから検索するよりも、共通キーワードから選択する方が、一度に検索できる。この場合、ユーザは、表示色が変えられた共通キーワードに気づき易く、それを使用すると考えられる。
 次に、本発明の実施の形態2における情報検索方法について図16を用いて説明する。図16は、本発明の実施の形態2における情報検索方法を示すフロー図である。本実施の形態2における情報検索方法は、図13に示した本実施の形態1における情報検索装置2を動作させることによって実施される。このため、本実施の形態2における情報検索方法は、適宜、図13~図15を参酌しながら、図13に示した情報検索装置1の動作と共に説明する。
 図16に示すように、最初に、ステップS201~S207が実行され、特徴キーワードが設定される。ステップS201~S207は、実施の形態1において図12に示したステップS201~S207と同様のステップである。
 次に、共通キーワード抽出部33は、キーワード調査部31による調査結果から、複数のカテゴリに属するキーワードを、共通キーワードとして抽出する(ステップS212)。続いて、共通キーワードランキング部33は、複数の共通キーワードにランキングを付与する(ステップS213)。
 次に、ステップS213の実行後、キーワードランキング部32は、特徴キーワード(ランキング表)を表示画面に表示させ、共通キーワード抽出部33は、共通キーワードを表示画面に表示させる(ステップS214)。本実施の形態2では、表示画面に表示された共通キーワードに加え、特徴キーワードも、ユーザが入力装置50によって選択可能となっている。
 次に、ステップS214の実行後、検索部20は、表示装置60の表示画面に表示された特徴キーワード又は共通キーワードの一つが選択されているかどうかを判定する(ステップS215)。ステップS215は、実施の形態1において図12に示したステップS209と同様のステップである。
 ステップS215の判定の結果、特徴キーワード又は共通キーワードの一つが選択されている場合は、検索部20は、選択された特徴キーワード又は共通キーワードを検索キーワードとしてその入力を受け付ける。そして、検索部20は、コンテンツ記憶部10が記憶している複数のコンテンツの中から、入力を受け付けた特徴キーワード又は共通キーワードに対応するコンテンツを検索する(ステップS217)。ステップS217の実行後は、再度、検索部20は、ステップS204を実行する。
 一方、ステップS215の判定の結果、特徴キーワード又は共通キーワードの一つが選択されていない場合は、検索部20は、処理の終了が指示されているかどうかを判定する(ステップS216)。ステップS216の判定の結果、処理の終了が指示されていない場合は、検索部20は、再度、ステップS203を実行する。一方、ステップS216の判定の結果、処理の終了が指示されている場合は、情報検索装置1における処理は終了する。
 なお、ステップS216は、実施の形態1において図12に示したS210と同様のステップである。また、本実施の形態2においても、ステップS201及びS202は、他のステップと連続して行われている必要はなく、他のステップの実行前であれば何時でも実行できる。
 このように、本実施の形態2においては、複数のカテゴリに重複して現れる共通キーワードと、カテゴリ毎の特徴を示す特徴キーワードとの2種類のキーワードが抽出され、ユーザに表示される。このため、ユーザは、一般的な概念でコンテンツを探したい場合は共通キーワードを利用でき、各カテゴリにおける代表的な内容でコンテンツを探したい場合は特徴キーワードを利用でき、目的に応じてコンテンツを絞り込むことができる。
 共通キーワードは、特に、複数のカテゴリが階層化され、ユーザがカテゴリ選択に迷ったり、カテゴリ選択を間違ったりして、何度も階層をさかのぼらなければならない場合に、有効である。共通キーワードは、ユーザの手間の軽減を図ることができる。
 また、本実施の形態2においては、特徴キーワード及び共通キーワードが生成された後は、選択された特徴キーワード又は共通キーワードを検索キーワードとして新たに処理が行われる。そして、本実施の形態2においても、処理の繰り返しにより、ユーザの望むコンテンツを検索できる可能性は高められていくことになる。
 本実施の形態2におけるプログラムが格納された記憶媒体は、コンピュータに、図16に示すステップS201~S207、S212~S217を実行させるプログラムが格納された記憶媒体であれば良い。また、本実施の形態2におけるプログラムをコンピュータにインストールし、これを実行すれば、本実施の形態2における情報処理装置1が実現される。
 この場合、コンピュータのCPU(central processing unit)は、検索部20、キーワード調査部31、キーワードランキング部32、共通キーワード抽出部33、共通キーワードランキング部33及びキーワード抽出部40として機能し、処理を行なう。また、コンピュータに備えられたハードディスク等の記憶装置やメモリ装置は、コンテンツ記憶部10として機能する。
 (実施の形態3)
 次に、本発明の実施の形態3における情報検索装置、情報検索方法及びプログラムが格納された記憶媒体について、図17~図20を参照しながら説明する。図17は、本発明の実施の形態3における情報検索装置の概略構成を示すブロック図である。図18Aは、重複キーワードが特定された共通キーワードの一例を示す図であり、図18Bは、重複キーワードが特定された特徴キーワードの一例を示す図である。図19は、図17に示した情報検索装置に接続された表示装置の表示画面の一例を示す図である。図20は、図17に示すキーワード分類部35における処理を示すフロー図である。
 図17に示すように、本実施の形態3における情報処理装置3は、キーワード分類部35を備えており、この点で、実施の形態2における情報処理装置(図13参照)と異なっている。なお、キーワード分類部35が備えられている点以外においては、実施の形態3における情報処理装置3は、実施の形態2における情報処理装置2と同様に構成されている。また、実施形態2と実施の形態3との間で共通の構成要素には、図17において、図12で使用された符号と同一の符号が付されている。以下、相違点について説明する。
 本実施の形態3では、特徴キーワード生成部30は、キーワード調査部31と、キーワードランキング部32と、共通キーワード抽出部33と、共通キーワードランキング部34とに加えて、キーワード分類部35を更に備えている。
 キーワード分類部35は、キーワードランキング部32が設定した特徴キーワードと、共通キーワード抽出部33が抽出した共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定する。実際には、キーワード分類部35は、キーワードランキング部32からの出力と、共通キーワードランキング部34からの出力とを比較する。
 また、本実施の形態3では、キーワード分類部35は、重複キーワードを共通キーワードとみなし、特徴キーワードのランキング表から重複キーワードに該当するキーワードを削除することができる。
 例えば、共通キーワードランキング部34が、図18Aに示すランキング結果を出力し、キーワードランキング部33が、図18Bに示すランキング結果をカテゴリA及びカテゴリBについて出力しているとする。この場合、共通キーワードとカテゴリAの特徴キーワードとを対比すると、「HDD」、「DVD」、及び「VTR」の3つのキーワードが重複している。また、共通キーワードとカテゴリBの特徴キーワードとを対比すると、「HDD」、「DVD」、「VTR」、「録画」及び「録画時間」の5つのキーワードが重複している。
 そこで、キーワード分類部35は、重複キーワードである「HDD」、「DVD」、「VTR」、「録画」及び「録画時間」を共通キーワードとし、カテゴリAの特徴キーワードから、「HDD」、「DVD」及び「VTR」を削除する。また、キーワード分類部35は、カテゴリBの特徴キーワードからは、「HDD」、「DVD」、「VTR」、「録画」、「録画時間」を削除する。
 また、キーワード分類部35は、表示装置60の表示画面に、図19に示すように、重複キーワード削除された状態で、特徴キーワードのランキング表を表示させる。このように、本実施の形態3では、「HDD」「DVD」「録画」などのキーワードが重複して表示される場合があった実施の形態2(図15参照)と異なり、共通キーワードと特徴キーワードとの間で重複するキーワードが表示されないようになっている。
 このため、本実施の形態3によれば、複数のカテゴリに重複して現れる共通キーワードと、カテゴリ毎の特徴を示す特徴キーワードとの2種類のキーワードが重複せずに表示され。この結果、ユーザがどちらのキーワードを選択すべきかで混乱してしまう事態の発生が抑制される。ユーザは、一般的な概念でコンテンツを探したい場合は共通キーワードを利用し、各カテゴリにおける代表的な内容でコンテンツを探したい場合は特徴キーワードを利用でき、目的に応じてコンテンツを絞り込むことができる。
 本実施の形態3において、キーワード分類部35は、重複している特徴キーワードを削除する代わりに、その表示態様をそれ以外の特徴キーワードの表示態様と異ならせた状態で、特徴キーワードを表示画面に表示させることができる。具体的には、キーワード分類部35は、重複している特徴キーワードの色や、その周辺の色を、他の特徴キーワードのものと変えて表示を行うことができる。また、キーワード分類部35は、共通キーワードにおいて、重複キーワードを削除したり、表示態様を変えたりすることもできる。
 また、本実施の形態3における情報検索方法は、実施の形態2における情報検索方法と同様に、図16に示したフロー図に沿って実行される。但し、本実施の形態3は、キーワード分類部35によって表示が行われるため、図16におけるステップS214はキーワード分類部35によって実行される。具体的には、ステップS214として、図20に示す処理が行われる。なお、それ以外のステップは、実施の形態2と同様に実行される。
 ここで、図20に示す処理について説明する。図20に示すように、先ず、キーワード分類部35は、キーワードランキング部32からの出力と、共通キーワードランキング部34からの出力とを比較し、重複キーワードを特定する(ステップS2101)。
 次に、キーワード分類部35は、重複キーワードを共通キーワードとみなし、特徴キーワードのランキング表から重複キーワードに該当する特徴キーワードを特定し(ステップS2102)、特定したキーワードを削除する(S2103)。
 その後、キーワード分類部35は、図16に示したステップS212で抽出され、ステップS212でランキングが付与された共通キーワードと、ステップS2103で重複キーワードが削除された特徴キーワードとを表示装置60に向けて出力する(S2104)。これにより、表示装置60の表示画面には、図19に示す結果が表示される。
 また、本実施の形態3におけるプログラムが格納された記憶媒体は、コンピュータに、図16に示すステップS201~S207、S212~S217、及び図20に示したステップS2101~S2104を実行させるプログラムが格納された記憶媒体であれば良い。本実施の形態3では、コンピュータのCPU(central processing unit)は、実施の形態2と異なり、更に、キーワード分類部35としても機能し、処理を行う。
 (実施の形態4)
 次に、本発明の実施の形態4における情報検索装置、情報検索方法及びプログラムが格納された記憶媒体について、図21及び図22を参照しながら説明する。図21は、本発明の実施の形態4における情報検索装置を構成している、キーワード分類部によって行われる処理を示す府ローズである。図22Aは、キーワード分類部によって処理された共通キーワードの一例を示し、図22Bは、キーワード分類部によって処理された特徴キーワードの一例を示している。図23は、本発明の実施の形態4における情報検索装置に接続された表示装置の表示画面の一例を示す図である。
 本実施の形態4における情報処理装置は、キーワード分類部における処理の点で、実施の形態3における情報処理装置3(図17参照)と異なっている。それ以外の点では、本実施の形態4における情報処理装置は、実施の形態3における情報処理装置3と同様に構成されている。本実施の形態4における情報処理装置のブロック図も、実施の形態3で用いた図17に示されたブロック図と同様となる。
 また、本実施の形態4における情報検索方法も、実施の形態3における情報検索方法と同様に、図16に示したフロー図に沿って実行される。なお、図16におけるステップS214は、実施の形態3の場合と異なっている。以下、相違点について説明する。
 本実施の形態4においても、実施の形態3と同様に、キーワード分類部35(図17参照)は、重複キーワードを特定する。但し、本実施の形態4では、キーワード分類部35は、重複キーワードの特徴キーワードにおけるランキングと、重複キーワードの共通キーワードにおけるランキングとに応じて、いずれかのランキング表から、重複キーワードを削除する。
 具体的には、図21に示すように、先ず、キーワード分類部35は、キーワードランキング部32からの出力と、共通キーワードランキング部34からの出力とを比較し、重複キーワードを特定する(ステップS2111)。このステップS2111は、図20に示したステップS2101と同様のステップである。
 例えば、共通キーワードランキング部34が、図14に示すランキング結果を出力し、キーワードランキング部33が、カテゴリA及びBについて図10A及び図10Bに示すランキング結果を出力しているとする。この場合、重複キーワードは、「HDD」、「DVD」、「VTR」、「録画」及び「録画時間」となる。
 次に、キーワード分類部35は、各重複キーワードについて、共通キーワードにおけるランキング順位が閾値以下かどうか(設定された順位以上に上位であるか)を判定する(S2112)。ここで、閾値としては、例えば、共通キーワードを一画面に表示できる数を用いることができる。本実施の形態では、例えば、閾値は「6」に設定される。この場合、重複キーワードの「HDD」の共通キーワードランキングの順位は1であり、閾値6以下であると判定される(図22A参照)。同様に、重複キーワード「DVD」、「VTR」、「録画」の順位も、閾値6以下であると判定される(図22A参照)。
 ステップS2112の判定の結果、重複キーワードの順位が閾値以下である場合は、キーワード分類部35は、この重複キーワードを共通キーワードとし、該当するキーワードを特徴キーワードのランキング結果から削除する(S2113)。例えば、S2112で共通キーワードのランキング順位が閾値以下であった「HDD」、「DVD」、「VTR」、及び「録画」は共通キーワードとされる。そして、カテゴリAの特徴キーワードのランキング結果から、「DVD」、「HDD」、「VTR」は削除される(図22B参照)。また、カテゴリBの特徴キーワードのランキング結果から、「HDD」、「録画」、「DVD」、「VTR」は削除される(図22B参照)。
 一方、ステップS2112の判定の結果、重複キーワードの順位が閾値以下でない場合は、ステップS2114が実行される。ステップS2114では、キーワード分類部35は、重複キーワードについて、特徴キーワードにおけるランキング順位が閾値以下となるカテゴリが1つ以上存在するかどうかを判定する。
 例えば、共通キーワードのランキング順位が閾値6より大きな重複キーワード「録画時間」について、キーワード分類部35は、カテゴリAとカテゴリBとについて特徴キーワードのランキング順位を調べる。カテゴリAについては「録画時間」に該当するキーワードは存在しないが、カテゴリBについては、「録画時間」の特徴キーワードとしてのランキング順位は2位となる。ここで、閾値としては、例えば、各カテゴリの特徴キーワードを一画面に表示できる数を採用することができ、本実施の形態4では、閾値は4に設定できる。この場合、重複キーワード「録画時間」の、特徴キーワードにおけるランキング順位2は閾値4以下となる。
 ステップS2114の判定の結果、キーワード分類部35は、重複キーワードを特徴キーワードとする(ステップS2115)。更に、キーワード分類部35は、該当するキーワードを共通キーワードのランキング結果から削除する。例えば、キーワード分類部35は、S2114で特徴キーワードのランキング順位が閾値以下であった「録画時間」を、特徴キーワードとし、共通キーワードのランキング結果から削除する。
 一方、ステップS2114の判定の結果、重複キーワードの特徴キーワードにおけるランキング順位が閾値よりも大きい場合は、キーワード分類部35は、重複キーワードを共通キーワードとし、該当するキーワードを特徴キーワードのランキング結果から削除する(ステップS2116)。
 その後、キーワード分類部35は、全ての重複キーワードについて処理が終了しているかどうか判定する(ステップS2117)。判定の結果、全ての重複キーワードについて処理が終了していない場合は、再度、ステップS2112以降を実行する。一方、全ての重複キーワードについて処理が終了している場合は、キーワード分類部35は、ステップS2118を実行する。
 ステップS2118では、キーワード分類部35は、処理が行われた共通キーワード及び特徴キーワードを表示装置60に向けて出力し、その後、処理を終了する。これにより、表示装置60の表示画面には、図23に示す結果が表示される。
 このように、本実施の形態4においても、「HDD」「DVD」「録画」などのキーワードが重複して表示される実施の形態2(図19参照)と異なり、共通キーワードと特徴キーワードとの間で重複するキーワードの表示は省略される。また、本実施の形態4によれば、実施の形態3よりも、複数カテゴリに共通しているキーワードのうち共通性の高いキーワードは共通キーワードとして表示される傾向が強くなる。更に、本実施の形態4によれば、実施の形態3よりも、各カテゴリの特徴キーワードとしての性質が大きいキーワードは、特徴キーワードとして表示される傾向が強くなる。例えば、図22Bに示すようにカテゴリB(録画機能)の中の特徴キーワードとしてランキング順位が高い「録画時間」というキーワードは、共通キーワードではなく、カテゴリBの特徴キーワードとして表示されている。
 以上のように、本実施の形態4によれば、実施の形態3と同様に、複数のカテゴリに重複して現れる共通キーワードと、カテゴリ毎の特徴を示す特徴キーワードとの2種類のキーワードは、重複しないで表示される。この結果、ユーザがどちらのキーワードを選択すべきかで混乱してしまう事態の発生が抑制される。ユーザは、一般的な概念でコンテンツを探したい場合は共通キーワードを利用でき、各カテゴリにおける代表的な内容でコンテンツを探したい場合は特徴キーワードを利用でき、目的に応じてコンテンツを絞り込むことができる。
 (実施の形態5)
 次に、本発明の実施の形態5における情報検索装置、情報検索方法及びプログラムが格納された記憶媒体について、図24及び図25を参照しながら説明する。図24は、本発明の実施の形態5における情報検索装置の概略構成を示すブロック図である。図25は、図24に示した情報検索装置に接続された表示装置の表示画面の一例を示す図であり、図25Aではランキングが上位の共通キーワードが表示されており、図25Bではランキングが下位の共通キーワードが表示されている。
 図24に示すように、本実施の形態5における情報処理装置4は、図13に示した実施の形態2に示した情報処理装置2の構成からキーワードランキング部32を取り除いた構成を備えている。このため、本実施の形態5においては、特徴キーワードの設定は行われず、図25に示すように、共通キーワードのみが表示装置60の表示画面に表示される。なお、上記の点以外については、本実施の形態5における情報処理装置4は、実施の形態2における情報処理装置2と同様に構成されている。
 このように本実施の形態5では、複数のカテゴリに含まれているコンテンツを効率的に探すための共通キーワードのみが表示される。この共通キーワードは、ユーザがカテゴリ選択に迷ったり、カテゴリ選択を間違って何度も階層をさかのぼったりする場合に有効である。本実施の形態5は、上記の問題解決のみを目的とする場合に有効である。
 以上に説明した本発明にかかる情報検索装置は、上述の実施の形態の機能を実現するプログラムを記憶した記憶媒体をシステムもしくは装置に供給し、システムあるいは装置の有するコンピュータ又はCPU(Central Processing Unit)、MPU(Micro Processing Unit)がこのプログラムを実行することによって、構成することが可能である。
 また、このプログラムは様々な種類の記憶媒体に格納することが可能であり、通信媒体を介して伝達されることが可能である。ここで、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)、BD(Blu-ray Disc)、ROM(Read Only Memory)カートリッジ、バッテリバックアップ付きRAM(Random Access Memory)メモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジを含む。また、通信媒体には、電話回線の有線通信媒体、マイクロ波回線の無線通信媒体を含み、インターネットも含まれる。
 また、コンピュータが上述の実施の形態の機能を実現するプログラムを実行することにより、上述の実施の形態の機能が実現されるだけではなく、このプログラムの指示に基づき、コンピュータ上で稼動しているOS(Operating System)もしくはアプリケーションソフトと共同して上述の実施の形態の機能が実現される場合も、発明の実施の形態に含まれる。
 さらに、このプログラムの処理の全てもしくは一部がコンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットにより行われて上述の実施の形態の機能が実現される場合も、発明の実施の形態に含まれる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年11月28日に出願された日本出願特願2008-305552を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上のように、本発明によれば、複数のカテゴリで分類された、FAQや商品情報などのコンテンツ集合を管理している、ポータルサイトや、受付業務部門において、効率の良い検索が可能となる。本発明は、特に、検索支援という用途等に適用でき、産業上の利用可能性を有するものである。
 10 コンテンツ記憶部
 20 検索部
 30 共通キーワード生成部
 31 キーワード調査部
 32 キーワードランキング部
 33 共通キーワード抽出部
 34 共通キーワードランキング部
 35 キーワード分類部
 40 キーワード抽出部
 50 入力部
 60 表示装置
 70 データベース

Claims (27)

  1.  複数のカテゴリで分類されている複数のコンテンツと、前記複数のコンテンツいずれかの属性を表現する複数のキーワードと、前記複数のカテゴリとを記憶するコンテンツ記憶手段と、
     外部からの検索キーワードの入力を受け付け、前記コンテンツ記憶手段に記憶されている前記複数のコンテンツから、前記検索キーワードを含むコンテンツを検索する検索手段と、
     前記コンテンツ記憶手段に記憶されている前記複数のキーワードから、前記検索手段によって検索されたコンテンツの属性を表現するキーワードを抽出し、抽出された前記キーワードが属するカテゴリを少なくとも調査するキーワード調査手段と、
     前記カテゴリ毎に、抽出された前記キーワードにランキングを付与するキーワードランキング手段とを備え、
     前記キーワードランキング手段は、前記キーワード調査手段による調査の結果から、抽出された前記キーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求め、更に、求めた前記カテゴリの数と前記コンテンツの数とに基づいて、前記ランキングを付与する、ことを特徴とする情報検索装置。
  2.  前記キーワードランキング手段が、前記コンテンツの数を、前記カテゴリの数又は前記カテゴリの数から算出された数値によって除算し、得られた除算値に基づいて、前記ランキングを付与する、請求項1に記載の情報検索装置。
  3.  キーワード抽出手段を、更に備え、
     前記キーワード抽出手段は、検索対象となる前記複数のコンテンツが格納されている外手段のデータベースから、前記複数のコンテンツそれぞれの属性を表現し、且つ、前記複数のカテゴリのいずれかに属するキーワードを抽出し、抽出した前記キーワードを前記コンテンツ記憶手段に記憶させる、請求項1または2に記載の情報検索装置。
  4.  前記キーワード抽出手段は、前記データベースに格納されている前記複数のコンテンツそれぞれ毎に、当該コンテンツに含まれる文章を単語に分割し、分割によって得られた各単語を前記キーワードとして抽出する、請求項3に記載の情報検索装置。
  5.  検索対象となる前記複数のコンテンツが、階層化された複数のカテゴリで分類された状態で、前記データベースに格納されている場合に、
     前記キーワード抽出手段は、前記データベースに格納されている前記複数のコンテンツそれぞれについて、当該コンテンツに関連付けられている最下層のカテゴリを求め、求めた前記カテゴリを前記キーワードとして抽出する、請求項3に記載の情報検索装置。
  6.  共通キーワード抽出手段を、更に備え、
     前記共通キーワード抽出手段は、前記キーワード調査手段による調査の結果に基づいて、前記キーワード調査手段によって抽出された前記キーワードの中から、複数のカテゴリに属するキーワードを、共通キーワードとして抽出する、請求項1から請求項5のいずれかに記載の情報検索装置。
  7.  キーワード分類手段を、更に備え、
     前記キーワードランキング手段は、前記ランキングが付与されたキーワードのうち、付与されたランキングが予め設定された順位となったキーワードを、特徴キーワードに設定し、更に、設定された前記特徴キーワードによってランキング表を生成し、
     前記キーワード分類手段は、前記特徴キーワードと、前記共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、更に、前記特徴キーワードのランキング表から前記重複キーワードに該当するキーワードを削除する、請求項6に記載の情報検索装置。
  8.  キーワード分類手段を、更に備え、
     前記キーワードランキング手段は、前記ランキングが付与されたキーワードのうち、予め設定されたランキングが付与されているキーワードを、特徴キーワードに設定し、更に、設定された前記特徴キーワードによってランキング表を生成し、
     前記共通キーワード抽出手段は、複数の共通キーワードが抽出されている場合に、抽出された前記複数の共通キーワードそれぞれに、共通度合いに応じてランキングを付与し、更に、前記複数の共通キーワードによってランキング表を生成し、
     前記キーワード分類手段は、前記共通キーワードランキング手段が設定した前記特徴キーワードと、前記共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、更に、前記重複キーワードの前記特徴キーワードにおけるランキングと、前記重複キーワードの前記共通キーワードにおけるランキングとに応じて、前記共通キーワードのランキング表又は前記特徴キーワードのランキング表から、重複キーワードを削除する、請求項6に記載の情報検索装置。
  9.  キーワード分類手段を、更に備え、
     前記キーワードランキング手段は、前記ランキングが付与されたキーワードのうち、予め設定されたランキングが付与されているキーワードを、特徴キーワードに設定し、
     前記キーワード分類手段は、前記特徴キーワードと、前記共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、更に、前記重複キーワードが外手段の表示装置の表示画面に表示される際に、前記重複キーワードの表示態様をそれ以外のキーワードの表示態様と異ならせる、請求項6に記載の情報検索装置。
  10.  (a)複数のカテゴリで分類されている複数のコンテンツと、前記複数のコンテンツいずれかの属性を表現する複数のキーワードと、前記複数のカテゴリとを記憶し、
     (b)外部からの検索キーワードの入力を受け付け、前記(a)の処理で記憶されている前記複数のコンテンツから、前記検索キーワードを含むコンテンツを検索し、
     (c)前記(a)の処理で記憶されている前記複数のキーワードから、前記(b)の処理で検索されたコンテンツの属性を表現するキーワードを抽出し、抽出された前記キーワードが属するカテゴリを少なくとも調査し、
     (d)前記(c)の処理による調査の結果から、抽出された前記キーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求め、更に、求めた前記カテゴリの数と前記コンテンツの数とに基づいて、前記カテゴリ毎に、抽出された前記キーワードに前記ランキングを付与する、ことを特徴とする情報検索方法。
  11.  前記(d)の処理で、前記コンテンツの数を、前記カテゴリの数又は前記カテゴリの数から算出された数値によって除算し、得られた除算値に基づいて、前記ランキングを付与する、請求項10に記載の情報検索方法。
  12.  (e)検索対象となる前記複数のコンテンツが格納されている外部のデータベースから、前記複数のコンテンツそれぞれの属性を表現し、且つ、前記複数のカテゴリのいずれかに属するキーワードを、前記(a)の処理で記憶させるために、抽出する処理を、更に有する、請求項10または11に記載の情報検索方法。
  13.  前記(e)の処理で、前記データベースに格納されている前記複数のコンテンツそれぞれ毎に、当該コンテンツに含まれる文章を単語に分割し、分割によって得られた各単語を前記キーワードとして抽出する、請求項12に記載の情報検索方法。
  14.  前記検索対象となる前記複数のコンテンツが、階層化された複数のカテゴリで分類された状態で、前記データベースに格納されている場合に、
     前記(e)の処理で、前記データベースに格納されている前記複数のコンテンツそれぞれについて、当該コンテンツに関連付けられている最下層のカテゴリを求め、求めた前記カテゴリを前記キーワードとして抽出する、請求項12に記載の情報検索方法。
  15.  (f)前記(c)の処理による調査の結果に基づいて、前記(c)の処理で抽出された前記キーワードの中から、複数のカテゴリに属するキーワードを、共通キーワードとして抽出する、処理を更に有する、請求項10から請求項14のいずれかに記載の情報検索方法。
  16.  前記(d)の処理で、前記ランキングが付与されたキーワードのうち、付与されたランキングが予め設定された順位となったキーワードを、特徴キーワードに設定し、更に、設定された前記特徴キーワードによってランキング表を生成し、
     更に、前記(d)の処理で設定された特徴キーワードと、前記(f)の処理で抽出された共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、そして、前記特徴キーワードのランキング表から前記重複キーワードに該当するキーワードを削除する、請求項15に記載の情報検索方法。
  17.  前記(d)の処理で、前記ランキングが付与されたキーワードのうち、予め設定されたランキングが付与されているキーワードを、特徴キーワードに設定し、更に、設定された前記特徴キーワードによってランキング表を生成し、
     前記(f)の処理で、複数の共通キーワードが抽出されている場合に、抽出された前記複数の共通キーワードそれぞれに、共通度合いに応じてランキングを付与し、更に、前記複数の共通キーワードによってランキング表を生成し、
     更に、前記(d)の処理で設定された特徴キーワードと、前記(f)の処理で抽出された共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、そして、前記重複キーワードの前記特徴キーワードにおけるランキングと、前記重複キーワードの前記共通キーワードにおけるランキングとに応じて、前記共通キーワードのランキング表又は前記特徴キーワードのランキング表から、重複キーワードを削除する、処理を有する、請求項15に記載の情報検索方法。
  18.  前記(d)の処理で、前記ランキングが付与されたキーワードのうち、予め設定されたランキングが付与されているキーワードを、特徴キーワードに設定し、
     更に、前記(d)の処理で設定された前記特徴キーワードと、前記(f)の処理で抽出された共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、更に、前記重複キーワードの表示態様をそれ以外のキーワードの表示態様と異ならせた状態で、前記重複キーワードとそれ以外のキーワードとを表示装置の表示画面に表示させる、請求項15に記載の情報検索方法。
  19.  (a)複数のカテゴリで分類されている複数のコンテンツと、前記複数のコンテンツいずれかの属性を表現する複数のキーワードと、前記複数のカテゴリとを記憶し、
     (b)外部からの検索キーワードの入力を受け付け、前記(a)の処理で記憶されている前記複数のコンテンツから、前記検索キーワードを含むコンテンツを検索し、
     (c)前記(a)の処理で記憶されている前記複数のキーワードから、前記(b)の処理で検索されたコンテンツの属性を表現するキーワードを抽出し、抽出された前記キーワードが属するカテゴリを少なくとも調査し、
     (d)前記(c)の処理による調査の結果から、抽出された前記キーワード毎に、各キーワードが属するカテゴリの数と、各キーワードが属性を表現するコンテンツの数とを求め、更に、求めた前記カテゴリの数と前記コンテンツの数とに基づいて、前記カテゴリ毎に、抽出された前記キーワードに前記ランキングを付与する処理をコンピュータに実行させるプログラムが格納された記憶媒体。
  20.  前記(d)の処理で、前記コンテンツの数を、前記カテゴリの数又は前記カテゴリの数から算出された数値によって除算し、得られた除算値に基づいて、前記ランキングを付与する、請求項19に記載のプログラムが格納された記憶媒体。
  21.  (e)検索対象となる前記複数のコンテンツが格納されている外部のデータベースから、前記複数のコンテンツそれぞれの属性を表現し、且つ、前記複数のカテゴリのいずれかに属するキーワードを、前記(a)の処理で記憶させるために、抽出する処理を、前記コンピュータに更に実行させる、請求項19または20に記載のプログラムが格納された記憶媒体。
  22.  前記(e)の処理で、前記データベースに格納されている前記複数のコンテンツそれぞれ毎に、当該コンテンツに含まれる文章を単語に分割し、分割によって得られた各単語を前記キーワードとして抽出する、請求項21に記載のプログラムが格納された記憶媒体。
  23.  前記検索対象となる前記複数のコンテンツが、階層化された複数のカテゴリで分類された状態で、前記データベースに格納されている場合に、
     前記(e)の処理で、前記データベースに格納されている前記複数のコンテンツそれぞれについて、当該コンテンツに関連付けられている最下層のカテゴリを求め、求めた前記カテゴリを前記キーワードとして抽出する、請求項21に記載のプログラムが格納された記憶媒体。
  24.  (f)前記(c)の処理による調査の結果に基づいて、前記(c)の処理で抽出された前記キーワードの中から、複数のカテゴリに属するキーワードを、共通キーワードとして抽出する処理を、更にコンピュータに実行させる、請求項19から請求項23のいずれかに記載のプログラムが格納された記憶媒体。
  25.  前記(d)の処理で、前記ランキングが付与されたキーワードのうち、付与されたランキングが予め設定された順位となったキーワードを、特徴キーワードに設定し、更に、設定された前記特徴キーワードによってランキング表を生成し、
     更に、前記(d)の処理で設定された特徴キーワードと、前記(f)の処理で抽出された共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、そして、前記特徴キーワードのランキング表から前記重複キーワードに該当するキーワードを削除する処理を、コンピュータに実行させる、請求項24に記載のプログラムが格納された記憶媒体。
  26.  前記(d)の処理で、前記ランキングが付与されたキーワードのうち、予め設定されたランキングが付与されているキーワードを、特徴キーワードに設定し、更に、設定された前記特徴キーワードによってランキング表を生成し、
     前記(f)の処理で、複数の共通キーワードが抽出されている場合に、抽出された前記複数の共通キーワードそれぞれに、共通度合いに応じてランキングを付与し、更に、前記複数の共通キーワードによってランキング表を生成し、
     更に、前記(d)の処理で設定された特徴キーワードと、前記(f)の処理で抽出された共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、そして、前記重複キーワードの前記特徴キーワードにおけるランキングと、前記重複キーワードの前記共通キーワードにおけるランキングとに応じて、前記共通キーワードのランキング表又は前記特徴キーワードのランキング表から、重複キーワードを削除する処理を、コンピュータに実行させる、請求項24に記載のプログラムが格納された記憶媒体。
  27.  前記(d)の処理で、前記ランキングが付与されたキーワードのうち、予め設定されたランキングが付与されているキーワードを、特徴キーワードに設定し、
     更に、前記(d)の処理で設定された前記特徴キーワードと、前記(f)の処理で抽出された共通キーワードとを対比して、両者において重複するキーワードを、重複キーワードとして特定し、更に、前記重複キーワードの表示態様をそれ以外のキーワードの表示態様と異ならせた状態で、前記重複キーワードとそれ以外のキーワードとを表示装置の表示画面に表示させる処理を、コンピュータに実行させる、請求項24に記載のプログラムが格納された記憶媒体。
PCT/JP2009/005887 2008-11-28 2009-11-05 情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体 WO2010061535A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010540321A JP5516416B2 (ja) 2008-11-28 2009-11-05 情報検索装置、情報検索方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008305552 2008-11-28
JP2008-305552 2008-11-28

Publications (1)

Publication Number Publication Date
WO2010061535A1 true WO2010061535A1 (ja) 2010-06-03

Family

ID=42225425

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/005887 WO2010061535A1 (ja) 2008-11-28 2009-11-05 情報検索装置、情報検索方法、及びプログラムが格納された記憶媒体

Country Status (2)

Country Link
JP (1) JP5516416B2 (ja)
WO (1) WO2010061535A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191204A (ja) * 2012-02-15 2013-09-26 Rakuten Inc カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
WO2013185300A1 (en) * 2012-06-12 2013-12-19 Google Inc. Obtaining alternative keywords
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置
JP2016532173A (ja) * 2013-09-29 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
JP2018509714A (ja) * 2015-05-15 2018-04-05 ネイバー コーポレーションNAVER Corporation 検索語リスト提供装置、及びそれを利用した方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
JP2002189738A (ja) * 2000-12-21 2002-07-05 Inpatekku Kk 特許情報等のキーワード分析方法及びキーワード分析装置
JP2005115753A (ja) * 2003-10-09 2005-04-28 Sharp Corp 検索結果処理装置、検索結果処理方法、検索結果処理プログラム、記録媒体及び検索結果処理システム
JP2006004283A (ja) * 2004-06-18 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> テキスト情報源からのキーワード抽出・絞り込み方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
JP2002189738A (ja) * 2000-12-21 2002-07-05 Inpatekku Kk 特許情報等のキーワード分析方法及びキーワード分析装置
JP2005115753A (ja) * 2003-10-09 2005-04-28 Sharp Corp 検索結果処理装置、検索結果処理方法、検索結果処理プログラム、記録媒体及び検索結果処理システム
JP2006004283A (ja) * 2004-06-18 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> テキスト情報源からのキーワード抽出・絞り込み方法およびシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TATSUHIKO SUGIYAMA ET AL.: "Sankasha Katsudo Tokusei o Han'ei shita Directry-gata Web Joho Kensaku Service no Kosei Hoho", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J84-B, no. 9, 1 September 2001 (2001-09-01), pages 1643 - 1653 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191204A (ja) * 2012-02-15 2013-09-26 Rakuten Inc カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
WO2013185300A1 (en) * 2012-06-12 2013-12-19 Google Inc. Obtaining alternative keywords
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置
JP2016532173A (ja) * 2013-09-29 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
US10268758B2 (en) 2013-09-29 2019-04-23 Peking University Founder Group Co. Ltd. Method and system of acquiring semantic information, keyword expansion and keyword search thereof
JP2018509714A (ja) * 2015-05-15 2018-04-05 ネイバー コーポレーションNAVER Corporation 検索語リスト提供装置、及びそれを利用した方法

Also Published As

Publication number Publication date
JPWO2010061535A1 (ja) 2012-04-19
JP5516416B2 (ja) 2014-06-11

Similar Documents

Publication Publication Date Title
CN101606155B (zh) 内容检索装置
KR100763180B1 (ko) 메타 데이터를 이용한 브라우징 방법 및 장치
KR101648204B1 (ko) 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터 생성
JP4977589B2 (ja) 固有表現抽出装置、固有表現抽出方法、及びプログラム
JP5226240B2 (ja) メタデータを利用したメディアコンテンツの探索装置および方法
US8090715B2 (en) Method and system for dynamically generating a search result
US20080140655A1 (en) Systems and Methods for Storing, Maintaining and Providing Access to Information
US9875245B2 (en) Content item recommendations based on content attribute sequence
JP2006510997A (ja) メディアファイルのデータベース管理方法及びシステム
US20080147632A1 (en) System and Method for Providing Persistent Refined Intermediate Results Selected from Dynamic Iterative Filtering
JP2005285127A5 (ja)
EP1315103B1 (en) File search method and apparatus, and index file creation method and device
JP5516416B2 (ja) 情報検索装置、情報検索方法、及びプログラム
US7587407B2 (en) System and method for creation, representation, and delivery of document corpus entity co-occurrence information
JP5494493B2 (ja) 情報検索装置、情報検索方法、及びプログラム
US9208150B2 (en) Automatic association of informational entities
US20160086499A1 (en) Knowledge brokering and knowledge campaigns
JP2006350477A (ja) ファイル管理装置及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
US20070294211A1 (en) Apparatus and method for browsing contents
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
US20070005617A1 (en) Display control method, content data reproduction apparatus, and program
JP2011164830A (ja) グラフ可視化装置及びグラフ可視化方法及びグラフ可視化プログラム
JP2004287835A (ja) オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法
JP6973468B2 (ja) 情報処理装置及び情報処理プログラム
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09828785

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010540321

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09828785

Country of ref document: EP

Kind code of ref document: A1