WO2016135905A1 - 情報処理システム及び情報処理方法 - Google Patents

情報処理システム及び情報処理方法 Download PDF

Info

Publication number
WO2016135905A1
WO2016135905A1 PCT/JP2015/055481 JP2015055481W WO2016135905A1 WO 2016135905 A1 WO2016135905 A1 WO 2016135905A1 JP 2015055481 W JP2015055481 W JP 2015055481W WO 2016135905 A1 WO2016135905 A1 WO 2016135905A1
Authority
WO
WIPO (PCT)
Prior art keywords
evaluation
expression
evaluation expression
data
information processing
Prior art date
Application number
PCT/JP2015/055481
Other languages
English (en)
French (fr)
Inventor
利昇 三好
潔人 伊藤
石井 智之
峰雄 千田
嘉治 永島
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US15/551,747 priority Critical patent/US10671619B2/en
Priority to JP2017501757A priority patent/JP6381775B2/ja
Priority to PCT/JP2015/055481 priority patent/WO2016135905A1/ja
Publication of WO2016135905A1 publication Critical patent/WO2016135905A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Definitions

  • the present invention relates to a technique for presenting information to a user.
  • the user is requested to input a keyword such as a word or a phrase, and a document, a Web page, a part of a sentence, a photograph, sound, or product information that is closely related to the keyword is presented.
  • Information retrieval methods are widely used to extract information required by users from a large amount of media information such as documents or images. Further, there are techniques such as a similar search and an associative search in which not only a keyword input by a user but also information including a synonym and a word closely related thereto are searched.
  • the estimation and presentation method is widely used as a recommendation technique, and in particular, a technique such as collaborative filtering is used.
  • one aspect of the present invention is a memory that stores evaluation data that associates each of a plurality of objects with a plurality of evaluation expressions, and evaluation expression relation data that indicates a relationship between the evaluation expressions.
  • a question generation unit that generates and outputs a question based on the evaluation data and the evaluation expression relation data, and when an answer to the question is input, the target included in the evaluation data based on the answer
  • a matching unit that outputs the above information.
  • the information presentation system is a system that narrows down and presents information requested by a user based on a question response with the user.
  • the search target information is a document, an image, sound, or other data.
  • FIG. 2 is a block diagram showing an example of a computer constituting the information presentation system of this embodiment.
  • the computer 201 constituting the information presentation system of the present embodiment includes an input device 202, a display device 203, a communication device 204, a computing device (CPU) 205, and an external storage device 206.
  • the input device 202 is a keyboard and mouse for inputting commands and the like.
  • the input device 202 is a device for inputting a command executed for control of a program executed by the arithmetic unit (CPU) 205 and other control of connected devices.
  • CPU arithmetic unit
  • the display device 203 is a device such as a display that appropriately displays processing contents.
  • the communication device 204 is used for exchanging data from an external device such as a PC or a server. Specifically, the communication device 204 is used for purposes such as acquisition of an execution command by a user from an external device and acquisition of information such as an image or text from an external device. The communication device 204 is also used for the purpose of transmitting the processing content in the computer 201 to an external device.
  • an external device such as a PC or a server.
  • the communication device 204 is used for purposes such as acquisition of an execution command by a user from an external device and acquisition of information such as an image or text from an external device.
  • the communication device 204 is also used for the purpose of transmitting the processing content in the computer 201 to an external device.
  • the arithmetic unit (CPU) 205 is an arithmetic unit that executes processing such as question answering with the user.
  • the external storage device 206 is an external storage device such as an HDD or a memory.
  • the external storage device 207 stores data necessary for answering questions and data to be searched.
  • the external storage device 206 is also used to temporarily store data generated during processing executed by the arithmetic unit (CPU) 205.
  • the computer 201 may not include the input device 202, the display device 203, and the communication device 204.
  • a command or the like is input from an external device using the communication device 204.
  • the processing result is transmitted to an external device using the communication device 204.
  • the output and input of a module that executes processing may be performed via the external storage device 206. That is, when the processing unit 1 (not shown) outputs the processing result to the processing unit 2 (not shown) and the processing unit 2 receives the processing result as an input, the processing unit 1 actually stores the processing result in the external storage.
  • the data may be output and stored in the device 206, and the processing unit 2 may acquire the output result of the processing unit 1 stored in the external storage device 206 as an input.
  • FIG. 1 is a functional block diagram showing an example of the information presentation system of the present embodiment.
  • the information presentation system of the present embodiment includes a question knowledge database generation device 101, a database 107, a question answering system 112, and a database 116.
  • the question knowledge database generation apparatus 101 includes a data collection unit 102, an evaluation expression extraction unit 103, and an expression map generation unit 104.
  • the database 107 includes a collection database (DB) 108, an individual evaluation database (DB) 109, an evaluation expression map 110, and a domain knowledge database (DB) 111.
  • the question answering system 112 includes a question answer generating unit 113, a user answer acquiring unit 115, and a matching unit 114.
  • the database 116 includes an individual evaluation DB 109, an evaluation expression map 110, and a domain knowledge DB 111 similar to the database 107.
  • the information presentation system in FIG. 1 is realized by one or more computers 201.
  • the question knowledge database generation apparatus 101 and the database 107 may be realized by a single computer 201, and the question answering system 112 and the database 116 may be realized by another computer connected thereto via a network.
  • the data collection unit 102, the evaluation expression extraction unit 103, the expression map generation unit 104, the question answer generation unit 113, the user answer acquisition unit 115, and the matching unit 114 are stored in the external storage device 206 of each computer 201.
  • the program is realized by the execution of the arithmetic unit 205, and the databases 107 and 116 are stored in the external storage device 206 of each computer 201.
  • the information presentation system in FIG. 1 may be realized by one or more computers 201.
  • each unit of the question knowledge database generation device 101 and the question answering system 112 is realized by the arithmetic device 205 executing a program stored in the external storage device 206 of one computer 201.
  • the database 116 can be omitted by the question answering system 112 referring to the database 107.
  • the database 107 is stored in the external storage device 206 of the computer 201 different from the question knowledge database generation device 101 and the question answering system 112, and the question knowledge database generation device 101 and the question answering system 112 are stored in the database via the network. 107 may be created and referenced.
  • the configuration of the information presentation system of the present embodiment is not limited to the above example. That is, an arbitrary part of the information presentation system of the present embodiment may be realized by the computer 201 connected to the network, or realized by a virtual computer generated by logically dividing one computer 201. May be.
  • the domain knowledge DB 111 is a database created in advance, and includes information related to a subject that is a theme (topic).
  • the domain knowledge DB 111 will be described.
  • the domain knowledge DB 111 may include, for example, information on the ontology of concepts related to travel.
  • Such information includes, for example, information on is-a relationship, part-of relationship, instance-of relationship, and the like.
  • hotel is an accommodation facility
  • hotel is-a accommodation facility means that the hot spring is part of the hotel facilities, “hot spring part-of hotel”
  • hotel A is a concrete concept of the hotel.
  • Such an instance is expressed as “Hotel Ainstance-of Hotel”.
  • Information arrangement methods other than the ontology format may be used.
  • Prior knowledge about the theme is prepared in advance as a domain knowledge DB 111 by using manual or computer processing.
  • the domain knowledge DB 111 may also include data related to rules for the data collection unit 102 to extract and classify documents related to the theme.
  • the data collection unit 102 collects document data to be processed (for example, a website, a questionnaire, or any other type of document). For example, when presenting a recommended travel destination, the data collection unit 102 collects commercial facilities such as hotels, tourist facilities, and transportation facilities, home pages of public facilities, word-of-mouth, local information, blogs, and the like. When there is customer questionnaire information, the data collection unit 102 also collects such information. When presenting a product, the data collection unit 102 collects sites, documents, and the like related to the product. The collected information is classified for each type and stored in the collection DB 108.
  • a processing example of the data collection unit 102 will be described.
  • data is collected from the Web on the assumption that the travel destination is presented to the user on the theme of travel will be described.
  • FIG. 3 is a flowchart illustrating an example of processing executed by the data collection unit 102 according to the present exemplary embodiment.
  • the data collection unit 102 collects information by crawling the Web via a network connected to the communication device 204, for example.
  • the domain knowledge DB 111 may be used.
  • the characteristics of the pages to be collected are stored in the domain knowledge DB 111 in advance, and the data collection unit 102 collects the pages based on the features. It is conceivable that the domain knowledge DB 111 holds, for example, features such as a site that contains many keywords related to travel and a site that has information such as business hours and fees indicating a commercial facility.
  • the data collection unit 102 adds tags indicating types to those sites. For example, a tag indicating the type of facility such as a hotel, a hot spring, a department store, a tag indicating a location, a tag indicating a distinction of information sources such as a word of mouth, a blog, and an owner site can be considered. Tagging rules are also stored in the domain knowledge DB 111. By attaching tags in this way, it is possible to determine page reliability, objectivity, and the like, for example, word-of-mouth information can obtain more objective evaluation information than owner page. The reliability of the page may be digitized and stored as an attribute.
  • the data collection unit 102 may collect data not only from the Web but also from documents in the organization and tag them. Data collected and tagged by the data collection unit 102 is stored in the collection DB 108.
  • the evaluation expression extraction unit 103 extracts, from the collected data, an evaluation expression such as “Hotel A hot spring has a good view and relaxation”, the expression to be evaluated, an evaluation expression for the object, and If possible, estimate the evaluator's attributes.
  • the method of generating the collection DB 108 as described above is an example, and the processing of this embodiment described later can be executed using the collection DB 108 generated by a method other than the above.
  • FIG. 4 is a flowchart illustrating an example of processing executed by the evaluation expression extraction unit 103 according to this embodiment.
  • the process of the evaluation expression extraction unit 103 will be described with reference to FIG.
  • the domain knowledge DB 111 is referred to as necessary, but is omitted in FIG.
  • the evaluation expression extraction unit 103 analyzes the layout of the page (document) stored in the collection DB. It also analyzes the meaning of each part of the page. An example of this analysis will be described with reference to FIG.
  • FIG. 5 is an explanatory diagram of an example of data collected by the data collection unit 102 of this embodiment.
  • a page 501 illustrated in FIG. 5 is an example of a page such as a word-of-mouth website of a hotel.
  • the upper part 502 of the page 501 includes the hotel name, and the lower part 503 includes the evaluation score of the entire word of mouth or an explanatory text about the hotel.
  • the lower part 504 displays the hotel's evaluation (so-called word-of-mouth) written by the individual user of the hotel.
  • An evaluation score as shown in the portion 503 may be indicated for each word of mouth.
  • There are various layouts such as an advertisement or related facility information displayed on the right or bottom of the page 501.
  • the evaluation expression extraction unit 103 analyzes the layout of the page 501, and estimates the meaning of each unit (the part 502 is the title, the part 504 is the word of mouth, the part 503 is the description and the evaluation score, etc.). Rules and keywords for estimating the layout are stored in the domain knowledge DB 111 in advance, and the evaluation expression extraction unit 103 refers to them. For example, it can be determined that the portion 502 is a title because it is at the top of the page and the font is large. In addition, it is judged that the title is a hotel name because a keyword representing a concept related to a hotel often appears in the body of the page even if the word “hotel A” is not included, such as “hotel A”. be able to. These concepts are held in the domain knowledge DB 111.
  • the layout structure can be extracted by using an HTML tag or the like.
  • a layout analysis technique used for document processing may be used for the layout analysis step 401.
  • the evaluation expression extraction unit 103 extracts a part in which the evaluation text is described as a result of the layout analysis.
  • the evaluation text is described in the portion 503 or 504.
  • the evaluation sentence is a sentence including an expression for evaluating something such as “XX is beautiful”. However, there are cases where the evaluation target (in this example, “XX”) is not specified. Since the evaluation is often expressed by an adjective, for example, a list of adjectives used as the evaluation expression is stored in the domain knowledge DB 111 in advance, and the evaluation expression is extracted by extracting a sentence including any of the adjectives. Can be extracted.
  • the characteristics (rules) of the evaluation expression based on the syntax analysis result may be determined.
  • a polarity analysis technique may be used.
  • the evaluation expression extraction unit 103 extracts the evaluation expression from the sentences extracted in the evaluation sentence extraction step 402. For example, in the example of the sentence “Hotel C has a good meal and a large bed so you can relax. There is an open-air bath, which is recommended.” “Delicious” “Wide” “Relaxing” “Recommended” It becomes evaluation expression.
  • the evaluation expression extracting unit 103 extracts the evaluation object of the evaluation expression extracted in the evaluation expression extracting step 403.
  • the evaluation expression extraction unit 103 estimates the evaluation target from the peripheral information. For example, in the case of a word-of-mouth site, the facility name or product name to be evaluated may be described in the title or the like, so the evaluation object is estimated from the title or the like.
  • the evaluation expression extraction unit 103 estimates the evaluator's attributes from the text.
  • the attribute of the evaluator is, for example, a situation surrounding the evaluator (premise of evaluation) that can be read from the sentence such as, for example, traveling in a family or using a car when traveling.
  • the degree of specialization can be determined by analyzing characteristics such as a highly specialized keyword appearing in a sentence and a high degree of concreteness in expression.
  • the evaluator attribute estimation step 405 may be omitted. In particular, it may be omitted for documents that are difficult for the evaluator to estimate.
  • individual evaluation DB 109 individual objects such as a hotel A and a hotel B and evaluation expressions for the objects are arranged and stored. If evaluator attributes are also estimated, they are organized as a database.
  • FIG. 6 is an explanatory diagram of an example of data included in the individual evaluation DB 109 of the present embodiment.
  • the fluctuation may be corrected and the normalized evaluation expression may be stored in the individual evaluation DB 109.
  • “delicious”, “delicious”, “delicious”, and the like may be collected in the evaluation expression “delicious” and recorded in the individual evaluation DB 109.
  • the data 601 in FIG. 6 includes information about individual targets such as an individual target ID 601A, its target type 601B, and a name 601C. Although illustration is omitted, in addition, the acquired information such as the Web page address and the nearest station can be included in the data 601 and stored in the individual evaluation DB 109.
  • the 6 includes an evaluation expression 602B for each object identified by the object ID 602A.
  • the same object ID and the same evaluation expression may appear multiple times.
  • the ID 602C of the evaluator type can be included in the data 602 and stored in the individual evaluation DB 109.
  • the evaluator type ID 602C may be omitted.
  • the evaluator type for the object and the evaluation expression A plurality of values may be included as the ID 602C.
  • the data 602 may further include a tag indicating the type of document from which each evaluation expression is extracted.
  • tags indicating a plurality of types are associated with the evaluation expression.
  • the 6 includes an object ID 603B associated therewith for each object ID 603A.
  • the hotel A identified by the target ID “0012327” and the restaurant B identified by the target ID “083181” are both targets included in the data 601, but the restaurant B is attached to the hotel A. Therefore, “083181” is held as the associated target ID 603B corresponding to the target ID “0012327”.
  • the associated object ID 603B corresponding to the object having no associated object is empty, and when a plurality of objects are associated with one object, the IDs of the plurality of objects are retained as the associated object ID 603B.
  • the evaluator type 6 includes an evaluator type ID 604A and an attribute 604B of the evaluator type.
  • the evaluator type may appear multiple times.
  • the attributes include those represented by numerical values.
  • the expression map generation unit 104 analyzes the relationship between the evaluation expressions used for each target type.
  • the evaluation expression may differ in expression used for each object and its meaning. For example, the evaluation expression “easy” for ramen is rarely used for facilities such as hotels. In addition, the meaning is different from the evaluation that people are “light”. Therefore, it is necessary to analyze what evaluation expression is used and how it is used for each target type. In this example, relationships such as similarity relationships, inclusion relationships, and trade-off relationships between evaluation expressions are analyzed.
  • FIG. 7 is a flowchart illustrating an example of processing executed by the expression map generation unit 104 of the present embodiment.
  • the expression map generation unit 104 collects evaluation expressions used for the evaluation for each target type, and analyzes relationships such as similarity relationships, inclusion relationships, and trade-off relationships between the expressions.
  • the expression map generation unit 104 first collects evaluation expressions for each object for each object type.
  • FIG. 8 is an explanatory diagram of an example of evaluation expressions collected by the expression map generation unit 104 of the present embodiment.
  • the evaluation expression 801 in FIG. 8 is a collection of evaluation expressions for each object for the object type “hotel”. Each row lists one or more evaluation expressions 801B for one object having the name 801A.
  • the expression map generation unit 104 first quantifies the proximity between evaluation expressions.
  • an example of the method will be described. Assume that there are two evaluation expressions E1 and E2. At this time, the expression map generation unit 104 calculates a distance D (E1, E2) between E1 and E2.
  • D the number of elements in the set S is expressed as #
  • the expression map generation unit 104 determines that the evaluation expression 801B of the same target (for example, hotel A) co-occurs when both evaluation expressions E1 and E2 are included, and does not co-occur when only one is included. Then, it is determined whether or not the evaluation expressions E1 and E2 co-occur for all the objects corresponding to the object type “hotel”, and the frequency of co-occurrence is calculated from the result of the determination.
  • the distance between evaluation expressions can be defined by, for example, Expression (1).
  • D (E1, E2) Log [(2 ⁇ #
  • D (E1, E2) is 0 when both E1 and E2 always appear (that is, co-occur) in an object in which at least one of the evaluation expressions E1 or E2 appears, and is Log 2 when no co-occurs at all. Become. Further, let F (K, E) be the number of times the evaluation expression E appears as the evaluation expression of the target K. At this time, it can be estimated that E1 and E2 are closer when the number of times F (K, E1) and F (K, E2) at which E1 and E2 appear is closer. As another example of the calculation of the distance D (E1, E2) Equation (2) may be used.
  • D (E1, E2) ⁇ [(
  • the distance between the evaluation expressions can be quantified as a function based on the co-occurrence frequency of the evaluation expressions E1 and E2, the closeness of the number of appearances of E1 and E2, and the like.
  • the expression map generation unit 104 estimates such an inclusion relationship between expressions.
  • the degree to which the evaluation expression E2 is included in the evaluation expression E1 is often the evaluation expression E1 if the evaluation expression E2 appears in the evaluation expression 801B of the target K (in other words, the evaluation expressions E1 and E2 co-occur).
  • the expression map generation unit 104 calculates Expression (4) for the evaluation expression E (for example, each of E1 and E2).
  • is calculated for the entire target K of the target type being considered.
  • the expression map generation unit 104 calculates P (K, E) by Expression (5).
  • This P (K, E) can be regarded as a probability distribution of the evaluation expression E when K is considered as a variable. Therefore, the expression map generation unit 104 calculates, for example, the negative Cullback-Liblar information amount I (E1, E2) of P (K, E1) and P (K, E2) by Expression (6).
  • the degree to which the evaluation expression E2 is included in the evaluation expression E1 can be quantified. This is a large value if E1 also appears with high probability when E2 appears.
  • the expression map generation unit 104 may estimate the similarity relationship and the inclusion relationship between the evaluation expressions using the synonym dictionary and the dictionary indicating the inclusion relationship.
  • the expression map generation unit 104 quantifies the trade-off relationship between the evaluation expressions. For example, “has a sense of luxury” and “cheap” tend to be in a trade-off relationship. Such a relationship can be acquired from an evaluation expression using an antonym dictionary, and from a linguistic expression representing a conflicting relationship such as “high-quality but cheap”. In addition, evaluation expressions that are in a trade-off relationship may be difficult to co-occur, and the reciprocal number T (E1, E2) of D (E1, E2) defined above may be calculated by equation (7). .
  • the expression map generation unit 104 analyzes the similarity relationship, the inclusion relationship, and the trade-off relationship between evaluation expressions.
  • the analysis result is stored in the evaluation expression map 110.
  • information such as the degree of similarity D (E1, E2) between expressions, the degree of inclusion I (E1, E2), and the degree of trade-off T (E1, E2) is stored in the evaluation expression map 110.
  • information such as an antonym may be stored as information indicating a trade-off relationship.
  • the expression map generation unit 104 shares the relationship analysis result between the evaluation expressions between the similar object types.
  • the processing in the inter-expression relationship estimation step 701 is performed for each target type. However, since the similar target types, for example, “hotel” and “hotel” are similar, it can be expected that the relationship analysis results between the evaluation expressions related to each other can be used for each other.
  • the sum ( ⁇ ) is calculated for all evaluation expressions E.
  • P (O1, E) can be regarded as a probability distribution when E is a random variable.
  • the expression map generation unit 104 calculates a distance L (O1, O2) between the probability distributions P (O1, E) and P (O2, E).
  • a Cullback / liver distance can be used. Since object types with similar appearance frequencies of the evaluation expression E are considered to be similar, the similarity S (O1, O2) is defined, for example, as in Expression (9).
  • the similarity can be measured based on how the evaluation expression is used and whether the usage frequency is similar between the target types O1 and O2.
  • the expression map generation unit 104 can redefine the similarity (or distance), inclusion relation, and trade-off relation between evaluation expressions using the similarity between target types measured in this way. For example, it is assumed that the distance D (O1; E1, E2) between the evaluation expression E1 and the evaluation expression E2 in the target type O1 is defined by the method of the inter-expression relationship estimation step 701. At this time, the distance between the evaluation expressions in the target type O1 can be redefined as, for example, Expression (10).
  • the sum ( ⁇ ) is calculated for all target types O. This shares the distance between evaluation expressions of other target types with the similarity S between the target types as a weight.
  • the sum is calculated for all target types O.
  • the sum may be calculated only for a predetermined target type or a target type having a certain degree of similarity or more. Similar processing may be applied to the inclusion relationship and the trade-off relationship.
  • the expression map generation unit 104 does not have to perform the similarity estimation step 702 between the target types. If it cannot be obtained, the relationship between the evaluation expressions can be shared by performing this process.
  • the relationship between two evaluation expressions was analyzed, but it is convenient to express the evaluation expression as a vector and express the evaluation expression as a point on the vector space. Therefore, the evaluation expression may be converted into a vector so that expressions with high similarity are arranged in the vector space.
  • a method such as Force-Directed Algorithm can be used. In this method, a constant repulsive force is defined between all elements, an attractive force acting between elements is defined based on the similarity between the elements, and the energy of the entire system based on the attractive force and the repulsive force is reduced. The arrangement of elements is sequentially corrected, and when the arrangement converges, the position of the element is determined.
  • the expression map generation unit 104 converts the evaluation expression into a vector as described above, and stores the obtained vector space and vector value in the evaluation expression map 110 as a similarity map.
  • vector spaces can be defined for inclusion relations and trade-off relations.
  • the question answering system 112 hears the user's preference based on the question to the user and the user's response to the question, narrows down the target close to the user's preference by matching, and presents it to the user.
  • the question answering system 112 uses the individual evaluation DB 109 and the evaluation expression map 110 generated by the question knowledge database generation device 101.
  • the question response generation unit 113 generates a question using the evaluation expression, and estimates the user's preference by repeating the process of obtaining an answer from the user.
  • FIG. 9 is a flowchart showing an example of processing executed by the question answering system 112 of this embodiment.
  • Steps 901 to 904 are processing of the question answer generation unit 113
  • step 905 is processing of the user answer acquisition unit 115
  • steps 906 to 909 are processing of the matching unit 114.
  • the question response generation unit 113 generates a question evaluation expression candidate list for each target type.
  • FIG. 10A is an explanatory diagram of an example of an evaluation expression candidate list for questions generated by the question response generation unit 113 of the present embodiment.
  • the evaluation expression candidate list 1001 shown in FIG. 10A summarizes the number of appearances of evaluation expressions for each target.
  • the number in parentheses below the evaluation expression indicates the number of appearances of the evaluation expression.
  • the question response generation unit 113 removes expressions with a low appearance frequency as evaluation expressions, and creates a list of evaluation expressions in which the appearance frequency is a certain value or more.
  • the question response generation unit 113 adds evaluations regarding the presence of facilities and equipment (for example, “there is an open-air bath”, “there is a restaurant”, etc.) to the evaluation expression candidate list 1001.
  • Such information can be acquired from a target owner page such as a hotel stored in the collection DB 108, for example.
  • the question response generation unit 113 generates a question such as “Is the hotel close to the station?” Based on the evaluation expression.
  • the user answer acquisition unit 115 accepts a reply in a natural language sentence from the user, or selects an answer (for example, “prefer close”, “preferably”, “do not care too much”, “prefer distant if possible”, “distant The user's selection is accepted as an answer, and the matching unit 14 narrows down the target that matches the user's preference based on the accepted answer.
  • the question answer generation unit 113 presents an efficient question order.
  • An example of processing will be described.
  • the question response generation unit 113 leaves an expression estimated to apply to the target with high accuracy among the evaluation expressions for each target in the evaluation expression candidate list 1001, and excludes the rest.
  • the high degree of accuracy is based on, for example, the high frequency of occurrence of the corresponding evaluation expression and the low frequency of appearance of the evaluation expression that is in opposition to the evaluation expression (ie, the degree of trade-off relationship is large). Can be calculated.
  • the question response generation unit 113 may determine that the accuracy of the evaluation expression is lower as the co-occurrence frequency of a certain evaluation expression and the evaluation expression opposed to the evaluation expression is higher. In addition, since the existence of facilities and equipment can be acquired from an owner page or the like, it is considered that the accuracy is high. As described above, the question response generation unit 113 uses, for each evaluation expression, a predetermined accuracy (for example, whether it is an owner page or an individual blog) according to the type of document extracted. Alternatively, a weight of accuracy) may be given. Therefore, the question response generation unit 113 creates information indicating whether or not each target evaluation is applicable to each evaluation expression.
  • a predetermined accuracy for example, whether it is an owner page or an individual blog
  • a weight of accuracy may be given. Therefore, the question response generation unit 113 creates information indicating whether or not each target evaluation is applicable to each evaluation expression.
  • FIG. 10B is an explanatory diagram of an example of information generated by the question response generation unit 113 according to the present embodiment and indicating whether or not each target evaluation applies to each evaluation expression.
  • a table 1002 indicating whether or not the evaluation of each target is applicable to each evaluation expression indicates that, for example, it is determined that the probability that the hotel A is “close to the station” is high. Further, the table 1002 indicates that the accuracy of the evaluation “relaxed” is low or absent for the hotel A.
  • the question answer generation unit 113 repeats the question to the user, and is estimated to be efficient when narrowing the number of candidates that match the user's answer to a predetermined threshold value or less. Calculate the order of questions. For example, in order to calculate an efficient question order, the question response generation unit 113 assumes that the answers to the question based on the evaluation expression as described above are only “Yes” and “No”. Even if an answer is obtained, a question order is generated so that questions that can be excluded from many candidates are output preferentially.
  • the question response generation unit 113 ranks the questions so that questions that are considered to be more efficient are output earlier, and calculates an evaluation expression that is the basis of a predetermined number of upper questions. Keep it. The value used for this ranking (here, the total number of candidates) is used as the score.
  • the question response generation unit 113 estimates the number of objects that do not correspond to the answer to the question based on each evaluation expression (that is, is excluded by the answer), and based on the estimated number of objects (for example, A score is calculated (so that a question based on an evaluation expression whose number satisfies a predetermined condition is output earlier). For example, the question response generation unit 113 counts all the objects, the number of objects corresponding to the evaluation expression “close to the station”, and an evaluation expression in a trade-off relationship with the evaluation expression (for example, “far from the station”). The score may be calculated based on the relationship between the number of objects corresponding to).
  • the ratio of the number of objects that do not correspond to either of the evaluation expressions “close to the station” or “far from the station” to the total number of objects is large. Even if the answer to the question is “Yes” or “No”, it indicates that the ratio of targets that cannot be excluded from candidates is large. For example, when one of the number of objects corresponding to the evaluation expression “close to the station” and the number of objects corresponding to “far from the station” is extremely small, the answer is “Yes” or “No”. In the case of one of the above, there are few targets that can be excluded from the candidates, and in the case of the other, there are almost no targets that remain as candidates.
  • the question response generation unit 113 for example, a question based on an evaluation expression in which the ratio of an object that does not correspond to either the evaluation expression or the expression opposite to the evaluation expression is larger than a predetermined value, and an object corresponding to one answer
  • the score of each evaluation expression may be calculated so that questions that do not correspond to the question based on the evaluation expression whose number is smaller than a predetermined value are output earlier. As a result, the target can be narrowed down efficiently.
  • the question response generation unit 113 In the question order correction rule calculation step 903, the question response generation unit 113 generates a question order that considers not only the efficiency of narrowing down but also the naturalness of dialogue. In conversation, it is more natural to ask questions in a broad (eg, abstract or vague) expression at first, and then listen to specific details little by little, rather than listening to specific things from the beginning. In some cases, the user's mind changes during the conversation, or the user makes a wrong answer. Furthermore, there are cases where the user's needs may require a trade-off relationship, such as seeking a “cheap hotel” and a “hotel with a large room”, so compromises somewhere. , Etc. need to be adjusted.
  • the question response generation unit 113 determines the priority order of the questions obtained in the efficient question order calculation step 902 based on the similarity relationship, the inclusion relationship, and the trade-off relationship between the evaluation expressions. Correct. At this time, the question response generation unit 113 uses the evaluation expression map 110.
  • the question response generation unit 113 holds such vectors, and for the evaluation expressions E1 and E2 obtained in the efficient question order calculation step 902, the rank of E2 is lower than the rank of E1, and E2 includes E1. If E2 has not been used for the question yet, the score of E2 is increased according to the degree of inclusion. As a result, questions with a high degree of abstraction that have not been asked yet tend to be placed higher. As a result, in the above example, the question based on the evaluation expression E2 is likely to be output earlier than the question based on the evaluation expression E1.
  • the question response generation unit 113 has already You may ask a question using an evaluation expression similar to the question made. This assumes that the user's mind changes and asks a similar question. Therefore, even in the case of evaluation expressions not listed in the efficient question order calculation step 902, the question order of evaluation expressions similar to the evaluation expressions that appeared in the past questions is advanced according to a certain rule (for example, randomly) ( For example, the highest position at that time).
  • a certain rule for example, randomly
  • the question response generation unit 113 makes a question using the evaluation expression at the top when the question order correction rule calculation step 903 is completed. For example, when the evaluation expression “close to the station” for the object “hotel” is selected as the highest-level evaluation expression, the question answer generation unit 113 may ask, “Is the hotel better near the station?” Output a question.
  • the target type has been described as being fixed with an example of a hotel, but the question answer generation unit 113 includes a question evaluation expression candidate generation step 901, an efficient question order calculation step 902, and The processing of the question order correction rule calculation step 903 is performed on a plurality of target types in parallel, and the question selection step 904 selects a target type from among these according to a certain rule, and generates a question. Good.
  • the user response acquisition unit 115 acquires a response from the user.
  • the user answer acquisition unit 115 may acquire an answer described in a natural language, or may prepare a plurality of default answers and acquire a user's selection from them as an answer.
  • the matching unit 114 expresses the answer result by quantifying it. For example, it may be expressed by the answer result vector described above.
  • the matching unit 114 selects a candidate that matches the user's answer result.
  • An example of calculating the degree of coincidence with the user's answer result will be described.
  • the matching unit 114 expresses each object by a vector corresponding to each evaluation expression in the same manner as the answer result vector, and sets 1 if the evaluation expression exists, and 0 otherwise. .
  • w1 (w1,..., Wn)
  • the accuracy of each evaluation item corresponding to each object shown in FIG. 10B may be an element of an evaluation expression vector corresponding to each object.
  • the value of the element corresponding to the evaluation expression “close to the station” is “1”
  • the value of the element corresponding to the evaluation expression “relaxed” is “ 0 ".
  • the matching unit 114 calculates the similarity between the vector generated from the evaluation expression corresponding to each object and the answer result vector, and determines that an object having a certain degree of similarity matches the answer result of the user. To do.
  • the similarity between vectors For example, cosine similarity can be used. In this manner, for each target type, a target that matches the user's answer result can be selected as described above.
  • the matching unit 114 needs to narrow down to compatible candidates with different target types. For example, in the case of presenting a travel plan, when there are two target types “hotel” and “sightseeing place (location)”, the location of the hotel A that matches the user's answer result and the user's answer Sightseeing locations that match the results should be the same or close. Accordingly, the matching unit 114 creates a combination of compatible candidates as a plan from among the candidates selected for each target type, and calculates them as candidates.
  • the value of the answer result vector is given a value only to the element corresponding to the evaluation expression from which the answer is obtained from the user. If there is a value for similar evaluation expressions, both may share the answer according to the degree of similarity. For example, when the element value of an evaluation expression E ′ similar to a certain evaluation expression E is v and their similarity is s (assuming that s is normalized to be between 0 and 1), the evaluation The element value of the expression E may be defined as v * s.
  • the matching unit 114 matches the user's answer in consideration of the attribute.
  • the target may be selected. Specifically, for example, when an evaluator's attribute that matches the responding user is known, the matching unit 114 gives a higher weight to the appearance frequency of the evaluation expression used by the evaluator of the attribute. In this way, the appearance frequency of each evaluation expression is weighted, and a vector of evaluation expressions corresponding to each target is generated based on the appearance frequency of the weighted evaluation expression, and the similarity between it and the answer result vector is calculated. May be.
  • the attribute of the evaluator suitable for the user may be specified by the user himself (for example, the user wants to emphasize the evaluation of a highly specialized person or the person who traveled with a family), or the user inputs
  • the question answering system 112 may estimate based on the answered answer. As a result, it is possible to present an object more suitable for the user.
  • the matching unit 114 performs the same process as the process related to the evaluator attribute for the type. be able to.
  • the matching unit 114 determines whether or not to end the question. If not completed, the process proceeds to an efficient question order calculation step 902 to generate a question again. In the case of ending, the process proceeds to information presentation step 909. For example, the matching unit 114 may determine whether there is a target candidate that matches the user's answer result based on a certain standard, and may determine that the question is to be terminated if the number is equal to or less than a predetermined number. .
  • the matching unit 114 presents candidate candidates that match the user's answer via the display device 203.
  • the matching unit 114 may present a plurality of candidates or the one with the highest degree of match. Moreover, you may show for every object classification, for example, you may present the combination (plan) of object classification, such as the hotel A and the restaurant A.
  • a travel plan or a tour in which a hotel, a transportation facility, a restaurant, etc. are set may be provided in advance.
  • the question answering system 112 presents a plan or tour with a high degree of similarity by attaching an evaluation tag to the tour or plan in advance and measuring the degree of similarity between the evaluation tag and the user response result. Also good.
  • the question answering system 112 estimates an evaluation for each evaluation expression from the action history, generates an action history vector in the same manner as the user answer result vector, and both vectors
  • the information to be presented may be determined in consideration of the similarity to.
  • facilities such as hotels and restaurants used for travel are shown as examples of search objects.
  • other objects such as books, movies, any kind of retail goods, any kind
  • the present invention can also be applied to searches for other facilities and real estate.
  • each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files that realize each function is a memory, hard disk drive, storage device such as SSD (Solid State Drive), or computer-readable non-transitory data such as an IC card, SD card, or DVD. It can be stored in a storage medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 複数の対象の各々と複数の評価表現とを対応付ける評価データ、及び、前記評価表現間の関係を示す評価表現関係データを格納する記憶部と、前記評価データ及び前記評価表現関係データに基づいて質問を生成して出力する質問生成部と、前記質問に対する回答が入力されると、前記回答に基づいて前記評価データに含まれる前記対象の情報を出力するマッチング部と、を有する情報処理システム。

Description

情報処理システム及び情報処理方法
 本発明は、ユーザに情報を提示する技術に関する。
 ユーザが求める情報を提示する方法として、ユーザに単語又はフレーズ等のキーワードの入力を求め、そのキーワードに関連の深いドキュメント、Webページ、文章の一部、写真、音声、又は製品情報などを提示する情報検索方法は、大量の文書又は画像等のメディア情報の中から、ユーザが求める情報を抽出するために広く用いられている。また、ユーザが入力したキーワードだけでなく、その同義語及びそれと関連の深い語を含む情報も検索対象とする類似検索及び連想検索などの技術がある。
 また、ユーザの行動履歴(製品の購買履歴や、映画等の視聴履歴等)に基づいて、その行動履歴と類似した行動をとっている他のユーザの履歴をもとに、ユーザが求める情報を推定し、提示する方法は、リコメンド技術として広く用いられており、特に、協調フィルタリングなどの手法が用いられている。
"A survey of collaborative filtering techniques", Advances in Artificial Intelligence Volume 2009, January 2009, Article No. 4
 ユーザが求める情報を提示する方法として、ユーザが過去に行った参照又は検索等の履歴情報に基づいて、ユーザが所望する情報(製品等)を推定し、提示するリコメンド技術があるが、これを実現するためには予めユーザの履歴情報を取得しておく必要がある。そのため、履歴情報が少ない場合及び取得できない場合には、適用できない。また、履歴情報を保存しておく必要があるため、個人情報保護の観点から、これらの手法を適用できないケースがある。
 上記の課題を解決するために、本発明の一態様は、複数の対象の各々と複数の評価表現とを対応付ける評価データ、及び、前記評価表現間の関係を示す評価表現関係データを格納する記憶部と、前記評価データ及び前記評価表現関係データに基づいて質問を生成して出力する質問生成部と、前記質問に対する回答が入力されると、前記回答に基づいて前記評価データに含まれる前記対象の情報を出力するマッチング部と、を有することを特徴とする。
 本発明の一態様によれば、ユーザの履歴情報が少ない場合又は取得できない場合にも、ユーザが所望する情報を検索し、提示することができる。上記以外の課題、構成及び効果は、以下の実施形態の説明によって明らかにされる。
本実施例の情報提示システムの一例を示す機能ブロック図である。 本実施例の情報提示システムを構成する計算機の一例を示すブロック図である。 本実施例のデータ収集部が実行する処理の一例を示すフローチャートである。 本実施例の評価表現抽出部が実行する処理の一例を示すフローチャートである。 本実施例のデータ収集部が収集したデータの一例の説明図である。 本実施例の個別評価DBに含まれるデータの一例の説明図である。 本実施例の表現マップ生成部が実行する処理の一例を示すフローチャートである。 本実施例の表現マップ生成部が収集した評価表現の一例の説明図である。 本実施例の質問応答システムが実行する処理の一例を示すフローチャートである。 本実施例の質問応答生成部が生成する質問用の評価表現候補リストの一例の説明図である。 本実施例の質問応答生成部が生成する、各評価表現に対して各対象の評価が当てはまるかどうかを示す情報の一例の説明図である。
 情報提示システムの実施例について、図表を参照しながら説明する。本実施例の情報提示システムは、ユーザとの質問応答に基づいて、ユーザが求める情報を絞り込み、提示するシステムである。検索対象の情報は、文書、画像、音声、又はその他のデータなどである。
 図2は、本実施例の情報提示システムを構成する計算機の一例を示すブロック図である。
 本実施例の情報提示システムを構成する計算機201は、入力装置202、表示装置203、通信装置204、演算装置(CPU)205、及び外部記憶装置206を備える。
 入力装置202は、コマンド等を入力するためのキーボード及びマウス等である。入力装置202は、演算装置(CPU)205で実行されるプログラムの制御、その他、接続機器の制御のために実行されるコマンド等を入力するための装置である。
 表示装置203は、処理内容を適宜表示するディスプレイ等の装置である。
 通信装置204は、PC又はサーバ等の外部機器からのデータのやりとりを行うために用いられる。詳細には、通信装置204は、外部機器からのユーザによる実行コマンドの取得、及び、画像又はテキストなどの情報の外部機器からの取得等の目的に用いられる。また、通信装置204は、計算機201での処理内容を外部機器に送信する等の目的にも用いられる。
 演算装置(CPU)205は、ユーザとの質問応答などの処理を実行する演算装置である。
 外部記憶装置206は、HDD又はメモリ等の外部記憶装置である。外部記憶装置207には、質問応答に必要なデータ及び検索対象となるデータなどが記憶されている。また、外部記憶装置206は、演算装置(CPU)205によって実行される処理の途中で生成されるデータ等を一時的に記憶しておくためにも用いられる。
 計算機201は、入力装置202、表示装置203及び通信装置204を備えなくてもよい。入力装置202が無い場合には、通信装置204を用いて外部機器からコマンド等が入力される。表示装置203が無い場合には、処理結果は通信装置204を用いて外部機器に送信される。
 処理を実行するモジュールの出力と入力は、外部記憶装置206を介して行ってもよい。すなわち、処理部1(図示省略)が処理結果を処理部2(図示省略)に出力し、処理部2がその処理結果を入力として受け取る場合、実際には、処理部1が処理結果を外部記憶装置206に出力し記憶しておき、処理部2は、外部記憶装置206に記憶されている処理部1の出力結果を入力として取得してもよい。
 次に、本実施例における情報提示システムによって実施される処理の説明に移る。
 図1は、本実施例の情報提示システムの一例を示す機能ブロック図である。
 本実施例の情報提示システムは、質問用知識データベース生成装置101、データベース107、質問応答システム112及びデータベース116を有する。質問用知識データベース生成装置101は、データ収集部102、評価表現抽出部103及び表現マップ生成部104を含む。データベース107は、収集データベース(DB)108、個別評価データベース(DB)109、評価表現マップ110及びドメイン知識データベース(DB)111を含む。質問応答システム112は、質問応答生成部113、ユーザ回答取得部115及びマッチング部114を含む。データベース116は、データベース107と同様の個別評価DB109、評価表現マップ110及びドメイン知識DB111を含む。
 図1の情報提示システムは、一つ以上の計算機201によって実現される。例えば、質問用知識データベース生成装置101及びデータベース107が一つの計算機201によって実現され、それとネットワークを介して接続された別の計算機によって質問応答システム112及びデータベース116が実現されてもよい。その場合、データ収集部102、評価表現抽出部103、表現マップ生成部104、質問応答生成部113、ユーザ回答取得部115及びマッチング部114は、それぞれの計算機201の外部記憶装置206に格納されたプログラムを演算装置205が実行することによって実現され、データベース107及び116はそれぞれの計算機201の外部記憶装置206に格納される。
 あるいは、図1の情報提示システムが一つ以上の計算機201によって実現されてもよい。その場合、質問用知識データベース生成装置101及び質問応答システム112の各部は一つの計算機201の外部記憶装置206に格納されたプログラムを演算装置205が実行することによって実現される。また、この場合、質問応答システム112がデータベース107を参照することによって、データベース116を省略することができる。
 あるいは、データベース107が質問用知識データベース生成装置101及び質問応答システム112とは別の計算機201の外部記憶装置206に格納され、質問用知識データベース生成装置101及び質問応答システム112がネットワークを介してデータベース107の作成及び参照を行ってもよい。
 本実施例の情報提示システムの構成は、上記の例に限られない。すなわち、本実施例の情報提示システムの任意の部分が、ネットワークに接続された計算機201によって実現されてもよいし、一つの計算機201を論理的に分割することによって生成された仮想計算機によって実現されてもよい。
 次に、質問用知識データベース生成装置101及びデータベース107について説明する。ドメイン知識DB111は、予め作成しておくデータベースであり、テーマ(話題)となる対象に関する情報を含む。
 ドメイン知識DB111について説明する。ここでは、旅行をテーマとした場合の例を説明する。ドメイン知識DB111は、例えば、旅行に関係する概念のオントロジーに関する情報を含んでいても良い。このような情報として、例えば、is-a関係、part-of関係、instance-of関係などに関する情報がある。例えば、ホテルが宿泊施設であるということは、「ホテルis-a宿泊施設」、温泉がホテルの設備の一部であることは、「温泉part-ofホテル」、ホテルAがホテル概念の具体的なインスタンスであることは、「ホテルAinstance-ofホテル」などとあらわされる。これによって、概念間の関係と、各々の概念がもつ設備、概念の具体的なインスタンスなどに関する情報を整理しておく。オントロジーの形式以外の情報の整理の仕方を用いても良い。テーマに関する事前知識が予め人手または計算機による処理を用いてドメイン知識DB111として整備される。また、ドメイン知識DB111は、データ収集部102がテーマに関連するドキュメントを抽出、分類するための規則に関するデータなどを含んでいても良い。
 データ収集部102は、処理の対象となる文書データ(例えばWebサイト、アンケート、又はその他の任意の種類のドキュメント類)を収集する。例えば、お勧めの旅行先を提示する場合には、データ収集部102は、ホテル、観光施設、交通機関等の商業施設、公共施設のホームページ、口コミ、地域情報、及びブログ等を収集する。顧客のアンケート情報等がある場合には、データ収集部102はそれらの情報も収集する。また、製品を提示する場合には、データ収集部102は製品に関連するサイトやドキュメント等を収集する。収集した情報は種別ごとに分類され、収集DB108に保存される。
 データ収集部102の処理例について説明する。ここでは、旅行をテーマとして、ユーザに旅行先を提示することを想定し、Web上からデータを収集する場合について説明する。
 図3は、本実施例のデータ収集部102が実行する処理の一例を示すフローチャートである。
 データ収集ステップ301において、データ収集部102は、例えば通信装置204に接続されたネットワークを介してWebをクローリングするなどして、情報を収集する。このとき、旅行の場合には、宿泊施設、レジャー施設、お土産物屋、レストラン、温泉等の商業施設、公民館、交通機関等の公共施設、および、それらに関して記載されている口コミサイト、ブログ、情報サイト、などが対象となる。図3では省略されているが、ドメイン知識DB111を使用してもよい。例えば、収集対象となるページが持つ特徴をドメイン知識DB111に予め保持しておき、それに基づいて、データ収集部102がページを収集する。ドメイン知識DB111には、例えば、旅行に関連するキーワードを多く含むサイト、商業施設であることを示す営業時間や料金などの情報があるサイト、などの特徴が保持されることが考えられる。
 タグ付けステップ302において、データ収集部102は、それらのサイトに種別を示すタグを付加しておく。例えば、ホテル、温泉、デパートなど、施設の種別を示すタグ、所在地を示すタグ、口コミ、ブログ、オーナーサイト、など情報源の区別を示すタグなどが考えられる。タグ付けの規則についても、ドメイン知識DB111に保持しておく。このようにタグを付けておくことで、例えば、オーナーページよりも口コミ情報のほうが、より客観的な評価情報を得られるなど、ページの信頼性、客観性などを判定することができる。ページの信頼性などを数値化して、属性として保存しておいてもよい。
 データ収集部102は、Webだけでなく、組織内のドキュメントなどからもデータを収集し、タグ付けしてもよい。データ収集部102が収集し、タグ付けしたデータは、収集DB108に保存される。
 次に、評価表現抽出部103の説明に移る。評価表現抽出部103は、収集したデータから、「ホテルAの温泉は景色がよくリラックスできる」などの評価表現を抽出し、その表現が評価の対象とするものと、その対象に対する評価表現、および、可能な場合には、評価者の属性を推定する。
 なお、上記のような収集DB108の生成方法は一例であり、上記以外の方法で生成された収集DB108を用いても、後述する本実施例の処理を実行することができる。
 図4は、本実施例の評価表現抽出部103が実行する処理の一例を示すフローチャートである。
 図4を用いて、適宜、旅行がテーマの場合の例を挙げながら、評価表現抽出部103の処理を説明する。なお、ドメイン知識DB111は、必要に応じて参照されるが、図4では省略した。
 レイアウト解析ステップ401において、評価表現抽出部103は、収集DB108に保存されているページ(ドキュメント)のレイアウトを解析する。また、ページのそれぞれの部分の意味を解析する。この解析の例を、図5を参照して説明する。
 図5は、本実施例のデータ収集部102が収集したデータの一例の説明図である。
 例を挙げて説明する。図5に示すページ501は、ホテルの口コミサイトなどのページの例である。ページ501の上部の部分502にはホテル名が含まれ、その下の部分503には口コミ全体の評価点数又はホテルに関する説明文などが含まれる。その下の部分504には、当該ホテルの個々の利用者によって書き込まれた当該ホテルの評価(いわゆる口コミ)が表示される。口コミごとに部分503に示すような評価点数が示されている場合もある。また、ページ501の右又は下に広告又は関連施設の情報が表示されるなど、様々なレイアウトがある。
 レイアウト解析ステップ401において、評価表現抽出部103は、ページ501のレイアウトを解析し、各部の意味(部分502がタイトル、部分504が口コミ、部分503が説明文及び評価点数、など)を推定する。レイアウトを推定するための規則及びキーワードなどは予めドメイン知識DB111に保持されており、それを評価表現抽出部103が参照する。例えば、部分502がタイトルであることは、ページの上部にあること、フォントが大きいことから判断できる。また、このタイトルがホテル名であることは、「ホテルA」のようにホテルという単語が含まれていなくとも、ページの本文にホテルに関連する概念を表すキーワードがよく現れることなどから、判断することができる。これらの概念は、ドメイン知識DB111に保持されている。
 また、部分503のような評価点数及び部分504のような評価文章が複数出現することから、このページが口コミサイトであることを推定できる。Webページの場合には、構造化されているため、HTMLタグ等を用いることで、レイアウト構造を抽出することができる。一般のドキュメントの場合には、文書処理に用いられるレイアウト解析技術をレイアウト解析ステップ401に援用してもよい。
 評価文章抽出ステップ402において、評価表現抽出部103は、レイアウト解析の結果、評価文章が記述されている部分を抽出する。上述の口コミサイトの例では、部分503または504に評価文章が記述されている。評価文章とは、「XXはきれいだ」などのように何らかのものを評価する表現が含まれている文章である。ただし、評価の対象(この例では「XX」の部分)が明示されていない場合もある。評価は、形容詞で表現される場合が多いため、例えば、評価表現として用いられる形容詞のリストをドメイン知識DB111に予め保持しておき、その形容詞のいずれかを含む文章を抽出することによって評価表現を抽出することができる。また、形容詞で表現できない評価表現(「温泉ではとてもリラックスできた」など)があるため、構文解析結果に基づく評価表現の特徴(規則)を定めておいてもよい。あるいは極性解析技術を用いてもよい。
 評価表現抽出ステップ403において、評価表現抽出部103は、評価文章抽出ステップ402で抽出した文章の中から、評価表現を抽出する。例えば、「ホテルCは食事がおいしくて、ベッドも広いので、リラックスできます。露天風呂もあって、おすすめです。」という文章の例では、「おいしく」「広い」「リラックスできる」「おすすめ」が評価表現となる。
 評価対象特定ステップ404において、評価表現抽出部103は、評価表現抽出ステップ403で抽出した評価表現の評価対象を抽出する。上記の例のように、「ホテルCは食事がおいしくて」などの場合には、係り受け解析等によって、「ホテルCの食事」が「おいしい」、と評価していることが分かる。ただし、上記の評価文章抽出ステップ402で説明した例のように、対象が文章中に明示されていない場合(たとえば、「ホテルCは」が無い場合など)がある。このような場合には、評価表現抽出部103は、周辺情報から、評価対象を推定する。例えば、口コミサイトの場合には、タイトルなどに評価対象となる施設名や製品名などが記載されている場合があるため、タイトルなどから評価対象を推定する。
 評価者属性推定ステップ405において、評価表現抽出部103は、文章中から評価者の属性を推定する。評価者の属性は、例えば、旅行の場合には、家族で行っている、車を使っている、など、文章中から読み取れる、評価者の周辺状況(評価の前提)などである。また、その対象に対する評価者の専門度などの属性もある。例えば、デジタルカメラなどの製品の評価などの場合には、写真に詳しい人とそうでない人の評価は、各々視点が異なる。そのため、写真に詳しい人の評価は、写真に詳しくなく(あまりこだわりがなく)安くて手軽に撮れるカメラを探している人にはあまり参考にならないことも想定される。
 このように、書いた人の専門性、こだわりの強さによって、評価者をグループ化しておくと、ユーザの好みを推定する際に有用である。専門度は、例えば、専門性の高いキーワードが文章に表れる、表現に具体性が高いなどの特徴を分析し、判定することができる。ただし、評価者属性推定ステップ405は、省略してもよい。特に、評価者の推定が難しいドキュメントに対しては、省略してもよい。
 個別評価DB109には、ホテルA、ホテルBなどの個別の対象と、それに対する評価表現とが整理されて格納される。また、評価者属性も推定された場合にはデータベースとして整理される。
 図6は、本実施例の個別評価DB109に含まれるデータの一例の説明図である。
 なお、抽出された評価表現がゆれを含む場合には、そのようなゆれを補正し、正規化した評価表現を個別評価DB109に保存してもよい。例えば、「おいしい」「美味しい」「美味だ」などは「おいしい」という評価表現にまとめて個別評価DB109に記録しておいてもよい。
 図6のデータ601には、個別の対象のID601Aと、その対象種別601B、および、名称601C等の、個別の対象に関する情報が含まれる。図示は省略されているが、他にも、Webページのアドレス、最寄り駅等、取得できた情報をデータ601に含めて個別評価DB109に格納しておくことができる。
 図6のデータ602には、対象ID602Aによって識別される個々の対象に対する評価表現602Bが含まれる。同じ対象ID及び同じ評価表現が複数回現れてもよい。評価者タイプが推定できた場合には、その評価者タイプのID602Cをデータ602に含めて個別評価DB109に格納しておくことができる。上記の通り、評価者タイプが推定されなかった場合は評価者タイプID602Cが省略されてもよい。また、一人の評価者について複数のタイプが推定された場合、又は、タイプの異なる複数の評価者によって同一対象に同一の評価表現が与えられた場合には、当該対象及び評価表現に対する評価者タイプID602Cとして複数の値が含まれてもよい。
 なお、図3のステップ302で収集したドキュメントの種別を示すタグが付された場合には、データ602は、各評価表現が抽出されたドキュメントの種別を示すタグをさらに含んでもよい。一つの評価表現が複数の種別のドキュメント(例えばオーナーサイトのページ及びユーザのブログのページ等)から抽出された場合、その評価表現には複数の種別を示すタグが対応付けられる。
 図6のデータ603には、個々の対象ID603Aに対して、それに付随している対象のID603Bが含まれる。図6の例では、対象ID「0012327」で識別されるホテルA及び対象ID「0823181」で識別されるレストランBは、いずれもデータ601に含まれる対象であるが、レストランBがホテルAに付随する施設であるため、対象ID「0012327」に対応する付随対象ID603Bとして「0823181」が保持される。付随する対象を持たない対象に対応する付随対象ID603Bは空となり、一つの対象に複数の対象が付随する場合には付随対象ID603Bとして複数の対象のIDが保持される。
 図6のデータ604には、評価者タイプID604Aとその評価者タイプがもつ属性604Bが含まれる。評価者タイプは複数回現れても良い。また、この例の専門性のように、属性には数値で表されるものも含まれる。
 このようにして、個別の対象に対する評価、情報、評価者のタイプ等がデータベース上に保存される。
 次に、表現マップ生成部104について説明する。表現マップ生成部104は、対象種別ごとに使われている評価表現間の関係を解析する。評価表現は、対象ごとに使われる表現及びその意味が異なる場合がある。例えば、ラーメンに対する「あっさり」という評価表現は、ホテルなどの施設に対してはあまり使われない。また、人に対する「あっさり」しているという評価とは意味が異なる。そのため、対象種別ごとに、どのような評価表現が使われるか、どのように使われるか、を解析しておく必要がある。この例では、評価表現間の類似関係、包含関係、トレードオフ関係、などの関係を解析する。
 図7は、本実施例の表現マップ生成部104が実行する処理の一例を示すフローチャートである。
 表現間関係推定ステップ701において、表現マップ生成部104は、対象種別ごとにその評価に用いられる評価表現を収集し、表現間の類似関係、包含関係、トレードオフ関係、などの関係を解析する。
 表現間関係推定ステップ701の処理の例について説明する。表現マップ生成部104は、まず、対象種別ごとに、各対象の評価表現を収集する。
 図8は、本実施例の表現マップ生成部104が収集した評価表現の一例の説明図である。
 図8の評価表現801は、対象種別「ホテル」に対して、対象ごとの評価表現をまとめたものである。各行に、名称801Aを有するひとつの対象に対する一つ以上の評価表現801Bが列挙されている。
 表現マップ生成部104は、まず、評価表現間の近さを定量化する。ここでは、その方法の例を説明する。ある2つの評価表現E1及びE2があるとする。このとき、表現マップ生成部104は、E1とE2の距離D(E1,E2)を計算する。以下の説明では、集合Sの要素の数を#|S|と表す。評価表現E1が現れる対象の集合をO(E1)、評価表現E2が現れる対象の集合をO(E2)としたとき、評価表現E1と評価表現E2が同時に現れる(共起する)頻度が大きいほうが、評価表現E1とE2が近いと考えられる。例えば、表現マップ生成部104は、同一の対象(例えばホテルA)の評価表現801Bに評価表現E1及びE2がいずれも含まれる場合に共起する、一方のみが含まれる場合に共起しないと判定し、対象種別「ホテル」に該当する全ての対象について同様に評価表現E1及びE2が共起するか否かを判定して、それらの判定の結果から共起の頻度を計算する。評価表現間の距離は、例えば、式(1)によって定義できる。
 D(E1,E2)=Log〔(2×#|O(E1)∪O(E2)|)/(#|O(E1)∩O(E2)|+#|O(E1)∪O(E2)|)〕 ・・・(1)
 D(E1,E2)は、評価表現E1またはE2の少なくとも一方が現れる対象において、必ずE1とE2の両方が現れる(すなわち共起する)場合、0となり、全く共起しない場合には、Log2となる。さらに、評価表現Eが対象Kの評価表現として現れる回数をF(K,E)とする。このとき、E1とE2が現れる回数F(K,E1),F(K,E2)が近いほうが、E1とE2が近いと推定できるため、距離D(E1,E2)の計算の別の例として、式(2)を使用してもよい。
 D(E1,E2)=Σ〔(|F(K,E1)-F(K,E2)|)/(|F(K,E1)+F(K,E2)|)〕・・・(2)
 ここで和(Σ)は、いま考えている対象種別の対象K全体に対して計算される。ここで、式(3)が成立する場合には、そのKに対する項は0とする。
 |F(K,E1)+F(K,E2)|=0 ・・・(3)
 上記2つの例を挙げたが、これら2つの基準を組み合わせても良い。このように、評価表現E1とE2の共起頻度、E1とE2の出現回数の近さ、などを基準として、これらの関数として、評価表現間の距離を定量化することができる。
 次に、包含関係を定量化する例を示す。例えば、「駅から近い」と「駅から3分」という2つの表現に対して、後者はより具体的であり、前者はより抽象的となっている。また、駅から3分が駅から近いと解釈できるなら、前者の表現は後者の表現を包含していると考えられる。表現マップ生成部104は、このような、表現間の包含関係を推定する。評価表現E2が評価表現E1に包含される程度は、対象Kの評価表現801Bにおいて、評価表現E2が現れるならば評価表現E1が現れる場合が多い(言い換えると、評価表現E1及びE2が共起する頻度が所定の条件を満たす場合において、評価表現E1及びE2が共起しない対象については、E1のみが現れる頻度が、E2のみが現れる頻度より高い)ときに、評価表現E2は評価表現E1に包含される割合が大きいと推定できる。そこで、表現マップ生成部104は、評価表現E(例えばE1及びE2のそれぞれ)に対して、式(4)が計算される。
 F(E)=ΣF(K,E) ・・・(4)
 ここで、Σは考えている対象種別の対象K全体に対して計算される。さらに、表現マップ生成部104は、式(5)によってP(K,E)を計算する。
 P(K,E)=F(K,E)/F(E) ・・・(5)
 このP(K,E)は、Kを変数と考えたとき、評価表現Eの確率分布とみることができる。そこで、表現マップ生成部104は、例えば、式(6)によってP(K,E1)、P(K,E2)の負のカルバック・ライブラー情報量I(E1,E2)を計算することによって、評価表現E2が評価表現E1に包含される程度を定量化することができる。これは、E2が現れるときに、E1もまた高確率で表れる場合に、大きな値となる。
 I(E1,E2)=-KL(E2||E1)=-Σp(K,E2)Log〔p(K,E2)/p(K,E1)〕 ・・・(6)
 なお、表現マップ生成部104は、類義語辞書及び包含関係を示す辞書を用いて評価表現間の類似関係及び包含関係を推定してもよい。
 次に、表現マップ生成部104は、評価表現間のトレードオフの関係を定量化する。例えば、「高級感がある」と「安い」などはトレードオフの関係になりやすい。このような関係は、対義語辞書を用いる、評価表現から、「高級感があるが、安い」などのように、対立関係を表す言語表現から取得することができる。また、トレードオフの関係となっている評価表現は共起しにくい場合もあり、式(7)によって上記で定義したD(E1,E2)の逆数T(E1,E2)を計算してもよい。
 T(E1,E2)=1/D(E1,E2) ・・・(7)
 以上のように、表現マップ生成部104は、評価表現同士の類似関係、包含関係、及びトレードオフ関係を解析しておく。解析結果は、評価表現マップ110に保存される。具体的には、表現間の類似度D(E1,E2)、包含度I(E1,E2)、及びトレードオフ度T(E1,E2)などの情報が評価表現マップ110に保存される。上記のように、トレードオフ関係を示す情報として対義語などの情報が保存されてもよい。
 対象種別間類似推定ステップ702において、表現マップ生成部104は、類似した対象種別間で評価表現間の関係解析結果を共有する。表現間関係推定ステップ701の処理は、対象種別ごとに行われる。しかし、近い対象種別、例えば、「ホテル」と「宿」では、類似しているため、それぞれに関する評価表現間の関係解析結果を互いに流用できると期待できる。
 ここで、2つの対象種別O1、O2の間の類似度S(O1,O2)を計算する方法の例を説明する。O1の全対象に対して、評価表現Eの出現回数をF(O1,E)とする。このとき、表現マップ生成部104は、式(8)によってP(O1,E)を計算する。
 P(O1,E)=F(O1,E)/ΣF(O1,E) ・・・(8)
 ここで、和(Σ)は全ての評価表現Eについて計算される。このとき、P(O1,E)は、Eを確率変数としたときに、確率分布とみなすことができる。ここで、表現マップ生成部104は、確率分布P(O1,E)とP(O2,E)の距離L(O1,O2)を計算する。距離には、カルバック・ライブラー距離などを用いることが出来る。評価表現Eの出現頻度が似ている対象種別は類似していると考えられるため、類似度S(O1,O2)は、例えば、式(9)のように定義される。
 S(O1,O2)=1/(L(O1,O2)+1) ・・・(9)
 このように、対象種別O1,O2の間で評価表現の使われ方や、使用頻度が似ているかどうかに基づいて、類似度を測ることができる。
 表現マップ生成部104は、このように計測した対象種別間類似度を用いて、評価表現間の類似度(または距離)、包含関係、トレードオフ関係を再定義することができる。例えば、対象種別O1における評価表現E1と評価表現E2の距離D(O1;E1,E2)が表現間関係推定ステップ701の方法で定義されているとする。このとき、対象種別O1における評価表現間の距離は、例えば、式(10)のように再定義できる。
 D’(O1;E1,E2)=ΣS(O1,O)D(O;E1,E2) ・・・(10)
 ここで和(Σ)は、全ての対象種別Oについて計算される。これは、対象種別間の類似度Sを重みとして、他の対象種別の評価表現間の距離を共有している。なお、上記の例では全ての対象種別Oについて和を計算したが、予め定めた対象種別、あるいは、類似度が一定以上の対象種別に関してのみ、和を計算してもよい。同様の処理を包含関係、トレードオフ関係に適用してもよい。また、対象種別ごとの評価表現が十分に得られる場合には、表現マップ生成部104は対象種別間類似推定ステップ702を行わなくてもよいが、ある対象種別について、評価文章が少なく、十分に得られない場合には、この処理をすることによって、評価表現間の関係を共有できる。
 上記の例では、2つの評価表現間の関係を解析したが、評価表現をベクトルとして表現し、ベクトル空間上の点として評価表現を表しておくと便利である。そのため、類似度が高い表現同士がベクトル空間上に配置されるように、評価表現をベクトルに変換すればよい。このような方法の例として、Force-Directed Algorithmなどの方法を用いることが出来る。この方法では、すべての要素間に一定の斥力を定義し、要素間の類似度に基づいて、要素間に働く引力を定義し、その引力と斥力に基づく系全体のエネルギーが小さくなるように、逐次的に要素の配置を修正し、配置が収束したところで、その要素の位置を定める。これによって、類似度が高い要素間はベクトル空間上の近くに配置されるようになる。表現マップ生成部104は、上記のように評価表現をベクトルに変換し、得られたベクトル空間及びベクトル値も類似度マップとして評価表現マップ110に保存しておく。同様にして、包含関係、トレードオフ関係についてもベクトル空間を定めることができる。
 次に、図1の質問応答システム112について説明する。質問応答システム112は、ユーザへの質問及びそれに対するユーザの応答に基づいてユーザの嗜好を聞きだし、ユーザの嗜好に近い対象をマッチングによって絞り込み、ユーザに提示する。質問応答システム112は、質問用知識データベース生成装置101が生成した個別評価DB109及び評価表現マップ110を用いる。
 質問応答生成部113は、評価表現を用いて質問を生成し、ユーザからの回答を得るプロセスを繰り返すことによって、ユーザの嗜好を推定する。
 図9は、本実施例の質問応答システム112が実行する処理の一例を示すフローチャートである。
 ステップ901から904までが質問応答生成部113の処理、ステップ905がユーザ回答取得部115の処理、ステップ906~909がマッチング部114の処理である。
 まず、質問用評価表現候補生成ステップ901において、質問応答生成部113は、対象種別ごとに、質問用の評価表現候補リストを生成する。
 図10Aは、本実施例の質問応答生成部113が生成する質問用の評価表現候補リストの一例の説明図である。
 図10Aに示す評価表現候補リスト1001は、対象ごとに評価表現の出現回数をまとめたものである。図10Aの例では、評価表現の下の括弧内の数字がその評価表現の出現回数を示す。ここでは、質問応答生成部113は、評価表現として出現頻度の少ない表現を取り除き、出現頻度が一定以上の値となる評価表現のリストを作成する。さらに、質問応答生成部113は、施設及び設備の有無に関する評価(例えば、「露天風呂がある」「レストランがある」など)も、評価表現候補リスト1001に付け加える。これらの情報は、例えば、収集DB108に保存されているホテル等の対象のオーナーページから取得できる。
 以降の処理において、質問応答生成部113は、例えば、評価表現に基づいて「ホテルは駅に近いところが良いですか?」などの質問を生成する。ユーザ回答取得部115は、ユーザからの自然言語文での回答を受け付け、または、回答を選択肢(例えば、「近いところが良い」「できれば」「あまり気にしない」「できれば遠い方が良い」「遠い方が良い」など)として提示して、それに対するユーザの選択を回答として受け付け、受け付けた回答に基づいてマッチング部14がユーザの嗜好に合った対象を絞り込む。
 効率的質問順算出ステップ902において、質問応答生成部113は、効率的な質問の順序を提示する。処理の例について説明する。まず、質問応答生成部113は、評価表現候補リスト1001の各対象に対する評価表現のうち、対象に対して高い確度で当てはまると推定される表現を残し、それ以外を除外する。確度の高さは、例えば、該当する評価表現の出現頻度の高さ、及び、その評価表現に対立する(すなわちトレードオフ関係の度合いが大きい)評価表現の出現頻度の少なさ、などに基づいて計算できる。
 例えば、質問応答生成部113は、ある評価表現とそれに対立する評価表現の共起頻度が高いほど、その評価表現の確度が低いと判定してもよい。また、施設及び設備の有無などは、オーナーページなどから取得できるため、確度が高いと考えられる。このように、質問応答生成部113は、各評価表現に、それぞれが抽出されたドキュメントの種類(例えばそれがオーナーページであるのか個人のブログであるのか等)に応じて予め定められた確度(又は確度の重み)を与えてもよい。そこで、質問応答生成部113は、各評価表現に対して、各対象の評価が当てはまるかどうか、を示す情報を作成する。
 確度の低い評価表現に基づく質問を出力し、それに対するユーザの回答を得ても、ユーザに適した対象を絞り込めないことが考えられる。上記のように確度の高い評価表現に基づく質問のみを出力することによって、効率的に対象を絞り込むことができる。
 図10Bは、本実施例の質問応答生成部113が生成する、各評価表現に対して各対象の評価が当てはまるかどうかを示す情報の一例の説明図である。
 図10Bの例では、各評価表現に対して各対象の評価が当てはまる場合に「○」記号を記載している。各評価表現に対して各対象の評価が当てはまるかどうかを示す表1002は、例えば、ホテルAが「駅から近い」ことの確度が高いと判定されたことを示す。また、表1002は、ホテルAに関して、「リラックスできる」という評価の確度が低い、または無かったことを示す。
 効率的質問順算出ステップ902において、質問応答生成部113は、ユーザに質問を繰り返し、ユーザの回答と合致する候補の個数を予め定めた閾値以下に絞る際に、効率的であると推定される質問順を算出する。例えば、質問応答生成部113は、効率的な質問順を算出するために、上記のような評価表現に基づく質問に対する回答が「Yes」と「No」のみであると仮定した場合に、どちらの回答が得られたとしても、多くの候補が除外できる質問が優先的に出力されるように質問順を生成する。
 例えば、「ホテルは駅から近いほうがよいですか?」という質問に対して、「Yes」と答えるとホテルAが候補として残り、「No」と答えるとホテルBが候補として残る場合を想定する。この質問に対して、例えば、「Yes」と答えた場合に除外される候補の数と、「No」と答えた場合に除外される候補の数を合計したものが多いほうが、候補を絞るために効率的であると考えられる。このため、質問応答生成部113は、より効率的と考えられる質問が早く出力されるように質問に順位付けをして、予め定めておいた個数の上位の質問の基となる評価表現を算出しておく。この順位付けに用いた値(ここでは候補数の合計)をスコアとする。
 具体的には、質問応答生成部113は、各評価表現に基づく質問への回答に対応しない(すなわちその回答によって除外される)対象の数を推定し、推定した対象の数に基づいて(例えばその数が所定の条件を満たす評価表現に基づく質問が早く出力されるように)スコアを算出する。例えば、質問応答生成部113は、全ての対象の数、評価表現「駅から近い」に対応する対象の数、及び、その評価表現とトレードオフの関係にある評価表現(例えば「駅から遠い」)に対応する対象の数、の関係に基づいて、スコアを計算してもよい。
 例えば、全対象数に対して、評価表現「駅から近い」及び「駅から遠い」のいずれにも対応しない対象の数の割合が大きいことは、「ホテルは駅から近いほうがよいですか?」という質問に対する回答が「Yes」又は「No」のいずれであっても候補から除外できない対象の割合が大きいことを示している。また、例えば評価表現「駅から近い」に対応する対象の数と、「駅から遠い」に対応する対象の数と、の一方が極端に小さい場合には、回答が「Yes」又は「No」の一方であった場合に候補から除外できる対象がほとんどなく、もう一方であった場合には候補として残る対象がほとんどないことになる。
 ユーザに提示する対象の候補を絞り込む効率を考慮すると、ユーザに受け入れられそうにない対象を早期に候補から除外することが望ましいが、その一方で、ユーザに受け入れられる可能性がある対象が早期に候補から除外されることは望ましくないと考えられるため、まだ多数の候補が残っている段階で上記のような評価表現に基づく質問をすることは望ましくない。このため、質問応答生成部113は、例えば、その評価表現とそれに対立する表現のいずれにも対応しない対象の割合が所定の値より大きい評価表現に基づく質問、及び、一方の回答に該当する対象の数が所定の値より小さい評価表現に基づく質問より、それらに該当しない質問が早く出力されるように、それぞれの評価表現のスコアを算出してもよい。これによって、効率的に対象を絞り込むことができる。
 質問順補正ルール算出ステップ903において、質問応答生成部113は、絞り込みの効率性だけでなく、対話の自然さを考慮した質問順を生成する。会話では、最初から具体的なことを聞くよりも、最初は広い(例えば抽象的な、又は漠然とした)表現で質問し、その後、少しずつ具体的なことを聞く方が自然である。また、会話の途中でユーザの気が変わる、又はユーザが回答を間違える、という場合がある。さらに、ユーザのニーズは、例えば、「安いホテル」を求めることと、「部屋が広いホテル」を求めることなど、トレードオフ関係にある両立しにくいことを求める場合があるため、どこかを妥協する、などの調整が必要となる。
 そこで、質問順補正ルール算出ステップ903において、質問応答生成部113は、評価表現間の類似関係、包含関係、トレードオフ関係に基づいて、効率的質問順算出ステップ902で得られた質問の優先順を補正する。このとき、質問応答生成部113は評価表現マップ110を用いる。
 以下で、処理の例を挙げて説明する。質問応答生成部113は、評価表現を要素とするベクトルを考え、これまでのユーザの回答結果をベクトルで表現する。回答結果ベクトルをv=(v1、…、vn)とする(nは評価表現の個数)。例えば、v1は、評価表現「駅から近い」に対応する回答結果を表す。最初は全ての要素は0とする。質問応答生成部113は、このベクトルを対象種別ごとに作成する。例えば、「ホテルは駅から近いほうがよいですか?」という質問に対し、「絶対に近いほうがいい」「できれば」「こだわらない」「遠くてもいい」「遠い方がいい」の5つの回答を準備したとすると、ユーザの回答に応じて、各回答に対応して、それぞれ、v1=1.0、v1=0.5、v1=0.0、v1=-0.5、v1=-1.0などと設定する。以下の説明において、2つの評価表現が近いとは、評価表現同士の類似度が予め定めた閾値以上であることを示し、評価表現E1が評価表現E2に包含されるとは、その包含度が予め定めた閾値以上であることを示すものとする。
 質問応答生成部113は、このようなベクトルを保持し、効率的質問順算出ステップ902で得られた評価表現E1及びE2について、E2の順位がE1の順位より下位で、E2がE1を包含し、かつ、E2がまだ質問に用いられていない場合には、E2のスコアをその包含度に応じて増加させる。これによって、まだ質問されていない抽象度の高い質問は上位に配置される傾向となる。その結果、上記の例では、評価表現E2に基づく質問が、評価表現E1に基づく質問より早く出力されやすくなる。
 さらに、これまでの質問に対して得られた回答に適合しない対象が除外されていった結果、ユーザに提示する対象の候補数が少なくなっている場合には、質問応答生成部113は、既に行った質問と類似した評価表現を用いた質問をしてもよい。これは、ユーザの気が変わることも想定して、これまでと似た質問をするなどとする。そのために、効率的質問順算出ステップ902に挙がっていない評価表現であっても、一定の規則で(例えばランダムに)、過去の質問に現れた評価表現と類似の評価表現の質問順を繰り上げる(例えばその時点の最上位とする)。
 質問選定ステップ904において、質問応答生成部113は、質問順補正ルール算出ステップ903が終了した時点で最上位にある評価表現を用いた質問を行う。例えば、ホテルという対象に対する「駅から近い」という評価表現が最上位の評価表現として選択されている場合には、質問応答生成部113は、「ホテルは駅から近いほうが良いですか?」などの質問を出力する。
 なお、これまでの例では、対象種別はホテルの例を挙げながら、固定して説明してきたが、質問応答生成部113は、質問用評価表現候補生成ステップ901、効率的質問順算出ステップ902及び質問順補正ルール算出ステップ903の処理を、複数の対象種別に対して並行して行い、質問選定ステップ904では、これらのうちから、一定の規則で対象種別を選んで、質問を生成してもよい。
 ユーザ回答取得ステップ905において、ユーザ回答取得部115は、ユーザから回答を取得する。ユーザ回答取得部115は、自然言語で記述された回答を取得してもよいし、複数のデフォルト回答を準備しておき、それらからのユーザの選択を回答として取得してもよい。自然言語で取得する場合には、ユーザ回答取得部115は、ユーザの表現に基づいて、回答に対する肯定度、否定度(例えば上記の例におけるv1=1.0~-1.0のような値)を計算し、数値化してベクトルの要素として保存する。
 嗜好分布算出ステップ906において、マッチング部114は、回答結果を数値化するなどして表現する。例えば、上記で説明した回答結果ベクトルなどで表現してもよい。
 マッチングステップ907において、マッチング部114は、ユーザの回答結果に合致する候補を選定する。ユーザの回答結果との合致度の計算例について述べる。例えば、マッチング部114は、回答結果ベクトルと同様にして、各要素が各評価表現に対応するベクトルによって各対象を表現し、その評価表現がある場合には1、そうでない場合には0とする。例えば、ホテルAのベクトルをw=(w1、…、wn)としたとき、最初の要素w1が「駅から近い」に対応する評価表現である場合には、ホテルAに対応する評価表現として「駅から近い」があればw1=1となり、なければ(又はそれとトレードオフの関係にある「駅から遠い」のような評価表現があれば)w1=0となる。
 例えば、図10Bに示した各対象に対応する各評価項目の確度が、各対象に対応する評価表現のベクトルの要素となってもよい。図10Bの例では、ホテルAの評価表現のベクトルの要素のうち、評価表現「駅から近い」に対応する要素の値は「1」、評価表現「リラックスできる」に対応する要素の値は「0」である。
 そして、マッチング部114は、この各対象に対応する評価表現から生成されたベクトルと回答結果ベクトルとの類似度を計算し、類似度が一定以上の対象をユーザの回答結果と合致する、と判定する。ベクトル同士の類似度の計算には、様々な方法があり、例えば、コサイン類似度などを用いることができる。このようにして、対象種別ごとに、上記のようにしてユーザの回答結果と合致する対象を選定できる。
 しかし、このとき、マッチング部114は、異なる対象種別で、両立する候補に絞る必要がある。例えば、旅行プランを提示することを考えた場合、「ホテル」と「観光地(場所)」の2つの対象種別があったとき、ユーザの回答結果と合致するホテルAの立地と、ユーザの回答結果と合致する観光地の場所は、同じか近い必要がある。そこで、マッチング部114は、対象種別ごとに候補として選んだ中から、両立する候補の組み合わせをプランとして作成し、それを候補として算出する。
 なお、このとき、回答結果ベクトルの値には、ユーザから回答が得られた評価表現に対応する要素にのみ値が与えられているが、回答を得ていない評価表現に対応する要素に関しても、類似した評価表現について値がある場合には、その類似度に応じて、両者が回答を共有してもよい。例えば、ある評価表現Eに類似した評価表現E’の要素値がv、それらの類似度がsのとき(sは0から1の間となるように正規化されているものとする)、評価表現Eの要素値をv*sと定めてもよい。
 また、図6に示すように、個別評価DB109に各評価表現を使用した評価者の属性を示す情報が含まれる場合には、マッチング部114がその属性を考慮して、ユーザの回答に合致する対象を選定してもよい。具体的には、例えば、回答しているユーザに適合する評価者の属性が判明している場合、マッチング部114は、その属性の評価者が使用した評価表現の出現頻度の重みがより重くなるように、各評価表現の出現頻度に重み付けを行い、その重み付けされた評価表現の出現頻度に基づいて、各対象に対応する評価表現のベクトルを生成し、それと回答結果ベクトルとの類似度を計算してもよい。ユーザに適合する評価者の属性は、ユーザ自身が指定してもよいし(例えば専門性が高い人の評価を重視したい、又は家族で旅行した人の評価を重視したい、など)、ユーザが入力した回答に基づいて質問応答システム112が推定してもよい。これによって、よりユーザに適合する対象を提示することができる。
 また、個別評価DB109に、各評価表現が抽出されたドキュメントの種別を示す情報が含まれる場合には、マッチング部114は、その種別について、上記の評価者の属性に関する処理と同様の処理を行うことができる。
 質問終了判定ステップ908において、マッチング部114は、質問を終了するかどうかを判定する。終了しない場合には効率的質問順算出ステップ902に進み、再度質問を生成する。終了する場合には、情報提示ステップ909に進む。例えば、マッチング部114は、ユーザの回答結果と一定の基準で合致する対象の候補が存在するか否かを判定し、所定の数以下の場合に、質問を終了する、と判定してもよい。
 情報提示ステップ909において、マッチング部114は、表示装置203を介して、ユーザの回答に合致する対象の候補を提示する。マッチング部114は、複数の候補を提示してもよいし、もっとも合致度が高いものを提示してもよい。また、対象種別ごとに提示してもよいし、例えば、ホテルAとレストランAなど、対象種別の組み合わせ(プラン)を提示してもよい。
 なお、例えば、旅行の場合には、予め、ホテル、交通機関、及びレストランなどがセットとなった旅行プラン又はツアーなどが提供されている場合がある。このとき、ユーザの回答結果から、ユーザの嗜好に合ったプラン又はツアーを提示したい場合がある。このときには、質問応答システム112は、ツアー又はプランなどに、予め評価タグをつけておき、その評価タグとユーザ回答結果との類似度を測ることによって、類似度の高いプラン又はツアーを提示してもよい。
 また、質問応答システム112は、ユーザの行動履歴などを利用できる場合には、行動履歴から各評価表現に対する評価を推定し、ユーザ回答結果ベクトルと同様にして行動履歴ベクトルを生成し、両方のベクトルとの類似度を考慮した上で、提示する情報を定めても良い。
 上記のような質問を出力し、それに対する応答を取得することによってユーザの嗜好を聞きだすことで、行動履歴が無い場合又は少ない場合にも、ユーザの嗜好にあった情報を提示できる。また、評価表現に基づいて、ユーザの嗜好を推定するため、例えば、Wifiの設備の有無及び露天風呂の有無など、明確に属性が決まるようなものではなく、曖昧なニーズ、キーワードによる検索が難しい対象でも、ユーザに合った情報を適切に提示することができる。さらに、本実施例では、対象種別ごとに評価表現を分析するため、対象種別ごとに異なる評価表現に基づいて、適切に情報を提示できる。また、類似した対象種別間で評価表現の分析結果を共有するため、データが少ない対象種別についても、評価表現間の関係を把握できる。
 上記の実施例では、検索の対象の例として、旅行に利用されるホテル、レストラン等の施設を示したが、それ以外の対象、例えば、書籍、映画、任意の種類の小売商品、任意の種類の施設、不動産等の検索にも本発明を適用することができる。
 なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
 上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
 また、図面には、実施例を説明するために必要と考えられる制御線及び情報線を示しており、必ずしも、本発明が適用された実際の製品に含まれる全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

Claims (15)

  1.  複数の対象の各々と複数の評価表現とを対応付ける評価データ、及び、前記評価表現間の関係を示す評価表現関係データを格納する記憶部と、
     前記評価データ及び前記評価表現関係データに基づいて質問を生成して出力する質問生成部と、
     前記質問に対する回答が入力されると、前記回答に基づいて前記評価データに含まれる前記対象の情報を出力するマッチング部と、を有することを特徴とする情報処理システム。
  2.  請求項1に記載の情報処理システムであって、
     前記質問生成部は、
     前記複数の評価表現に基づいて複数の質問を生成し、
     記各評価表現に基づく質問に対する回答に対応しない前記対象の数を、前記評価データに基づいて推定し、前記推定した対象の数に基づいて前記複数の質問の出力順序を算出することを特徴とする情報処理システム。
  3.  請求項2に記載の情報処理システムであって、
     前記評価表現関係データは、評価表現間のトレードオフ関係を示す情報を含み、
     前記質問生成部は、前記各評価表現の出現頻度、及び、前記各評価表現とトレードオフ関係にある評価表現の共起頻度に基づいて、前記各評価表現が前記各対象に当てはまる確度を推定し、前記確度が高いと推定される複数の前記評価表現に基づいて前記複数の質問を生成することを特徴とする情報処理システム。
  4.  請求項2に記載の情報処理システムであって、
     前記記憶部は、前記各評価表現が抽出された文書データの種類を特定する情報を格納し、
     前記質問生成部は、特定された前記文書データの種類に基づいて前記各評価表現が前記各対象に当てはまる確度を推定し、前記確度が高いと推定される複数の前記評価表現に基づいて前記複数の質問を生成することを特徴とする情報処理システム。
  5.  請求項2に記載の情報処理システムであって、
     前記評価表現関係データは、評価表現間の包含関係を示す情報を含み、
     前記質問生成部は、前記複数の評価表現のうち第1評価表現が第2評価表現を包含する場合、前記第1評価表現に基づく質問を、前記第2評価表現に基づく質問より早く出力するように、前記出力順序を変更することを特徴とする情報処理システム。
  6.  請求項2に記載の情報処理システムであって、
     前記マッチング部は、出力された一つ以上の前記質問に対する一つ以上の回答と、前記各対象に対応する評価表現との類似度を算出し、前記類似度が所定の条件を満たす前記対象の情報を出力することを特徴とする情報処理システム。
  7.  請求項6に記載の情報処理システムであって、
     前記評価データは、前記各評価表現を使用した評価者の属性を示す情報を含み、
     前記マッチング部は、前記各対象に対応する前記各評価表現の出現頻度に、前記各評価表現を使用した評価者の属性による重み付けをし、前記重み付けされた出現頻度に基づいて、出力された一つ以上の前記質問に対する一つ以上の回答と、前記各対象に対応する評価表現との類似度を算出することを特徴とする情報処理システム。
  8.  請求項6に記載の情報処理システムであって、
     前記評価表現関係データは、評価表現間の類似関係を示す情報を含み、
     前記質問生成部は、前記類似度が所定の条件を満たす前記対象の数が所定の条件を満たす場合、既に出力した質問の基となった評価表現に類似する評価表現に基づく質問を早く出力するように前記出力順序を変更することを特徴とする情報処理システム。
  9.  請求項1に記載の情報処理システムであって、
     複数の文書データから前記複数の対象の各々に対応する前記評価表現を抽出して前記評価データを生成する評価表現抽出部と、前記複数の文書データから前記評価表現間の関係を推定して前記評価表現関係データを生成する評価表現関係データ生成部と、をさらに有することを特徴とする情報処理システム。
  10.  請求項9に記載の情報処理システムであって、
     前記評価表現抽出部は、
     レイアウト解析によって各文書データのうち前記対象が記述された部分及び前記評価表現が記述された部分を特定し、
     前記評価表現が記述された部分から、品詞又は予め定められた規則に基づいて一つ以上の前記評価表現を抽出し、
     前記対象が記述された部分から、前記抽出された評価表現に対応する前記対象を抽出し、
     前記各文書データに含まれる文言に基づいて、前記各評価表現を使用した評価者の属性を推定し、
     前記抽出した評価表現、前記抽出した対象及び前記推定した属性を含む前記評価データを前記記憶部に格納することを特徴とする情報処理システム。
  11.  請求項9に記載の情報処理システムであって、
     前記評価表現関係データ生成部は、前記複数の文書データから、前記対象の種類ごとに、前記評価表現間の関係を推定して前記評価表現関係データを生成することを特徴とする情報処理システム。
  12.  請求項11に記載の情報処理システムであって、
     前記評価表現関係データ生成部は、
     二つの前記評価表現の共起頻度に基づいて前記二つの評価表現の類似関係を推定し、
     二つの前記評価表現の共起頻度が所定の条件を満たす場合において、前記二つの評価表現が共起しないときの前記各評価表現の出現頻度の偏りに基づいて前記二つの評価表現の包含関係を推定することを特徴とする情報処理システム。
  13.  請求項12に記載の情報処理システムであって、
     前記評価表現関係データ生成部は、前記対象の種類間の類似関係を推定し、
     互いに類似すると推定された複数の種類の前記対象に対応する複数の前記評価表現に基づいて前記評価表現関係データを生成することを特徴とする情報処理システム。
  14.  請求項9に記載の情報処理システムであって、
     前記記憶部には、収集されるべき前記文書データの特徴を示す情報及び前記文書データの種類を判別する規則を含む知識データがさらに格納され、
     前記知識データに基づいて、ネットワークを介して前記複数の文書データを収集し、収集した前記複数の文書データの各々を前記文書データの種類を示す情報と対応付けて前記記憶部に格納するデータ収集部をさらに有することを特徴とする情報処理システム。
  15.  演算部と、前記演算部に接続される記憶部と、を有する計算機システムによる情報処理方法であって、
     前記演算部には、複数の対象の各々と複数の評価表現とを対応付ける評価データ、及び、前記評価表現間の関係を示す評価表現関係データが格納され、
     前記情報処理方法は、
     前記演算部が前記評価データ及び前記評価表現関係データに基づいて質問を生成して出力する手順と、
     前記質問に対する回答が入力されると、前記演算部が前記回答に基づいて前記評価データに含まれる前記対象の情報を出力する手順と、を含むことを特徴とする情報処理方法。
PCT/JP2015/055481 2015-02-25 2015-02-25 情報処理システム及び情報処理方法 WO2016135905A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/551,747 US10671619B2 (en) 2015-02-25 2015-02-25 Information processing system and information processing method
JP2017501757A JP6381775B2 (ja) 2015-02-25 2015-02-25 情報処理システム及び情報処理方法
PCT/JP2015/055481 WO2016135905A1 (ja) 2015-02-25 2015-02-25 情報処理システム及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/055481 WO2016135905A1 (ja) 2015-02-25 2015-02-25 情報処理システム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2016135905A1 true WO2016135905A1 (ja) 2016-09-01

Family

ID=56788610

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/055481 WO2016135905A1 (ja) 2015-02-25 2015-02-25 情報処理システム及び情報処理方法

Country Status (3)

Country Link
US (1) US10671619B2 (ja)
JP (1) JP6381775B2 (ja)
WO (1) WO2016135905A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6250121B1 (ja) * 2016-09-16 2017-12-20 ヤフー株式会社 地図検索装置、地図検索方法、および地図検索プログラム
EP3327592A1 (en) * 2016-11-25 2018-05-30 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and non-transitory recording medium
CN108153800A (zh) * 2016-12-06 2018-06-12 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
JP2018092582A (ja) * 2016-12-06 2018-06-14 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置、及び、プログラム
JP2018173784A (ja) * 2017-03-31 2018-11-08 富士通株式会社 検索処理方法、検索処理プログラム、および検索処理装置
JP2020140692A (ja) * 2019-03-01 2020-09-03 楽天株式会社 文抽出システム、文抽出方法、及びプログラム
JP2021039715A (ja) * 2019-08-30 2021-03-11 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102535044B1 (ko) * 2015-12-08 2023-05-23 삼성전자주식회사 단말장치, 서버 및 이벤트 제안방법
CN108052577B (zh) * 2017-12-08 2022-06-14 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
US11238508B2 (en) * 2018-08-22 2022-02-01 Ebay Inc. Conversational assistant using extracted guidance knowledge
JP7200683B2 (ja) * 2019-01-11 2023-01-10 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11036941B2 (en) * 2019-03-25 2021-06-15 International Business Machines Corporation Generating a plurality of document plans to generate questions from source text
JP7434125B2 (ja) * 2020-09-16 2024-02-20 株式会社東芝 文書検索装置、文書検索方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013089109A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 質問項目推薦装置、質問項目推薦方法及び質問項目推薦プログラム
WO2013080406A1 (ja) * 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
JP2013214294A (ja) * 2012-03-06 2013-10-17 Okwave:Kk クライアントシステム及びサーバ
JP2014164351A (ja) * 2013-02-21 2014-09-08 Toyota Mapmaster Inc 表示順設定装置及びその方法、並びに表示順を設定するためのコンピュータプログラム及びコンピュータプログラムを記録した記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494978B2 (en) * 2007-11-02 2013-07-23 Ebay Inc. Inferring user preferences from an internet based social interactive construct
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013089109A (ja) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 質問項目推薦装置、質問項目推薦方法及び質問項目推薦プログラム
WO2013080406A1 (ja) * 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
JP2013214294A (ja) * 2012-03-06 2013-10-17 Okwave:Kk クライアントシステム及びサーバ
JP2014164351A (ja) * 2013-02-21 2014-09-08 Toyota Mapmaster Inc 表示順設定装置及びその方法、並びに表示順を設定するためのコンピュータプログラム及びコンピュータプログラムを記録した記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TOMONORI YOSHIDA ET AL.: "Automated Extraction of Related Term Networks from FAQ Site", IEICE TECHNICAL REPORT, vol. 108, no. 119, 23 June 2008 (2008-06-23), pages 75 - 80 *
YUTAKA KABUTOYA ET AL.: "Effective Question Recommendation Using Multiple Features for Question Answering Communities", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN , IPSJ TRANSACTION HEISEI 22 NENDO (2, vol. 3, no. 4, 2 May 2011 (2011-05-02), pages 34 - 47 *
YUTAKA KABUTOYA ET AL.: "Questions recommendation based on evolution patterns of a QA community", JOURNAL OF THE DBSJ, vol. 8, no. 1, 26 June 2009 (2009-06-26), pages 89 - 94 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6250121B1 (ja) * 2016-09-16 2017-12-20 ヤフー株式会社 地図検索装置、地図検索方法、および地図検索プログラム
JP2018045636A (ja) * 2016-09-16 2018-03-22 ヤフー株式会社 地図検索装置、地図検索方法、および地図検索プログラム
EP3327592A1 (en) * 2016-11-25 2018-05-30 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and non-transitory recording medium
CN108109616A (zh) * 2016-11-25 2018-06-01 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
US11093537B2 (en) 2016-11-25 2021-08-17 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and non-transitory recording medium
CN108153800A (zh) * 2016-12-06 2018-06-12 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
JP2018092582A (ja) * 2016-12-06 2018-06-14 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置、及び、プログラム
CN108153800B (zh) * 2016-12-06 2023-05-23 松下知识产权经营株式会社 信息处理方法、信息处理装置以及记录介质
JP2018173784A (ja) * 2017-03-31 2018-11-08 富士通株式会社 検索処理方法、検索処理プログラム、および検索処理装置
JP2020140692A (ja) * 2019-03-01 2020-09-03 楽天株式会社 文抽出システム、文抽出方法、及びプログラム
JP2021039715A (ja) * 2019-08-30 2021-03-11 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム
JP7051190B2 (ja) 2019-08-30 2022-04-11 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム

Also Published As

Publication number Publication date
US20180039633A1 (en) 2018-02-08
JP6381775B2 (ja) 2018-08-29
US10671619B2 (en) 2020-06-02
JPWO2016135905A1 (ja) 2017-06-22

Similar Documents

Publication Publication Date Title
JP6381775B2 (ja) 情報処理システム及び情報処理方法
US9836511B2 (en) Computer-generated sentiment-based knowledge base
KR102075833B1 (ko) 미술 작품 추천 큐레이션 방법 및 시스템
KR102146152B1 (ko) 관능 평가 방법 및 그 장치
US20200192921A1 (en) Suggesting text in an electronic document
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
Feuerbach et al. Enhancing an Interactive Recommendation System with Review-based Information Filtering.
JP6928044B2 (ja) 提供装置、提供方法及び提供プログラム
KR20100023630A (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
JP6932162B2 (ja) 地域に基づくアイテム推薦端末装置及びアイテム推薦情報提供方法。
KR101826594B1 (ko) 지식 구조 기반의 전자책 추천 방법 및 시스템
KR20110038247A (ko) 키워드 추출 장치 및 방법
US20130332440A1 (en) Refinements in Document Analysis
Al-Saffar et al. Survey on Implicit Feedbacks Extraction based on Yelp Dataset using Collaborative Filtering
KR101265467B1 (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
JP5741242B2 (ja) プロファイル更新装置およびその制御方法、ならびに、プロファイル更新用プログラム
JP7160971B2 (ja) コンテンツ制御装置
Lerttripinyo et al. Accommodation recommendation system from user reviews based on feature-based weighted non-negative matrix factorization method
JP7037778B2 (ja) 検索装置および方法
JP7323484B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021095728A1 (ja) コンテンツ制御装置、コンテンツ制御システム、コンテンツ制御方法、及びコンテンツ制御プログラム
JP7008102B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15883201

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017501757

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15551747

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15883201

Country of ref document: EP

Kind code of ref document: A1