WO2015118683A1 - 意見収集装置及びシステム及び意見収集方法 - Google Patents

意見収集装置及びシステム及び意見収集方法 Download PDF

Info

Publication number
WO2015118683A1
WO2015118683A1 PCT/JP2014/053018 JP2014053018W WO2015118683A1 WO 2015118683 A1 WO2015118683 A1 WO 2015118683A1 JP 2014053018 W JP2014053018 W JP 2014053018W WO 2015118683 A1 WO2015118683 A1 WO 2015118683A1
Authority
WO
WIPO (PCT)
Prior art keywords
opinion
data
subject
document
values
Prior art date
Application number
PCT/JP2014/053018
Other languages
English (en)
French (fr)
Inventor
芳樹 丹羽
直之 神田
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2015561135A priority Critical patent/JPWO2015118683A1/ja
Priority to PCT/JP2014/053018 priority patent/WO2015118683A1/ja
Publication of WO2015118683A1 publication Critical patent/WO2015118683A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism

Definitions

  • the present invention relates to an opinion collection device and system, and an opinion collection method.
  • Patent Document 1 describes a technique for mapping characteristic words of pros and cons according to pros and cons specificity and topic specificity.
  • Mr. A, Mr. B, Mr. C, and Mr. D stated that animal experiments are necessary.
  • Mr. A, Mr. B, Mr. C, and Mr. D are independent of the subject of animal experiments, the values of "medical progress" and the values of "animal bioethics" are considered as independent values. If it can be quantitatively estimated from past remarks etc. whether there is importance or not, there is an effect that even the same opinion that “animal experiment is necessary” will be seen differently. For example, if Mr. A has a high degree of emphasis on medical progress, but is less interested in animal bioethics, then he would be construed as a “Background” opinion.
  • the present invention calculates and displays or outputs a plurality of opinions relating to a given topic by calculating the degree of importance (background, etc.) of each speaker's way of thinking regarding a plurality of values related to the topic. With the goal.
  • An opinion collecting device A plurality of document data including the document content in advance, a plurality of opinion data including the document content and the speaking subject, a storage unit holding importance data for each speaking subject and each value, An arithmetic unit;
  • the computing unit is Receiving a topic entered by the terminal that defines what documents to collect and one or more values that are considered to have an impact when determining the pros and cons of the topic; Search the document data for the document content related to the received topic, Finding a set of speaking subjects of the retrieved document content, storing a plurality of opinion data including the document content and the speaking subject in the storage unit, For each speaking subject included in the opinion data, calculate the importance for each of the values, Create importance level data for each subject and value from the calculated importance level, store it in the storage unit, An opinion collecting apparatus is provided, characterized in that the importance data classified by each speaking subject and each value is displayed on a display unit or output on an output unit.
  • An opinion collection system A terminal, An opinion collection device connected to the terminal via a communication network;
  • the opinion collection device includes: A plurality of document data including the document content in advance, a plurality of opinion data including the document content and the speaking subject, a storage unit holding importance data for each speaking subject and each value, An arithmetic unit;
  • the computing unit is Receiving a topic entered by the terminal that defines what documents to collect and one or more values that are considered to have an impact when determining the pros and cons of the topic; Search the document data for the document content related to the received topic, Finding a set of speaking subjects of the retrieved document content, storing a plurality of opinion data including the document content and the speaking subject in the storage unit, For each speaking subject included in the opinion data, calculate the importance for each of the values, Create importance level data for each subject and value from the calculated importance level, store it in the storage unit,
  • an opinion collection system characterized in that the importance data for each subject and each value is displayed on a display unit or output on an
  • An opinion collection method in an opinion collection device includes: A plurality of document data including the document content in advance, a plurality of opinion data including the document content and the speaking subject, a storage unit holding importance data for each speaking subject and each value, An arithmetic unit; With The computing unit is Receiving a topic entered by the terminal that defines what documents to collect and one or more values that are considered to have an impact when determining the pros and cons of the topic; Search the document data for the document content related to the received topic, Finding a set of speaking subjects of the retrieved document content, storing a plurality of opinion data including the document content and the speaking subject in the storage unit, For each speaking subject included in the opinion data, calculate the importance for each of the values, Create importance level data for each subject and value from the calculated importance level, store it in the storage unit, An opinion collecting method is provided, characterized in that the importance data classified by the subject and the value is displayed on a display unit or output on an output unit.
  • the present invention it is possible to calculate and display or output a plurality of opinions relating to a given topic by calculating the degree of importance (background etc.) of each speaker's way of thinking regarding a plurality of values related to the topic.
  • FIG. It is a figure which shows an example of the semantic similarity phrase pair data used at the time of importance calculation. It is a figure which shows an example of promotion / suppression word / phrase data used at the time of importance calculation. It is the figure which showed the content of the sentence structure storage area obtained as a result of analyzing the example sentence stored in the sentence storage area at the time of importance calculation, and its syntax structure. It is the figure which showed the content of the context factor calculation work area at the time of calculating importance regarding the same example sentence as FIG.
  • Past utterances of a certain utterance subject can be obtained by document retrieval means. Therefore, if there is a means for calculating the degree of importance of a given value from a given text set, the degree of importance of the speaking subject on the value can be calculated.
  • the means for calculating the importance level for the values of the text set using the text set and the values as arguments is referred to as “importance level calculating means”.
  • importance level calculating means When estimating the importance of the values of the text set, the words given as the values may appear as they are, but it is necessary to consider expressions that are different or highly semantically similar.
  • semantic similarity For example, in the case of medical progress, “innovation of medical technology” and “development of new drugs” are also highly similar expressions. Semantic similarity between values and other expressions is called semantic similarity. Furthermore, depending on the context in which the same expression appears, the degree to which it supports values also changes. If “medical progress” appears in XX in the context of “XX is important,” support for medical progress is high, but if it is a context such as “XX is not always good.” The support is considered low. The effect of context on support is called “context factor”. An example of a representative example of this embodiment is as follows.
  • the opinion collection system includes an input unit that inputs a topic and values related to the topic, an opinion collection unit that retrieves an opinion about the topic, a past speech retrieval unit that retrieves a past opinion about the subject of the opinion, It has a calculation means for calculating the degree of importance regarding values and a display unit for displaying retrieved opinions.
  • the present embodiment is characterized in that a subject is mapped to a display unit based on a plurality of values, and individual remarks related to a topic are linked to a replay subject and displayed in a form in which the pros and cons regarding the topic are understood. Can do.
  • the importance calculation means detects expressions having values and semantic similarity from past statements, searches for semantic similarities between the detected expressions and values, and calculates context factors of appearance contexts.
  • the importance level can be calculated by adding a value obtained by merging the two (product or the like).
  • FIG. 1 is a configuration diagram of an opinion collection system 1000 according to an embodiment of the present invention.
  • the opinion collection system 1000 includes an opinion collection device 100 and an opinion browsing analysis support terminal 200, which are connected by a communication network 300.
  • the opinion collection device 100 and the opinion browsing analysis support terminal 200 can be integrated.
  • Printing means 400 such as a printer is connected to the communication network 300 or the opinion browsing analysis support terminal 200.
  • the opinion collection system 1000 is also appropriately connected to other terminals and servers of related departments or terminals and servers of related departments of external organizations via the communication network 300.
  • the opinion collection device 100 can be configured by a computer including a calculation unit (CPU) 110, a main storage unit 120, an auxiliary storage unit (databases) 130, an input unit 140, a display unit 150, and a communication unit 160.
  • a calculation unit CPU
  • main storage unit 120 main storage unit 120
  • auxiliary storage unit 130 main storage unit 130
  • input unit 140 input unit 140
  • display unit 150 display unit 150
  • communication unit 160 communication unit 160.
  • Each unit described below is realized by the unit 110 executing various programs stored in the main storage unit 120. That is, the calculation unit 110 controls the operation of the opinion collection device 100 by executing a program stored in the main storage unit 120.
  • the main storage unit 120 stores an opinion collection management unit 121 that is a program in which the opinion collection function provided by the opinion collection device 100 is implemented.
  • the opinion collection management unit 121 includes, as constituent elements, an opinion collection unit 1211 relating to a topic, a past statement collection unit 1212 of a utterance subject, a sense of importance calculation unit 1213, and a context factor calculation unit 1214. Further, the main storage unit 120 has an opinion collection work area 1215 for temporarily storing data when executing these means, and various rules to be referred to at the time of execution and opinions collection rules / data collections. A data collection 1216 is also included. Details of the operation of the opinion collection management unit will be described in detail later.
  • the main storage unit 120 also stores the following means that are called when the opinion collection management unit 121 is executed. That is, the document search means 122, the document entity acquisition means 123, the sentence division means 124, the sentence structure analysis means 125, the word division / part of speech assignment means 126, the name identification means 127, the specific expression extraction means 128, and the like. Since each of these means 121 to 128 is a known technique, detailed description thereof is omitted. A known method may be used for the document search means 122 and the word segmentation / part of speech assignment means 126.
  • the name identification means 127 is a technique for reducing a plurality of names of the same target (person, place name, book name, etc.) due to subtle differences in notation to a single name.
  • the sentence dividing means 124 includes a method in which the word division / part-of-speech giving means is applied to a text, and a portion (such as a punctuation mark) recognized as a sentence end is recognized as a break and divided.
  • Non-Patent Document 1 also describes a method.
  • a well-known method can be used for the sentence structure analyzing unit 125.
  • the auxiliary storage unit (database) 130 is configured by a hard disk or the like, and stores data, a knowledge database such as a dictionary, and the like necessary for executing each means of the opinion collection management unit 121. That is, the document data 131, the search index data 132, the speech subject data 133, the value data 134, the sentence structure analysis dictionary 135, and the like.
  • the document data 131 is data obtained by digitizing a document group describing past opinions together with bibliographic data such as a speaker, date, time, and location. An example of the document data 131 is shown in FIG. 15A.
  • the document search index data 132 is index data used to search the document data 131 at high speed.
  • a part of these data may be stored in a database of an external information processing apparatus connected to the opinion collection apparatus 100 via the communication network 300.
  • An example of the search index data 132 is shown in FIG. 15B.
  • An example of the speech subject data 133 is shown in FIG. 15C, and an example of the value data 134 is shown in 15D.
  • An example of the sentence structure analysis dictionary 135 is shown in FIG. The description of these figures will be described later.
  • the input unit 140 is a device that receives an operation input from a user, such as a mouse or a keyboard.
  • the display unit 150 displays a screen used when the system administrator or the user operates the opinion collection apparatus 100.
  • the communication unit 160 communicates with the opinion browsing analysis support terminal 200 via the communication network 300, and transmits opinion data, a speech subject data, and a speech subject ⁇ value-oriented importance degree data described later to the opinion browsing analysis support terminal 200.
  • the opinion browsing analysis support terminal 200 includes a calculation unit 210, a main storage unit 220, an auxiliary storage unit 230, an input unit 240, a display unit 250, and a communication unit 260.
  • the calculation unit 210 controls the operation of the opinion browsing analysis support terminal 200 by executing a program stored in the main storage unit 220.
  • the main storage unit 220 stores an opinion browsing analysis support management unit 221 that executes an opinion browsing analysis support function provided by the opinion browsing analysis support terminal 200.
  • the management unit includes an opinion browsing analysis support means 2211 which is a program for implementing an opinion browsing analysis support function and a work area 2212 for storing data generated at the time of execution.
  • the opinion browsing analysis support management unit 221 displays an opinion browsing analysis support screen 251 on the display unit 250 by using the below-described opinion data, the speech subject data, and the speech subject ⁇ value-oriented importance data received from the opinion collection device 100. Let The user uses the opinion browsing analysis support screen 251 to perform operations such as browsing and analyzing opinions.
  • the input unit 240 is a device that receives an operation input from a user such as a mouse or a keyboard.
  • the communication unit 260 communicates with the opinion collection device 100 via the communication network 300.
  • FIG. 2 is a diagram illustrating a screen example of the opinion browsing analysis support screen 251 displayed on the display unit 250 of the opinion browsing analysis support terminal 200 of FIG.
  • the computing unit 210 of the terminal provides the opinion browsing analysis support screen 251 on the display unit 250 by executing the opinion browsing analysis support means 2211.
  • the opinion browsing analysis support screen 251 is displayed when an agenda setting unit 2511, a values setting unit 2512, an option setting unit 2513, an opinion collection instruction unit 2514, an opinion list display unit 2515, and a mouse cursor is placed on each opinion.
  • the individual opinion detail display section 2516 is included.
  • the selection column for affirmation and denial on the right side of the topic setting section is for making a setting to turn on a switch that reverses the approval or disapproval of opinion when negative is selected. For example, if the subject is “prohibit animal experiments”, select “No”.
  • the opinion browsing analysis support unit 2211 stores the topic input to the topic setting unit 2511 in the topic storage area 221001 in the main storage unit 220, and the values set in the value setting unit 2512 are stored in the value storage area 221002.
  • an opinion collection execution instruction is given from the opinion collection instruction unit 2514, both the topic and values stored in the work area 2212 are transmitted to the opinion collection device 100.
  • the opinion collection result (detailed later with reference to FIG. 3B) and the data related to the list of comment actors are received, and the data are stored in the opinion data storage area 221003 of the work area 2212 and the comment subject data.
  • area 221004 Stored in area 221004.
  • the importance data according to the speech subject ⁇ value (which will be described in detail later with reference to FIG. 3D) is received from the opinion collection device 100 and stored in the importance data storage area 221005 of the speech subject ⁇ value.
  • the opinion browsing analysis support unit 2211 displays the opinion list display unit 2515 based on the contents of the opinion data, the speech subject data, and the speech subject ⁇ value-oriented importance data in the work area 2212.
  • the opinion list display unit 2515 has a horizontal axis indicating the importance of medical progress, and the vertical axis The importance of the life of animals is taken into account, and the speakers (here, A, B, C, D) are arranged with the ordinate and abscissa determined according to each importance, and the pros and cons of each speaker (in this example, the pros and cons) Is displayed with an opinion on the topic.
  • the speakers here, A, B, C, D
  • the speakers here, A, B, C, D
  • the pros and cons of each speaker in this example, the pros and cons
  • a setting unit for instructing which and which are set as the vertical axis and the horizontal axis is also displayed. If there is no instruction to select values, it is preferable to select two values that are as independent as possible. Therefore, using an independence index such as a chi-square test between the distributions of the importance levels of individual speakers. Choosing the largest pair is one of the preferred methods.
  • the data of importance of the utterance subject ⁇ value is created.
  • a pair of values is listed in descending order of independence in accordance with the method for automatically selecting values versus when three or more values are set.
  • a method of recommending this higher rank as a candidate can be considered.
  • FIG. 3A is a diagram showing a configuration of value data stored in the value storage area 221002 in FIG.
  • the value data includes a local number for distinguishing different values (only 1 and 2 in the example of FIG. 2), a value identifier, and its contents.
  • the identifier of values is a value in which identifiers are entered for values already registered in the values data 134.
  • FIG. 15D is a diagram illustrating a data configuration of the value data 134.
  • the value data includes the value identifier corresponding to the value identifier. In this example, “medical progress” is already registered as the 086 value.
  • FIG. 3B is a diagram showing a configuration of opinion data stored in the opinion data storage area 221003 in FIG.
  • the data indicates whether the content is in favor / support (+1) or opposite / negative (-1), and the strength of the relevance to the topic
  • the relevance score, the reason evidence score indicating whether or not the reason for the opinion and the evidence are shown, the content of the opinion, the ID of the document in which the opinion is expressed, the title, and the speaking subject identifier are included.
  • FIG. 3C is a diagram illustrating a configuration of data relating to a speech subject stored in the speech subject data storage area of FIG. 2.
  • the data includes a local number for numbering a speech subject, a speech subject identifier registered in the speech subject data 133, a name, a belonging organization (or higher organization) identifier, and the like.
  • FIG. 15C is a diagram showing a data structure of the speech subject data 133.
  • the speech subject data is composed of a speech subject name corresponding to the speech subject identifier, an alias, a belonging organization (or higher organization) identifier, and the like. The name is required but the others are optional.
  • FIG. 3D is a diagram illustrating a configuration of the speech subject ⁇ value-oriented importance data stored in the comment subject ⁇ value-oriented importance data storage area 221005 in FIG. 2.
  • "x" represents a matrix. The data is obtained with respect to a pair of each local number (described in FIG. 3C) of the collected voice of the opinion and each local number (described in FIG. 3A) stored in the values storage area. This is tabular data in which the degree of importance of the speaking subject with respect to the values is described.
  • FIG. 4A is a configuration diagram of the opinion collection work area 1215 of the opinion collection device 100.
  • This work area includes a topic storage area 121501, a values storage area 1215002, an opinion data storage area 1215003, a speech subject data storage area 1215004, a speech subject ⁇ value-oriented importance storage area 1215005 (the above is a data storage area of the terminal side work area) 221001 to 221005), a search condition storage area 1210501, a search result storage area 1215011, a document entity storage area 1215012, a bibliographic information storage area 1215013, a sentence storage area 12105020, a sentence structure storage area 12115021 of values,
  • the area includes a reverse flag storage area 1215022, a sentence structure storage area 1215023, a context factor calculation work area 12105024, and the like.
  • FIG. 4B is a configuration diagram of the opinion collection rule / data collection 1216 of the opinion collection apparatus 100.
  • the rule / data collection includes approval / disagreement expression data 1216001, reason / evidence expression data 1216002, negative expression data 1216003, statement expression data 1216004, semantic similarity phrase pair data 1216011, promotion / suppression phrase data 12116012, main factor data 1216021 , Auxiliary part factor data 1216022, modification part factor data 1216023, and the like.
  • FIG. 5 is a diagram illustrating a sequence in which the opinion browsing analysis support management unit 221 and the opinion collection management unit 121 in FIG. 1 operate via the communication network 300.
  • each step (steps F1 to F10B) in FIG. 5 will be described.
  • Steps F1 to F3 The opinion browsing analysis support terminal 200 activates the opinion browsing analysis support screen 251, and the topic and values (plurality) are set by the user's input operation, and options are specified.
  • An opinion collection execution request is sent to the opinion collection management unit 121 of the opinion collection apparatus 100 with an option added to the topic and values.
  • Steps F4 to F6 The opinion collection means 1211 of the opinion collection device 100 collects opinions on the topic set and transmitted by the opinion browsing analysis support terminal 200 from the document data 131, and the opinion data (D1) whose configuration example is shown in FIG. 3B (Details will be described later).
  • the opinion collection device 100 stores the opinion data in the opinion data storage area 1215003 on the opinion collection device 100 side in step F4. Further, the opinion collection device 100 transmits the opinion data to the terminal side in step F5, and the opinion browsing analysis support terminal 200 stores the opinion data in the opinion data storage area 221003 on the terminal side.
  • Steps F7 to F10 The opinion collection device 100 further collects each of the comment subjects included in the opinion data (D1), creates the comment subject data (D2), the comment subjects that constitute the opinion data (D1), and the set values.
  • the past degree collecting means 1212 and the importance level calculation means 1213 of the speech subject are used to calculate the importance level regarding the values of the speech subject, and the obtained importance levels are summarized in a table as the talk subject ⁇ Value-oriented importance data (D3) is created.
  • the opinion collection device 100 stores the obtained data D2 and D3 in the speech subject data storage area 1215004 and the speech subject ⁇ value-oriented importance data storage area 1215005 on the opinion collection device 100 side, respectively.
  • the opinion collection device 100 sends the obtained data D2 and D3 to the terminal side in step F9, and the opinion browsing analysis support terminal 200 sends D2 to the terminal-side speech subject data storage area 221004, D3 on the terminal side.
  • the data is stored in the importance data storage area 221005 of the utterance subject ⁇ value.
  • Step F11A / B When the result display option is the normal display, the opinion browsing analysis support terminal 200 displays the result based on the opinion data (D1). In the case where the result display option is a display reflecting the importance level of the value of the speech subject, the opinion browsing analysis support terminal 200 assigns each of the comment subjects to the value based on the importance data of the speech subject ⁇ value (D2). It is displayed at the coordinate position corresponding to the degree, and the opinion of each utterance subject is displayed at that position. When the values are “medical progress” and “animal life”, the opinion browsing analysis support terminal 200 takes the importance of medical progress on the horizontal axis and the importance of animal life on the vertical axis.
  • the ordinate and abscissa are determined and arranged according to the importance of each person's sense of values, and each speaker's approval / disapproval opinion is displayed in that position, and the approval opinion is indicated by ⁇ and the disagreement is indicated by ⁇ .
  • FIG. 6 is a diagram illustrating a procedure in which the opinion collection unit 1211 collects opinions related to a topic from a given topic in step F4 of FIG.
  • the opinion collection unit 1211 creates a search condition Q for a given topic P.
  • the search condition Q is obtained by applying the word division / part-of-speech giving means 126 to the topic P and ORing the list of content words obtained by removing function words such as particles and auxiliary verbs.
  • a simple OR combination includes a case where a plurality of content words appear at positions far away from each other. Therefore, in order to prevent this, it is a good method to add a condition for limiting the distance between the appearance positions.
  • the opinion collection unit 1211 gives the search condition Q to the document search unit 122.
  • the search means executes a search using the search index data 132 to obtain a list of document IDs satisfying the search condition Q, and stores it in the search result storage area 1215011.
  • FIG. 15B is a diagram showing a data structure of the search index data 132.
  • the search index data 132 includes a document ID and a list of index words (index data).
  • the index word describes the number of appearances in the document, a list of appearance positions, and the like.
  • the document search means 122 accesses this data and outputs a list of document IDs of documents including any word in the conditional expression as an index word.
  • the opinion collection unit 1211 performs the following processing 12111010 to 12111013 on each retrieved document ID (I).
  • the opinion collection unit 1211 refers to the document data 131 for the given document ID (I) by the document entity acquisition unit 123, and the document content text corresponding to the document ID (I) ( Body) and title.
  • the opinion collection unit 1211 stores the document ID, the text (text) of the document content, the title, and the like in the opinion data storage area 1215003.
  • FIG. 15A shows the data structure of the document data 131.
  • the document data 131 may include information about a date subject identifier and date / time for correspondence with later-described message subject data 133 in addition to the document title and body in a form corresponding to the document ID. The essential component of these is the body. If there is no title, the head part of the text can be substituted.
  • the opinion collecting unit 1211 divides the text into sentence units by the sentence dividing unit 124.
  • the sentence dividing means there is a method in which after applying the word dividing / part-of-speech giving means 126 to text, a part (such as a punctuation mark) recognized as a sentence end is recognized as a break and divided.
  • the opinion collection unit 1211 performs the following processing 1211020 to 1211023 for each of the divided sentences (S).
  • processing 12111020 the opinion collection unit 1211 calculates the relevance R between the sentence S and the topic P.
  • the opinion collection unit 1211 stores the relevance R in the opinion data storage area 1215003.
  • the relevance R is a value indicating a higher value as more types of content words constituting the topic appear in a narrower range.
  • R (J) J ⁇ J ⁇ D (J) where D (J) is the number of words from the first appearance position to the last appearance position).
  • the relevance calculation method will be described with a specific example.
  • a to Z represent some word
  • the sentence S is “ABCDEFFGABBC”.
  • the content words of the topic P are A, B, F, and K.
  • r (1) r (2) is the same.
  • r (J) J ⁇ (J ⁇ D (J)).
  • the opinion collecting unit 1211 refers to the approval / disapproval expression data 121601 (FIG. 7A) and the negative expression data 1216003 (FIG. 7C) for the sentence S related to the topic P, and supports / disagrees with the topic. Determine. Whether or not there is a relationship can be determined, for example, by comparing the relationship R with a predetermined threshold value.
  • the opinion collection unit 1211 stores the items (+1, ⁇ 1) for approval and disagreement in the opinion data storage area 1215003.
  • the opinion collecting unit 1211 refers to the reason / evidence expression data 1216002 (FIG. 7B) for the sentence S that is related to the topic P and is determined to be in favor or not, and determines whether the reason / evidence exists. judge.
  • the opinion collection unit 1211 stores the reason evidence score in the opinion data storage area 1215003 depending on the presence / absence of evidence.
  • the opinion collection unit 1211 identifies the speaking subject by collating with the speech expression data 1216004 (FIG. 7D).
  • the opinion collection unit 1211 stores the comment subject identifier in the opinion data storage area 1215003. For example, it is possible to specify a speaking subject assuming that a syntax element corresponding to the subject of the speech expression corresponds to the speaking subject. If the name collating unit 127 can return to the entry of the speech subject data 133, the entry is taken as the speech subject. When the date and time of the utterance can be specified by the specific expression extracting means 128, the date and time is taken as the date and time of the utterance.
  • FIG. 15C shows an example of the speech subject data 133.
  • the speech subject data is composed of a name, an alternative name, a belonging organization (or higher organization) identifier, and the like.
  • the opinion collection unit 1211 takes the subject and matches the name or the alias of the speech subject data. Identify the subject. If the document cannot be identified, the opinion collection unit 1211 estimates that the speaking subject of the document is registered in the document data (FIG. 15A), as will be described later.
  • the opinion collection means 1211 matches the pattern such as “ ⁇ number> year ⁇ number> month ⁇ number> day” with the context before and after, and if it succeeds, Take as date and time.
  • the opinion collecting unit 1211 estimates the date / time of the document if the date / time of the document is registered in the document data (FIG. 15A).
  • the opinion collection means 1211 uses the default value for those in which the statement subject and the statement date / time cannot be specified after exiting the loop 12111012 by repeating the processing from 12121020 to 12111023. That is, in the process 12111013, if there is at least one sentence that is relevant to the topic P and can be approved / disagreeed, the default speaking subject, the default speaking date and time, and the title for this document (I) Obtained from data 131 (FIG. 15A). The opinion collection means 1211 exits the loop 1211003 by repeating the processes from 12111010 to 12111013, and then in the process 1211004, the obtained opinion data (FIG. 3B) is used as the relevance R (relevance score) with the topic P.
  • FIG. 7A is a diagram showing an example of approval / disagreement expression data 121001 used for collecting opinions. Words and pros and cons information are written. Regarding approval or disapproval, here, the approval is 1 and the disagreement is -1.
  • FIG. 7B is a diagram showing an example of reason / evidence expression data 1216002 used when collecting opinions. Includes words and grammatical information used to show reasons and evidence.
  • FIG. 7C is a diagram showing an example of negative expression data 1216003 used for collecting opinions. Contains words and grammar information used to express negation.
  • FIG. 7D is a diagram illustrating an example of the utterance expression data 1216004 used when collecting opinions. Contains words and grammar information used to express a statement. 7A to 7D, the left figure shows the Japanese version, and the right figure shows the English version.
  • the importance level calculation means 1213 collects the past statements of the speaking entity for the given speaking entity and the given values, and calculates the importance regarding the values from the collected statements. It is a figure explaining a procedure. First, in processing 1213000, the importance level calculation means 1213 clears the importance level value (V) to be obtained to zero. In process 1213001, the importance level calculation means 1213 applies the sentence structure analysis means 125 to a given value and stores the obtained sentence structure (VS) in the value sentence structure storage area 1215021. When the main part of the topmost syntax element of the syntax structure corresponds to the promotion / suppression word by collation with the promotion / suppression word data 12116012 (FIG. 9B), the syntax element to be promoted / suppressed is the highest order. In the case of suppression, the value inversion flag (Rev) is turned on. The initial value of Rev is off.
  • FIG. 16 shows an example of data stored in the sentence structure storage area 1215021 of values when the values are “medical progress”.
  • the top (first syntax element) is a simple sentence whose main part is the predicate “advance”, and the second syntax element that is the main subject of the operation is the main part. It is a noun "medicine”.
  • the promotion / suppression word / phrase data 12116012 (FIG. 9B)
  • the second syntax element main part is “medicine” ”
  • the sentence structure analyzing unit 125 constructs a sentence structure while referring to the sentence structure analyzing dictionary 135.
  • FIG. 17 shows an example of the dictionary.
  • the sentence structure analysis dictionary 135 includes, in the case of a word representing an action, a semantic role such as an action main and an action target, and a search rule for a term that plays the meaning role.
  • a search rule for a term that plays the meaning role.
  • the search rule is the main actor.
  • the search rule list attached to the dictionary the priority order of the particles when searching for the actor is shown, and the corresponding terms are searched in that order.
  • medicine is taken as an operation.
  • the importance level calculation unit 1213 gives the search condition to the document search unit 122 that the message is from the given message subject, and executes a search based on the search index data 132, thereby executing A list of document IDs that are statements is obtained.
  • the importance calculation means 1213 refers to the affiliation (higher order) organization identifier of the speech subject data 133 (FIG. 15C) as a measure when the list of document IDs does not reach a predetermined number.
  • the importance level calculation unit 1213 executes processing from processing 1213011 to processing 1213013 for each retrieved document ID (I).
  • the importance level calculation unit 1213 gives the document ID (I) to the document entity acquisition unit 123, and acquires the text (text) of the document content from the document data 131 (FIG. 15A).
  • the importance calculation means 1213 divides the text into sentence units by the sentence dividing means 124.
  • the processing enters a loop 1213013, and the importance calculation means 1213 performs processing 1213021 and loop 1213022 on each of the divided sentences S.
  • the importance level calculation means 1213 applies the sentence S to the sentence structure analysis means 125, obtains syntax structure data, and stores it in the sentence structure storage area 1215023.
  • the syntax structure creation method will be described in detail using example sentences.
  • the sentence structure analysis is a process based on the grammar and syntax analysis dictionary 135 (FIG. 17).
  • the importance calculation means 1213 performs processing 1213031 to 1213033 on the syntax element P constituting the syntax structure having values and semantic similarity.
  • the importance calculation means 1213 calculates the sentence structure (VS) of values and the semantic similarity Sim of the syntax element P.
  • the VS is obtained by applying the sentence structure analyzing means 125 to a given value in the processing 1213001, and is stored in the sentence structure storage area 1215021 of the value.
  • the syntactic structure VS of values is mainly a medical term, so the value of Sim is positive.
  • the syntax element is the 10th term.
  • Sim 1.0.
  • the importance calculation means 1213 calculates the context factor CtxFactor in the sentence S of the syntax element P by the context factor calculation means 1214. Details of the calculation method will be described later with reference to FIGS.
  • the importance level calculating means 1213 calculates the value support (s) of the syntax element P from the semantic similarity Sim and the context factor CtxFactor, and adds it to the value (V) of the importance to be obtained. . If the value inversion flag (Rev) is on, the value is subtracted.
  • the degree of support for values (s) it is one preferable method to obtain the value by the product of the similarity level Sim and the context factor CtxFactor. As described above, the triple loops 1213022, 1213013, and 1213004 are exited, and the importance level calculation unit 1213 outputs the value of the importance level V obtained in the processing 1213005.
  • FIG. 9A is a diagram illustrating an example of semantic similarity phrase pair data 1216011 used for importance calculation.
  • the data includes word / phrase pairs having semantic similarity and their similarity coefficients.
  • the similarity coefficient is a real number greater than 0 and less than or equal to 1.0. The larger the value, the more similar.
  • FIG. 9B is a diagram illustrating an example of the promotion / suppression word / phrase data 12116012 used when calculating the importance level. It includes a phrase having an accelerating property or an inhibiting property, a target role child that indicates what it promotes or inhibits, and a coefficient that indicates the degree of promotion or inhibition. There are generally a plurality of target role children, which are listed in order of priority.
  • promotion if there is a syntax element “XX” corresponding to the target, it is taken as the target of promotion, and there is no syntax element that indicates the subject of action “XX” If an element is present, it indicates that it is a promotion target.
  • the promotion / suppression coefficient is positive when it is positive and negative when it is negative.
  • FIG. 10 shows an example of the sentence stored in the sentence storage area 12105020 and the result of analyzing the syntax structure when the importance is calculated using the method shown in FIG. It is the figure which showed the content.
  • the example sentence is "I wonder if we need to think carefully what we should do in order to remove the factors that impede the development of medicine one by one.”
  • English example sentences are also shown.
  • the highest-level syntax element (element number 1) is a single sentence in which the predicate as the main part is “think”, and the action target is the number 2 syntax element. .
  • the auxiliary part at the end of the sentence is “... I wonder if it is necessary to try”, and the modifier (continuous modification) is “slowly”.
  • the sentence ending auxiliary part is obtained by taking only the expressions registered in the auxiliary part factor data 1216022 as shown in FIG. 12B and the concatenation of function words such as auxiliary verbs, particles, and conjunctions from the sentence ending.
  • the three parts of “Try”, “Need”, “Nease”, “Neka” are registered in the auxiliary part factor data.
  • the remaining “no”, “de”, and “ha” are formal nouns, auxiliary verbs, and particles, respectively, which are taken as function words.
  • “think” is taken from the syntax analysis dictionary (FIG. 17) as a main part that takes the object (thinking contents) and the subject (who thought) as semantic roles.
  • the section from the top to “what to do” is taken according to the section search rule, and the subject is not applicable.
  • adverbs that modify the main part, such as “carefully”, are added to the modifier.
  • the analysis proceeds to the part corresponding to the content to be considered, that is, the part from the beginning of the sentence to “what to do”. Since this part matches the pattern of purpose (A) -means (B) of “do B for A”, the second syntax element is a compound sentence whose main part is “purpose-means” and is in role 1 Means and role 2 are registered with means.
  • the syntax elements are No. 6 and No. 3, respectively.
  • the part corresponding to the means is “what we should do”, and the function words “should” and “ka” are taken from the end of the sentence to become the end of sentence auxiliary part.
  • the third syntax element is a simple statement whose main part predicate is “Yes”, “We” corresponding to the subject is the fourth syntax element, and “What” corresponding to the target is the fifth syntax element. It becomes.
  • the predicate “remove” is a simple sentence of the main part
  • the object to be removed is the syntax element of No. 7
  • the noun “factor” is the term of the main part.
  • This 7th term has a linkage modification, which is the 8th syntax element whose main part is the predicate “inhibit”.
  • the No. 8 operator is the No. 7 factor
  • the obstructed target is the No. 9 syntax element.
  • the ninth syntax element is a simple sentence having the predicate “development” in its main part
  • the developing subject is a term having the tenth medicine in its main part. Since the English sentence analysis method is performed in the same manner, the description is omitted.
  • FIG. 11 is a diagram illustrating the contents of the context factor calculation work area 12105024 when the importance level is calculated for the same example sentence as FIG.
  • the syntax element number corresponds to the syntax element number in FIG.
  • a main factor column For each syntax element, a main factor column, an auxiliary factor factor, a modifier factor column, and a context factor calculation column are facilitated.
  • a calculation formula corresponding to the main part of the syntax element is stored with reference to the main factor data 1216021.
  • the value calculated by referring to the auxiliary part factor data 1216022 is stored in the auxiliary part factor column.
  • the auxiliary part factor In the calculation of the auxiliary part factor, it is a simple and preferable method that the auxiliary part is matched with the expression registered in the data with the longest match from the beginning, and a value is obtained by multiplying the factors of the matching. When the matching cannot be obtained, the default value is set to 1.0. In the figure, the default value is displayed in parentheses. In the modifier part factor column, a corresponding value is stored if there is a corresponding part with reference to the modifier part data 1216023. If not, the default value is 1.0.
  • the calculation formula described in the main factor is a calculation formula for calculating the context factor of the syntax element from the context factor of the term (subordinate syntax element).
  • the auxiliary part factor is a factor relating to the auxiliary part of the syntax structure
  • the modifier part factor is a factor relating to the modifier part of the syntax structure.
  • the context factor specifies a syntax element and calculates from there up to the top of the syntax structure.
  • No. 7 is continuously modified by No. 8, the factor of No. 8 is inherited and becomes -1.
  • No. 2 is (for No. 6 purpose) (No. 3 is performed), and the main factor is calculated by No. 6 and No. 3 Max.
  • the main factor is calculated as 1.0.
  • the main part is “considering No. 2” and the factor of No. 2 ⁇ 0.8 is calculated as 0.8.
  • FIG. 12A is a diagram illustrating an example of main factor data used when calculating a context factor.
  • the main factor data includes a type of syntax element (compound sentence / single sentence), a main part, a list of term roles, and a main factor.
  • the syntactic element type is complex, the number of causes-results and purposes-means is limited.
  • the syntax element is a simple sentence, the verb is the main part, and the action main and the action target are the role of the term.
  • the main factor is given as a calculation formula that calculates from the value corresponding to the term.
  • FIG. 12B is a diagram illustrating an example of auxiliary unit factor data used when calculating the context factor.
  • the auxiliary part factor data includes the value of the factor corresponding to the expression of the auxiliary part.
  • the absolute value is larger the more confidently speaking, the smaller the absolute value in the case of a blurred expression. In the case of negative, it becomes a negative value.
  • “No” of No. 3 is included in No. 1 and No. 2, but the longer one has priority, and No. 3 is not applied to the portion where No. 1 or No. 2 matches.
  • FIG. 12C is a diagram illustrating an example of modifier part factor data used in context factor calculation. Includes modifiers such as adverbs and their factor values. Large values are given to words of work that strengthen, and small values are given to words of work that blur.
  • the opinion collection system sets a plurality of values related to a topic together with the topic of interest, and how much importance is given to the above-mentioned values by the subject of the opinion on the topic.
  • the display position of the speaking subject is determined based on the value, and the opinion of the speaking subject is presented based on the position. This makes it possible to read and analyze the collected opinions while grasping the background of the idea of how much importance the speaker has regarding the values.
  • Example 1 is intended for collecting opinions on social issues that are divided into pros and cons, but may also be opinions on products and services, and political, foreign, and security topics. .
  • FIG. 14A is a diagram when applied to collecting opinions on products and services.
  • values and performance are typical values. It is assumed that there are price-oriented, performance-oriented, and balanced groups depending on the person who expresses the opinion.
  • Opinion list display unit 2515 is a diagram that displays the results with price on the horizontal axis and performance on the vertical axis. Products with good performance but high price tend to be well-received by performance-oriented people and unpopular by price-oriented people. Under such circumstances, if there is a person who evaluates the term with a price-oriented person, he would like to refer to that opinion. Since the viewpoint of performance varies depending on the product, it is necessary to register words that are considered to have semantic similarity with the performance in the semantic similarity phrase pair data 1216011 (for example, speed, strength, capacity, etc.). , Safety etc.).
  • FIG. 14B shows a case where a topic in which there is a conflict of opinions among nations is taken up in the case of opinion analysis on a topic on politics, diplomacy, and security.
  • Country B is opposed to Country P's assertion P when Country A and Country B are in conflict, it is a scene that analyzes what opinions are coming from other countries. is there.
  • the horizontal axis indicates the degree of emphasis on the relationship with Country A and the vertical axis indicates the degree of importance on the relationship with Country B. This balance will vary from country to country. Normally, if a person from country B is in favor of opinion P, or if an opinion is against the opinion P from a country in which country A is important, it would be of interest to be surprised.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • the control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.
  • An opinion collection apparatus and system and an opinion collection method include an opinion collection program for causing a computer to execute each procedure, a computer-readable recording medium storing the opinion collection program, and an internal memory of the computer including the opinion collection program Can be provided by a program product that can be loaded on the computer, a computer such as a server including the program, and the like.
  • SYMBOLS 100 Opinion collection apparatus, 110: Operation part, 120: Main memory part, 121: Opinion collection management part, 1211: Opinion collection means, 1212: Past comment collection means of a speech subject, 1213: Importance calculation means of values 1214: Context factor calculation means, 1215: Opinion collection work area, 1216: Opinion collection rules and data collection, 122: Document search means, 123: Document entity acquisition means, 124: Sentence division means, 125: Sentence structure analysis means, 126: Word division / part of speech adding means, 127: name identification means, 128: specific expression extracting means, 130: auxiliary storage unit, 131: document data, 132: index data for search, 133: speech subject data, 134: value data 135: sentence structure analysis dictionary, 140: input unit, 150: display unit, 160: communication unit.
  • 1215001 Topic storage area
  • 1215002 Values storage area
  • 1215003 Opinion data storage area
  • 1215004 Speaking subject data storage area
  • 1215005 Speaking subject ⁇ value-oriented importance storage area
  • 1210501 Search condition storage area
  • 1215011 Search result storage area
  • 1215012 Document entity storage area
  • 1215013 Bibliographic information storage area
  • 12105020 Sentence storage area
  • 1215021 Sentence structure storage area of values
  • 1215022 Reverse flag storage area of values
  • 12125023 Sentence structure storage Area
  • 121024 Context factor calculation work area.
  • 1216001 Approval / opposite expression data
  • 1216002 Reason / evidence expression data
  • 1216003 Negative expression data
  • 1216004 Speech expression data
  • 1216011 Semantic similarity phrase data
  • 12116012 Promotion / suppression phrase data
  • 1216021 Main factor data
  • 1216022 Auxiliary part factor data
  • 1216023 Modifier part factor data.
  • 200 Opinion browsing analysis support terminal, 210: Calculation unit, 220: Main storage unit, 221: Opinion browsing analysis support management unit, 221: Opinion browsing analysis support management unit, 2211: Opinion browsing analysis support means, 2211: Opinion browsing analysis Means 2212: work area 230: auxiliary storage unit 240: input unit 250: display unit 251: opinion browsing analysis support screen 2511: topic setting unit 2512: value setting unit 2513: option setting unit 2514: Opinion list display unit, 2515: Opinion list display unit, 2516: Detailed display unit of individual opinions, 2517: Age division setting unit, 260: Communication unit.
  • 221001 Topic storage area
  • 221002 Values storage area
  • 221003 Opinion data storage area
  • 221004 Talking subject data storage area
  • 221005 Talking subject ⁇ value-oriented importance data storage area.
  • 300 communication network
  • 400 printing means
  • 1000 opinion collection system

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 論題に関する意見を収集する際に、論題に関係する複数の価値観を設定し、意見の発言主体が価値観に関する考え方のバックグラウンドを把握できるようにすること。論題と論題に関わる価値観を入力し、論題に関する意見を検索し、意見の発言主体の過去の意見を検索し、過去発言の価値観に関する重視度を計算し、検索された意見を表示する。複数の価値観の重視度に基づいて発言主体を表示部にマップし、論題に関する個々の意見を発言主体に結びつけて表示することにより、意見の発言主体が価値観をどの程度重視しているか把握しながら各意見を参照できる。価値観の重視度は、価値観と意味相似性を有する表現が発言主体の過去発言に出現する箇所を求め、各出現箇所における表現の意味相似度と文脈ファクターとの相乗値を過去発言に渡って累積することで計算する。

Description

意見収集装置及びシステム及び意見収集方法
本発明は、意見収集装置及びシステム及び意見収集方法に関する。
ある論題について分析したり、判断を下したりする場合、その論題に関する賛否それぞれの立場からのさまざまな意見を収集し、それぞれの長短を比較検討することによって最適の判断を下そうとする努力が一般に行われる。その努力を支援するための技術がこれまでにも開発されてきた。
特許文献1には賛否意見の特徴的な語句を賛否特異度と論題固有度に応じてマップ化する技術が記載されている。
特開2007-241901号公報
ある論題について分析したり、判断を下したりする場合、その論題に関する賛否それぞれの立場からのさまざまな意見を収集し、それぞれの長短を比較検討することによって最適の判断を下そうとする努力が一般に行われる。その際に各意見の発言主体が、その論題に関わる一般に複数の価値観についてどの程度重視しているか、というバックグラウンド知ることができれば、より的確な分析をすることができると考えられる。
例えば、新しい医薬品の開発のための動物実験の是非を問う論題の場合、医学の進歩を重視する立場からは、動物実験は必要という考えになることが多く、また動物愛護や動物の生命倫理を重視する立場からは、禁止すべきという考えになることが多い。従ってこの場合には、医学の進歩という価値観と動物の生命倫理という二つの価値観が両立できない所に論題の発生源があると考えられる。
しかしながら動物実験の是非という論題を離れれば、通常は医学の進歩も、動物の生命を守ることもどちらも大事、というのが常識的な考え方である。このように、そのことを他の価値観とは切り離して独立に善悪を問われた時に、常識的に大事であると多くの人が考えるものを、ここでは価値観(もしくは価値観点)と呼ぶ。
今仮に、AさんとBさんCさんDさんが動物実験は必要という意見を述べていたとする。この場合にもしAさんBさんCさんDさんが、動物実験の論題とは独立に、「医学の進歩」という価値観と「動物の生命倫理」という価値観をそれぞれ独立の価値観としてどの程度重視しているかということを過去の発言などから定量的に推定することができれば、同じ「動物実験は必要」という意見でも見え方が違ってくるという効果がある。
例えばAさんは医学の進歩の重視度が高いが、動物の生命倫理への関心は薄いということであれば、「バックグラウンド通り」の意見という見方になるし、Bさんは逆に動物の生命倫理に関心の高い人であったとすると、今回の意見は「バックグラウンドとは違う意外性のある」意見という見方ができる。またCさんは医学の進歩についても動物倫理についてもどちらも過去の発言からは重視度が低いということであれば、「ちょっと思いつきで」発言しただけかもしれない、という見方も可能である。またDさんは逆にどちらの価値観についても重視度が高いということであれば、今回の意見は「彼我の軽重を測った熟慮の上の意見」かもしれないと考えることができる。
このように価値観に関する重視度を定量的に推定できることは意見分析の上で大きな価値を持つのであるが、これまで実現されてこなかった。本発明の解決すべき課題の一つはこれを実現する手段を与えることである。
ここではA~Dは個人であるとしたが、実際にはウェブサイトの場合や、雑誌などの媒体であるなど、組織である場合もあるので、本発明ではそれらを一括して発言主体と呼ぶ。
本発明は、以上の点に鑑み、所与の論題に関する複数の意見を、論題に関わる複数の価値観に関する各発言主体の考え方の重視度(バックグラウンド等)を計算し、表示又は出力することを目的とする。
 
 本発明の第1の解決手段によると、
 意見収集装置であって、
 文書内容を含む文書データを予め複数保持し、文書内容及び発言主体を含む意見データを複数保持し、発言主体別及び価値観別重視度データを保持する記憶部と、
 演算部と、
を備え、
 
 前記演算部は、
 端末により入力された、何に関する文書を収集するかを定める論題と、前記論題の是非を判断する際に影響を及ぼすと考えられるひとつ又は複数の価値観と、を受信し、
 受信した前記論題に関する文書内容を前記文書データから検索し、
 前記検索された文書内容の発言主体の集合を求め、文書内容及び発言主体を含む複数の意見データを前記記憶部に記憶し、
 前記意見データに含まれる発言主体毎に、各前記価値観に対する重視度を計算し、
 計算された重視度から発言主体別及び価値観別重視度データを作成し、前記記憶部に記憶し、
 前記発言主体別及び価値観別重視度データを、表示部に表示又は出力部に出力させる
ことを特徴とする意見収集装置が提供される。
 本発明の第2の解決手段によると、
 意見収集システムであって、
 端末と、
 前記端末と通信ネットワークを介して接続された意見収集装置と
を備え、
 
 前記意見収集装置は、
 文書内容を含む文書データを予め複数保持し、文書内容及び発言主体を含む意見データを複数保持し、発言主体別及び価値観別重視度データを保持する記憶部と、
 演算部と、
を有し、
 
 前記演算部は、
 端末により入力された、何に関する文書を収集するかを定める論題と、前記論題の是非を判断する際に影響を及ぼすと考えられるひとつ又は複数の価値観と、を受信し、
 受信した前記論題に関する文書内容を前記文書データから検索し、
 前記検索された文書内容の発言主体の集合を求め、文書内容及び発言主体を含む複数の意見データを前記記憶部に記憶し、
 前記意見データに含まれる発言主体毎に、各前記価値観に対する重視度を計算し、
 計算された重視度から発言主体別及び価値観別重視度データを作成し、前記記憶部に記憶し、
 前記発言主体別及び価値観別重視度データを、表示部に表示又は出力部に出力させる
ことを特徴とする意見収集システムが提供される。
 本発明の第3の解決手段によると、
 意見収集装置における意見収集方法であって、
 前記意見収集装置は、
 文書内容を含む文書データを予め複数保持し、文書内容及び発言主体を含む意見データを複数保持し、発言主体別及び価値観別重視度データを保持する記憶部と、
 演算部と、
を備え、
 
 前記演算部は、
 端末により入力された、何に関する文書を収集するかを定める論題と、前記論題の是非を判断する際に影響を及ぼすと考えられるひとつ又は複数の価値観と、を受信し、
 受信した前記論題に関する文書内容を前記文書データから検索し、
 前記検索された文書内容の発言主体の集合を求め、文書内容及び発言主体を含む複数の意見データを前記記憶部に記憶し、
 前記意見データに含まれる発言主体毎に、各前記価値観に対する重視度を計算し、
 計算された重視度から発言主体別及び価値観別重視度データを作成し、前記記憶部に記憶し、
 前記発言主体別及び価値観別重視度データを、表示部に表示又は出力部に出力させる
ことを特徴とする意見収集方法が提供される。
 
本発明によると、所与の論題に関する複数の意見を、論題に関わる複数の価値観に関する各発言主体の考え方の重視度(バックグラウンド等)を計算し、表示又は出力することができる。
 
本発明の一実施例に係る意見収集システムの構成図である。 図1の表示部上に表示される意見閲覧分析支援画面251の画面例の詳細と、意見閲覧分析支援ワークエリア2212の詳細を示す図である。 図2の価値観格納エリアに格納されている価値観データの構成を示す図である。 図2の意見データ格納エリアに格納されている意見データの構成を示す図である。 図2の発言主体データ格納エリアに格納されている発言主体データの構成を示す図である。 図2の発言主体×価値観別重視度格納エリアに格納されている発言主体×価値観別重視度データの構成を示す図である。 意見収集装置の意見収集ワークエリア1215の構成図である。 意見収集装置の意見収集用規則・データ集1216の構成図である。 図1の意見閲覧分析支援管理部と意見収集管理部とが、通信ネットワークを介して動作するシーケンスを示す図である。 図5のステップF4にて、意見収集手段1211が所与の論題から論題に関する意見を収集する手順について説明する図である。 意見収集の際に用いる、賛成・反対表現データの一例を示す図である。 意見収集の際に用いる、理由・証拠表現データの一例を示す図である。 意見収集の際に用いる、否定表現データの一例を示す図である。 意見収集の際に用いる、発言表現データの一例を示す図である。 価値観の重視度算出手段1213が、所与の発言主体と所与の価値観について、発言主体の過去の発言を収集し、収集された発言から価値観に関する重視度を計算する手順について説明する図である。 重視度計算時に用いる意味相似語句対データの一例を示す図である。 重視度計算時に用いる、促進・抑制語句データの一例を示す図である。 重視度計算時における、文格納エリアに格納された例文と、その構文構造を解析した結果として得られる、文構造格納エリアの内容を示した図である。 図10と同じ例文に関して重視度計算をしている時の文脈ファクター計算ワークエリアの内容を示した図である。 文脈ファクター計算時に用いる、主部ファクターデータの一例を示す図である。 文脈ファクター計算時に用いる、補助部ファクターデータの一例を示す図である。 文脈ファクター計算時に用いる、修飾部ファクターデータの一例を示す図である。 年代区分設定部を備えた意見閲覧分析支援画面251の画面例である。 製品やサービスに関する意見を価格と性能を価値観として収集した場合の画面例である。 外交上対立のある主張に関して、当事国以外の意見を当事国(A・B)との関係を価値観として収集した場合の画面例である。 図1の文書データ131の一例を示す図である。 図1の検索用索引データ132の一例を示す図である。 図1の発言主体データ133の一例を示す図である。 図1の価値観データ134の一例を示す図である。 価値観の重視度算出手段1213の動作(図8)に伴って、価値観の文構造格納エリア(図4A)に作成されるデータの一例を示す図である。 図1の文構造解析用辞書135の一例を示す図である。
A.概要
 
以下では、本実施例に係る意見収集システム、および意見収集方法の具体的な構成例を説明する。
 
ある発言主体の過去の発言は文書検索手段により得ることができる。従ってある与えられたテキスト集合から、ある与えられた価値観の重視度を計算する手段があれば、前記発言主体の前記価値観への重視度が計算できることになる。本実施例ではテキスト集合と価値観を引数として、テキスト集合の価値観に対する重視度を計算する手段を「重視度計算手段」と呼ぶ。
テキスト集合の価値観に対する重視度を推定する場合、価値観として与えられた文言がそのまま出現する場合もあるが、別表現でも意味的な相似性が高い表現も考慮する必要がある。例えば医学の進歩の場合、「医療技術の革新」や「新薬の開発」なども意味的な相似性が高い表現である。価値観と別表現との意味的な相似性を意味相似度と呼ぶ。
さらには同じ表現でもそれが出現する文脈によって、それが価値観を支持する度合いも変化する。「○○は重要だ」という文脈で○○に「医学の進歩」が現れれば、医学の進歩への支持度は高いが「○○は必ずしも良いことばかりではない」のような文脈であれば、支持度は低いと考えられる。このように文脈が支持度に与える影響を「文脈ファクター」と呼ぶ。
本実施例の代表的なものの一例を示すと、次のとおりである。意見収集システムは、論題と論題に関わる価値観を入力する入力部と、論題に関する意見を検索する意見収集手段と、意見の発言主体に関する過去の意見を検索する過去発言検索手段と、過去発言の価値観に関する重視度を計算する計算手段と検索された意見を表示する表示部を有することを特徴とする。
また、本実施例では、複数の価値観に基づいて発言主体を表示部にマップし、論題に関する個々の発言を発言主体に結びつけて、論題に関する賛否が分かる形で表示することを特徴とすることができる。
また、前記重視度計算手段は、過去発言から価値観と意味相似性を有する表現を検出し、検出された表現と価値観との意味相似性を検索し、また出現文脈の文脈ファクターを計算し、両者を融合した値(積など)を加算することによって重視度を計算することを特徴とすることができる。
B.実施の形態
 
1.システム及び装置
 
本発明の第一の実施例に係る、意見収集システムを説明する。まず図1により、本実施例の基本的な構成を説明する。
 
図1は、本発明の一実施例に係る意見収集システム1000の構成図である。意見収集システム1000は、意見収集装置100と、意見閲覧分析支援端末200を有し、これらは通信ネットワーク300によって接続されている。意見収集装置100と意見閲覧分析支援端末200を一体化することもできる。通信ネットワーク300上または意見閲覧分析支援端末200上には、プリンタなどの印刷手段400が接続される。なお、意見収集システム1000は、通信ネットワーク300を介して、関係部署の他の端末やサーバ等、あるいは外部機関の関係部署の端末やサーバ等にも適宜接続される。
意見収集装置100は、演算部(CPU)110、主記憶部120、補助記憶部(データベース類)130、入力部140、表示部150、通信部160を備えたコンピュータによって構成することができ、演算部110が主記憶部120に記憶された各種プログラムを実行することによって以下に述べる各手段が実現される。すなわち、演算部110は、主記憶部120が格納しているプログラムを実行することにより、意見収集装置100の動作を制御する。
主記憶部120は、意見収集装置100が提供する意見収集機能を実装したプログラムである意見収集管理部121を格納している。意見収集管理部121は、構成要素として、論題に関する意見収集手段1211、発言主体の過去発言収集手段1212、価値観の重視度算出手段1213、文脈ファクター計算手段1214を含む。また、主記憶部120は、これらの手段を実行する際のデータを一時的に保持する意見収集ワークエリア1215を持ち、また実行時に参照する各種規則やデータの集合体である意見収集用規則・データ集1216も有する。意見収集管理部の動作の詳細については後に詳細に示す。
主記憶部120には、意見収集管理部121の実行に際して呼び出される、以下の手段も格納されている。すなわち文書検索手段122、文書実体取得手段123、文分割手段124、文構造解析手段125、単語分割・品詞付与手段126、名寄せ手段127、固有表現抽出手段128などである。
これら各手段121~128は既知の技術であるため、詳述は省略する。文書検索手段122、単語分割・品詞付与手段126、については公知の手法を用いればよい。名寄せ手段127は同一の対象(人物、地名、書籍名など)の名称が表記の微妙な違いなどで複数存在するものを、単一の名称に帰着させる技術である。固有表現抽出手段128についても公知の手法を用いることができる。例えば、文分割手段124については、前記単語分割・品詞付与手段をテキストに適用後、文末と認定される箇所(句点など)を切れ目として認定して分割するなどの方法がある。非特許文献1にも方法が記載されている。文構造解析手段125についても公知の手法を用いることができる。
補助記憶部(データベース)130は、ハードディスク等によって構成され、意見収集管理部121の各手段を実行するのに必要な、データ、辞書等の知識データベース等が格納されている。すなわち文書データ131と検索用索引データ132、発言主体データ133、価値観データ134、および文構造解析用辞書135などである。文書データ131は、過去の意見を記載した文書群を発言者や日時・時刻・場所などの書誌的データと共に電子化したデータである。図15Aに文書データ131の一例が示されている。文書検索用索引データ132は、文書データ131を高速に検索するために用いられるインデックスデータである。なお、これらのデータの一部は、意見収集装置100に通信ネットワーク300を介して接続される外部の情報処理装置のデータベースに格納されていても良い。検索用索引データ132の一例は図15Bに示されている。また発言主体データ133の一例が図15Cに、価値観データ134の一例が15Dに示されている。文構造解析用辞書135の一例は図17に示されている。これらの図の説明は後述する。
入力部140は、マウスやキーボードなどのような、ユーザから操作入力を受け取るデバイスである。表示部150は、システム管理者やユーザが意見収集装置100を操作する際に用いる画面を表示する。通信部160は、通信ネットワーク300を介して意見閲覧分析支援端末200と通信し、後述する意見データ、発言主体データ及び発言主体×価値観別重視度データを意見閲覧分析支援端末200へ送信する。
意見閲覧分析支援端末200は、演算部210、主記憶部220、補助記憶部230、入力部240、表示部250、通信部260を備えている。演算部210は、主記憶部220が格納しているプログラムを実行することにより、意見閲覧分析支援端末200の動作を制御する。主記憶部220は、意見閲覧分析支援端末200が提供する意見閲覧分析支援機能を実行する意見閲覧分析支援管理部221を格納している。同管理部は、意見閲覧分析支援機能を実装するプログラムである意見閲覧分析支援手段2211と実行時に発生するデータ類を格納するワークエリア2212を含む。
 意見閲覧分析支援管理部221は、意見収集装置100から受け取る後述の意見データ、発言主体データ及び発言主体×価値観別重視度データを用いて、表示部250上に意見閲覧分析支援画面251を表示させる。ユーザは意見閲覧分析支援画面251を用いて、意見の閲覧・分析等の作業を実施する。
入力部240は、マウスやキーボードなどのようなユーザから操作入力を受け取るデバイスである。通信部260は、通信ネットワーク300を介して意見収集装置100と通信する。
図2は、図1の意見閲覧分析支援端末200の表示部250上に表示される意見閲覧分析支援画面251の画面例を示す図である。同端末の演算部210は、意見閲覧分析支援手段2211を実行することにより、表示部250上で意見閲覧分析支援画面251を提供する。
意見閲覧分析支援画面251は、論題設定部2511、価値観設定部2512、オプション設定部2513、意見収集指示部2514、意見一覧表示部2515、および個々の意見にマウスのカーソルを当てるなどした時に表示される個々の意見の詳細表示部2516を含む。論題設定部の右にある肯定と否定の選択欄は、否定が選択された場合には、意見の賛否を逆転させるスイッチをオンにするという設定をするためのものである。例えば「動物実験を禁止する」という論題にしたい場合には否定を選択する。
意見閲覧分析支援手段2211は、論題設定部2511に入力された論題を主記憶部220内の論題格納エリア2212001に格納し、また価値観設定部2512で設定された価値観は価値観格納エリア2212002に格納される。
意見収集指示部2514から意見収集実行の指示が与えられると、ワークエリア2212に格納された論題と価値観の両者は意見収集装置100へ送信される。意見収集装置100からは、最初に意見収集結果(後に図3Bを用いて詳述)と意見の発言主体の一覧に関するデータを受け取り、それをワークエリア2212の意見データ格納エリア2212003と発言主体データ格納エリア2212004に格納する。さらに、意見収集装置100から発言主体×価値観別重視度データ(後に図3Dを用いて詳述)を受け取り、それを発言主体×価値観別重視度データ格納エリア2212005に格納する。意見閲覧分析支援手段2211は、ワークエリア2212の意見データ、発言主体データおよび発言主体×価値観別重視度データの内容に基づいて、意見一覧表示部2515に表示する。
本図では論題として「動物実験の是非」、関連する価値観として「医学の進歩」と「動物の命」が選ばれ、意見一覧表示部2515は横軸に医学の進歩の重視度、縦軸に動物の命の重視度を取り、発言者(ここではA,B,C,D)を各重視度に従って縦座標、横座標を決めて配置し、各発言者別に賛否(本例では賛成意見が○、反対意見が×)と共に論題に関する意見が表示されている。
本図では省略しているが、価値観を3つ以上設定した場合には、その内のどれとどれを縦軸、横軸にするかを指示する設定部も表示する。価値観選択の指示が無い場合には、できるだけ独立性の高い2つの価値観を選ぶことが好ましいと考えられるので、発言主体別重視度の分布間のχ2乗検定など、独立性指標を用いて最大となるペアを選択することは好ましい方法の一つである。
価値観設定部2512の右に候補提示ボタンが描かれているので、この価値観推薦機能について説明する。本実施例では価値観は意見収集者の見識に基づいて設定されることを想定しているが、場合によってはシステム側からの推薦が欲しい場合もあると考えられ、そのような場合に必要となる機能である。実現方法の一例を以下に示す。
論題に関する文書を検索し、価値観データ134に登録されているすべての価値観について、それと意味的相似性を有すると判断されるすべて語(後述する図9Aの説明部分参照)の前記検索された文書中に現れる頻度をカウントして合計する。この頻度合計カウントが大きい順に価値観をソートし、上位から予め設定された個数を選択する(例えば5個)。それら選択された価値観が設定されているものとして、発言主体×価値観別重視度データを作成する。前記価値観が3個以上設定された場合の価値観対自動選択方法に準じて、独立性が高い順に価値観のペアをリストする。この上位を候補として推薦する、という方法が考えられる。
図3Aは、図2の価値観格納エリア2212002に格納されている価値観データの構成を示す図である。価値観データは、異なる価値観を区別するためのローカルな番号(図2の例では1と2のみ)と価値観の識別子、およびその内容を含む。価値観の識別子は、価値観データ134に既登録のものについて、その識別子を記入したものである。
図15Dは価値観データ134のデータ構成を示す図である。価値観データは価値観識別子と対応する価値観の内容を含む。本例では、「医療の進歩」は086番の価値観として既登録である。
図3Bは、図2の意見データ格納エリア2212003に格納されている意見データの構成を示す図である。同データは、意見の内容の他、内容が論題に対して賛成・支持(+1)であるか反対・否定的(-1)であるかを示す項目、論題との関連性の強さを示す関連性スコア、意見の理由や証拠が示されているかどうかを示す理由証拠スコア、その意見等の内容、意見等が表明されている文書のID、またそのタイトル、発言主体識別子を含む。
図3Cは、図2の発言主体データ格納エリアに格納されている発言主体に関するデータの構成を示す図である。同データは、発言主体を番号づけるたけのローカルな番号の他、発言主体データ133に登録されている発言主体識別子と、名称、所属組織(もしくは上位組織)識別子などから構成される。
図15Cは発言主体データ133のデータ構成を示す図である。発言主体データは発言主体識別子と対応する発言主体名称、および別称、所属組織(もしくは上位組織)識別子などで構成されている。名称は必須であるがその他は任意である。
図3Dは、図2の発言主体×価値観別重視度データ格納エリア2212005に格納されている発言主体×価値観別重視度データの構成を示す図である。なお、「×」は、
マトリクスを表す。同データは、収集された意見の発言主体の各ローカル番号(図3Cに記載)と、価値観格納エリアに格納された価値観の各ローカル番号(図3Aに記載)の対に対して、該発言主体の該価値観に対する重視度が記載されている表形式のデータである。
図4Aは、意見収集装置100の意見収集ワークエリア1215の構成図である。本ワークエリアは論題格納エリア1215001、価値観格納エリア1215002、意見データ格納エリア1215003、発言主体データ格納エリア1215004、発言主体×価値観別重視度格納エリア1215005(以上は端末側ワークエリアのデータ格納エリア2212001~2212005と対応する)と、検索条件格納エリア1215010、検索結果格納エリア1215011、文書実体格納エリア1215012、書誌情報格納エリア1215013、文格納エリア1215020、価値観の文構造格納エリア1215021、価値観の反転フラグ格納エリア1215022、文構造格納エリア1215023、文脈ファクター計算ワークエリア1215024、などから構成される。
図4Bは、意見収集装置100の意見収集用規則・データ集1216の構成図である。同規則・データ集は、賛成・反対表現データ1216001、理由・証拠表現データ1216002、否定表現データ1216003、発言表現データ1216004、意味相似語句対データ1216011、促進・抑制語句データ1216012、主部ファクターデータ1216021、補助部ファクターデータ1216022、修飾部ファクターデータ1216023、などから構成される。
2.処理
 
図5は、図1の意見閲覧分析支援管理部221と意見収集管理部121とが、通信ネットワーク300を介して動作するシーケンスを示す図である。以下、図5の各ステップ(ステップF1~F10B)について説明する。
(ステップF1~F3):
意見閲覧分析支援端末200は、意見閲覧分析支援画面251を起動し、ユーザの入力操作により、論題と価値観(複数)が設定され、オプションが指定された後、意見収集の指示を受けて、論題と価値観にオプションを添えて意見収集実行要求を、意見収集装置100の意見収集管理部121へ送信する。
(ステップF4~F6):
意見収集装置100の意見収集手段1211は、意見閲覧分析支援端末200で設定され、送信されてきた論題に関する意見を、文書データ131から収集し、図3Bで構成例を示した意見データ(D1)を得る(詳細は後述する。)。意見収集装置100は、同意見データを、ステップF4にて意見収集装置100側の意見データ格納エリア1215003に格納する。また、意見収集装置100は、同意見データをステップF5にて端末側に送信し、意見閲覧分析支援端末200は、端末側の意見データ格納エリア2212003に同意見データを格納する。
(ステップF7~F10):
意見収集装置100は、さらに意見データ(D1)に含まれる各発言主体を集めて、発言主体データ(D2)を作成し、意見データ(D1)を構成する発言主体と、設定された各価値観に対して、発言主体の過去発言収集手段1212と価値観の重視度算出手段1213を用いて、発言主体の価値観に関する重視度を計算し、得られた重視度を表にまとめて発言主体×価値観別重視度データ(D3)を作成する。意見収集装置100は、得られたデータD2とD3を意見収集装置100側の発言主体データ格納エリア1215004と発言主体×価値観別重視度データ格納エリア1215005にそれぞれ格納する。また、意見収集装置100は、得られたデータD2とD3をステップF9にて端末側に送り、意見閲覧分析支援端末200は、D2を端末側の発言主体データ格納エリア2212004、D3を端末側の発言主体×価値観別重視度データ格納エリア2212005に格納する。
(ステップF11A・B):
結果表示オプションが通常表示の場合には、意見閲覧分析支援端末200は、意見データ(D1)に基づいて結果表示を行う。結果表示オプションが発言主体の価値観重視度反映表示の場合には、意見閲覧分析支援端末200は、発言主体×価値観別重視度データ(D2)に基づいて、各発言主体を、価値観重視度に対応する座標位置に表示し、各発言主体の意見を、その位置に表示する。
意見閲覧分析支援端末200は、価値観が「医学の進歩」と「動物の命」である場合、横軸に医学の進歩の重視度、縦軸に動物の命の重視度を取り、各発言者の各価値観の重視度に従って縦座標、横座標を決めて配置し、各発言者の賛否意見をその位置に、賛成意見は○反対意見は×で表示する。
図6は図5のステップF4にて、意見収集手段1211が所与の論題から論題に関する意見を収集する手順について説明する図である。
処理1211001では、意見収集手段1211は、所与の論題Pに関する検索条件Qを作成する。例えば、検索条件Qは、単語分割・品詞付与手段126を論題Pに適用し、助詞や助動詞などの機能語を除去して得られる内容語のリストのOR結合を取ることによって得られる。なお単純なOR結合では、複数の内容語が大きく離れた位置に出現される場合も含まれてしまうので、それを防ぐために、出現位置の距離を制限する条件を加えることも良い方法である。
処理1211002では、意見収集手段1211は、前記検索条件Qを文書検索手段122に与える。同検索手段は、検索用索引データ132を用いて検索を実行することにより、前記検索条件Qを満たす文書IDのリストを得て、検索結果格納エリア1215011に格納する。
図15Bは検索用索引データ132のデータ構成を示す図である。検索用索引データ132は、文書IDと索引語のリスト(索引データ)を含み、索引語にはその文書中での出現回数と、出現位置のリストなどが記載されている。検索用索引データ132は、文書データ131に基づき、索引語を抽出することにより予め作成されたものである。また、本文中に出現する索引語の他、後に図8の処理 1213002 において、発言主体を指定した検索を行う時のために、発言主体に関する索引もデータには含まれている(「発言主体=W024」など)。
本文中に出現する索引語については、検索式が検索語の論理結合(ANDやORやNOT等の組み合わせ)のみの場合には、索引語だけでも良い。出現回数によって優先順位を上下させる場合には回数も記入する。また複数の検索語が何語以内に現れるかも制約を付ける場合には出現位置も記載しておく必要がある。本実施例は索引語のみでも実施可能であるが、より論題と関連性の高い文書データを高い順位で検索するためには、出現回数や出現位置の情報もあった方が良い。OR結合の検索要求に対して文書検索手段122は、本データにアクセスし、条件式中のいずれかの語を索引語として含む文書の文書IDをリストとして出力する。
ループ1211003 では、意見収集手段1211は、前記検索された各文書ID(I)に、以下の処理1211010~1211013を行う。
処理1211010では、意見収集手段1211は、文書実体取得手段123により、所与の文書ID(I)に対して、文書データ131 を参照して、文書ID(I)に対応する文書内容のテキスト(本文)やタイトルを取得する。意見収集手段1211は、文書ID、文書内容のテキスト(本文)、タイトル等を意見データ格納エリア1215003に格納する。
図15Aは文書データ131のデータ構成を示す図である。文書データ131は、文書IDに対応する形で、文書のタイトルや本文の他、後述する発言主体データ133との対応を取るための発言主体識別子や、日時に関する情報を含む場合もある。これらの内必須となる構成要素は本文である。タイトルが無い場合には、本文の先頭部分で代用することもできる。
処理1211011では、意見収集手段1211は、前記テキストを文分割手段124により文単位に分割する。
文分割手段については、単語分割・品詞付与手段126をテキストに適用後、文末と認定される箇所(句点など)を切れ目として認定して分割するなどの方法がある。
ループ1211012では、意見収集手段1211は、前記分割された各文(S)毎に、以下の処理 1211020~1211023 を行う。
処理1211020では、意見収集手段1211は、文Sと論題Pとの関連性Rを算出する。意見収集手段1211は、関連性Rを意見データ格納エリア1215003に格納する。関連性Rは、論題を構成するより多くの種類の内容語が、より狭い範囲に出現するほど高い値を示す値である。
計算方法の一例を以下に示す。
論題を構成するN種類の内容語が文Sに含まれている場合、Jを1からNまでの整数として、各Jについて、J種類の内容語が文Sに含まれる最小区間の単語数(最初の出現位置から最後の出現位置までの単語数)をD(J)としてr(J)=J×J÷D(J)を計算する。Jを1からNまで動かした時のr(J)の最大値を関連性Rとするのは良い方法の一つである。仮にN種類の内容語が連続して出現していれば、D(N)=Nであり、r(N)=N×N÷N=N、すなわち内容語の種類数となる。離れて出現していればいるほど、低い値となる。
なおN個の内、K個(ただしK>N/2)は連続して現れていて、残りは非常に離れた位置に出現する場合、r(K)=Kであるが、J>KではD(J)が大きくなるためr(J)<Kとなると考えられるので、その場合には関連性RはKとなると考えられる。
上記関連性の計算方法を具体例により説明する。ここでA~Zは何らかの単語を表わすものとし、文Sは「A B C D E F G A B C D」であるとする。また論題Pの内容語はAとBとFとKであるとする。この場合文Sに含まれるのはAとBとFなのでN=3種類の内容語が含まれていることになる。そのため、文Sの論題Pに対する関連性Rを計算するには、J=1,2,3に対してr(J)を計算してその最大値を求めることになる。J=1の場合は1種類の単語が現れる最短区間であり、それは常にそれ自身の1なので、D(1)=1であり、r(1)=1×1÷1=1と計算される。J=2の場合にはD(2)はAとBの最短区間が2、AとFの最短区間は(順番を問わないので)FGAの3、BとFの最短区間はFGABの4である。従って2種類の内容語の最短区間はAとBの場合の2ということで、D(2)=2となり、r(2)は2×2÷D(2)=2となる。J=3の場合、3種類の単語はAとBとFの組み合わせのみである。AとBとFが全部出現する最短区間はFGABの4なので、D(3)=4で、r(3)=3×3÷D(3)=2.25となる。結局r(J)の最大値はJ=3の場合の2.25ということになる。仮に文SのGと次のAの間にXYZが挿入されて「A B C D E F G X Y Z A B C D」であったと仮定すると、r(1)r(2)は同じであるが、D(3)はAとBとFが全部出現する最短区間が最初のABCDEFの6となるので、r(3)=3×3÷6=1.5となり、この場合にはr(2)が最大で関連性R=2と計算される。すなわち種類数が多くても、それらが離れて出現する場合には、より少ない種類数の単語がコンパクトに出現している箇所の方が勝つ場合がある、ということである。
なおここでは簡単のため、r(J)=J×(J÷D(J))としたが、(J÷D(J))をそのままJと掛け算すると、J種類の最短出現区間長(D(J))の影響が強く効き過ぎる懸念があり、それを防ぐためには(J÷D(J))のルート(0.5乗)を取ってからJと掛け算するのも良い方法である。また区間長に関する閾値D0を設け、この区間長内に出現している場合には、区間長による差を考慮しない、とする場合には、J1=MAX(D0,J),D1=MAX(D0,D(J))と定義して、r(J)=J×(J1÷D1)とするのも良い方法である。
処理1211021では、意見収集手段1211は、論題Pと関連性がある文Sについて、賛成・反対表現データ1216001(図7A)と否定表現データ1216003(図7C)を参照して、論題に対する賛成・反対を判定する。関連性があるかどうかは、例えば、関連性Rが予め定めた閾値と比較することで判定することができる。意見収集手段1211は、賛成・反対についての項目(+1、-1)を意見データ格納エリア1215003に格納する。賛成表現があり反対表現がなければ賛成、逆に賛成表現が無く、反対表現があれば反対とし、否定表現が複数ある文については、個数が奇数の場合に賛成か反対かを逆転させる。
処理1211022では、意見収集手段1211は、論題Pとの関連性があり、賛成か反対と判定された文Sについて、理由・証拠表現データ1216002(図7B)を参照して理由・証拠の有無を判定する。意見収集手段1211は、理由・証拠の有無により、理由証拠スコアを意見データ格納エリア1215003に格納する。
処理1211023では、これら文Sについて、意見収集手段1211は、発言表現データ1216004(図7D)との照合により発言主体を特定する。意見収集手段1211は、発言主体識別子を意見データ格納エリア1215003に格納する。例えば、発言表現の主語に相当する構文要素が発言主体に相当するとして発言主体を特定できる。名寄せ手段127 により発言主体データ133のエントリーに帰着できる場合には、そのエントリーを発言主体として取る。また固有表現抽出手段128により発言の日時が特定できる場合には、その日時を発言の日時として取る。
図15Cには発言主体データ133の一例が示されている。発言主体データは前出のように名称、および別称、所属組織(もしくは上位組織)識別子などで構成されている。文Sの中や前後に図7Dに示した発言表現の述語が出現している場合には、意見収集手段1211は、その主語を取り、発言主体データの名称か別称とのマッチングを取ることにより発言主体を特定する。特定できない場合には、後述するように、意見収集手段1211は、文書データ(図15A)中に当該文書の発言主体が登録されていれば、それを発言主体として推定する。
日時の特定については、意見収集手段1211は、「<数字>年<数字>月<数字>日」のようなパターンと前後の文脈とマッチングを取り、成功した場合には、その値を発言の日時として取る。マッチングが取れない場合には、意見収集手段1211は、やはり文書データ(図15A)中に当該文書の日時が登録されていれば、それを発言の日時として推定する。
意見収集手段1211は、以上1211020から1211023までの処理の繰り返しによりループ1211012を抜けた後、文の発言主体や発言日時が特定できてないものについては、デフォールトの値を用いる。すなわち、処理1211013では、論題Pと関連性があり、賛成・反対の判定ができる文が一つでもあれば、本文書(I)に関するデフォールトの発言主体、デフォールトの発言日時、およびタイトルを、文書データ131(図15A)から取得する。
意見収集手段1211は、以上1211010から1211013までの処理の繰り返しによりループ1211003を抜けた後、処理1211004では、得られた意見データ(図3B)を、論題Pとの関連性R(関連性スコア)を第1の整列キーとして降順にソートし、続いて理由・証拠の有無(理由・証拠スコア)を第2のキーとして降順にソートする。収集された意見の個数がオプション指定された上限値を超える場合は、ソート後の順位がその個数を超える部分は捨てる。
図7Aは、意見収集の際に用いる、賛成・反対表現データ1216001の一例を示す図である。語句と賛否の情報が書かれている。賛否についてはここでは賛成を1、反対を-1としている。
図7Bは、意見収集の際に用いる、理由・証拠表現データ1216002の一例を示す図である。理由や証拠を示す際に使われる語句とその文法情報を含む。
図7Cは、意見収集の際に用いる、否定表現データ1216003の一例を示す図である。否定を表わす際に使われる語句とその文法情報とを含む。
図7Dは、意見収集の際に用いる、発言表現データ1216004の一例を示す図である。発言を表わす際に使われる語句とその文法情報とを含む。
なお図7A~図7Dの左図は日本語バージョン、右図は英語バージョンを示す。
図8は、価値観の重視度算出手段1213が、所与の発言主体と所与の価値観について、発言主体の過去の発言を収集し、収集された発言から価値観に関する重視度を計算する手順について説明する図である。
初めに処理1213000では、重視度算出手段1213は、求めるべき重視度の値(V)をゼロクリアする。
処理1213001では、重視度算出手段1213は、所与の価値観に文構造解析手段125を適用し、得られる文構造(VS)を、価値観の文構造格納エリア1215021 に格納する。その構文構造の最上位構文要素の主部が促進・抑制語句データ1216012(図9B)との照合により、促進・抑制語に該当する場合には、促進・抑制の対象となる構文要素を最上位構文要素とし、抑制の場合には、価値観の反転フラグ(Rev)をオンにする。Revの初期値はオフである。
図16に、価値観が「医学の進歩」である場合に、価値観の文構造格納エリア1215021 に格納されるデータの例が示されている。文構造解析手段の出力結果である初期の構造では、最上位(1番の構文要素)は主部が述語「進歩」の単文であり、その動作主体となる2番の構文要素は主部が名詞「医学」の項である。促進・抑制語句データ1216012(図9B)を参照すると「進歩」は動作主体に対して促進性を持つことが分かるので、その促進・抑制の対象である2番の構文要素(主部が「医学」の項)が最上位の構文要素として取られる。また「進歩」は促進方向なので、反転フラグはオフとなる。
文構造解析手段125は文構造解析用辞書135を参照しながら、文構造を構成する。
図17に、同辞書の一例が示されている。文構造解析用辞書135は単語名称とその品詞情報に加えて、動作を表わす語の場合には、動作主や動作対象などの意味役割と、その意味役割を担う項の探索ルールを含む。例えば進歩の場合、意味役割として主体があるが、その探索ルールは動作主となっている。辞書付属の探索ルールリストには、動作主を探索する際の助詞の優先順位が示されているので、その順に該当する項を探す。「医学の進歩」の場合、4番目の「の」が該当するので、医学が動作主として取られることになる。ただし、「進歩させる」のように使役の助動詞が付く場合には、動作対象のルールに従って項の探索が行われる。
処理1213002では、重視度算出手段1213は、所与の発言主体の発言であることを検索条件として文書検索手段122に与え、検索用索引データ132に基づく検索を実行させることにより、前記発言主体の発言である文書IDのリストを得る。
処理1213003では、重視度算出手段1213は、前記文書IDのリストが予め定められた規定数に達しない場合の措置として、発言主体データ133(図15C)の所属(上位)組織識別子を参照し、それが登録されていた場合には、発言主体がその上位組織であることを条件として検索を実行し、文書IDのリストを得て不足分を補うものとする。本処理は必ずしも必須では無いが、検索される文書数が少ない場合の救済措置として有効である。なお本処理は副作用がある場合もあるので、それを行うか行わないかはオプションとして設定できることが望ましい。
続いてループ1213004では、重視度算出手段1213は、前記検索された各文書ID(I)毎に処理1213011以下処理1213013までの処理を実行する。
処理1213011では、重視度算出手段1213は、文書実体取得手段123に文書ID(I)を与えて、文書データ131(図15A)から文書内容のテキスト(本文)を取得する。
処理1213012では、重視度算出手段1213は、前記テキストを文分割手段124により文単位に分割する。
続いてループ1213013に入り、重視度算出手段1213は、前記分割された各文Sに、処理1213021とループ1213022を実施する。
処理1213021では、重視度算出手段1213は、文構造解析手段125に文Sを適用し、構文構造データを得て文構造格納エリア1215023に格納する。後に図10の説明部分において、例文を用いて構文構造作成方法について具体的に説明する。文構造の解析は文法と構文解析用辞書135(図17)に基づく処理である。次にループ1213022に入り、重視度算出手段1213は、前記構文構造を構成する構文要素Pで価値観と意味相似性を有するものについて、処理1213031~1213033を行う。
処理1213031では、重視度算出手段1213は、前記価値観の文構造(VS)と構文要素Pの意味相似度Simを計算する。ここでVSは前記処理1213001において、所与の価値観に文構造解析手段125を適用して得られ、価値観の文構造格納エリア1215021に格納されたものである。
以下意味相似度Simの計算方法の詳細について示す。
文構造VSのトップの構文要素の主部と構文要素Pの主部と一致するか、もしくは意味相似語句対データ1216011に登録されている相似語句対に相当するかを調べ、一致している場合にはSim=1、相似対である場合にはデータに記されている相似度の値をSimとする。価値観がトップの構文だけの場合にはこれで終わりである。価値観が項を伴う場合には、構文要素Pの側にも同じ役割子の項が無ければSim=0となり、有れば項どうしの相似性を計算し、前記のSimに掛け算する。価値観側に項が複数ある場合には、すべてについて構文要素Pの側にも同じ役割子の項があることが条件となり、文構造VSと構文要素Pの対応する項どうしの相似性をすべて計算して掛け算する。価値観側に連体修飾が付いている場合には、構文要素Pの側にも対応する連体修飾がついていることが条件となり、それらの間の相似性を計算して掛け算する。
後に示す図10の例文の構文構造の場合、価値観が「医学の進歩」であるとすると、価値観の構文構造VSは主部が医学の項であることになるので、Simの値がプラスとなるのは、構文要素が10番の項ということになり、この場合には主部の単語が一致するので、Sim=1.0となる。もし構文要素10番の主部が医療であれば、意味相似語句対データ1216011で「医学」との類似度係数が1.0なのでやはりSim=1.0となり、主部が「薬剤」であれば、類似度係数が0.2なのでSim=0.2となる。
処理1213032では、重視度算出手段1213は、構文要素Pの文S中における文脈ファクターCtxFactorを文脈ファクター計算手段1214により計算する。計算方法の詳細については後に図10、図11を用いて説明する。
処理1213033では、重視度算出手段1213は、前記意味相似度Simと前記文脈ファクターCtxFactorから、構文要素Pの価値観支持度(s)を算出し、求めるべき重視度の値(V)に加算する。価値観の反転フラグ(Rev)がオンの場合には減算する。価値観の支持度(s)の計算方法としては、類義度Simと文脈ファクターCtxFactorの積によって求めるのは一つの好ましい方法である。 
以上で、3重のループ1213022、1213013、1213004 を抜け、重視度算出手段1213は、処理1213005において、得られた重視度Vの値を出力する。
図9Aは、重視度計算時に用いる、意味相似語句対データ1216011の一例を示す図である。データは意味相似性を有する語句の対とその相似度係数を含む。相似度係数は0より大きく1.0以下の実数である。大きいほど相似していることを示す。
図9Bは、重視度計算時に用いる、促進・抑制語句データ1216012の一例を示す図である。促進性や抑制性を有する語句と、それが何を促進したり抑制したりするのかを示す対象役割子と、促進・抑制の度合いを示す係数を含む。対象役割子は、一般に複数であり、優先順位順にリストされている。例えば「促進」の場合、対象に相当する「○○を」という構文要素を伴っている場合にはそれが促進対象として取られ、それが無くて、「○○が」という動作主体を表わす構文要素がある場合には、それが促進対象であることを示す。促進・抑制係数は正の場合が促進であり、負の場合が抑制である。
図10は、図8に示した方法を用いて重視度を計算した時に、文格納エリア1215020に格納された文の例と、その構文構造を解析した結果として得られる、文構造格納エリア1215023の内容を示した図である。例文は「医学の発展を阻害する要因を一つ一つ取り除いていくために、我々は何をすべきか、じっくりと考えてみる必要があるのではなかろうか。」である。 参考のため、英語の例文の場合も示した。例文の構造は、最上位の構文要素(要素番号1)は、主部となる述語が「考える」の単文であり、動作の対象が番号2番の構文要素であることなどが記録されている。その他、文末に当たる補助部が「・・・てみる必要があるのではなかろうか」、また修飾部(連用修飾)が「じっくりと」であることも記されている。
文末補助部は、図12Bに示されるような補助部ファクターデータ1216022 に登録されている表現や、助動詞、助詞、接続詞などの機能語の連接を文末から取れるだけ取ることによって得られる。本例の場合「てみる/必要がある/の/で/は/なかろうか」の中、「てみる」「必要がある」「なかろうか」の3部分は補助部ファクターデータに登録されており、残りの「の」「で」「は」はそれぞれ形式名詞、助動詞および助詞で、機能語として取られたものである。次いで「考える」が構文解析用辞書(図17)から、対象(考える内容)と主体(誰が考えたか)を意味役割として取る主部として取られる。対象としては、節の探索ルールに従って先頭から「何をすべきか」までの節が取られ、主体は該当なしとなる。また「じっくりと」のように主部を修飾する副詞は修飾部に追加される。
次に考える内容に相当する部分、すなわち文頭から「何をすべきか」までの部分の解析に移る。この部分は、「AするためにBする」という目的(A)-手段(B)のパターンに合致するので、2番の構文要素は主部が「目的-手段」の複文となり、役割1には目的、役割2には手段が登録される。本例では、それぞれ6番と3番の構文要素となっている。
手段に相当する部分は「我々は何をするべきか」であり、文末から機能語「べき」と「か」が取られ文末補助部となる。次に構文解析用辞書から動詞「する」が主体と対象を意味役割として取ることが分かり、それぞれの対応項の探索ルールに従って、それぞれ「我々」と「何」であることが分かる。以上から3番の構文要素は、主部の述語が「する」の単文であり、主体に相当する「我々」が4番の構文要素となり、対象に相当する「何」が5番の構文要素となる。
目的に相当する構文要素6番は、述語「取り除く」が主部の単文であり、取り除く対象が7番の構文要素であり、それは名詞「要因」が主部の項である。この7番の項には連体修飾が付いており、それが述語「阻害する」を主部に持つ8番の構文要素である。8番の動作主が7番の要因であり、阻害される対象が9番の構文要素である。9番の構文要素は述語「発展」を主部に持つ単文であり、発展する主体が10番の医学を主部に持つ項である。英文の解析方法も同様にして行われるので説明は省略する。
図11は、図10と同じ例文に関して重視度計算をしている時の文脈ファクター計算ワークエリア1215024の内容を示した図である。構文要素番号は図10の構文要素番号と対応している。各構文要素に対して主部ファクター、補助部ファクター、修飾部ファクターのコラムと、文脈ファクター計算のためのコラムが容易されている。
主部ファクター欄には、構文要素の主部に対応する計算式を、主部ファクターデータ1216021を参照して、該当するものを格納する。補助部ファクター欄には、補助部ファクターデータ1216022を参照して計算した値を格納する。補助部ファクターの計算では、補助部について先頭から最長一致でデータに登録されている表現とのマッチングを行い、マッチングが取れたもののファクターの掛け算で値を得るのが簡便で好ましい方法である。マッチングが取れない場合にはデフォールト値を1.0とする。図ではデフォールト値は()内に表示している。
修飾部ファクター欄には、修飾部ファクターデータ1216023を参照して該当するものがあれば対応する値を格納する。無ければデフォールト値は1.0とする。
主部ファクターに記載の計算式は、項(下位の構文要素)の文脈ファクターからその構文要素の文脈ファクターを計算する計算式である。補助部ファクターは構文構造の補助部に関するファクターであり、修飾部ファクターは、構文構造の修飾部に関するファクターである。文脈ファクターは構文要素を指定して、そこから構文構造の上位に向かって計算する。
例文の場合、価値観が「医学の進歩」であるとすると、価値観と意味相似性がプラスになるのは、図8の処理1213031の説明時に示したように、構文要素が10番の項(「医学」に相当する項)ということになる。従って、ここでは10番の構文要素の文脈ファクターを計算する方法について説明する。
まず10番の構文要素に対して文脈ファクター1.0が与えられる。次いで、10番の構文要素だけから決まる構文要素を探索し、9番の構文要素がそれであることが分かる。主部ファクターは10番の文脈ファクター×1.0で1.0と計算される。以下同様の作業を繰り返すと、順番に(1)8番の文脈ファクターが‐1.0、(2)7番が‐1.0、(3)6番が1.0、(4)2番が1.0、(5)1番が0.6というように順に計算されていくことになる。(1)~(5)について以下に詳しく説明する。
(1)8番は「○○を阻害する」という構文要素であり、主部ファクターは(-1)×(阻害対象となる9番のファクター=1.0)である。これから‐1.0と計算される。(2)7番は8番が連体修飾していることから、8番のファクターを引き継いで-1となる。(3)6番は「7番を取り除く」であり、主部ファクターは‐1.0×(取り除く対象である7番のファクター=-1.0)=1.0と計算される。
(4)2番は(6番の目的)のために(3番を行う)で、主部ファクターは6番と3番のMaxで計算される。この場合6番は1.0で3番は0.0なので、主部ファクターは1.0と計算される。(5)1番は、主部は「2番を考える」で2番のファクター×0.8で0.8と計算される。また補助部ファクターは図12Aの補助部ファクターデータ1216022を参照して、「なかろうか」を含むことから0.7と計算され、修飾部ファクターデータ1216023を参照して「じっくりと」のファクターが1.2と計算される。これらを掛け算して0.8×0.7×1.2=0.67で文脈ファクターが計算される。
図12Aは、文脈ファクター計算時に用いる、主部ファクターデータの一例を示す図である。主部ファクターデータは、構文要素の種類(複文・単文)、主部、項の役割子のリスト、と主部ファクターを含む。構文要素種類が複文の場合は、原因‐結果と目的―手段、など数は限定的である。構文要素が単文の場合には、動詞が主部となり、動作主や動作対象などが項の役割子となる。主部ファクターは項に対応する値から計算する計算式として与えられる。
図12Bは、文脈ファクター計算時に用いる、補助部ファクターデータの一例を示す図である。補助部ファクターデータは、補助部の表現と対応するファクターの値を含む。自信をもって言い切っているほど絶対値が大きく、ぼやかした表現の場合には絶対値が小さい。また否定の場合には負の値となる。3番の「ない」は1番や2番に含まれるが、長い方が優先であり、1番や2番がマッチした部分には3番は適用されない。
図12Cは、文脈ファクター計算時に用いる、修飾部ファクターデータの一例を示す図である。副詞などの修飾表現とそのファクター値を含む。強める働きの語には大きな値、ぼやかす働きの語には小さな値が与えられる。
以上のように、本実施例に関わる意見収集システムは、関心を持っている論題と共に、論題に関わる複数の価値観を設定することにより、論題に関する意見の発言主体が前記価値観をどの程度重視しているかを計算し、その値に基づいて前記発言主体の表示位置を決め、その発言主体の意見をその位置に基づいて提示する。これにより、収集された意見を、その発言者が前記価値観に関してどの程度重視しているかという考え方のバックグラウンドを把握しながら読み、また分析することが可能となる。
また、図13に示したように、同じ発言主体であっても、年代と共に価値観の重視度が変化することが考えられるが、年代区分の設定手段部2517を設けることにより、発言主体と年代を組にして扱うことにより、発言主体の価値観に関するバックグラウンドが変化する様子も捉えることが可能である。
実施例1は、具体的な適用例として、賛否の分かれる社会問題に関する意見の収集を対象としているが、その他、製品やサービスに関する意見や、政治・外交・安全保障上の論題であっても良い。
図14Aは、製品やサービスに関する意見収集に適用した場合の図である。
製品やサービスの場合には、価値観としては、価格と性能が代表的である。意見を述べている人によって価格重視派や性能重視派、バランス派がいることが想定される。意見一覧表示部2515は、価格を横軸に性能を縦軸に取って結果表示した図である。性能が良いが価格は高い製品は性能重視派の人には好評価、価格重視派の人には不評となりがちである。そのような中で、価格重視派の人で項評価をしている人がいれば、その意見は参照してみたくなるであろう。
なお、性能については、製品によって観点が変わってくるので、意味相似語句対データ1216011には、性能と意味相似性を有すると考えられる語句を登録しておく必要がある(例えば速度、強度、容量、安全性など)。
一方、図14Bは、政治・外交・安全保障上の論題での意見分析の場合に、国家間で意見の対立があるような論題が取り上げた場合である。
A国とB国が対立しているような場合にA国側の主張PにB国が反対しているとして、当事国以外からはどのような意見が出ているか分析するような場面である。この場合、価値観としては、横軸にA国との関係をより重視する度合い、縦軸にB国との関係を重視する度合いを取ることが考えられる。国や人によって、このバランスは違ってくるだろう。通常はB国重視派の人が意見Pには賛成だったり、通常はA国重視派の国から意見Pに反対する意見が出ていたりすれば、意外性から興味を感じるであろう。
C.実施例の効果
 
本実施例によれば、発言内容が記載された文書群を対象として、所与の論題に関する複数の意見を、論題に関わる複数の価値観に関する各発言者の考え方の重視度(バックグラウンド等)を把握しながら読むことができるようになる。また、本実施例によれば、意外性や信頼性を念頭に置きながら各意見を読むことができ、意見分析の質と効率を向上させることができる。
D.付記
 
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれている。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
 本発明の意見収集装置及びシステム及び意見収集方法は、その各手順をコンピュータに実行させるための意見収集プログラム、意見収集プログラムを記録したコンピュータ読み取り可能な記録媒体、意見収集プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。
100:意見収集装置、110:演算部、120:主記憶部、121:意見収集管理部、1211:意見収集手段、1212:発言主体の過去発言収集手段、1213:価値観の重視度算出手段、1214:文脈ファクター計算手段、1215:意見収集ワークエリア、1216:意見収集用規則・データ集、122:文書検索手段、123:文書実体取得手段、124:文分割手段、125:文構造解析手段、126:単語分割・品詞付与手段、127:名寄せ手段、128:固有表現抽出手段、130:補助記憶部、131:文書データ、132:検索用索引データ、133:発言主体データ、134:価値観データ、135:文構造解析用辞書、140:入力部、150:表示部、160:通信部。
1215001:論題格納エリア、1215002:価値観格納エリア、1215003:意見データ格納エリア、1215004:発言主体データ格納エリア、1215005:発言主体×価値観別重視度格納エリア、1215010:検索条件格納エリア、1215011:検索結果格納エリア、1215012:文書実体格納エリア、1215013:書誌情報格納エリア、1215020:文格納エリア、1215021:価値観の文構造格納エリア、1215022:価値観の反転フラグ格納エリア、1215023:文構造格納エリア、1215024:文脈ファクター計算ワークエリア。
1216001:賛成・反対表現データ、1216002:理由・証拠表現データ、1216003:否定表現データ、1216004:発言表現データ、1216011:意味相似語句対データ、1216012:促進・抑制語句データ、1216021:主部ファクターデータ、1216022:補助部ファクターデータ、1216023:修飾部ファクターデータ。
200:意見閲覧分析支援端末、210:演算部、220:主記憶部、221: 意見閲覧分析支援管理部、221:意見閲覧分析支援管理部、2211:意見閲覧分析支援手段、2211:意見閲覧分析手段、2212:ワークエリア、230:補助記憶部、240:入力部、250:表示部、251:意見閲覧分析支援画面、2511:論題設定部、2512:価値観設定部、2513:オプション設定部、2514:意見一覧表示部、2515:意見一覧表示部、2516:個々の意見の詳細表示部、2517:年代区分設定部、260:通信部。
2212001:論題格納エリア、2212002:価値観格納エリア、2212003:意見データ格納エリア、2212004:発言主体データ格納エリア、2212005:発言主体×価値観別重視度データ格納エリア。
300:通信ネットワーク、400:印刷手段、1000:意見収集システム、

 

Claims (15)

  1.  意見収集装置であって、
     文書内容を含む文書データを予め複数保持し、文書内容及び発言主体を含む意見データを複数保持し、発言主体別及び価値観別重視度データを保持する記憶部と、
     演算部と、
    を備え、
     
     前記演算部は、
     端末により入力された、何に関する文書を収集するかを定める論題と、前記論題の是非を判断する際に影響を及ぼすと考えられるひとつ又は複数の価値観と、を受信し、
     受信した前記論題に関する文書内容を前記文書データから検索し、
     前記検索された文書内容の発言主体の集合を求め、文書内容及び発言主体を含む複数の意見データを前記記憶部に記憶し、
     前記意見データに含まれる発言主体毎に、各前記価値観に対する重視度を計算し、
     計算された重視度から発言主体別及び価値観別重視度データを作成し、前記記憶部に記憶し、
     前記発言主体別及び価値観別重視度データを、表示部に表示又は出力部に出力させる
    ことを特徴とする意見収集装置。
     
  2.  請求項1に記載された意見収集装置において、
     前記意見データは、さらに論題との関連性を含み、
     前記演算部は、
     前記検索された文書内容の発言主体の集合と、前記論題との関連の強さを示す関連性とを求め、
     関連性の高い順に選択した複数の前記意見データを予め定められた数だけ作成する
    ことを特徴とする意見収集装置。
     
  3.  請求項1に記載された意見収集装置において、
     前記文書データは、さらに、文書IDに対応して文書内容を含み
     前記意見データは、さらに、文書ID、論題との関連性を含み、
     
     前記演算部は、
     前記論題を、単語分割し、助詞及び助動詞及び他の機能語を除去して得られる内容語のリストによって、前記論題に関する検索条件を作成し、前記文書データを検索して、前記検索条件を満たす文書IDのリストを得て、
     前記検索された各文書IDに対して、前記文書データを参照して、文書IDに対応する文書内容を取得し、
     文書内容を分割した各文毎に、文と前記論題とについての、前記論題を構成するより多くの種類の内容語が、より狭い範囲に出現するほど高い値を示すように関連性を算出し、前記論題と関連性がある文について、予め定められた発言を表現したデータとの照合により発言主体を特定し、
     文書ID、関連性及び発言主体を、前記発言データに含めて前記記憶部に記憶する
    ことを特徴とする意見収集装置。
     
  4.  請求項3に記載された意見収集装置において、
     前記演算部は、
     文の発言主体や発言日時が特定できてない文章内容については、前記文書データを参照し、各文について、該文を含む文書に関するデフォールトの発言主体を取得することを特徴とする意見収集装置。
     
  5.  請求項4に記載された意見収集装置において、
     前記演算部は、
     得られた前記意見データを、前記論題との関連性を第1の整列キーとして降順にソートし、及び/又は、収集された文書内容の個数がオプション指定された上限値を超える場合は、ソート後の順位がその個数を超える部分は捨てることを特徴とする意見収集装置。
     
  6.  請求項1に記載された意見収集装置において、
     前記演算部は、
     前記重視度を計算する計算する処理において、
     前記文書データを参照して、前記発言主体の過去の前記文書データを検索し、
     検索された過去の前記文書データを文単位に分割し、
     分割された各文について、その文を構文解析して構文構造を構成する構造要素を得て、
     構文解析結果の各構文要素について、前記価値観との意味相似性(Sim)を計算し、
     前記構文要素の文中において、価値観に対する支持度に文脈が与える影響を表す文脈ファクターを計算し、
     前記意味相似性(Sim)と文脈ファクターから文の価値観に対する重視度(V)を計算し、
     各文の価値観に対する重視度(V)の累積により、発言主体の前記価値観に対する重視度を計算する
    ことを特徴とする意見収集装置。
     
  7.  請求項6に記載された意見収集装置において、
     前記演算部は、
     前記価値観の文構造のトップの構文要素の主部と、各構文要素の主部とが一致するか、及び、語句間の意味相似性を示す予め定められた意味相似語句対データに登録されている相似語句対に相当するかを調べることにより、意味相似性(Sim)を求めることを特徴とする意見収集装置。
     
  8.  請求項6に記載された意見収集装置において、
     前記記憶部は、
     構文要素の主部に対して、下位の構文要素の文脈ファクターから自身の文脈ファクターを計算する計算式を定める主部ファクターのデータと、
     構文要素の文末表現に当たる補助部の文脈ファクターに与える影響をデータ化した補助部ファクターのデータと、
     構文要素の修飾表現が文脈ファクターに与える影響をデータ化した修飾部ファクターのデータ
    を含み、
     
     前記演算部は、
     前記文脈ファクターを計算する処理において、
     主部ファクターと補助部ファクターと修飾部ファクターをデータに基づいて各構文要素に割り当て、
     指定された構文要素から上位の構文要素に向かって、前記主部ファクターの与える計算式に従って各構文要素の主部ファクターを計算し、
     計算された主部ファクターの値に、補助部ファクターと修飾部ファクターを相乗して文脈ファクターを計算する
    ことを特徴とする意見収集装置。
     
  9.  請求項6に記載された意見収集装置において、
     前記演算部は、
     価値観から得られる構文構造を求め、
     前記構文構造の最上位構文要素の主部が、予め定められた、事象の促進・抑制に関与する促進・抑制語に該当する場合には、促進・抑制の対象となる構文要素を最上位構文要素とし、抑制の場合には、価値観の反転フラグを設定し、
     前記意味相似性(Sim)と前記文脈ファクターから、各構文要素の価値観支持度(s)を算出し、重視度(V)に、加算又は価値観の反転フラグが設定されている場合には減算する
    ことを特徴とする意見収集装置。
     
  10.  請求項1に記載された意見収集装置において、
     前記表示部には、
     発言主体別及び価値観別重視度データを参照して、各発言主体に対して、横軸用の第1価値観に対する重視度を横座標に、縦軸用の第2の価値観に関する重視度を縦座標として、各発言主体が表示されることを特徴とする意見収集装置。
     
  11.  請求項1に記載された意見収集装置において、
     前記表示部には、
     意見データを参照して、各文書内容を、その文書内容の発言主体の表示位置に対応づけて表示されることを特徴とする意見収集装置。
     
  12.  請求項1に記載された意見収集装置において、
     前記発言データは、さらに年代区分を含み、
     前記演算部は、
     年代区分毎の発言主体別及び価値観別重視度データを作成して記憶部に記憶し、発言主体の価値観に関する重視度が変化する様子を表示部に表示又は出力部に出力させることを特徴とする意見収集装置。
     
  13.  意見収集システムであって、
     端末と、
     前記端末と通信ネットワークを介して接続された意見収集装置と
    を備え、
     
     前記意見収集装置は、
     文書内容を含む文書データを予め複数保持し、文書内容及び発言主体を含む意見データを複数保持し、発言主体別及び価値観別重視度データを保持する記憶部と、
     演算部と、
    を有し、
     
     前記演算部は、
     端末により入力された、何に関する文書を収集するかを定める論題と、前記論題の是非を判断する際に影響を及ぼすと考えられるひとつ又は複数の価値観と、を受信し、
     受信した前記論題に関する文書内容を前記文書データから検索し、
     前記検索された文書内容の発言主体の集合を求め、文書内容及び発言主体を含む複数の意見データを前記記憶部に記憶し、
     前記意見データに含まれる発言主体毎に、各前記価値観に対する重視度を計算し、
     計算された重視度から発言主体別及び価値観別重視度データを作成し、前記記憶部に記憶し、
     前記発言主体別及び価値観別重視度データを、表示部に表示又は出力部に出力させる
    ことを特徴とする意見収集システム。
     
  14.  請求項13に記載された意見収集システムにおいて、
     前記意見収集装置は、前記端末に、前記意見データ及び前記発言主体別及び価値観別重視度データを送信し、
     前記端末は、
     前記論題及び前記ひとつ又は複数の価値観を入力するための入力部と、
     前記意見収集装置から受信した前記意見データ及び前記発言主体別及び価値観別重視度データを記憶する端末記憶部と、
     前記意見データ及び前記発言主体別及び価値観別重視度データを、表示する表示部又は出力する出力部と
     通信、記憶、表示処理を行うための端末演算部と
    を備えたことを特徴とする意見収集システム。
     
  15.  意見収集装置における意見収集方法であって、
     前記意見収集装置は、
     文書内容を含む文書データを予め複数保持し、文書内容及び発言主体を含む意見データを複数保持し、発言主体別及び価値観別重視度データを保持する記憶部と、
     演算部と、
    を備え、
     
     前記演算部は、
     端末により入力された、何に関する文書を収集するかを定める論題と、前記論題の是非を判断する際に影響を及ぼすと考えられるひとつ又は複数の価値観と、を受信し、
     受信した前記論題に関する文書内容を前記文書データから検索し、
     前記検索された文書内容の発言主体の集合を求め、文書内容及び発言主体を含む複数の意見データを前記記憶部に記憶し、
     前記意見データに含まれる発言主体毎に、各前記価値観に対する重視度を計算し、
     計算された重視度から発言主体別及び価値観別重視度データを作成し、前記記憶部に記憶し、
     前記発言主体別及び価値観別重視度データを、表示部に表示又は出力部に出力させる
    ことを特徴とする意見収集方法。

     
PCT/JP2014/053018 2014-02-10 2014-02-10 意見収集装置及びシステム及び意見収集方法 WO2015118683A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015561135A JPWO2015118683A1 (ja) 2014-02-10 2014-02-10 意見収集装置及びシステム及び意見収集方法
PCT/JP2014/053018 WO2015118683A1 (ja) 2014-02-10 2014-02-10 意見収集装置及びシステム及び意見収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/053018 WO2015118683A1 (ja) 2014-02-10 2014-02-10 意見収集装置及びシステム及び意見収集方法

Publications (1)

Publication Number Publication Date
WO2015118683A1 true WO2015118683A1 (ja) 2015-08-13

Family

ID=53777509

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/053018 WO2015118683A1 (ja) 2014-02-10 2014-02-10 意見収集装置及びシステム及び意見収集方法

Country Status (2)

Country Link
JP (1) JPWO2015118683A1 (ja)
WO (1) WO2015118683A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011004007A (ja) * 2009-06-16 2011-01-06 Ricoh Co Ltd テレビ会議装置、テレビ会議方法、そのプログラム
JP2012178046A (ja) * 2011-02-25 2012-09-13 Kddi Corp ディスカッション活性化支援装置、ディスカッション活性化支援方法およびコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011004007A (ja) * 2009-06-16 2011-01-06 Ricoh Co Ltd テレビ会議装置、テレビ会議方法、そのプログラム
JP2012178046A (ja) * 2011-02-25 2012-09-13 Kddi Corp ディスカッション活性化支援装置、ディスカッション活性化支援方法およびコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ICHIRO IDE: "Analysis and Applications of a Large-scale News Video Archive", IEICE TECHNICAL REPORT, vol. 112, no. 441, 14 February 2013 (2013-02-14) *
T OMOYA TAKEYOSHI ET AL.: "State Visualization System for Enlivenment of Online Discussion", DAI 7 KAI NETWORK SEITAIGAKU SYMPOSIUM YOKOSHU, 12 March 2011 (2011-03-12) *

Also Published As

Publication number Publication date
JPWO2015118683A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
Ji et al. Survey of hallucination in natural language generation
US10282468B2 (en) Document-based requirement identification and extraction
Pustejovsky et al. Natural Language Annotation for Machine Learning: A guide to corpus-building for applications
JP6466952B2 (ja) 文章生成システム
El-Beltagy et al. Combining lexical features and a supervised learning approach for Arabic sentiment analysis
US20100205198A1 (en) Search query disambiguation
JP6663826B2 (ja) 計算機及び応答の生成方法
WO2012083892A1 (zh) 一种网络不良信息的过滤方法及装置
Agarwal et al. Parsing screenplays for extracting social networks from movies
Agarwal et al. Frame semantic tree kernels for social network extraction from text
Kessler et al. A Corpus of Comparisons in Product Reviews.
Glass et al. A naive salience-based method for speaker identification in fiction books
Fabregat et al. Extending a Deep Learning Approach for Negation Cues Detection in Spanish.
JP6830971B2 (ja) 文章生成のためのデータを生成するシステム及び方法
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Silva et al. Automatic expansion of a social judgment lexicon for sentiment analysis
KR101375221B1 (ko) 의료 프로세스 모델링 및 검증 방법
JP6250833B2 (ja) 文書検索システム、ディベートシステム、文書検索プログラム
Boudad et al. Sentiment classification of Arabic tweets: a supervised approach
KR20120070713A (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
Carvalho et al. Lexical to discourse-level corpus modeling for legal question answering
WO2017119060A1 (ja) 情報提示システム
WO2015118683A1 (ja) 意見収集装置及びシステム及び意見収集方法
Scholz et al. Integrating viewpoints into newspaper opinion mining for a media response analysis.
JP4281899B2 (ja) 質問文書要約装置、質問応答検索装置、質問文書要約プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14881866

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015561135

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14881866

Country of ref document: EP

Kind code of ref document: A1