WO2009123260A1 - 共起辞書作成システムおよびスコアリングシステム - Google Patents

共起辞書作成システムおよびスコアリングシステム Download PDF

Info

Publication number
WO2009123260A1
WO2009123260A1 PCT/JP2009/056804 JP2009056804W WO2009123260A1 WO 2009123260 A1 WO2009123260 A1 WO 2009123260A1 JP 2009056804 W JP2009056804 W JP 2009056804W WO 2009123260 A1 WO2009123260 A1 WO 2009123260A1
Authority
WO
WIPO (PCT)
Prior art keywords
occurrence
typicality
score
relationship
collected
Prior art date
Application number
PCT/JP2009/056804
Other languages
English (en)
French (fr)
Inventor
正明 土田
弘紀 水口
大 久寿居
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US12/922,320 priority Critical patent/US8443008B2/en
Priority to JP2010505973A priority patent/JP5321583B2/ja
Publication of WO2009123260A1 publication Critical patent/WO2009123260A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Definitions

  • the present invention relates to a co-occurrence dictionary generation system, a scoring system, a co-occurrence dictionary generation method, a scoring method, and a program.
  • This application claims priority based on Japanese Patent Application No. 2008-094980 filed in Japan on April 1, 2008 and Japanese Patent Application No. 2008-124254 filed on May 12, 2008 in Japan. And the contents thereof are incorporated herein.
  • word co-occurrence information is often used.
  • Patent Document 1 An example of a conventional co-occurrence dictionary creation system is described in Patent Document 1.
  • the co-occurrence dictionary creation system of Patent Document 1 includes a document analysis unit that analyzes a given document set, a word extraction unit that extracts words that exist in the given document set, and stores them in a storage device.
  • the word chain existing in the given document set is extracted and stored in a storage device, and the number of co-occurrence between each of the words and the word chain is detected and stored.
  • the co-occurrence number detection unit to be stored in the device, and the co-occurrence degree are detected according to the co-occurrence number, and based on the detected co-occurrence degree, the conceptual information of the word is quantified and stored in the storage device
  • word chain is a chain of n words (n is 2 or more) consecutive in the document.
  • Patent Document 1 first, each sentence in a document set is subjected to morphological analysis. Next, all words or word chains (chains of two or more words) are extracted from the morphological analysis results and stored in the storage device. Next, the co-occurrence number detection unit extracts the independent words or word chains that co-occur for each of the extracted independent words (nouns, pronouns, verbs, adjectives, adverbs) or word chains, and determines the number of occurrences. Count. The co-occurrence number detection unit sends the count result to the conceptual information quantification unit. Here, the number of appearances is counted when a word or a word chain co-occurs in a predetermined document range.
  • the “predetermined document range” is any one of a document, a paragraph, and a sentence.
  • the conceptual information quantification unit calculates the degree of co-occurrence of each of the extracted words or word chains with each of the words or word chains.
  • the co-occurrence degree is, for example, a value obtained by dividing the number of times of co-occurrence by the number of times of appearance of one word constituting the co-occurrence information.
  • the first problem in the prior art is that it is difficult to generate a high-quality co-occurrence dictionary.
  • the reason is that the co-occurrence dictionary creation system described in Patent Document 1 collects all co-occurrence within a certain range, such as documents, paragraphs, and sentences. This is because co-occurrence has no semantic relation. For example, consider a case where co-occurrence information is acquired from a sentence “curry is spicy, but Fukujinzuke is soppy”.
  • Patent Document 1 “curry, hot”, “curry, pickled”, “Fukujin pickled, salty”, “curry, salty”, “Fukujin pickled, spicy”, etc. are acquired as co-occurrence.
  • the second problem in the prior art is that a large amount of storage area is required for storing the co-occurrence information, and the storage capacity of the co-occurrence dictionary is increased.
  • the reason for this is that in the co-occurrence dictionary creation system described in Patent Document 1, the number of word chains in a document set or the number of word chains n for an expression consisting of a plurality of words (referred to as compound expression) increases. This is because the number increases.
  • JP 2006-215850 A Akiko Aizawa, “Similarity Scale Based on Co-occurrence”, Operations Research, Vol. 52, no. 11, pp. 706-718, 2007 T.A. Hofmann, “Probabilistic Latin Semantic Indexing”, Proc. Of SIGIR'99, pp. 50-57, 1999. M.M. A. Heart, Text Tiling: Segmenting Text into Multiparagraph Subtopic Passages, Computational Linguistics, Vol. 23, no. 1, pp. 33-64, 1997.
  • the present invention has been invented in view of the above problems, and its object is to provide a co-occurrence dictionary generation system, a scoring system, a co-occurrence dictionary generation method, and a scoring that can create a co-occurrence dictionary in consideration of a semantic relationship. It is to provide a method and program.
  • Another object of the present invention is to provide a co-occurrence dictionary generation system, a scoring system, and a co-occurrence dictionary generation method capable of creating a co-occurrence dictionary with a small storage area corresponding to the compound expression by extracting only meaningful compound expressions. It is to provide a scoring method and program.
  • a co-occurrence dictionary generation system includes a language analysis unit that analyzes morphological analysis of text to identify clauses and analyzes the dependency between clauses, co-occurrence of nouns in the text, nouns
  • Co-occurrence relationship collection unit that collects the dependency of precautions, predicate and predicate dependency as co-occurrence relationships, and co-occurrence that calculates the co-occurrence score of co-occurrence relationships based on the frequency of collected co-occurrence relationships
  • a score calculation unit and a co-occurrence dictionary storage unit that stores a co-occurrence dictionary describing a correspondence between the calculated co-occurrence score and the co-occurrence relationship.
  • the unit constituting the co-occurrence relationship is a phrase
  • noun phrases and nouns, and noun phrases and nouns need not be distinguished from each other. For this reason, phrases may be omitted.
  • the word “word” is specified, it represents only the word, not the phrase.
  • the co-occurrence collection unit is a clause
  • only meaningful compound expressions can be extracted.
  • a co-occurrence dictionary with a small storage area corresponding to the composite expression can be created.
  • FIG. 1 is a general block diagram of an information processing system that implements a system according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing the configuration of the first exemplary embodiment of the present invention.
  • the first embodiment of the present invention operates by a corpus input unit 1 that inputs text that is a collection source of co-occurrence relationships, a storage device 2 that stores text and generated co-occurrence dictionaries, and program control. It has a data processing device 3 and a co-occurrence dictionary display unit 4 that displays the contents of the generated co-occurrence dictionary.
  • the corpus input unit 1 causes the corpus storage unit 20 to store text data that is a collection source of co-occurrence relationships.
  • the corpus is composed of “text” representing a text body and “ID” representing an identifier of each data.
  • the “ID” may be specified in advance, or may be automatically assigned, for example, by assigning an ID so as to be an integer serial number in the order of input.
  • the storage device 2 includes a corpus storage unit 20 and a co-occurrence dictionary storage unit 21.
  • the corpus storage unit 20 stores the text data input by the corpus input unit 1.
  • the co-occurrence dictionary storage unit 21 stores the co-occurrence dictionary generated by the co-occurrence dictionary generation unit 30.
  • the data processing device 3 includes a co-occurrence dictionary generation unit 30 and a co-occurrence dictionary output unit 31.
  • the co-occurrence dictionary generation unit 30 includes a language analysis unit 300, a co-occurrence relation collection unit 301, and a co-occurrence score calculation unit 302.
  • the language analysis unit 300 reads text data from the corpus storage unit 20 and performs morphological analysis, phrase identification, and dependency analysis between phrases on each text data.
  • the language analysis unit 300 outputs the analysis result to the co-occurrence relationship collection unit 301.
  • the co-occurrence relationship collecting unit 301 is based on the analysis result of the language analysis unit 300. Collect co-occurrence relationships. In addition, the co-occurrence relationship collection unit 301 acquires a noun, a predicate, and the frequency of each co-occurrence relationship. The co-occurrence relationship collection unit 301 outputs the collected co-occurrence relationship and the frequency of each acquired co-occurrence relationship to the co-occurrence score calculation unit 302.
  • the co-occurrence relationship between nouns is collected when each noun co-occurs in a predetermined document range.
  • the predetermined document range is one of a document, a paragraph, and a sentence.
  • the co-occurrence score calculation unit 302 When the co-occurrence score calculation unit 302 receives each noun, predicate, co-occurrence relation and the frequency thereof, the co-occurrence score calculation unit 302 calculates a co-occurrence score of each co-occurrence relation. Then, the co-occurrence score calculation unit 302 stores each co-occurrence relation and the calculated co-occurrence score in the co-occurrence dictionary storage unit 21.
  • the co-occurrence score is the degree to which two words are used at the same time, and is calculated so that the score increases as it is easily used at the same time. Any co-occurrence intensity calculation method can be used for the co-occurrence score.
  • the frequency may be used as it is as a co-occurrence score.
  • the logarithm of the frequency may be taken as the co-occurrence score so that the high-frequency co-occurrence relationship does not become too advantageous.
  • the co-occurrence score may be a value obtained by dividing the frequency of the co-occurrence relationship by the frequency of one of the two words of the co-occurrence relationship or the sum of both frequencies. It should be noted that the semantic relation is higher for words that are more likely to be used at the same time, and lower for words that are less likely to be used at the same time.
  • a dice coefficient, a self-mutual information amount, a jackard coefficient, etc. which are measures of co-occurrence strength in Non-Patent Document 1
  • Non-Patent Document 2 a method of estimating the co-occurrence probability of any two words from a set of co-occurrence relationships may be used.
  • n represents the number of types of words constituting the co-occurrence relationship.
  • k in z_k represents a subscript.
  • represents an operator that sums all k.
  • z_k is a cluster in which words having similar distributions of co-occurrence words are gathered. The number of k is specified by the user.
  • P (z_k) is the appearance probability of each cluster.
  • z_k) is a generation probability of w_i when the cluster z_k appears.
  • z_k) is a generation probability of w_j when the cluster z_k appears.
  • Non-Patent Document 2 P (w_i
  • the co-occurrence dictionary output unit 31 reads out the co-occurrence relationship described in the co-occurrence dictionary from the co-occurrence dictionary storage unit 21 and the co-occurrence score, and outputs them to the co-occurrence dictionary display unit 4.
  • the co-occurrence dictionary output unit 31 may sort and output the co-occurrence relationships in descending order or ascending order of the co-occurrence scores.
  • the co-occurrence dictionary output unit 31 may specify at least one word and output only the co-occurrence relationship including the input word.
  • the co-occurrence dictionary output unit 31 may output only co-occurrence relationships having a co-occurrence score that is greater than or equal to, less than or equal to, or greater than or equal to a certain value.
  • the co-occurrence dictionary display unit 4 displays the co-occurrence relationship output by the co-occurrence dictionary output unit 31 together with the co-occurrence score.
  • the co-occurrence dictionary generation unit 30 sets the co-occurrence collection unit as a phrase that is the minimum unit of the meaning of the sentence.
  • the co-occurrence dictionary generation unit 30 limits the co-occurrence of nouns and predicates and the co-occurrence of predicates to the dependency relationship. Therefore, it is possible to reduce the collection amount of co-occurrence relationships that have no semantic relationship, and to create a high-quality, low-capacity co-occurrence dictionary.
  • FIG. 3 is an example of data stored in the corpus storage unit 20.
  • FIG. 3 includes three pieces of document data.
  • the text data whose ID is 1 is “This amusement zone is narrow, dark and fun, and looks pretty interesting”.
  • the language analysis unit 300 reads the text data from the corpus storage unit 20, and performs morphological analysis, phrase identification, and dependency analysis between phrases (step S2 in FIG. 2). This will be specifically described with reference to FIG. FIG. 4 shows the result of linguistic analysis of the text “ID seems to be a castle in the Edo period, but the structure remains the same, or there are a lot of steep staircases.” .
  • step S101 the language analysis unit 300 performs morphological analysis.
  • step S101 is also referred to as morphological analysis.
  • step S102 the results of the morphological analysis are compiled into phrase units, and whether each phrase is a noun phrase or a prescriptive phrase is identified (step S102).
  • step S102 is also referred to as phrase identification.
  • whether each phrase is a noun phrase or a prescriptive phrase is determined by searching the morpheme from the back of the phrase and by the type of part of speech of the first independent word found. If a noun is found first, it becomes a noun phrase, and if a noun is found, it becomes a noun phrase.
  • step S103 the dependency relationship of phrases is analyzed (step S103).
  • step S103 is also referred to as dependency analysis.
  • the dependency relationship is represented by an arrow. For example, “in the Edo period” relates to “like a castle”, and “staircase” relates to “many”.
  • the co-occurrence relation collection unit 301 collects co-occurrence relations, nouns, and predicates from the analysis result of the language analysis unit 300 and calculates the frequency thereof (step S ⁇ b> 3 in FIG. 2).
  • the co-occurrence relation collecting unit 301 records the collected co-occurrence relations, nouns, and predicates, and the calculated frequency.
  • FIG. 5 is an example in which nouns, idioms, and co-occurrence relationships are collected from the results of FIG.
  • the co-occurrence relation collecting unit 301 removes an attached word from the phrase when collecting the co-occurrence relation. For example, “no” in “in the Edo period” is a particle and thus becomes “Edo period”.
  • the prescription is returned to the original form from the result of morphological analysis. For example, “Mysterious” becomes “Mysterious”.
  • the co-occurrence of the nouns, the dependency relationship between the noun and the predicate, and the dependency relationship between the nouns are collected and counted.
  • the frequency of nouns and predicates alone is also recorded.
  • no direction is defined for the co-occurrence relationship.
  • the co-occurrence relationship composed of the same word is made one type by determining the order relationship between the two words based on the value of the character code value.
  • the co-occurrence score calculation unit 302 calculates a co-occurrence score representing the strength of the co-occurrence of each co-occurrence relationship based on the result collected by the co-occurrence relationship collection unit 301 (FIG. 2). S4). Then, the co-occurrence score calculation unit 302 stores the co-occurrence relationship and the co-occurrence score in the co-occurrence dictionary storage unit 21.
  • FIG. 6 is an example of the output result of the co-occurrence relationship collection unit 301. The operation of the co-occurrence score calculation unit 302 will be described using the data in FIG. 6 as an example. In this example, a dice coefficient is adopted as a method for calculating the co-occurrence score. Specifically, in the data of FIG.
  • the dice coefficient for “Edo period, castle” is 30 for “Edo period, castle”, 66 for “Edo period”, and 110 for “castle”. Therefore, 2 ⁇ 30 / (66 + 110) ⁇ 0.34 can be calculated.
  • the co-occurrence score calculation unit 302 performs the same process for all co-occurrence relationships.
  • the co-occurrence score calculation unit 302 associates the two words constituting the co-occurrence relationship with the calculated co-occurrence score, and stores them in the co-occurrence dictionary storage unit 21.
  • the co-occurrence dictionary display unit 4 displays the data of the co-occurrence dictionary read from the co-occurrence dictionary storage unit 21 by the co-occurrence dictionary output unit 31 (step S5 in FIG. 2).
  • FIG. 7 is a display example of data stored in the co-occurrence dictionary storage unit 21.
  • FIG. 7 displays all co-occurrence relationships having “Edo period”. Referring to FIG. 7, it can be seen that the co-occurrence score of “Edo period, castle” is 0.34. Also, comparing the co-occurrence scores of “Edo period, castle” and “Edo period, structure” shows that the semantic relationship of “Edo period, castle” is stronger.
  • the language analysis unit 300 analyzes morphological analysis, phrase identification, and dependency between phrases. Then, the co-occurrence relation collecting unit 301 collects each data of co-occurrence of noun phrases, dependency of noun phrases and prescriptive phrases, and dependency of prescriptive phrases. Then, the co-occurrence score calculation unit 302 calculates the co-occurrence score of the co-occurrence relation based on the collected frequency of the co-occurrence relation. As a result, the co-occurrence relationship related to the predicate is narrowed down to the dependency relationship. Therefore, a co-occurrence dictionary can be generated from a co-occurrence relationship having a high semantic relation.
  • the co-occurrence collection unit is used as a clause, the co-occurrence relationship having a low semantic relationship is eliminated.
  • a co-occurrence dictionary with a small storage area can be generated.
  • a phrase is "a sentence divided into as small parts as possible within a range where the meaning can be understood.” If the collection unit is a clause, there is no compound expression that is not a meaningful unit. Therefore, the storage capacity of the co-occurrence dictionary can be reduced accordingly. Also, by collecting co-occurrence in semantic units, co-occurrence relationships that do not reflect the meaning of the sentence are not collected, and a high-quality co-occurrence dictionary can be generated while reducing the storage area.
  • search engine can search for documents containing keywords at high speed” morphological analysis
  • search / engine / has / high speed / to / keyword / includes / includes / documents / searches / to / It can be done.
  • the part of speech is omitted.
  • the phrase is “the search engine can / fast / include keywords / include documents / find / can / be”.
  • word chain is a basic unit, complex expressions such as “has high speed” and “including documents” are collected.
  • co-occurrence having a low semantic relationship such as “engine, document” and “engine, keyword” is collected.
  • co-occurrence relationships that appropriately reflect the meaning of sentences such as “search engine, document”, “search engine, keyword”, etc., can be collected for each phrase.
  • FIG. 8 is a block diagram showing the configuration of the second exemplary embodiment of the present invention.
  • the second embodiment of the present invention is different from the first embodiment (FIG. 1) in that a data processing device 5 is provided instead of the data processing device 3.
  • the data processing device 5 is different from the data processing device 3 in that a co-occurrence dictionary generation unit 50 is provided instead of the co-occurrence dictionary generation unit 30.
  • the co-occurrence dictionary generation unit 50 further includes a topic division unit 500 in addition to the language analysis unit 300, the co-occurrence relationship collection unit 301, and the co-occurrence score calculation unit 302. It is different in point.
  • the language analysis unit 300 reads text data from the corpus storage unit 20 and performs morphological analysis, phrase identification, and dependency analysis between phrases on each text data. Then, the language analysis unit 300 outputs the analysis result to the topic dividing unit 500.
  • the topic dividing unit 500 detects a topic change point of each text data from the analysis result of the language analyzing unit 300. Then, the topic dividing unit 500 divides the original analysis result at each change point and outputs the result to the co-occurrence relation collecting unit 301. In the co-occurrence relationship between nouns of different topics, the semantic relationship is low. Therefore, the topic division unit 500 divides the topic into topics and outputs the result to the subsequent co-occurrence relationship collection unit 301. As a result, it is possible to collect co-occurrence relationships that are more semantically related.
  • the topic dividing unit 500 can use any means capable of dividing based on the results of morphological analysis, phrase identification, and dependency analysis. For example, the topic dividing unit 500 may divide the nouns used in the preceding and following sentences unless n or more types overlap. This is based on the assumption that the same topic is used if the same topic continues. In the text above, the same noun is between “Yes, yesterday, the Nikkei average had fallen, but is it due to the influence of foreign investors?” not being used.
  • the topic dividing unit 500 may divide by the appearance of expressions representing topic changes. Expressions that express changes in topics include “speaking changes”, “by the way”, “suddenly”, and the like. Further, the topic dividing unit 500 may divide when a conjunction does not exist at the beginning of the sentence. This is because the presence of a conjunction is considered to be connected to the preceding and following sentences, and if not, it is considered a separate topic.
  • the topic dividing unit 500 can use the technique of Non-Patent Document 3. In Non-Patent Document 3, a word string is regarded as a pseudo paragraph, the overlap of words of two connected pseudo paragraphs is measured, and a place where the overlap is reduced is divided as a topic change point.
  • the co-occurrence relationship collection unit 301 has the same function as the co-occurrence relationship collection unit 301 in the first embodiment except that the co-occurrence relationship is collected for each analysis result divided at the topic change point.
  • steps S11 and S12 in FIG. 9 are the same as steps S1 and S2 in FIG.
  • the topic division unit 500 receives the analysis result of the language analysis unit 300 and detects the change point of the topic of the text. Then, the topic dividing unit 500 divides the analysis result based on the detected change point (step S13 in FIG. 9) and outputs the result to the co-occurrence relation collecting unit 301. In this example, the topic dividing unit 500 divides the sentence if the nouns do not overlap in the preceding and following sentences. For example, for the text to be split, “1) Nikkei average has been checked because of recent interest in investment. 2) Yesterday, the Nikkei average crashed. 3) I'm getting hungry. 4) Let's go to a convenience store. " In addition, 1) to 4) are numbers of each sentence given for explanation, and are not actually written in the text.
  • the topic division unit 500 counts the number of overlapping noun types of two sentences connected to each other, and divides the noun into sentences that do not overlap two or more kinds.
  • the noun of each sentence can be extracted from the output of the language analysis unit 300.
  • the topic segmentation unit 500 reads the input text as follows: “Nikkei average has been checked because of recent interest in investment. The Nikkei average had plunged yesterday, but it was influenced by foreign investors. Uka. ”,“ I'm hungry, ”and“ Let me go to a convenience store. ”
  • steps S3 to S5 in FIG. 1 are the same as steps S3 to S5 in FIG. 1, and thus description thereof is omitted.
  • This embodiment has the following effects in addition to the effects of the first embodiment. That is, by having the topic dividing unit 500, it is possible to collect co-occurrence of nouns limited within the same topic. Therefore, it is possible to generate a co-occurrence dictionary by focusing on co-occurrence relationships having higher semantic relations. Note that the co-occurrence of a noun and a predicate and the co-occurrence of a predicate are naturally limited to the dependency relationship between the noun and the predicate in the sentence and the dependency relationship between the predicates. For this reason, the co-occurrence relationship has a high semantic relationship regardless of the presence or absence of topic division.
  • FIG. 10 is a block diagram showing the configuration of the third exemplary embodiment of the present invention.
  • the third embodiment of the present invention is different from the first embodiment (FIG. 1) in that the storage device 9, the data processing device 3, and the co-occurrence dictionary display unit 4 are replaced with the storage device 9, the data The difference is that the processing device 7 and the text data display unit 8 are provided.
  • the third embodiment is different from the first embodiment in that a text data input unit 6 is provided.
  • the storage device 9 is different from the storage device 2 in that in addition to the corpus storage unit 20 and the co-occurrence dictionary storage unit 21, the storage device 9 further includes a text data storage unit 22 and a text data storage unit 23 with typicality score. .
  • the data processing device 7 replaces the co-occurrence dictionary generation unit 30 and the co-occurrence dictionary output unit 31 with a co-occurrence dictionary generation unit 70, a typicality scoring unit 71, and a text data selection unit.
  • the difference is that 72 is provided.
  • the co-occurrence dictionary generation unit 70 generates a co-occurrence dictionary based on the text that is the collection source of the co-occurrence relationship stored in the corpus storage unit 20 by the corpus input unit 1 and stores the co-occurrence dictionary in the co-occurrence dictionary storage unit 21.
  • the co-occurrence dictionary generation unit 70 has the same configuration as the co-occurrence dictionary generation unit 30 or the same configuration as the co-occurrence dictionary generation unit 50 in the second embodiment.
  • the text data input unit 6 causes the text data storage unit 22 to store text data to be given a typicality by the co-occurrence dictionary.
  • the text data includes “text” representing a text body, “ID” representing an identifier of each data, and “initial score” in which a score of typicality designated in advance is set.
  • the “ID” may be specified in advance, or may be automatically assigned, for example, by assigning an ID so as to be an integer serial number in the order of input.
  • the “text” may be a document or a relationship composed of a plurality of words extracted by some method.
  • “Initial score” indicates that the higher the value, the higher the evaluation. Further, when the “initial score” is not required or not given, all values such as 0 and 1 are set to the same value.
  • the text data input unit 6 automatically inputs outputs from other natural language processing systems such as kana-kanji conversion candidates, information search results, and information extraction results.
  • the “initial score” is a score of each system. It is good.
  • the “initial score” may be a kana-kanji conversion candidate score, reliability to the information extraction result provided by the information extraction device, search engine fitness, or reciprocal ranking.
  • the typicality scoring unit 71 reads the text data stored in the text data storage unit 22 and the co-occurrence dictionary data stored in the co-occurrence dictionary storage unit 21. Then, the typicality scoring unit 71 extracts the co-occurrence relationship from each text data, and calculates the typicality score of each text data from the co-occurrence score of the co-occurrence relationship of each text data and the initial score. The typicality scoring unit 71 stores each text and its typicality score in the text data storage unit 23 with typicality score.
  • the typicality score is calculated such that the higher the co-occurrence score and the initial score, the higher the typicality score.
  • the typicality score may be the sum or product of each co-occurrence score and the initial score, or a combination of sum and product.
  • the text data sorting unit 72 reads the text and its typicality score from the text data storage unit 23 with typicality score.
  • the text data sorting unit 72 sorts the text data based on the magnitude relationship or value of the typicality score, and outputs the data to the text data display unit 8.
  • the text data display unit 8 displays the text data selected by the text data selection unit 72 based on the typicality of the contents together with the typicality score.
  • the co-occurrence dictionary storage unit 21 has a function of creating a co-occurrence dictionary and a function of assigning a typicality score to a typicality grant target text using the created co-occurrence dictionary.
  • the operation of the function for creating the co-occurrence dictionary is the same as the operation for creating the co-occurrence dictionary in the first embodiment or the second embodiment. Therefore, the operation after the co-occurrence dictionary is created will be described below.
  • the text data input unit 6 causes the text data storage unit 22 to store text data to which typicality is given in the co-occurrence dictionary (step S21 in FIG. 11).
  • 12A and 12B are examples of data stored in the text data storage unit 22 by the text data input unit 6.
  • FIG. 12A is a diagram illustrating an example of an extraction result of the information extraction device.
  • FIG. 12B is a diagram illustrating an example of a kana-kanji conversion candidate.
  • FIG. 12A shows an information extraction result obtained by extracting a relationship consisting of three words, what (object), what point (attribute), and how (evaluation) was from text data.
  • FIG. 12B shows kana-kanji conversion candidates for “I went to” amusement park A.
  • the typicality scoring unit 71 reads the text data from the text data storage unit 22.
  • the typicality scoring unit 71 then extracts a co-occurrence relationship from each text data (step S22 in FIG. 11).
  • the typicality scoring unit 71 performs the same processing as the language analysis unit 300 for each read text, and collects the co-occurrence relationships in the same manner as the co-occurrence relationship collection unit 301. That is, the typicality scoring unit 71 performs morphological analysis on text data to identify phrases and analyzes the dependency between phrases. Then, the typicality scoring unit 71 collects the co-occurrence of nouns in the text data, the dependency between the noun and the predicate, and the dependency between the noun and the predicate as the co-occurrence relationship for each phrase.
  • the co-occurrence relationship may be limited instead of the combination of all the words.
  • FIG. 12A “attribute” is an evaluation viewpoint of “object” and “evaluation” is an evaluation of “attribute”, but “evaluation” does not directly evaluate “object” itself. Absent. That is, in FIG. 12A, you may limit to two co-occurrence relations of "object, attribute” and "attribute, evaluation”.
  • FIG. 12A describes a case where two of “object, attribute” and “attribute, evaluation” are extracted as a co-occurrence relationship.
  • the typicality scoring unit 71 reads the co-occurrence dictionary from the co-occurrence dictionary storage unit 21. And the typicality scoring part 71 acquires the co-occurrence score of each co-occurrence relationship extracted by step S22 of FIG. 11 (step S23 of FIG. 11).
  • FIG. 13 is a diagram illustrating an example of a co-occurrence dictionary stored in the co-occurrence dictionary storage unit 21.
  • the data in the co-occurrence dictionary storage unit 21 is created in either the first or second embodiment of the present invention.
  • the typicality scoring unit 71 determines the typicality of each text data acquired in step S22, the co-occurrence relationship of each text data extracted in step S22, and the initial value of each text data read in step S22. A typicality score is calculated based on the score and the co-occurrence score of each co-occurrence relationship acquired in step S23 (step S24 in FIG. 11). Then, the typicality scoring unit 71 stores each text and the typicality score of each text in the text data storage unit 23 with typicality score.
  • the initial score of ID 1 in FIG.
  • the typicality score is the sum of the initial score and the co-occurrence score of each co-occurrence relationship.
  • FIG. 14A is a diagram illustrating an example of the typicality score of the information extraction result.
  • FIG. 14B is a diagram illustrating an example of a typicality score of a kana-kanji conversion candidate.
  • the typicality scoring unit 71 calculates a typicality score from the data of FIGS. 12A and 12B stored in the text data storage unit 22 and the data of FIG. 13 stored in the co-occurrence dictionary storage unit 21. .
  • the typicality scoring unit 71 stores the typicality score and text data in the text data storage unit 23 with typicality score.
  • the text data display unit 8 displays the text selected by the text data selection unit 72 (step S26 in FIG. 11).
  • the typicality scoring unit 71 when the text to which the typicality is to be given is a sentence, the typicality scoring unit 71 performs morphological analysis on the text to identify the phrase and analyze the dependency between the phrases. Then, the typicality scoring unit 71 collects the co-occurrence of nouns in the text, the dependency between the noun and the predicate, and the dependency between the predicate and the predicate as the co-occurrence relationship for each phrase. Then, the typicality scoring unit 71 obtains the co-occurrence score corresponding to the collected co-occurrence relation from the co-occurrence dictionary and calculates the typical degree of the text content. Therefore, the semantic typical degree of the text content can be calculated with higher accuracy.
  • the typicality scoring unit 71 co-occurs a meaningful combination among the word combinations. Collect as a relationship. Then, the typicality scoring unit 71 obtains the co-occurrence score corresponding to the collected co-occurrence relation from the co-occurrence dictionary and calculates the typical degree of the text content. Therefore, the semantic typical degree of the text content can be calculated with higher accuracy. In addition, it is not necessary to limit to the combination of words having a meaningful combination. Even in this case, a certain degree of accuracy can be obtained because the co-occurrence dictionary generated by focusing on the co-occurrence relation having high semantic relation is used.
  • FIG. 15 is a block diagram showing a configuration of the fourth exemplary embodiment of the present invention.
  • the fourth embodiment of the present invention includes a storage device 10 and a data processing device 11 instead of the storage device 9 and the data processing device 7 as compared with the third embodiment (FIG. 10). The point is different.
  • the fourth embodiment is different from the third embodiment in that the corpus input unit 1 is not provided.
  • the storage device 10 is different from the storage device 9 in that it does not include the corpus storage unit 20.
  • the data processing device 11 is different from the data processing device 7 in that the co-occurrence dictionary generation unit 70 is not provided.
  • a co-occurrence dictionary created by using the co-occurrence dictionary generation unit 30 of the first embodiment or the co-occurrence dictionary generation unit 50 of the second embodiment is stored in advance as a co-occurrence dictionary. It differs from the third embodiment in that it is stored in the unit 21.
  • the co-occurrence dictionary is stored in the co-occurrence dictionary storage unit 21 in advance, there is no operation for creating the co-occurrence dictionary.
  • Other operations that is, an operation in which the typicality scoring unit 71 gives typicality to text data using the co-occurrence dictionary stored in the co-occurrence dictionary storage unit 21,
  • the operation of selecting the text to be displayed on the text data display unit 8 based on the degree score is the same as that of the third embodiment. Therefore, those descriptions are omitted.
  • the same effect as in the third embodiment can be obtained, and at the same time, the semantic typical degree of the contents of the text data can be calculated at high speed.
  • the reason is that the co-occurrence dictionary generation time can be eliminated by using the co-occurrence dictionary created in advance.
  • the present invention can be realized by a computer and a program as well as by realizing the functions of the hardware.
  • the program is provided by being recorded on a computer-readable recording medium such as a magnetic disk or a semiconductor memory.
  • the program is read by the computer when the computer is started up.
  • the read program controls the operation of the computer.
  • the program causes the computer to function as each functional unit on the data processing device in each of the above-described embodiments, and causes the above-described processing steps to be executed.
  • FIG. 16 is a general block diagram of an information processing system that implements a system according to each embodiment of the present invention.
  • the information processing system illustrated in FIG. 16 includes a processor 3000, a program memory 3001, and a storage medium 3002.
  • a magnetic storage medium such as a RAM or a hard disk can be used.
  • the program memory 3001 stores a program for executing processing steps performed by the data processing apparatus according to any one of the first to fourth embodiments.
  • the processor 3000 operates according to this program.
  • the storage medium 3002 is used as a storage device in the first to fourth embodiments.
  • the present invention creates a co-occurrence dictionary used for semantic analysis of natural language, such as dependency analysis, document proofreading, Kana-Kanji conversion, evaluation of semantic consistency of information extraction results, evaluation of semantic typicality of text, etc. It can be applied to other systems.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 共起辞書生成システムは、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、文節単位でテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する共起関係収集部と、収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、計算された共起スコアと共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部とを有する。

Description

[規則37.2に基づきISAが決定した発明の名称] 共起辞書生成システムおよびスコアリングシステム
 本発明は、共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムに関する。
 本願は、2008年4月1日に、日本に出願された特願2008-094980号と、2008年5月12日に、日本に出願された特願2008-124254号とに基づき優先権を主張し、その内容をここに援用する。
 近年、様々な文書が電子化されている。それら電子化文書には、さまざまな情報が書かれているため、有効活用することが重要である。電子化文書の有効活用のために、自然言語処理技術が注目されている。
 自然言語処理で意味的に処理するときには、語の共起情報を使うことが多い。
 例えば、共起語が似ているほど意味的に類似しているとの考えから、2つの語の意味的類似度は、お互いの共起語が似ているほど高くなるよう計算される。また、かな漢字変換では、変換候補のうち、先に確定した語と良く共起する候補ほど尤もらしいと判定する。
 従来の共起辞書作成システムの例が、特許文献1に記載されている。
 特許文献1の共起辞書作成システムは、与えられた文書集合を解析する文書解析部と、上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶させる語抽出部と、上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶させる語連鎖抽出部と、上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶させる共起回数検出部と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶させる概念情報定量化部と、上記概念情報定量化部で得られた上記語の概念情報を、データベースとする概念情報データベース作成部とから構成される。
 上記の「語連鎖」とは、文書中で連続するn(nは2以上)単語の連鎖である。
 特許文献1では、まず文書集合中の各文を形態素解析する。次に、形態素解析結果から全ての語または語連鎖(2単語以上の連鎖)を抽出し、記憶装置に記憶させる。次に、共起回数検出部が、抽出された自立語(名詞、代名詞、動詞、形容詞、副詞)または語連鎖のそれぞれに対して、共起する自立語または語連鎖を抽出し、出現回数をカウントする。共起回数検出部は、このカウント結果を、概念情報定量化部に送る。ここで、出現回数は、語または語連鎖が所定の文書範囲に共起している場合にカウントされる。「所定の文書範囲」とは、文書、段落、文のいずれかである。次に、共起回数検出部がカウントした結果に基づいて、概念情報定量化部が、抽出された語または語連鎖のそれぞれについて、語または語連鎖のそれぞれとの共起度を計算する。ここで、共起度とは、例えば、共起回数を、共起情報を構成する片方の語の出現回数で割って正規化した値である。
 従来技術における第1の問題点は、高品質な共起辞書が生成され難いことである。その理由は、特許文献1に記載された共起辞書作成システムでは、文書、段落、文など、一定範囲内にある全ての共起を収集しているが、実際にはそれらの共起の中には意味的関連がない共起が含まれるためである。例えば、「カレーは辛いが、福神漬けはしょっぱい。」という文から共起情報を取得する場合について考える。特許文献1では、「カレー,辛い」、「カレー,福神漬け」、「福神漬け,しょっぱい」、「カレー,しょっぱい」、「福神漬け,辛い」等が共起として取得される。ここで、「カレー,辛い」、「カレー,福神漬け」、「福神漬け,しょっぱい」の3種類の共起は、意味的に妥当である。しかし、「カレー,しょっぱい」、「福神漬け,辛い」は文法的には妥当であるが、通常はあまり使われない。このように特許文献1に記載された共起辞書作成システムでは、意味的関連の低い共起が大量に収集されてしまう。この傾向は、共起の取得範囲が、文から段落、文書と広がるにつれて、より顕著に現れる。
 従来技術における第2の問題点は、共起情報の格納に大量の記憶領域が必要であり、共起辞書の記憶容量が大きくなることである。その理由は、特許文献1に記載された共起辞書作成システムでは、文書集合の語彙数や複数語からなる表現(複合表現と呼ぶ)のための語連鎖数nが増えるにつれ、語連鎖の種類数が増えるためである。それら複合表現の共起度を記憶するためには、最悪の場合、語連鎖の種類数の2乗個の数値を記憶する領域が必要である。例えば、文書集合で用いられる語彙が1000語で、nが3であるとする。すると、最悪の場合、複合表現は約10億種類(=1000×1000×1000)となる。つまり、それらの共起度を全て記憶する特許文献1に記載の共起辞書作成システムでは、10億の二乗個の数値を記憶する領域が共起辞書に必要となる。
特開2006-215850号公報 相澤彰子、"共起に基づく類似性尺度"、オペレーションズ・リサーチ誌、Vol.52、No.11、pp.706-718、2007 T.Hofmann、"Probabilistic Latent Semantic Indexing"、Proc. of SIGIR’99、pp.50-57、1999. M.A.Hearst、Text Tiling: Segmenting Text into Multiparagraph Subtopic Passages、Computational Linguistics、Vol.23、No.1、pp.33-64、1997.
 本発明は、上記課題を鑑みて発明されたものであり、その目的は、意味的関連を考慮した共起辞書を作成できる共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムを提供することにある。
 また、本発明の目的は、意味のある複合表現のみを抽出することで、複合表現に対応した記憶領域の小さい共起辞書を作成できる共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムを提供することにある。
 本発明の一態様による共起辞書生成システムは、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、文節単位でテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する共起関係収集部と、収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、計算された共起スコアと共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部とを有する。
 なお、本発明では、共起関係を構成する単位を文節とするため、名詞文節と名詞、用言文節と用言とは、それぞれ区別する必要がない。そのため、文節を省略して表記することがある。ただし、「単語」と明示した場合のみ、文節ではなく単語のみを表す。
 本発明によれば、意味的関連を考慮した共起辞書を作成できる。その理由は、用言が関わる共起関係を係り受け関係に絞っているためである。
 また、本発明によれば、共起の収集単位を文節としているために、意味のある複合表現のみを抽出することができる。その結果、複合表現に対応した記憶領域の小さい共起辞書を作成することができる。
本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第1の実施の形態の動作を示す流れ図である。 コーパス入力部により入力するテキストデータの一例を示す説明図である。 言語解析部の解析例を示す説明図である。 共起関係収集部の処理例を示す説明図である。 共起関係収集部の出力結果の一例を示す説明図である。 共起辞書表示部の表示例を示す説明図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の動作を示す流れ図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第3の実施の形態の構成を示す流れ図である。 情報抽出装置の抽出結果の一例を示す図である。 かな漢字変換の候補の一例を示す図である。 本発明の第3の実施の形態の説明に用いる共起辞書記憶部のデータの説明図である。 情報抽出結果の典型度スコアの一例を示す図である。 かな漢字変換候補の典型度スコアの一例を示す図である。 本発明の第4の実施の形態の構成を示すブロック図である。 本発明の実施の形態によるシステムをインプリメントした情報処理システムの一般的なブロック構成図である。
1・・・コーパス入力部、
2、9、10・・・記憶装置、
3、5、7、11・・・データ処理装置、
8・・・テキストデータ表示部、
20・・・コーパス記憶部、
21・・・共起辞書記憶部、
22・・・テキストデータ記憶部、
23・・・典型度スコア付きテキストデータ記憶部、
30、70・・・共起辞書生成部、
71・・・典型度スコアリング部、
72・・・テキストデータ選別部、
300・・・言語解析部、
301・・・共起関係収集部、
302・・・共起スコア計算部、
500・・・トピック分割部、
3000・・・プロセッサ、
3001・・・プログラムメモリ、
3002・・・記憶媒体
(第1の実施の形態)
 本発明を実施するための、第1の実施の形態について図面を参照して詳細に説明する。
 図1は、本発明の第1の実施の形態の構成を示すブロック図である。
 本発明の第1の実施の形態は、共起関係の収集元となるテキストを入力するコーパス入力部1と、テキストや生成された共起辞書を記憶する記憶装置2と、プログラム制御により動作するデータ処理装置3と、生成した共起辞書の内容を表示する共起辞書表示部4とを有する。
 これらのコーパス入力部1、記憶装置2、データ処理装置3、共起辞書表示部4のそれぞれについて説明する。
 コーパス入力部1は、共起関係の収集元となるテキストデータを、コーパス記憶部20に記憶させる。コーパスは、テキスト本体を表す「テキスト」と、各データの識別子を表す「ID」とからなる。「ID」は、あらかじめ指定しても良いし、入力順に整数の連番となるようIDを付与するなど、自動的に付けても良い。
 記憶装置2は、コーパス記憶部20と、共起辞書記憶部21とを備える。
 コーパス記憶部20は、コーパス入力部1により入力されたテキストデータを記憶する。
 共起辞書記憶部21は、共起辞書生成部30によって生成された共起辞書を記憶する。
 データ処理装置3は、共起辞書生成部30と共起辞書出力部31とを備える。
 共起辞書生成部30は、言語解析部300、共起関係収集部301、共起スコア計算部302とを有する。
 言語解析部300は、コーパス記憶部20からテキストデータを読み出し、各テキストデータに対して形態素解析、文節同定、文節間の係り受け解析を行う。言語解析部300は、その解析結果を、共起関係収集部301に出力する。
 共起関係収集部301は、言語解析部300の解析結果から、名詞、用言、名詞同士の共起関係、名詞と用言が係り受けにある共起関係、用言同士が係り受けにある共起関係を収集する。また、共起関係収集部301は、名詞、用言、各共起関係の頻度を取得する。共起関係収集部301は、収集した共起関係と、取得した各共起関係の頻度とを、共起スコア計算部302に出力する。ここで、名詞同士の共起関係は、それぞれの名詞が所定の文書範囲に共起している場合に収集する。所定の文書範囲は、文書、段落、文のいずれかである。
 共起スコア計算部302は、各名詞、用言、共起関係と、その頻度を受け取ると、各共起関係の共起スコアを計算する。そして、共起スコア計算部302は、各共起関係と、計算した共起スコアとを、共起辞書記憶部21に記憶させる。共起スコアは、2つの語が同時に使用される度合いであり、同時に使われやすいほどスコアが高くなるように計算される。共起スコアには、任意の共起強度の計算法を用いることができる。例えば、頻度をそのまま共起スコアとしてもよい。また、高頻度の共起関係が有利になりすぎないように、頻度の対数をとって共起スコアとしてもよい。
 また、偏って共起する関係は、意味的関連が深いと考えられる。そのため、共起スコアを、共起関係の2語の片方の頻度、もしくは両方の頻度の合計で共起関係の頻度を割った値としてもよい。
 なお、意味的関連は、意味的に同時に使われやすい語同士ほど高く、逆に同時に使われにくい語同士は低い。
 また、非特許文献1にある共起強度の尺度であるダイス係数、自己相互情報量、ジャッカード係数、などを用いてもよい。例えば、非特許文献1に記載されているダイス係数は、共起関係の頻度をf12、共起関係を構成する2つの語の頻度をf1、f2とすると、「ダイス係数=2×f12/(f1+f2)」と計算される。
 また、非特許文献2に記載されているように、共起関係の集合から任意の2語の共起確率を推定する手法を用いてもよい。非特許文献2では、w_i、w_j(0≦i,j≦n,i≠j)の2語の共起確率を「P(w_i,w_j)=ΣP(w_i|z_k)P(w_j|z_k)P(z_k)」として、P(w_i|z_k),P(w_j|z_k),P(z_k)を共起関係の集合から推定することでP(w_i|w_j)を計算する。ここで、nは共起関係を構成する語の種類の数を表す。z_kのkは添え字を表す。Σは全てのkで和をとる演算子を表す。z_kは、共起語の分布が似ている語が集まっているクラスタである。kの数はユーザが指定する。P(z_k)は各クラスタの出現確率である。P(w_i|z_k)はクラスタz_kが出現した場合のw_iの生成確率である。P(w_j|z_k)はクラスタz_kが出現した場合のw_jの生成確率である。非特許文献2では、共起語の分布が似ているほどP(w_i|z_k)、P(w_j|z_k)が同時に高くなる。そのため、同クラスタから生成される確率が高い2語ほど、共起確率が高くなるように計算される。つまり、非特許文献2では、それぞれの語の共起語の分布の類似性から共起確率を適切に計算する。そのため、文書中で偶然共起しなかったが、本来は共起してもおかしくない共起関係に対しても共起スコアを計算できる。
 共起辞書出力部31は、共起辞書記憶部21から共起辞書に記述された共起関係と、その共起スコアとを読み出し、共起辞書表示部4に出力する。共起辞書出力部31は、共起スコアの降順、または昇順に共起関係をソートして出力してもよい。また、共起辞書出力部31は、少なくとも1つの語を指定して、入力語を含む共起関係のみを出力してもよい。また、共起辞書出力部31は、一定以上、もしくは一定以下、もしくは一定以上一定以下の共起スコアを持つ共起関係のみを出力するようにしてもよい。
 共起辞書表示部4は、共起辞書出力部31により出力された共起関係を、その共起スコアとともに表示する。
 本実施の形態では、共起辞書生成部30は、共起の収集単位を、文の意味の最小単位である文節とする。また、共起辞書生成部30は、名詞と用言の共起および用言同士の共起を係り受け関係に限定する。そのため、意味的関連のない共起関係の収集量を低減でき、高品質で低容量の共起辞書を作成できる。
 次に、図1と、図2のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。
 まず、共起関係を収集する元となるテキストデータを、コーパス入力部1によりコーパス記憶部20に記憶させる(図2のステップS1)。図3は、コーパス記憶部20が記憶するデータの例である。図3には3つの文書データが含まれる。例えば、IDが1のテキストデータは、「このアミューズメントゾーンは、狭くて暗くて楽しそうな雰囲気で、結構面白そう。」である。
 次に、言語解析部300は、コーパス記憶部20からテキストデータを読み込み、形態素解析、文節同定、文節間の係り受け解析を行う(図2のステップS2)。図4を参照して具体的に説明する。
 図4は、図3のIDが2のテキストである「江戸時代の城らしいが、構造が昔のままなのか、妙に急な階段が多い。」というテキストを言語解析した結果を示している。
 まず、言語解析部300は、形態素解析を行う(ステップS101)。このステップS101の処理を、形態素解析とも称する。
 次に、形態素解析の結果を、文節単位にまとめ上げ、各文節が名詞文節か用言文節であるかを同定する(ステップS102)。このステップS102の処理を、文節同定とも称する。ここで、各文節が名詞文節であるか用言文節であるかは、文節の後ろから形態素を探索し、最初に発見した自立語の品詞の種類により決定する。最初に名詞が見つかれば名詞文節、用言が見つかれば用言文節となる。
 最後に文節の係り受け関係を解析する(ステップS103)。このステップS103の処理を、係り受け解析とも称する。
 ステップS103の処理結果を示す図(図4の一番下の図)では、係り受け関係を矢印で表している。例えば、「江戸時代の」は「城らしいが」に係り、「階段が」は「多い。」に係る。
 図2の説明に戻り、共起関係収集部301は、言語解析部300の解析結果から、共起関係、名詞、用言を収集し、その頻度を計算する(図2のステップS3)。共起関係収集部301は、収集した共起関係、名詞、用言と、計算した頻度とを、記録する。
 図5は、図4の結果から、名詞、用言、共起関係を収集した例である。共起関係収集部301は、共起関係を収集する際に、文節から付属語を除く。例えば、「江戸時代の」の「の」は助詞であるため、「江戸時代」となる。
 また、用言は形態素解析の結果から原形に戻す。例えば、「妙に」は「妙だ」となる。これらの処理の後、名詞同士の共起、名詞と用言の係り受け関係、用言同士の係り受け関係を収集し頻度を数える。
 また、共起スコアの計算時に必要になる場合には、名詞、用言単独の頻度も記録する。ここで、本発明の実施の形態では、共起関係には方向を定めていない。つまり、2つの語の順序関係を文字コードの値の大小で決めるなどして、同じ語から構成される共起関係が1種類になるようにしている。
 図2の説明に戻り、共起スコア計算部302は、共起関係収集部301が収集した結果に基づき、各共起関係の共起の強さを表す共起スコアを計算する(図2のS4)。そして、共起スコア計算部302は、その共起関係と共起スコアとを、共起辞書記憶部21に記憶させる。
 図6は、共起関係収集部301の出力結果の例である。図6のデータを例に共起スコア計算部302の動作を説明する。本例では、共起スコアの計算法として、ダイス係数を採用する。具体的には、図6のデータにおいて、「江戸時代,城」のダイス係数は、「江戸時代,城」の頻度が30、「江戸時代」の頻度が66、「城」の頻度が110であることから、2×30/(66+110)≒0.34と計算できる。共起スコア計算部302は、全ての共起関係について同様の処理を行う。共起スコア計算部302は、共起関係を構成する2つの語と、計算した共起スコアとを対応付けて、共起辞書記憶部21に記憶させる。
 図2の説明に戻り、共起辞書表示部4は、共起辞書出力部31により共起辞書記憶部21から読み出された共起辞書のデータを表示する(図2のステップS5)。
 図7は、共起辞書記憶部21に記憶されたデータの表示例である。図7は、「江戸時代」を持つ全ての共起関係を表示している。図7を参照すると、「江戸時代,城」の共起スコアは0.34であることがわかる。また、「江戸時代,城」と、「江戸時代,構造」の共起スコアとを比べると、「江戸時代,城」の意味的関連のほうが強いことがわかる。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、言語解析部300により、形態素解析、文節同定、文節間の係り受けを解析する。そして、共起関係収集部301により、名詞文節の共起と、名詞文節と用言文節の係り受けと、用言文節同士の係り受けの各データを収集する。そして、共起スコア計算部302により、収集された共起関係の頻度に基づき共起関係の共起スコアを計算する。この結果、用言が関わる共起関係は、係り受け関係に絞られることになる。そのため、意味的関連の高い共起関係から共起辞書を生成できる。
 例えば、「カレーは辛いが、福神漬けはしょっぱい。」から共起語を単純に収集すると、「カレー,しょっぱい」、「福神漬け,辛い」など、意味的関連が低い共起関係が収集される。一方、名詞と用言の共起を係り受け関係に絞ると、「カレー,辛い」、「福神漬け,しょっぱい」といった意味的関連が高いものが収集される。ここで、名詞同士の共起は、係り受け関係になくても意味的に関連することが多い。そのため、名詞同士の共起は係り受け関係に限定しない。
 また、本実施の形態によれば、共起の収集単位を文節としているために意味的関連の低い共起関係がなくなる。その結果、少ない記憶領域の共起辞書を生成できる。文節とは、一般的定義と同様に「文を、意味がわかる範囲で出来るだけ小さく区切ったもの」である。収集単位を文節とすると、意味の単位になっていない複合表現がなくなる。そのため、その分だけ共起辞書の記憶容量を抑えることができる。また、意味単位で共起を収集することで、文意を反映していない共起関係が収集されなくなり、記憶領域を抑えると同時に高品質な共起辞書を生成できる。
 例えば、「検索エンジンは高速にキーワードを含む文書を探すことができる」を形態素解析すると、「検索/エンジン/は/高速/に/キーワード/を/含む/文書/を/探す/こと/が/できる」となる。なお、ここでは、品詞は省略している。
 一方、文節は「検索エンジンは/高速に/キーワードを/含む/文書を/探す/ことが/できる」となる。単語連鎖を基本単位とすると「は高速」、「含む文書」など、意味をなさない複合表現が収集される。
 また、単語単位では、「エンジン、文書」、「エンジン、キーワード」といった意味的関連が低い共起が収集される。一方、文節単位では「検索エンジン、文書」、「検索エンジン、キーワード」など、文意を適切に反映した共起関係が収集できる。
(第2の実施の形態)
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
 図8は、本発明の第2の実施の形態の構成を示すブロック図である。
 本発明の第2の実施の形態は、第1の実施の形態(図1)と比較して、データ処理装置3の代わりにデータ処理装置5を備えている点で相違する。データ処理装置5は、データ処理装置3と比較して、共起辞書生成部30の代わりに共起辞書生成部50を備えている点で相違する。共起辞書生成部50は、共起辞書生成部30と比較して、言語解析部300、共起関係収集部301および共起スコア計算部302に加えてさらに、トピック分割部500を備えている点で相違する。
 言語解析部300は、コーパス記憶部20からテキストデータを読み出し、各テキストデータに対して形態素解析、文節同定、文節間の係り受け解析を行う。そして、言語解析部300は、その解析結果をトピック分割部500に出力する。
 トピック分割部500は、言語解析部300の解析結果から、各テキストデータのトピックの変化点を検出する。そして、トピック分割部500は、各変化点で元の解析結果を分割して、共起関係収集部301に出力する。別トピックの名詞間の共起関係では意味的関連が低いため、トピック分割部500により、トピック毎に分割して、後段の共起関係収集部301に出力する。これによって、より意味的関連の強い共起関係を収集できる。
 例えば、「~昨日、日経平均が暴落していたが、海外投資家の影響であろうか。なんか、腹が減ってきた。コンビニいってこよう。~」というテキストがあるとする。このテキストでは、「なんか、腹がへってきた。」でトピックが変わっているため、「日経平均,コンビニ」は偶然共起したにすぎないことがわかる。一方、「コンビニ業界の景気がよく、日経平均が上がっている。」のように同じトピック内で共起する場合は、偶然ではなく関係があることがわかる。つまり、同じトピックから共起関係を収集することで、偶然の共起関係を減らすことができる。このため、より高品質な共起辞書が生成できる。
 トピック分割部500は、形態素解析、文節同定、係り受け解析の結果に基づき分割できる任意の手段を用いることができる。例えば、トピック分割部500は、前後の文で使用している名詞がn種以上重ならなければ分割してもよい。これは、同じトピックが続いていれば、同じ内容を表す語が使われるという仮定に基づいている。上述したテキストでは、「昨日、日経平均が暴落していたが、海外投資家の影響であろうか。」と、「なんか、腹が減ってきた。」との間には、1つも同じ名詞が使用されていない。
 そのため、トピックが変化したと考えることができる。また、トピック分割部500は、トピックの変化を表す表現の出現で分割してもよい。トピックの変化を表す表現には「話は変わるが」、「ところで」、「突然であるが」などが挙げられる。また、トピック分割部500は、文頭に接続詞が存在しない場合に分割してもよい。これは、接続詞があるということは、前後の文につながりがあると考えられ、逆にない場合は、別トピックと考えられるためである。また、トピック分割部500は、非特許文献3の技術を用いることができる。非特許文献3では、単語列を擬似段落と見なし、連接する2つの擬似段落の語の重なりを計測して、重なりが少なくなる場所をトピックの変化点として分割する。
 共起関係収集部301は、トピックの変化点で分割された解析結果ごとに共起関係を収集する点を除いて、第1の実施の形態における共起関係収集部301と同じ機能を有する。
 その他の構成は、第1の実施の形態と同様である。
 次に、図8と、図9のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。
 図9のステップS11、S12は、図2のステップS1、S2と同様なため説明を省略する。
 トピック分割部500は、言語解析部300の解析結果を受け取り、テキストのトピックの変化点を検出する。そして、トピック分割部500は、検出した変化点に基づき解析結果を分割して(図9のステップS13)、共起関係収集部301に出力する。
 本例では、トピック分割部500は、前後の文で、名詞が2種類以上重ならなければ分割する。例えば、分割対象のテキストを、「1)最近投資に興味が出てきたため日経平均をチェックするようになった。2)昨日、日経平均が暴落していたが、海外投資家の影響であろうか。3)なんか腹が減ってきた。4)コンビニいってこよう。」として以下説明する。なお、1)から4)は説明のためにつけた各文の番号であり、実際にはテキストには書かれていない。
 トピック分割部500は、連接する2つの文の名詞の種類の重なり数を数え、名詞が2種類以上重ならない文で分割する。各文の名詞は、言語解析部300の出力から抽出できる。その結果、1)と2)の文では、「投資、日経、平均」で3種類の名詞が重なっている。また、2)と3)の文では、重なっている名詞はない。また、3)と4)の文では、重なっている名詞はない。このため、トピック分割部500は、入力テキストを、「最近投資に興味が出てきたため日経平均をチェックするようになった。昨日、日経平均が暴落していたが、海外投資家の影響であろうか。」、「なんか腹が減ってきた。」、「コンビニいってこよう。」の3つに分割する。
 図9のステップS14からステップS16は、図1のステップS3からステップS5と同様なため説明を省略する。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、第1の実施の形態の効果に加えて、以下の効果を有する。つまり、トピック分割部500を有することで、同じトピック内に限定した名詞同士の共起を収集することができる。そのため、より意味的関連が高い共起関係に絞って共起辞書を生成することができる。なお、名詞と用言との共起および用言同士の共起は、文中における名詞と用言の係り受け関係および用言同士の係り受け関係に自ずと限定される。そのため、トピック分割の有無に関わらず意味的関連が高い共起関係になっている。
(第3の実施の形態)
 次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
 図10は、本発明の第3の実施の形態の構成を示すブロック図である。
 本発明の第3の実施の形態は、第1の実施の形態(図1)と比較して、記憶装置2、データ処理装置3および共起辞書表示部4の代わりに、記憶装置9、データ処理装置7およびテキストデータ表示部8を備えている点において相違する。また、第3の実施の形態は、テキストデータ入力部6を備えている点で、第1の実施の形態と相違する。
 記憶装置9は、記憶装置2と比較して、コーパス記憶部20および共起辞書記憶部21に加えてさらに、テキストデータ記憶部22および典型度スコア付きテキストデータ記憶部23を有する点で相違する。
 データ処理装置7は、データ処理装置3と比較して、共起辞書生成部30および共起辞書出力部31の代わりに、共起辞書生成部70、典型度スコアリング部71およびテキストデータ選別部72を備えている点で相違する。
 共起辞書生成部70は、コーパス入力部1によりコーパス記憶部20に記憶された共起関係の収集元となるテキストに基づいて共起辞書を生成し、共起辞書記憶部21に記憶させる。共起辞書生成部70は、共起辞書生成部30と同一の構成または第2の実施の形態における共起辞書生成部50と同一の構成を有する。
 テキストデータ入力部6は、共起辞書により典型度を付与する対象となるテキストデータを、テキストデータ記憶部22に記憶させる。テキストデータは、テキスト本体を表す「テキスト」と、各データの識別子を表す「ID」と、あらかじめ指定された典型度のスコアが設定された「初期スコア」とからなる。
 「ID」は、あらかじめ指定しても良いし、入力順に整数の連番となるようIDを付与するなど、自動的に付けても良い。また、「テキスト」は文書であっても、なんらかの方法によって抽出された複数語からなる関係でもよい。
 「初期スコア」は、高い値であるほど評価が高いことを表す。また、「初期スコア」が必要ない場合、与えられない場合は、0や1など全て同じ値にする。また、テキストデータ入力部6は、かな漢字変換候補、情報検索結果、情報抽出結果など、他の自然言語処理システムの出力を自動的に入力するものとして、「初期スコア」は、それぞれのシステムのスコアとしてもよい。例えば、「初期スコア」としては、かな漢字変換候補のスコア、情報抽出装置が付与する情報抽出結果への信頼度、検索エンジンの適合度、もしくは順位の逆数などが考えられる。
 典型度スコアリング部71は、テキストデータ記憶部22が記憶しているテキストデータと、共起辞書記憶部21が記憶している共起辞書データとを読み出す。そして、典型度スコアリング部71は、各テキストデータから共起関係を抽出し、各テキストデータの共起関係の共起スコアと初期スコアとから、各テキストデータの典型度スコアを計算する。そして、典型度スコアリング部71は、各テキストと、その典型度スコアとを、典型度スコア付きテキストデータ記憶部23に記憶させる。
 ここで、典型度スコアの計算は、各共起スコアと初期スコアとが高いほど高くなるように計算する。例えば、典型度スコアは、各共起スコアと初期スコアとの和、もしくは積、もしくは和と積の組み合わせとすることが考えられる。
 テキストデータ選別部72は、典型度スコア付きテキストデータ記憶部23から、テキストとその典型度スコアとを読み出す。そして、テキストデータ選別部72は、典型度スコアの大小関係、もしくは値に基づき、テキストデータを選別して、テキストデータ表示部8にデータを出力する。
 テキストデータ表示部8は、テキストデータ選別部72により内容の典型度に基づき選別されたテキストデータを、その典型度スコアとともに表示する。
 次に、図10と、図11のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。
 本実施の形態は、共起辞書を作成する機能と、作成した共起辞書を利用して典型度付与対象テキストに対して典型度スコアを付与する機能とを、共起辞書記憶部21が有する。共起辞書を作成する機能の動作は、第1の実施の形態、もしくは第2の実施の形態で共起辞書を作成する動作と同様である。そのため、共起辞書が作成された後の動作について以下説明する。
 まず、テキストデータ入力部6は、共起辞書で典型度を付与するテキストデータを、テキストデータ記憶部22に記憶させる(図11のステップS21)。
 図12A及び図12Bは、テキストデータ入力部6によりテキストデータ記憶部22に記憶されるデータの例である。図12Aは、情報抽出装置の抽出結果の一例を示す図である。図12Bは、かな漢字変換の候補の一例を示す図である。図12Aは、テキストデータから、何の(対象物)、どういった点が(属性)、どうであったか(評価)、の3語からなる関係を抽出した情報抽出結果を示している。図12Bは、「遊園地Aにいった」の「いった」のかな漢字変換の候補を示している。
 次に、典型度スコアリング部71は、テキストデータ記憶部22からテキストデータを読み出す。そして、典型度スコアリング部71は、各テキストデータから共起関係を抽出する(図11のステップS22)。典型度スコアリング部71は、読み出した各テキストに対して、言語解析部300と同様の処理を行い、共起関係収集部301と同様の方法で共起関係を収集する。つまり、典型度スコアリング部71は、テキストデータを形態素解析して文節を同定して文節間の係り受けを解析する。そして、典型度スコアリング部71は、文節単位でテキストデータ内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する。
 また典型度スコアリング部71は、図12Aのように、テキストが文ではなく、複数の語からなるレコードの場合は、語の組み合わせを共起関係とする。例えば、図12AのID=1のテキストからは、「遊園地A,雰囲気」、「遊園地A,楽しい」、「雰囲気,楽しい」の3つの共起関係が抽出される。ここで、複数の語からなるテキストレコードで、語同士の関係に意味がある場合は、共起関係を全ての語の組み合わせとするのではなく、限定してもよい。
 例えば、図12Aでは、「属性」は「対象物」の評価視点であり、「評価」は「属性」の評価であるが、「評価」は「対象物」そのものを直接評価しているわけではない。つまり、図12Aでは「対象物,属性」、「属性,評価」の2つの共起関係に限定してもよい。以降では、一例として、図12Aは、「対象物,属性」、「属性,評価」の2つを共起関係として抽出する場合について説明する。また、図12BのID=1では、「遊園地A,言った」が共起関係として抽出される。
 図11の説明に戻り、典型度スコアリング部71は、共起辞書を共起辞書記憶部21から読み出す。そして、典型度スコアリング部71は、図11のステップS22で抽出された各共起関係の共起スコアを取得する(図11のステップS23)。
 図13は、共起辞書記憶部21に記憶された共起辞書の一例を示す図である。ここで、共起辞書記憶部21のデータは、本発明の第1又は第2の実施の形態の何れかで作成されたものである。
 次に、典型度スコアリング部71は、ステップS22で取得した各テキストデータの典型度を、ステップS22で抽出した各テキストデータの共起関係と、ステップS22で読み出された各テキストデータの初期スコアと、ステップS23で取得した各共起関係の共起スコアとに基づき、典型度スコアを計算する(図11のステップS24)。そして、典型度スコアリング部71は、各テキストと、各テキストの典型度スコアとを、典型度スコア付きテキストデータ記憶部23に記憶させる。
 図12AのID=1の典型度スコアの計算を例に動作を説明する。図11のステップS22により、図12AのID=1からは「遊園地A,雰囲気」、「雰囲気,楽しい」の2つの共起関係が抽出される。図13の共起辞書を参照すると、共起スコアは、「遊園地A,雰囲気=20」、「雰囲気,楽しい=20」であるとわかる。図12AのID=1の初期スコアは1である。例えば、典型度スコアを、初期スコアと、各共起関係の共起スコアとの和とする。すると、典型度スコアリング部71は、図12AのID=1の典型度スコアを、41(=20+20+1)と計算する。同様に、図12AのID=2~4の典型度スコアを、ID=2が351(=100+250+1)、ID=3が351(=150+200+1)、ID=4が21(=20+0+1)とそれぞれ計算する。
 また、同様に図12BのID=1~4の典型度スコアは、各共起関係とその共起スコアが、図13から「遊園地A,言った=10」、「遊園地A,行った=300」、「遊園地A,要った=0」、「遊園地A,炒った=0」となる。和を計算するとID=1が11(=10+1)、ID=2が301(=300+1)、ID=3が1(=0+1)、ID=4が(=0+1)となる。
 図14Aは、情報抽出結果の典型度スコアの一例を示す図である。図14Bは、かな漢字変換候補の典型度スコアの一例を示す図である。
 典型度スコアリング部71は、テキストデータ記憶部22が記憶している図12A及び図12Bのデータと、共起辞書記憶部21が記憶している図13のデータとから典型度スコアを計算する。典型度スコアリング部71は、典型度スコアと、テキストデータとを典型度スコア付きテキストデータ記憶部23に記憶させる。
 図11の説明に戻り、テキストデータ選別部72は、典型度スコア付きテキストデータ記憶部23からデータを読み出す。そして、テキストデータ選別部72は、各テキストの典型度スコアに基づいて、表示するテキストを選別する(図11のステップS25)。例えば、図14Aにおいて、典型度スコアが40以上のデータを取り出すと、ID=4が典型的ではないと判定される。よって、ID=4は選ばず、ID=1~3を選ぶ。また、図14Bでは、典型度スコアでランキングすると意味的に尤もらしい、かな漢字変換候補の順序になる。
 最後に、テキストデータ表示部8は、テキストデータ選別部72で選別されたテキストを表示する(図11のステップS26)。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、テキストデータの内容の意味的典型度合いを計算できる。その理由は、第1の実施の形態もしくは第2の実施の形態で作成した、意味的関連が高い共起関係に絞って生成された共起辞書を用いるためである。
 また本実施の形態では、典型度付与対象のテキストが文の場合、典型度スコアリング部71は、そのテキストを形態素解析して文節を同定して文節間の係り受けを解析する。そして、典型度スコアリング部71は、文節単位でそのテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する。そして、典型度スコアリング部71は、この収集した共起関係に対応する共起スコアを共起辞書から取得してテキストの内容の典型的度合いを計算する。そのため、テキストの内容の意味的典型度合いをより精度良く計算できる。
 なお、典型度付与対象のテキストから収集する共起関係を、テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けに係わるものに限定しなくてもよい。この場合であっても、意味的関連が高い共起関係に絞って生成された共起辞書を用いているため、ある程度の精度は得られる。
 また本実施の形態では、典型度付与対象のテキストが複数の語から構成されるレコードの場合、典型度スコアリング部71は、語の組み合わせのうち語同士の組み合わせに意味のある組み合わせを共起関係として収集する。そして、典型度スコアリング部71は、この収集した共起関係に対応する共起スコアを共起辞書から取得してテキストの内容の典型的度合いを計算する。そのため、テキストの内容の意味的典型度合いをより精度良く計算できる。
 なお、組み合わせに意味のある語同士の組み合わせに限定しなくてもよい。この場合であっても、意味的関連が高い共起関係に絞って生成された共起辞書を用いているため、ある程度の精度は得られる。
(第4の実施の形態)
 次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
 図15は、本発明の第4の実施の形態の構成を示すブロック図である。
 本発明の第4の実施の形態は、第3の実施の形態(図10)と比較して、記憶装置9およびデータ処理装置7の代わりに、記憶装置10およびデータ処理装置11を備えている点において相違する。また、第4の実施の形態は、コーパス入力部1を備えていない点で、第3の実施の形態と相違する。
 記憶装置10は、記憶装置9と比較して、コーパス記憶部20を備えていない点で相違する。
 データ処理装置11は、データ処理装置7と比較して、共起辞書生成部70を備えていない点で相違する。
 本実施の形態は、第1の実施の形態の共起辞書生成部30、もしくは第2の実施の形態の共起辞書生成部50を用いて作成された共起辞書を、あらかじめ共起辞書記憶部21に記憶している点で、第3の実施の形態と異なる。
 次に、本実施の形態の全体の動作について説明する。本実施の形態においては、共起辞書記憶部21に共起辞書があらかじめ記憶されているため、共起辞書を作成する動作はない。それ以外の動作、すなわち共起辞書記憶部21に記憶された共起辞書を使って典型度スコアリング部71がテキストデータに典型度を付与する動作や、テキストデータ選別部72が各テキストの典型度スコアに基づいてテキストデータ表示部8に表示するテキストを選別する動作などは、第3の実施の形態と同じである。そのため、それらの説明を省略する。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、第3の実施の形態と同様の効果が得られると同時に、テキストデータの内容の意味的典型度合いを高速に計算できる。その理由は、あらかじめ作成された共起辞書を使用することで、共起辞書の生成時間をなくせるためである。
 以上、本発明の各実施の形態について説明したが、本発明は以上の各実施の形態にのみ限定されず、その他各種の付加や変更が可能である。また、本発明は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供される。そのプログラムは、コンピュータの立ち上げ時などにコンピュータに読み取られる。読み取られたプログラムは、そのコンピュータの動作を制御する。これにより、プログラムは、そのコンピュータを前述した各実施の形態におけるデータ処理装置上の各機能部として機能させ、前述した処理ステップを実行させる。
 図16は、本発明の各実施の形態によるシステムをインプリメントした情報処理システムの一般的なブロック構成図である。図16に示す情報処理システムは、プロセッサ3000、プログラムメモリ3001、記憶媒体3002を備えている。記憶媒体3002としては、RAMや、ハードディスク等の磁気記憶媒体を用いることができる。プログラムメモリ3001には、第1~第4の何れかの実施の形態におけるデータ処理装置が行う処理ステップを実行するプログラムが格納されている。プロセッサ3000は、このプログラムによって動作する。記憶媒体3002は、第1~第4の実施の形態における記憶装置として用いられる。
 本発明は、係り受け解析、文書校正、かな漢字変換、情報抽出結果の意味的整合性の評価、テキストの意味的典型度合いの評価など、自然言語の意味的解析に用いる共起辞書を作成するためのシステム等に適用できる。

Claims (45)

  1.  テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、
     文節単位でテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する共起関係収集部と、
     収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、
     計算された共起スコアと共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部と、
     を有する共起辞書生成システム。
  2.  前記共起スコア計算部は、前記共起関係収集部により収集された共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする請求項1に記載の共起辞書生成システム。
  3.  前記共起スコア計算部は、前記共起関係収集部により収集された共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする請求項1に記載の共起辞書生成システム。
  4.  前記共起スコア計算部は、前記共起関係収集部により収集された共起関係の頻度を共起スコアとする請求項1に記載の共起辞書生成システム。
  5.  前記言語解析部の解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割部を備え、
     前記共起関係収集部は、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する請求項1に記載の共起辞書生成システム。
  6.  典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書から取得して、前記典型度付与対象テキストの内容の典型的度合いを計算する典型度スコアリング部を備える請求項1に記載の共起辞書生成システム。
  7.  前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し、文節単位で前記典型度付与対象テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する請求項6に記載の共起辞書生成システム。
  8.  前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する請求項6に記載の共起辞書生成システム。
  9.  前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせのうち、語同士の組み合わせに意味のある組み合わせを共起関係として収集する請求項6に記載の共起辞書生成システム。
  10.  前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型的度合いを計算する請求項6に記載の共起辞書生成システム。
  11.  テキストから収集した名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係とし、収集した共起関係の頻度に基づいて計算した値を共起スコアとし、共起関係と共起スコアとの対応を記述した共起辞書と、
     典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書から取得して、前記典型度付与対象テキストの内容の典型的度合いを計算する典型度スコアリング部と、
     を備えるスコアリングシステム。
  12.  前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し、文節単位で前記典型度付与対象テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する請求項11に記載のスコアリングシステム。
  13.  前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する請求項11に記載のスコアリングシステム。
  14.  前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせのうち、語同士の組み合わせに意味のある組み合わせを共起関係として収集する請求項11に記載のスコアリングシステム。
  15.  前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型的度合いを計算する請求項11に記載のスコアリングシステム。
  16.  テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析ステップと、
     文節単位でテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する共起関係収集ステップと、
     収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算ステップと、
     計算された共起スコアと共起関係との対応を記述した共起辞書を共起辞書記憶部に記憶させる共起辞書記憶ステップと、
     を含む共起辞書生成方法。
  17.  前記共起スコア計算ステップでは、前記共起関係収集ステップで収集された共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする請求項16に記載の共起辞書生成方法。
  18.  前記共起スコア計算ステップでは、前記共起関係収集ステップで収集された共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする請求項16に記載の共起辞書生成方法。
  19.  前記共起スコア計算ステップでは、前記共起関係収集ステップで収集された共起関係の頻度を共起スコアとする請求項16に記載の共起辞書生成方法。
  20.  前記言語解析ステップの解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割ステップを、さらに含み、
     前記共起関係収集ステップでは、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する請求項16に記載の共起辞書生成方法。
  21.  典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書から取得して、前記典型度付与対象テキストの内容の典型的度合いを計算する典型度スコアリングステップを、さらに含む請求項16に記載の共起辞書生成方法。
  22.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し、文節単位で前記典型度付与対象テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する請求項21に記載の共起辞書生成方法。
  23.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する請求項21に記載の共起辞書生成方法。
  24.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせのうち、語同士の組み合わせに意味のある組み合わせを共起関係として収集する請求項21に記載の共起辞書生成方法。
  25.  前記典型度スコアリングステップでは、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型的度合いを計算する請求項21に記載の共起辞書生成方法。
  26.  テキストから収集した名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係とし、収集した共起関係の頻度に基づいて計算した値を共起スコアとし、共起関係と共起スコアとの対応を記述した共起辞書を有する情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書から取得して、前記典型度付与対象テキストの内容の典型的度合いを計算する典型度スコアリングステップを含むスコアリング方法。
  27.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し、文節単位で前記典型度付与対象テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する請求項26に記載のスコアリング方法。
  28.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する請求項26に記載のスコアリング方法。
  29.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせのうち、語同士の組み合わせに意味のある組み合わせを共起関係として収集する請求項26に記載のスコアリング方法。
  30.  前記典型度スコアリングステップでは、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型的度合いを計算する請求項26に記載のスコアリング方法。
  31.  テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析ステップと、
     文節単位でテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する共起関係収集ステップと、
     収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算ステップと、
     計算された共起スコアと共起関係との対応を記述した共起辞書を共起辞書記憶部に記憶させる共起辞書記憶ステップと、
     を情報処理装置に実行させるためのプログラム。
  32.  前記共起スコア計算ステップでは、前記共起関係収集ステップで収集された共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする請求項31に記載のプログラム。
  33.  前記共起スコア計算ステップでは、前記共起関係収集ステップで収集された共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする請求項31に記載のプログラム。
  34.  前記共起スコア計算ステップでは、前記共起関係収集ステップで収集された共起関係の頻度を共起スコアとする請求項31に記載のプログラム。
  35.  前記言語解析ステップの解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割ステップを前記情報処理装置にさらに実行させ、
     前記共起関係収集ステップでは、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する請求項31に記載のプログラム。
  36.  典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書から取得して、前記典型度付与対象テキストの内容の典型的度合いを計算する典型度スコアリングステップを前記情報処理装置にさらに実行させる請求項31に記載のプログラム。
  37.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し、文節単位で前記典型度付与対象テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する請求項36に記載のプログラム。
  38.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する請求項36に記載のプログラム。
  39.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせのうち、語同士の組み合わせに意味のある組み合わせを共起関係として収集する請求項36に記載のプログラム。
  40.  前記典型度スコアリングステップでは、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型的度合いを計算する請求項36に記載のプログラム。
  41.  テキストから収集した名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係とし、収集した共起関係の頻度に基づいて計算した値を共起スコアとし、共起関係と共起スコアとの対応を記述した共起辞書を有する情報処理装置に、
     典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書から取得して、前記典型度付与対象テキストの内容の典型的度合いを計算する典型度スコアリングステップを実行させるためのプログラム。
  42.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し、文節単位で前記典型度付与対象テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する請求項41に記載のプログラム。
  43.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する請求項41に記載のプログラム。
  44.  前記典型度スコアリングステップでは、前記典型度付与対象テキストを構成する複数の語の組み合わせのうち、語同士の組み合わせに意味のある組み合わせを共起関係として収集する請求項41に記載のプログラム。
  45.  前記典型度スコアリングステップでは、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型的度合いを計算する請求項41に記載のプログラム。
PCT/JP2009/056804 2008-04-01 2009-04-01 共起辞書作成システムおよびスコアリングシステム WO2009123260A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/922,320 US8443008B2 (en) 2008-04-01 2009-04-01 Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
JP2010505973A JP5321583B2 (ja) 2008-04-01 2009-04-01 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008094980 2008-04-01
JP2008-094980 2008-04-01
JP2008-124254 2008-05-12
JP2008124254 2008-05-12

Publications (1)

Publication Number Publication Date
WO2009123260A1 true WO2009123260A1 (ja) 2009-10-08

Family

ID=41135627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/056804 WO2009123260A1 (ja) 2008-04-01 2009-04-01 共起辞書作成システムおよびスコアリングシステム

Country Status (3)

Country Link
US (1) US8443008B2 (ja)
JP (1) JP5321583B2 (ja)
WO (1) WO2009123260A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171382A (ja) * 2012-02-20 2013-09-02 Nec Corp 共起辞書作成装置
US9547645B2 (en) 2014-01-22 2017-01-17 Fujitsu Limited Machine translation apparatus, translation method, and translation system
WO2018029791A1 (ja) * 2016-08-09 2018-02-15 楽天株式会社 キーワード抽出システム、キーワード抽出方法およびプログラム
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
JP7032582B1 (ja) 2021-01-29 2022-03-08 Kpmgコンサルティング株式会社 情報解析プログラム、情報解析方法及び情報解析装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101818717B1 (ko) * 2011-09-27 2018-01-15 네이버 주식회사 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
CN104685493A (zh) * 2012-09-27 2015-06-03 日本电气株式会社 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序
JP6237168B2 (ja) * 2013-12-02 2017-11-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9684694B2 (en) * 2014-09-23 2017-06-20 International Business Machines Corporation Identifying and scoring data values
US11531811B2 (en) * 2020-07-23 2022-12-20 Hitachi, Ltd. Method and system for extracting keywords from text

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329090A (ja) * 1995-05-30 1996-12-13 Oki Electric Ind Co Ltd 共起辞書装置、共起辞書データ作成方法及び文解析システム
JP2003132059A (ja) * 2001-10-19 2003-05-09 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2006072483A (ja) * 2004-08-31 2006-03-16 Toshiba Corp プログラム及び文書処理装置並びに文書処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP2006215850A (ja) 2005-02-04 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329090A (ja) * 1995-05-30 1996-12-13 Oki Electric Ind Co Ltd 共起辞書装置、共起辞書データ作成方法及び文解析システム
JP2003132059A (ja) * 2001-10-19 2003-05-09 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2006072483A (ja) * 2004-08-31 2006-03-16 Toshiba Corp プログラム及び文書処理装置並びに文書処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171382A (ja) * 2012-02-20 2013-09-02 Nec Corp 共起辞書作成装置
US9547645B2 (en) 2014-01-22 2017-01-17 Fujitsu Limited Machine translation apparatus, translation method, and translation system
WO2018029791A1 (ja) * 2016-08-09 2018-02-15 楽天株式会社 キーワード抽出システム、キーワード抽出方法およびプログラム
JPWO2018029791A1 (ja) * 2016-08-09 2018-08-09 楽天株式会社 キーワード抽出システム、キーワード抽出方法およびプログラム
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
JP7032582B1 (ja) 2021-01-29 2022-03-08 Kpmgコンサルティング株式会社 情報解析プログラム、情報解析方法及び情報解析装置
JP2022117019A (ja) * 2021-01-29 2022-08-10 Kpmgコンサルティング株式会社 情報解析プログラム、情報解析方法及び情報解析装置

Also Published As

Publication number Publication date
JP5321583B2 (ja) 2013-10-23
JPWO2009123260A1 (ja) 2011-07-28
US20110055228A1 (en) 2011-03-03
US8443008B2 (en) 2013-05-14

Similar Documents

Publication Publication Date Title
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
Hanselowski et al. Ukp-athene: Multi-sentence textual entailment for claim verification
Singh et al. Text stemming: Approaches, applications, and challenges
US8346795B2 (en) System and method for guiding entity-based searching
Castellví et al. Automatic term detection
JP4571404B2 (ja) データ処理方法、データ処理システムおよびプログラム
US20070073745A1 (en) Similarity metric for semantic profiling
US20050080613A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
US20070073678A1 (en) Semantic document profiling
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
JPH03172966A (ja) 類似文書検索装置
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
US9164981B2 (en) Information processing apparatus, information processing method, and program
JP2014106665A (ja) 文書検索装置、文書検索方法
Krishna et al. A hybrid method for query based automatic summarization system
Sanyal et al. Natural language processing technique for generation of SQL queries dynamically
Quan et al. Combine sentiment lexicon and dependency parsing for sentiment classification
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Srinivas et al. Heuristics and parse ranking
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
Tadesse et al. Event extraction from unstructured amharic text
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Ung et al. Combination of features for vietnamese news multi-document summarization
JP2019003270A (ja) 学習装置、映像検索装置、方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09727204

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12922320

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010505973

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09727204

Country of ref document: EP

Kind code of ref document: A1