WO2014002774A1 - 同義語抽出システム、方法および記録媒体 - Google Patents

同義語抽出システム、方法および記録媒体 Download PDF

Info

Publication number
WO2014002774A1
WO2014002774A1 PCT/JP2013/066282 JP2013066282W WO2014002774A1 WO 2014002774 A1 WO2014002774 A1 WO 2014002774A1 JP 2013066282 W JP2013066282 W JP 2013066282W WO 2014002774 A1 WO2014002774 A1 WO 2014002774A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
occurrence
concept
context
synonym
Prior art date
Application number
PCT/JP2013/066282
Other languages
English (en)
French (fr)
Inventor
英司 平尾
古橋 武
大弘 吉川
Original Assignee
日本電気株式会社
国立大学法人名古屋大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社, 国立大学法人名古屋大学 filed Critical 日本電気株式会社
Priority to JP2014522530A priority Critical patent/JPWO2014002774A1/ja
Publication of WO2014002774A1 publication Critical patent/WO2014002774A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present invention relates to a synonym extraction system, method, and recording medium, and in particular, extracts synonyms from documents that have synonyms that can be established only in a document group related to a specific item, such as proposals and specifications related to information system construction.
  • the present invention relates to a synonym extraction system, method, and recording medium.
  • Patent Document 1 An example of prior art related to a synonym extraction system is described in Patent Document 1 as an “automatic similarity calculation system”.
  • the automatic similarity calculation system disclosed in Patent Document 1 includes a document data storage unit, a candidate expression memory unit, and a similarity weight value calculation unit.
  • the automatic similarity calculation system having such a configuration operates as follows.
  • the document data storage unit stores a collection of text documents including at least one text document in a digital format.
  • Candidate expression memory unit stores a set of expressions t i appearing in at least one of the text documents of each of the clusters.
  • Similarity weight value calculation unit selects at least one set of synonyms candidate pair t 1 and t 2, the candidate pair is selected, two candidates for the representation pairs in any sentence range of collection of said text document Candidate pairs based on a similarity measure
  • the similarity weight value agw (t 1 , t 2 ) is calculated.
  • the context expression is an expression that co-occurs with the expression t 1 in at least one arbitrary sentence range of the set of arbitrary sentence ranges and co-occurs with the expression t 2 in at least one arbitrary sentence range. , T 1 and t 2 , or a sentence that co-occurs with both expressions t 1 and t 2 in the arbitrary sentence range.
  • the similarity measure occ_con (t 1, t 2) is the arbitrary with any corresponding or unmatched context representation of co-occurrence between both expressions t 1 and expression t 2 in a sentence range vital t 1 and t 2
  • Context expressions that appear in the same form in one or more arbitrary sentence ranges are counted as only one co-occurrence, and only the number of different context expressions is taken into account.
  • the similarity weight value between synonym candidate pairs can be calculated in an improved way, and reflect the actual similarity more Is realized.
  • Patent Document 2 another example of the prior art relating to a synonym extraction system is described in Patent Document 2 as a “word meaning relationship extraction device”.
  • the word semantic relationship extraction device disclosed in Patent Document 2 refers to a means for generating feature vectors having different types of similarity as elements for a set of words extracted from text, and a known dictionary. Means for assigning a label indicating a word semantic relationship to the feature vector; means for learning a word semantic relationship determination rule based on a plurality of feature vectors to which the label is assigned; and the learned word semantic relationship determination Means for determining a word semantic relationship for an arbitrary set of words based on a rule. With this configuration, it is possible to accurately integrate a plurality of similarities by learning and to extract word semantic relations with high accuracy.
  • the first problem of such a prior art is the extraction of synonyms of documents having synonyms that only exist in a document group related to a specific case, such as proposals and specifications relating to information system construction.
  • Applying the synonym extraction method by technology even though it is not a synonym, the similarity between words used in the pattern of “word + fixed sentence” that is likely to be erroneously detected as high similarity when citing co-occurrence information
  • the effect of lowering the degree is weak.
  • the pattern of “word + fixed sentence” is often used for words in a parallel relationship that do not become synonyms.
  • context expressions that appear in the same form are counted only as one co-occurrence, and the context information of a word that is a synonym candidate is not the number of occurrences, but the number of variations of the context information of the word.
  • the evaluation method can be expected to weaken the effect of the pattern “word + fixed sentence” on the similarity, but the pattern “word + fixed sentence” does not have the viewpoint of rather dissimilarity. , Reducing the similarity of combinations that lead to false detections, such as combinations that are not synonyms in which the pattern of “word + fixed phrase” is not used multiple times for the same word Bet is because it is difficult.
  • the second problem of the above prior art is the extraction of synonyms by the prior art in the extraction of synonyms of documents with synonyms that only exist in a group of documents related to a specific case, such as proposals and specifications related to information system construction.
  • a specific case such as proposals and specifications related to information system construction.
  • the reason is that it is difficult to grasp the synonym relations in advance for the synonyms that consist only of documents related to a specific project, such as proposals and specifications related to information system construction. This is because it is difficult to prepare such a known dictionary.
  • An object of the present invention is to use a word used in a pattern of “word + fixed sentence” that is easily misdetected from a document having a synonym formed only in a document group related to a specific item, such as a proposal or a specification regarding information system construction.
  • An object of the present invention is to provide a synonym extraction system, method, and recording medium that can reduce the similarity of combinations and extract synonyms that are formed only in a document group related to a specific item with high accuracy.
  • a synonym extraction system is a synonym extraction system that analyzes a document and extracts synonyms, and includes a document input unit that receives input of a target document or document group; A word analysis unit for extracting each word used in a sentence to be extracted and word information regarding a sentence from which each word is extracted; and for each word used in each sentence, The notation context information of each word is created based on the notation information in the context in which the word is used, and the notation context similarity index indicating the similarity between the notation context information of each word is used.
  • a notation context similarity calculator that calculates the similarity of words as the notation context similarity of each word combination; collects and stores general concept information that organizes the general concepts of words, and inquires about specific words
  • a concept database that searches and responds to general concept information related to the meaning and usage of words; and for each word used in each sentence extracted by the word analysis unit, the concept database is queried for the concept of each word, Create conceptual context information for each word based on conceptual information in the context in which each word was used, and conceptual context information for each word by a conceptual context similarity index indicating the similarity between the conceptual context information for each word
  • a conceptual context similarity calculating unit that calculates the similarity between words as a concept context similarity of each word combination; based on the notation context similarity and the concept context similarity corresponding to each word, the notation context similarity between words is
  • a synonym candidate estimation unit that determines synonyms between words according to a predetermined synonym determination rule that the lower the concept context similarity is, the higher the possibility of synonyms is, and extract
  • synonyms that only exist in a document group related to a specific case such as proposals and specifications related to information system construction, are extracted with high accuracy from a document that has a synonym that only exists in the document group related to a specific case. It is possible to reduce confusion and failure based on misunderstandings.
  • FIG. 1 is a block diagram showing a configuration of a synonym extraction system according to an embodiment of the present invention.
  • FIG. 2 is a sequence diagram showing an operation example of the synonym extraction system shown in FIG.
  • FIG. 3 is a block diagram showing the configuration of the synonym extraction system according to the first embodiment of the present invention.
  • FIG. 4 is an explanatory diagram showing an example of a part of the basic word co-occurrence table E.
  • FIG. 5 is an explanatory diagram showing an example of the classification system of the thesaurus general concept information Cg stored in the Internet server Z.
  • FIG. 6 is an explanatory diagram showing an example of a part of the broad-category basic word concept table SC1.
  • FIG. 7 is an explanatory view showing an example of a part of the middle-category basic word concept table SC2.
  • FIG. 8 is an explanatory diagram showing an example of a part of the basic word concept table SC3 of the small classification.
  • FIG. 9 is an explanatory diagram showing an example of calculation results of the inter-concept similarity, the co-occurrence similarity, and the inter-word similarity for each word combination.
  • FIG. 1 is a block diagram showing a configuration of a synonym extraction system 100 according to an embodiment of the present invention.
  • a synonym extraction system 100 basically includes an electronic device or a system composed of an information communication network such as a server and an electronic device and the Internet for interconnecting them. It includes at least a document input unit 10, a word analysis unit 20, a notation context similarity calculation unit 30, a concept context similarity calculation unit 40, a synonym candidate estimation unit 50, a synonym candidate output unit 60, and a concept database 110.
  • the illustrated synonym extraction system 100 is a synonym extraction system that extracts a synonym from a document having a synonym that is formed only in a document group related to a specific item, such as a proposal or a specification regarding an information system construction.
  • the synonym extraction system 100 is prone to erroneous detection of “word + fixed sentence” from a document having a synonym that is formed only in a document group related to a specific item, such as a proposal or a specification for information system construction.
  • the synonym extraction system 100 can be realized by a computer that operates under program control.
  • this type of computer includes an input device for inputting data, a data processing device, an output device for outputting processing results in the data processing device, and an auxiliary memory serving as various databases.
  • the data processing device stores data in a read-only memory (ROM) that stores a program, a random access memory (RAM) that is used as a work area that temporarily stores data, and a program stored in the ROM. It consists of a central processing unit (CPU) that processes stored data.
  • the input device functions as the document input unit 10.
  • the data processing device functions as a word analysis unit 20, a notation context similarity calculation unit 30, a concept context similarity calculation unit 40, and a synonym candidate estimation unit 50.
  • the auxiliary storage device operates as the concept database 110.
  • the output device functions as the synonym candidate output unit 60.
  • the document input unit 10 receives input of a target document or document group.
  • the word analysis unit 20 applies morphological analysis and syntax analysis to each sentence constituting a document or a document group, thereby extracting all words used in each sentence and the sentence, paragraph, and table of contents from which each word is extracted. Extract word information such as the above items and parts of speech.
  • the word may be limited to a self-supporting word such as a noun, a verb, or an adjective.
  • the word information may include dependency relationships between words as necessary.
  • the notation context similarity calculation unit 30 uses the above word information for each word used in each sentence extracted by the word analysis unit 20 to obtain notation information in the context in which each word is used. Based on each word, the notation context information is created.
  • the notation context information is notation context information in a sentence in which each word is used, i) a character string in a predetermined range before and after the word, and ii) a co-occurrence relationship with the word in the co-occurrence determination rule.
  • the co-occurrence determination rule sets the range considered as co-occurrence words according to the characteristics of the document, such as one sentence, all sentences in one paragraph, all sentences in the same item on the table of contents, and the whole document.
  • the range considered as co-occurrence may be changed for each part of speech, such as a co-occurring verb in one sentence and a noun in a sentence in the same item on the table of contents.
  • the notation context similarity calculation unit 30 calculates the similarity between the notation context information of each word as the notation context similarity of each word combination by using an arbitrarily set notation context similarity index.
  • the above described notation context similarity index is an index indicating the similarity between the notation context information of each word.
  • the notation context similarity index is based on the number or ratio of matching characters in the character string, the relationship between the edit distance between the character strings and the monotonic decrease. A function value is suitable.
  • the notation context similarity index when the notation context information is a co-occurrence set, the number or ratio of coincident words that coincide in the co-occurrence set is suitable.
  • the notation context similarity index when the notation context information is a co-occurrence vector, a cosine similarity between co-occurrence vectors, or a function value that is monotonically decreasing from the Euclidean distance between co-occurrence vectors is suitable.
  • the concept database 110 collects and accumulates general concept information that organizes general concepts of words such as word concept classification, synonyms, synonyms, and usage, and relates to the meaning and usage of words for inquiries about specific words. This database searches and responds to general concept information.
  • the concept database 110 stores words in a classification system, and corresponds to a thesaurus or the like that can be acquired as general concept information regarding the upper / lower relationship, partial / whole relationship, synonym relationship, and synonym relationship between words.
  • the concept context similarity calculation unit 40 inquires the concept database 110 about the concept of each word used in each sentence extracted by the word analysis unit 20, and conceptually in the context in which each word is used. Create conceptual context information for each word based on the information.
  • the conceptual context information is conceptual context information in a sentence in which each word is used, and i) a co-occurrence word that is regarded as a co-occurrence relationship with a word in the co-occurrence determination rule and the number of co-occurrence thereof
  • a concept vector converted to a word is suitable.
  • the co-occurrence words are converted into the corresponding synonyms of the corresponding synonyms and the co-occurrence numbers of the synonyms are obtained.
  • the co-occurrence number of the corresponding co-occurrence word may be assigned, and the total number of co-occurrence numbers for each synonym converted for the co-occurrence word of the same word may be calculated as a concept vector. If there is no concept corresponding to the co-occurrence word in the concept database 110, the co-occurrence word may not be converted into a concept, and the word of the co-occurrence word may be left as a temporary concept.
  • the conceptual context similarity calculation unit 40 calculates the similarity between the conceptual context information of each word as the conceptual context similarity of each word combination using an arbitrarily set conceptual context similarity index.
  • the concept context similarity index is an index indicating the similarity between the concept context information of each word.
  • the concept context similarity index when the concept context information is a concept set, the number or ratio of matching concept words in the concept set is suitable.
  • the concept context similarity index when the concept context information is a concept vector, a cosine distance between concept vectors or a function value that is monotonically decreasing from the Euclidean distance between concept vectors is suitable.
  • the synonym candidate estimation unit 50 determines synonyms of word combinations based on synonym determination rules for determining similarity based on the notation context similarity and concept context similarity corresponding to each word combination, and synonym candidate synonyms Extract (estimate) as a combination.
  • the synonym determination rule may be a word combination and a rule that have a lower possibility of synonyms as the notation context similarity between words is lower and the concept context similarity is higher.
  • the synonym determination rule is a rule for extracting a combination of words in which an index obtained by dividing a function having a monotonically increasing relationship with the conceptual context similarity by a function having a monotonically increasing relationship with the notation context similarity is larger than an arbitrary threshold. good.
  • the synonym determination rule may be a rule that excludes combinations of words whose notation context similarity is larger than an arbitrary threshold from synonym candidates and extracts combinations having high concept context similarity among remaining word combinations.
  • a concept vector is created using a thesaurus in which concepts in a plurality of hierarchies are registered as general concept information in the concept database 110, the concept context similarity in each hierarchy is calculated, and a more detailed deeper classification or the like.
  • Concept context similarity weighted so as to emphasize the concept context similarity in classification may be applied to the synonym determination rule.
  • the synonym candidate output unit 60 outputs the synonym candidates extracted (estimated) by the synonym candidate estimation unit 50.
  • a suitable output form is a form in which the entire document is output by clearly indicating the combination of synonym candidates in the document by color coding or bold emphasis.
  • the output form may be a form such as a table from which synonym candidate combinations are extracted.
  • a graph in which the relationship is linked by using a word that is a synonym candidate as a main node, a co-occurrence word as an intermediate node, and a concept as an end node is displayed. It may be in a form such as highlighting the links to be connected in the shortest color.
  • quantitative synonyms are added between synonyms such as dissimilarity used when extracting synonym candidates, and only synonyms whose synonyms are larger than a set threshold are set.
  • the display may be limited. Or as an output form, depending on the synonym degree between synonym candidates, color coding, emphasis by bold letters, or the size of character of a word of a graph may be given. Further, each output form may be selected so that the display form as a base can be shifted to a table or a graph as necessary. Moreover, you may make it selectively output a verb, a part of speech, etc. as needed.
  • the overall operation of the synonym extraction system 100 according to the embodiment of the present invention will be described in detail with reference to the sequence diagrams of FIGS. 1 and 2. Note that the sequence diagram shown in FIG. 2 and the following description are processing examples, and the processing order and the like may be changed or the processing may be returned according to the processing that is appropriately obtained.
  • the document input unit 10 receives an input of a target document or document group (step A1 in FIG. 2).
  • the word analysis unit 20 applies morphological analysis and syntax analysis to each sentence constituting a document or a document group, thereby extracting all words used in each sentence and the sentence, paragraph, and table of contents from which each word is extracted.
  • Word information such as the above item and part of speech is extracted (step A2).
  • the notation context similarity calculation unit 30 uses word information for each word used in each sentence extracted by the word analysis unit 20 based on notation information in the context in which each word is used. Notation context information for each word is created (step A3).
  • the notation context similarity calculation unit 30 calculates the similarity between the notation context information of each word as the notation context similarity of each word combination based on the arbitrarily set notation context similarity index (step A4).
  • the concept database 110 collects and accumulates general concept information such as concept classifications of words and synonyms, synonyms, usages, etc., and searches for general concept information related to the meanings and usages of words in response to inquiries about specific words. It responds (step A5).
  • the concept context similarity calculation unit 40 inquires the concept database 110 about the concept of each word used in each sentence extracted by the word analysis unit 20, and conceptually in the context in which each word is used. Based on such information, conceptual context information of each word is created (step A6).
  • the conceptual context similarity calculation unit 40 calculates the similarity between the conceptual context information of each word as the conceptual context similarity of each word combination based on the arbitrarily set conceptual context similarity index (step A7).
  • the synonym candidate estimation unit 50 has a lower notation context similarity between words based on the notation context similarity and the concept context similarity corresponding to each word combination, and the higher the concept context similarity, the more likely the synonym is.
  • the synonymity of the word combination is determined by a predetermined synonym determination rule for a high word combination, and extracted (estimated) as a synonym candidate combination (step A8).
  • the synonym candidate output unit 60 outputs the synonym candidates extracted (estimated) by the synonym candidate estimation unit 50 (step A9).
  • the synonym extraction system 100 can be realized as a synonym extraction method.
  • the synonym extraction system 100 according to the embodiment of the present invention may be executed by a computer using a synonym extraction program.
  • the synonym extraction system 100 is a synonym that is formed only in a document group related to a specific case included in a document D having a synonym that is formed only in a document group related to a specific case, such as a proposal or specification regarding an information system construction.
  • Word candidate A is estimated.
  • the synonym extraction system 100 supports the creation of a glossary and unification of words related to unregistered terms by outputting the estimation result.
  • the synonym extraction system 100 is composed of a document analysis system Y and an Internet server Z as shown in FIG.
  • the document analysis system Y operates on the PC terminal of the analyst B, and through the input unit and the output unit, the input of sentences constituting the document group that the analyst B wants to extract synonyms and synonyms Realization of candidate A is realized.
  • the Internet server Z is connected via a communication network to a PC terminal of the analysis person B who has implemented the document analysis system Y.
  • the Internet server Z enables retrieval of general concept information Cg related to word concept classification, general synonyms and synonyms, and usage. It is a device to do.
  • the correspondence between FIG. 3 and FIG. 1 will be described.
  • the document input unit 10 operates as an input unit of a PC terminal.
  • the word analysis unit 20, the notation context similarity calculation unit 30, the concept context similarity calculation unit 40, and the synonym candidate estimation unit 50 are included in the document analysis system Y.
  • the synonym candidate output unit 60 operates as an output unit of the PC terminal.
  • the concept database 110 is included in the Internet server Z.
  • the document analysis system Y and the Internet server Z provided with such means operate as follows.
  • the document analysis system Y receives from the input unit input of a document D that constitutes a document group for which the analysis operator B wants to estimate a synonym candidate A having the same meaning but different word form from a document related to a specific case.
  • the document analysis system Y applies morphological analysis and syntactic analysis to each sentence of the document constituting the document D, decomposes it into words constituting the document, and analyzes the sentence and part of speech from which each word is extracted.
  • Nouns, verbs, adjectives, and adjective verbs are extracted as word W.
  • the verbs the verbs belonging to the use of sa line modification are extracted in the form of so-called sa variant nouns by removing the use part.
  • a word co-occurrence table E is created that is tabulated and summarized in tabular form for each co-occurrence word V for all words S.
  • a data set in which the number of co-occurrence Nij of each co-occurrence word Vj with respect to the word Si in the word co-occurrence table E is referred to as a word co-occurrence vector Ni.
  • the word co-occurrence table E As an example of the word co-occurrence table E, the word co-occurrence table E when the “salary management system”, “salary calculation system”, and “transportation cost calculation system” are the words Si is shown in FIG. Si is a table in which co-occurrence words Vij are arranged in each column and the co-occurrence number Nij is described. 4 corresponds to the word co-occurrence vector Ni, and the word co-occurrence vector Ni of “salary management system” is ⁇ 1, 2, 1, 1, 1, 1, 0, 0, 0. , 0,... Since both the word S and the co-occurrence word V include nouns, the word previously selected as a word is also treated as a co-occurrence word when another word is a word, and is registered redundantly.
  • the Internet server Z classifies words according to general upper / lower relations, partial / whole relations, synonym relations, synonym relations, and the like, and accumulates the structured general concept information Cg of the thesaurus.
  • the Internet server Z also provides a function such as a search engine that extracts information on an arbitrary word, so that it can be used as a general concept classification of words to be inquired according to an inquiry from the document analysis system Y.
  • the classification, middle classification, and minor classification are extracted as general concept information Cg and presented.
  • the document analysis system Y first inquires the Internet server Z about the general concept information Cg of each co-occurrence word Vj in the word co-occurrence table E, so that the general concept of the thesaurus stored in the Internet server Z is obtained.
  • a co-occurrence word concept C1vj of a large classification to which each co-occurrence word Vj belongs a co-occurrence word concept C2vj of a medium classification, and a co-occurrence word concept C3vj of a small classification are extracted.
  • the document analysis system Y converts the co-occurrence word Vj in the word co-occurrence table E into the co-occurrence word concept C1vj, collects the co-occurrence words Vi having the same concept, and adds the sum of the co-occurrence numbers Nij to the corresponding portions.
  • the registered broad word concept table SC1 is created.
  • the document analysis system Y converts the co-occurrence word Vj in the word co-occurrence table E into the co-occurrence word concept C2vj, collects the co-occurrence words Vi having the same concept, and registers the sum of the co-occurrence numbers Nij in corresponding locations.
  • the middle-class word concept table SC2 is created.
  • the document analysis system Y converts the co-occurrence word Vj in the word co-occurrence table E into the co-occurrence word concept C3vj, collects the co-occurrence words Vi having the same concept, and registers the sum of the co-occurrence numbers Nij in corresponding locations.
  • a small category word concept table SC3 is created.
  • a data set in which the co-occurrence numbers Nc1ij of the co-occurrence word concepts C1vj with respect to the word Si in the large-category word concept table SC1 are referred to as a large-category word concept vector Nc1i, and the data set for the word Si in the medium-category word concept table SC2
  • a data set in which the co-occurrence numbers Nc2ij of each co-occurrence word concept C2vj are collected is referred to as a middle classification word concept vector Nc2i.
  • the data set is referred to as a small classification word concept vector Nc3i.
  • the co-occurrence word concept C1vj, the co-occurrence word concept C2vj, and the co-occurrence word concept C3vj as shown in FIG.
  • the conceptual table SC1 is a table in which the word classification table SC2 is arranged in FIG. 6, the word classification table SC2 in middle classification is in FIG. 7, and the word concept table SC3 in small classification is arranged in FIG. .
  • the co-occurrence numbers of the word concept tables SC1, SC2, and SC3 are, for example, the word concept table SC1 of the broad classification.
  • the co-occurrence word concepts C1vj of “use”, “arrange”, and “construct” are used. Since “action” is common, Nc1ij is “2” obtained by adding the co-occurrence numbers of these co-occurrence words for the same word “salary management system”.
  • the co-occurrence word is left as a temporary concept.
  • the broadly classified word concept vector Nc1i of the word “salary management system” is expressed as ⁇ 2, 2, 1, 1, 0, 0,.
  • the document analysis system Y obtains the cosine similarity Lc1pq between the large classification word concept vector Nc1p corresponding to the word Sp and the large classification word concept vector Nc1q corresponding to the word Sq, and between the middle classification word concept vectors Nc2p and Nc2q.
  • the cosine similarity Lc2pq and the cosine similarity Lc3pq between the small classification word concept vectors Nc3p and Nc3q are calculated, and the respective classification weighting coefficients ⁇ 1, ⁇ 2, and ⁇ 3 ( ⁇ 1 ⁇ 2 ⁇ 3) are calculated by the following Equation 1.
  • the multiplied sum is calculated as the inter-concept similarity Lcpq.
  • Lcpq ⁇ 1 ⁇ Lc1pq + ⁇ 2 ⁇ Lc2pq + ⁇ 3 ⁇ Lc3pq ...
  • the document analysis system Y calculates the cosine similarity between the word co-occurrence vector Np corresponding to the word Sp and the word co-occurrence vector Nq corresponding to the word Sq as a co-occurrence similarity Lpq, and the following formula 2
  • a value obtained by dividing the inter-concept similarity Lcpq by the co-occurrence similarity Lpq is calculated as the inter-word similarity Lspq.
  • Lspq Lcpq / Lpq Equation 2
  • the document analysis system Y has a high semantic similarity of the word co-occurrence vector, and the possibility of a synonym for a combination of the word Sp and the word Sq whose inter-word similarity Lspq is larger than an arbitrary determination threshold T.
  • the document analysis system Y processes the synonym candidate Aa ⁇ Sp, Sq ⁇ , such as color coding or emphasis by bolding, for the corresponding synonym candidate Aa ⁇ Sp, Sq ⁇ in the request document D, and the requested document after processing D is output from the output unit.
  • the synonym extraction system of the present invention a document related to a specific case, from a document having a synonym that is formed only in a document group related to a specific case, such as a proposal or a specification regarding an information system construction. It is possible to extract synonyms that only exist in groups with high accuracy, and to reduce confusion and failure based on misunderstandings.

Abstract

情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の曖昧さを改善するために、同義語抽出システムは、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する。同義語抽出システムは、文書入力部と、単語分析部と、表記文脈類似度算出部と、概念データベースと、概念文脈類似度算出部と、同義語候補推定部と、同義語候補出力部と、を備える。

Description

同義語抽出システム、方法および記録媒体
 本発明は、同義語抽出システム、方法および記録媒体に関し、特に、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システム、方法および記録媒体に関する。
 近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の意味や意義を自動抽出するシステムが開発されている。そのなかで、文書中の同義語の取り扱いが問題になることがある。尚、同義語とは、意義は同じで語形が異なっている語、換言すれば、発音や表記は異なるが、意味の同じである語をいう。
 同義語抽出システムに関する先行技術の一例が、特許文献1に「自動類似度計算システム」として記載されている。この特許文献1に開示された自動類似度計算システムは、文書データ保存部と、候補表現メモリ部と、類似度重み値計算部とから構成されている。このような構成を有する自動類似度計算システムは、次のように動作する。
 すなわち、文書データ保存部は、少なくとも一つのテキスト文書を含むテキスト文書の集りをデジタル形式で保存する。候補表現メモリ部は、それぞれ前記集りのテキスト文書の少なくとも一つに出現する表現tの集合を保存する。類似度重み値計算部は、少なくとも一組の同義語候補ペアtとtを選択し、選択された候補ペアについて、前記テキスト文書の集りの任意の文章範囲で前記表現ペアの二つの候補ペアtとtが共起する総頻度と、この任意の文章範囲内の異なる文脈表現の総数の両方を考慮に入れた類似尺度|occ_con(t、t)|に基づいて候補ペアの類似度重み値agw(t、t)を計算する。ここで、文脈表現とは、任意の文章範囲の集合の少なくとも一つの任意の文章範囲で表現tと共起しかつ少なくとも一つの任意の文章範囲で表現tと共起する表現であって、tとtのいずれとも一致しない表現、もしくは前記任意の文章範囲で表現tとtの両方と共起する文章を指す。また、前記類似尺度occ_con(t、t)は、前記任意の文章範囲で表現tと表現tの両方と共起しかつtとtのいずれとも対応または一致しない文脈表現の総数であり、一つ以上の任意の文章範囲で同じ形で出現する文脈表現は一回の共起としてのみカウントすることで異なる文脈表現の数だけを考慮に入れることを特徴とする。このような構成で、異なる文脈表現の数だけを考慮に入れることにより、同義語候補ペア間の類似度重み値を改良された方法で計算することができ、実際の類似性をより反映することを実現している。
 さらに、同義語抽出システムに関する先行技術の他の例が、特許文献2に「単語意味関係抽出装置」として記載されている。この特許文献2に開示された単語意味関係抽出装置は、テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段とを備える。このような構成により、学習により複数の類似性の的確な統合を行い、高精度な単語意味関係抽出を行うことを実現している。
特表2009−514076号公報 特開2011−118526号公報
 このような先行技術の第一の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の同義語の抽出に、特許文献1の先行技術による同義語の抽出方法を適用すると、同義語ではないにも拘らず、共起情報を引用すると類似性が高いと誤検出されやすい「単語+定型文」というパターンに用いられる単語間の類似度を下げる効果が弱いことである。その理由は、情報システム構築に関する提案書や仕様書等といった文書群では、「単語+定型文」というパターンが絶対に同義語にならない並列関係にある単語において使用されることが多く、特許文献1の先行技術のように、同じ形で出現する文脈表現は一回の共起としてのみカウントし、同義語の候補とした単語の文脈情報を出現回数ではなく、単語の文脈情報のバリエーションの数で評価する方法では、「単語+定型文」というパターンが類似度に与える影響を弱める効果は見込めるが、「単語+定型文」というパターンがむしろ非類似を意味するという観点を持たない処理であるため、「単語+定型文」というパターンが同一単語について複数回利用されていない同義語ではない組合せなど、誤検出に繋がる組合せの類似性を下げることが難しいためである。
 上記先行技術の第二の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の同義語の抽出に、先行技術による同義語の抽出方法を適用すると、特定の案件に関する文書群でのみ成り立つ同義語を抽出することができないことである。その理由は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語は、事前にその同義関係を把握することが難しく、特許文献2の先行手法で用いられているような既知の辞書を準備することが困難であるためである。
 本発明の目的は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システム、方法および記録媒体を提供することにある。
 本発明に係る同義語抽出システムは、文書を分析して同義語を抽出する同義語抽出システムであって、対象とする文書もしくは文書群の入力を受け付ける文書入力部と;文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語分析部と;各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出部と;単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと;上記単語分析部で抽出された各文章に使用されている各単語について、各単語の概念を上記概念データベースに問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出部と;各単語に対応する表記文脈類似度と概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と;同義語候補を出力する同義語候補出力部と;を備える。
 本発明によれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられる。
 図1は本発明の一実施形態に係る同義語抽出システムの構成を示すブロック図である。
 図2は図1に示した同義語抽出システムの動作例を示すシーケンス図である。
 図3は本発明の第1の実施例に係る同義語抽出システムの構成を示すブロック図である。
 図4は基軸単語共起表Eの一部の例を示す説明図である。
 図5はインターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系の例を示す説明図である。
 図6は大分類の基軸単語概念表SC1の一部の例を示す説明図である。
 図7は中分類の基軸単語概念表SC2の一部の例を示す説明図である。
 図8は小分類の基軸単語概念表SC3の一部の例を示す説明図である。
 図9は単語の組合せ毎の概念間類似度、共起間類似度、単語間類似度の算出結果の例を示す説明図である。
[実施形態]
 最初に、本発明の一実施形態について、図面を参照して詳細に説明する。
 図1は、本発明の一実施形態に係る同義語抽出システム100の構成を示すブロック図である。
 図1を参照すると、本発明の実施形態に係る同義語抽出システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10、単語分析部20、表記文脈類似度算出部30、概念文脈類似度算出部40、同義語候補推定部50、同義語候補出力部60、及び概念データベース110、を含む。
 図示の同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システムである。
 少し詳細に述べると、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システムである。
 電子機器で同義語抽出システムを構成する場合、同義語抽出システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
 この場合、入力装置が文書入力部10として働く。データ処理装置が、単語分析部20、表記文脈類似度算出部30、概念文脈類似度算出部40、および同義語候補推定部50として働く。補助記憶装置が概念データベース110として動作する。出力装置が同義語候補出力部60として働く。
 次に、同義語抽出システム100を構成する各構成要素の動作について説明する。
 文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける。
 単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う。
 ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に限定しても良い。上記単語情報には必要に応じて単語間の係り受け関係などを含めても良い。
 表記文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、上記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する。
 ここで、上記表記文脈情報とは、各単語が使用された文における表記的な文脈情報であって、i)単語前後の所定範囲の文字列、ii)共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セット、およびiii)共起セットを任意の範囲の文章群について集計した共起ベクトルのグループから選択されたいずれか1つであってよい。
 また、上記共起判定ルールとしては、1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて共起語と見なす範囲を設定して良く、1文内での共起する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に共起とみなす範囲を変えても良い。さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語を共起語に限定するのを、上記共起判定ルールとして利用しても良い。また、共起数は共起回数でも良いが、共起回数を単語毎の全共起語数で除した頻度などでも良い。
 さらに表記文脈類似度算出部30は、任意に設定した表記文脈類似度指標によって、各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する。
 ここで、上記表記文脈類似度指標とは、各単語の表記文脈情報の間の類似性を示す指標である。表記文脈類似度指標は、上記表記文脈情報が単語前後の所定範囲の文字列である場合は、文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値が適している。表記文脈類似度指標は、上記表記文脈情報が共起セットの場合は、共起セット内で一致した共起語の個数もしくは割合が適している。表記文脈類似度指標は、上記表記文脈情報が共起ベクトルの場合は、共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
 概念データベース110は、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するデータベースである。
 概念データベース110は、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスなどが相当する。
 概念文脈類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース110に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する。
 ここで、上記概念文脈情報とは、各単語が使用された文における概念的な文脈情報であり、i)共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セット、もしくはii)共起セットを任意の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルなどが適している。
 なお、共起セットの概念セットへの変換方法や共起ベクトルの概念ベクトルへの変換方法としては、単に共起語を概念語に変換するだけでなく、変換で異なる共起語が同じ概念となる場合はそれぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。
 また、概念データベース110として大分類、中分類、小分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に概念ベクトルを作成し、大分類など広い概念での概念ベクトルで異なる共起語が同じ概念となる場合は、それぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。他に、概念データベース110として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、共起語を対応する類義語群の各類義語に変換し、各類義語の共起数として対応する共起語の共起数を割り当て、同一の単語の共起語に関して変換された類義語毎の共起数の延べ数を概念ベクトルとして算出しても良い。なお、概念データベース110に共起語に対応する概念が無い場合、上記共起語は概念に変換せず、共起語の単語をそのまま仮の概念として残しても良い。
 さらに概念文脈類似度算出部40は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する。
 ここで、上記概念文脈類似度指標とは、各単語の概念文脈情報の間の類似性を示す指標である。概念文脈類似度指標は、上記概念文脈情報が概念セットの場合は、概念セット内で一致した概念語の個数もしくは割合が適している。概念文脈類似度指標は、上記概念文脈情報が概念ベクトルの場合は、概念ベクトル間のコサイン距離や、概念ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
 同義語候補推定部50は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、類似性の判定を行う同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出(推定)する。
 ここで、上記同義判定ルールは、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとルールであればよい。例えば、同義判定ルールは、概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が任意の閾値より大きい単語の組合せを抽出するルールで良い。或いは、同義判定ルールは、表記文脈類似度が任意の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルールでも良い。
 なお、概念データベース110として複数の階層での概念が一般概念情報として登録されたシソーラスを用いて概念ベクトルを作成した場合、各階層での概念文脈類似度を算出し、小分類などより詳細な深い分類での概念文脈類似度ほど重視するように重み付けした概念文脈類似度を上記同義判定ルールに適用しても良い。
 同義語候補出力部60は、同義語候補推定部50で抽出(推定)した同義語候補を出力する。
 ここで、出力形態は、文書内における同義語候補の組合せを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、同義語候補の組合せを抽出した表などの形態であって良い。また、出力形態としては、同義語候補とされた単語を主ノード、その共起語を中間ノード、概念を端ノードとして関係をリンクで結んだグラフを表示し、同義語候補とされた単語を最短で繋ぐリンクを色分けして強調するなどの形態であって良い。また、出力形態としては、同義語候補を抽出する際に用いた非類似度などで同義語間に定量的な同義度を付加し、同義度が任意に設定された閾値より大きい同義語のみに表示を限定しても良い。もしくは、出力形態としては、同義語候補間の同義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
 また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や品詞などを選択的に出力するようにしてもよい。
 次に、図1及び図2のシーケンス図を参照して、本発明の実施形態に係る同義語抽出システム100の全体の動作について詳細に説明する。なお、図2に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したりすることを行ってもよい。
 文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける(図2のステップA1)。
 単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う(ステップA2)。
 表記文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する(ステップA3)。
 さらに表記文脈類似度算出部30は、任意に設定した表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する(ステップA4)。
 概念データベース110は、単語の概念分類および同義語、類義語、用法などの一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する(ステップA5)。
 概念文脈類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース110に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する(ステップA6)。
 さらに概念文脈類似度算出部40は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する(ステップA7)。
 同義語候補推定部50は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとする所定の同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出(推定)する(ステップA8)。
 同義語候補出力部60は、同義語候補推定部50で抽出(推定)した同義語候補を出力する(ステップA9)。
 次に、本発明の実施形態に係る同義語抽出システム100の効果について説明する。
 本実施形態では、文書内もしくは文書群内の単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い同義語候補の組合せとして抽出することによって、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げるように構成されている。このため、誤検出の少ない類似性の評価が可能になり、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から同義語を抽出できる。
 尚、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出方法として実現され得る。また、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
 次に、図3を参照して、具体的な第1の実施例を用いて、本発明の一実施形態に係る同義語抽出システム100の動作について説明する。
 本第1の実施例では、次のことを目的としている。
 先ず、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書D内に含まれる特定の案件に関する文書群でのみ成り立つ同義語候補Aを推定する。そして、同義語抽出システム100は、推定結果を出力することで、未登録の用語に関する用語集の作成や語の統一を支援する。また、本第1の実施例では、同義語抽出システム100は、図3に示されるように、文書解析システムYと、インターネット・サーバZとで構成されるものとする。
 文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが同義語を抽出したい文書群を構成する文章の入力と、同義語候補Aの提示を実現する。
 インターネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、文書解析システムYからの単語の意味などの概念情報の問い合わせに対し、単語の概念分類や一般的な同義語や類義語、用法に関連する一般概念情報Cgの検索を可能にする装置である。
 図3と図1との対応関係について説明する。
 文書入力部10は、PC端末の入力部として動作する。単語分析部20と、表記文脈類似度算出部30と、概念文脈類似度算出部40と、同義語候補推定部50とは、文書解析システムY内に含まれている。同義語候補出力部60は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ内に含まれている。
 この様な手段を備えた文書解析システムY、インターネット・サーバZは以下のような動作をする。
 文書解析システムYは、入力部から、分析実施者Bが特定の案件に関する文書から、意義は同じで語形が異なっている同義語候補Aを推定したい文書群を構成する文書Dの入力を受け付ける。そして、文書解析システムYは、文書Dを構成する文書の文章毎に形態素解析および構文解析を適用し、文書を構成する単語に分解し、単語毎の抽出元の文および品詞を解析することで、名詞および、動詞、形容詞、形容動詞を単語Wとして抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞化した形態で抽出する。
 さらに文書解析システムYは、文書Dに含まれる単語Wの内で名詞を単語Sとし、各単語Si(i=1、2、・・・、n)について、特定の単語Siと同一文中で共起関係にある名詞、動詞、形容詞を、共起語Vj(j=1、2、・・・、m)として抽出し、単語Siに対する各共起語Vijの共起回数を共起数Nijとして集計し、全ての単語Sに対する各共起語Vについて表形式にまとめた単語共起表Eを作成する。なお、単語共起表Eの単語Siに対する各共起語Vjの共起数Nijをまとめたデータセットを単語共起ベクトルNiと呼ぶ。
 例えば、文書Dに「給与管理システムの利用時に各ウインドウを並べて表示する方法」、「給与計算システムの表示の機能として以下の画面を構築する。」、「交通費計算システムの表示の機能として以下の画面を構築する。」などの文章が含まれていた場合、単語Siとしては、少なくとも「給与管理システム」、「給与計算システム」、「交通費計算システム」、「利用時」、「画面」、「並べる」、「表示」、「方法」、「機能」、「以下」、「ウインドウ」、「構築」が抽出される。単語共起表Eの一例として、「給与管理システム」、「給与計算システム」、「交通費計算システム」を単語Siとした時の単語共起表Eは、図4のような、各行に単語Siを各列に共起語Vijを配置し、その共起数Nijを記載した表になる。また、図4の単語Siの行のデータセットが単語共起ベクトルNiに相当し、「給与管理システム」の単語共起ベクトルNiは{1、2、1、1、1、0、0、0、0、・・・}のように表される。なお、単語Sと共起語Vはいずれも名詞を含むため、先に単語として選択された単語も、他の単語が単語の場合は共起語として扱い、相互で重複して登録する。
 インターネット・サーバZは、単語の一般的な上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスの一般概念情報Cgを蓄積する。また、インターネット・サーバZは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語の一般的な概念分類として大分類、中分類、小分類を一般概念情報Cgとして抽出し、提示する。
 文書解析システムYは、まず単語共起表Eの各共起語Vjのそれぞれの一般概念情報Cgについてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系から、各共起語Vjが属する大分類の共起語概念C1vjと、中分類の共起語概念C2vjと、小分類の共起語概念C3vjとを抽出する。次に、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C1vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、大分類の単語概念表SC1を作成する。また、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C2vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、中分類の単語概念表SC2を作成する。さらに、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C3vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、小分類の単語概念表SC3を作成する。
 なお、大分類の単語概念表SC1の単語Siに対する各共起語概念C1vjの共起数Nc1ijをまとめたデータセットを大分類単語概念ベクトルNc1iと呼び、中分類の単語概念表SC2の単語Siに対する各共起語概念C2vjの共起数Nc2ijをまとめたデータセットを中分類単語概念ベクトルNc2iと呼び、小分類の単語概念表SC3の単語Siに対する各共起語概念C3vjの共起数Nc3ijをまとめたデータセットを小分類単語概念ベクトルNc3iと呼ぶ。
 例えば、図4の単語共起表Eにおける各共起語Vjについて、図5のような共起語概念C1vj、共起語概念C2vj、共起語概念C3vjが抽出された場合、大分類の単語概念表SC1は図6、中分類の単語概念表SC2は図7、小分類の単語概念表SC3は図8のような各行に単語Sを各列に共起語概念Cvjを配置した表となる。
 単語概念表SC1、SC2、SC3の各共起数は大分類の単語概念表SC1を例とすると、共起語Vの内で「利用」、「並べて」、「構築」の共起語概念C1vjは「動作」で共通のため、これらの共起語における共起数を同一の単語「給与管理システム」に関して足し合わせた「2」がNc1ijとなる。なお、インターネット・サーバZに一般概念情報Cgの登録が無い単語は、共起語の単語をそのまま仮の概念として残す。図6より、単語「給与管理システム」の大分類単語概念ベクトルNc1iは{2、2、1、1、0、0、・・・}のように表される。
 次に文書解析システムYは、単語Spに対応する大分類単語概念ベクトルNc1pと単語Sqに対応する大分類単語概念ベクトルNc1qの間のコサイン類似度Lc1pqと、中分類単語概念ベクトルNc2pとNc2qの間のコサイン類似度Lc2pqと、小分類単語概念ベクトルNc3pとNc3qの間のコサイン類似度Lc3pqとを算出し、以下の数式1によりそれぞれの分類重み付け係数β1、β2、β3(β1<β2<β3)を掛けた和を概念間類似度Lcpqとして算出する。
 Lcpq=β1×Lc1pq+β2×Lc2pq+β3×Lc3pq
                             … 数式1
 さらに、文書解析システムYは、単語Spに対応する単語共起ベクトルNpと単語Sqに対応する単語共起ベクトルNqの間のコサイン類似度を共起間類似度Lpqとして算出し、以下の数式2により、概念間類似度Lcpqを共起間類似度Lpqで除した値を単語間類似度Lspqとして算出する。
 Lspq=Lcpq/Lpq … 数式2
 さらに、文書解析システムYは、単語間類似度Lspqが任意の判定閾値Tより大きい単語Spと単語Sqの組合せを、単語の共起ベクトルの意味的な類似性が高く、同義語の可能性が想定される単語の組合せである同義語候補Aとして抽出する。この処理を全ての単語Siの組合せについて行う。
 例えば、図4~図8の例で、分類重み付け係数をβ1=0.009、β2=0.09、β3=0.9、判定閾値T=5とすると、「給与管理システム」、「給与計算システム」、「交通費計算システム」の3単語間の概念間類似度Lcpq、共起間類似度Lpq、単語間類似度Lspqは、図9の表のように算出される。
 図9より、「給与管理システム」と「給与計算システム」の組合せ、および「給与管理システム」と「交通費計算システム」の組合せは「給与計算システム」と「交通費計算システム」の組合せに比べ概念間類似度Lcpq、共起間類似度Lpqともに低くなっているが、単語間類似度Lspqは高くなり、判定閾値Tより大きい「給与管理システム」と「給与計算システム」がこの文章内では同義語である可能性があると判定される。このように定型文で使用された「給与計算システム」と「交通費計算システム」の組合せの類似性を相対的に低下させることができ、的確な同義語の検出が可能になる。
 さらに文書解析システムYは、同義語候補Aa{Sp、Sq}について、要求文書Dで該当する同義語候補Aa{Sp、Sq}を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。
 以上説明したように、本発明の同義語抽出システムによれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられることにある。その理由は、文脈から得られる概念の類似性に対して表記の類似性が高過ぎる単語組合せの類似度を下げることで、同義語として誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せを除外した単語間の類似性算出を可能にしているためである。
 以上、実施形態(実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さに繋がる同義語を除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。また、同義語を精度良く抽出できるので、翻訳システムに用いて訳し分けに利用できる。
 10  文書入力部
 20  単語分析部
 30  表記文脈類似度算出部
 40  概念文脈類似度算出部
 50  同義語候補推定部
 60  同義語候補出力部
 100  同義語抽出システム
 110  概念データベース
 D  文書
 A  同義語
 Y  文書解析システム
 Z  インターネット・サーバ
 この出願は、2012年6月25日に出願された、日本特許出願第2012−141753号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (27)

  1.  文書を分析して同義語を抽出する同義語抽出システムであって、
     対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
     文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語分析部と、
     各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出部と、
     単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
     前記単語分析部で抽出された各文章に使用されている各単語について、各単語の概念を前記概念データベースに問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出部と、
     各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と、
     同義語候補を出力する同義語候補出力部と、
    を備えたことを特徴とする同義語抽出システム。
  2.  前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項1に記載の同義語抽出システム。
  3.  前記表記文脈情報は、単語前後の所定範囲の文字列であり、
     前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項1又は2に記載の同義語抽出システム。
  4.  前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットであり、
     前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項1又は2に記載の同義語抽出システム。
  5.  前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルであり、
     前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項1又は2に記載の同義語抽出システム。
  6.  前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
     前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項1乃至5のいずれか1項に記載の同義語抽出システム。
  7.  前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
     前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項1乃至5のいずれか1項に記載の同義語抽出システム。
  8.  前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項4乃至7のいずれか1項に記載の同義語抽出システム。
  9.  前記同義判定ルールは、
     i)概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
     ii)表記文脈類似度が所定の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
    のグループから選択されたいずれか1つである、ことを特徴とする請求項1乃至8のいずれか1項に記載の同義語抽出システム。
  10.  文書を分析して同義語を抽出する同義語抽出方法であって、
     対象とする文書もしくは文書群の入力を受け付ける文書受付工程と、
     文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語情報抽出工程と、
     各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出工程と、
     単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースに、前記単語情報抽出工程で抽出された各文章に使用されている各単語について、各単語の概念を問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出工程と、
     各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定工程と、
     同義語候補を出力する同義語候補出力工程と、
    を含むことを特徴とする同義語抽出方法。
  11.  前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項10に記載の同義語抽出方法。
  12.  前記表記文脈情報は、単語前後の所定範囲の文字列であり、
     前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項10又は11に記載の同義語抽出方法。
  13.  前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットであり、
     前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項10又は11に記載の同義語抽出方法。
  14.  前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルであり、
     前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項10又は11に記載の同義語抽出方法。
  15.  前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
     前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項10乃至14のいずれか1項に記載の同義語抽出方法。
  16.  前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
     前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項10乃至14のいずれか1項に記載の同義語抽出方法。
  17.  前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項13乃至16のいずれか1項に記載の同義語抽出方法。
  18.  前記同義判定ルールは、
     i)概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
     ii)表記文脈類似度が所定の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
    のグループから選択されたいずれか1つである、ことを特徴とする請求項10乃至17のいずれか1項に記載の同義語抽出方法。
  19.  コンピュータに文書を分析させて、同義語を抽出させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータに、
     対象とする文書もしくは文書群の入力を受け付ける文書受付手順と、
     文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語情報抽出手順と、
     各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出手順と、
     単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースに、前記単語情報抽出手順で抽出された各文章に使用されている各単語について、各単語の概念を問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出手順と、
     各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定手順と、
     同義語候補を出力する同義語候補出力手順と、
    を実行させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  20.  前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項19に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  21.  前記表記文脈情報は、単語前後の所定範囲の文字列であり、
     前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項19又は20に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  22.  前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットであり、
     前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項19又は20に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  23.  前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを任意の範囲の文章群について集計した共起ベクトルであり、
     前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項19又は20に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  24.  前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
     前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項19乃至23のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  25.  前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
     前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項19乃至23のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  26.  前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項22乃至25のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  27.  前記同義判定ルールは、
     i)概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
     ii)表記文脈類似度が任意の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
    のグループから選択されたいずれか1つである、ことを特徴とする請求項19乃至26のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2013/066282 2012-06-25 2013-06-06 同義語抽出システム、方法および記録媒体 WO2014002774A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014522530A JPWO2014002774A1 (ja) 2012-06-25 2013-06-06 同義語抽出システム、方法および記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-141753 2012-06-25
JP2012141753 2012-06-25

Publications (1)

Publication Number Publication Date
WO2014002774A1 true WO2014002774A1 (ja) 2014-01-03

Family

ID=49782936

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/066282 WO2014002774A1 (ja) 2012-06-25 2013-06-06 同義語抽出システム、方法および記録媒体

Country Status (2)

Country Link
JP (1) JPWO2014002774A1 (ja)
WO (1) WO2014002774A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026515A (ja) * 2019-08-05 2021-02-22 Dmg森精機株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN113111187A (zh) * 2021-04-07 2021-07-13 河北冀联人力资源服务集团有限公司 一种用工平台评论挖掘的方法及系统
US11520987B2 (en) * 2015-08-28 2022-12-06 Freedom Solutions Group, Llc Automated document analysis comprising a user interface based on content types
WO2023238304A1 (ja) * 2022-06-08 2023-12-14 日本電信電話株式会社 判定装置、判定方法および判定プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822051B (zh) * 2020-06-19 2024-01-30 北京彩智科技有限公司 一种数据处理的方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096799A (ja) * 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置
JP2010117764A (ja) * 2008-11-11 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096799A (ja) * 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置
JP2010117764A (ja) * 2008-11-11 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11520987B2 (en) * 2015-08-28 2022-12-06 Freedom Solutions Group, Llc Automated document analysis comprising a user interface based on content types
JP2021026515A (ja) * 2019-08-05 2021-02-22 Dmg森精機株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN113111187A (zh) * 2021-04-07 2021-07-13 河北冀联人力资源服务集团有限公司 一种用工平台评论挖掘的方法及系统
CN113111187B (zh) * 2021-04-07 2023-03-10 河北冀联人力资源服务集团有限公司 一种用工平台评论挖掘的方法及系统
WO2023238304A1 (ja) * 2022-06-08 2023-12-14 日本電信電話株式会社 判定装置、判定方法および判定プログラム

Also Published As

Publication number Publication date
JPWO2014002774A1 (ja) 2016-05-30

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
US8751218B2 (en) Indexing content at semantic level
Lytvyn et al. Development of a method for determining the keywords in the slavic language texts based on the technology of web mining
JP5754018B2 (ja) 多義語抽出システム、多義語抽出方法、およびプログラム
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
CN109783806B (zh) 一种利用语义解析结构的文本匹配方法
WO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
JP2009110508A (ja) オブジェクト間の競合指標計算方法およびシステム
CN114997288A (zh) 一种设计资源关联方法
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
Aras et al. Applications and Challenges of Text Mining with Patents.
Shajalal et al. Semantic textual similarity in bengali text
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013.
CN111259661A (zh) 一种基于商品评论的新情感词提取方法
Lu et al. Attributed rhetorical structure grammar for domain text summarization
Nguyen et al. Systematic knowledge acquisition for question analysis
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13809142

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014522530

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13809142

Country of ref document: EP

Kind code of ref document: A1