WO2009123288A1 - 単語分類システム、方法およびプログラム - Google Patents

単語分類システム、方法およびプログラム Download PDF

Info

Publication number
WO2009123288A1
WO2009123288A1 PCT/JP2009/056900 JP2009056900W WO2009123288A1 WO 2009123288 A1 WO2009123288 A1 WO 2009123288A1 JP 2009056900 W JP2009056900 W JP 2009056900W WO 2009123288 A1 WO2009123288 A1 WO 2009123288A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
classification
classified
pair
words
Prior art date
Application number
PCT/JP2009/056900
Other languages
English (en)
French (fr)
Inventor
弘紀 水口
正明 土田
大 久寿居
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US12/920,920 priority Critical patent/US8504356B2/en
Priority to JP2010505983A priority patent/JP5447862B2/ja
Publication of WO2009123288A1 publication Critical patent/WO2009123288A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present invention relates to a word classification system, a word classification method, and a word classification program.
  • Non-Patent Document 1 An example of a vocabulary classification technique is described in Non-Patent Document 1.
  • Word extraction which is one of the vocabulary classification methods, is a method of classifying words into categories called unique expressions such as organization names, place names, person names, dates, and the like. This method can reduce manual rule generation work by inputting learning data in which a specific expression is given to text in advance and learning word classification rules.
  • Non-Patent Document 1 word classification rules are learned based on context information around the appearance position of each word individually.
  • the periphery is about two words before and after the appearance position, and the context information is a word, a part of speech, and a character type.
  • word classification rules are learned for each unique expression category. That is, a word classification rule for determining whether the name is an organization name, a word classification rule for determining whether the name is a place name, or the like. Since the word classification rule is described as binary data of a learning method called Support Vector Machines, it is not information that can be visually recognized by humans. However, conceptually, the word classification rule for an organization name is “ Word rules such as “host” and “system developed by ⁇ organization name>” are considered to be learned.
  • Patent Document 1 describes a word classification technique related to the present invention.
  • the technique described in Patent Literature 1 includes a core word dictionary that stores a plurality of sets of core words that are words representing the category, and values indicating the degree to which the core word belongs to the category, and a document Are prepared, a classification target word is searched from the documents stored in the document database, and words having the co-occurrence relationship are extracted. Then, it is searched whether each extracted co-occurrence relation word is stored as a core word in the core word dictionary, and a category ranking determination value is formed from the searched core word value, and the category to which the classification target word belongs Is determined.
  • the core word is a category-specific and representative word.
  • the category “art” is a typical word that well represents “art” and is related to the category, such as “movie”, “music”, and “director”. Yamada, Kudo, Matsumoto, “Japanese Named Expression Extraction Using Support Vector Machines”, IPSJ Research Reports-Natural Language Processing, Vol. 2001, No. 20, pages 121-128 JP 2004-334766 A
  • Non-Patent Document 1 The problem with the technique described in Non-Patent Document 1 described above is that only coarse classification is possible. The reason is that only the context information at the appearance position of each word is used as a clue. For example, when classifying a Japanese professional baseball team and an American professional baseball team, for example, the context information around each word appearance such as “Team A” and “Team B” is very similar, so it is classified. It is not possible.
  • Patent Document 2 a problem of the technique described in Patent Document 2 is that it is necessary to prepare in advance a word that can be a core word. Therefore, this preparation is a very time-consuming work, and if there are not enough core words, only coarse classification can be performed.
  • the present invention has been invented in view of the above problems, and an object thereof is to provide a technique capable of classifying words in detail.
  • the present invention for solving the above problems learns at least one of context information and layout information between co-appearing classified known words based on a relationship between classified known words co-appearing in a document.
  • a word that creates an inter-word pattern to determine whether the data of a certain word pair is data of the same classified word pair that is a set of same classified words or different classified word pair data that is a set of different classified words A word classification system having an inter-pattern learning unit.
  • the present invention for solving the above-mentioned problems is based on context information and layout information between same-category known words co-occurring in a document, and context information and layout information of a same-category known word pair that is a set of the same-category known words.
  • An inter-word pattern learning unit that creates an inter-word pattern for determination; an inter-word pattern storage unit that stores the created inter-word pattern; and a known classification that co-occurs in the input classification unknown word and document Based on the relationship with a word, application data including context information and layout information of a word pair that is a set of the classified unknown word and the classified known word is created, and the word pair is referred to by referring to the pattern between words.
  • the application data of the word pair and output whether the application data of the word pair is a positive example or a negative example, and the number of positive examples or negative examples of the application data of the word pair,
  • the word classification system includes a classification determination unit that determines a classification of the classification unknown word of the word pair based on the classification of the word pair classification known word.
  • the present invention for solving the above-described problems is a learning data generation device for generating learning data used for determining a classification of an unknown word whose classification is unknown, and a context between known classification words co-occurring in a document
  • the learning data generation device includes a learning data generation unit that generates learning data including at least one of information and layout information.
  • the present invention for solving the above problems learns at least one of context information and layout information between co-appearing classified known words based on a relationship between classified known words co-appearing in a document.
  • the pattern between words for determining whether the data of a certain word pair is the data of the same classification word pair that is a set of the same classification word or the data of the different classification word pair that is a set of different classification words is classified as unknown. This is a word classification method used for word classification determination.
  • the present invention for solving the above-mentioned problems is based on context information and layout information between same-category known words co-occurring in a document, and context information and layout information of a same-category known word pair that is a set of the same-classified known words
  • Negative example learning data consisting of, and based on the learning data, whether or not the data of the word pair that is a set of the input classification unknown word and classification known word is a positive example or a negative example
  • And layout Generating application data consisting of information, analyzing the application
  • the present invention for solving the above-described problem is a learning data generation method for generating learning data used to determine the classification of a classification unknown word whose classification is unknown, and a context between classification known words co-occurring in a document
  • This is a learning data generation method for generating learning data including at least one of information and layout information.
  • the present invention for solving the above problems learns at least one of context information and layout information between co-appearing classified known words based on a relationship between classified known words co-appearing in a document.
  • a word that creates an inter-word pattern to determine whether the data of a certain word pair is data of the same classified word pair that is a set of same classified words or different classified word pair data that is a set of different classified words This is a program for causing an information processing apparatus to execute an inter-pattern learning process.
  • the present invention for solving the above-mentioned problems is based on context information and layout information between same-category known words co-occurring in a document, and context information and layout information of a same-category known word pair that is a set of the same-category known words.
  • Context information and layout information of a pair of different classification known words that is a set of different classification known words based on learning data of positive examples consisting of the context information and layout information between different classification known words that co-occur in the document
  • a word that is a set of the classified unknown word and the classified known word based on the process of creating an inter-word pattern for determining whether or not the classified unknown word and the classified known word co-appearing in the document Pair contextual information
  • processing for creating application data composed of layout information and analyzing the application data of the word pair with reference to the inter-word pattern to determine whether the application data of the word pair is a positive example or a negative example
  • a process of determining the classification of the unknown word of the word pair based on the number of positive examples or negative examples of the application data of the word pair and the classification of the known word classification of the
  • FIG. 1 is a block diagram of a word classification system according to the first embodiment.
  • FIG. 2 is a diagram showing an example of the classified known word group database 1.
  • FIG. 3 is a diagram showing an example of the document group database 2.
  • FIG. 4 is a diagram illustrating an example of learning data according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of learning data according to the first embodiment.
  • FIG. 6 is a block diagram of a word classification system according to the second embodiment.
  • FIG. 7 is a diagram illustrating an example of learning data according to the second embodiment.
  • FIG. 8 is a block diagram of the word classification system according to the second embodiment.
  • Words with the same classification often co-occur in one sentence, and words and parts of speech between words of the same classification are often the same. Therefore, more detailed word classification can be performed by considering not only the context information of each word but also the relationship between words of the same classification.
  • the relationship between words indicates a surface character string between two words, the number of appearances, the part of speech, the number of co-occurrence, layout information, and the like.
  • Japanese professional baseball team names are often described as opponents in news article sentences, or are often described consecutively with punctuation marks or symbols.
  • American professional baseball team names and Japanese professional baseball team names only contain information such as trade information, and there is not much frequency. In addition, it is rarely written continuously with punctuation marks or symbols.
  • the present invention is for determining the classification of an unclassified word (hereinafter referred to as an unknown classification word) based on the relationship between words whose classification is known (hereinafter referred to as a classification known word). Create pattern data.
  • classifications A: ⁇ a, b, c ⁇ , classification B: ⁇ d, e ⁇ , classification C: ⁇ g, h ⁇ are given.
  • a, b, c, d, e, g, and h are words
  • a classification name: ⁇ word set ⁇ represents a classification name and its word set.
  • the words a, b, c, d, e, g, h need not be the above-mentioned core words, but the words of the movie names themselves such as “AAA Wars” and “BBB story”, and “C team” The team name itself can be used.
  • word pairs of classification known words of the same classification are positive examples
  • word pairs of classification known words of different classification are negative examples.
  • the classification known word a and the classification known word b are in the same classification
  • the word pair (hereinafter, the word pair is also expressed as ab) is a word pair of the classification known word. Is a positive example.
  • the classified known word a and the classified known word d are differently classified, and the word pair (hereinafter also referred to as word ad) is a word pair of a differently classified known word. Is a negative example.
  • the relationship between words refers to context information and layout information between words a and b in a document in which words a and b appear.
  • context information is whether the word itself, surrounding words, surface character strings of words between words, appearance count, part of speech, character type, co-occurrence frequency, distance between words, dependency relationship, whether in a natural sentence is there.
  • layout information is arranged vertically or horizontally, has the same character size, or has the same tree depth in the case of a tree structure such as HTML.
  • learning data including at least one of context information and layout information between classified known words is created based on the relationship between the classified known words. Subsequently, based on this learning data, an inter-word pattern is created for determining whether the data of the word pair that is a set of the input classification unknown word and classification known word is a positive example or a negative example. To do.
  • FIG. 1 is a block diagram of the word classification system in the first embodiment.
  • the word classification system stores a classified known word group database 1 in which word groups with known classifications are stored, a document group database 2 in which document groups are stored, and a learned pattern between words.
  • Word pattern learning that learns context information and layout information between classified known words from a known word set stored in the classified word group database 1 and a known word group database 1.
  • the inter-word pattern application unit 5 for determining application data of word pairs including unknown words using the inter-word patterns stored in the inter-word pattern database 3; and the inter-word pattern application unit 5 Based on the determination result, a classification determination unit 6 that determines the classification of an unknown word, an input unit 7 such as a keyboard for inputting an unknown word, And an output unit 8 for outputting the judgment result of the classification judging section 6.
  • a known word group is stored for each classification.
  • An example of the classified known word group database 1 is shown in FIG.
  • a plurality of classifications are held in the format of “classification name ⁇ word group ⁇ ”.
  • “Category A: ⁇ a, b, c ⁇ ” indicates that the word a, the word b, and the word c are classified into the classification A.
  • This storage method is an example, and one word may belong to a plurality of classifications, or a classification name may be described for each word.
  • the document group database 2 stores a plurality of documents.
  • An example of the document group database 2 is shown in FIG. In FIG. 3, one document is shown in one record, and “...” In the figure represents omission.
  • the inter-word pattern database 3 stores the inter-word patterns created by the inter-word pattern learning unit 4.
  • This inter-word pattern is a pattern indicating whether or not two words are data of the same classification when the data of the relationship between the two words is input.
  • the description method of the inter-word pattern differs depending on the learning algorithm. For example, when Support Vector Machines is used, binary data is used. The interword pattern will be described later.
  • the inter-word pattern learning unit 4 inputs the classified known word group stored in the classified known word group database 1 and creates learning data while referring to the document group in the document group database 2. Then, an interword pattern is created based on the learning data.
  • the inter-word pattern learning unit 4 includes a learning data creation unit 11 and a pattern creation unit 12.
  • the learning data creation unit 11 generates a word pair that is a pair of classified known words stored in the classified known word group database 1 for each occurrence position where the word pairs co-occur in the document stored in the document group database 2. Based on the relationship, context information and layout information are learned, and learning data including the context information and layout information of the word pair is created.
  • the word pair of the same classification known word is a positive example
  • the word pair of a different classification known word is a negative example.
  • the word pair of the word a and the word b belongs to the classification A because both the word a and the word b belong to the classification A, which is a positive example.
  • the word pair of the word a and the word d is a different example and a negative example because the word a belongs to the category A and the word d belongs to the category B.
  • context information is the word itself, surrounding character strings, surface character strings of words between words, appearance count, part of speech, character type, co-occurrence frequency, distance between words, dependency relationship, whether in natural sentences Etc.
  • layout information includes whether the words a and b are arranged vertically or horizontally, the size of characters is the same, or the depth of the tree in the case of a tree structure such as HTML.
  • the context information and layout information of the word pair and the positive or negative example information of the word pair are included for each appearance position where these word pairs co-occur in the document stored in the document group database 2. Create learning data.
  • the pattern creation unit 12 learns a pattern based on the learning data created by the learning data creation unit 11 and creates inter-word pattern data. For example, an inter-word pattern is created so that a positive example is determined if the applied data of the input word pair indicates the same classification, and a negative example is determined if the classification is different. Then, the created inter-word pattern is registered in the inter-word pattern database 3. For creating the inter-word pattern data itself, an existing one such as Support Vector Machines is used.
  • the inter-word pattern application unit 5 inputs a word whose classification is unknown from the input unit 7, and determines application data of a word pair including the classification unknown word.
  • the inter-word pattern application unit 5 includes an application data creation unit 21 and a pattern application unit 22.
  • the application data creation unit 21 creates application data for the input classified unknown word by referring to a known word group stored in the known classification word group database 1 and a document group in the document group database 2. .
  • word pairs of the unknown classification word and each known classification word stored in the known classification word group database 1 are created. For example, when a classification unknown word f is given, the classification unknown word f and the classification known words a, b, c, d, e, g, and h are used as fa, fb, fc, and f ⁇ . Create word pairs d, fe, fg, and fh.
  • application data including the context information and layout information of the word pair is created for each appearance position where these word pairs co-occur in the document stored in the document group database 2 based on the relationship between the words. .
  • this application data is the same as that obtained by excluding information on positive examples and negative examples of word pairs from the learning data in the learning data creating unit 11 described above.
  • the pattern application unit 22 inputs application data of word pairs of classified unknown words and classified known words, and analyzes the application data of the word pairs with reference to the inter-word patterns stored in the inter-word pattern database 3. To do. Then, whether the application data of the word pair of the classification unknown word and the classification known word is positive or negative is output.
  • the pattern application unit 22 uses an existing one such as Support Vector Machines like the inter-word pattern creation unit 12.
  • the classification determination unit 6 inputs the positive or negative example information of the application data of the word pair of the classification unknown word and the separation known word and the classification of the separation known word of the word pair, calculates the classification score, The classification of the unknown word is determined.
  • a classification determination method there is a method of determining a classification by calculating which classification word and many positive examples.
  • the inter-word pattern learning unit 4 inputs a word group with a known classification stored in the classification known word group database 1 and creates learning data while referring to the document group in the document group database 2. Then, an interword pattern is created based on the learning data.
  • the learning data creation unit 11 inputs the classification known word group stored in the classification known word group database 1 and the document group of the document group database 2, and is stored in the classification known word group database 1. For each word pair that is a combination of all known classification words, the context information and layout information are learned based on the relationship between the words for each occurrence position where the words of the word pair co-occur in the document. create. Learning data is created from context information between words and layout information.
  • FIG. 4 is an example of learning data created based on the appearance position of the word pair ab in the document of the first record in FIG. 3
  • FIG. 5 is the word in the document of the second record in FIG. It is an example of learning data created based on the appearance position of a pair ab.
  • inter-word surface character strings inter-word parts of speech
  • inter-word character types Hiragana, Kanji, numbers, symbols, alphabets, tags
  • dependency clause or in a parallel clause
  • parallel clause Or the number of morphemes between words.
  • the layout information indicates whether it appears in a natural sentence, whether it is aligned vertically and horizontally, whether the character size is the same, and whether the left and right character strings are the same.
  • an existing morpheme analysis tool such as chasen can be used for dividing words, parts of speech, and the number of morphemes between words.
  • the output of existing parsing tools such as cabocha can be used for dependency and side-by-side relationship recognition.
  • whether the text is aligned vertically or horizontally is determined from the layout location using the drawing tool of each document.
  • drawing at a standard size.
  • an output laid out with a screen size of 1024 ⁇ 768 by an existing Web browser is used.
  • the size of the character string and the drawing position are often determined by the HTML tag information. Therefore, the layout may not be actually performed and the determination may be made using the tag information.
  • Words of the same type appear in the same document, and words that exist between them are often written together with words that represent side-by-side relationships such as “to”, and symbols such as punctuation marks and “ ⁇ ”.
  • Context information such as surface character strings, parts of speech, character types, and dependency relationships are used as learning data.
  • the above-described example is an example, and in the case of semi-structured data such as HTML, it may include whether the depth of the tree is the same. Further, not only context information and layout information between words, but also context information for each word may be included as in a related example.
  • learning data is created for every appearance position of each word pair.
  • learning data is created by adding positive example information to the word pair learning data of the same classification known word and negative example information to the word pair learning data of the different classification known word.
  • the pattern creation unit 12 creates an interword pattern based on the learning data created by the learning data creation unit 11.
  • Support Vector Machines is used. Support Vector Machines learns interword patterns to separate positive and negative examples. Thus, an interword pattern is learned as a positive example when the application data of the word pair indicates the same classification, and as a negative example when the application data of the word pair indicates a different classification.
  • the inter-word pattern application unit 5 inputs a word whose classification is unknown from the input unit 7 and outputs whether or not it is the same classification as the classification known word that forms a pair with the classification unknown word.
  • the application data creation unit 21 includes a word group whose classification is known stored in the classification known word group database 1 and a document group in the document group database 2 for the unknown classification word input from the input unit 7. And apply data.
  • the application data is for each appearance position of the document in which the word pair appears for all combinations (word pairs) of the unknown word f and the known words a, b, c, d, e, g, and h. Create learning data.
  • it is a pair of classified unknown word f and classified known words a, b, c, d, e, g, and h, respectively, fa, fb, fc, fd, f ⁇ .
  • application data is created for each occurrence position where the words of the word pair co-occur in the document stored in the document group database 2. That is, in the word pair fa, if there are three appearance locations in the document group, three application data are created.
  • the application data is created using the same method as the learning data.
  • the pattern application unit 22 refers to the inter-word pattern stored in the inter-word pattern database for each of the application data from the application data creation unit 21, and is the same classification for each application data of the word pair? Outputs whether or not.
  • Support Vector Machines is used for the pattern application unit 22, whether each of the application data of the word pair is positive or negative is output. If it is a positive example, the word pairs of application data are the same classification, and if it is a negative example, the word pairs of application data are different classifications. For example, when there are three occurrences of the word pair fa (three application data), two may be positive examples and one may be a negative example. Further, even if there are four occurrences of the word pair fb (four application data), all four may be positive examples.
  • the classification determination unit 6 receives the result from the pattern application unit 22 and determines the classification of the classification unknown word. For example, the classification of the classification unknown word is determined based on the probability that the word pair of the classification unknown word and the classification known word obtained from the number of positive examples or negative examples of the application data is the word pair of the same classification word.
  • the determination result (classification name) is output to the output unit 8.
  • the classification score is obtained by the following formula.
  • Classification score (classification) number of applied data of word pairs of positive examples (classification) / total number of applied data of word pairs (classification)
  • the applied data number (classification) of the word pair of the positive example is a number that becomes a positive example in the application data of the word pair of a certain classification known word and the classification unknown word. Further, the total number of applied data (classification) of word pairs is the total number of applied data of word pairs of classified known words and classified unknown words.
  • the number of all applied data of the word pairs fa, fb, fc is the number of word pairs. This is the total number of applied data (classification A).
  • the number of application data that are positive examples is the number of application data (classification A) of the positive word pairs.
  • the number of application data (classification A) of the word pair of the positive example is 1, the total number of application data (classification A) of the word pair is 3,
  • the number of applied data of the word pair (classification B) of the example is 2, the total number of applied data of the word pair (classification B) is 2, the number of applied data of the word pair of the positive example (classification C) is 0, and the total application of the word pair
  • the classification score (classification A) is 1/3
  • the classification score (classification B) is 2/2
  • the classification score (classification C) is 0/2. Therefore, the classification of the classification unknown word f is the classification B having the highest classification score.
  • classification score is an example, and another method such as a total of application data that is simply a positive example may be used. If the classification score is not greater than or equal to the threshold, the classification is unknown.
  • the inter-word pattern learning unit learns the classification rule by using the context information and layout information between the words of the same kind classification word and the different kind classification words instead of the context information for each word. It can be classified in more detail than the conventional method.
  • FIG. 6 is a block diagram of the word classification system according to the second embodiment.
  • learning data creation unit 11 is replaced with second learning data creation unit 31 and application data creation unit 21 is replaced with second application data creation unit 41. It is a point. Hereinafter, different points will be mainly described.
  • the second learning data creation unit 31 is different in that the learning data is not created every time a word pair appears in the document, but is created for each word pair.
  • the second learning data creation unit 31 further adds statistics such as the appearance frequency of word pairs and mutual information that can be calculated based on the appearance frequency as context information.
  • the context information includes a character string that is often used as a character between words, its part of speech, character type, the number of dependency times divided by the number of appearances, and the number of side-by-side relationships as the number of appearances. Use the divided value, the average morpheme between words.
  • a value obtained by dividing the number of appearances in a natural sentence by the number of appearances a value obtained by dividing the number of occurrences in the vertical and horizontal directions by the number of appearances, a value obtained by dividing the number of times of the same character string size by the number of appearances.
  • the left and right character strings use the same number of times divided by the number of appearances.
  • the second application data creation unit 41 differs in that the application data is not created every time a word pair appears in the document, but every word pair.
  • the application data creation method is the same as the method of the second learning data creation unit 31.
  • the second learning data creation unit 31 creates, for each word pair, which is a group of known classification words stored in the known classification word group database 1, learning data including the context information and layout information of the word pair. For example, learning data is created for every combination of words of a, b, c, d, e, g, h, which are classified known word groups shown in FIG.
  • FIG. 7 shows an example of learning data of word pairs ab. It is assumed that the word pair ab appears in the document of the first record and the document of the second record in the document group database 2 shown in FIG. Then, the context information of the word pair ab shown in FIG. 7 is present in three frequently occurring character strings between words, each part of speech, each character type between words, and a clause having a dependency relationship. A value obtained by dividing the number of occurrences by the number of occurrences, a value obtained by dividing the number of occurrences in a parallel phrase by the number of occurrences, the average number of morphemes between words, and the number of co-occurrence are shown. The layout information of the word pair ab shown in FIG.
  • the 7 includes a value obtained by dividing the number of appearances in a natural sentence by the number of appearances, a value obtained by dividing the number of occurrences of vertical and horizontal alignments by the number of appearances, and the size of characters. Indicates the value obtained by dividing the same number of times by the number of occurrences, and the left and right character strings indicate the value obtained by dividing the same number of times by the number of occurrences.
  • learning data are examples, and those representing numbers such as dependency relationships, side-by-side relationships, and the number of appearances in natural sentences may be 1 if they appear even once, or may be combined.
  • a statistical quantity such as a mutual information quantity may be used as the number of co-occurrence appearances.
  • the second application data creation unit 41 inputs a classification unknown word from the input unit 7, and for the input classification unknown word, the word group and document group database whose classification is stored in the classification known word group database 1.
  • the application data is created by referring to the second document group.
  • word pairs of the unknown classification word and each known classification word stored in the known classification word group database 1 are created. For example, when a classification unknown word f is given, the classification unknown word f and the classification known words a, b, c, d, e, g, and h are used as fa, fb, fc, and f ⁇ . Create word pairs d, fe, fg, and fh.
  • application data including context information and layout information is created for each word pair.
  • the application data is created using the same method as the second learning data creation unit 31.
  • the second learning data creation unit can further add the co-occurrence frequency between words to the learning data.
  • FIG. 8 is a block diagram of the word classification system according to the third embodiment.
  • the learning data creation unit 11 is replaced with a third learning data creation unit 51.
  • the number of learning data in the negative example is larger than that in the positive example, when applying an inter-word pattern, it corresponds to any classification word even if an unknown classification word is input. May not be classified.
  • the reason that the number of learning data in the negative example becomes very large is that all word pairs of different classification known words are negative examples.
  • the amount of learning data of negative examples is reduced by treating only word conditions satisfying a specific condition among word pairs of differently classified known words as negative examples.
  • the specific condition is that the frequency of occurrence of two words, the co-occurrence probability, or the mutual information amount is high.
  • the third learning data creation unit 51 does not create learning data for all word pairs, but creates learning data only for word pairs that satisfy a certain condition for learning data of differently classified word pairs.
  • the specific condition is that the appearance frequency, co-occurrence probability, or mutual information amount of word pairs is high.
  • the learning data creation method is the same as in the first or second embodiment.
  • the third learning data creation unit 51 inputs the classification known word group in the classification known word group database 1 and refers to the document group, and acquires learning data for every word pair of the classification known word. create.
  • Learning data is created from context information between words and layout information as in the first or second embodiment. For example, a word pair that is a combination of words a, b, c, d, e, g, and h is created from the classified known word group in the classified known word group database 1 shown in FIG. Create learning data. However, only the learning data of the word pair satisfying a specific condition is created for the learning data of the word pair of the different classification known word among the word pairs.
  • the same pair of word pairs ab, ac, de, and gh create learning data as in the first or second embodiment.
  • differently classified word pairs ad, ae, ag, ah, bd, be, bg, bh, cd, ce, c- Learning data is created only for word pairs that satisfy a specific condition among g, ch, dh, dh, eg, and eh.
  • the specific conditions are word pair appearance frequencies, co-occurrence probabilities, or mutual information amounts exceeding a certain threshold value, or the top few word pairs.
  • the threshold value and the top several items are stored in advance in the system.
  • learning data is created in the same manner as the learning data creation unit 11 or the second learning data creation unit 31 in the first or second embodiment.
  • the third learning data creation unit uses only typical negative examples as learning data, thereby suppressing an increase in the number of negative examples. Thereby, classification accuracy can be raised.
  • context information and layout information are used as the relationship between words, but only one of them may be used.
  • the learning data creation unit, the pattern creation unit, the application data creation unit, and the pattern application unit are configured by hardware, but some or all of them are operated by a program. It can also be constituted by a CPU or the like.
  • the first aspect of the present invention learns at least one of context information and layout information between co-occurring classified known words based on the relationship between classified known words co-appearing in a document,
  • An inter-word pattern for determining whether the data of a word pair that is a set of words is the data of the same classified word pair that is a set of same classified words or the data of a different classified word pair that is a set of different classified words It is the word classification system which has the pattern learning part between words which produces.
  • the classification between the classification unknown word and the classification known word is performed.
  • Generating application data of a word pair that is a set of the classified unknown word and / or the classified known word that includes at least one of context information and layout information, and analyzing the application data of the word pair with reference to the inter-word pattern Based on the determination result of the inter-word pattern application unit that determines whether the application data of the word pair is data of the same classification word pair or different classification word pair, A classification determination unit that determines the classification of the unknown word classification.
  • the inter-word pattern learning unit is a group of the same classification known words based on a relationship between the same classification words co-occurring in the document. Based on the relationship between the learning data comprising at least one of context information and layout information of the known word pair and the differently known word co-appearing in the document, A learning data creation unit that creates learning data including at least one of context information and layout information, and based on the learning data, input word pair data including the unknown classification word is data of the same classification word pair. Or an inter-word pattern creating unit for creating an inter-word pattern for determining whether the data is a pair of differently classified words.
  • the learning data creation unit creates learning data for each appearance position of a document in which the same-classified known word pair or the different-classified known word pair co-occurs.
  • the learning data creation unit creates learning data for each same-classified known word pair or for each different-classified known word pair.
  • the learning data creation unit sets the learning data of the same class known word pair as positive learning data and the learning data of the different class known word pair as a negative example. Let it be learning data.
  • the learning data creation unit sets learning data of a word pair satisfying a specific condition among learning data of differently classified word pairs as negative example learning data.
  • the specific condition is that a co-occurrence frequency between words is higher than a predetermined value, a co-occurrence probability is higher than a predetermined value, or mutual Either the amount of information is higher than a predetermined value.
  • a ninth aspect of the present invention is the above aspect, wherein the inter-word pattern application unit, based on the relationship between the classified unknown word and the classified known word co-appearing in the document, An application data creation unit that creates application data including at least one of context information and layout information of a word pair that is a set with a classified known word; and analyzing the application data of the word pair with reference to the pattern between words, A pattern application unit that determines whether the application data of the word pair is data of the same classification word pair or different classification word pair.
  • the inter-word pattern learning unit is the same classification that is a set of the same classification known words based on the relationship between the same classification words that co-occur in the document.
  • a learning data creation unit that creates learning data including at least one of context information and layout information, and based on the learning data, input word pair data including the unknown classification word is data of the same classification word pair.
  • an inter-word pattern creating unit for creating an inter-word pattern for determining whether the data is a pair of differently classified words.
  • the pattern application unit outputs whether the application data of the word pair is a positive example or a negative example.
  • the inter-word pattern creation unit is Support Vector Vector Machines.
  • the pattern application unit is Support Vector Vector Machines.
  • the classification determination unit is configured to determine the classification unknown word based on the probability that the word pair of the classification unknown word and the classification known word is a word pair of the classification word. Determine classification.
  • context information and layout information of the same-classified known word pair that is a set of the same-classified known words
  • Negative example learning data consisting of, and based on the learning data, whether or not the data of the word pair that is a set of the input classification unknown word and classification known word is a positive example or a negative example
  • An inter-word pattern learning unit for creating an inter-word pattern for determination; an inter-word pattern storage unit for storing the created inter-word pattern; and a classified known word co-appearing in the input classified unknown word and document Based on the relationship, the application data composed of the context information and layout information of the word pair that is a set of the classified unknown word and the
  • a learning data generating device for generating learning data used for determining a classification of a classification unknown word whose classification is unknown, and a context between classification known words co-occurring in a document
  • the learning data generation device includes a learning data generation unit that generates learning data including at least one of information and layout information.
  • At least one of context information and layout information between co-appearing classified known words is learned based on a relationship between classified known words co-appearing in a document.
  • the pattern between words for determining whether the data of a certain word pair is the data of the same classification word pair that is a set of the same classification word or the data of the different classification word pair that is a set of different classification words is classified as unknown. This is a word classification method used for word classification determination.
  • an eighteenth aspect of the present invention is that in the above aspect, based on the relationship between the input unknown classification word and the known classification word co-appearing in the document, the classification between the unknown classification word and the known classification word is performed. Generating application data of a word pair that is a set of the classified unknown word and / or the classified known word that includes at least one of context information and layout information, and analyzing the application data of the word pair with reference to the inter-word pattern Then, it is determined whether the application data of the word pair is data of the same classification word pair or data of a different classification word pair, and the classification of the classification unknown word is determined based on the determination result.
  • the context information and layout information of the same-classified known word pair that is a set of the same-classified known words based on the relationship between the same-classified words that co-occur in the document. Based on the relationship between at least one of the learning data and the differently known word co-appearing in the document, from the context information and / or the layout information of the differently known word pair that is a set of the differently known word And determining whether the input word pair data including the classified unknown word is the data of the same classified word pair or the data of the different classified word pair based on the learned data. Create a pattern between words.
  • learning data is created for each appearance position of a document in which the same class known word pair or the different class known word pair co-occurs.
  • learning data is created for each known-word pair of the same classification or for each known-word pair of different classification.
  • learning data for the same-categorized known word pair is generated as positive learning data
  • learning data for the different-classified known word pair is generated as negative learning data.
  • learning data of word pairs satisfying a specific condition among learning data of differently classified word pairs is set as negative example learning data.
  • the specific condition is that a co-occurrence frequency between words is higher than a predetermined value, a co-occurrence probability is higher than a predetermined value, or mutual Either the amount of information is higher than a predetermined value.
  • the combination of the unknown unknown word and the known classified word is based on a relationship between the unknown unknown word and the known known word co-appearing in the document.
  • Creating application data consisting of at least one of context information and layout information of word pairs, analyzing the application data of the word pairs with reference to the pattern between words, and applying the application data of the word pairs to It is determined whether it is data or data of differently classified word pairs.
  • the context information and layout of the same-classified known word pair that is a set of the same-classified known words
  • the learning data consisting of at least one of the information and the differently known word co-occurring in the document
  • at least one of the context information and the layout information of the differently known word pair that is a set of the differently known word
  • it is determined whether the data of the word pair including the input classification unknown word is the data of the same classification word pair or the data of the different classification word pair. Create a pattern between words.
  • the application data is analyzed, and whether the application data of the word pair is a positive example or a negative example is output.
  • the classification of the unknown classification word is determined based on the probability that the word pair of the unknown classification word and the known classification word is a word pair of the same classification word.
  • Contextual information and layout Creating application data consisting of information, analyzing the application data of the word pair with reference to the pattern between words, determining whether the application data of the word pair is a positive example or a negative example, and the word
  • the classification of the unknown word in the word pair is determined based on the number of positive examples or negative examples of the application data of the pair and the classification of the known word in the word pair.
  • a learning data generation method for generating learning data used to determine a classification of a classification unknown word whose classification is unknown, the context between classification known words co-occurring in a document
  • At least one of context information and layout information between co-occurring classified known words is learned based on the relationship between classified known words co-occurring in a document, A word that creates an inter-word pattern to determine whether the data of a certain word pair is data of the same classified word pair that is a set of same classified words or different classified word pair data that is a set of different classified words.
  • context information and layout information of the same-category known word pair that is a set of the same-category known words
  • Context information and layout information of a pair of different classification known words that is a set of different classification known words based on learning data of positive examples consisting of the context information and layout information between different classification known words that co-occur in the document The process of creating negative example learning data consisting of the above, and based on the learning data, the data of word pairs that are pairs of input classified unknown words and classified known words are positive examples or negative examples
  • a word that is a set of the classified unknown word and the classified known word based on the process of creating an inter-word pattern for determining whether or not the classified unknown word and the classified known word co-appearing in the document Pair contextual information and Processing for creating application data composed of layout information and analyzing the application data of the word pair with reference to the inter-word pattern to determine whether the application
  • the present invention can be applied to automatic dictionary classification as a base for a morphological analysis tool or the like.
  • the present invention can also be applied to uses such as search navigation by presenting similar terms in a search system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システムである。

Description

[規則37.2に基づきISAが決定した発明の名称] 単語分類システム、方法およびプログラム
 本発明は単語分類システム、単語分類方法および単語分類用プログラムに関する。
 語彙分類手法の一例が、非特許文献1に記載されている。語彙分類手法の一つである単語抽出は、単語を、組織名、地名、人名、日付などの固有表現と呼ばれるカテゴリに単語分類する手法である。この手法は、テキストにあらかじめ固有表現を付与した学習データを入力し、単語分類規則を学習することで、人手によるルール生成作業を軽減することができる。
 非特許文献1では、各単語個別における出現位置周辺の文脈情報を元に単語分類規則を学習する。周辺とは、出現位置前後の2単語程度であり、文脈情報とは、単語、品詞、文字種である。これらの情報を元に、固有表現カテゴリ毎に単語分類規則を学習する。すなわち、組織名か否かを判定する単語分類規則、地名か否かを判定する単語分類規則などである。単語分類規則はSupport Vector Machinesと呼ばれる学習手法のバイナリデータとして記述されるため、人間が視認できる情報ではないが、概念的には、組織名の単語分類規則は、「大会を<組織名>が開催」や「システムを<組織名>が開発」といった単語規則などが学習されると考えられる。
 また、本発明に関連する単語分類の技術が、特許文献1に記載されている。特許文献1に記載されている技術は、各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示す値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースとを用意しておき、文書データベースの格納文書から分類対象単語を検索し、さらに、その共起関係にある単語を抽出する。そして、抽出された各共起関係単語が、コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードの値から、カテゴリの順位付け判定値を形成して、分類対象単語が属するカテゴリを決定している。ここで、コアワードとはカテゴリに特有でかつ代表的な単語である。例えば、カテゴリ「芸術」であれば、「芸術」を良く表す代表的な単語で、そのカテゴリに関係する単語であり、「映画」、「音楽」、「監督」などである。
山田、工藤、松本、「Support Vector Machinesを用いた日本語固有表現抽出」、情報処理学会研究報告-自然言語処理、Vol.2001, No.20, 121-128ページ 特開2004-334766号公報
 上述した非特許文献1に記載された技術の問題点は、粒度のあらい分類しかできないことである。その理由は、単語個別の出現位置における文脈情報のみを手がかりにしているためである。例えば、日本のプロ野球チームとアメリカのプロ野球チームを分類する場合、例えば、「Aチーム」や「Bチーム」と言ったそれぞれの単語出現箇所周辺の文脈情報は酷似しているため、分類することはできない。
 また、特許文献2に記載に記載された技術の問題点は、コアワードとなりうる単語を予め用意する必要があるといことである。従って、この準備は非常に手間がかかる作業であり、十分なコアワードが揃わなければ、粒度のあらい分類しかできないことである。
 そこで、本発明は、上記課題に鑑みて発明されたものであって、その目的は、詳細に単語を分類できる技術を提供することにある。
 上記課題を解決する本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システムである。
 上記課題を解決する本発明は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する単語間パターン学習部と、前記作成された単語間パターンが格納される単語間パターン記憶部と、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する単語分類システムである。
 上記課題を解決する本発明は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成装置であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成部を有する学習データ生成装置である。
 上記課題を解決する本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを、分類未知単語の分類判定に用いる単語分類方法である。
 上記課題を解決する本発明は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成し、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する単語分類方法である。
 上記課題を解決する本発明は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成方法であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成方法である。
 上記課題を解決する本発明は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習処理を情報処理装置に実行させるプログラムである。
 上記課題を解決する本発明は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する処理と、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理とを情報処理装置に実行させるプログラムである。
 本発明は、分類判定に用いるデータとして、共出現する分類既知単語間の関係を用いているので、詳細に単語の分類を判定することができる。
図1は第1の実施の形態の単語分類システムのブロック図である。 図2は分類既知単語群データベース1の一例を示す図である。 図3は文書群データベース2の一例を示す図である。 図4は第1の実施の形態における学習データの一例を示す図である。 図5は第1の実施の形態における学習データの一例を示す図である。 図6は第2の実施の形態の単語分類システムのブロック図である。 図7は第2の実施の形態における学習データの一例を示す図である。 図8は第2の実施の形態の単語分類システムのブロック図である。
1    分類既知単語群データベース
2    文書群データベース
3    単語間パターンデータベース
4    単語間パターン学習部
5    単語間パターン適用部
6    分類判定部
7    入力部
8    出力部
 本実施の形態の特徴を説明する。
 同じ分類の単語は、一つの文で共出現することが多く、同分類の単語間の単語や品詞は同じことが多い。したがって、単語それぞれの文脈情報のみではなく、同分類の単語間の関係を考慮することで、より詳細な単語分類を行うことができる。
 ここで、単語間の関係とは、二つの単語間の表層文字列、その出現回数、品詞、共起回数、レイアウト情報などを指す。例えば、日本のプロ野球チーム名同士であれば、ニュース記事の文に対戦相手として記載されることが多かったり、句読点や、記号などで続けて記載されたりする場合が多い。しかし、アメリカのプロ野球チーム名と日本のプロ野球チーム名とは、トレードの情報などの記載しかなく、多くの頻度がない。さらに、句読点や記号などで続けて書かれることは少ない。
 そこで、本発明は、分類が既知である単語(以下、分類既知単語と記載する)間の関係に基づいて、未分類の単語(以下、分類未知単語と記載する)の分類を判定する為のパターンデータを作成する。
 例えば、分類A:{a,b,c}、分類B:{d,e}、分類C:{g,h}という分類が与えられたとする。ここで、a,b,c,d,e,g,hは単語であり、分類名:{単語集合}は分類名とその単語集合を表すこととする。尚、a,b,c,d,e,g,hといった単語は、上述のコアワードである必要はなく、「AAAウォーズ」や「BBB物語」といった映画名そのものの単語や、「Cチーム」といったチーム名そのものの単語で良い。
 そして、分類既知単語の単語対ごとに単語間の関係から学習データを作成する。このとき、同分類の分類既知単語(以下、同分類既知単語と記載する)の単語対を正例、異分類の分類既知単語(以下、異分類既知単語と記載する)の単語対を負例とする。例えば、分類既知単語aと分類既知単語bとは同分類であり、その単語対(以下も単語対をa―bと表す)は同分類既知単語の単語対なので、同分類既知単語の単語対は正例である。また、分類既知単語aと分類既知単語dとは異分類であり、その単語対(以下も単語対をa―dと表す)は異分類既知単語の単語対なので、異分類既知単語の単語対は負例である。
 単語間の関係とは、単語aと単語bとが出現する文書の単語aと単語bとの間の文脈情報、レイアウト情報である。ここで、文脈情報とは、単語そのものや、周辺単語、単語間にある語の表層文字列、出現回数、品詞、文字種、共起頻度、単語間距離、係り受け関係、自然文中にあるかである。また、レイアウト情報とは、縦または横に並んでいるか、文字の大きさは同じか、HTML等の木構造の場合木の深さは同じかである。
 このようにして、分類既知単語間の関係をもとに、分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかから成る学習データを作成する。続いて、この学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する。
 そして、この単語間パターンを用いて、分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判別し、判別の結果に基づいて、分類未知単語の分類を判定するのである。
 以下、具体的な実施の形態を説明する。
<第1の実施の形態>
 第1の実施の形態を説明する。
 図1は第1の実施の形態における単語分類システムのブロック図である。
 第1の実施の形態における単語分類システムは、分類が既知の単語群が記憶された分類既知単語群データベース1と、文書群が記憶された文書群データベース2と、学習した単語間パターンが記憶される単語間パターンデータベース3と、分類既知単語群データベース1に記憶されている分類既知の単語集合から、分類既知単語間の文脈情報及びレイアウト情報を学習して単語間パターンを作成する単語間パターン学習部4と、単語間パターンデータベース3に記憶されている単語間パターンを用いて、分類未知の単語を含む単語対の適用データを判断する単語間パターン適用部5と、単語間パターン適用部5の判断結果に基づいて、分類未知の単語の分類を判定する分類判定部6と、分類未知の単語を入力するキーボード等の入力部7と、分類判定部6の判定結果を出力する出力部8とを備える。
 分類既知単語群データベース1は、分類が既知の単語群が分類ごとに記憶されている。分類既知単語群データベース1の一例を図2に示す。図2では、複数の分類が、「分類名{単語群}」の形式で保持されている。例えば、「分類A:{a,b,c}」は、分類Aに、単語aと単語bと単語cとが分類されていることを示す。この記憶方法は一例であり、一つの単語が複数の分類に所属してもよいし、単語毎に分類名を記述してもよい。
 文書群データベース2は、複数の文書が記憶されている。文書群データベース2の一例を図3に示す。図3では、1レコードに一文書を示しており、図中の「・・・」は省略を表している。
 単語間パターンデータベース3には、単語間パターン学習部4で作成された単語間パターンが記憶されている。この単語間パターンは、二つの単語間の関係のデータを入力すると、そのデータが、二つの単語が同じ分類同士のデータであるか否かを示すパターンである。単語間パターンは、学習アルゴリズムによって記述方法が異なる。例えば、Support Vector Machinesを用いる場合、バイナリデータとなる。尚、単語間パターンについては、後述する。
 単語間パターン学習部4は、分類既知単語群データベース1に記憶されている分類既知単語群を入力し、文書群データベース2の文書群を参照しながら、学習データを作成する。そして、学習データに基づいて単語間パターンを作成する。単語間パターン学習部4は、学習データ作成部11と、パターン作成部12とを備えている。
 学習データ作成部11は、分類既知単語群データベース1に記憶されている分類既知単語の組である単語対が文書群データベース2に記憶されている文書で共出現する出現位置毎にその単語間の関係をもとに文脈情報及びレイアウト情報を学習し、その単語対の文脈情報及びレイアウト情報から成る学習データを作成する。
 例えば、「分類A:{a,b,c}」、「分類B:{d,e}」、「分類C:{g,h}」という分類が与えられた場合、a-b,a-c,a-d,a-e,a-g,a-h,b-c,b-d,b-e,b-g,b-h,c-d,c-e,c-g,c-h,d-e,d-g,d-h,e-g,e-h,g-hの単語対(以下、単語対を、例えばa-bと表す)を作成する。
 このとき、同分類既知単語の単語対を正例、異分類既知単語の単語対を負例とする。例えば、単語aと単語bとの単語対は、単語a、単語b共に分類Aに属するので、同分類であり正例である。また、単語aと単語dとの単語対は、単語aは分類Aに属し、単語dは分類Bに属するので、異分類であり負例である。
 また、単語間の関係とは、単語aと単語bとが出現する文書の単語間の文脈情報、レイアウト情報である。ここで、文脈情報とは、単語そのものや、周辺文字列、単語間にある語の表層文字列、出現回数、品詞、文字種、共起頻度、単語間距離、係り受け関係、自然文中にあるか等である。また、レイアウト情報とは、単語aと単語bとが、縦または横に並んでいるか、文字の大きさは同じか、HTMLなどの木構造の場合木の深さは同じか等である。
 このようにして、これら単語対が文書群データベース2に記憶されている文書で共出現する出現位置毎に単語対の文脈情報及びレイアウト情報とその単語対の正例又は負例の情報とを含む学習データを作成する。
 パターン作成部12は、学習データ作成部11が作成した学習データに基づいて、パターンを学習し、単語間パターンデータを作成する。例えば、入力された単語対の適用データが同じ分類を示すものであれば正例、異なる分類であれば負例と判断するような単語間パターンを作成する。そして、作成した単語間パターンを単語間パターンデータベース3に登録する。尚、単語間パターンデータ自体の作成には、Support Vector Machines など既存のものを用いる。
 単語間パターン適用部5は、分類が未知の単語を入力部7から入力し、この分類未知単語を含む単語対の適用データを判断する。単語間パターン適用部5は、適用データ作成部21と、パターン適用部22とを備える。
 適用データ作成部21は、入力された分類未知単語について、分類既知単語群データベース1に記憶されている分類が既知の単語群と文書群データベース2の文書群とを参照し、適用データを作成する。ここでは、分類未知単語と分類既知単語群データベース1に記憶されているそれぞれの分類既知単語との単語対を作成する。例えば、分類未知単語fが与えられた場合、分類未知単語fと分類既知単語a,b,c,d,e,g,hとから、f-a,f-b,f-c,f-d,f-e,f-g,f-hの単語対を作成する。そして、これら単語対が文書群データベース2に記憶されている文書で共出現する出現位置毎にその単語間の関係をもとに、その単語対の文脈情報及びレイアウト情報から成る適用データを作成する。尚、この適用データは、上述した学習データ作成部11における学習データから単語対の正例、負例の情報を除いたものと同様なものである。
 パターン適用部22は、分類未知単語と分類既知単語との単語対の適用データを入力し、その単語対の適用データを、単語間パターンデータベース3に記憶されている単語間パターンを参照して解析する。そして、分類未知単語と分類既知単語との単語対の適用データが正例か負例かを出力する。尚、パターン適用部22には、単語間パターン作成部12と同様にSupport Vector Machines など既存のものを用いる。
 分類決定部6は、分類未知単語と分離既知単語との単語対の適用データの正例又は負例の情報と、その単語対の分離既知単語の分類とを入力し、分類スコアを計算し、分類未知単語の分類を判定する。分類の判定方法としては、どの分類の単語と正例が多かったかを計算し、分類を判定する方法がある。
 次に、図1の構成を参照して本実施の形態の動作について説明する。
 まず、単語間パターン学習部4が、分類既知単語群データベース1に記憶されている分類が既知の単語群を入力し、文書群データベース2の文書群を参照しながら、学習データを作成する。そして、学習データに基づいて単語間パターンを作成する。
 具体的には、学習データ作成部11が、分類既知単語群データベース1に記憶されている分類既知単語群と文書群データベース2の文書群とを入力し、分類既知単語群データベース1に記憶されている全ての分類既知単語を組合せの単語対について、その単語対の単語が文書内で共出現する出現位置毎に単語間の関係をもとに文脈情報とレイアウト情報とを学習し、学習データを作成する。学習データは、単語間の文脈情報とレイアウト情報とから作成する。
 例えば、図2に示される分類既知単語群であるa,b,c,d,e,g,hの単語の全ての組合せ(単語対)について、それらの単語対が出現する文書の出現位置毎に学習データを作成する。
 単語対a-bの学習データの一例を図4、図5に示す。ここで、図4は、図3における1レコード目の文書における単語対a-bの出現位置をもとに作成した学習データの一例であり、図5は図3の2レコード目の文書における単語対a-bの出現位置をもとに作成した学習データの一例である。
 文脈情報として、単語間表層文字列、単語間品詞、単語間文字種(ひらがな、漢字、数字、記号、アルファベット、タグ)、係り受け関係にある文節に存在するか、並立関係にある文節に存在するか、単語間の形態素数を示している。
 レイアウト情報として、自然文内に出現しているか、縦横がそろっているか、文字の大きさは同じか、左右の文字列は同じかを示している。
 ここで、単語の分割や、品詞、単語間形態素数は、chasenなどの既存の形態素解析ツールを用いることができる。係り受けや並立関係認識にはcabochaなどの既存の構文解析ツールの出力を用いることができる。図5における“<td>”や“</td>”などHTMLタグに関わる文字列の品詞を、“未知語-開始タグ”や、“未知語-終了タグ”として認識させるよう、形態素解析ツールの辞書をあらかじめ設定しておくと良い。なぜなら、通常これらの文字列は未知語として認識され、単なる記号やアルファベットとして認識されてしまい、有効な学習ができないためである。
 また、縦横にそろっているか否か、文字の大きさは、各文書の描画ツールを用いてそのレイアウト箇所から判断する。このとき、標準的なサイズで描画した場合を考える。例えば、HTMLデータの場合、既存のWebブラウザによって、1024×768の画面サイズでレイアウトした出力を用いる。また、HTMLデータの場合、文字列の大きさや、描画位置は、HTMLタグ情報で決まることが多いため、実際にレイアウトは行なわずタグ情報を利用して判定しても良い。
 同じ種類の単語は同じ文書に出現し、間に存在する単語も、「と」などの並立関係を表す単語や、読点や「・」などの記号で併記されることが多いため、単語間の表層文字列や、品詞、文字種、係り受け関係といった文脈情報を学習データに利用する。
 自然文ではなく、HTMLなどの半構造データの場合、同種文字列はテーブルなどのレイアウト情報に基づいて整理されることが多いため、縦横にそろっているか否か、文字の大きさといったレイアウト情報を学習データに用いている。また、HTMLデータの場合、同じレイアウトになる場合、左右の文字列が同じ場合が多いため、学習データに用いている。判定のために用いる文字列の長さは、システムで保持する。本実施形態では4文字としている。
 図4の学習データの例を説明する。図3の1レコード目の文書を参照すると、単語対a-bが出現する位置の間には「と」の文字が存在する。形態素解析ツールを用いると、これは助詞であることがわかる。この文字種はひらがなを含んでいる。また、構文解析ツールを用いると、単語対a-bの出現位置の文節同士には係り受け関係がないが並立の関係であるとわかる。この二つの単語はHTMLタグなどで囲まれていないため、自然文にあることがわかる。テキストエディアで描画すると横にそろっていることがわかる。文字列の大きさも同じである。aとbとのそれぞれの、左右4文字は同じでないこともわかる。これらより、図4の学習データの例となる。
 図5の学習データの例を説明する。図3の2レコード目の文書を参照すると、単語対a-bが出現する位置の間には、「</td><td>対</td><td>」が存在する。これを形態素解析すると、“</td>”,“<td>”,“対”,“</td>”,“<td>”の5単語に別れ、”</td>”は終了タグや“<td>”は開始タグ、“対”は名詞であるとわかる。文字種は“</td>”はタグ、対は漢字を含んでいる。構文解析を行なうと、aとbには係り受け関係がないことがわかる。また、並立関係もないことがわかる。この二つの単語周辺はタグで囲まれているため自然文中にはないことがわかる。実際にレイアウトすると、テーブルタグであるので、横にそろっており、文字列の大きさも同じであることがわかる。それぞれの単語周辺の文字列は前方「<td>」、後方「</td>」であり同じである。これらより、図5の学習データの例となる。
 上述した例は一例であり、他にも、HTMLなどの半構造データの場合、ツリーの深さは同じであるかを含んでも良い。また、単語間の文脈情報とレイアウト情報だけでなく、関連する例にあるように、単語毎の文脈情報を含んでもよい。
 このようにして、全ての各単語対の出現位置毎に一つの学習データを作成する。尚、同分類既知単語の単語対の学習データには正例、異分類既知単語の単語対の学習データには負例の情報も付加して学習データを作成する。
 次に、パターン作成部12が、学習データ作成部11が作成した学習データに基づいて、単語間パターンを作成する。本実施の形態では、Support Vector Machinesを用いる。Support Vector Machinesは正例と負例とを分離するための単語間パターンを学習する。これによって、単語対の適用データが同じ分類を示すものである場合には正例、単語対の適用データが異なる分類を示すものである場合には負例となる単語間パターンが学習される。
 単語間パターン適用部5は、入力部7から分類が未知の単語を入力し、この分類未知単語と対となる分類既知単語と同じ分類であるか否かを出力する。
 具体的には、適用データ作成部21が、入力部7から入力された分類未知単語について、分類既知単語群データベース1に記憶されている分類が既知の単語群と文書群データベース2の文書群とを参照し、適用データを作成する。適用データは、分類未知単語fと、分類既知単語a,b,c,d,e,g,hの単語の全ての組合せ(単語対)について、それらの単語対が出現する文書の出現位置毎に学習データを作成する。
 例えば、分類未知単語fと、分類既知単語a,b,c,d,e,g,hとのそれぞれの対である、f-a,f-b,f-c,f-d,f-e,f-g,f-hの各単語対について、文書群データベース2に記憶されている文書で単語対の単語が共出現する出現位置毎にそれぞれで適用データを作成する。すなわち、単語対f―aにおいて、文書群内の出現箇所が3箇所であれば、3つの適用データが作成される。ここで、適用データの作成方法は、学習データと同じ方法を用いて行なう。
 次に、パターン適用部22が、適用データ作成部21から適用データそれぞれに対して、単語間パターンデータベースに記憶されている単語間パターンを参照し、単語対の適用データ毎に同じ分類であるか否かを出力する。パターン適用部22にSupport Vector Machinesを用いる場合、単語対の適用データ毎にそれぞれについて、正例か負例かを出力する。正例であれば、適用データの単語対は同じ分類であり、負例であれば適用データの単語対は異なる分類である。例えば、単語対f-aの出現箇所(適用データが3つ)が3つである場合、2つは正例、1つは負例であることもある。また、単語対f-bの出現箇所(適用データが4つ)が4つであっても、4つ全てが正例であることもある。
 分類判定部6は、パターン適用部22から結果を受け、分類未知単語の分類を判定する。例えば、適用データの正例又は負例の数から得られる、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。そして、判定結果(分類名)を出力部8に出力する。
 分類未知単語の分類の判定の一例を説明する。
 各単語対の分類の分類スコアを計算し、ある閾値以上だったもののうち、最も高かった分類に決める。例えば、分類スコアを下記の式で求める。
 分類スコア(分類)=正例の単語対の適用データ数(分類)/単語対の全適用データ数(分類)
 正例の単語対の適用データ数(分類)は、ある分類既知単語と分類未知単語との単語対の適用データで正例になった数である。また、単語対の全適用データ数(分類)は、分類既知単語と分類未知単語との単語対の全適用データ数である。
 例えば、分類Aに属する単語がa,b,cとし、分類未知の単語をfとした場合、単語対f-a,f-b,f-cの全ての適用データの数が、単語対の全適用データ数(分類A)である。また、単語対f-a,f-b,f-cの適用データのうち、正例となった適用データの数が、正例の単語対の適用データ数(分類A)である。
 ここで、分類未知単語fを含む単語対の適用データの判定の結果、正例の単語対の適用データ数(分類A)が1、単語対の全適用データ数(分類A)が3、正例の単語対の適用データ数(分類B)が2、単語対の全適用データ数(分類B)が2、正例の単語対の適用データ数(分類C)が0、単語対の全適用データ数(分類C)が2となった場合、分類スコア(分類A)は1/3、分類スコア(分類B)は2/2、分類スコア(分類C)は0/2となる。従って、分類未知単語fの分類は、最も分類スコアが高い分類Bとなる。
 上述の分類スコアは一例であり、単純に正例となる適用データの合計など、別の方法でも良い。
 分類スコアが閾値以上ではない場合、分類不明とする。
 以上の如く、本実施の形態では、単語間パターン学習部が単語毎の文脈情報でなく、同種分類単語や異種分類単語間の単語間の文脈情報やレイアウト情報を用いて分類規則を学習するため、従来手法より詳細に分類することができる。
<第2の実施の形態>
 第2の実施の形態を説明する。
 図6は第2の実施の形態の単語分類システムのブロック図である。
 図6を参照すると、第1の実施の形態と異なる所は、学習データ作成部11が第2の学習データ作成部31に、適用データ作成部21が第2の適用データ作成部41にそれぞれ置き換わっておる点である。以下、異なる点を中心に説明する。
 第2の学習データ作成部31は、学習データを、文書に単語対が出現する毎に作成するのではなく、単語対毎に作成する点が異なる。
 第2の学習データ作成部31は、文脈情報として単語対の出現頻度や、出現頻度を元に計算できる相互情報量といった統計量をさらに追加する。また、文書で同じ単語対が複数出現する場合、文脈情報として、単語間の文字として多かった文字列、その品詞、文字種、係り受け回数を出現数で割った値、並立関係回数を出現数で割った値、単語間の形態素数平均を用いる。また、レイアウト情報として、自然文に出現する回数を出現数で割った値、縦横でそろっている回数を出現数で割った値、文字列の大きさが同じ回数を出現数で割った値、左右の文字列が同じ回数を出現数で割った値を用いる。これらの方法により、一つの単語対に対して一つの学習データを作成する。
 第2の適用データ作成部41は、適用データを、文書に単語対が出現する毎に作成するのではなく、単語対毎に作成する点が異なる。適用データの作成方法は、第2の学習データ作成部31の方法と同様ある。
 次に、図6の構成を参照して本実施の形態の全体の動作について説明する。尚、異なる部分である第2の学習データ作成部31と第2の適用データ作成部41とについて主に説明する。
 第2の学習データ作成部31は、分類既知単語群データベース1に記憶されている分類既知単語の組である単語対毎に、その単語対の文脈情報及びレイアウト情報から成る学習データを作成する。例えば、図2で示される分類既知単語群である、a,b,c,d,e,g,hの単語の全ての組合せ毎に学習データを作成する。
 ここで、単語対a-bの学習データの一例を図7に示す。尚、単語対a-bは、図3に示される文書群データベース2の1レコード目の文書と2レコード目の文書とに出現するものとする。すると、図7に示される単語対a-bの文脈情報は、単語間表層文字列のうち出現頻度の多い3つ、それぞれの品詞、それぞれの単語間文字種、係り受け関係にある文節に存在する回数を出現数で割った値、並立関係にある文節に存在する回数を出現数で割った値、単語間の形態素数の平均、共起回数を示している。図7に示される単語対a-bのレイアウト情報は、自然文内に出現している回数を出現数で割った値、縦横がそろっている回数を出現数で割った値、文字の大きさは同じ回数を出現数で割った値、左右の文字列は同じ回数を出現数で割った値を示している。
 これらの学習データは一例であり、係り受け関係や、並立関係、自然文内の出現回数など数を表すものは、一度でも出現していたら1としても良いし、それらを組み合わせても良い。共起出現回数は、相互情報量などの統計量を用いても良い。
 そして、第1の実施の形態と同様に、単語対の正例又は負例の情報を付加して、学習データを生成し、この学習データをパターン作成部12に出力する。
 第2の適用データ作成部41は、入力部7から分類未知単語を入力し、入力された分類未知単語について、分類既知単語群データベース1に記憶されている分類が既知の単語群と文書群データベース2の文書群とを参照し、適用データを作成する。ここでは、分類未知単語と分類既知単語群データベース1に記憶されているそれぞれの分類既知単語との単語対を作成する。例えば、分類未知単語fが与えられた場合、分類未知単語fと分類既知単語a,b,c,d,e,g,hとから、f-a,f-b,f-c,f-d,f-e,f-g,f-hの単語対を作成する。そして、これら単語対毎に文脈情報及びレイアウト情報から成る適用データを作成する。適用データの作成は、第2の学習データ作成部31を同じ方法を用いる。
 他の構成は第1の実施の形態と同様なので、説明は省略する。
 本実施の形態では、第2の学習データ作成部が単語間の共起頻度をさらに学習データに加えることができる。
<第3の実施の形態>
 第3の実施の形態を説明する。
 図8は第3の実施の形態の単語分類システムのブロック図である。
 図8を参照すると、第1の実施の形態に比べ、学習データ作成部11が第3の学習データ作成部51に置き換わっている点が異なる。
 第1の実施の形態、第2の実施の形態では、正例より負例の学習データ数が多くなるため、単語間パターンを適用するにあたって、分類未知語を入力としてもどの分類の語とも対応が付かず未分類となってしまうことがある。負例の学習データ数が非常に多くなる理由は、異分類既知単語の単語対を全て負例としているためである。
 そこで、第3の実施の形態では、異分類既知単語の単語対のうち、特定の条件を満たすもののみを負例として扱うことで、負例の学習データ量を削減する。ここで、特定の条件とは、二語の出現する頻度、または、共起確率、または、相互情報量が高いことである。このような条件を与えることで、負例としての典型例のみを学習データに採用することで、不当に負例が多くなることを抑制する。
 以下、異なる点を中心に説明する。
 第3の学習データ作成部51は、学習データを全ての単語対で作成するのではなく、異分類の単語対の学習データについては、一定の条件を満たす単語対のみ学習データを作成する。特定の条件とは、単語対の出現頻度、または、共起確率、または、相互情報量が高いことである。学習データの作成方法は、第1または第2の実施の形態と同じである。
 具体的に説明すると、第3の学習データ作成部51は、分類既知単語群データベース1の分類既知単語群を入力に、文書群を参照し、分類既知単語の全ての単語対毎に学習データを作成する。学習データは、第1または第2の実施の形態と同様に単語間の文脈情報とレイアウト情報から作成する。例えば、図1に示される分類既知単語群データベース1の分類既知単語群から、a,b,c,d,e,g,hの単語の組合せである単語対を作成し、この単語対毎に学習データを作成する。但し、単語対のうち異分類既知単語の単語対の学習データについては特定の条件を満たす単語対の学習データのみ作成する。
 すなわち、同分類の単語対a-b,a-c,d-e,g-hは、第1または第2の実施の形態と同じく学習データを作成する。また、異分類の単語対、a-d,a-e,a-g,a-h,b-d,b-e,b-g,b-h,c-d,c-e,c-g,c-h,d-g,d-h,e-g,e-hのうち、特定の条件を満たす単語対のみ学習データを作成する。ここで、特定の条件とは、単語対の出現頻度、または、共起確率、または、相互情報量が一定の閾値を超えている、または、上位数件の単語対である。閾値や上位数件は、予めシステムに保存しておく。その後、第1または第2の実施の形態における、学習データ作成部11、または、第2の学習データ作成部31と同じく学習データを作成する。
 本実施の形態では、第3の学習データ作成部が、典型的な負例のみを学習データに採用することで、不当に負例が増えることを抑制する。これにより分類精度を上げることができる。
 尚、上述した第1から第3の実施の形態において、単語間の関係として、文脈情報及びレイアウト情報を用いたが、いずれかの一方のみでも良い。
 また、上述した第1から第3の実施の形態において、学習データ作成部、パターン作成部、適用データ作成部及びパターン適用部をハードウェアで構成したが、その一部又は全部をプログラムで動作するCPU等で構成することもできる。
 以上の如く、本発明の第1の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システムである。
 また、本発明の第2の態様は、上記態様において、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用部と、前記単語間パターン適用部の判断結果に基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する。
 また、本発明の第3の態様は、上記態様において、前記単語間パターン学習部は、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部とを有する。
 また、本発明の第4の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する。
 また、本発明の第5の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する。
 また、本発明の第6の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対の学習データを正例の学習データとし、異分類既知単語対の学習データを負例の学習データとする。
 また、本発明の第7の態様は、上記態様において、前記学習データ作成部は、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする。
 また、本発明の第8の態様は、上記態様において、前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである。
 また、本発明の第9の態様は、上記態様において、前記単語間パターン適用部は、前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成する適用データ作成部と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断するパターン適用部とを有する。
 また、本発明の第10の態様は、上記態様において、前記単語間パターン学習部は、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部とを有する。
 また、本発明の第11の態様は、上記態様において、前記パターン適用部は、前記単語対の適用データが正例又は負例であるかを出力する。
 また、本発明の第12の態様は、上記態様において、前記単語間パターン作成部は、Support Vector Machinesである。
 また、本発明の第13の態様は、上記態様において、前記パターン適用部は、Support Vector Machinesである。
 また、本発明の第14の態様は、上記態様において、前記分類判定部は、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。
 本発明の第15の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する単語間パターン学習部と、前記作成された単語間パターンが格納される単語間パターン記憶部と、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する単語分類システムである。
 本発明の第16の態様は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成装置であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成部を有する学習データ生成装置である。
 本発明の第17の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを、分類未知単語の分類判定に用いる単語分類方法である。
 また、本発明の第18の態様は、上記態様において、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断し、前記判断結果に基づいて、前記分類未知単語の分類を判定する。
 また、本発明の第19態様は、上記態様において、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する。
 また、本発明の第20の態様は、上記態様において、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する。
 また、本発明の第21の態様は、上記態様において、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する。
 また、本発明の第22の態様は、上記態様において、同分類既知単語対の学習データを正例の学習データとして作成し、異分類既知単語対の学習データを負例の学習データとして作成する。
 また、本発明の第23の態様は、上記態様において、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする。
 また、本発明の第24の態様は、上記態様において、前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである。
 また、本発明の第25の態様は、上記態様において、前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する。
 また、本発明の第26の態様は、上記態様において、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する。
 また、本発明の第27の態様は、上記態様において、前記適用データを解析し、前記単語対の適用データが正例又は負例であるかを出力する。
 また、本発明の第28の態様は、上記態様において、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。
 また、本発明の第29の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成し、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する単語分類方法である。
 本発明の第30の態様は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成方法であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成方法である。
 本発明の第31の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習処理を情報処理装置に実行させるプログラムである。
 本発明の第32の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する処理と、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理とを情報処理装置に実行させるプログラムである。
 以上、好ましい実施の形態及び態様をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び態様に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
 本出願は、2008年4月3日に出願された日本出願特願2008-97520号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、形態素解析ツールなどのベースとなる辞書の自動分類に適用できる。また、検索システムにおいて同種語の提示による検索ナビゲーションといった用途にも適用可能である。
 

Claims (32)

  1.  文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システム。
  2.  入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用部と、
     前記単語間パターン適用部の判断結果に基づいて、前記単語対の分類未知単語の分類を判定する分類判定部と
    を有する請求項1に記載の単語分類システム。
  3.  前記単語間パターン学習部は、
     文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、
     前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部と
    を有する請求項1又は請求項2に記載の単語分類システム。
  4.  前記学習データ作成部は、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する請求項3に記載の単語分類システム。
  5.  前記学習データ作成部は、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する請求項3に記載の単語分類システム。
  6.  前記学習データ作成部は、同分類既知単語対の学習データを正例の学習データとし、異分類既知単語対の学習データを負例の学習データとする請求項3から請求項5のいずれかに記載の単語分類システム。
  7.  前記学習データ作成部は、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする請求項6に記載の単語分類システム。
  8.  前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである請求項7に記載の単語分類システム。
  9.  前記単語間パターン適用部は、
     前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成する適用データ作成部と、
     前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断するパターン適用部と
    を有する請求項2に記載の単語分類システム。
  10.  前記単語間パターン学習部は、
     文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、
     前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部と
    を有する請求項9に記載の単語分類システム。
  11.  前記パターン適用部は、前記単語対の適用データが正例又は負例であるかを出力する請求項9又は請求項10に記載の単語分類システム。
  12.  前記単語間パターン作成部は、Support Vector Machinesである請求項3から請求項8、又は、請求項10のいずれかに記載の単語分類システム。
  13.  前記パターン適用部は、Support Vector Machinesである請求項9から請求項11のいずれかに記載の単語分類システム。
  14.  前記分類判定部は、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する請求項2、又は、請求項9から請求項13のいずれかに記載の単語分類システム。
  15.  文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する単語間パターン学習部と、
     前記作成された単語間パターンが格納される単語間パターン記憶部と、
     入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、
     前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部と
    を有する単語分類システム。
  16.  分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成装置であって、
     文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成部を有する学習データ生成装置。
  17.  文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを、分類未知単語の分類判定に用いる単語分類方法。
  18.  入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、
     前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断し、
     前記判断結果に基づいて、前記分類未知単語の分類を判定する
    請求項17に記載の単語分類方法。
  19.  文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、
     前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する
    請求項17又は請求項18に記載の単語分類方法。
  20.  同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する請求項19に記載の単語分類方法。
  21.  同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する請求項19に記載の単語分類方法。
  22.  同分類既知単語対の学習データを正例の学習データとして作成し、異分類既知単語対の学習データを負例の学習データとして作成する請求項19から請求項21のいずれかに記載の単語分類方法。
  23.  異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする請求項22に記載の単語分類方法。
  24.  前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである請求項23に記載の単語分類方法。
  25.  前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成し、
     前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する
    請求項18に記載の単語分類方法。
  26.  文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、
     前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する
    請求項25に記載の単語分類方法。
  27.  前記適用データを解析し、前記単語対の適用データが正例又は負例であるかを出力する請求項25又は請求項26に記載の単語分類方法。
  28.  分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する請求項18、又は、請求項25から請求項27のいずれかに記載の単語分類方法。
  29.  文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、
     前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成し、
     分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、
     前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する
    単語分類方法。
  30.  分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成方法であって、
     文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する
    学習データ生成方法。
  31.  文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習処理を情報処理装置に実行させるプログラム。
  32.  文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、
     前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する処理と、
     分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、
     前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、
     前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理と
    を情報処理装置に実行させるプログラム。
     
PCT/JP2009/056900 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム WO2009123288A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/920,920 US8504356B2 (en) 2008-04-03 2009-04-02 Word classification system, method, and program
JP2010505983A JP5447862B2 (ja) 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008097520 2008-04-03
JP2008-097520 2008-04-03

Publications (1)

Publication Number Publication Date
WO2009123288A1 true WO2009123288A1 (ja) 2009-10-08

Family

ID=41135655

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/056900 WO2009123288A1 (ja) 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US8504356B2 (ja)
JP (1) JP5447862B2 (ja)
WO (1) WO2009123288A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
JP2012173810A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
JP2018010532A (ja) * 2016-07-14 2018-01-18 株式会社レトリバ 情報処理装置、プログラム及び情報処理方法
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339214B2 (en) * 2011-11-04 2019-07-02 International Business Machines Corporation Structured term recognition
KR101508059B1 (ko) * 2013-06-26 2015-04-07 숭실대학교산학협력단 단어의 쾌-불쾌 지수 예측 장치 및 방법
US20150309987A1 (en) 2014-04-29 2015-10-29 Google Inc. Classification of Offensive Words
KR101567789B1 (ko) * 2014-08-26 2015-11-11 숭실대학교산학협력단 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법
US9529898B2 (en) * 2014-08-26 2016-12-27 Google Inc. Clustering classes in language modeling
JP2017134693A (ja) * 2016-01-28 2017-08-03 富士通株式会社 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
JP6729232B2 (ja) * 2016-09-20 2020-07-22 富士通株式会社 メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法
US11270082B2 (en) 2018-08-20 2022-03-08 Verint Americas Inc. Hybrid natural language understanding
US11217226B2 (en) 2018-10-30 2022-01-04 Verint Americas Inc. System to detect and reduce understanding bias in intelligent virtual assistants
US11604927B2 (en) 2019-03-07 2023-03-14 Verint Americas Inc. System and method for adapting sentiment analysis to user profiles to reduce bias
WO2020247586A1 (en) 2019-06-06 2020-12-10 Verint Americas Inc. Automated conversation review to surface virtual assistant misunderstandings

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147307A (ja) * 1994-11-22 1996-06-07 Gijutsu Kenkyu Kumiai Shinjoho Shiyori Kaihatsu Kiko 意味知識獲得装置
JP2007004458A (ja) * 2005-06-23 2007-01-11 National Institute Of Information & Communication Technology 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US7299180B2 (en) * 2002-12-10 2007-11-20 International Business Machines Corporation Name entity extraction using language models
JP3847273B2 (ja) 2003-05-12 2006-11-22 沖電気工業株式会社 単語分類装置、単語分類方法及び単語分類プログラム
WO2005116866A1 (en) * 2004-05-28 2005-12-08 Agency For Science, Technology And Research Method and system for word sequence processing
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US9135238B2 (en) * 2006-03-31 2015-09-15 Google Inc. Disambiguation of named entities
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
US20080052262A1 (en) * 2006-08-22 2008-02-28 Serhiy Kosinov Method for personalized named entity recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147307A (ja) * 1994-11-22 1996-06-07 Gijutsu Kenkyu Kumiai Shinjoho Shiyori Kaihatsu Kiko 意味知識獲得装置
JP2007004458A (ja) * 2005-06-23 2007-01-11 National Institute Of Information & Communication Technology 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
JP2012173810A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
JP2018010532A (ja) * 2016-07-14 2018-01-18 株式会社レトリバ 情報処理装置、プログラム及び情報処理方法
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
JPWO2020144736A1 (ja) * 2019-01-08 2021-02-18 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム

Also Published As

Publication number Publication date
US20110029303A1 (en) 2011-02-03
US8504356B2 (en) 2013-08-06
JPWO2009123288A1 (ja) 2011-07-28
JP5447862B2 (ja) 2014-03-19

Similar Documents

Publication Publication Date Title
JP5447862B2 (ja) 単語分類システム、方法およびプログラム
CA2777520C (en) System and method for phrase identification
TWI536181B (zh) 在多語文本中的語言識別
US7877383B2 (en) Ranking and accessing definitions of terms
Pillay et al. Authorship attribution of web forum posts
JP2008165598A (ja) 風評情報抽出装置及び風評情報抽出方法
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Ashraf et al. Cross-Genre Author Profile Prediction Using Stylometry-Based Approach.
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
Tschuggnall et al. Enhancing authorship attribution by utilizing syntax tree profiles
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
Jha et al. Hsas: Hindi subjectivity analysis system
JP4005343B2 (ja) 情報検索システム
Dianati et al. Words stemming based on structural and semantic similarity
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Batanović et al. Sentiment classification of documents in Serbian: The effects of morphological normalization
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Hollingsworth Syntactic stylometry: using sentence structure for authorship attribution
Kyjánek et al. Constructing a lexical resource of Russian derivational morphology
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Bosch et al. Memory-based morphological analysis and part-of-speech tagging of Arabic
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
Vasili et al. A study of summarization techniques in Albanian language

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09728588

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12920920

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010505983

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09728588

Country of ref document: EP

Kind code of ref document: A1