WO2010038540A1 - テキストセグメントを有する文書から用語を抽出するためのシステム - Google Patents

テキストセグメントを有する文書から用語を抽出するためのシステム Download PDF

Info

Publication number
WO2010038540A1
WO2010038540A1 PCT/JP2009/063584 JP2009063584W WO2010038540A1 WO 2010038540 A1 WO2010038540 A1 WO 2010038540A1 JP 2009063584 W JP2009063584 W JP 2009063584W WO 2010038540 A1 WO2010038540 A1 WO 2010038540A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
extracted
noun
document data
weight
Prior art date
Application number
PCT/JP2009/063584
Other languages
English (en)
French (fr)
Inventor
洋平 伊川
広宜 竹内
紫穂 根岸
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーション filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority to US13/121,982 priority Critical patent/US8463794B2/en
Priority to BRPI0913815-3A priority patent/BRPI0913815B1/pt
Priority to JP2010531786A priority patent/JP5106636B2/ja
Priority to EP09817577.1A priority patent/EP2315129A4/en
Priority to CN2009801345355A priority patent/CN102144229B/zh
Priority to KR1020117008373A priority patent/KR101498331B1/ko
Publication of WO2010038540A1 publication Critical patent/WO2010038540A1/ja
Priority to US13/899,020 priority patent/US9043339B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present invention relates to a computer system for extracting terms from document data having text segments, and a method and computer program thereof.
  • Patent Document 1 calculates a provisional importance degree of extracting a predetermined word / phrase from text data, and calculating a provisional importance degree based on at least one of a character, a part of speech and grammatical information of the word / phrase, and in text data It is described that the main importance is calculated from the temporary importance according to the appearance state of the word.
  • the present invention provides a computer system for extracting terms from document data having text segments.
  • the computer system A first extraction unit for extracting noun words from the document data using first text processing information;
  • a second extraction unit for extracting term candidates for the noun words extracted from the document data or from a corpus including text data described in the same language as the document data using the second text processing information;
  • the third text processing information is used to determine which of a plurality of types of noun words the extracted noun words and the extracted term candidates belong to.
  • a weighting unit for selecting which type of the weighting is to be given, and assigning the weighting for the selected type to each of the extracted noun word and the extracted term candidate;
  • a determination unit that determines the type to which the extracted noun word and the extracted term candidate belong based on the assigned weight;
  • an output unit that outputs the extracted noun word and the extracted term candidate in association with the determined type according to the determination.
  • the weighting unit repeatedly performs the selection and the weighting a plurality of times using fourth text processing information
  • the determination unit compares the weights of the plurality of types with respect to each of the extracted noun words and the extracted term candidates, and adds the highest weight to each of the extracted noun words and the extracted term candidates. Is determined to be a noun word belonging to the assigned type.
  • the first text processing information is structural information of a document, superficial information of a language, part-of-speech information of a language, or information by morphological analysis
  • the second text processing The information, the third text processing information, and the fourth text processing information are word dependency information.
  • giving the weight according to the position where the Ki is present in the document data is whether the Ki is in a sentence, in a text segment, or in parentheses. It is to give a weight according to The weighting according to the ratio of Ki present in the document data is the weighting according to a predetermined ratio of Ki occupying the character string in the text segment or in parentheses.
  • the first extraction unit comprises If the weight for Si is not within the range of a predetermined threshold, the weight of Si is set to zero.
  • the first extraction unit comprises When the character type of Si is only a number, a symbol, or a hiragana, or when it is a combination of only a number and a symbol, the weight of Si is set to 0.
  • the first extraction unit comprises It is determined whether the weight of each Si is within a predetermined threshold range, If the weight of Si is within a predetermined threshold range, Determine the propriety of the term as the character type of the Si, If appropriate, let the Si be a noun word to be extracted, If not suitable, set the weight of the Si to 0, When the weight of Si is not within the range of a predetermined threshold, the weight of Si is set to 0.
  • the suitability of the above-mentioned character type of Si is not suitable when it is only either the number, the symbol or the hiragana of the Si, or the combination of the number and the symbol alone. Be done.
  • the second extraction unit extracts term candidates satisfying a predetermined grammatical requirement from the document data or a corpus including text data described in the same language as the document data. To do.
  • extracting term candidates satisfying the predetermined grammatical requirements is performed in the document data or in a corpus including text data described in the same language as the document data. And identifying a verb word whose direct object is a noun word, and extracting a noun word that is an object of the same verb word as the identified verb word.
  • the weight portion is Determining the number of times the possessive word is associated with each of the extracted noun word and the extracted term candidate in the document data or in a corpus including text data described in the same language as the document data; It includes selecting a type to which a weight is to be applied, depending on whether the determined number of times is within the range of a predetermined threshold.
  • the weighting unit further weights the selected type.
  • the plurality of types are a component type (Vc), a parameter type (Vp), and a schema type (Vs),
  • Vc represents the degree of terms belonging to the component
  • Vp represents the degree of term representing a parameter
  • Vs represents the degree of terms representing a schema.
  • a score A is given to the Vc of the extracted noun word when the number of times the weighting unit determines the extracted noun word is lower than a predetermined threshold. , When the number of times of determination for the extracted noun word is equal to or more than a predetermined threshold, a score A is given to the Vp and the Vs for the extracted noun word.
  • a score B is given to the Vs of the extracted term candidate when the number of times the weighting section determines the extracted term candidate is lower than a predetermined threshold.
  • a score B is given to the Vp and the Vs for the extracted term candidate.
  • it is score A> score B> score C> score D.
  • the second extraction unit From the document data or from a corpus including text data described in the same language as the document data, a verb word whose direct object is the above extracted noun word is identified, and the verb word which is the same as the identified verb word Extract the noun word NPi to be the object, The above-mentioned weight part is When the extracted noun word NPi contains a number, a score C is given to the Vp for the extracted noun word.
  • the weight portion is The number of times the possessed word is associated with the noun word ti appearing in the first line of the text segment of the document data among the extracted noun words is described in the document data or in the same language as the document data Seeking in a corpus containing random text data, It includes selecting a type to which a weight is to be applied, depending on whether the determined number of times is within the range of a predetermined threshold.
  • the above-mentioned weight part is When the number of times of determination for the noun word ti is lower than a predetermined threshold, a score D is given to the Vs of the noun word extracted corresponding to the noun word ti, When the number of times of determination for the noun word ti is higher than a predetermined threshold, a score A is given to the Vc of the extracted noun word corresponding to the noun word ti.
  • the weight portion is In response to a list entry of terms (S-seed) that can be a schema, noun words that back to the S-seed in the document data or in a corpus including text data described in the same language as the document data Determining the frequency of the noun word that the S-seed relates to as a possessive word, Among the noun words that follow the S-seed and the noun words that the S-seed belongs to as possessive words, storing the noun words whose frequency is one or more as a list.
  • S-seed a list entry of terms
  • the weight portion is When the noun word ti appearing in the first line of the text segment of the document data among the extracted noun words matches the noun word stored in the list, the above extraction corresponding to the noun word ti is performed, The score V is given to the above Vc for the noun words.
  • the determination unit compares the weights of the Vc, the Vp, and the Vs for each of the extracted noun words and the extracted term candidates, and extracts the extracted nouns.
  • a word and each of the extracted term candidates are determined to be noun words belonging to the type given the highest weight.
  • the present invention provides a method for extracting terms from document data having text segments.
  • the method includes causing a computer system to perform the following steps.
  • the step is Extracting noun words from the document data using the first text processing information, and storing the extracted nouns in a storage unit;
  • the term candidate for the above-mentioned extracted noun word is extracted from the above document data or from a corpus containing text data described in the same language as the document data, and the extracted noun Storing the word in the storage unit;
  • the third text processing information is used to determine which of a plurality of types of noun words the extracted noun words and the extracted term candidates belong to.
  • the selected noun word and the extracted term candidate are each assigned a weight for the selected type, and the given weight is assigned to the storage unit. Step of storing, Determining the type to which the extracted noun word and the extracted term candidate belong based on the assigned weight; And outputting the extracted noun word and the extracted term candidate on the display device in association with the determined type according to the determination.
  • the step of storing the given weight in the storage unit further includes the step of repeatedly performing the selection and the weighting a plurality of times using fourth text processing information, The determining step compares each weight of the plurality of types for each of the extracted noun word and the extracted term candidate, and the extracted noun word and the extracted term candidate are respectively the highest.
  • the method further includes the step of determining that the noun word belongs to the type to which the weight is assigned.
  • the step of giving a weight according to the position where Ki is present in the document data is whether Ki is in a sentence, in a text segment, or in parentheses.
  • Including applying weights according to The step of giving a weight according to the ratio of Ki present in the document data includes the step of giving a weight according to a predetermined ratio of Ki taking a character string in a text segment or in parentheses.
  • the position of Ki when the position of Ki is not in the sentence: Determining whether the Ki occupies the entire text segment; Assigning the score W to the Ki if the Ki occupies the entire text segment; If the Ki does not occupy the entire text segment, further adding a score Y to the Ki. If the position of Ki is in the sentence, Determining whether the Ki is in parentheses in the sentence and occupies the entire character string in parentheses; Assigning a score X to the Ki if the Ki is in parentheses and occupies the entire string in parentheses; Adding a score Z to the Ki if the Ki is not in parentheses or does not occupy the entire character string in parentheses.
  • the step of extracting the noun word comprises The method further includes the step of setting the weight of Si to 0 when the weight for Si is not within the range of a predetermined threshold.
  • the step of extracting the noun word comprises When the character type of Si is only a number, a symbol, or a hiragana, or when it is a combination of only a number and a symbol, the step of setting the weight of the Si to 0 is further included.
  • the step of extracting the noun word comprises Determining whether the weight of each of said Si is within a predetermined threshold range; If the weight of Si is within a predetermined threshold range, Determining the propriety as a term of the character type of the Si; If appropriate, making the Si a noun term to be extracted; Setting the weight of the Si to 0 if not suitable; Setting the weight of Si to 0 when the weight of Si is not within the range of a predetermined threshold.
  • the step of extracting the noun word is suitable when the character type of the Si is only numbers, symbols or hiragana, or a combination of numbers and symbols only. Including the step of determining that it is not.
  • the step of extracting the term candidate using the second text processing information is performed from the document data or from a corpus including text data described in the same language as the document data. Extracting term candidates that meet predetermined grammatical requirements.
  • the step of extracting term candidates satisfying the predetermined grammatical requirements is performed in the document data or in a corpus including text data described in the same language as the document data. And a step of identifying a verb word whose direct object is a noun word, and extracting a noun word which is an object of the same verb word as the identified verb word.
  • the step of applying the weight comprises Determining the number of times the possessive word is associated with each of the extracted noun word and the extracted term candidate in the document data or in a corpus including text data described in the same language as the document data; Selecting a type to which a weight is to be applied depending on whether the determined number is within the range of a predetermined threshold.
  • the step of applying the weight further comprises applying a weight for the selected type.
  • the step of applying the weight comprises Assigning a score A to the Vc for the extracted noun word if the number of times the number of times for the extracted noun word is determined is lower than a predetermined threshold; Assigning a score A to the Vp and the Vs for the extracted noun word if the number of times the number of times for the extracted noun word is determined is equal to or greater than a predetermined threshold value.
  • the step of applying the weight comprises Assigning a score B to the Vs for the extracted term candidate, if the number of times of determination for the extracted term candidate is lower than a predetermined threshold; Assigning a score B to the Vp and the Vs for the extracted term candidate, when the number of times of determination for the extracted term candidate is equal to or more than a predetermined threshold.
  • the step of applying the weight comprises The number of times the possessed word is associated with the noun word ti appearing in the first line of the text segment of the document data among the extracted noun words is described in the document data or in the same language as the document data Determining in a corpus including text data; Selecting a type to which a weight is to be applied depending on whether the determined number is within the range of a predetermined threshold.
  • the step of applying the weight comprises Assigning a score D to the Vs of the extracted noun word corresponding to the noun word ti, when the number of times of calculation for the noun word ti is lower than a predetermined threshold; And V. adding a score A to Vc for the extracted noun word corresponding to the noun word ti when the number of times of determination for the noun word ti is higher than a predetermined threshold.
  • the step of applying the weight comprises When the number of times of determination for the noun word ti is lower than a predetermined threshold, a score D is given to the Vs of the noun word extracted corresponding to the noun word ti, The method further includes the step of assigning a score A to the Vc of the extracted noun word corresponding to the noun word ti when the number of times determined for the noun word ti is higher than a predetermined threshold.
  • the step of applying the weight comprises In response to a list entry of terms (S-seed) that can be a schema, noun words that back to the S-seed in the document data or in a corpus including text data described in the same language as the document data Determining the frequency of the noun word that the S-seed belongs to as a possessive word; Storing, as a list, noun words having the above-mentioned frequency of 1 or more among noun words following S-seed and noun words related to S-seed as possessive words.
  • S-seed a list entry of terms
  • the step of assigning the weight is a noun whose noun word ti appearing in the first line of the text segment of the document data among the extracted noun words is stored in the list. And D. adding a score D to the Vc for the extracted noun word corresponding to the noun word ti when it matches the word.
  • the step of making the determination includes comparing the weights of the Vc, the Vp and the Vs for the extracted noun word and the extracted term candidate, respectively. Determining each of the noun word and the extracted term candidate as a noun word belonging to the type given the highest weight.
  • the invention also provides a method for extracting terms from document data having text segments.
  • the method includes causing a computer system to perform the following steps.
  • the step is
  • the noun word is extracted from the above-mentioned document data stored in the storage unit using the information by morphological analysis and the part-of-speech information of the language, and the above extraction using at least one of structural information of the document and superficial information of the language Extracting a noun word (hereinafter referred to as a seed expression) satisfying predetermined requirements from the extracted noun words, and storing the seed expression in a storage unit;
  • a seed expression a noun word satisfying predetermined requirements from the extracted noun words, and storing the seed expression in a storage unit
  • term candidates for the seed expression are extracted from the document data or from a corpus including text data described in the same language as the document data, and the extracted term candidates Storing in the storage unit
  • the second word dependency information is used to determine which of the plurality of types the seed expression and the term candidate belong to which of
  • the above plurality of types are component type (Vc), parameter type (Vp), and schema type (Vs),
  • the above Vc represents the degree of terms belonging to the component
  • the above Vp represents the degree of term representing a parameter
  • the above Vs represents the degree of terms representing a schema
  • the step of storing Repeating the making of the selection using the dependency information of the third word and the applying of the weight multiple times;
  • the weight of each of the seed expression word and the term candidate is assigned the highest weight (maximum value (Vc, Vp, Vs)) by comparing the weights of the types Vc, Vp and Vs for the seed expression and the term candidate respectively. Determining that it is a noun word belonging to the And outputting the extracted noun word and the extracted term candidate on the display device in association with the determined type according to the determination.
  • the invention further provides a computer program for extracting terms from document data having text segments.
  • the computer program comprises causing a computer system to perform the steps described in any one of the above methods.
  • a computer system extracts a noun word from document data, and determines, for example, which one of three kinds the noun word belongs to, and the determined kind
  • the above extracted noun words are output according to. Outputting the extracted noun words according to the determined type allows the user to give useful clues for the understanding of the document.
  • FIG. 1 shows an example of a text segment, which is an embodiment of the present invention.
  • 2 illustrates an example of several types of noun words that are embodiments of the present invention.
  • FIG. 1 shows a block diagram of a computer system, which is an embodiment of the present invention.
  • Fig. 5 shows a flow chart illustrating the extraction of a seed representation, which is an embodiment of the present invention.
  • Fig. 5 shows a flow chart illustrating the extraction of a seed representation, which is an embodiment of the present invention.
  • Fig. 6 shows text processing information used in extracting term candidates and assigning weights according to an embodiment of the present invention.
  • FIG. 6 illustrates the generation of a list of seed term follow words used in assigning weights, which is an embodiment of the present invention.
  • Fig. 6 shows an example of assigning weights to a seed expression, which is an embodiment of the present invention.
  • An example of extraction of term candidates and assignment of weights to the term candidates, which is an embodiment of the present invention, is shown.
  • An example of weighting given to a seed expression and a term candidate, which is an embodiment of the present invention is shown.
  • An example of weighting given to a seed expression and a term candidate, which is an embodiment of the present invention is shown.
  • An example of weighting given to a seed expression and a term candidate, which is an embodiment of the present invention is shown.
  • An example of weighting given to a seed expression and a term candidate, which is an embodiment of the present invention is shown.
  • FIG. 5 illustrates the determination of the type of noun word, which is an embodiment of the present invention.
  • the extraction result of the noun word by the conventional method is shown.
  • the result from which the seed expression was extracted is shown.
  • FIG. 16 shows results of extracting term candidates based on seed expressions using text processing information in an embodiment of the present invention.
  • FIG. 7 illustrates a process of calculating weights according to an embodiment of the present invention.
  • the result by conventional noun word extraction and the result of noun word extraction which is an example of the present invention are shown in contrast.
  • FIG. 1 shows a block diagram of computer hardware, which is an embodiment of the present invention.
  • document data is electronic data of a document, and may be any kind of document data as long as it has text segments.
  • the document data includes, for example, document data created by word processor software, document data created by spreadsheet software, document data created by presentation sheet software, or document data including drawings and text data. It is not limited to.
  • the "document” is, for example, a technical document including, but not limited to, a requirement document, a specification, a product description and a design document.
  • the “text segment” is, for example, a structurally identifiable segment, which is a segment including text in the smallest unit of the document data component.
  • a segment is a text segment if its meaning does not change when it is associated with the front, back, left, and right segments.
  • a segment is associated with a front, rear, left, or right segment and its meaning changes, the segment is not a text segment.
  • “structurally distinguishable segment” is composed of a segment separated by punctuation, a segment separated by tag unit, a segment separated by line feed, a segment separated by paragraph, and a table cell Including, but not limited to, segments, heading segments or text segments in the figure.
  • a noun refers to a part-of-speech that belongs to an independent word and has no use.
  • the noun includes single nouns and compound nouns.
  • Japanese includes nouns classified as follows: proper nouns, pronouns, number sentences (several nouns), formal nouns and common nouns.
  • English includes nouns classified as follows: proper nouns, common nouns, collective nouns, substance nouns, abstract nouns, countable nouns and uncountable nouns.
  • a "corpus" is text (document) data collected.
  • a corpus is a collection of machine-readable language documents, including but not limited to huge text data consisting of digitized natural language sentences.
  • a corpus since the corpus uses a corpus written in the same language as the document data, it needs to be changed according to the language used in the document data.
  • a corpus may use a corpus of a specific field (hereinafter also referred to as a reference corpus) in accordance with the content of the document data.
  • a corpus is stored in a storage device in a computer system according to an embodiment of the present invention or in a storage device connected to the system, or a server system connected to the system via a network, for example, a database It is stored in the storage system of the server system, the proxy server system, and the provider server system.
  • text processing information is information obtained by text processing, for example, syntactic analysis.
  • Text processing information includes, for example, structural information of a document, superficial information of a language, part-of-speech information of a language, information by morphological analysis, and word dependency information.
  • the “first text processing information” is, in particular, structural information of a document, superficial information of a language, part-of-speech information of a language, information by morphological analysis, or a combination thereof.
  • word dependency information may be used as the first text processing information.
  • the structural information of a document includes position information in document data of a certain text segment or class information of an object in a document in which a certain text segment exists.
  • Positional information in a document of a certain text segment includes, for example, a hierarchical structure such as a chapter.
  • the class information of the object in the document in which a certain text segment exists includes, for example, paragraph, title and table cells.
  • FIG. 3A shown below, the structural information of the document is used, for example, in determining whether the noun words in step 304 occupy the entire text segment.
  • the superficial information of the language is raw text information that appears in document data, and is text information that is not processed, for example, replaced with a normal form.
  • Raw text information is information that can be understood by the type of character, etc. without morphological analysis, and for example, if it is a word, it is the format in which it appeared. For example, "1" is a number, "A” is a hiragana, and " ⁇ " is a symbol.
  • the surface information of the language is used, for example, in determining whether the noun word in step 307 is in parentheses and in determining whether the word type in step 314 is appropriate or not.
  • the part-of-speech information of the language is information that can be recognized only after the division into morphemes is performed by morpheme analysis, and the part of speech is added to the morpheme.
  • part-of-speech information of the language is used in the noun word extraction of step 301.
  • Information by morphological analysis is information obtained by morphological analysis. Morphological analysis is a technology for dividing a sentence written in a natural language into morphemes which are the smallest unit having meaning in the language.
  • part-of-speech information of the language is used, for example, in the extraction of noun words in step 301 and in the determination of whether the noun words in step 303 are in sentences in the document data.
  • each of the “second text processing information”, the “third text processing information” and the “fourth text processing information” is, in particular, word dependency information.
  • the word dependency information is information as to whether a natural sentence satisfies a predetermined grammatical requirement.
  • structural information of the document, superficial information of the language, part of speech information of the language and morpheme Any of the analysis information may be used.
  • the word dependency information may include, for example, the following shown in FIG. 4A below.
  • Noun words are directly related to verb words, or to be related to noun words that are objects of verb words: (Example: (Noun P (NounP), Noun Q (NounQ), Noun R (NounR), ...) ⁇ Verb X (VerbX) (directly dependent on verb X (VerbX))).
  • the "second text processing information" is used in the step of extracting term candidates for the extracted noun words.
  • the second text processing information identifies a verb word whose direct object is a noun word, and is used in the extraction of a noun word that is the object of the same verb word as the identified verb word Ru.
  • the part-of-speech information of a language and the information by morphological analysis are used.
  • third text processing information and the “fourth text processing information”, which of plural types the extracted noun word and term candidate belong to is a noun word Are used in the selection of which one of the plurality of types is to be weighted.
  • third or fourth text processing information is used to find out how many times a possessive word is associated with the seed representation si.
  • the third or fourth text processing information is used to check the number of times the possessive word is used for the term candidate xij.
  • the third or fourth text processing information identifies a verb word whose direct object is the noun word s', and a noun word which becomes the object of the same verb word as the identified verb word It is used to extract NPi.
  • the third or fourth text processing information is owned in the target document or reference corpus for the term candidate ti appearing in the first line of the table in the document data among the seed expressions. The hyponym is used to determine the number of times it is involved.
  • the third or fourth text processing information is used to determine if all of the seed following words match the type of ti.
  • a plurality of types includes, but is not limited to, component type (Vc), parameter type (Vp), and schema type (Vs).
  • types not classified into these may be separately provided.
  • types that are different from these may be provided.
  • Component type (Vc) represents the degree of terms belonging to the component.
  • the component is, for example, a term indicating a module (component) name or a function (function) name.
  • the parameter type (Vp) represents the degree of term representing the parameter.
  • the parameter is, for example, a term that represents an attribute name, a data name, and a parameter name, and is an attribute that only a specific component has.
  • the schema type (Vs) represents the degree of terms that represent the schema.
  • a schema is a term that can be a schema of a database, and is an attribute that all components have.
  • a noun word and a term candidate is a noun word belonging to which of a plurality of types
  • “determining which noun word and term candidate is a noun word belonging to a plurality of types” means, for example, a plurality of types of the component type and the parameter type. And when there are three types of schema types, it is to determine which of the three types noun words and term candidates belong to.
  • Step 1 Using the first text processing information, extracting noun words, that is, expressions (also referred to as seed expressions) that are to be displayed as extraction results from the document data.
  • the first text processing information includes any of structural information of the document, superficial information of the language, part-of-speech information of the language, and information by morphological analysis. The reason for this is that it is useful to use the first text processing information, which is more reliable information, because it is necessary to obtain a reliable expression as a seed word, in step 1, in step 1 .
  • the seed expression is a noun word that is ultimately displayed as an extraction result, unlike the term candidates described below.
  • Step 2 extracting new term candidates from the extracted noun words using the second text processing information.
  • the second text processing information includes word dependency information as described above. The reason is that it is useful to use second text processing information, which is loose information, to extend the seed expression.
  • Step 3 Using the third text processing information to determine which of a plurality of types of noun words and term candidates extracted belong to, which of the plurality of types Selecting at least one of types to be weighted, and weighting each of the seed expression and the term candidate for the selected type. And optionally repeating the selection and the weighting a plurality of times using fourth text processing information.
  • the third text processing information and the fourth language processing information include word dependency information as described above.
  • Step 4 Based on the assigned weight, determining the type to which the extracted noun word and term candidate belong. In particular, comparing the weights of the plurality of types to determine each of the extracted noun word and the extracted term candidate as a noun word belonging to the type given the highest weight. By the determination, it is determined which viewpoint noun word the extracted noun word and term candidate are classified into.
  • Step 5 outputting the extracted noun words and term candidates in association with the above determined types.
  • FIG. 1A shows the information contained in a technical document, such as a system requirements document and a specification.
  • the analysis is mainly performed to understand the document content.
  • the requirements documents and specifications (101) typically describe information on behavior (102), structure (103), quality requirements (104) and constraints (105).
  • the behavior (102) is to extract the states and transitions that the target system described in the request document or specification has, and the actions in the states.
  • the structure (103) is to extract the structure or relationship of the components constituting the target system and the function of the component.
  • the required quality (104) is to extract a quality requirement that is not expressed as it is in numerical values.
  • the constraint (105) is to extract numerically determined specifications or constraint relationships such as specifications or target performance.
  • FIG. 1B shows an example of a text segment, which is an embodiment of the present invention.
  • Document data includes one or more text segments.
  • the text segment is a structurally identifiable segment, and the following example can be given, for example.
  • Segments separated by punctuation (106).
  • Document data may have one or more segments separated by break points (106A to 106D). For example, in the case of Japanese, "ku" is ".”, But in the case of other languages, it is a kuten in the language.
  • Segments separated by tags (107).
  • Document data may have one or more segments separated in tag units (107A to 107B).
  • the tags may include, for example, tags that conform to HTML and XML conventions. Tags are usually indicated by parentheses ( ⁇ >) but are not limited thereto.
  • Segments separated by line breaks (108).
  • Document data may have one or more segments separated by line breaks (108A to 108C). Although line breaks are not usually displayed in document data, computer systems can recognize line breaks by means of line break codes.
  • Segments separated by paragraphs (109).
  • Document data may have one or more segments separated by paragraphs (109A to 109B).
  • Segments (110) consisting of cells in the table.
  • Document data may have a plurality of cells (110A-110N). In the embodiments of the present invention, the cell size is not relevant to the extraction.
  • Document data may have one heading segment, which is usually the title of the document (111A). Also, the document data may have multiple headings, for example, multiple heading segments for each chapter. Text segment in the figure (112). Text segments embedded in the figure (112A to 112B).
  • FIG. 1C shows an example of several types of nouns, which is an embodiment of the present invention.
  • the "plural types of noun words" are classifications based on the terms desired to be extracted from document data.
  • the terms used in the technical document can be classified into three types. Since the type of information to be extracted is fixed in the technical document, by preparing the three types, it is possible to extract all the information necessary to understand the content described in the document. become.
  • the classification can be changed according to language and target document. Furthermore, the classification may be re-named or further subdivided according to the purpose of use.
  • Component Component is, for example, a term that represents a module (component) name or a function (function) name.
  • the components are, for example, the noun words "power button” and "speed regulation function".
  • Parameter A parameter is, for example, a term that represents an attribute name, a data name, and a parameter name, and is an attribute that only a specific component has.
  • the parameters are, for example, the noun terms "maximum output number" and "minimum speed”.
  • Schema A schema is a term that can be a schema of a database, and is an attribute that all components have.
  • the schema is, for example, a column title of a table column.
  • the schema is, for example, the noun words "function", "component”, “input” and "output”.
  • FIG. 2 shows a block diagram of a computer system, which is an embodiment of the present invention.
  • the computer system (201) includes a first extraction unit (202), a second extraction unit (208), a weighting unit (210), a determination unit (211), and an output unit (212).
  • the first extraction unit (202) includes a text / position information extraction unit (203) and a seed expression extraction unit (204).
  • the text / position information extraction unit (203) obtains text in the document data (205) and its position information using a document analysis technique.
  • the text / position information extraction unit (203) also stores each data of the extracted text and position information in a storage medium, such as a database (206).
  • the document analysis technology is, for example, a technology provided in OpenOffice, and it is possible to obtain text and its position information using the technology. Acquisition of text is performed, for example, by morphological analysis of text.
  • the morphological analysis technique is a technique provided by ChaSen, for example, and noun words are extracted using the technique.
  • position coordinates on the sheet may be position information. For example, "45, 22".
  • the computer system can obtain location information by directly analyzing the document data. If the document data is not in XML format, the computer system may cause the application that created the document data to provide location information.
  • the computer system can obtain position information, for example, by using an API (macro language) for manipulating document data provided by an application.
  • the seed expression extraction unit (204) reads out the text data from the storage medium (206), and extracts noun words in the text data using morphological analysis technology.
  • the seed expression extraction unit (204) also extracts a seed expression based on position information or appearance frequency of the extracted noun word.
  • the seed expression extraction unit (204) adopts, for example, a noun word occupying the entire text segment as the seed expression.
  • the reason for this is based on the observation that, for example, in technical documents, noun words described alone in text segments are likely to be noun words having features in the technical document.
  • the adopted seed representation is stored in a storage medium, for example a database (207).
  • the storage media (206 and 207) may be the same storage media.
  • many of the conventional methods of term extraction use the correct answer data selected by outspoke as a seed expression.
  • the computer system (201) automatically selects a seed representation.
  • the second extraction unit (208) uses the text processing information to generate a seed expression (207) from the document data (205) or from a corpus (not shown) including text data described in the same language as the document data. Extract term candidates for). The reason is that the seed representation (207) alone may not be able to collect a sufficient number of terms.
  • the extracted term candidates are stored in a storage medium, for example, a database (209).
  • the storage media (206, 207 and 209) may be the same storage media.
  • a weighting unit (210) uses a plurality of types of text processing information to determine which of a plurality of types the seed expression (207) and the term candidate (209) belong to. It is determined which one of the above-mentioned classes is to be weighted, and each of the seed expression (207) and the term candidate (209) is weighted for the selected kind.
  • the plurality of types are component type (Vc), parameter type (Vp) and schema type (Vs).
  • the determination unit (211) compares the plurality of selected types of weights for each of the seed expression (207) and the term candidate (209), and the seed expression (207) and the term candidate (209) are the most It is determined that the noun word belongs to a type to which a high weight is assigned.
  • the output unit (212) outputs the seed expression (207) and the term candidate (209) on the display device according to the determination of the determination unit (211).
  • a seed representation (207) and a term candidate (209) may be displayed on the display associated with the determined type.
  • the “display in association with type” includes displaying the seed expression (207) and the term candidate (209) on the display device using a format different for each type determined above. Alternatively, in the example of FIG. 2B, “display in association with type” also associates the seed expression (207) and the term candidate (209) under the titles of component, parameter, and schema, respectively. , Output on the display device as component term list (213), parameter term list (214) and schema term list (215).
  • FIGS. 3A-3B show a flow chart illustrating the extraction of a seed representation, which is an embodiment of the present invention.
  • the computer system (201) uses the text / position information extraction unit (203) to extract the text and position information in the document data and stores it in the storage medium (206).
  • FIG. 3A is a step of extracting a seed expression according to an embodiment of the present invention, in which each noun word is weighted based on the position and the ratio of each noun word present in the document data.
  • the computer system (201) performs the following steps using the seed representation extractor (204).
  • step 301 the computer system (201) reads data of text and position information extracted from the target document data (205) from the storage unit (206), and inputs it to the seed expression extraction unit (204).
  • the computer system (201) performs morphological analysis and syntactic analysis on the input text, and uses the part-of-speech information of the language and the information from the morphological analysis to extract one or more noun words. Let the extracted noun words be k1, k2, ..., kn.
  • step 304 the computer system (201) uses structural information of the document to check if k occupies the entire text segment. If k occupies the entire text segment, proceed to step 305. On the other hand, if k does not occupy the entire text segment, the process proceeds to step 306.
  • step 305 the computer system (201) assigns k a score W. In the example of FIG. 3A, the score W is given to the noun word k1.
  • step 306 the computer system (201) gives k a score Y. In the example of FIG. 3A, the score Y is given to the noun word k2.
  • the score W is given when k does not exist in the sentence and occupies the entire text segment.
  • a score X is given if k is present in the sentence and k is in parentheses and occupies the entire string in parentheses.
  • the score Y is given when k does not exist in the sentence and does not occupy the entire text segment.
  • a score Z is given if k is present in the sentence and k does not occupy in parentheses or occupy the entire string in parentheses.
  • FIG. 3B is a step of extracting the seed expression, which is an embodiment of the present invention, of extracting the seed expression based on the positional information or appearance frequency of the extracted noun word.
  • the weight given to each ki is added and it is set as the weight of s.
  • the weight of s1 is a weight (W + Y) obtained by adding the weight of the noun word having the weight W and the noun word having the weight Y.
  • the weight of s2 is a weight (Y + Z) obtained by summing the weight of the noun word having weight Y and the noun word having weight Z.
  • the predetermined range is, for example, [1, (maximum frequency of s) ⁇ 0.8]).
  • the reason for setting in this way is to exclude words appearing with too much frequency as common words.
  • a common word is a word that does not need to be extracted much as a technical term.
  • the start of the predetermined range starts from 1 in order to pick up the words "at least once appearing”. If the frequency of occurrence is determined by the user to exclude a single word, it may be [2, xxx].
  • step 314 the computer system (201) uses surface information of the language to determine its suitability as a term of the s character type. If so, proceed to step 316. On the other hand, if it is not suitable, the process proceeds to step 315.
  • the suitability as the term of the character type of s is determined to be unsuitable, for example, when the character type of s is only numbers, symbols, or hiragana characters, or when it is a combination of only numbers and symbols.
  • An example in which the character type is only numbers, symbols, and hiragana is as follows; "120", " ⁇ ", "no-no".
  • the character type of s is a combination of only numbers and symbols is as follows; for example, when citing documents in document data, in the document data, such as "in [1] " It is the case of using it.
  • [1] is a string of numbers and symbols only, but is used as a noun.
  • Step 314 is intended to remove the case corresponding to the above "only”.
  • the weight of s is set to zero. This excludes noun words that are not within the predetermined range and noun words that are not appropriate as terms.
  • the predetermined threshold may vary depending on target document data, language, and the like.
  • the threshold is, for example, (maximum weight of s 2) ⁇ 0.5, and let s equal to or more than the threshold be a seed representation (s 1, s 2,..., Sn).
  • the threshold may vary depending on the target document data or language.
  • the computer system (201) stores the output k as a seed expression in the storage unit (207).
  • FIG. 4A shows text processing information used in extracting term candidates and in applying weights according to an embodiment of the present invention.
  • the text processing information is prepared before extracting a term candidate or before giving a weight.
  • the computer system (201) applies morphological analysis and parsing to target document data (205). It is assumed that the contents of target document data are as follows. The maximum output of the engine is concerned. Read input data from sensor. Measure the sensitivity of the sensor. Control the gear and notify the processing result.
  • the computer system (201) obtains text data by morphologically analyzing target document data. Subsequently, the computer system (201) parses the text data.
  • the computer system (201) extracts, from the text data, those that conform to the following patterns 1 to 3. Pattern 1.
  • Noun words are directly related to verb words, or to be related to noun words that are objects of verb words: (Noun P (NounP), Noun Q (NounQ), Noun R (NounR), ...) ⁇ Verb X (VerbX) (Directly to Verb X (VerbX)) 3.
  • Pre-processing result 1 (conforms to pattern 1) Engine ⁇ ⁇ ⁇ Maximum output sensor ⁇ ⁇ ⁇ Sensitivity Preprocessing result 2 (match pattern 2) Maximum output ⁇ Relevant (input data, sensor) ⁇ Read sensitivity ⁇ Measure gear ⁇ Control processing result ⁇ Notify Preprocessing result 3 (conforms to pattern 3) ⁇ sensitivity to measure ⁇ gear to control ⁇ process result to notify ⁇
  • the computer system (201) stores the preprocess results 1, 2 and 3 in the storage unit.
  • FIG. 4B illustrates the generation of a list of S-Seed Subsequences used in assigning weights, which is an embodiment of the present invention.
  • the list of seed term trailing words is prepared before extracting term candidates or before giving weights.
  • the computer system 201 in response to the user's input of a list of terms (hereinafter referred to as S-Seed) that can be schemas, the computer system 201 proceeds to step 405.
  • a list of seed terms is selected from the reference corpus, and the list of selected seed terms is input into the computer system (201).
  • the number of seed words is, for example, 1 to 5.
  • the seed words are sd1, sd2, and sd3.
  • the computer system (201) is owned by a following term and a following term from the whole or part of the target document data or from the reference corpus.
  • the word (N) is extracted as a case word and the frequency of appearance is counted.
  • the word (N) to which a seed word belongs as a possessive word is N in the expression “N of seed word”.
  • the computer system (201) stores, as a list of seed subsequent words, a suffix or a pair with a word to which the seed belongs as a possessive word, for one or more of the occurrence frequency. .
  • the computer system (201) stores the seed term subsequent word in the storage unit. In the example of FIG. 4B, with regard to the seed words sd1, sd2, and sd3, along with the seed word N, any type and frequency of occurrence of such words as a suffix or possessive is shown.
  • FIGS. 5A-5F show examples of extraction of term candidates for a seed expression using the text processing information and weighting applied to the seed expression and term candidates according to an embodiment of the present invention.
  • the weights to be given are score A, score B, score C and score D.
  • the value of the weight is given to the computer system in advance.
  • the magnitude relationship of these weights is: score A> score B> score C> score D.
  • FIG. 5A shows an example of assigning weights to a seed representation, which is an embodiment of the present invention.
  • the computer system (201) also sets the weights of Vc, Vp and Vs of each Si to zero.
  • the computer system (201) checks the number of times the possessed word is found in the target document data (205) or reference corpus for the seed expression si, and sets fc as fc. When the possessive word is modified with respect to the seed expression si, it is the expression "si of OO".
  • pre-processing result 1 of FIG. 4A may be used.
  • step 503 the computer system (201) determines whether fc ⁇ th with respect to a predetermined threshold.
  • step 505 the computer system (201) assigns a score A to the Vp of si and a score B to the Vs (A> B).
  • i 2 and n.
  • the reason for giving Vp a higher score than Vs is that the decision on the schema is made in FIG. 5D below, and the schema is more likely to appear than the parameter because it is a special category such as a column title of a table column It is for.
  • step 506 the computer system (201) determines whether or not the processing in steps 501 to 505 has been performed for all s. If the process has been performed, the process proceeds to step 507 in FIG. 5B. On the other hand, if the process has not been performed, the process returns to step 501. The process of the above steps 501 to 505 is repeated until the above weighting is finished for all si.
  • FIG. 5A A specific example of the process of FIG. 5A is as follows. It is assumed that there are words “color of button A” and "color of button B” in the sentence.
  • the seed expression is button A “,” button B “and” color “, score” A “is given to each Vc of” button A “and” button B “, while score” A “is given to Vp of” color " And give a score B to Vs.
  • FIG. 5B shows an example of extraction of term candidates and assignment of weights to the term candidates, which is an embodiment of the present invention.
  • the computer system (201) takes out Sn with Vc> 0 at any time from the seed representations s1, s2,.
  • Sn is not processed in the following steps 508 to 514.
  • the computer system (201) sets the extracted Sn as Si.
  • the computer system (201) identifies, in the target document data (205), a verb word whose object is Si directly using syntactic analysis technology, and uses the object of the same verb word as the verb word. Exhaustively extract the noun words xij
  • the extracted noun words are term candidates.
  • the computer system (201) may extract the noun word xij appearing in the same sentence as Si.
  • the reason is that although the accuracy of the noun word extracted in comparison with the entire target document data is low because the noun word xij is in the same sentence as Si, it is more useful in terms of speed than extraction from the entire target document data Because it can be Furthermore, the accuracy may be lower in some cases in extracting from the entire target document data than in the same sentence.
  • Step 508 will be described by way of example. Let Si be the noun word "AAA" and the sentence "AAA originates a CCC of B".
  • step 508 only "CCC” modifying "send” similar to “AAA” is extracted from the sentence, but alternatively, noun word "B” other than AAA appearing in the sentence and "C” Both “CCC” may be extracted.
  • pre-processing result 2 of FIG. 4A may be used.
  • the computer system (201) takes out unprocessed items from x11,..., Xnk and sets them as xij.
  • the computer system (201) checks the number of times that the possessive word is associated with xij to obtain fc.
  • pre-processing result 1 of FIG. 4A may be used.
  • step 511 the computer system (201) determines whether fc ⁇ th with respect to a predetermined threshold (th). If fc ⁇ th, then the process goes to step 512. On the other hand, if fc ⁇ th does not hold, the process proceeds to step 513.
  • the reason for giving Vp a higher score than Vs is that the decision on the schema is made in FIG.
  • step 514 the computer system (201) determines whether or not the above steps 509 to 513 have been performed for all x. If the process has been performed, the process proceeds to step 515. On the other hand, if the process has not been performed, the process returns to step 509. The processing of the above steps 509 to 513 is repeated until the above processing is completed for all xij.
  • step 515 the computer system (201) determines whether or not the processing of the above steps 507 to 514 has been performed for all s. If the process has been performed, the process proceeds to step 516 of FIG. 5C. On the other hand, if the process has not been performed, the process returns to step 507. The processing of the above steps 507 to 514 is repeated until the above processing is completed for all sn.
  • FIG. 5B A specific example of the process of FIG. 5B is as follows. It is assumed that the words “button A glows” and “power button glows” are included in the sentence. When the seed expression is “Button A”, the verb word modified by “Button A” is "Lit”. Therefore, another noun word “power button” that modifies the same verb word as the verb word "light” is extracted as a term candidate. The process shown in FIG. 5A is also performed on the extracted term candidate “power button”.
  • FIG. 5C shows an example of assigning weights to seed expressions and term candidates, which is an embodiment of the present invention.
  • the computer system (201) takes an unprocessed item from the seed expressions s1, s2,..., Sn and the term candidates x11,.
  • the computer system (201) identifies a verb word whose object is S 'directly in the document data (205) and extracts a noun word NPi which is an object of the same verb word as the verb word. .
  • pre-processing result 3 of FIG. 4A may be used.
  • the pre-processing result 2 of FIG. 4A can be used.
  • a verb word whose object is S 'directly is, for example, [Delta] [Delta] [beta] out of [Delta] [Delta] S.]
  • the computer system (201) relates to extraction of the noun word NPi.
  • the noun word NPi immediately after S and S ′ may be extracted because the case particle “ ⁇ ” of the direct object is often used in a position near a verb in natural Japanese. Because, when the noun immediately after the direct object clause is taken, it is often the noun phrase that becomes the object of the same verb word. In this alternative method, although there is a missing noun word, it is useful because the noise is reduced accordingly.
  • the computer system (201) determines whether the noun word NPi contains a number. If the noun word NPi contains a number, the process proceeds to step 519. On the other hand, if the noun word NPi does not contain a number, the process proceeds to step 520. In step 519, the computer system (201) assigns a score C to the Vp of S '. In the example of FIG. 5C, S ′ is the case of the seed expression Sn and the term candidate x12.
  • step 520 the computer system (201) determines whether or not the above steps 516 to 519 have been performed for all S's. If the process has been performed, the process proceeds to step 521 of FIG. 5D. On the other hand, if the process has not been performed, the process returns to step 516. The above steps 516 to 519 are repeated until the above process is completed for all seed expressions s1, s2, ..., sn and term candidates x11, ..., xnk.
  • FIG. 5D shows an example of assigning weights to seed expressions and term candidates, which is an embodiment of the present invention.
  • the computer system (201) sets noun words appearing in the first line of the table among the seed expressions as t1, t2, ..., tm. Out of the seed expressions, the unprocessed one is taken out to be ti.
  • the number of times the possessed word is found in the target document data (205) or the reference corpus is checked to be fc.
  • the ownership case word associated with ti is the expression "ti of xxx”.
  • pre-processing result 1 of FIG. 4A may be used.
  • the computer system (201) assigns a score A to Vc of ti. In the example of FIG.
  • the computer system (201) determines whether or not the above steps 521 to 525 have been performed for all ti. If the process has been performed, the process proceeds to step 527 of FIG. 5E. On the other hand, if the process has not been performed, the process returns to step 521. The processing of the above steps 521 to 525 is repeated until the above weighting is finished for all ti.
  • FIG. 5E shows an example of assigning weights to seed expressions and term candidates, which is an embodiment of the present invention.
  • the computer system (201) sets the noun words appearing in the first line of the table among the seed expressions to t1, t2, ..., tm. Out of the seed expressions, the unprocessed one is taken out to be ti.
  • the computer system (201) determines whether all of the seed term follow the type of ti.
  • the seed postword of FIG. 4B may be used. If they match, the process proceeds to step 529. On the other hand, if they do not match, the process proceeds to step 530.
  • the computer system (201) determines whether or not the above steps 527 to 529 have been performed for all ti. If the process has been performed, the process proceeds to step 531 of FIG. 5F. On the other hand, if the process has not been performed, the process returns to step 527. The processing in steps 527 to 529 is repeated until the above weighting is finished for all ti.
  • a specific example of the process of FIG. 5E is as follows. Suppose that there are words “function list” and "function summary” in a sentence or reference corpus. In response to “function” being input as a seed, “no” is added to the seed subsequent word list because “list” is a backword of the seed "function”. Similarly, in response to the input of "function” as a seed word, the noun word “summary” is added to the seed word list because "summary” is a word that the seed word "function” is modified as a possessive word. Be done. Next, it is assumed that the words “function of button A” and "function of button B" exist in the document data.
  • FIG. 5F shows the determination of the type of noun word, which is an embodiment of the present invention.
  • the computer system (201) compares Vc, Vp and Vs for each of the seed expressions s1, s2, ..., sn and the term candidates x11, ..., xnk, and adopts the type with the highest weight. Determine the types of seed expressions and term candidates.
  • the types of seed expressions and term candidates are as follows. In the seed expression s1, since the score A is given only to Vc, the type of s1 is determined to be Vc. In the term candidate x11, the score B is given only to Vc, so the type of x11 is determined to be Vp.
  • a score B + C is given to Vp, and a score C is given to Vs. Since B + C> C, the type of x12 is determined to be Vp.
  • the score A is given to Vp, and the score B + C is given to Vs.
  • each value of A, B and C is an optional parameter which may differ depending on the language and the type of the document, if the score B + C> A, the type of s2 is Vs, while the score A> B + C If there is, the type of s2 is Vp. In the example of FIG. 5F, it is assumed that the score B + C> A, so the type of s2 is determined to be Vs.
  • step 532 the computer system (201) sets max (Vc, Vp) as the importance of the extracted noun word for each of the seed expressions s1, s2, ..., sn and the term candidates x11, ..., xnk. , Vs).
  • max (Vc, Vp, Vs) T
  • the importance is, for example, the importance of logF * T in order to filter by the frequency of appearance. You may ask. The example shown in the table of FIG.
  • 5F shows an example in which max (Vc, Vp, Vs) is added as the importance of the seed expression and the term candidate.
  • the score A is given only to Vc, so the importance of s1 is A.
  • the score B is given only to Vc, so the importance of x11 is B.
  • a score B + C is given to Vp, and a score C is given to Vs. Since B + C> C, the importance of x12 is B + C.
  • the score A is given to Vp
  • the score B + C is given to Vs.
  • 6A-6E show an embodiment to which the present invention is applied.
  • FIG. 6A shows the extraction result of the noun word by the conventional method.
  • the document of FIG. 6A is a description of a mobile phone and is an example of a technical document.
  • the manual describes the components and functions using figures and tables.
  • all noun words in the manual are extracted.
  • the extracted noun words are shown with italic underlining.
  • FIG. 6B shows the result of extracting a seed expression in an embodiment of the present invention.
  • the computer system (201) extracts the noun word occupying the text segment in the above description as a certain seed expression as a technical term.
  • the text segment is a character in the figure (which is a text segment in the figure), and a character of the table (which is a segment consisting of cells of the table). Therefore, “display” “button A” and “button B” in the figure and the table, and “ID”, “name” and “color” in the table are extracted as a seed expression.
  • the seed representation is shown with italic underlining.
  • FIG. 6C shows the result of extracting term candidates based on a seed expression using text processing information according to an embodiment of the present invention.
  • the computer system (201) collects words that modify the same verb word as the verb word "press” that the seed expression "button A” modifies based on the expression “button A ... press", for example.
  • the above manual has a sentence “Button X ... press”. Therefore, the computer system (201) extracts “button X” in the sentence “button X... Press” as a term candidate.
  • the computer system (201) gives a score Vc as a component of the "button A” based on the expression "the color of the button A is ".
  • the computer system (201) extracts the seed expression, extracts the term candidate, weights each type of term, and outputs each term in association with a predetermined type (Vc, Vp, Vs) Do.
  • Vc, Vp, Vs a predetermined type
  • FIG. 6C noun words classified into Vc (component) are underlined with single slashes, noun words classified into Vp (parameter) are enclosed characters, and noun words classified into Vs (schema) are divided into two. Each is underlined and underlined.
  • FIG. 6D shows the process of calculating weights in the embodiment of the present invention.
  • the noun words "information", “telephone”, “function” and “mobile terminal” are not considered as seed expressions because their scores were below a predetermined threshold.
  • the computer system 201 uses the noun words “display”, “button A”, “button B", “color”, “ID” and “name” as seed expressions according to the steps shown in FIGS. 3A and 3B. Extract. Their weights are as shown in FIG.
  • the noun word "Button X" is a term candidate from the seed representation obtained by the steps shown in FIG. 5B.
  • the computer system (201) assigns weights Vc, Vp and Vs to the seed expression and the term candidate respectively according to the steps shown in FIGS. 5A to 5F. Then, the computer system (201) determines max (Vc, Vp, Vs) for each of the seed expression and the term candidate. The computer system (201) determines the type of the seed expression and the term candidate based on the obtained max (Vc, Vp, Vs). In FIG. 6D, shaded portions indicate classifications determined for each noun word. Furthermore, the computer system (201) determines the importance of the seed expression and the term candidate based on the obtained max (Vc, Vp, Vs).
  • FIG. 6E shows the result of the conventional noun word extraction and the result of the noun word extraction according to the embodiment of the present invention in comparison.
  • the result of the conventional noun word extraction in the technical document, even a less frequently occurring expression can be a term to be extracted. Thus, in a simple frequency-based extraction approach, many terms are listed.
  • the list of terms classified into each type can help the user to understand the content of a large number of technical documents.
  • FIG. 7 shows a block diagram of computer hardware, which is an embodiment of the present invention.
  • a computer system (701) according to an embodiment of the present invention includes a CPU (702) and a main memory (703), which are connected to a bus (705).
  • the CPU (702) is preferably based on a 32-bit or 64-bit architecture, for example, Intel's Xeon (TM) series, Core (TM) series, Atom (TM) series, Pentium (TM) series and The Celeron (TM) series, and Phenom (TM) series, Athlon (TM) series, Turion (TM) series, Sempron (TM) series from AMD, etc. can be used.
  • a sound card (704) is connected to the bus (705) as an interface for voice input / output.
  • the display (707) is used to display information about software running on the computer (701) with an appropriate graphic interface.
  • a hard disk or silicon disk (709) and a CD-ROM, DVD or Blu-ray drive (710) are also connected to the bus (705) via an IDE or SATA controller (708).
  • the CD-ROM, DVD or BD drive (710) is used to introduce the program from the CD-ROM, DVD-ROM or BD to the hard disk or silicon disk (709) as required.
  • a keyboard (712) and a mouse (713) are connected to the bus (705) through a keyboard / mouse controller (711) or a USB controller (not shown).
  • the communication interface (715) follows, for example, the Ethernet (trademark) protocol.
  • the communication interface (715) is connected to the bus (705) via the communication controller (714), and has a role of physically connecting the computer (701) and the communication line (716), and operating the computer (701).
  • the communication line may be a wired LAN environment or a wireless LAN environment based on a wireless LAN connection standard such as IEEE 802.11a / b / g / n.

Abstract

文書から用語の抽出を行い、該抽出した用語を文書の概要理解又は内容理解に有用な観点で分類し、該分類した用語を利用者に提示する手法を提供する。コンピュータ・システムは、第1のテキスト処理情報を用いて、テキストセグメントを有する文書データから名詞語を抽出し、第2のテキスト処理情報を用いて、該文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、該名詞語についての用語候補を抽出し、該名詞語及び該用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第3のテキスト処理情報を用いてどの種類に重みを付与するかを選択し、該名詞語及び該用語候補それぞれに、上記選択された種類について重みを付与し、上記付与された重みによって該名詞語及び該用語候補が属する該種類を決定し、決定された種類に関連づけて、該名詞語及び該用語候補を出力する。

Description

[規則37.2に基づきISAが決定した発明の名称] テキストセグメントを有する文書から用語を抽出するためのシステム
 本発明は、テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。
 現在、技術文書、例えば要求文書及び仕様書の量は膨大である。よって、技術文書の内容を素早く理解するための技術が必要とされている。そのために、技術文書中に出現する用語を抽出して提示することは有用な解決策である。これまでに、テキストから用語を抽出する手法が多く提案されている。しかし、用語を単に抽出するだけでは、多くの用語が列挙されるだけである。また、一般的な用語を抽出する手法は技術文書に特化していないので、用語が抽出された後に、ユーザが、用語の種類を手動で分類しなければならず実用的ではない。さらに、NE(named entity)抽出技術、すなわち人名、地名及び組織名といった特定の種類の用語を自動的に抽出するための技術を利用する場合、用語抽出のために辞書及び抽出ルールの整備が不可欠である。しかし、ユーザが技術文書の内容を精査し、どれが用語となりうるかを判断し、そして辞書を作成する作業は膨大なコストを必要とする。
 下記特許文献1は、テキストデータから所定の語句を抽出し、語句の文字と品詞と文法情報との少なくとも一つに基づいて仮重要度を算出する仮重要度算出すること、及びテキストデータでの語句の出現状態に対応して仮重要度から本重要度を算出することを記載する。
特開平10-177575号公報
 本発明の目的は、文書、特に技術文書の言語的及び構造的な特徴を生かして用語の抽出を行い、該抽出した用語を文書の概要理解又は内容理解のために有用な観点で自動的に分類し、そして該分類した用語を利用者に提示する手法を提供することである。
 本発明は、テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・システムを提供する。該コンピュータ・システムは、
 第1のテキスト処理情報を用いて、上記文書データから名詞語を抽出する第1の抽出部と、
 第2のテキスト処理情報を用いて、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記抽出された名詞語についての用語候補を抽出する第2の抽出部と、
 上記抽出された名詞語及び上記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第3のテキスト処理情報を用いて上記複数の種類のうちのどの種類に重みを付与するかを選択し、上記抽出された名詞語及び上記抽出された用語候補それぞれに、上記選択された種類について重みを付与する重付部と、
 上記付与された重みに基づいて、上記抽出された名詞語及び上記抽出された用語候補が属する上記種類を決定する決定部と、
 上記決定に従い、上記抽出された名詞語及び上記抽出された用語候補を上記決定された種類に関連付けて出力する出力部と
 を含む。
 本発明の1つの実施態様では、
 上記重付部が、第4のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行い、
 上記決定部が、上記抽出された名詞語及び上記抽出された用語候補それぞれについて上記複数の種類の各重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する。
 本発明の1つの実施態様では、上記第1のテキスト処理情報が、文書の構造的な情報、言語の表層的な情報、言語の品詞情報又は形態素解析による情報であり、上記第2のテキスト処理情報、上記第3のテキスト処理情報及び上記第4のテキスト処理情報が語の係り受け情報である。
 本発明の1つの実施態様では、上記第1の抽出部が、
 上記文書データを形態素解析して名詞語(Ki(i=1,2,…,n))を抽出し、
 該抽出したKiが文書データ中に存在する位置及び割合の少なくとも1に従い、Ki夫々に重みを付与すること
 をさらに含む。
 本発明の1つの実施態様では、上記Kiが文書データ中に存在する位置に従い重みを付与することが、Kiが文中にあるかどうか、テキストセグメント中にあるかどうか、又は括弧中にあるかどうかに従い重みを付与することであり、
 上記Kiが文書データ中に存在する割合に従い重みを付与することが、Kiがテキストセグメント中又は括弧中の文字列を占める所定の割合に従い重みを付与することである。
 本発明の1つの実施態様では、上記Kiの上記位置が文中でない場合に、
  該Kiが上記テキストセグメント全体を占めているかどうかを判断し、
   該Kiがテキストセグメント全体を占めている場合に、該KiにスコアWを付与し、
   該Kiがテキストセグメント全体を占めていない場合に、該KiにスコアYを付与し、
 上記Kiの上記位置が文中である場合に、
  該Kiが該文中において括弧中にあり且つ括弧中の文字列全体を占めているかどうかを判断し、
   該Kiが括弧中にあり且つ括弧中の文字列全体を占めている場合に、該KiにスコアXを付与し、
   該Kiが括弧中にない又は括弧中の文字列全体を占めていない場合に、該KiにスコアZを付与する。
 ここで、スコアW>スコアX>スコアY>スコアZである。
 本発明の1つの実施態様では、上記第1の抽出部が、
 上記Kiについて同じ名詞語をまとめてSi(i=1,2,…,k)(n≧k)とし、
 上記Siそれぞれについて各Kiに付与された重みに基づいて重みを付与し、
 上記Siの重みが所定の閾値以上のSiを抽出すること
 をさらに含む。
 本発明の1つの実施態様では、上記第1の抽出部が、
 上記Siについての重みが所定の閾値の範囲内にない場合に、該Siの重みを0に設定する。
 本発明の1つの実施態様では、上記第1の抽出部が、
 上記Siの文字種が数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に、該Siの重みを0に設定する。
 本発明の1つの実施態様では、上記第1の抽出部が、
 上記Siそれぞれの重みが所定の閾値の範囲内にあるかどうかを判断し、
  該Siの重みが所定の閾値の範囲内にある場合に、
   該Siの文字種の用語としての適否を判断し、
    適している場合に、該Siを抽出すべき名詞語とし、
    適していない場合に、該Siの重みを0に設定し、
  該Siの重みが所定の閾値の範囲内にない場合に、該Siの重みを0に設定する。
 本発明の1つの実施態様では、上記Siの文字種の適否が、該Siの数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に適していないと判断される。
 本発明の1つの実施態様では、上記第2の抽出部が、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、所定の文法的要件を満たす用語候補を抽出することを含む。
 本発明の1つの実施態様では、上記所定の文法的要件を満たす用語候補を抽出することが、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語を抽出することを含む。
 本発明の1つの実施態様では、上記重付部が、
 上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語及び上記抽出された用語候補それぞれに対して所有格語が係る回数を求めること、
 該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
 を含む。
 本発明の1つの実施態様では、上記重付部がさらに、選択された種類について重みを付与する。
 本発明の1つの実施態様では、上記複数の種類が、コンポーネント・タイプ(Vc)、パラメータ・タイプ(Vp)、及びスキーマ・タイプ(Vs)であり、
 上記Vcが、コンポーネントに属する用語の度合いを表し、
 上記Vpが、パラメータを表す用語の度合いを表し、
 上記Vsが、スキーマを表す用語の度合いを表す。
 本発明の1つの実施態様では、上記重付部が
  上記抽出された名詞語について求めた回数が所定の閾値よりも低い場合に、上記抽出された名詞語についての上記VcにスコアAを付与し、
  上記抽出された名詞語について求めた回数が所定の閾値以上である場合に、上記抽出された名詞語についての上記Vp及び上記VsにスコアAを付与する。
 本発明の1つの実施態様では、上記重付部が
  上記抽出された用語候補について求めた回数が所定の閾値よりも低い場合に、上記抽出された用語候補についての上記VsにスコアBを付与し、
  上記抽出された用語候補について求めた回数が所定の閾値以上である場合に、上記抽出された用語候補についての上記Vp及び上記VsにスコアBを付与する。
 ここで、スコアA>スコアB>スコアC>スコアDである。
 本発明の1つの実施態様では、
 上記第2の抽出部が、
 上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出し、
 上記重付部が、
 該抽出した名詞語NPiが数字を含む場合に、上記抽出された名詞語についての上記VpにスコアCを付与する。
 本発明の1つの実施態様では、上記重付部が、
 上記抽出された名詞語のうち上記文書データのテキストセグメントの1行目に出現する名詞語tiに対して所有格語が係る回数を、上記文書データにおいて又は該記文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて求めること、
 該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
 を含む。
 本発明の1つの実施態様では、
 上記重付部が、
  上記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VsにスコアDを付与し、
  上記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアAを付与する。
 本発明の1つの実施態様では、上記重付部が、
 スキーマになりうる用語(S-seed)のリスト入力に応答して、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、該S-seedに後接する名詞語と、該S-seedが所有格語として係る名詞語の頻度を求めること、
 該上記S-seedに後接する名詞語及び該S-seedが所有格語として係る名詞語のうち、上記頻度が1以上である名詞語をリストとして格納すること
 を含む。
 本発明の1つの実施態様では、上記重付部が、
 上記抽出された名詞語のうち上記文書データのテキストセグメントの1行目に出現する名詞語tiが上記リスト中に記憶された名詞語と一致する場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアDを付与する。
 本発明の1つの実施態様では、上記決定部が、上記抽出された名詞語及び上記抽出された用語候補それぞれについて、上記Vc、上記Vp及び上記Vsの重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する。
 本発明は、テキストセグメントを有する文書データから用語を抽出するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
 第1のテキスト処理情報を用いて、上記文書データから名詞語を抽出し、該抽出した名詞を記憶部に格納するステップと、
 第2のテキスト処理情報を用いて、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記抽出された名詞語についての用語候補を抽出し、該抽出した名詞語を上記記憶部に格納するステップと、
 上記抽出された名詞語及び上記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第3のテキスト処理情報を用いて上記複数の種類のうちのどの種類に重みを付与するかを選択し、上記抽出された名詞語及び上記抽出された用語候補それぞれに、上記選択された種類について重みを付与し、該与えられた重みを上記記憶部に格納するステップと、
 上記付与された重みに基づいて、上記抽出された名詞語及び上記抽出された用語候補が属する上記種類を決定するステップと、
 上記決定に従い、上記抽出された名詞語及び上記抽出された用語候補を上記決定された種類に関連付けて表示装置上に出力するステップと
 を含む。
 本発明の1つの実施態様では、
 上記与えられた重みを上記記憶部に格納するステップが、第4のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行うステップをさらに含み、
 上記決定するステップが、上記抽出された名詞語及び上記抽出された用語候補それぞれについて上記複数の種類の各重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定するステップをさらに含む。
 本発明の1つの実施態様では、上記名詞語を抽出するステップは、
 上記文書データを形態素解析して名詞語(Ki(i=1,2,…,n))を抽出するステップと、
 該抽出したKiが文書データ中に存在する位置及び割合の少なくとも1に従い、Ki夫々に重みを付与するステップと
 をさらに含む。
 本発明の1つの実施態様では、上記Kiが文書データ中に存在する位置に従い重みを付与するステップが、Kiが文中にあるかどうか、テキストセグメント中にあるかどうか、又は括弧中にあるかどうかに従い重みを付与するステップを含み、
 上記Kiが文書データ中に存在する割合に従い重みを付与するステップが、Kiがテキストセグメント中又は括弧中の文字列を占める所定の割合に従い重みを付与するステップを含む。
 本発明の1つの実施態様では、上記Kiの位置が文中でない場合に、
  該Kiが上記テキストセグメント全体を占めているかどうかを判断するステップと、
   該Kiがテキストセグメント全体を占めている場合に、該KiにスコアWを付与するステップと、
   該Kiがテキストセグメント全体を占めていない場合に、該KiにスコアYを付与するステップと
 をさらに含み、
 上記Kiの位置が文中である場合に、
  該Kiが該文中において括弧中にあり且つ括弧中の文字列全体を占めているかどうかを判断するステップと、
   該Kiが括弧中にあり且つ括弧中の文字列全体を占めている場合に、該KiにスコアXを付与するステップと、
   該Kiが括弧中にない又は括弧中の文字列全体を占めていない場合に、該KiにスコアZを付与するステップと
 をさらに含む。
 本発明の1つの実施態様では、上記名詞語を抽出するステップが、
 上記Kiについて同じ名詞語をまとめてSi(i=1,2,…,k)(n≧k)とするステップと、
 上記Siそれぞれについて各Kiに付与された重みに基づいて重みを付与するステップと、
 上記Siの重みが所定の閾値以上のSiを抽出するステップと
 をさらに含む。
 本発明の1つの実施態様では、上記名詞語を抽出するステップが、
 上記Siについての重みが所定の閾値の範囲内にない場合に、該Siの重みを0に設定するステップをさらに含む。
 本発明の1つの実施態様では、上記名詞語を抽出するステップが、
 上記Siの文字種が数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に、該Siの重みを0に設定するステップをさらに含む。
 本発明の1つの実施態様では、上記名詞語を抽出するステップが、
 上記Siそれぞれの重みが所定の閾値の範囲内にあるかどうかを判断するステップと、
  該Siの重みが所定の閾値の範囲内にある場合に、
   該Siの文字種の用語としての適否を判断するステップと、
    適している場合に、該Siを抽出すべき名詞語とするステップと、
    適していない場合に、該Siの重みを0に設定するステップと、
  該Siの重みが所定の閾値の範囲内にない場合に、該Siの重みを0に設定するステップと
 をさらに含む。
 本発明の1つの実施態様では、上記名詞語を抽出するステップが、上記Siの文字種が、数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に適していないと判断するステップを含む。
 本発明の1つの実施態様では、上記第2のテキスト処理情報を用いて上記用語候補を抽出するステップが、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、所定の文法的要件を満たす用語候補を抽出するステップを含む。
 本発明の1つの実施態様では、上記所定の文法的要件を満たす用語候補を抽出するステップが、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語を抽出するステップを含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、
 上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語及び上記抽出された用語候補それぞれに対して所有格語が係る回数を求めるステップと、
 該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択するステップと
 を含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、選択された種類について重みを付与するステップをさらに含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、
  上記抽出された名詞語について求めた回数が所定の閾値よりも低い場合に、上記抽出された名詞語についての上記VcにスコアAを付与するステップと、
  上記抽出された名詞語について求めた回数が所定の閾値以上である場合に、上記抽出された名詞語についての上記Vp及び上記VsにスコアAを付与するステップと
 を含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、
  上記抽出された用語候補について求めた回数が所定の閾値よりも低い場合に、上記抽出された用語候補についての上記VsにスコアBを付与するステップと、
  上記抽出された用語候補について求めた回数が所定の閾値以上である場合に、上記抽出された用語候補についての上記Vp及び上記VsにスコアBを付与するステップと
 を含む。
 本発明の1つの実施態様では、
 上記用語候補を抽出するステップが、
 上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、上記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出するステップをさらに含み、
 上記重みを付与するステップが、
 該抽出した名詞語NPiが数字を含む場合に、上記抽出された名詞語についての上記VpにスコアCを付与するステップをさらに含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、
 上記抽出された名詞語のうち上記文書データのテキストセグメントの1行目に出現する名詞語tiに対して所有格語が係る回数を、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて求めるステップと、
 該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択するステップと
 を含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、
  上記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VsにスコアDを付与するステップと、
  上記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアAを付与するステップと
 をさらに含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、
  上記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VsにスコアDを付与し、
  上記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアAを付与するステップをさらに含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、
 スキーマになりうる用語(S-seed)のリスト入力に応答して、上記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、該S-seedに後接する名詞語と、該S-seedが所有格語として係る名詞語の頻度を求めるステップと、
 該上記S-seedに後接する名詞語及び該S-seedが所有格語として係る名詞語のうち、上記頻度が1以上である名詞語をリストとして格納するステップと
 をさらに含む。
 本発明の1つの実施態様では、上記重みを付与するステップが、上記抽出された名詞語のうち上記文書データのテキストセグメントの1行目に出現する名詞語tiが上記リスト中に記憶された名詞語と一致する場合に、上記名詞語tiに対応する上記抽出された名詞語についての上記VcにスコアDを付与するステップと
 をさらに含む。
 本発明の1つの実施態様では、上記決定をするステップが、上記抽出された名詞語及び上記抽出された用語候補それぞれについて、上記Vc、上記Vp及び上記Vsの重みを比較して、上記抽出された名詞語及び上記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定するステップを含む。
 本発明はまた、テキストセグメントを有する文書データから用語を抽出するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
 形態素解析による情報及び言語の品詞情報を用いて、記憶部に格納された上記文書データから名詞語を抽出し、文書の構造的な情報及び言語の表層的な情報の少なくとも1を用いて上記抽出した名詞語から所定の要件を満たす名詞語(以下、シード表現)を抽出し、該シード表現を記憶部に格納するするステップと、
 第1の語の係り受け情報を用いて、上記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、上記シード表現についての用語候補を抽出し、該抽出した用語候補を上記記憶部に格納するステップと、
 上記シード表現及び上記用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第2の語の係り受け情報を用いて上記複数の種類のうちのどの種類に重みを付与するかを選択し、上記シード表現及び上記用語候補それぞれに、上記選択された種類について重みを付与し、該与えられた重みを上記記憶部に格納するステップであって、
 上記複数の種類が、コンポーネント・タイプ(Vc)、パラメータ・タイプ(Vp)、及びスキーマ・タイプ(Vs)であり、
 上記Vcが、コンポーネントに属する用語の度合いを表し、
 上記Vpが、パラメータを表す用語の度合いを表し、
 上記Vsが、スキーマを表す用語の度合いを表す、
 上記格納するステップと、
 第3の語の係り受け情報を用いて上記選択をすることと上記重みを付与することとを複数回繰り返すステップと、
 上記シード表現及び上記用語候補それぞれについて上記種類Vc、Vp及びVsの各重みを比較して、上記シード表現語及び上記用語候補それぞれが最も高い重み(最大値(Vc,Vp,Vs))を付与された種類に属する名詞語であると決定するステップと、
 上記決定に従い、上記抽出された名詞語及び上記抽出された用語候補を上記決定された種類に関連付けて表示装置上に出力するステップと
 を含む。
 本発明はさらに、テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・プログラムを提供する。該コンピュータ・プログラムは、コンピュータ・システムに、上記方法のいずれか一つに記載の各ステップを実行させることを含む。
 本発明の実施態様に従うコンピュータ・システムは、文書データから名詞語を抽出し、該名詞語を例えば3つの種類のうちのいずれの種類に属する名詞語であるかを決定し、該決定された種類に応じて上記抽出した名詞語を出力する。決定された種類に応じて上記抽出した名詞語を出力することは、利用者に文書の理解のための有用な手掛かりを与えることを可能にする。
技術文書、例えば要求文書及び仕様書に含まれている情報を示す。 本発明の実施態様である、テキストセグメントの例を示す。 本発明の実施態様である、名詞語の複数の種類の例を示す。 本発明の実施態様である、コンピュータ・システムのブロック図を示す。 本発明の実施態様である、シード表現の抽出を示すフローチャートを示す。 本発明の実施態様である、シード表現の抽出を示すフローチャートを示す。 本発明の実施態様である、用語候補を抽出する際及び重みを付与する際に使用するテキスト処理情報を示す。 本発明の実施態様である、重みを付与する際に使用する種語後続語のリストの生成を示す。 本発明の実施態様である、シード表現に対する重みの付与の例を示す。 本発明の実施態様である、用語候補の抽出及び該用語候補に対する重みの付与の例を示す。 本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。 本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。 本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。 本発明の実施態様である、名詞語の種類の決定を示す。 従来の手法による名詞語の抽出結果を示す。 本発明の実施例において、シード表現が抽出された結果を示す。 本発明の実施例において、テキスト処理情報を利用してシード表現に基づいて用語候補を抽出した結果を示す。 本発明の実施例における、重みの計算過程を示す。 従来の名詞語抽出による結果と、本発明の実施例である名詞語抽出の結果とを対比して示す。 本発明の実施形態である、コンピュータ・ハードウェアのブロック図を示す。
 本発明の実施態様において、「文書データ」とは、文書の電子データであり、テキストセグメントを有していればどんな種類の文書データであってもよい。また、文書データは、例えば、ワードプロセッサソフトウェアで作成された文書データ、スプレッドシートソフトウェアで作成された文書データ、プレゼンテーションシートソフトウェアで作成された文書データ、又は図面及びテキストデータを含む文書データを含むがこれらに限定されない。
 「文書」は例えば、要求文書、仕様書、製品説明書及び設計文書を含む技術文書であるがこれらに限定されない。
 本発明の実施態様において、「テキストセグメント」は例えば、構造的に識別可能なセグメントであり、文書データの構成要素の最小単位でテキストを含むセグメントである。セグメントが前後左右のセグメントと結びつけられてもその意味が変わらない場合、該セグメントはテキストセグメントである。一方、セグメントが前後左右のセグメントと結びつけられてその意味が変わる場合、該セグメントはテキストセグメントでない。
 「構造的に識別可能なセグメント」は、下記図1Bに示されるように、句点で区切られるセグメント、タグ単位で区切られるセグメント、改行で区切られるセグメント、段落で区切られるセグメント、表のセルからなるセグメント、見出しセグメント又は図中のテキストセグメントを含むがこれらに限定されない。
 本発明の実施形態において、「名詞」の定義は、言語によって異なりうるが、日本語の場合、名詞は、自立語に属し、活用がない品詞のことをいう。名詞は、単名詞及び複合名詞を含む。
 日本語は、次のように分類される名詞を含む:固有名詞、代名詞、数詞(数名詞)、形式名詞及び普通名詞。
 英語は、次のように分類される名詞を含む:固有名詞、普通名詞、集合名詞、物質名詞、抽象名詞、可算名詞及び不可算名詞。
 本発明の実施形態において、「コーパス」とは、集積されたテキスト(文書)データである。コーパスの1つの例は、機械可読言語文書の集合体であり、電子化された自然言語の文章からなる巨大なテキストデータであるがこれに限定されない。本発明の実施形態において、コーパスは、上記文書データと同じ言語で記載されたコーパスを使用するので、上記文書データで用いられている言語によって変更する必要がある。また、効率的な用語の抽出を行うために、コーパスは、上記文書データの内容に従い、特定の分野のコーパス(以下、参照コーパスともいう)を使用するとよい。
 コーパスは、本発明の実施形態であるコンピュータ・システム内の記憶装置内若しくは該システムに接続された記憶装置内に格納され、又は該システムとネットワークを介して接続されたサーバ・システム、例えばデータベース・サーバ・システム、プロキシ・サーバ・システム、プロバイダー・サーバ・システムの記憶装置内に格納される。
 本発明の実施態様において、「テキスト処理情報」とは、テキスト処理、例えば構文解析により得られる情報である。「テキスト処理情報」は例えば、文書の構造的な情報、言語の表層的な情報、言語の品詞情報及び形態素解析による情報、並びに語の係り受け情報を含む。
 本発明の実施態様において、「第1のテキスト処理情報」は、特には、文書の構造的な情報、言語の表層的な情報、言語の品詞情報若しくは形態素解析による情報又はそれらの組み合わせである。但し、第1のテキスト処理情報として、語の係り受け情報を用いてもよい。
 文書の構造的な情報とは、あるテキストセグメントの文書データにおける位置情報、又はあるテキストセグメントが存在する文書中オブジェクトのクラス情報を含む。あるテキストセグメントの文書における位置情報は例えば、章などの階層構造を含む。あるテキストセグメントが存在する文書中オブジェクトのクラス情報は例えば、段落、タイトル及び表のセルを含む。
 下記に示す図3Aでは、文書の構造的な情報は例えば、ステップ304の名詞語がテキストセグメント全体を占めているかどうかの判定において使用されている。
 言語の表層的な情報とは、文書データにでてくる生のテキスト情報であり、例えば正規形に置き換えるなどの処理を行わないテキスト情報である。生のテキスト情報とは、形態素解析を行わなくても、文字の種類などで分かる情報であり、例えば単語であれば出現した形式そのままである。例えば、「1」は数字であり、「あ」は平仮名であり、「■」は記号である。
 下記に示す図3Bでは、言語の表層的な情報が例えば、ステップ307の名詞語が括弧中にあるかどうかの判断、及びステップ314の文字種の用語としての適否の判断において使用されている。
 言語の品詞情報は、形態素解析により形態素への分割が行われ、さらに、形態素に対して品詞を付与する処理を行って初めて分かる情報である。
 下記に示す図3Aでは、言語の品詞情報がステップ301の名詞語の抽出において使用されている。
 形態素解析による情報は、形態素解析によって得られる情報である。形態素解析とは、自然言語で書かれた文を、言語で意味を持つ最小単位である形態素に分割する技術である。
 下記に示す図3Aでは、言語の品詞情報が例えば、ステップ301の名詞語の抽出、及びステップ303の名詞語が文書データ中の文中にあるかどうかの判断において使用されている。
 本発明の実施態様において、「第2のテキスト処理情報」、「第3のテキスト処理情報」及び「第4のテキスト処理情報」それぞれは、特には、語の係り受け情報である。語の係り受け情報は、自然文が所定の文法要件を満たすかどうかの情報である。但し、「第2のテキスト処理情報」、「第3のテキスト処理情報」及び「第4のテキスト処理情報」として、文書の構造的な情報、言語の表層的な情報、言語の品詞情報及び形態素解析による情報のいずれかを用いてもよい。
 語の係り受け情報は、例えば、下記図4Aに示されている以下を挙げることができる。
    1.所有格語に対して名詞語が係ること、又は名詞語が所有格である名詞語に係ること:
      (例:名詞A(NounA)の(所有格)名詞B(NounB))。
    2.名詞語が動詞語に直接的に係ること、又は動詞語の目的語となる名詞語に係ること:
      (例:(名詞P(NounP),名詞Q(NounQ), 名詞R(NounR), … ) →動詞X(VerbX) (動詞X(VerbX)に直接係り受けする))。
    3.名詞を直接目的語して動詞語に係ること、又は動詞語の直接目的語なる名詞語に係ること:
      (例:名詞K(Nounk)を(直接目的語)動詞(Verb)する)。
 本発明の実施形態において、「第2のテキスト処理情報」は、抽出された名詞語についての用語候補を抽出するステップにおいて用いられる。
 下記に示す図5Bでは、第2のテキスト処理情報が、名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語の抽出において使用される。
 なお、名詞語を直接目的語とする動詞語の同定において、言語の品詞情報及び形態素解析による情報が使用されている。
 本発明の実施形態において、「第3のテキスト処理情報」及び「第4のテキスト処理情報」は、抽出された名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、複数の種類のうちのどの種類に重みを付与するかの選択において使用される。
 下記に示す図5Aでは、第3又は第4のテキスト処理情報が、シード表現siに対して所有格語が係る回数を調べるために使用されている。
 下記に示す図5Bでは、第3又は第4のテキスト処理情報が、用語候補xijに対して所有格語が係る回数を調べるために使用されている。
 下記に示す図5Cでは、第3又は第4のテキスト処理情報が、名詞語s'を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出するために使用されている。
 下記に示す図5Dでは、第3又は第4のテキスト処理情報が、シード表現のうち文書データ中の表の1行目に出現する用語候補tiに対して、対象文書又は参照コーパスの中に所有格語が係る回数を求めるために使用されている。
 下記に示す図5Eでは、第3又は第4のテキスト処理情報が、種語後続語の全てについて、tiのタイプと一致するかどうかを判断するために使用されている。
  本発明の実施形態において、「複数の種類」とは、コンポーネント・タイプ(Vc)、パラメータ・タイプ(Vp)、及びスキーマ・タイプ(Vs)を含むが、これらに限定されない。また、これらに分類されない種類が別途設けられてもよい。また、これらと異なる名称である種類が設けられてもよい。
 コンポーネント・タイプ(Vc)は、コンポーネントに属する用語の度合いを表す。コンポーネントとは、例えば、モジュール(コンポーネント)名、機能(ファンクション)名を表す用語である。
 パラメータ・タイプ(Vp)は、パラメータを表す用語の度合いを表す。パラメータとは、例えば、属性名、データ名及びパラメータ名を表す用語であり、特定のコンポーネントのみが有する属性である。
 スキーマ・タイプ(Vs)は、スキーマを表す用語の度合いを表す。スキーマとは、データベースのスキーマになりうる用語であり、全てのコンポーネントが有する属性である。
 本発明の実施形態において、「名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるか」は、名詞語及び用語候補の各種類らしさを表す重みによって特徴付けられる。該重みは、第3のテキスト処理情報、さらに第4の言語処理情報を用いて、例えば、「●●の××」といった所有を表す言語表現に着目し、●●はコンポーネント・タイプ、××はパラメータ・タイプである可能性が高いとして重み付けを行う。
 本発明の実施形態において、「名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定する」とは、例えば複数の種類が上記コンポーネント・タイプ、パラメータ・タイプ、及びスキーマ・タイプの3種類である場合に、名詞語及び用語候補が3種類のうちのどの種類に属する名詞であるかを決定することである。
 本発明のテキストセグメントを有する文書データから用語を抽出する手法は、大きく分けて、次の工程を含む。
 工程1:第1のテキスト処理情報を使用して、文書データから、名詞語、すなわち抽出結果として表示されることが確かな表現(シード表現ともいう)を抽出する工程。
 第1のテキスト処理情報は、上記の通り、文書の構造的な情報、言語の表層的な情報、言語の品詞情報及び形態素解析による情報のいずれかを含む。この理由は、工程1では、シード表現である名詞語として確かな表現を得ることが必要であるために、より確実な情報である第1のテキスト処理情報を用いることが有用であるためである。
 シード表現は、下記に述べる用語候補とは異なり、最終的に抽出結果として表示される名詞語である。その意味で、シード表現は、「確かな表現」である。
 工程2:第2のテキスト処理情報を使用して、抽出された名詞語から新たな用語候補を抽出する工程。
 第2のテキスト処理情報は、上記の通り、語の係り受け情報を含む。この理由は、シード表現を拡張するために、条件の緩い情報である第2のテキスト処理情報を用いることが有用であるためである。
 工程3:抽出された名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第3のテキスト処理情報を用いて、複数の種類のうちのどの種類に重みを付与するかを少なくとも1つ選択し、シード表現及び用語候補それぞれに該選択された種類について重みを付与する工程。さらに、任意に、第4のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返す工程。
 第3のテキスト処理情報及び第4の言語処理情報は、上記の通り、語の係り受け情報を含む。この理由は、名詞語及び用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、条件の緩い情報である第3のテキスト処理情報、さらに第4の言語処理情報を用いることが有用であるためである。
 工程4:付与された重みに基づいて、抽出された名詞語及び用語候補が属する種類を決定する工程。特には、複数の種類の各重みを比較して、抽出された名詞語及び抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する工程。
 該決定によって、抽出された名詞語及び用語候補が、どの観点の名詞語に分類されるのかが決定される。
 工程5:抽出された名詞語及び用語候補を上記決定された種類に関連付けて出力する工程。
 以下、図面に従って、本発明の実施形態を説明する。本実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一符号は、同一の対象を指す。
 図1Aは、技術文書、例えばシステムの要求文書及び仕様書に含まれている情報を示す。
 該分析は、主に、文書内容を理解するために行われる。
 要求文書及び仕様書(101)には、典型的には、振る舞い(102)、構造(103)、要求品質(104)及び制約(105)に関する情報が記載されている。
 振る舞い(102)とは、要求文書又は仕様書で述べられている対象システムが有する状態及び遷移、並びに状態でのアクションを抽出することである。
 構造(103)とは、上記対象システムを構成するコンポーネントの構造又は関係と、該コンポーネントが有する機能とを抽出することである。
 要求品質(104)とは、数値ではそのままあらわされない、品質的な要求を抽出することである。
 制約(105)とは、諸元又は目標性能など、数値で決められた仕様又は制約関係を抽出することである。
 図1Bは、本発明の実施態様である、テキストセグメントの例を示す。
 文書データは、テキストセグメントを1又は複数含む。
 テキストセグメントは、構造的に識別可能なセグメントであり、例えば次の例を挙げることができる。
 ・句点で区切られるセグメント(106)。文書データは、区点で区切られるセグメントを1又は複数有しうる(106A~106D)。区点は、例えば、日本語の場合”。”であるが、他の言語の場合、該言語での区点である。
 ・タグ単位で区切られるセグメント(107)。文書データは、タグ単位で区切られるセグメントを1又は複数有しうる(107A~107B)。タグは、例えば、HTML及びXMLの記載法に従うタグを含みうる。タグは、通常、括弧(<   >)で示されるがこれに限定されない。括弧は、通常、開始タグ(<   >)及びその後に記述される終了タグ(</   >)の対からなる。
 ・改行で区切られるセグメント(108)。文書データは、改行で区切られるセグメントを1又は複数有しうる(108A~108C)。改行は、通常、文書データ内に表示されないが、コンピュータ・システムは改行コードによって、改行を認識しうる。
 ・段落で区切られるセグメント(109)。文書データは、段落で区切られるセグメントを1又は複数有しうる(109A~109B)。
 ・表のセルからなるセグメント(110)。文書データは、複数のセルを有しうる(110A~110N)。本発明の実施形態において、セルの大きさは抽出に関係ない。
 ・見出しセグメント(111)。文書データは、通常、文書のタイトルである見出しセグメントを1つ有しうる(111A)。また、文書データは、複数の見出し、例えば章毎に複数の見出しセグメントを有しうる。
 ・図中のテキストセグメント(112)。図中に埋め込まれたテキストセグメントである(112A~112B)。
 図1Cは、本発明の実施態様である、名詞語の複数の種類の例を示す。
 本発明の実施態様において、名詞語の「複数の種類」とは、文書データから抽出したい用語の観点に基づく分類である。
 図1Cに示されるように、技術文書において、該技術文書で用いられている用語は、3つの種類に分類されうる。技術文書では抽出したい情報の種類が固定されているために、該3つの種類を用意することで、文書に記載されている内容を理解する上で必要となる全ての情報を抽出することが可能になる。しかし、該分類は、言語、対象となる文書によって変更されうる。さらに、該分類は、利用目的によって、分類の名称の変更、さらにはさらなる細分化がおこなわれてよい。
 ・コンポーネント
 コンポーネントとは、例えば、モジュール(コンポーネント)名、機能(ファンクション)名を表す用語である。コンポーネントは例えば、名詞語「電源ボタン」及び「速度調節機能」である。
 ・パラメータ
 パラメータとは、例えば、属性名、データ名及びパラメータ名を表す用語であり、特定のコンポーネントのみが有する属性である。パラメータは例えば、名詞語「最大出力数」及び「最低速度」である。
 ・スキーマ
 スキーマとは、データベースのスキーマになりうる用語であり、全てのコンポーネントが有する属性である。スキーマは、例えばテーブルカラムのカラムタイトルである。スキーマは例えば、名詞語「機能」、「構成要素」、「入力」及び「出力」である。
 図2は、本発明の実施態様である、コンピュータ・システムのブロック図を示す。
 コンピュータ・システム(201)は、第1の抽出部(202)、第2の抽出部(208)、重付部(210)、決定部(211)及び出力部(212)を含む。
 第1の抽出部(202)は、テキスト・位置情報抽出部(203)及びシード表現抽出部(204)を含む。
 テキスト・位置情報抽出部(203)は、文書解析技術を用いて、文書データ(205)中のテキスト及びその位置情報を得る。テキスト・位置情報抽出部(203)はまた、抽出されたテキスト及び位置情報の各データを記憶媒体、例えばデータベース(206)内に格納する。
 文書解析技術は、例えば、OpenOfficeで提供されている技術であり、該技術を用いて、テキスト及びその位置情報を得ることが可能である。
 テキストの取得は、例えば、テキストを形態素解析して行われる。形態素解析技術は、例えばChaSenで提供されている技術であり、該技術を用いて、名詞語が抽出される。例えば、文「コンポーネントが信号をアンテナより送った。」に対して形態素解析を行うと、次の結果が得られる。
  コンポーネント  :名詞
  が        :助詞
  信号       :名詞
  を        :助詞
  アンテナ     :名詞
  より       :助詞
  送った      :動詞、正規形:送る
 位置情報は、例えば文書データがXML形式で記述されている場合、XPathが使用されうる。ワードプロセッサソフトウェアで作成された文書データの場合、段落番号が位置情報である。例えば、文書データの場合、「段落(13)」である。スプレッドシートソフトウェアで作成された文書データの場合、セルの座標又は該セルの座標及びシート名が位置情報である。例えば、「シート(1)、セル(3,5)」である。プレゼンテーションシートソフトウェアで作成された文書データの場合、シート上の位置座標が位置情報でありうる。例えば、「45,22」である。
 文書データがXML形式で記述されている場合、コンピュータ・システムは、該文書データを直接解析することによって位置情報を得られうる。文書データがXML形式でない場合、コンピュータ・システムは、該文書データを作成したアプリケーションが位置情報を提供するようにさせてもよい。コンピュータ・システムは、例えば、アプリケーションが提供している、文書データを操作するためのAPI(マクロ言語)を利用することによって、位置情報を取得しうる。
 シード表現抽出部(204)は、上記記憶媒体(206)からテキストデータを読み出して、形態素解析技術を用いて、テキストデータ中の名詞語を抽出する。シード表現抽出部(204)はまた、抽出された名詞語の位置情報又は出現頻度に基づいてシード表現を抽出する。
 本発明の1つの実施態様では、シード表現抽出部(204)は、シード表現として、例えばテキストセグメント全体を占める名詞語を採用する。この理由は、例えば技術文書において、テキストセグメントに単独で記述される名詞語は、該技術文書において特徴を有する名詞語である可能性が高い、という観察に基づくためである。採用されたシード表現は、記憶媒体、例えばデータベース(207)内に格納される。なお、記憶媒体(206及び207)は、同一の記憶媒体であってよい。
 なお、従来の用語抽出の手法の多くは人出で選別された正解データをシード表現として用いている。一方、本発明では、コンピュータ・システム(201)がシード表現を自動的に選択する。
 第2の抽出部(208)は、テキスト処理情報を用いて、文書データ(205)から又は該文書データと同じ言語で記載されたテキストデータを含むコーパス(図示せず)から、シード表現(207)についての用語候補を抽出する。この理由は、シード表現(207)だけでは、十分な数の用語を収集できない可能性があるためである。抽出された用語候補は、記憶媒体、例えばデータベース(209)内に格納される。なお、記憶媒体(206、207及び209)は、同一の記憶媒体であってよい。
 重付部(210)は、シード表現(207)及び用語候補(209)が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、テキスト処理情報を用いて複数の種類のうちのどの種類に重みを付与するかを判断し、シード表現(207)及び用語候補(209)それぞれに、該選択された種類について重みを付与する。
 本例では、複数の種類は、コンポーネント・タイプ(Vc)、パラメータ・タイプ(Vp)及びスキーマ・タイプ(Vs)である。
 決定部(211)は、上記シード表現(207)及び上記用語候補(209)それぞれについて上記選択された複数の種類の重みを比較して、シード表現(207)及び用語候補(209)それぞれが最も高い重みが付与された種類に属する名詞語であると決定する。
 出力部(212)は、上記決定部(211)の決定に従い、上記シード表現(207)及び上記用語候補(209)を表示装置上に出力する。該出力において、シード表現(207)及び用語候補(209)が、上記決定された種類に関連付けて上記表示装置上に表示されてもよい。
 「種類に関連付けて表示」とは、上記決定された種類毎に異なる書式を用いて、上記シード表現(207)及び上記用語候補(209)を上記表示装置上に表示することを含む。代替的に、「種類に関連付けて表示」とは、また、図2Bの例では、コンポーネント、パラメータ及びスキーマというタイトルの下に上記シード表現(207)及び上記用語候補(209)をそれぞれ関連付けられて、コンポーネント用語リスト(213)、パラメータ用語リスト(214)及びスキーマ用語リスト(215)として表示装置上に出力することを含む。
 図3A~図3Bは、本発明の実施態様である、シード表現の抽出を示すフローチャートを示す。
 コンピュータ・システム(201)は、テキスト・位置情報抽出部(203)を使用して、文書データ中のテキスト及び位置情報を既に抽出し、記憶媒体(206)内に格納している。
 図3Aは、本発明の実施態様である、シード表現を抽出するステップのうち、各名詞語が文書データ中に存在する位置及び割合に基づいて各名詞語に重み付けをするステップである。
 コンピュータ・システム(201)は、シード表現抽出部(204)を使用して、下記のステップを実行する。
 ステップ301では、コンピュータ・システム(201)は、対象文書データ(205)から抽出されたテキスト及び位置情報のデータを記憶部(206)から読み出して、シード表現抽出部(204)に入力する。コンピュータ・システム(201)は、入力されたテキストについて形態素解析及び構文解析を行い、言語の品詞情報及び形態素解析による情報を使用して、1又は複数の名詞語を抽出する。抽出された名詞語を、k1, k2, …, kn とする。コンピュータ・システム(201)は、各名詞語の重みを0に設定する。
なお、名詞語が1つも抽出されなかった場合、シード表現を抽出する工程は、ステップ301で終了する。
 ステップ302では、コンピュータ・システム(201)は、k1, k2, …, knのうちから、未処理の名詞語を取り出してkとし、各 ki (i = 1, 2, …,n)の全てについて下記ステップ303の処理がおわるまで該操作を繰り返す。
 ステップ303では、コンピュータ・システム(201)は、言語の品詞情報を使用して、kが文書データ(205)中の文中にあるかどうかを調べる。ここで、文は、好ましくは主部及び述部を有するが、主部が省略されていてもよい。kが文中にある場合、ステップ307に進む。一方、kが文中にない場合、ステップ304に進む。
 ステップ304では、コンピュータ・システム(201)は、文書の構造的な情報を使用して、kがテキストセグメント全体を占めているかを調べる。kがテキストセグメント全体を占めている場合、ステップ305に進む。一方、kがテキストセグメント全体を占めていない場合、ステップ306に進む。
 ステップ305では、コンピュータ・システム(201)は、kにスコアWを付与する。図3Aの例では、名詞語k1にスコアWが付与されている。
 ステップ306では、コンピュータ・システム(201)は、kにスコアYを付与する。図3Aの例では、名詞語k2にスコアYが付与されている。
 ステップ307では、コンピュータ・システム(201)は、言語の品詞情報を使用して、kが括弧中にあり且つ括弧中の文字列全体を占めているかを調べる。kが括弧中にあり且つ括弧中の文字列全体を占めている場合、ステップ308に進む。一方、kが括弧中にない又は括弧中の文字列全体を占めていない場合、ステップ309に進む。
 ステップ308では、コンピュータ・システム(201)は、kにスコアXを付与する。
 ステップ309では、コンピュータ・システム(201)は、kにスコアZを付与する。図3Aの例では、名詞語knにスコアZが付与されている。
 ステップ310では、コンピュータ・システム(201)は、各ki(i = 1, 2, …, n)の全てについて処理が終わっている場合、図3Bのステップ311に進む。一方、コンピュータ・システム(201)は、各ki(i = 1, 2, …, n)の全てについて処理が終わっていない場合、ステップ302に戻る。
 スコアW、X、Y及びZの大小関係は、次の通りである;スコアW>スコアX>スコアY>スコアZ。
 スコアWは、kが文中に存在せず、且つテキストセグメント全体を占めている場合に付与される。
 スコアXは、kが文中に存在し、及びkが括弧中にあり且つ括弧中の文字列全体を占めている場合に付与される。
 スコアYは、kが文中に存在せず、且つテキストセグメント全体を占めていない場合に付与される。
 スコアZは、kが文中に存在し、及びkが括弧中にない又は括弧中の文字列全体を占めていない場合に付与される。
 図3Bは、本発明の実施態様である、シード表現の抽出をするステップのうち、抽出された名詞語の位置情報又は出現頻度に基づいて、シード表現を抽出するステップである。
 ステップ311では、コンピュータ・システム(201)は、k1, k2, …, knを集計し、同じ名詞語をまとめてsi (i = 1, 2, …, k)とする(n ≧ k)。同じ名詞語をまとめる際に、各kiに付与されている重みを足し合わせて、sの重みとする。図3Bの例では、s1の重みは、重みWを有する名詞語及び重みYを有する名詞語の重みを合計した重み(W+Y)である。同様に、s2の重みは、重みYを有する名詞語及び重みZを有する名詞語の重みを合計した重み(Y+Z)である。なお、siは、該siと同じ名詞語がないために、その重みはZのままである。
 ステップ312では、コンピュータ・システム(201)は、s1, s2, …, skのうちから、未処理の名詞語を取り出してsとし、各 si (i = 1, 2, …, n)の全てについて下記ステップ313の処理がおわるまで該操作を繰り返す。
 ステップ313では、コンピュータ・システム(201)は、各si(i = 1, 2, …, k)が文書データ内に出現する頻度、すなわち各siが文書データ内に存在する回数を求める。si(i = 1, 2, …, k)それぞれについて、出現する頻度が所定の範囲内である場合、ステップ314に進む。一方、出現する頻度が所定の範囲内でない場合、ステップ315に進む。所定の範囲とは例えば、[1, (s の最大頻度)×0.8])である。このように設定する理由は、あまりにも多くの頻度で出ている語は、一般語として排除するためである。一般語とは、技術用語として抽出する必要があまりない語である。上記所定の範囲の開始を1から始まるのは、「少なくとも1回は出現している」語を拾うためである。出現の頻度が1回の語を排除することがユーザによって決められた場合、[2, xxx]にすることもあり得る。 ステップ314では、コンピュータ・システム(201)は、言語の表層的な情報を使用して、sの文字種の用語としての適否を判断する。適している場合、ステップ316に進む。一方、適していない場合、ステップ315に進む。sの文字種の用語としての適否は、例えば、sの文字種が数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に、適していないと判断する。
 文字種が数字、記号、平仮名のみである例は、下記の通りである;「120」、「■」、「のののの」。また、sの文字種が数字と記号のみの組み合わせである例は、下記の通りである;例えば文書データ内で文献の引用をする場合に、該文書データにおいて、「[1]では…」のような使い方をする場合である。この場合、[1]は、数字と記号のみの文字列であるが、名詞的に使用されている。
 また、上記「のみ」に該当する場合、形態素解析エラーの可能性も考えられる。すなわち、形態素解析のエラーにより、数値や記号が名詞語として検出されることがある。
 ステップ314は、上記「のみ」に該当する場合を除去することを目的としている。
 ステップ315では、sの重みを0に設定する。このことによって、所定の範囲内にない名詞語、及び用語として適切でない名詞語が排除される。
 ステップ316では、コンピュータ・システム(201)は、各 ki (i = 1, 2, …, n)の全てについて処理が終わっている場合、ステップ317に進む。一方、コンピュータ・システム(201)は、各si (i = 1, 2, …, k)の全てについて処理が終わっていない場合、ステップ312に戻る。
 ステップ317では、コンピュータ・システム(201)は、各 ki (i = 1, 2, …, n)について、所定の閾値以上の重みを有するkをシード表現として出力する。所定の閾値は、対象文書データ、言語等によって異なりうる。閾値は、例えば、(s の最大重み)×0.5であり、該閾値以上のsをシード表現(s1, s2, …, sn)とする。閾値は、対象とする文書データ又は言語によって変わりうる。コンピュータ・システム(201)は、出力されたkをシード表現として記憶部(207)に格納する。
 図4Aは、本発明の実施態様である、用語候補を抽出する際及び重みを付与する際に使用するテキスト処理情報を示す。
 該テキスト処理情報は、用語候補を抽出する前、若しくは重みを付与する前に用意される。
 ステップ401では、コンピュータ・システム(201)は、対象文書データ(205)に対して、形態素解析及び構文解析を適用する。
 対象文書データの内容が、次の通りであるとする。
    エンジンの最大出力が関係する。
    入力データをセンサーから読み込む。
    センサーの感度を測定する。
    ギアを制御し、処理結果を通知する。
 コンピュータ・システム(201)は、対象文書データを形態素解析することによって、テキストデータを得る。引き続き、コンピュータ・システム(201)は、該テキストデータについて、構文解析を行う。
 ステップ402では、コンピュータ・システム(201)は、上記テキストデータから、下記パターン1~3に適合するものを抽出する。
    パターン
    1.所有格語に対して名詞語が係ること、又は名詞語が所有格である名詞語に係ること:
      名詞A(NounA)の(所有格)名詞B(NounB)
    2.名詞語が動詞語に直接的に係ること、又は動詞語の目的語となる名詞語に係ること:
      (名詞P(NounP), 名詞Q(NounQ),名詞R(NounR), … ) → 動詞X(VerbX)(動詞X(VerbX)に直接係り受けする)
    3.名詞を直接目的語して動詞語に係ること、又は動詞語の直接目的語なる名詞語に係ること:
      名詞K(Nounk)を(直接目的語)動詞(Verb)する
 その結果、次の結果が得られる。
   前処理結果1(パターン1に適合する)
    エンジン → の → 最大出力
    センサー → の → 感度
   前処理結果2(パターン2に適合する)
    最大出力 → 関係する
    (入力データ, センサー) → 読み込む
    感度 → 測定する
    ギア → 制御する
    処理結果 → 通知する
   前処理結果3(パターン3に適合する)
    感度  を → 測定する
    ギア  を → 制御する
    処理結果  を → 通知する
 ステップ403では、コンピュータ・システム(201)は、前処理結果1、2及び3を記憶部に格納する。
 図4Bは、本発明の実施態様である、重みを付与する際に使用する種語後続語(S-Seed Subsequence)のリストの生成を示す。
 該種語後続語のリストは、用語候補を抽出する前、若しくは重みを付与する前に用意される。
 ステップ404では、スキーマになりうる用語(以下、種語(S-Seed)という)のリストがユーザから入力されることに応答して、コンピュータ・システム(201)は、ステップ405に進む。代替的に、種語のリストが参照コーパスから選択され、該選択された種語のリストがコンピュータ・システム(201)に入力される。種語の数は、例えば、1~5である。
 図4Bの例では、種語は、sd1、sd2及びsd3である。
 ステップ405では、コンピュータ・システム(201)は、対象文書データの全部又は一部分から又は参照コーパスから、名詞語が連続して種語に後接する後接語(a following term)と、種語が所有格語として係る語(N)とを抽出し、出現頻度を数える。種語が所有格語として係る語(N)とは、“種語のN”という表現中のNである。
 ステップ406では、コンピュータ・システム(201)は、上記出現頻度が1以上のものについて、後接、又は、種語が所有格語として係る語とペアにして、種語後続語のリストとして記憶する。
 コンピュータ・システム(201)は、種語後続語を記憶部に格納する。
 図4Bの例では、種語sd1、sd2、sd3について、種語のNとともに、後接語又は所有格として係る語のいずれかのタイプ及び出現頻度が示されている。
 図4Bの処理の具体例は、下記の通りである。
 文章又は参照コーパス中に「機能リスト」及び「機能の概要」という語があるとする。
 種語として“機能”が入力されることに応じて、「リスト」は種語「機能」の後接する語であるので、名詞語「リスト」が種語後続語リストに追加される。同様に、種語として“機能”が入力されることに応じて、「概要」は種語「機能」が所有格として修飾する語であるので、名詞語「概要」が種語リストに追加される。
 図5A~図5Fは、本発明の実施態様である、テキスト処理情報を用いてシード表現についての用語候補の抽出並びにシード表現及び用語候補に対する重みの付与の例を示す。
 該例では、付与される重みは、スコアA、スコアB、スコアC及びスコアDとする。該重みの値は、コンピュータ・システムに事前に与えられている。これら重みの大小関係は、スコアA>スコアB>スコアC>スコアDである。
 図5Aは、本発明の実施態様である、シード表現に対する重みの付与の例を示す。
 ステップ501では、コンピュータ・システム(201)は、シード表現s1, s2, …, sn(i=1,2, …)から、未処理のsを取り出して、siとする。コンピュータ・システム(201)はまた、各SiのVc、Vp及びVsの重みを0に設定する。
 ステップ502では、コンピュータ・システム(201)は、シード表現siに対して、対象文書データ(205)又は参照コーパスにおいて所有格語が係る回数を調べて、fcとする。シード表現siに対して所有格語が修飾とは、“○○のsi”という表現である。ステップ502では、図4Aの前処理結果1が使用されうる。
 ステップ503では、コンピュータ・システム(201)は、所定の閾値に対して、fc<thであるかどうかを判定する。閾値は例えば、siの出現頻度が、siの全出現頻度の10%である。すなわち、siが文書全体に10回出てくるならth=1回と定める。出現頻度は、文書の種類、言語等によって適宜変更されうる。fc<thである場合、ステップ504に進む。一方、fc>=th である場合、ステップ505に進む。
 ステップ504では、コンピュータ・システム(201)は、siのVcにスコアAを付与する。図5Aの例では、i=1の場合である。
 ステップ505では、コンピュータ・システム(201)は、siのVpにスコアAを及びVsにスコアBを付与する(A>B)。図5Aの例では、i=2及びnの場合である。ここで、VpにVsよりも高いスコアを付与する理由は、スキーマに対する判定は下記図5Dにおいて行うこと、及びスキーマはテーブルカラムのカラムタイトルのような特殊なカテゴリーであるためにパラメータよりも現れやすいためである。
 ステップ506では、コンピュータ・システム(201)は、全てのsについて、上記ステップ501~505の処理が行われたかどうかを判断する。処理が行われていれば、図5Bのステップ507に進む。一方、処理が行われていなければ、ステップ501に戻る。全てのsiについて上記重み付けが終わるまで、上記ステップ501~505の処理が繰り返される。
 図5Aの処理の具体例は、下記の通りである。
 文章中に「ボタンAの色」及び「ボタンBの色」という語があるとする。
 シード表現が、ボタンA”、“ボタンB”及び“色”である場合、“ボタンA”、“ボタンB”の各VcにスコアAを付与し、一方“色”のVpにスコアAを付与し且つVsにスコアBを付与する。
 図5Bは、本発明の実施態様である、用語候補の抽出及び該用語候補に対する重みの付与の例を示す。
 ステップ507では、コンピュータ・システム(201)は、シード表現 s1, s2,… , sn から、Vc > 0 であるSnを随時取り出す。ここで、Snは、以下のステップ508~514の処理が行われていないものである。コンピュータ・システム(201)は、取り出したSnをSiとする。
 ステップ508では、コンピュータ・システム(201)は、対象文書データ(205)においてSiを直接目的語とする動詞語を、構文解析技術を使用して同定し、該動詞語と同じ動詞語の目的語となる名詞語xijを網羅的に抽出する。該抽出した名詞語が、用語候補である。代替的に、コンピュータ・システム(201)は、Siと同じ一文内に出現している名詞語xijを抽出してもよい。この理由は、名詞語xijがSiと同一文内にあることから対象文書データ全体との比較において抽出された名詞語の精度は低いものの、対象文書データ全体から抽出するよりも速度の点で有用である場合があるからである。さらには、対象文書データ全体から抽出することの方が同一文内から抽出するよりも精度が低い場合があるからである。
 ステップ508について例を挙げて説明する。Siが「AAA」という名詞語であり、文が「AAAがBのCCCを発信する」であるとする。ステップ508では、該文から、「AAA」と同様に「発信する」を修飾する「CCC」だけを抽出するが、代替的に、該文に出現しているAAA以外の名詞語「B」及び「CCC」両方を抽出してもよい。
 ステップ508では、図4Aの前処理結果2が使用されうる。
 ステップ509では、コンピュータ・システム(201)は、x11, … , xnk から未処理のものを取り出して、xijとする。
 ステップ510では、コンピュータ・システム(201)は、xijに対して所有格語が係る回数を調べて、fcを求める。ステップ510では、図4Aの前処理結果1が使用されうる。
 ステップ511では、コンピュータ・システム(201)は、所定の閾値(th)に対して、fc<thであるか否かを判定する。fc<thである場合、ステップ512に進む。一方、fc<thでない場合、ステップ513に進む。
 ステップ512では、コンピュータ・システム(201)は、xのVcにスコアBを付与する。図5Bの例では、ij=11の場合である。
 ステップ513では、コンピュータ・システム(201)は、xのVpにスコアBを付与し、且つVsにスコアCを付与する(B>C)。図5Bの例では、ij=12の場合である。ここで、VpにVsよりも高いスコアを付与する理由は、スキーマに対する判定は下記図5Dにおいて行うこと、及びスキーマはテーブルカラムのカラムタイトルのような特殊なカテゴリーであるためにパラメータよりも現れやすいためである。
 ステップ514では、コンピュータ・システム(201)は、全てのxについて、上記ステップ509~513の処理が行われたかどうかを判断する。処理が行われていれば、ステップ515に進む。一方、処理が行われていなければステップ509に戻る。全てのxijについて上記処理が終わるまで、上記ステップ509~513の処理が繰り返される。
 ステップ515では、コンピュータ・システム(201)は、全てのsについて、上記ステップ507~514の処理が行われたかどうかを判断する。処理が行われていれば、図5Cのステップ516に進む。一方、処理が行われていなければステップ507に戻る。全てのsnについて上記処理が終わるまで、上記ステップ507~514の処理が繰り返される。
 図5Bの処理の具体例は、下記の通りである。
 文章中に「ボタンAが光る」及び「電源ボタンが光る」という語があるとする。
 シード表現が、”ボタンA”である場合、“ボタンA”が修飾する動詞語は「光る」である。よって、該動詞語「光る」と同じ動詞語を修飾する他の名詞語「電源ボタン」が用語候補として抽出される。該抽出された用語候補「電源ボタン」についても、図5Aに示した処理が行われる。
 図5Cは、本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。
 ステップ516では、コンピュータ・システム(201)は、シード表現s1, s2, …, sn及び用語候補x11,… , xnkから未処理のものを取り出してS’とする。
 ステップ517では、コンピュータ・システム(201)は、文書データ(205)においてS’を直接目的語とする動詞語を同定し、該動詞語と同じ動詞語の目的語となる名詞語NPiを抽出する。ステップ517の動詞語の同定では、図4Aの前処理結果3が使用されうる。また、ステップ517の名詞語NPiの抽出では、図4Aの前処理結果2が使用されうる。S’を直接目的語とする動詞語は、例えば、”S’を△△する”のうちの△△する”である。代替的に、コンピュータ・システム(201)は、名詞語NPiの抽出について、S’の直後の名詞語NPiを抽出するようにしてもよい。この理由は、直接目的語の格助詞「を」は動詞に近い位置で使われることが自然な日本語の中では多いので、直接目的語の文節の直後の名詞を取ると、同じ動詞語の目的語となる名詞句であることが多いからである。該代替の方法では、名詞語の取り逃がしもあるが、その分、ノイズも少ないために有用である。直接目的語の格助詞「を」が動詞に近い位置で使われることが自然な日本語の中では多いとは、例えば、「コンピュータを私が買う」よりも「私がコンピュータを買う」の方が多いということである。
 ステップ518では、コンピュータ・システム(201)は、名詞語NPiが数字を含むかどうかを判定する。名詞語NPiが数字を含む場合、ステップ519に進む。一方、名詞語NPiが数字を含まない場合、ステップ520に進む。
 ステップ519では、コンピュータ・システム(201)は、S’のVpにスコアCを付与する。図5Cの例では、S’がシード表現Sn及び用語候補x12の場合である。
 ステップ520では、コンピュータ・システム(201)は、全てのS’について、上記ステップ516~519の処理が行われたかどうかを判断する。処理が行われていれば、図5Dのステップ521に進む。一方、処理が行われていなければステップ516に戻る。全てのシード表現s1, s2, …, sn及び用語候補x11,… , xnkについて上記処理が終わるまで、上記ステップ516~519の処理が繰り返される。
 図5Cの処理の具体例は、下記の通りである。
 文章中に「値Aを入力する」及び「値Bを入力する」という語があるとする。
 シード表現又は用語候補が値Aである場合、“値A”が修飾する動詞語は「入力する」である。よって、該動詞語「入力する」と同じ動詞語を修飾する他の名詞語「値B」が収集される。しかし、値Bが数値を含むために、“値A”のVpにスコアCが付与される。
 図5Dは、本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。
 ステップ521では、コンピュータ・システム(201)は、シード表現のうち、表の1行目に出現する名詞語をt1, t2, …, tmとする。シード表現のうちから、未処理のものを取り出してtiとする。
 ステップ522では、tiに対して、対象文書データ(205)又は参照コーパスにおいて所有格語が係る回数を調べて、fcとする。tiに対して所有格語が係るとは、“○○のti”という表現である。ステップ522では、図4Aの前処理結果1が使用されうる。
 ステップ523では、コンピュータ・システム(201)は、所定の閾値に対して、fc<thであるかどうかを判定する。閾値は例えば、tiの出現頻度が、tiの全出現頻度の10%である。すなわち、tiが文書全体に10回出てくるならth=1回と定める。fc<thである場合、ステップ524に進む。一方、fc>=th である場合、ステップ525に進む。
 ステップ524では、コンピュータ・システム(201)は、tiのVsにスコアDを付与する。図5Dの例では、i=mの場合である。
 ステップ525では、コンピュータ・システム(201)は、tiのVcにスコアAを付与する。図5Dの例では、i=2の場合である。
 なお、スコアC>スコアDである。
 ステップ526では、コンピュータ・システム(201)は、全てのtiについて、上記ステップ521~525の処理が行われたかどうかを判断する。処理が行われていれば、図5Eのステップ527に進む。一方、処理が行われていなければ、ステップ521に戻る。全てのtiについて上記重み付けが終わるまで、上記ステップ521~525の処理が繰り返される。
 図5Eは、本発明の実施態様である、シード表現及び用語候補に対する重みの付与の例を示す。
 ステップ527では、コンピュータ・システム(201)は、シード表現のうち、表の1行目に出現する名詞語をt1, t2, …, tmとする。シード表現のうちから、未処理のものを取り出してtiとする。
 ステップ528では、コンピュータ・システム(201)は、種語後続語の全てについて、tiのタイプと一致するかどうかを判定する。ステップ528では、図4Bの種語後続語が使用されうる。一致する場合、ステップ529に進む。一方、一致しない場合、ステップ530に進む。
 ステップ529では、コンピュータ・システム(201)は、tiのVsにスコアCを付与する。図5Eの例では、i=1の場合である。
 ステップ530では、コンピュータ・システム(201)は、全てのtiについて、上記ステップ527~529の処理が行われたかどうかを判断する。処理が行われていれば、図5Fのステップ531に進む。一方、処理が行われていなければ、ステップ527に戻る。全てのtiについて上記重み付けが終わるまで、上記ステップ527~529の処理が繰り返される。
 図5Eの処理の具体例は、下記の通りである。
 文章又は参照コーパス中に「機能リスト」及び「機能の概要」という語があるとする。
 種語として“機能”が入力されることに応じて、「リスト」は種語「機能」の後接する語であるので、名詞語「リスト」が種語後続語リストに追加される。同様に、種語として“機能”が入力されることに応じて、「概要」は種語「機能」が所有格語として修飾する語であるので、名詞語「概要」が種語リストに追加される。
 次に、文書データ中に「ボタンAの機能」及び「ボタンBの機能」という語があるとする。上記種語「機能」のタイプと、「ボタンAの機能」のうちの「機能」のタイプ及び「ボタンBの機能」のうちの「機能」のタイプは一致する。
 よって、名詞語「機能」のVsにスコアCを付与する。
 上記説明では、図5Dに記載のステップ(521~526)、引き続き図5Eに記載のステップ(527~530)の順に行われることを説明した。しかし、図5Dに記載のステップと図5Eに記載のステップの実行順序は逆でもよく、又は同時に行われてもよい。
 図5Fは、本発明の実施態様である、名詞語の種類の決定を示す。
 ステップ531では、コンピュータ・システム(201)は、シード表現s1, s2, …, sn及び用語候補 x11, … , xnkのそれぞれについて、Vc、Vp及びVsを比較し、最も高い重みを有する種類を採用し、シード表現及び用語候補の種類を決定する。
 図5Fの表に示した例では、シード表現及び用語候補の種類は下記の通りである。
 シード表現s1では、VcのみにスコアAが付与されているので、s1の種類はVcであると決定される。
 用語候補x11では、VcのみにスコアBが付与されているので、x11の種類はVpであると決定される。
 用語候補x12では、VpにスコアB+Cが付与され、VsにスコアCが付与されている。B+C>Cであるので、x12の種類はVpであると決定される。
 シード表現s2では、VpにスコアAが付与され、VsにスコアB+Cが付与されている。ここで、A、B及びCの各値は、言語、文書の種類によって異なりうる任意のパラメータであるので、スコアB+C>Aであればs2の種類はVsであり、一方、スコアA>B+Cであればs2の種類はVpである。図5Fの例では、スコアB+C>Aであることを前提としているので、s2の種類はVsであると決定される。
 シード表現snでは、VpにスコアA+Cが付与され、VsにスコアB+Dが付与されている。A+C>B+Dであるので、snの種類はVpであると決定される。
 ステップ532では、コンピュータ・システム(201)は、シード表現 s1, s2, …, sn及び用語候補 x11, … , xnkのそれぞれに対して、抽出された名詞語の重要度として、max(Vc, Vp, Vs)を付与する。代替的に、重要度は、各名詞語の出現頻度をFとして、max(Vc, Vp, Vs)=Tとすると、例えば、出現頻度でフィルターをかけるために、logF*Tを重要度して求めてもよい。
 図5Fの表に示した例では、シード表現及び用語候補の重要度としてmax(Vc, Vp, Vs)を付与した例を示す。
 シード表現s1では、VcのみにスコアAが付与されているので、s1の重要度はAである。
 用語候補x11では、VcのみにスコアBが付与されているので、x11の重要度はBである。
 用語候補x12では、VpにスコアB+Cが付与され、VsにスコアCが付与されている。B+C>Cであるので、x12の重要度はB+Cである。
 シード表現s2では、VpにスコアAが付与され、VsにスコアB+Cが付与されている。上記に述べたように、スコアB+C>Aであればs2の重要度はB+Cであり、一方、スコアA>B+Cであればs2の重要度はAである。図5Fの例では、スコアB+C>Aであることを前提としているので、s2の重要度はB+Cである。
 シード表現snでは、VpにスコアA+Cが付与され、VsにスコアB+Dが付与されている。A+C>B+Dであるので、snの重要度はA+Cである。
 図6A~図6Eは、本発明を適用した実施例を示す。
 図6Aは、従来の手法による名詞語の抽出結果を示す。
 図6Aの文書は携帯電話の説明書であり、技術文書の一例である。該説明書は、図及び表を用いて、コンポーネント及び機能について説明している。
 従来の名詞語の抽出技術を用いると、説明書中の名詞語が全て抽出される。図6Aでは、抽出された名詞語が、イタリック下線付きで示されている。
 図6Bは、本発明の実施例において、シード表現が抽出された結果を示す。
 コンピュータ・システム(201)は、上記説明書中のテキストセグメントを占める名詞語を、技術用語として確かなシード表現として抽出する。
 該例では、テキストセグメントは、図内の文字(図中のテキストセグメントである)、及び表の文字(表のセルからなるセグメントである)である。よって、図及び表中の「ディスプレイ」「ボタンA」及び「ボタンB」、並びに表中の「ID」、「名称」及び「色」がシード表現として抽出される。図6Bでは、シード表現が、イタリック下線付きで示されている。
 図6Cは、本発明の実施例において、テキスト処理情報を利用してシード表現に基づいて用語候補を抽出した結果を示す。
 コンピュータ・システム(201)は、例えば、「ボタンA…押す」という表現に基づいて、シード表現「ボタンA」が修飾する動詞語「押す」と同じ動詞語を修飾する語を収集する。上記説明書は、「ボタンX…押す」という文を有する。よって、コンピュータ・システム(201)は、文「ボタンX…押す」のうちの「ボタンX」を用語候補として抽出する。
 また、コンピュータ・システム(201)は、「ボタンAの色は…」という表現に基づいて、「ボタンA」のコンポーネントとしてのスコアVcを付与する。
 このようにして、コンピュータ・システム(201)は、シード表現の抽出及び用語候補の抽出と各用語の種類毎に重み付けを行い、所定の種類(Vc,Vp,Vs)に関連付けて各用語を出力する。
 図6Cでは、Vc(コンポーネント)に分類される名詞語が斜線一重下線付きで、Vp(パラメータ)に分類される名詞語が囲み付き文字で、及びVs(スキーマ)に分類される名詞語が二重下線付きでそれぞれ示されている。
 図6Dは、本発明の実施例における、重みの計算過程を示す。
 該例では、各スコアの値が、スコアW=100、スコアX=70、スコアY=40、スコアZ=10、スコアA=100、スコアB=70、スコアC=40、及びスコアD=10として、コンピュータ・システムに予め設定されている。
 名詞語「情報」、「電話」、「機能」及び「携帯端末」は、それらのスコアが所定の閾値未満であったために、シード表現とされていない。
 コンピュータ・システム(201)は、図3A及び図3Bに示されるステップに従って、名詞語「ディスプレイ」、「ボタンA」、「ボタンB」、「色」、「ID」及び「名称」をシード表現として抽出する。それらの重みは、図6Dに示す通りである(夫々、「2W+3Z」、「2W+2Z」、「2W+3Z」、「Z」、「W+2Z」、「W」及び「W」)。
 名詞語「ボタンX」は、図5Bに示されるステップによって得られる、シード表現からの用語候補である。
 コンピュータ・システム(201)は、上記シード表現及び上記用語候補それぞれについて、図5A~図5Fに示されるステップに従い、Vc、Vp及びVsの各重みを付与する。そして、コンピュータ・システム(201)は、上記シード表現及び上記用語候補それぞれについて、max(Vc, Vp, Vs)を決定する。コンピュータ・システム(201)は、得られたmax(Vc, Vp, Vs)に基づいて、上記シード表現及び上記用語候補の種類を決定する。図6Dでは、網掛け部分が、各名詞語について決定された分類を示す。
 さらに、コンピュータ・システム(201)は、得られたmax(Vc, Vp, Vs)に基づいて、上記シード表現及び上記用語候補の重要度を求める。
 図6Eは、従来の名詞語抽出による結果と、本発明の実施例である名詞語抽出の結果とを対比して示す。
 従来の名詞語抽出による結果に示されるように、技術文書では、出現頻度の低い表現でも抽出すべき用語となりうる。従って、単純な頻度ベースによる抽出手法では、多くの用語が列挙されてしまう。一方、本発明の実施態様によれば、技術用語が複数の種類のうちのいずかれに属することが決定され、該決定された種類に関連付けて技術用語を出力することが可能である。それぞれの種類で分類された用語リストは、膨大の技術文書の内容を利用者が理解するための助けとなりうる。
 図7は、本発明の実施形態である、コンピュータ・ハードウェアのブロック図を示す。
 本発明の実施例に係るコンピュータ・システム(701)は、CPU(702)とメイン・メモリ(703)と含み、これらはバス(705)に接続されている。CPU(702)は好ましくは、32ビットまたは64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、Atom(商標)シリーズ、Pentium(商標)シリーズ及びCeleron(商標)シリーズ、並びにAMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ及びSempron(商標)シリーズなどを使用することができる。バス(705)には、音声の入出力をおこなうためのインターフェースとして、サウンド・カード(704)が接続される。バス(705)にはまた、ディスプレイ・コントローラ(706)を介して、LCDモニタなどのディスプレイ(707)が接続される。ディスプレイ(707)は、そのコンピュータ(701)上で動作中のソフトウェアについての情報を、適当なグラフィック・インターフェースで表示するために使用される。バス(705)にはまた、IDE又はSATAコントローラ(708)を介して、ハードディスク又はシリコン・ディスク(709)と、CD-ROM、DVD又はBlu-rayドライブ(710)が接続されている。CD-ROM、DVD又はBDドライブ(710)は、必要に応じて、CD-ROM、DVD-ROM又はBDからプログラムをハードディスク又はシリコン・ディスク(709)に導入するために使用される。バス(705)には更に、キーボード・マウスコントローラ(711)を介して、或いはUSBコントローラ(図示せず)を介して、キーボード(712)及びマウス(713)が接続されている。
 通信インタフェース(715)は、例えばイーサネット(商標)プロトコルに従う。通信インタフェース(715)は、通信コントローラ(714)を介してバス(705)に接続され、コンピュータ(701)及び通信回線(716)を物理的に接続する役割を担い、コンピュータ(701)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インターフェース層を提供する。通信回線は、有線LAN環境、或いは例えばIEEE802.11a/b/g/nなどの無線LAN接続規格に基づく無線LAN環境であってもよい。
 以上、実施形態に基づき本発明を説明してきたが、本実施形態に記載されている内容は、本発明の一例であり、当業者なら、本発明の技術的範囲を逸脱することなく、さまざまな変形例に想到できることが明らかであろう。

Claims (25)

  1.  テキストセグメントを有する文書データから用語を抽出するためのコンピュータ・システムであって、
     第1のテキスト処理情報を用いて、前記文書データから名詞語を抽出する第1の抽出部と、
     第2のテキスト処理情報を用いて、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記抽出された名詞語についての用語候補を抽出する第2の抽出部と、
     前記抽出された名詞語及び前記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第3のテキスト処理情報を用いて前記複数の種類のうちのどの種類に重みを付与するかを選択し、前記抽出された名詞語及び前記抽出された用語候補それぞれに、前記選択された種類について重みを付与する重付部と、
     前記付与された重みに基づいて、前記抽出された名詞語及び前記抽出された用語候補が属する前記種類を決定する決定部と、
     前記決定に従い、前記抽出された名詞語及び前記抽出された用語候補を前記決定された種類に関連付けて出力する出力部と
     を含む、前記コンピュータ・システム。
  2.  前記重付部が、第4のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行い、
     前記決定部が、前記抽出された名詞語及び前記抽出された用語候補それぞれについて前記複数の種類の各重みを比較して、前記抽出された名詞語及び前記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する、請求項1に記載のコンピュータ・システム。
  3.  前記第1のテキスト処理情報が、文書の構造的な情報、言語の表層的な情報、言語の品詞情報又は形態素解析による情報であり、前記第2のテキスト処理情報、前記第3のテキスト処理情報及び前記第4のテキスト処理情報が語の係り受け情報である、請求項2に記載のコンピュータ・システム。
  4.  前記第1の抽出部が、
     前記文書データを形態素解析して名詞語(Ki(i=1,2,…,n))を抽出し、
     該抽出したKiが文書データ中に存在する位置及び割合の少なくとも1に従い、Ki夫々に重みを付与すること
     をさらに含む、請求項1に記載のコンピュータ・システム。
  5.  前記Kiが文書データ中に存在する位置に従い重みを付与することが、Kiが文中にあるかどうか、テキストセグメント中にあるかどうか、又は括弧中にあるかどうかに従い重みを付与することであり、
     前記Kiが文書データ中に存在する割合に従い重みを付与することが、Kiがテキストセグメント中又は括弧中の文字列を占める所定の割合に従い重みを付与することである、請求項4に記載のコンピュータ・システム。
  6.  前記Kiの前記位置が文中でない場合に、
      該Kiが前記テキストセグメント全体を占めているかどうかを判断し、
       該Kiがテキストセグメント全体を占めている場合に、該KiにスコアWを付与し、
       該Kiがテキストセグメント全体を占めていない場合に、該KiにスコアYを付与し、
     前記Kiの前記位置が文中である場合に、
      該Kiが該文中において括弧中にあり且つ括弧中の文字列全体を占めているかどうかを判断し、
       該Kiが括弧中にあり且つ括弧中の文字列全体を占めている場合に、該KiにスコアXを付与し、
       該Kiが括弧中にない又は括弧中の文字列全体を占めていない場合に、該KiにスコアZを付与し、
     ここで、スコアW>スコアX>スコアY>スコアZである、
     請求項4に記載のコンピュータ・システム。
  7.  前記第1の抽出部が、
     前記Kiについて同じ名詞語をまとめてSi(i=1,2,…,k)(n≧k)とし、
     前記Siそれぞれについて各Kiに付与された重みに基づいて重みを付与し、
     前記Siの重みが所定の閾値以上のSiを抽出すること
     をさらに含む、請求項4に記載のコンピュータ・システム。
  8.  前記第1の抽出部が、
     前記Siそれぞれの重みが所定の閾値の範囲内にあるかどうかを判断し、
      該Siの重みが所定の閾値の範囲内にある場合に、
       該Siの文字種の用語としての適否を判断し、
        適している場合に、該Siを抽出すべき名詞語とし、
        適していない場合に、該Siの重みを0に設定し、
      該Siの重みが所定の閾値の範囲内にない場合に、該Siの重みを0に設定する、
     請求項7に記載のコンピュータ・システム。
  9.  前記Siの文字種の適否が、前記Siの文字種が、数字、記号、若しくは平仮名のいずれかのみである場合、又は数字と記号のみの組み合わせである場合に適していないと判断される、請求項8に記載のコンピュータ・システム。
  10.  前記第2の抽出部が、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、所定の文法的要件を満たす用語候補を抽出することを含む、請求項1に記載のコンピュータ・システム。
  11.  前記所定の文法的要件を満たす用語候補を抽出することが、前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、前記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語を抽出することを含む、請求項10に記載のコンピュータ・システム。
  12.  前記重付部が、
     前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、前記抽出された名詞語及び前記抽出された用語候補それぞれに対して所有格語が係る回数を求めること、
     該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
     を含む、請求項1に記載のコンピュータ・システム。
  13.  前記複数の種類が、コンポーネント・タイプ(Vc)、パラメータ・タイプ(Vp)、及びスキーマ・タイプ(Vs)であり、
     前記Vcが、コンポーネントに属する用語の度合いを表し、
     前記Vpが、パラメータを表す用語の度合いを表し、
     前記Vsが、スキーマを表す用語の度合いを表す、
     請求項2に記載のコンピュータ・システム。
  14.  前記重付部が、
      前記抽出された名詞語について求めた回数が所定の閾値よりも低い場合に、前記抽出された名詞語についての前記VcにスコアAを付与し、
      前記抽出された名詞語について求めた回数が所定の閾値以上である場合に、前記抽出された名詞語についての前記Vp及び前記VsにスコアAを付与する、
     請求項13に記載のコンピュータ・システム。
  15.  前記重付部が、
      前記抽出された用語候補について求めた回数が所定の閾値よりも低い場合に、前記抽出された用語候補についての前記VsにスコアBを付与し、
      前記抽出された用語候補について求めた回数が所定の閾値以上である場合に、前記抽出された用語候補についての前記Vp及び前記VsにスコアBを付与し、
     ここで、スコアA>スコアBである、請求項14に記載のコンピュータ・システム。
  16.  前記第2の抽出部が、
     前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記抽出された名詞語を直接目的語とする動詞語を同定し、該同定した動詞語と同じ動詞語の目的語となる名詞語NPiを抽出し、
     前記重付部が、
     該抽出した名詞語NPiが数字を含む場合に、前記抽出された名詞語についての前記VpにスコアCを付与し、
     ここで、スコアB>スコアCである、請求項15に記載のコンピュータ・システム。
  17.  前記重付部が、
     前記抽出された名詞語のうち前記文書データのテキストセグメントの1行目に出現する名詞語tiに対して所有格語が係る回数を、前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて求めること、
     該求めた回数が所定の閾値の範囲内であるかどうかによって、重みを付与する種類を選択すること
     を含む、請求項16に記載のコンピュータ・システム。
  18.  前記重付部が、
      前記名詞語tiについて求めた回数が所定の閾値よりも低い場合に、前記名詞語tiに対応する前記抽出された名詞語についての前記VsにスコアDを付与し、
      前記名詞語tiについて求めた回数が所定の閾値よりも高い場合に、前記名詞語tiに対応する前記抽出された名詞語についての前記VcにスコアAを付与し、
     ここで、スコアA>スコアB>スコアC>スコアDである、請求項17に記載のコンピュータ・システム。
  19.  前記重付部が、
     スキーマになりうる用語(S-seed)のリスト入力に応答して、前記文書データにおいて又は該文書データと同じ言語で記載されたテキストデータを含むコーパスにおいて、該S-seedに後接する名詞語と、該S-seedが所有格語として係る名詞語の頻度を求めること、
     該前記S-seedに後接する名詞語及び該S-seedが所有格語として係る名詞語のうち、前記頻度が1以上である名詞語をリストとして格納すること
     を含む、請求項18に記載のコンピュータ・システム。
  20.  前記重付部が、
     前記抽出された名詞語のうち前記文書データのテキストセグメントの1行目に出現する名詞語tiが前記リスト中に記憶された名詞語と一致する場合に、前記名詞語tiに対応する前記抽出された名詞語についての前記VcにスコアDを付与する、
     請求項19に記載のコンピュータ・システム。
  21.  前記決定部が、前記抽出された名詞語及び前記抽出された用語候補それぞれについて、前記Vc、前記Vp及び前記Vsの各種類の重みを比較して、前記抽出された名詞語及び前記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定する、請求項13に記載のコンピュータ・システム。
  22.  テキストセグメントを有する文書データから用語を抽出するための方法であって、
     第1のテキスト処理情報を用いて、前記文書データから名詞語を抽出し、該抽出した名詞語を記憶部に格納するステップと、
     第2のテキスト処理情報を用いて、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記抽出された名詞語についての用語候補を抽出し、該抽出した名詞を前記記憶部に格納するステップと、
     前記抽出された名詞語及び前記抽出された用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第3のテキスト処理情報を用いて前記複数の種類のうちのどの種類に重みを付与するかを選択し、前記抽出された名詞語及び前記抽出された用語候補それぞれに、前記選択された種類について重みを付与し、該与えられた重みを前記記憶部に格納するステップと、
     前記付与された重みに基づいて、前記抽出された名詞語及び前記抽出された用語候補が属する前記種類を決定するステップと、
     前記決定に従い、前記抽出された名詞語及び前記抽出された用語候補を前記決定された種類に関連付けて表示装置上に出力するステップと
     を含む、前記コンピュータ・システム。
  23.  前記与えられた重みを前記記憶部に格納するステップが、第4のテキスト処理情報を用いて上記選択と上記重みの付与とを複数回繰り返し行うステップをさらに含み、
     前記決定するステップが、前記抽出された名詞語及び前記抽出された用語候補それぞれについて前記複数の種類の各重みを比較して、前記抽出された名詞語及び前記抽出された用語候補それぞれを最も高い重みが付与された種類に属する名詞語であると決定するステップをさらに含む、請求項22に記載の方法。
  24.  テキストセグメントを有する文書データから用語を抽出するための方法であって、
     形態素解析による情報及び言語の品詞情報を用いて、記憶部に格納された前記文書データから名詞語を抽出し、文書の構造的な情報及び言語の表層的な情報の少なくとも1を用いて前記抽出した名詞語から所定の要件を満たす名詞語(以下、シード表現)を抽出し、該シード表現を記憶部に格納するするステップと、
     第1の語の係り受け情報を用いて、前記文書データから又は該文書データと同じ言語で記載されたテキストデータを含むコーパスから、前記シード表現についての用語候補を抽出し、該抽出した用語候補を前記記憶部に格納するステップと、
     前記シード表現及び前記用語候補が複数の種類のうちのどの種類に属する名詞語であるかを決定するために、第2の語の係り受け情報を用いて前記複数の種類のうちのどの種類に重みを付与するかを選択し、前記シード表現及び前記用語候補それぞれに、前記選択された種類について重みを付与し、該与えられた重みを前記記憶部に格納するステップであって、
     上記複数の種類が、コンポーネント・タイプ(Vc)、パラメータ・タイプ(Vp)、及びスキーマ・タイプ(Vs)であり、
     上記Vcが、コンポーネントに属する用語の度合いを表し、
     上記Vpが、パラメータを表す用語の度合いを表し、
     上記Vsが、スキーマを表す用語の度合いを表す、
     前記格納するステップと、
     第3の語の係り受け情報を用いて上記選択をすることと上記重みを付与することとを複数回繰り返すステップと、
     前記シード表現及び前記用語候補それぞれについて前記種類Vc、Vp及びVsの各重みを比較して、前記シード表現語及び前記用語候補それぞれが最も高い重み(最大値(Vc,Vp,Vs))を付与された種類に属する名詞語であると決定するステップと、
     前記決定に従い、前記抽出された名詞語及び前記抽出された用語候補を前記決定された種類に関連付けて表示装置上に出力するステップと
     を含む、前記方法。
  25.  コンピュータに、請求項23又は24のいずれかに記載の方法の各ステップを実行させることを含む、コンピュータ・プログラム。
PCT/JP2009/063584 2008-10-02 2009-07-30 テキストセグメントを有する文書から用語を抽出するためのシステム WO2010038540A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US13/121,982 US8463794B2 (en) 2008-10-02 2009-07-30 Computer system, method, and computer program for extracting terms from document data including text segment
BRPI0913815-3A BRPI0913815B1 (pt) 2008-10-02 2009-07-30 equipamento de computador e método para extração de termos a partir de dados de documentos incluindo segmentos de texto
JP2010531786A JP5106636B2 (ja) 2008-10-02 2009-07-30 テキストセグメントを有する文書から用語を抽出するためのシステム
EP09817577.1A EP2315129A4 (en) 2008-10-02 2009-07-30 TERMINATION EXTRACTION SYSTEM OF A DOCUMENT CONTAINING A TEXT SEGMENT
CN2009801345355A CN102144229B (zh) 2008-10-02 2009-07-30 用于从具有文本段的文档中提取术语的系统
KR1020117008373A KR101498331B1 (ko) 2008-10-02 2009-07-30 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
US13/899,020 US9043339B2 (en) 2008-10-02 2013-05-21 Extracting terms from document data including text segment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008257388 2008-10-02
JP2008-257388 2008-10-02

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/121,982 A-371-Of-International US8463794B2 (en) 2008-10-02 2009-07-30 Computer system, method, and computer program for extracting terms from document data including text segment
US13/899,020 Continuation US9043339B2 (en) 2008-10-02 2013-05-21 Extracting terms from document data including text segment

Publications (1)

Publication Number Publication Date
WO2010038540A1 true WO2010038540A1 (ja) 2010-04-08

Family

ID=42073317

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/063584 WO2010038540A1 (ja) 2008-10-02 2009-07-30 テキストセグメントを有する文書から用語を抽出するためのシステム

Country Status (7)

Country Link
US (2) US8463794B2 (ja)
EP (1) EP2315129A4 (ja)
JP (1) JP5106636B2 (ja)
KR (1) KR101498331B1 (ja)
CN (1) CN102144229B (ja)
BR (1) BRPI0913815B1 (ja)
WO (1) WO2010038540A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191204A (ja) * 2012-02-15 2013-09-26 Rakuten Inc カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2013210712A (ja) * 2012-03-30 2013-10-10 Internatl Business Mach Corp <Ibm> 電子文書に含まれる非自己記述的用語を特定するためのコンピュータ実装方法、プログラムおよびシステム
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719692B2 (en) * 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US9223859B2 (en) 2011-05-11 2015-12-29 Here Global B.V. Method and apparatus for summarizing communications
US9436891B2 (en) 2013-07-30 2016-09-06 GlobalFoundries, Inc. Discriminating synonymous expressions using images
JP6277921B2 (ja) * 2014-09-25 2018-02-14 京セラドキュメントソリューションズ株式会社 用語集管理装置および用語集管理プログラム
US20160117386A1 (en) 2014-10-22 2016-04-28 International Business Machines Corporation Discovering terms using statistical corpus analysis
CN105159892B (zh) * 2015-08-28 2018-04-03 长安大学 一种语料提取器及提取语料的方法
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
US20200201917A1 (en) * 2017-09-11 2020-06-25 Shimadzu Corporation Sample category identification device, analysis system, and analysis network system
CN110020140B (zh) * 2017-11-15 2023-02-21 腾讯科技(深圳)有限公司 推荐内容显示方法、装置及系统
CN107918606B (zh) * 2017-11-29 2021-02-09 北京小米移动软件有限公司 具象名词识别方法、装置及计算机可读存储介质
US10394955B2 (en) 2017-12-21 2019-08-27 International Business Machines Corporation Relation extraction from a corpus using an information retrieval based procedure
US10929106B1 (en) * 2018-08-13 2021-02-23 Zoho Coroporation Private Limited Semantic analyzer with grammatical-number enforcement within a namespace
US11151175B2 (en) 2018-09-24 2021-10-19 International Business Machines Corporation On-demand relation extraction from text
CN111291167B (zh) * 2018-12-07 2023-05-05 宁波方太厨具有限公司 基于图像识别的产品纸质说明书自动查检方法
WO2021007088A1 (en) * 2019-07-05 2021-01-14 Elsevier, Inc. Systems and methods to extract the context of scientific measurements using targeted question answering

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09190438A (ja) * 1996-01-12 1997-07-22 Canon Inc 情報処理装置及びその方法
JPH10177575A (ja) 1996-10-15 1998-06-30 Ricoh Co Ltd 語句抽出装置および方法、情報記憶媒体
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
JP2005196513A (ja) * 2004-01-08 2005-07-21 Just Syst Corp 文書表示装置、文書表示方法、および文書表示プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6253202B1 (en) * 1998-09-18 2001-06-26 Tacit Knowledge Systems, Inc. Method, system and apparatus for authorizing access by a first user to a knowledge profile of a second user responsive to an access request from the first user
EP1189150A4 (en) * 2000-01-05 2004-10-06 Mitsubishi Electric Corp DEVICE FOR EXTRACTING KEYWORDS
US6999963B1 (en) * 2000-05-03 2006-02-14 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US20050004806A1 (en) * 2003-06-20 2005-01-06 Dah-Chih Lin Automatic patent claim reader and computer-aided claim reading method
CN100336056C (zh) * 2005-01-07 2007-09-05 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
US8135728B2 (en) * 2005-03-24 2012-03-13 Microsoft Corporation Web document keyword and phrase extraction
US20070016863A1 (en) * 2005-07-08 2007-01-18 Yan Qu Method and apparatus for extracting and structuring domain terms
US8463810B1 (en) * 2006-06-01 2013-06-11 Monster Worldwide, Inc. Scoring concepts for contextual personalized information retrieval
WO2007143223A2 (en) * 2006-06-09 2007-12-13 Tamale Software, Inc. System and method for entity based information categorization
CN101122909B (zh) * 2006-08-10 2010-06-16 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
US8166045B1 (en) * 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US8214346B2 (en) * 2008-06-27 2012-07-03 Cbs Interactive Inc. Personalization engine for classifying unstructured documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09190438A (ja) * 1996-01-12 1997-07-22 Canon Inc 情報処理装置及びその方法
JPH10177575A (ja) 1996-10-15 1998-06-30 Ricoh Co Ltd 語句抽出装置および方法、情報記憶媒体
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
JP2005196513A (ja) * 2004-01-08 2005-07-21 Just Syst Corp 文書表示装置、文書表示方法、および文書表示プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2315129A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013191204A (ja) * 2012-02-15 2013-09-26 Rakuten Inc カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2013210712A (ja) * 2012-03-30 2013-10-10 Internatl Business Mach Corp <Ibm> 電子文書に含まれる非自己記述的用語を特定するためのコンピュータ実装方法、プログラムおよびシステム
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法

Also Published As

Publication number Publication date
EP2315129A4 (en) 2016-06-15
JP5106636B2 (ja) 2012-12-26
US20110208728A1 (en) 2011-08-25
BRPI0913815B1 (pt) 2019-11-12
US8463794B2 (en) 2013-06-11
US20130253916A1 (en) 2013-09-26
CN102144229A (zh) 2011-08-03
CN102144229B (zh) 2013-09-04
BRPI0913815A2 (pt) 2015-10-20
JPWO2010038540A1 (ja) 2012-03-01
EP2315129A1 (en) 2011-04-27
KR101498331B1 (ko) 2015-03-03
US9043339B2 (en) 2015-05-26
KR20110081194A (ko) 2011-07-13

Similar Documents

Publication Publication Date Title
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
Gardent et al. Creating training corpora for nlg micro-planning
US10296584B2 (en) Semantic textual analysis
US10496756B2 (en) Sentence creation system
US10282468B2 (en) Document-based requirement identification and extraction
Chuang et al. Termite: Visualization techniques for assessing textual topic models
US8375033B2 (en) Information retrieval through identification of prominent notions
JP5086799B2 (ja) 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Sato et al. End-to-end argument generation system in debating
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
RU2601166C2 (ru) Разрешение анафоры на основе технологии глубинного анализа
WO2007105202A2 (en) Automatic reusable definitions identification (rdi) method
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
CN100361124C (zh) 用于词分析的系统和方法
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2019083040A (ja) 文章生成のためのデータを生成するシステム及び方法
CN111597793B (zh) 基于sao-adv结构的论文创新性的测度方法
Al-Ayyoub et al. Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study.
JP2010191851A (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
Quochi et al. A MWE acquisition and lexicon builder web service
JP2009098932A (ja) 連想検索システム
DeVille et al. Text as Data: Computational Methods of Understanding Written Expression Using SAS
CN112182228B (zh) 一种短文本热点主题挖掘与概括方法及装置
JP2019200488A (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980134535.5

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09817577

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2009817577

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2009817577

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010531786

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20117008373

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13121982

Country of ref document: US

ENP Entry into the national phase

Ref document number: PI0913815

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20110401