WO2007108529A1 - 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム - Google Patents

情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム Download PDF

Info

Publication number
WO2007108529A1
WO2007108529A1 PCT/JP2007/055958 JP2007055958W WO2007108529A1 WO 2007108529 A1 WO2007108529 A1 WO 2007108529A1 JP 2007055958 W JP2007055958 W JP 2007055958W WO 2007108529 A1 WO2007108529 A1 WO 2007108529A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
candidate
phrase
character string
pattern
Prior art date
Application number
PCT/JP2007/055958
Other languages
English (en)
French (fr)
Inventor
Hironori Mizuguchi
Masaaki Tsuchida
Dai Kusui
Hideki Kawai
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2008506343A priority Critical patent/JP5083669B2/ja
Priority to US12/294,143 priority patent/US8886661B2/en
Publication of WO2007108529A1 publication Critical patent/WO2007108529A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Definitions

  • Information extraction system information extraction method, information extraction program, and information service system
  • the phrase refers to a word or a group of a plurality of words.
  • Examples of the grouping of a plurality of words include a phrase composed of a plurality of words, a proverb or an idiomatic phrase.
  • proper nouns such as personal names and place names are also included in the concept of phrases.
  • a dictionary is a list of similar words.
  • the word selecting means calculates the word score indicating the importance of the pattern candidate used to identify the word candidate or the number of documents in which the word candidate appears.
  • the phrase candidates may be sorted in descending order of the phrase score, and a predetermined percentage of the phrase candidates may be selected as output target phrases.
  • the non-turn determining means determines only the character string in front of the words included in the input word list or only the character string after the words included in the input word list as a pattern
  • the word candidate extracting means The character string following the preceding character string or the character string immediately before the following character string is extracted as a document candidate, and the word selection means creates a partial character string included in the word candidate,
  • a configuration may be used in which a word or phrase to be output is selected from each created partial character string. According to such a configuration, it is possible to output a phrase excluding unnecessary suffixes or prefixes.
  • the information service system is associated with the above-described information extraction system, a dictionary database that stores a dictionary that is a list of similar phrases, and the creation of the dictionary and the sale of the dictionary.
  • a dictionary service system that manages the amount of money received and received, and the dictionary service system inputs the input word list created by the input word list creator into the information extraction system, and the information extraction system also displays the list of phrases.
  • the registration means for registering the dictionary including the words included in the list of words and the input word list in the dictionary database, and the dictionary stored in the dictionary database in response to a request from the dictionary purchaser terminal.
  • An information service system receives a keyword from an information extraction system described above, a dictionary database that stores a dictionary that is a list of similar phrases, and an advertisement display device that displays advertisements.
  • An advertisement service system that transmits an advertisement to the display device, and the advertisement service system inputs the input word list created by the input word list creator into the information extraction system to obtain the information extraction system power phrase list.
  • Registration means for registering a dictionary including words included in the received word list and the input word list in the dictionary database, advertisement storage means for storing the advertisement and related keywords related to the advertisement in association with each other, and an advertisement display device Dictionaries containing keywords received from Searches from dictionaries stored in the dictionary database, reads advertisements associated with the words included in the searched dictionary and advertisement display device ability from advertisement storage means and reads advertisements associated with received keywords And an advertisement providing means for transmitting to the advertisement display device.
  • the information extraction method is an information extraction method for extracting words and phrases in a document
  • the input means inputs an input word list including a plurality of words
  • the pattern determination means includes: Select one document from multiple documents including documents with different formats, and determine the character string that separates the words / phrases contained in the input word list from the non-extractable character strings as a pattern in the selected document. This is performed for each document, and the word candidate extracting means extracts the character string delimited by the pattern as the word candidate by extracting the document power used for determining the pattern, and the phrase selecting means is extracted by the word candidate extracting means.
  • a candidate word or partial character string that satisfies a predetermined condition among partial character strings included in the candidate word or the candidate word is selected as an output target word.
  • the non-turn determining means determines the character string before and after the word included in the input word list as a pattern, and the word candidate extracting means determines the character sandwiched between the character string before and after the character string. It may be a method of extracting a word from the column as document candidates and selecting a phrase to be output from the phrase candidates extracted by the phrase selection means.
  • the word selecting means calculates the word score indicating the importance of the pattern candidate used to identify the word candidate or the number of documents in which the word candidate appears. However, it is also possible to select a word / phrase candidate having a word / score score equal to or higher than a predetermined threshold as a word to be output.
  • the phrase selection means calculates for each word candidate a word score indicating the importance of the pattern candidate used to identify the word candidate or the number of documents in which the word candidate appears. Then, it is also possible to sort the word candidates in order of high word score and select word candidates that are higher than a predetermined rank as output target words! /.
  • the phrase selection means calculates a phrase score indicating the degree of importance of the pattern candidate used to identify the phrase candidate or the number of documents in which the phrase candidate appears for each phrase candidate. Then, the method may be such that the word candidates are sorted in order from the highest word score, and the word candidates with a predetermined percentage of the top are selected as output words.
  • the non-turn determining means determines only the character string in front of the words included in the input word list or only the character string after the words included in the input word list as a pattern, and the word candidate extracting means The character string following the preceding character string or the character string immediately before the following character string is extracted as a document candidate, and the word selection means creates a partial character string included in the word candidate, A method of selecting a word to be output from each created partial character string may be used.
  • the phrase selecting means calculates the ratio of the phrase candidates including the partial character string to the total number of the phrase candidates for each word candidate and each partial character string, and the ratio falls within a predetermined range. Include the specified partial character string to identify the partial character string to which it belongs and specify the high importance of the pattern candidate used to identify the word candidate or the word score indicating the number of documents in which the word candidate appears. Even if it is a method of calculating for each word candidate, the calculation result is the word score of the partial character string, and a word string having a predetermined score and a value equal to or greater than a value is selected as the word to be output. Yo ...
  • the phrase selecting means calculates a ratio of the phrase candidates including the partial character string to the total number of the phrase candidates for each candidate word and each partial character string, and the ratio is within a predetermined range. Include the specified partial character string to identify the partial character string to which it belongs and specify the high importance of the pattern candidate used to identify the word candidate or the word score indicating the number of documents in which the word candidate appears. It is calculated for each word candidate, and the calculation result is the word score of the partial character string, and the partial character string that is higher than the predetermined rank by sorting the partial character strings in order of high word score! Even the way to choose as ⁇ .
  • the phrase selecting means calculates a ratio of the phrase candidates including the partial character string to the total number of the phrase candidates for each word candidate and each partial character string, and the ratio falls within a predetermined range. Include the specified partial character string to identify the partial character string to which it belongs and specify the high importance of the pattern candidate used to identify the word candidate or the word score indicating the number of documents in which the word candidate appears. It is calculated for each word candidate, and the calculation result is set as the word score of the partial character string. It is also possible to select a string as an output target phrase.
  • the document search means includes a plurality of documents including documents having different formats, and includes all the plurality of words / phrases selected from the input word list out of the plurality of documents stored in the storage device in advance.
  • the document may be searched, and the pattern determining means may determine the pattern for each document searched by the document searching means.
  • recreating means assigns the list of words selected by the word selecting means to the document searching means as an input word list.
  • the re-creating means may be a method of giving the list of phrases selected by the phrase selecting means to the non-turn determining means as an input word list.
  • an information extraction program is an information extraction program mounted on a computer that extracts and outputs a word power in a document, and inputs an input word list including a plurality of words to the computer.
  • the pattern is determined for each document, the character string delimited by the pattern is extracted from the document used to determine the pattern, and is extracted by the word candidate extraction process and the word candidate extraction process.
  • a candidate word or partial character string satisfying a predetermined condition among the selected word candidates or partial character strings included in the word candidate is selected as a word to be output. Characterized in that to execute a phrase selecting process to.
  • FIG. 1 is a block diagram showing a first embodiment of an information extraction system according to the present invention.
  • FIG. 2 is a flowchart showing an example of the operation of the data processing device according to the first embodiment.
  • FIG. 3 is an explanatory diagram showing an example of a document group.
  • FIG. 10 is an explanatory diagram showing an example of a pattern candidate in the second embodiment.
  • FIG. 12 is a block diagram showing a third embodiment of the information extraction system according to the present invention.
  • FIG. 13 is a block diagram showing a fourth embodiment of the information extraction system according to the present invention.
  • ⁇ 17 It is a block diagram showing a seventh embodiment of the present invention.
  • FIG. 18 is a block diagram showing an eighth embodiment of the present invention.
  • FIG. 1 is a block diagram showing a first embodiment of an information extraction system according to the present invention.
  • the information extraction system of the first embodiment includes an input device 100, a data processing device 200 that operates under program control, an output device 300, and a storage device 400 that stores information.
  • the pattern candidate creation means 11 extracts data for one record (one document ID and the document body corresponding to the document ID) from the document group 15, and specifies the appearance position of the input word in the document body. (Step Sl shown in Figure 2).
  • the pattern candidate creating means 11 specifies the appearance position of each input word included in the input word list in step S1. Note that the data retrieved in step S1 is one record. Therefore, the processing from step S1 to step S3 described later is performed for each document.
  • the backward pattern candidates are determined in the same manner.
  • the character string (10 characters) behind the input word “Product A” is “kufont> ⁇ br”.
  • the sentence behind "Product B” The character string (for 10 characters) is “ku Zfont> ⁇ br”.
  • the character string (10 characters) behind one “Product C” is “ ⁇ Zfont> ⁇ p>” and behind the other “Product C”
  • the character string (for 10 characters) is “category b> ⁇ b”.
  • the pattern candidate creation means 11 compares each backward character string and extracts a character string that becomes a common part.
  • “ ⁇ Zfont> ⁇ ” is determined as a backward pattern candidate because “kuzfont> ⁇ ” is common to three of the input words that appear four times.
  • “K Zf ont> ⁇ brj” is common to two input words out of four input words, “K Zf ont> ⁇ brj is determined as a backward pattern candidate.
  • the entire character string “ ⁇ Zfont> ⁇ p>” and “ ⁇ category b> ⁇ b>” are not in common with others, but the pattern candidate creation means 11
  • the whole “category b> ⁇ b” is also determined as a backward pattern candidate.
  • step S5 the phrase candidate creating means 12 extracts one record from the pattern candidate 16 stored in the storage device 400, and determines the appearance positions of the front pattern candidate and the rear pattern candidate in the document text corresponding to the document ID. Identify (step S5 shown in Figure 2). First, in step S5, the phrase candidate creating means 12 first extracts one record from the no-turn candidate 16. Then, the phrase candidate creating means 12 reads the document text corresponding to the document ID included in the record from the document group 15. The phrase candidate creating means 12 specifies the appearance positions of the front pattern candidate and the rear pattern candidate included in the extracted record in the text of the document.
  • the pattern candidate creating means 11 determines a pattern candidate for only the front or rear. That is, in the present embodiment, the pattern candidate creating means 11 determines only the forward pattern candidate or only the backward pattern candidate as a no-turn candidate.
  • the data processing apparatus 200 may store information indicating whether to use a forward pattern candidate or a backward pattern candidate as a pattern candidate, and use only the forward pattern candidate or the backward pattern candidate according to the information.
  • information indicating whether to use a forward pattern candidate or a backward pattern candidate as a pattern candidate is also input by the user through the input device 100, and the data processing device 200 determines only the forward pattern candidate according to the information. Or you can use only the back pattern candidates.
  • the pattern candidate creating means 11 calculates a pattern score, and stores the calculation result in the storage device 400 (step S31).
  • the pattern candidate creation means 11 calculates a pattern score from only the front pattern candidate or only the back pattern candidate.
  • the pattern score when the pattern score is calculated from only the forward pattern candidates, the ratio of the number of forward pattern candidate appearances in front of the input word appearance position to the total number of input words appearing in the document is defined as the pattern score. do it. That is, the pattern candidate creating means 11 may calculate the pattern score by calculating “the number of front pattern candidate appearances in front of the input word appearance position Z the number of all input words appearing in the document”.
  • step S51 the phrase candidate creating means 12 extracts one record from the pattern candidates 16 stored in the storage device 400, and specifies the appearance position of the forward pattern candidate in the document text corresponding to the document ID (step S51). S51). However, when processing is performed using only the back pattern candidates (ie, only the back pattern candidates are determined in step S21), the appearance position of each back pattern candidate is specified.
  • the phrase candidate creating means 12 specifies a phrase candidate (step S61).
  • a phrase candidate a character string of a predetermined number of characters following the forward pattern candidate is specified as a word / phrase candidate.
  • a character string having a predetermined number of characters immediately before the backward pattern candidate is specified as a word / phrase candidate.
  • the predetermined number of characters may be determined in advance. Alternatively, the number of characters may be input through the input device 100, and the phrase candidate creating unit 12 may determine the number of characters as a predetermined number of characters.
  • phrase candidate creating means 12 does not adopt a character string including the input word immediately after the forward pattern candidate (or immediately before the backward pattern candidate) as a phrase candidate.
  • the phrase candidate creation means 12 includes the identified phrase candidate, the document ID of the document from which the phrase candidate is extracted, and the pattern candidate (forward pattern candidate or backward pattern candidate) used to identify the phrase.
  • the pattern ID and the pattern score are associated with each other and stored in the storage device 400 as the word / phrase candidate 17.
  • FIG. 11 shows an example of the phrase candidate 17 in the present embodiment.
  • the phrase candidate 17 in the present embodiment includes a document ID, a phrase candidate, a pattern ID, and a pattern score, as in the case of the first embodiment.
  • One record in word candidate 17 corresponds to one word candidate.
  • the number of candidate characters for each word is a predetermined number (6 in this example), and unnecessary suffixes, tag character strings, and the like are still added.
  • the phrase selecting means 13 refers to the phrase candidate 17 and searches for a record including the created partial character string. Then, the phrase selecting unit 13 determines whether or not the ratio of the number of records including the partial character string to the total number of records is within a predetermined range. The phrase selecting means 13 performs this determination process for each created partial character string, and the ratio of the number of records including the partial character string to the total number of records is within a predetermined range.
  • the column is the target of the phrase score calculation.
  • the phrase candidate selecting means 13 may hold in advance information indicating the predetermined range.
  • information indicating a predetermined range may be input from the user via the input device 100, and the phrase selecting unit 13 may perform the above-described determination process using the predetermined range.
  • the predetermined ratio is preferably, for example, in the range of 20% to 40%. The force is not limited to this range.
  • step S81 A specific example of step S81 will be described using the case where the first record of word candidate 17 illustrated in FIG. 11 is taken as an example.
  • the phrase selection means 13 creates a partial character string from the phrase candidate “product D ⁇ Zt”, and “product”, “product”, “product D”, “product D”, “product D ⁇ Z”. ”,“ Product D ⁇ Zt ”6 substrings are obtained.
  • the phrase selection means 13 searches for a record including each partial character string. For the substrings “Made” and “Product”, the 8 records of the 1, 2, 3, 4, 5, 8, 9, and 10 records are searched from the word candidate 17 shown in FIG. For the substring “Product D”, search the 3rd record of the 1st, 4th and 9th records.
  • the phrase selecting means 13 is a partial character in which the ratio of the number of records including the partial character string to the total number of records is within a predetermined range (in this example, within a range of 20% to 40%).
  • the column is the target of the phrase score calculation. In the example shown in Fig. 11, the total number of records is 10, so “Product D” is the target of the phrase score calculation.
  • a word / phrase is selected from a character string (a word / phrase candidate partial character string) that is a target of word / phrase score calculation (step S10).
  • the word / phrase selection method in step S10 is the same as in the first embodiment. For example, you may select the partial character string whose phrase score value is more than a predetermined threshold value. Further, for example, partial character strings may be sorted in descending order of the phrase score, and partial character strings that are higher than a predetermined order may be selected. Also, for example, partial character strings may be sorted in descending order of the phrase score, and a predetermined higher percentage of partial character strings (for example, the upper 10% partial character strings) may be selected.
  • the predetermined threshold value, the predetermined rank, and the predetermined ratio in each of the above selection methods may be determined in advance. Alternatively, user power may also be input via the input device 100.
  • phrase selecting means 13 outputs the output word list to the output device 3 as in the first embodiment.
  • the user of the information extraction system may create a dictionary including the output words included in the output word list and the input words input by the user.
  • the user may refer to the phrase score corresponding to each output word and examine whether or not each output word should be included in the dictionary.
  • the putter Only the front pattern candidate or only the rear pattern candidate is used as a candidate for the pattern. Therefore, even if an extra character string (for example, an unnecessary suffix or prefix) is added before or after the character string that becomes the output word, it can be removed.
  • an extra character string for example, an unnecessary suffix or prefix
  • FIG. 12 is a block diagram showing a third embodiment of the information extraction system according to the present invention.
  • the data processing device 200 includes a document search means 14 in addition to the pattern candidate creation means 11, the phrase candidate creation means 12, and the phrase selection means 13.
  • the storage device 400 also stores the search result document group 18 in addition to the document group 15, pattern candidate 16, and phrase candidate 17.
  • the search result document group 18 is a search result searched from the document group 15 by the document search means 14. Similar to the document group 15, the search result document group 18 includes a document ID and a document body.
  • the pattern candidate creation means 11 reads each record from the search result document group 18 and creates a pattern candidate 16. Further, the phrase candidate creating means 12 reads each record from the search result document group 18 and creates the phrase candidate 17.
  • phrase type As an example, “company name” will be described. Documents with multiple company names are likely to appear in a similar pattern, such as a list format or a table format, compared to documents with only one company name. Therefore, by creating pattern candidates 16 only for such documents and creating word candidates 17, the possibility of extracting words other than company names can be reduced. Therefore, by searching in advance for documents in which multiple input words appear in the same document, a highly reliable output word list can be created only for documents in which similar phrases appear.
  • the document search means 14 selects a plurality of input words from the input word list, and searches for documents including all the selected input words from among the documents included in the document group 15. To do. Then, the no-turn candidate creation means 11 and the phrase candidate creation means 12 perform processing using the searched documents (that is, the search result document group 18). As a result, the reliability of the output word list can be improved.
  • the information extraction system stores the document group 15 in the storage device 400 before operation.
  • an input word list is input to the input device 100 by the user.
  • the input device 100 sends the input input word list to the data processing device 200.
  • the input word list is input from the input device 100 to the data processing device 200.
  • the document search means 14 of the data processing device 200 selects a plurality of input words from the input word list.
  • the number of input words selected by the document search unit 14 from the input word list may be stored in advance by the document search unit 14. Alternatively, the number of input words to be selected may also be input to the document search means 14 by the user power via the input device 100.
  • the number of input words selected by the document search means 14 from the input word list is preferably 3, for example, but is not limited to 3. However, the number of input words to be selected is set to 2 or more, and multiple input words are selected from the input word list.
  • the document search means 14 When selecting a predetermined number of input words, the document search means 14 preferably selects a predetermined number of input words from the input word list at random. However, it is not limited to such a selection method. You can select from slang words in order.
  • the document search means 14 refers to the document group 15, searches for documents including all of the selected input word group (a plurality of input words), and stores them in the storage device 400 as the search result document group 18. . That is, the document search means 14 searches the document group 15 for the document text including all the selected input words and the document ID from the document group 15, and stores the searched document ID and document text in the storage device 400 as the search result document group 18.
  • the document search means 14 searches the document group 15 for the document text including all the selected input words and the document ID from the document group 15, and stores the searched document ID and document text in the storage device 400 as the search result document group 18.
  • the document search unit 14 determines whether or not a sufficient search result document group 18 has been obtained. If it is determined that the sufficient search result document group 18 is not obtained, the document search unit 14 reselects a plurality of input words from the input word list and includes all of the plurality of input words. The document is searched from the document group 15 and the process of adding the search result to the search result document group 18 is repeated.
  • the document search means 14 determines that a sufficient search result document group 18 has been obtained when the number of times a plurality of input words are selected from the input word list reaches a predetermined number, and the plurality of input words If the number of times selected is less than the predetermined number, it may be determined that a sufficient search result document group 18 has not been obtained.
  • the document search means 14 determines that a sufficient search result document group 18 has been obtained when the number of documents (number of records) included in the search result document group 18 has reached a predetermined number, and stores the search result document group 18 in the search result document group 18. When the number of documents included is less than the predetermined number, it may be determined that a sufficient search result document group 18 is not obtained.
  • the document search means 14 performs the determination by the latter determination method (determination method based on the number of documents included in the search result document group 18). This is because the number of documents included in the search result document group 18 can be increased, and as a result, the reliability of words and phrases extracted from the documents can be improved.
  • threshold information used for determining whether or not a sufficient search result document group 18 has been obtained may be held in advance by the document search means 14. Alternatively, it may be input from the user to the document search means 14 via the input device 100.
  • the pattern candidate creation means 11 of the data processing device 200 performs steps S1 to S4 in the first embodiment (FIG. 2). (Refer to the above)).
  • pattern candidate creation means 11 Takes out data for one record (one document ID and the document text corresponding to the document ID) from the search result document group 18 not the document group 15, and performs the same processing as steps S1 to S4. Further, the pattern candidate creating means 11 determines whether or not the processing in steps S1 to S3 has been performed on all the documents included in the search result document group 18 in step S4. If documents that have not been subjected to the processes in steps S1 to S3 remain in the search result document group 18, the process proceeds to step S1 and the processes in and after step S1 are repeated.
  • phrase candidate creating means 12 is the same as steps S5 to S7 in the first embodiment. Perform the process. However, the phrase candidate creating means 12 reads the document body corresponding to the document ID included in the record of the pattern candidate 16 from the search result document group 18 that is not included in the document group 15.
  • phrase selection means 13 is the same as that after step S8 in the first embodiment. Perform the process.
  • the user of the information extraction system may create a dictionary including the output words included in the output word list and the input words input by the user.
  • the user may refer to the phrase score corresponding to each output word and examine whether or not each output word should be included in the dictionary.
  • the document search means 14 searches the document group 15 for documents including a plurality of input words, and obtains the search results.
  • the search result document group 18 is stored.
  • the pattern candidate creating unit 11 and the phrase candidate creating unit 12 use the search result document group 18 instead of the document group 15 to perform the same processing as in the first embodiment. Therefore, since only a document having a high possibility of appearance of the same kind of word / phrase is processed, a word / word having high reliability can be output. In addition, the same effect as in the first embodiment can be obtained.
  • the pattern candidate creating means 11, the phrase candidate creating means 12, and the phrase selecting means 13 may perform the same operations as those in the second embodiment (however, However, the search result document group 18 is used instead of the document group 15). In that case, the same effect as the second embodiment can be obtained. [0141] Embodiment 4.
  • FIG. 13 is a block diagram showing a fourth embodiment of the information extraction system according to the present invention. Components similar to those of the third embodiment are denoted by the same reference numerals as those in FIG. 12, and description thereof is omitted.
  • the data processing device 200 includes a re-creation unit 19 in addition to the pattern candidate creation unit 11, the phrase candidate creation unit 12, the phrase selection unit 13, and the document search unit 14.
  • the recreating means 19 recreates the input word list based on the output word list. Specifically, the re-creation unit 19 receives the output word list from the phrase selection unit 13 and passes the set of output words included in the output word list to the document search unit 14 as an input word list. At this time, the recreating means 19 deletes the search result document group 18, the pattern candidate 16, and the word / phrase candidate 17 stored in the storage device 400. That is, the search result document group 18, the pattern candidate 16, and the phrase candidate 17 stored in the storage device 400 when the output word list received by the recreating means 19 is created are deleted.
  • the recreating means 19 accumulates a copy of the output word list received from the phrase selecting means 13 therein.
  • the recreating means 19 passes the input word list to the document retrieving means 14, the document retrieving means 14, the pattern candidate creating means 11, the phrase candidate creating means 12, and the phrase selecting means 13 are the same as those in the third embodiment. The same processing is executed. However, the phrase selecting unit 13 passes the output word list to the recreating unit 19. The recreating means 19 outputs the output word list when a sufficient output word list is obtained.
  • An input word list is input to the input device 100 by the user.
  • the input device 100 sends the input input word list to the data processing device 200. That is, the input word list is input from the input device 100 to the data processing device 200.
  • the document search means 14, the pattern candidate creation means 11, the phrase candidate creation means 12, and the phrase selection means 13 perform the same processing as in the third embodiment to create an output word list.
  • the phrase selection unit 13 passes the created output word list to the re-creation unit 19.
  • the recreating means 19 Upon receiving the output word list from the phrase selecting means 13, the recreating means 19 receives a sufficient number of output word lists. It is determined whether or not the force accumulated in the strike. For example, the recreating means 19 is sufficient if the total number of output words (but not counting duplicate output words) included in the output word list that has been accumulated so far is less than a predetermined number. It is determined that the list has not been accumulated, and if the total number of output words included in the duplicated output word list is greater than or equal to the predetermined number, it is determined that a sufficient output word list has been accumulated. Also good.
  • the recreating means 19 accumulates the output word list at the time of receiving the output word list from the phrase selecting means 13 last time! /, And the total number of output words included in the duplicate output word list (however, The ratio of new output words in the newly received output word list (new output words that do not overlap with the output words that have been stored so far) (Word increase rate) may be calculated. Then, the recreating means 19 determines that a sufficient output word list is accumulated if the increase rate exceeds a predetermined value, and if the increase rate is equal to or less than the predetermined value, a sufficient output word list is obtained. Judge that the word list has been accumulated.
  • the recreating means 19 has sufficient output word list If it is determined that the list has not been accumulated and the number of times reaches a predetermined number, it may be determined that a sufficient output word list has been accumulated.
  • the recreating means 19 determines that a sufficient output word list has not been accumulated, the recreating means 19 internally accumulates a copy of the output word list received from the phrase selecting means 13. Then, a set of output words included in the output word list received from the phrase selection unit 13 is passed to the document search unit 14 as an input word list. At this time, the recreating means 19 deletes the search result document group 18, the pattern candidate 16, and the word / phrase candidate 17 stored in the storage device 400.
  • the output word set is passed to the document search means 14 as an input word list by the recreating means 19, the document search means 14, the pattern candidate creating means 11, the phrase candidate creating means 12, and the phrase selecting means 13
  • the same processing as in the third embodiment is performed to create an output word list.
  • the phrase selecting unit 13 passes the created output word list to the recreating unit 19, and the recreating unit 19 repeats the above-described operation.
  • the recreating means 19 causes the output device 300 to output the output word list that has been accumulated therein.
  • the word score is summarized to eliminate duplicate words and to avoid duplicate words. Is output to the output device 300.
  • phrase scores to eliminate duplicate phrases find the average, total, maximum, or minimum phrase scores for the duplicate phrases, and use that value as the phrase score for that phrase.
  • the total value of the phrase scores of the overlapping phrases is preferably used as the phrase score of the phrase. Words that have been output multiple times are considered highly reliable as words to be included in the dictionary, and the total value of the word scores is used as the word score of the overlapping words. This is the ability to increase the phrase score of the phrase considered.
  • the user of the information extraction system may create a dictionary including the output words included in the output word list output from the output device 300 and the input words input by the user.
  • the user may refer to the phrase score corresponding to each output word and examine whether or not each output word should be included in the dictionary.
  • the effect of the fourth embodiment will be described.
  • the same type of words that have been newly found are further used as the input word list for the output words to be included in the output word list.
  • the number can be increased. Therefore, it is possible to create a dictionary that comprehensively summarizes similar phrases.
  • the pattern candidate creating unit 11, the phrase candidate creating unit 12, and the phrase selecting unit 13 may perform the same operations as those in the second embodiment (however, the document group 15 Then use search result document group 18). In that case, the same effect as the second embodiment can be obtained.
  • the recreating means 19 passes the set of output words included in the output word list to the document searching means 14 as the input word list.
  • the data processing device 200 may be configured not to include the document search means 14 and not to create the search result document group 18.
  • the recreating means 19 passes the output word list included in the output word list to the pattern candidate creating means 11 as an input word list, and in the subsequent operation of the data processing device 200, the documents included in the document group 15 are selected.
  • the processing should be executed as a processing target.
  • FIG. 14 is a block diagram illustrating a specific configuration example of each information extraction system according to each of the above-described embodiments.
  • the data processing device 200 is a computer that operates according to a program.
  • An input device 100 such as a keyboard and a mouse and an output device 300 such as a display device or a printer are connected to the data processing device 200.
  • a storage device 400 is connected to the data processing device 200.
  • the storage device 400 is a storage device that stores the document group 15, the pattern candidate 16, the phrase candidate 17, and the like, and may be connected to the data processing device via a bus or the like, or connected via a communication network. It may be.
  • the storage device 400 also stores the search result document group 18.
  • the data processing device 200 includes a program storage device 501 that stores the information extraction program 500.
  • the data processor 200 reads the information extraction program 500 from the program storage device 501 and operates according to the information extraction program 500.
  • the data processing device 200 operates as the pattern candidate creation unit 11, the phrase candidate creation unit 12, the phrase selection unit 13, and the phrase selection unit 13.
  • the operation as the document search means 14 is also performed.
  • the operation as the recreating means 19 is also performed.
  • a certain data processing device 200 may have a storage device therein and store information (for example, a copy of the output word list) in the storage device.
  • each means is separated from each other by hardware.
  • the data processing device 200 may be provided.
  • data processing device 200 may create a dictionary by combining the output words included in the output word list and the input words included in the input word list. . That is, the data processing device 200 may automatically create a dictionary.
  • a keyboard and a mouse are listed as examples of the input device 100.
  • an input word list may be input to the information extraction system for other devices via a communication network.
  • a communication interface with a communication network may be used as the input device 100.
  • the output word list may be output to another device via a communication network.
  • the communication interface with the communication network can be used as the output device 300.
  • the input means is realized by the input device 100.
  • the pattern determining means is realized by the pattern candidate creating means 11.
  • the phrase candidate extraction means is realized by the phrase candidate creation means 12.
  • the phrase selection unit is realized by the phrase selection unit 13.
  • the document search means is realized by the document search means 14.
  • the rebuilding means is realized by the rebuilding means 19.
  • FIG. 15 is a block diagram showing a configuration example of an information service system according to the present invention.
  • the information service system of this embodiment includes an information extraction system 1000, a dictionary service system 2000, and a dictionary database 3000.
  • the information extraction system 1000 is the information extraction system of either the first embodiment or the fourth embodiment. However, in the present embodiment, input device 100 and output device 300 (not shown in FIG. 15) are realized by a communication interface with dictionary service system 2000.
  • the information extraction system 1000 includes a dictionary service system. The input word list is input from the menu 2000, and a list of output words of the same type as the input word is output to the dictionary service system 2000.
  • the dictionary database 3000 is a storage device that stores various dictionaries 3001 and 3002.
  • the various dictionaries 3001 and 3002 include output words output by the information extraction system 1000 and input words created by the input word list creator for the extraction of the output words.
  • Each dictionary is registered in association with information on the type of dictionary.
  • the input word list is also input to the dictionary service system 2000, and the dictionary service system 2000 causes the information extraction system 1000 to output an output word list using the input word list. Then, the output word list is presented to the input word list creator, and the input word list creator is prompted to create a dictionary including the input words and the output words.
  • the dictionary service system 2000 registers the dictionary and dictionary type information in the dictionary database 3000 in association with the dictionary type information.
  • the dictionary service system 2000 provides the dictionary purchaser with a dictionary registered in the dictionary database 3000 in response to a request from the dictionary purchaser.
  • the dictionary service system 2000 also records the amount of money that the dictionary service operator should receive the dictionary purchaser's power and the amount of money that should be paid to the input word list creator.
  • the dictionary service system 2000 transmits / receives information to / from the dictionary purchaser's terminal (hereinafter referred to as the purchaser terminal) and the input word list creator's terminal (hereinafter referred to as the creator terminal). It will be described as being.
  • the purchaser terminal is a terminal operated by the dictionary purchaser
  • the creator terminal is a terminal operated by the input word list creator.
  • FIG. 16 is a block diagram showing a configuration example of the dictionary service system 2000.
  • the dictionary service system 2000 includes a control unit 62 and a monetary information storage unit 61.
  • the control unit 62 operates according to a program stored in a storage device (not shown) included in the dictionary service system 2000.
  • the control unit 62 exchanges information with the purchaser terminal 51, the creator terminal 52, the information extraction system 1000, and the dictionary database 3000.
  • the dictionary service system 2000 has a communication interface for transmitting and receiving information when communicating with the purchaser terminal 51, the creator terminal 52, and the information extraction system 1000. In FIG. 16, illustration of the communication interface is omitted. is doing.
  • the dictionary service system 2000 is a dictionary data base.
  • the interface for writing and reading information to and from the 3000 is provided, but the interface is not shown in FIG.
  • the control unit 62 transmits / receives information to / from other devices via a communication interface (not shown), and reads / writes information via an interface (not shown) with the dictionary database 3000.
  • the monetary information storage means 61 stores the amount paid by the dictionary service operator to the input word list creator and the amount received from the dictionary purchaser.
  • the control unit 62 stores these amounts in the money information storage unit 61.
  • the dictionary service operator is an administrator of the dictionary service system 2000, the information extraction system 1000, and the dictionary database 3000.
  • the purchaser terminal 51 transmits the type of dictionary that the dictionary purchaser wishes to purchase to the dictionary service system 2000 according to the operation of the dictionary purchaser.
  • the control unit 62 of the dictionary service system 2000 receives that type of information.
  • control unit 62 searches the dictionary database 3000 to determine whether or not the type of dictionary desired by the dictionary purchaser is registered in the dictionary database 3000.
  • control unit 62 When the dictionary type desired by the dictionary purchaser is registered in the dictionary database 3000 and it is determined that the dictionary is not valid, the control unit 62 operates as follows. The control unit 62 presents the dictionary type desired by the dictionary purchaser to the creator of the input word list by transmitting the dictionary type desired by the dictionary purchaser to the creator terminal 52.
  • the input word list creator creates an input word list according to the type and passes it to the dictionary service system 2000. At this time, the input word list created by the input word list creator is input to the creator terminal 52, and the creator terminal 52 converts the input word list into the dictionary service system according to the operation of the input word list creator. Send to 2000.
  • the control unit 62 of the dictionary service system 2000 receives the input word list.
  • the control unit 62 Upon receiving the input word list, the control unit 62 receives information on the amount of money (dictionary for the creation of the dictionary) to be paid by the dictionary service operator to the input word list creator who created the input word list. Store in the storage means 61. At this time, the control unit 62 stores the money amount information and the input word list creator identification information in the money information storage unit 61 in association with each other. For example, when the creator terminal 52 transmits the input word list, the operation of the input word list creator is performed. By transmitting the identification information of the input word list creator to the control unit 62 according to the operation, the control unit 62 can obtain the identification information of the input word list creator.
  • control unit 62 outputs the input word list received from the creator terminal 52 to the information extraction system 1000.
  • the information extraction system 1000 creates an output word list using the input word list input from the control unit 62.
  • the information extraction system 1000 may create an output word list by the operation described in any one of the first to fourth embodiments.
  • the information extraction system 1000 outputs an output word list to the dictionary service system 2000, and the control unit 62 obtains this output word list.
  • the control unit 62 transmits the output word list to the creator terminal 52 to prompt the input word list creator to create a dictionary.
  • the input word list creator creates a dictionary including input words included in the input word list created by the input word list and output words included in the output word list received from the control unit 62.
  • the input word list creator may create a dictionary by examining the output word list (for example, the dictionary may be created by excluding unnecessary output words).
  • the control unit 62 associates the dictionary type desired by the dictionary purchaser with the dictionary and registers it in the database 3000.
  • control unit 62 provides the dictionary purchaser with the dictionary by reading the dictionary database 3000 types desired by the dictionary purchaser and sending it to the purchaser terminal 51.
  • the control unit 62 reads the dictionary from the dictionary database 3000 and transmits it to the purchaser terminal 51.
  • the dictionary can be provided to the dictionary purchaser.
  • the control unit 62 When the control unit 62 reads the dictionary from the dictionary database 3000 and sends it to the purchaser terminal 51, the control unit 62 receives the dictionary purchaser's identification information and the amount of money the dictionary service operator receives as a consideration for the dictionary from the dictionary purchaser. Information is stored in the money information storage means 61. For example, when the purchaser terminal 51 transmits the type of dictionary, the control unit 62 transmits the dictionary purchaser's identification information to the control unit 62 according to the operation of the dictionary purchaser, so that the control unit 62 identifies the dictionary purchaser. Information can be obtained. [0179] The dictionary service operator confirms the dictionary purchaser's identification information and amount stored in the monetary information storage means 61, and charges the dictionary purchaser for the price of the dictionary. The dictionary buyer pays the consideration to the dictionary service operator. Further, the dictionary service operator confirms the identification information and the amount of the input word list creator stored in the monetary information storage means 61 and pays the amount to the input word list creator.
  • the input word list creator and the dictionary purchaser may be the same. In that case, there is no need to pay the creator of the input word list.
  • a dictionary can be provided at a lower cost than before.
  • the reason is that the dictionary can be created automatically by the information extraction system. Conventionally, it has been expensive to sell a dictionary because a large amount of documentary power has been created manually. By using an information extraction system, a dictionary can be created automatically, so it can be provided at a lower cost.
  • the dictionary service operator may create an input word list! /, But in this case, the dictionary service operator needs knowledge about the type of dictionary requested.
  • a wide variety of dictionary creation can be handled by recruiting widely input word list creators and paying the input word list creators.
  • the configuration of the information service system of this embodiment is the same as that of the fifth embodiment (see FIGS. 15 and 16;). However, there is a difference in the way of paying the dictionary creation price to the input word list creator.
  • the dictionary when the dictionary is sold (provided) to the dictionary purchaser, the money to be paid by the dictionary service operator is stored in the monetary information storage means 61 as consideration for creating the dictionary.
  • the input word list creator is paid for the dictionary creation.
  • the consideration as the dictionary service system usage fee is subtracted.
  • the dictionary service system 2000 will be described as transmitting and receiving information to and from the dictionary purchaser's terminal (purchaser terminal) and the input word list creator's terminal (creator terminal). [0185] The operation of the present embodiment will be described.
  • the input word creator creates an input word list and transmits the input word list to the dictionary service system 2000 using the creator terminal 52.
  • the input word list is input to the creator terminal 52, and the creator terminal 52 transmits the input word list to the dictionary service system 2000 according to the operation of the input word creator.
  • the control unit 62 of the dictionary service system 2000 receives the input word list.
  • Control unit 62 outputs the input word list received from creator terminal 52 to information extraction system 1000.
  • the information extraction system 1000 creates an output word list using the input word list input from the control unit 62.
  • the information extraction system 1000 may create an output word list by the operation described in any of the first to fourth embodiments.
  • the information extraction system 1000 outputs the output word list to the dictionary service system 2000, and the control unit 62 obtains this output word list.
  • the control unit 62 transmits the output word list to the creator terminal 52 and prompts the input word list creator to create a dictionary.
  • the input word list creator creates a dictionary including input words included in the input word list created by the input word list and output words included in the output word list received from the control unit 62.
  • the input word list creator may scrutinize the output word list and create a dictionary (for example, create a dictionary by excluding unnecessary output words.) OCreate input word list
  • the creator sends the created dictionary and the type of the dictionary from the creator terminal 52 to the dictionary service system 2000. That is, creator terminal 52 receives the created dictionary and its type, and transmits the dictionary and its type to dictionary service system 2000 according to the operation of the input word list creator.
  • control unit 62 of dictionary service system 2000 When control unit 62 of dictionary service system 2000 receives a dictionary and its type from creator terminal 52, it associates the dictionary with the type of dictionary and registers them in database 3000.
  • a dictionary purchaser refers to the dictionary database 3000 via the dictionary service system 2000 and purchases a type of dictionary to be purchased.
  • the purchaser terminal 51 transmits information indicating that the purchase of the dictionary is desired to the control unit 62 in accordance with the operation of the dictionary purchaser.
  • the control unit 62 reads the type of each dictionary registered in the dictionary database 3000, transmits the information on the type of each dictionary to the purchaser terminal 51, and receives the dictionary purchaser. Encourage selection of types.
  • the purchaser terminal 51 transmits the type desired by the dictionary purchaser to the control unit 62 in accordance with the operation of the dictionary purchaser.
  • control unit 62 When control unit 62 receives information on the type of dictionary from purchaser terminal 51, it reads a dictionary corresponding to that type from dictionary database 3000 and transmits the dictionary to purchaser terminal 51. As a result, a dictionary is provided to the dictionary purchaser. In addition, the control unit 62 causes the monetary information storage unit 61 to store the amount of money for the dictionary and the identification information of the dictionary purchaser in association with each other. For example, the purchaser terminal 51 may send the dictionary purchaser identification information to the control unit 62 to notify the dictionary purchaser identification information.
  • the control unit 62 when providing the dictionary to the dictionary purchaser (when the dictionary is sent to the purchaser terminal 51), the control unit 62 provides the dictionary service operator to the input word list creator as a consideration for creating the dictionary.
  • the amount to be paid is associated with the identification information of the input word list creator and stored in the money information storage means 61.
  • the creator terminal 52 transmits the dictionary together with the identification information of the input word list creator, the creator terminal 52 notifies the control section 62 of the identification information of the input word list creator. .
  • the dictionary service operator checks the dictionary purchaser's identification information and amount stored in the monetary information storage means 61, and charges the dictionary purchaser for the price of the dictionary. The dictionary buyer pays the consideration to the dictionary service operator.
  • the dictionary service operator confirms the identification information and amount of the input word list creator stored in the monetary information storage means 61, and pays the amount to the input word list creator. At this time, the dictionary service operator pays the input word list creator the amount minus the dictionary service system usage fee.
  • the control unit 62 may subtract the dictionary service system usage fee from the consideration for creating the dictionary and store the amount in the monetary information storage unit 61.
  • the input word list creator and the dictionary purchaser may be the same.
  • the dictionary purchaser who does not need to pay the dictionary creation fee to the input word list creator only has to pay the dictionary service system usage fee to the dictionary service operator.
  • the control unit 62 may store the dictionary service system usage fee in the monetary information storage unit 61 instead of the consideration provided by the dictionary.
  • the reliability of the dictionary can be easily maintained while reducing the cost.
  • words and phrases that are dictionary items are collected manually from documents, which is highly reliable but expensive.
  • words that are candidates for dictionary items can be automatically output to the output word list, thereby reducing the cost of dictionary creation.
  • the reliability of the dictionary can be maintained by examining the output word list.
  • the registration means, dictionary providing means, and money amount information registration means are realized by the control unit 62 of the dictionary service system 20000.
  • the money information storage means is realized by the money information storage means 61 of the dictionary service system 2000.
  • FIG. 17 is a block diagram showing a configuration example of the information service system according to the present embodiment. Components similar to those in the sixth embodiment are denoted by the same reference numerals as those in FIG. 15, and description thereof is omitted.
  • the information service system of the present embodiment includes a trend keyword database 4000.
  • the dictionary service system 2000 includes a control unit 62 and monetary information storage means 61 (see FIG. 16) as in the sixth embodiment.
  • the trend keyword database 4000 is a storage device that stores a list of keywords that are in fashion.
  • the controller 6 2 (not shown in FIG. 17; see FIG. 16) of the dictionary service system 2000 also reads and writes information from and to the trend keyword database 4000 in the same manner as the dictionary database 3000 reads and writes.
  • the control unit 62 creates a list of keywords that are in fashion and stores them in the trend keyword database 4000.
  • the control unit 62 accesses a search keyword log of a search engine that is generally used on the Internet, extracts many words searched as keywords, and stores the keyword list in the trend keyword database 4000. Let me do it.
  • the control unit 62 may obtain such Web page display data, and extract the key words that are ranked higher in the number of searches on the Web page. For example, “http: ⁇ ⁇ ⁇ guide, search. Goo.
  • control unit 62 may publish a news article, acquire display data of a Web page, and acquire a word that appears on the Web page as a keyword.
  • a keyword list may be created manually, input to the dictionary service system 2000, and stored in the trend keyword database.
  • the input keyword list creator's ability is referred to the trend keyword database 4000 through the dictionary service system 2000.
  • the creator terminal 52 (not shown in FIG. 17; see FIG. 16) force
  • the keyword list stored in the trend keyword database 4000 is converted into the dictionary service system 2000 according to the operation of the input word list creator.
  • the control unit 62 of the dictionary service system 2000 reads a list of keywords stored in the trend keyword database 4000 and transmits it to the creator terminal 52.
  • the creator terminal displays the received keyword list and presents the keyword list to the input word list creator.
  • the type of dictionary that is highly likely to be sold can be determined from the keyword list.
  • the input word list creator refers to the list of keywords, determines the type of such a dictionary, and creates a list of input words to be included in the dictionary. In this way, the input word list creator creates an input word list corresponding to a type of dictionary that is likely to be sold.
  • the input word list creator can easily determine the types of dictionaries that are highly likely to be sold. If the input word list creator creates an input word list for creating such a dictionary, the information extraction system quickly creates an output word list using the input word list. Therefore, the input word list creator You can quickly create a dictionary with a high sales potential. In addition, since the created dictionary is considered to be highly likely to be sold, the number of dictionaries sold will increase, and the income of the input word list creator and dictionary service operator will increase.
  • the trendy keyword storage means is realized by the trend keyword database 4000.
  • the trendy keyword providing means is realized by the control unit 62 of the dictionary service system 2000.
  • FIG. 18 is a block diagram illustrating a configuration example of the information service system according to the eighth embodiment.
  • the information service system of this embodiment includes an information extraction system 1000, an advertisement service system 5000, and a dictionary database 3000.
  • an advertisement browsing system 6000 is connected to the advertisement service system 5000 via a communication network.
  • the information extraction system 1000 is an information extraction system according to either the first embodiment or the fourth embodiment. However, in the present embodiment, input device 100 and output device 300 (not shown in FIG. 18) are realized by a communication interface with advertisement service system 5000. The information extraction system 1000 receives the input word list from the advertisement service system 5000 and outputs a list of output words similar to the input word to the advertisement service system 5000. The information extraction system 1000 is operated by an information extraction system operator.
  • the advertisement service system 5000 also receives the advertisement and a related key related to the advertisement, and stores the advertisement and the related keyword in the advertisement service system 5000 in association with each other. Also, it receives a keyword from the advertisement browsing system 6000 and returns an advertisement related to this keyword. At this time, referring to the dictionary database 3000, if there is a dictionary containing the keyword, the keyword (phrase) in the dictionary is acquired, and the advertisement corresponding to the acquired keyword is also returned to the advertisement browsing system. In this way, the advertisement service system 5000 delivers the advertisement to the advertisement browsing system 6000.
  • the advertising service system 5 000 is operated by an advertising service operator.
  • the dictionary database 3000 is a storage device that stores various dictionaries 3001 and 3002. each The seed dictionaries 3001 and 3002 include output words output by the information extraction system 1000 and input words created by the advertisement service operator for the extraction of the output words. Each dictionary is stored in association with information on the type of dictionary.
  • the advertisement browsing system 6000 receives keywords and documents as well as advertisement viewer power.
  • the advertisement viewing system 6000 receives a document, it divides the character string in the document into words using a general morphological analysis tool or the like, and uses the words obtained by the division as keywords. Then, the keyword is passed to the advertisement service system 5000, the advertisement corresponding to the keyword is received, and the advertisement is displayed.
  • a general document browsing tool or Web browser is used for display.
  • the advertisement service system 5000 transmits / receives information to / from an advertiser terminal (hereinafter referred to as an advertiser terminal) and an advertisement service operator terminal (hereinafter referred to as an operator terminal).
  • the advertiser terminal is a terminal operated by the advertiser
  • the operator terminal is a terminal operated by the advertisement service operator.
  • FIG. 19 is a block diagram showing a configuration example of the advertisement service system 5000 and the advertisement browsing system 6000.
  • the advertisement service system 5000 includes a control unit 72 and advertisement storage means 71.
  • the control unit 72 operates according to a program stored in a storage device (not shown) included in the advertisement service system 5000.
  • the control unit 62 exchanges information with the advertiser terminal 55, the operator terminal 56, the information extraction system 1000, and the dictionary database 3000.
  • the advertising service system 5000 has a communication interface for transmitting and receiving information when communicating with the advertiser terminal 55, the operator terminal 56, and the information extraction system 1000. Omitted.
  • the advertisement service system 5000 includes an interface for writing and reading information in the dictionary database 3000, but the interface is not shown in FIG.
  • the control unit 72 transmits / receives information to / from other devices via a communication interface (not shown), and reads / writes information via an interface (not shown) with the dictionary database 3000.
  • the advertisement storage means 71 stores an advertisement in association with a related keyword related to the advertisement.
  • the control unit 72 receives the advertisement and the related keyword from the advertiser terminal 55 and stores the advertisement and the related keyword in association with each other in the advertisement storage unit 71.
  • the advertisement browsing system 6000 includes document input means 81, advertisement request means 82, and advertisement display means 83.
  • the document input means 81 is an input device such as a keyboard for inputting keywords and documents.
  • the advertisement display means 83 is a display device that displays advertisements.
  • the advertisement request means 82 operates in accordance with a program (various programs such as a morphological analysis program and a browser).
  • the advertisement request unit 82 transmits the keyword input to the document input unit 81 to the advertisement service system 5000 and requests an advertisement related to the keyword. Further, when a document is input to the document input unit 81, the advertisement request unit 82 performs morphological analysis on the character string in the document and divides it into words, and uses the word as a keyword.
  • the advertisement request means 82 receives an advertisement from the advertisement service system 5000, the advertisement request means 82 displays the advertisement on the advertisement display means 83.
  • the operation of this embodiment is roughly divided into the following three phases.
  • the first phase is a phase in which the advertisement service system 5000 receives an advertisement from the advertiser (advertiser terminal 55) and registers it in the advertisement storage means 71.
  • the advertisement service system 5000 causes the information extraction system 1000 to create an output word list and registers the dictionary in the dictionary database.
  • the third phase is a phase in which the advertisement viewing system 6000 receives advertisements from the advertisement service system 5000 and displays advertisements.
  • the first and second phases are performed asynchronously, followed by the third phase.
  • the advertiser terminal 55 transmits the advertisement and the related keyword input from the advertiser to the advertisement service system 5000 according to the operation of the advertiser.
  • the control unit 72 of the advertisement service system 5000 receives advertisements and related keywords from the advertiser terminal 55.
  • the advertisement is an advertising material for a product or service that the advertiser wants to purchase, and includes a natural text string, an image, and the like.
  • Related keywords are terms related to products and services that the advertiser wants to purchase, and product names, service names, terms that express the characteristics of the products, etc. are relevant keywords.
  • the related keyword includes a product name and a service name! /.
  • Product names and service names are This is because it is a product-specific phrase and is considered the most characteristic. For example, if the advertisement is an advertisement for a product related to security, “security product X”, “information leakage”, “security”, etc. may be used as related keywords.
  • control unit 72 When receiving the advertisement and the related keyword, the control unit 72 associates the advertisement with the related keyword list and stores the advertisement in the advertisement storage unit 71.
  • the above is the operation of the first phase
  • the advertising service operator creates an input word list.
  • the advertisement service operator may refer to the related keyword list of advertisements stored in the advertisement storage means 71 of the advertisement service system 5 000.
  • an input word list may be created for various product names and service names. For example, if there are many related keywords related to security-related products, an input word list may be created with the product names “Security Product X”, “Security Product Y”, “Security Product ⁇ ”, etc. as input words.
  • the operator terminal 56 receives the created input word list and its type, and transmits the input word list and type information to the advertisement service system 500 00 according to the operation of the advertisement service operator.
  • the control unit 72 of the advertisement service system 5000 transmits the input word list and type information to the information extraction system 1000.
  • the control unit 72 sets an input word list including input words “security product X”, “security product ⁇ ”, and “security product ⁇ ” and the type (“security” in this example) to the operator terminal 56. And the input word list and type are passed to the information extraction system 1000.
  • the information extraction system 1000 Upon receiving the input word list from the control unit 72, the information extraction system 1000 creates an output word list using the input word list.
  • the information extraction system 1000 may create an output word list by the operation described in any of the first to fourth embodiments. As a result, for example, a list of security-related product names is created as an output word list.
  • the information extraction system 1000 outputs an output word list to the advertisement service system 5000, and the control unit 72 obtains this output word list.
  • the registration means and the advertisement providing means are realized by the control unit 72 of the advertisement service system 5000.
  • the advertisement storage means is realized by the advertisement storage means 71 of the advertisement service system 5000.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

様々な形式の複数の文書から同種の語句を抽出することができるようにする。記憶装置400は、様々な形式の複数の文書を記憶する。パターン候補作成手段11は、辞書に含めるべき語句の中からサンプルとして選択された入力語のリストを受け取る。パターン候補作成手段11は、文書を1つ選択し、その文書における入力語の前後の文字列をパターンの候補として決定し、パターン候補16として記憶させる。パターン候補作成手段11は、この処理を各文書毎に行う。語句候補作成手段12は、パターン候補16に含まれる各パターンに挟まれる語句を出力すべき語句の候補として抽出し、語句候補17として記憶させる。語句選択手段13は、語句候補17に含まれる語句の候補のうち、所定の条件を満足する語句の候補を出力語として出力装置300に出力させる。

Description

明 細 書
情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サー ビスシステム
技術分野
[0001] 本発明は、情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サ 一ビスシステムに関し、特に利用者の所望の種類の語句を文書群より的確に抽出す る情報抽出システム、情報抽出方法、情報抽出プログラム、および情報抽出システム を適用した情報サービスシステムに関する。
背景技術
[0002] ある語句の種類 (例えば、人名、地名等の種類)を知るためには、種類に応じた各 種辞書 (例えば、人名辞書や地名辞書)にその語句が掲載されているかどうかを調べ ればよい。例えば、ある語句が人名辞書に掲載されていれば、その語句の種類が人 名であることがわかる。この場合、ある語句の種類を知るには、その種類に応じた辞 書が必要である。
[0003] ここで、語句とは、単語または複数の単語のまとまりを指すものとする。複数の単語 のまとまりの例として、例えば、複数の単語からなるフレーズ、ことわざや慣用句等が 挙げられる。また、人名や地名等の固有名詞も語句の概念に含まれる。また、辞書と は、同種の語句のリストであるものとする。
[0004] このような辞書を作成する方法として、人が様々な大量の文書を読み、多くの語句 を語句の種類に応じて分類し、辞書に含まれる語句として登録する方法が挙げられ る。この方法では、同種の語句が集まっているという信頼性の高い辞書を作成できる 力 人手による作業となるので手間が力かってしまう。
[0005] また、非特許文献 1に辞書作成方法が記載されて!、る。非特許文献 1に記載された 辞書作成方法では、同じ形式の文書群からパターンを自動的に作成し、パターン間 の単語を抽出し、その単語を辞書に登録する。ここで、「同じ形式の文書」とは、文書 中で抽出対象となる語句が同じパターンに隣接して出現している文書のことである。 また、「パターン」とは、辞書に含める語句 (抽出対象となる語句)とそうでない語句と を区切る文字列である。パターンには、抽出対象となる語句の前に位置するパターン (以下、前方パターンと記す。)と、抽出対象となる語句の後に位置するパターン (以 下、後方パターン)とがある。
[0006] 非特許文献 1に記載された方法で会社名の辞書を作成する場合の例を以下に示 す。まず、会社名が例えば表形式で整列して記述された同じ形式の文書群を、人が 収集する。次に、人が、その文書群の中から数個の文書を選択し、その文書に含ま れる会社名のリストを作成する。次に、プログラムに従って情報処理装置が、先に選 択された文書中に出現する会社名の前方パターンおよび後方パータンを自動的に 特定し、前方パターンおよび後方パターンに挟まれた単語 (本例では会社名)を抽出 する。最後に、抽出した単語を辞書に登録する。このように非特許文献 1に記載され た方法では、人が、サンプルとして選択した文書とその文書に出現する全ての単語リ ストを情報処理装置に与えることで、情報処理装置が自動的に辞書を作成する。
[0007] また、特許文献 1には、二つの単語 a, bのそれぞれの前後に文字列 X, yを結合し た xay, xbyに関してスコア関数を定義して、二つの単語の関連性を判定することが 記載されている。
[0008] 非特許文献 1:ニコラス ·クシュメリック(Nicholas Kushmerick) , 「ラッパ一'インダクショ ン:エフイシエンシー.アンド.エタスプレシブネス(Wrapper induction: Efficiency and e xpressiveness) J ,アーティフィシャル 'インテリジェンス Vol.118 (2000) (Artificial Inte lligence 118(2000)) , 2000年, p. 15— 68
特許文献 1:特開 2003 - 256447号公報(段落 0029 - 0032)
発明の開示
発明が解決しょうとする課題
[0009] 非特許文献 1に記載された方法では、同じ形式の文書群が入力されることを前提と している。従って、様々な形式の複数の文書力も語句を抽出することは出来な力つた 。様々な形式の複数の文書力も語句を抽出しようとする場合には、それぞれの形式 の文書群毎に、人がサンプルとなる文書を選択し、その文書の中に含まれる語句のリ ストを作成しなければならない。そのため、手間が力かってしまうという問題があった。 文書の形式には、例えば、スペースで語句を区切った表形式、タブで語句を区切つ た表形式、リスト形式、階層形式等様々な種類の形式がある。このような多くの種類の 形式毎にサンプルとなる文書の選択や語句のリストの作成を行うことは非特許文献 1 に記載された方法の利用者にとって負担となる。
[0010] そこで本発明は、様々な形式の複数の文書力 同種の語句を抽出することができる 情報抽出システム、情報抽出方法、情報抽出プログラム、およびそのような情報抽出 システムを適用した情報サービスシステムを提供することを目的とする。
課題を解決するための手段
[0011] 本発明による情報抽出システムは、文書内の語句を文書力 抽出して出力する情 報抽出システムであって、複数の語句を含む入力語リストが入力される入力手段と、 形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書 内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパター ンとして決定することを文書毎に行うパターン決定手段と、パターンによって区切られ る文字列を、パターンの決定に用いた文書力 抽出して語句の候補とする語句候補 抽出手段と、語句候補抽出手段によって抽出された語句の候補または語句の候補 に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を 出力対象の語句として選択する語句選択手段とを備えたことを特徴とする。
[0012] 本発明によれば、パターン決定手段が、形式が異なる文書を含む複数の文書の中 から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対 象でない文字列と区切る文字列をパターンとして決定することを文書毎に行う。そし て、語句候補抽出手段が、パターンによって区切られる文字列を、パターンの決定に 用いた文書力 抽出して語句の候補とし、語句選択手段が、語句候補抽出手段によ つて抽出された語句の候補または語句の候補に含まれる部分文字列のうち所定の 条件を満たす語句の候補または部分文字列を出力対象の語句として選択する。従つ て、形式が異なる文書を含む複数の文書の中から同種の語句を抽出することができ る。また、語句選択手段が、所定の条件を満たす語句の候補または部分文字列を出 力対象の語句として選択するので、出力する語句の信頼性(同種の語句であることの 信頼性)を高めることができる。
[0013] ノターン決定手段が、入力語リストに含まれる語句の前方の文字列および後方の 文字列をパターンとして決定し、語句候補抽出手段が、前方の文字列および後方の 文字列によって挟まれる文字列を文書力 抽出して語句の候補とし、語句選択手段 力 語句候補抽出手段によって抽出された語句の候補の中から出力対象の語句を 選択する構成であってもよ ヽ。
[0014] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアが所定のしき 、値以上である語句の候補を出力対象の語句として選 択する構成であってもよい。
[0015] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし所定の順位以上である語句の候補 を出力対象の語句として選択する構成であってもよ!/ヽ。
[0016] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし上位の所定の割合の語句の候補を 出力対象の語句として選択する構成であってもよ ヽ。
[0017] ノターン決定手段が、入力語リストに含まれる語句の前方の文字列のみ、あるいは 、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、語句候 補抽出手段が、前方の文字列に続く文字列、あるいは、後方の文字列の直前の文字 列を文書力 抽出して語句の候補とし、語句選択手段が、語句の候補に含まれる部 分文字列を作成し、作成した各部分文字列の中から出力対象の語句を選択する構 成であってもよい。そのような構成によれば、不要な接尾辞あるいは接頭辞を除外し た語句を出力することができる。
[0018] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアが所定のしき 、値以上である部分文字列を出力対象の語句とし て選択する構成であってもよ 、。
[0019] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし所定の順位以上である部分文 字列を出力対象の語句として選択する構成であってもよ ヽ。
[0020] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし上位の所定の割合の部分文 字列を出力対象の語句として選択する構成であってもよ ヽ。
[0021] 形式が異なる文書を含む複数の文書であって、予め記憶装置に記憶されている複 数の文書の中から、入力語リストから選択した複数の語句全てを含む文書を検索す る文書検索手段を備え、パターン決定手段が、文書検索手段によって検索された文 書毎にパターンの決定を行う構成であってもよい。そのような構成によれば、同種の 語句が出現する可能性の高い文書を対象にしてパターンの決定をおこない、そのよ うな文書にぉ 、てパターンで区切られる文字列を語句の候補とするので、出力する 語句の信頼性を高めることができる。
[0022] 語句選択手段によって選択された語句のリストを入力語リストとして文書検索手段 に付与する再作成手段を備えた構成であってもよい。そのような構成によれば、入力 語リストを付与された文書検索手段が再度、動作を開始するので、出力対象の語句 として選択される語句の数を増加することができる。その結果、同種の語句を網羅的 に抽出することができる。 [0023] 語句選択手段によって選択された語句のリストを入力語リストとしてパターン決定手 段に付与する再作成手段を備えた構成であってもよい。そのような構成によれば、入 力語リストを付与されたパターン決定手段が再度、動作を開始するので、出力対象の 語句として選択される語句の数を増加することができる。その結果、同種の語句を網 羅的に抽出することができる。
[0024] また、本発明による情報サービスシステムは、上述の 、ずれかの情報抽出システム と、同種の語句のリストである辞書を記憶する辞書データベースと、辞書の作成およ び辞書の販売に伴い授受される金額を管理する辞書サービスシステムとを備え、辞 書サービスシステムが、入力語リスト作成者によって作成された入力語リストを情報抽 出システムに入力して、情報抽出システム力も語句のリストを受け取り、語句のリスト および入力語リストに含まれる語句を含む辞書を辞書データベースに登録する登録 手段と、辞書購入者の端末からの要求に応じて、辞書データベースに記憶されてい る辞書をその端末に送信する辞書提供手段と、辞書作成および辞書の販売に伴い 授受される金額を記憶する金銭情報記憶手段と、辞書サービスシステムの運用者が 入力語リスト作成者に対し辞書の作成の対価として支払うべき金額、および辞書購入 者が辞書サービスシステムの運用者に辞書の対価として支払うべき金額を金銭情報 記憶手段に記憶させる金額情報登録手段とを含むことを特徴とする。
[0025] 流行している語句を記憶する流行キーワード記憶手段を備え、辞書サービスシステ ムが、流行キーワード記憶手段力 流行している語句を読み込んで、入力語リスト作 成者の端末に送信する流行キーワード提供手段を含む構成であってもよい。
また、本発明による情報サービスシステムは、上述のいずれかの情報抽出システム と、同種の語句のリストである辞書を記憶する辞書データベースと、広告を表示する 広告表示装置からキーワードを受信して、広告表示装置に広告を送信する広告サー ビスシステムとを備え、広告サービスシステムが、入力語リスト作成者によって作成さ れた入力語リストを情報抽出システムに入力して、情報抽出システム力 語句のリスト を受け取り、語句のリストおよび入力語リストに含まれる語句を含む辞書を辞書データ ベースに登録する登録手段と、広告および広告に関連する関連キーワードを対応付 けて記憶する広告記憶手段と、広告表示装置から受信したキーワードを含む辞書を 辞書データベースに記憶された辞書の中から検索し、検索された辞書に含まれる語 句に対応付けられた広告および広告表示装置力 受信したキーワードに対応づけら れた広告を広告記憶手段から読み込んで、広告表示装置に送信する広告提供手段 とを含むことを特徴とする。
[0026] また、本発明による情報抽出方法は、文書内の語句を文書力も抽出する情報抽出 方法であって、入力手段が、複数の語句を含む入力語リストを入力し、パターン決定 手段が、形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択し た文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列 をパターンとして決定することを文書毎に行い、語句候補抽出手段が、パターンによ つて区切られる文字列を、パターンの決定に用いた文書力 抽出して語句の候補と し、語句選択手段が、語句候補抽出手段によって抽出された語句の候補または語句 の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文 字列を出力対象の語句として選択することを特徴とする。
[0027] ノターン決定手段が、入力語リストに含まれる語句の前方の文字列および後方の 文字列をパターンとして決定し、語句候補抽出手段が、前方の文字列および後方の 文字列によって挟まれる文字列を文書力 抽出して語句の候補とし、語句選択手段 力 語句候補抽出手段によって抽出された語句の候補の中から出力対象の語句を 選択する方法であってもよ 、。
[0028] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアが所定のしき 、値以上である語句の候補を出力対象の語句として選 択する方法であってもよ 、。
[0029] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし所定の順位以上である語句の候補 を出力対象の語句として選択する方法であってもよ!/、。
[0030] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし上位の所定の割合の語句の候補を 出力対象の語句として選択する方法であってもよ 、。
[0031] ノターン決定手段が、入力語リストに含まれる語句の前方の文字列のみ、あるいは 、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、語句候 補抽出手段が、前方の文字列に続く文字列、あるいは、後方の文字列の直前の文字 列を文書力 抽出して語句の候補とし、語句選択手段が、語句の候補に含まれる部 分文字列を作成し、作成した各部分文字列の中から出力対象の語句を選択する方 法であってもよい。
[0032] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアが所定のしき 、値以上である部分文字列を出力対象の語句とし て選択する方法であってもよ 、。
[0033] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし所定の順位以上である部分文 字列を出力対象の語句として選択する方法であってもよ ヽ。
[0034] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし上位の所定の割合の部分文 字列を出力対象の語句として選択する方法であってもよ ヽ。
[0035] 文書検索手段が、形式が異なる文書を含む複数の文書であって、予め記憶装置に 記憶されて 、る複数の文書の中から、入力語リストから選択した複数の語句全てを含 む文書を検索し、パターン決定手段が、文書検索手段によって検索された文書毎に パターンの決定を行う方法であってもよ 、。
[0036] 再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとして 文書検索手段に付与する方法であってもよい。
[0037] 再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとして ノターン決定手段に付与する方法であってもよ ヽ。
[0038] また、本発明による情報抽出プログラムは、文書内の語句を文書力も抽出して出力 するコンピュータに搭載される情報抽出プログラムであって、コンピュータに、複数の 語句を含む入力語リストを入力する入力処理、形式が異なる文書を含む複数の文書 の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽 出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行うパ ターン決定処理、パターンによって区切られる文字列を、パターンの決定に用いた文 書から抽出して語句の候補とする語句候補抽出処理、および語句候補抽出処理で 抽出された語句の候補または語句の候補に含まれる部分文字列のうち所定の条件 を満たす語句の候補または部分文字列を出力対象の語句として選択する語句選択 処理を実行させることを特徴とする。
発明の効果
[0039] 本発明によれば、様々な形式の複数の文書力 同種の語句を抽出することができ る。
図面の簡単な説明
[0040] [図 1]本発明による情報抽出システムの第 1の実施の形態を示すブロック図である。
[図 2]第 1の実施の形態におけるデータ処理装置の動作の例を示すフローチャートで ある。
[図 3]文書群の一例を示す説明図である。
[図 4]入力語リストの一例を示す説明図である。 圆 5]パターン候補の一例を示す説明図である。
圆 6]語句候補の一例を示す説明図である。
圆 7]出力語リストの一例を示す説明図である。
[図 8]第 2の実施の形態の動作の例を示すフローチャートである。
圆 9]文書群の一例を示す説明図である。
圆 10]第 2の実施の形態におけるパターン候補の一例を示す説明図である。
圆 11]第 2の実施の形態における語句候補の一例を示す説明図である。
圆 12]本発明による情報抽出システムの第 3の実施の形態を示すブロック図である。 圆 13]本発明による情報抽出システムの第 4の実施の形態を示すブロック図である。
[図 14]情報抽出システムの具体的な構成例を示すブロック図である。
圆 15]本発明の第 5の実施の形態を示すブロック図である。
[図 16]辞書サービスシステムの構成例を示すブロック図である。
圆 17]本発明の第 7の実施の形態を示すブロック図である。
圆 18]本発明の第 8の実施の形態を示すブロック図である。
[図 19]広告サービスシステムと広告閲覧システムの構成例を示すブロック図である。 符号の説明
11 パターン候補作成手段
12 語句候補作成手段
13 語句選択手段
14 文書検索手段
15 文書群
16 パターン候補
17 語句候補
18 検索結果文書群
19 再作成手段
100 入力装置
200 データ処理装置
300 出力装置 400 記憶装置
500 情報抽出プログラム
発明を実施するための最良の形態
[0042] 以下、本発明の実施の形態を図面を参照して説明する。
[0043] 実施の形態 1.
図 1は、本発明による情報抽出システムの第 1の実施の形態を示すブロック図であ る。第 1の実施の形態の情報抽出システムは、入力装置 100と、プログラム制御により 動作するデータ処理装置 200と、出力装置 300と、情報を記憶する記憶装置 400と を含む。
[0044] 入力装置 100は、情報が入力される入力デバイスである。入力装置 100として、例 えばキーボードやマウス等が用いられる。
[0045] 出力装置 300は、情報を出力する出力装置である。出力装置 300として、例えば、 ディスプレイ装置、ある 、はプリンタ等が用いられる。
[0046] 記憶装置 400は、例えば、ハードディスクドライブ等の記憶装置であり、文書群 15と ノターン候補 16と語句候補 17とを記憶する。
[0047] 文書群 15は、語句を抽出する対象となる複数の文書である。具体的には、文書群 15は、個々の文書を識別するための識別情報 (以下、文書 IDと記す。)と個々の文 書本文とを含む情報である。各文書の本文と各文書 IDとは対応づけられて ヽる。
[0048] ノターン候補 16は、パターン候補作成手段 11によって決定されたパターンの候補 を含む情報である。具体的には、パターン候補 16は、パターンの候補、そのパターン の候補の決定に用いた文書の文書 ID、およびパターンスコアを含む情報である。パ ターン候補作成手段 11とパターンスコアについては後述する。なお、既に述べたよう に、「パターン」とは、辞書に含める語句 (抽出対象となる語句)とそうでない語句とを 区切る文字列であり、ノターンには、抽出対象となる語句の前に位置する前方バタ ーンと、抽出対象となる語句の後に位置する後方パターンとがある。本実施の形態で は、パターン候補 16は、パターンの候補として、前方パターン候補 (前方パターンの 候補となる文字列)および後方パターン候補 (後方パターンの候補となる文字列)を 含む。 [0049] 語句候補 17は、語句候補作成手段 12によって文書本文カゝら抽出された語句を含 む情報である。具体的には、語句候補 17は、語句候補作成手段 12によって特定さ れた語句の候補、文書 、パターンスコアを含む情報である。語句候補作成手段 12 については後述する。なお、既に述べたように、語句とは、単語または複数の単語の まとまりであり、単語だけでなぐ複数の単語からなるフレーズ等も語句に該当する。
[0050] 図 1では、文書群 15、パターン候補 16、および語句候補 17が同一の記憶装置 40 0に記憶される場合を示しているが、文書群 15、 ノターン候補 16、および語句候補 1 7は複数の記憶装置に分けて記憶されていてもよい。例えば、文書群 15、パターン 候補 16、および語句候補 17のうちの一部力 インターネット等の通信ネットワークを 介してデータ処理装置 200に接続されている情報処理装置(図示せず。 )に記憶さ れていてもよい。
[0051] データ処理装置 200は、パターン候補作成手段 11と、語句候補作成手段 12と、語 句選択手段 13とを含む。
[0052] ノターン候補作成手段 11は、入力装置 100に入力された入力語を入力データとし て、文書群 15を参照し、文書内における入力語の出現位置の前後の文字列からパ ターンの候補を決定する。そして、パターン候補作成手段 11は、そのパターンの候 補と、その候補の決定に用いた文書の文書 IDと、パターンスコアとを、パターン候補 16として記憶装置 400に記憶させる。
[0053] 入力語とは、作成しょうとする種類の辞書(同種の語句のリスト)に含めるべき語句 のうち情報抽出システムの利用者がサンプルとして選択した語句である。
[0054] パターンスコアとは、パターンまたはパターンの候補の重要度を示すスコアである。
パターンスコアは、例えば、文書内に出現する全ての入力語の延べ数に対する、パ ターンの候補によって区切られる入力語の数の割合で示される。本実施の形態では 、文書内に出現する全ての入力語の数に対する、前方パターン候補および後方バタ ーン候補に挟まれた入力語の数の割合をパターンスコアとする。
[0055] 語句候補作成手段 12は、パターン候補 16に含まれるデータを入力データとして、 文書群 15を参照し、パターン候補 16においてパターンの候補に対応付けられた文 書 IDに対応する文書本文を、文書群 15から読み込む。そして、語句候補作成手段 1 2は、その文書本文におけるパターンの候補 (本実施の形態では前方パターン候補 および後方パターン候補)の出現位置を特定し、前方パターン候補および後方バタ ーン候補に挟まれる文字列を文書本文力 抽出する。ここで抽出された文字列が語 句の候補となる。語句候補作成手段 12は、語句の候補、語句の候補の抽出に用い たパターンの候補の識別情報(以下、パターン IDと記す。)、およびそのパターンの 候補のパターンスコアを対応付けて、語句候補 17として記憶装置 400に記憶させる
[0056] 語句選択手段 13は、語句候補 17を入力データとして、語句の候補のうち、所定の 条件を満たす語句を選択し、その語句を出力装置 300に出力する。語句選択手段 1 3は、語句の候補の特定に用いたパターンの候補の重要度の高さや、語句の候補が 出現する文書の多さを示す数値が高!、語句を選択する。
[0057] 次に、動作について説明する。
図 2は、本実施の形態におけるデータ処理装置 200の動作の例を示すフローチヤ ートである。
[0058] 情報抽出システムは、動作前に文書群 15をあらかじめ記憶装置 400に記憶してお く。文書群 15の一例を図 3に示す。文書群 15は、文書を識別するための文書 IDと文 書本文を含み、 1レコードは 1文書に対応する。 1レコードには、 1つの文書 IDと、そ の文書 IDに対応する文書本文が含まれる。図 3に示す例では、「文書 A」等の各文 書 IDおよびその文書 IDに対応する文書本文を図示している。文書本文のうち図示 を省略した部分は、図 3にお 、て「 · · ·」と表して 、る。
[0059] 図 3は、文書群 15の一例を示すものであり、ファイルシステムで管理されるファイル や、インターネットを介して入手可能な文書を文書群 15として記憶装置 400に記憶し ていてもよい。例えば、文書 IDとしてファイルパスや URLを記憶し、文書本文として、 そのファイルパスや URLに対応するデータを記憶して 、てもよ 、。
[0060] まず、利用者によって、入力装置 100 (図 1参照。 )に入力語のリスト (以下、入力語 リストと記す。)が入力される。入力語リストは、作成しょうとする種類の辞書(同種の語 句のリスト)に含めるべき語句のうち情報抽出システムの利用者がサンプルとして選択 した数個の語句である。換言すれば、入力語リストは、利用者の所望の種類の数個 の語句である。入力語リストの一例を図 4に示す。図 4に示す例では、製品名という種 類に該当する語句の入力語リストを表している。
[0061] 入力装置 100は、入力された入力語リストをデータ処理装置 200に送る。すなわち 、データ処理装置 200には、入力装置 100から入力語リストが入力される。入力語リ ストが入力された後、データ処理装置 200は、図 2に示すフローチャートに沿って動 作する。
[0062] まず、パターン候補作成手段 11が文書群 15から 1レコード分のデータ(1つの文書 IDおよびその文書 IDに対応する文書本文)を取り出し、その文書本文における入力 語の出現位置を特定する(図 2に示すステップ Sl)。パターン候補作成手段 11は、ス テツプ S1で、入力語リストに含まれる各入力語の出現位置を特定する。なお、ステツ プ S1で取り出すデータは 1レコードである。従って、ステップ S1から後述のステップ S 3までの処理は、 1文書毎に行う。
[0063] 例えば、ステップ S1で図 3に示す文書 ID「文書 B」に対応する文書本文を選択して 取り出しているとする。文書 ID「文書 B」に対応する文書本文には、図 4に示す入力 語リストのうち、「製品 A」と「製品 B」と「製品 C」が出現している。パターン候補作成手 段 11は、選択した文書本文におけるこれらの各入力語の出現位置を特定する。
[0064] 出現位置は、各入力語の文字列の開始位置および終了位置によって表されるが、 他の表し方で出現位置を表してもよい。例えば、入力語の文字列の開始位置と入力 語の長さの組み合わせ等によって出現位置を表してもよい。本例では、入力語の文 字列の開始位置および終了位置で出現位置を表すものとする。
[0065] 次に、パターン候補作成手段 11は、文書本文から、入力語の出現位置の前方と後 方の文字列を所定の文字数分だけ取得して、パターンの候補を決定する(図 2に示 すステップ S 2)。
[0066] ノターン候補作成手段 11は、以下のようにパターンの候補を決定する。すなわち、 ノターン候補作成手段 11は、取得した各前方の文字列のうち、共通部分を抽出し、 その共通部分をパターンの候補 (前方パターン候補)として決定する。共通部分は、 少なくとも 2つの前方の文字列で共通であればよい。ただし、その共通部分は、入力 語の直前に位置することを前提とする。また、パターン候補作成手段 11は、取得した 所定の文字数分の前方の文字列全体が他の前方の文字列と共通でなくても、その 所定の文字数分の前方の文字列全体をパターンの候補 (前方パターン候補)として 決定する。同様に、パターン候補作成手段 11は、取得した各後方の文字列のうち、 共通部分を抽出し、その共通部分をパターンの候補 (後方パターン候補)として決定 する。共通部分は、少なくとも 2つの後方の文字列で共通であればよい。ただし、その 共通部分は、入力語の直後であることを前提とする。また、パターン候補作成手段 11 は、取得した所定の文字数分の後方の文字列全体が他の後方の文字列と共通でな くても、その所定の文字数分の文字列全体をパターンの候補 (後方パターン候補)と して決定する。
[0067] 入力語の出現位置の前方と後方から取り出す文字列の文字数 (所定の文字数)は 、予め定められていてもよい。あるいは、入力装置 100を介して、利用者力もパターン 候補作成手段 11に文字数が入力され、パターン候補作成手段 11は、その文字数を 所定の文字数として定めてもょ 、。
[0068] 所定の文字数が「10」であるものとして、パターン候補作成手段 11が前方パターン 候補および後方パターン候補を決定する例を示す。また、ステップ S 1では、文書 ID「 文書 B」に対応する文書本文(図 3参照。)が選択されたものとする。この文書本文で は、入力語「製品 A」の前方の文字列(10文字分の文字列)は、「size = "10" >」で ある。「製品 B」の前方の文字列(10文字分)も同様に、「size = "10" >」である。また 、この文書本文では、入力語「製品 C」は二回出現している。そのうちの 1つの「製品 C 」の前方の文字列(10文字分)は、「size = "10" >」であり、もう 1つの「製品 C」の前 方の文字列(10文字分)は、「nt> <p > <b > '」である。パターン候補作成手段 11 は、各前方文字列を比較して、共通部分となる文字列を抽出する。本例では、 4回出 現した入力語のうち 3つの入力語で「size = "10" >」が共通であるので、パターン候 補作成手段 11は、「size = "10" >」を前方パターン候補として決定する。また、 10文 字分の文字列「nt> <p> <b > '」全体は、「size = "10" >」と共通ではないが、こ の 10文字分の文字列「nt > < p > < b > ·」も前方パターン候補として決定する。
[0069] 後方パターン候補についても同様に決定する。この文書本文では、入力語「製品 A 」の後方の文字列(10文字分)は、「く Zfont> <br」である。「製品 B」の後方の文 字列(10文字分)は、「く Zfont> <br」である。 2回出現する「製品 C」のうち、 1つ の「製品 C」の後方の文字列(10文字分)は、「く Zfont> <p >」であり、もう 1つの「 製品 C」の後方の文字列(10文字分)は、「のカテゴリく b > <b」である。パターン候 補作成手段 11は、各後方文字列を比較して、共通部分となる文字列を抽出する。本 例では、 4回出現した入力語のうち 3つの入力語で「く Zfont> <」が共通であるの で「< Zfont> <」を後方パターン候補として決定する。また、 4回出現した入力語の うち 2つの入力語で「く Zf ont > < brjが共通であるので、「く Zf ont > < brjを後 方パターン候補として決定する。また、 10文字分の文字列「く Zfont> <p>」全体 や、「のカテゴリく b > <b」全体は、他と共通ではないが、パターン候補作成手段 11 は、「く Zfont> <p >」全体や、「のカテゴリく b > <b」全体も後方パターン候補と して決定する。
[0070] 次に、パターン候補作成手段 11は、前方パターン候補群と後方パターン候補群の 組合せから、パターンスコアを計算し、その計算結果を記憶装置 400に記憶させる( 図 2に示すステップ S3)。ステップ S3では、パターン候補作成手段 11は、 1つの前方 パターン候補と 1つの後方パターン候補のペアと、そのペアを識別するパターン IDと 、 ノターン候補の決定に用いた文書本文 (ステップ S1で取り出した文書本文)の文 書 IDと、パターンスコアとを対応付けて、パターン候補 16として記憶装置 400に記憶 させる。
[0071] 既に説明したように、パターンスコアとは、パターンまたはパターンの候補の重要度 を示すスコアである。本実施の形態では、前方パターン候補と後方パターン候補の ペア毎にパターンスコアを計算する。ノターンスコアとして、例えば、前方パターン候 補と後方パターン候補のペアに挟まれた語句が入力語である確率や、ノターンの文 字列の長さ等が考えられる。本実施の形態では、文書内に出現する全ての入力語の 延べ数に対する、前方パターン候補および後方パターン候補に挟まれた入力語の 数の割合をパターンスコアとする。すなわち、パターン候補作成手段 11は、「前方パ ターン候補および後方パターン候補に挟まれた入力語の数 Z文書内に出現する全 ての入力語の数」を計算してパターンスコアを算出すればよい。このパターンスコア は、前方パターン候補と後方パターン候補のペアに挟まれた語句が入力語である確 率を表して 、る。前方パターン候補と後方パターン候補のペアによって抽出できる入 力語の数が多いほど、そのペアは重要なパターンと考えられるので、本実施の形態 では、上記のようにパターンスコアを算出する。
[0072] 先に例示した前方パターン候補および後方パターン候補を用いて、パターンスコア の計算例を示す。例えば、前方パターン候補「size = "10" >」と後方パターン候補「 く /font> <」のペアでは、間に挟まれる入力語として「製品 A」「製品 B」「製品 C」 力 Sある(図 3に示す「文書 B」参照。;)。従って、前方パターン候補および後方パターン 候補に挟まれた入力語の数は 3である。また、「製品 C」は文書中に 2回出現している ので、「文書 B」に出現する全ての入力語の数は 4である。従って、パターン候補作成 手段 11は、パターンスコアを「3Z4」と算出する。
[0073] ノターン候補作成手段 11は、他のペアについても同様にパターンスコアを算出す る。前方パターン候補「size = " 10" >」と後方パターン候補「く Zf ont > < brjのぺ ァでは、パターンスコアは「2/4」と算出される。前方パターン候補¾26 = "10" >」 と後方パターン候補「のカテゴリ <b > <bjのペアでは、パターンスコアは「0/4」と 算出される。
[0074] また、パターン候補作成手段 11は、前方パターン候補と後方パターン候補のペア に対してパターン IDを割り当て、パターン 、文書 、前方パターン候補と後方パタ ーン候補のペア、およびパターンスコアとを対応付けて、パターン候補 16として記憶 装置 400に記憶させる。図 5は、パターン候補 16の一例を示す説明図である。図 5に 示すように、パターン候補 16は、パターン IDと、文書 IDと、前方パターン後方と、後 方パターン候補と、パターンスコアとを含んでいる。 1レコードは、 1組の前方パターン 候補と後方パターン候補のペアに対応する。図 5に示す例において、図示を省略し たレコードは「· · ·」と表している。また、ここでは、計算したパターンスコアが「0」であ る場合、パターン候補作成手段 11がそのパターンスコアを含むレコードを記憶装置 4 00に記憶させない場合を例に示している。図 5においても、パターンスコアが「0」とな るレコードは示していない。
[0075] ステップ S3の後、パターン候補作成手段 11は、文書群 15に含まれる全ての文書 を取り出して、全ての文書に対してステップ S3までの処理を実行したカゝ否かを判定 する(図 2に示すステップ S4)。ステップ S1〜S3の処理を実行していない文書が残つ ている場合 (ステップ S4の N)、ステップ S1に移行し、ステップ S1以降の処理を繰り 返す。全ての文書に対してステップ S3までの処理を実行したならば、ステップ S5に 移行する。
[0076] ステップ S5では、語句候補作成手段 12は、記憶装置 400に記憶されるパターン候 補 16から 1レコードを取り出し、文書 IDに対応する文書本文における前方パターン 候補と後方パターン候補の出現位置を特定する(図 2に示すステップ S5)。まず、ス テツプ S5において、語句候補作成手段 12は、まず、ノターン候補 16から 1レコード を取り出す。そして、語句候補作成手段 12は、そのレコードに含まれる文書 IDに対 応する文書本文を文書群 15の中から読み込む。語句候補作成手段 12は、その文書 本文の中で、取り出したレコードに含まれる前方パターン候補と後方パターン候補の 出現位置を特定する。
[0077] 図 5に例示するパターン候補 16の 2レコード目を語句候補作成手段 12が取り出し た場合を例にして、ステップ S5における語句候補作成手段 12の動作を説明する。図 5に例示する 2レコード目のデータには、文書 IDとして「文書 B」が含まれている。また 、前方パターン候補として「Size = "10" >」が含まれ、後方パターン候補として「く/ font> <」が含まれている。従って、語句候補作成手段 12は、記憶装置 400に記憶 される文書群 15のなから「文書 B」に対応する文書本文を読み込む。そして、語句候 補作成手段 12は、その文書本文における前方パターン候補「size = "10" >」の出 現位置と、後方パターン候補「 < Zf ont > <」の出現位置を特定する。
[0078] ステップ S5の後、語句候補作成手段 12は、前方パターン候補の出現位置と後方 ノ ターン候補の出現位置に基づいて、その前方パターン候補と後方パターン候補に 挟まれる文字列を語句の候補として抽出する。そして、語句候補作成手段 12は、抽 出した語句の候補と、その語句の候補を抽出した文書の文書 IDと、その語句の候補 の抽出に用いたパターンの候補 (前方パターン候補と後方パターン候補のペア)の パターン IDと、そのパターンスコアとを対応させて、語句候補 17として記憶装置 400 に記憶させる(図 2に示すステップ S6)。
[0079] ただし、「語句の候補となる文字列の出現位置は、前方パターン候補の出現位置と 後方パターン候補の出現位置を含まない。」という条件を満足するように、語句候補 作成手段 12は、語句の候補を文書本文から抽出する。すなわち、文書本文から抽 出される語句の候補の文字列には、前方パターン候補や後方パターン候補は含ま れない。例えば、図 5に例示するパターン候補 16の 2レコード目に含まれる文書 ID (「 文書 B」)に対応する文書本文では、前方パターン候補「size = "10" >」と後方バタ ーン候補「く Zfont> <」に挟まれる文字列として、「製品 B< Zfont> <br> <fo nt size="10"〉製品 A」という文字列が存在する。この文字列の出現位置には、後方 ノ ターン候補「く/ font> <」の出現位置も含まれている。従って、語句候補作成手 段 12は、このような文字列は語句の候補として採用しない。
[0080] また、語句候補作成手段 12は、入力語と同一の文字列も語句の候補として採用し ない。従って、入力語と同一の文字列が語句候補 17として記憶されることはない。
[0081] 語句候補作成手段 12は、このように抽出した語句の候補と、その語句の候補を抽 出した文書の文書 IDと、その語句の候補の抽出に用いたパターンの候補 (前方バタ ーン候補と後方パターン候補のペア)のパターン IDと、そのパターンスコアとを対応さ せて、語句候補 17として記憶装置 400に記憶させる。図 6は、語句候補 17の一例を 示す説明図である。図 6に示すように、語句候補 17は、文書 IDと、文書本文から抽 出された文字列 (語句の候補)と、パターン IDと、パターンスコアとを含んでいる。語 句候補 17における 1レコードは、 1つの語句の候補に対応する。
[0082] ステップ S6の後、語句候補作成手段 12は、ノターン候補 16に含まれる全てのレコ ード(全てのパターン候補)についてステップ S5, S6の処理を実行したか否かを判定 する(図 2に示すステップ S7)。ステップ S5, S6の処理を実行していないレコードが パターン候補 16に残っている場合 (ステップ S7の N)、ステップ S5に移行し、ステツ プ S5以降の処理を繰り返す。パターン候補 16の全てのレコードに対してステップ S5 , S6の処理を実行したならば (ステップ S7の Y)、ステップ S8に移行する。
[0083] ステップ S8では、語句選択手段 13は、語句候補 17を参照して、文書から抽出され た語句の候補を選択し、その語句の候補の語句スコアを計算する(図 2に示すステツ プ S8)。語句選択手段 13は、ステップ S8において、まず、語句の候補の文字列が同 一であるレコードを語句候補 17から抜き出し、抜き出したレコードに共通の語句の候 補の語句スコアを計算する。語句スコアとは、語句の候補の特定に用いたパターンの 候補の重要度の高さや、語句の候補が出現する文書の多さを示す数値である。語句 スコアの値が高いほど、パターンの候補の重要度が高ぐ語句の候補が出現する文 書の数が多いことを示す。語句スコアとして、語句の候補の文字列が同一である各レ コードに含まれるパターンスコアの平均値または合計値を用いることができる。また、 語句の候補の文字列が同一である各レコードに含まれる文書 IDの種類数を語句スコ ァとして用いてもよい。これらは語句スコアの例示であり、他の計算値を語句スコアと してもよい。ここでは、語句選択手段 13が、語句の候補の文字列が同一であるレコー ドを語句候補 17から抜き出したのち、その各レコードを文書 IDで分類して文書 ID毎 にパターンスコアの平均値を計算し、文書 ID毎に計算した平均値の合計を語句スコ ァとする場合を例にして説明する。この語句スコアの計算方法では、 1つの文書にあ る語句の候補が複数回出現する場合を考慮して、文書 ID毎にパターンスコアの平均 値を計算している。そして、複数の文書で出現する語句の候補に、より大きなスコアを 割り当てるために、文書 ID毎に計算したパターンスコアの平均値の合計を語句スコ ァとしている。
[0084] 例えば、図 6の語句候補 17に含まれる語句の候補「製品 D」の語句スコアは、以下 のように計算される。語句の候補力 ^製品 D」であり、文書 ID力 S「文書 A」であるレコー ドは 1つしかなぐそのパターンスコアは「3/3」である。語句の候補力 ^製品 D」であり 、文書 IDが「文書 B」であるレコードは 2つあり、そのパターンスコアは、それぞれ「3Z 4」、 「2Z4」である。この平均値は「(3Z4 + 2Z4)Z2」である。語句の候補が「製品 D」であり、文書 IDが「文書 D」であるレコードは 1つしかなぐそのパターンスコアは「2 Z2」である。従って、語句選択手段 13は、 Γ3/3 + (3/4 + 2/4) /2 + 2/2 = 2 . 625」と語句スコアを計算する。
[0085] 次に、語句候補 17の全てのレコードについて、ステップ S8の処理を完了したか否 かを判定する(図 2に示すステップ S9)。ステップ S8の処理が行われていないレコー ドが残って 、る場合、すなわちステップ S8で選択されて!、な!/、レコードが残って!/、る 場合 (ステップ S9の N)、ステップ S8に移行し、ステップ S8以降の処理を繰り返す。 語句候補 17の全てのレコードについて、ステップ S8の処理を完了した場合 (ステップ S9の Y)、ステップ S10に移行する。
[0086] ステップ S10では、語句選択手段 13は、語句スコアに基づいて、出力すべき語句 の候補を選択する(図 2に示すステップ S10)。出力すべき語句の候補の選択方法と して、語句スコアの値が所定のしき!/、値以上である語句の候補を選択する方法があ る。また、語句スコアの高い順に語句の候補をソートし、所定の順位以上である語句 の候補を選択する方法がある。また、語句スコアの高い順に語句の候補をソートし、 上位の所定の割合の語句の候補を選択してもよい。ここでは、語句スコアの高い順に 語句の候補をソートし、上位の所定の割合の語句の候補を選択する場合を例にする 。この場合、語句選択手段 13は、例えば、語句スコアの高い上位 10%の語句の候 補を選択する。ここでは、所定の割合として上位 10%を例示したが、所定の割合は 1 0%でなくてもよい。また、上記の各選択方法における所定のしきい値、所定の順位、 所定の割合は、予め定められていてもよい。あるいは、入力装置 100を介して、利用 者力も入力されてもよい。
[0087] このように、語句スコアの高い語句の候補を選択することによって、より多くの文書に 出現する語句や、重要度の高 、パターンによって抽出された語句を選択することが できる。
[0088] なお、既に説明したように、語句の候補の文字列が同一である各レコードに含まれ るパターンスコアの平均値あるいは合計値を語句スコアとしてもよい。あるいは、語句 の候補の文字列が同一である各レコードに含まれるパターン IDによって特定される パターンの候補 (本実施の形態では前方パターン候補および後方パターン候補)の 文字数の平均値を語句スコアとしてもょ ヽ。このように語句スコアを計算した場合であ つても、出力すべき語句の候補の選択は、上述のように行えばよい。例えば、語句ス コアの値が所定のしきい値以上である語句の候補を選択すればよい。あるいは、語 句スコアの高 、順に語句の候補をソートし、所定の順位以上である語句の候補を選 択してもよい。また、あるいは、語句スコアの高い順に語句の候補をソートし、上位の 所定の割合の語句の候補を選択してもよ 、。
[0089] 最後に、語句選択手段 13は、選択した語句の候補の集合を出力語リストとして出 力装置 300に出力(例えば、表示出力、あるいは印字出力)させる。出力語は、ステツ プ S 10で選択された語句の候補である。出力語リストの一例を図 7に示す。図 7では、 選択した語句の候補とともに、その語句スコアも出力する場合を示している。
[0090] 情報抽出システムの利用者は、出力語リストに含まれる出力語と自身が入力した入 力語とを含む辞書を作成すればよい。また、利用者は、各出力語に対応する語句ス コアを参照して、個々の出力語を辞書に含めるべき力否かを精査してもよい。
[0091] 次に、本実施の形態の効果について説明する。
[0092] 本実施の形態では、パターン候補作成手段 11が 1つずつ文書を文書群 15から取 り出し、各文書本文からパターンの候補を決定し、ノターンの候補を用いて語句の候 補を文書から抽出する。従って、文書形式に依存せずに語句の抽出を行うことができ る。すなわち、文書群 15に様々な文書形式の文書が含まれていたとしても、各文書 力 入力語と同種の語句を抽出することができる。
[0093] また、本実施の形態では、さらに、パターン候補作成手段 11によって決定されたパ ターンの候補を用いて、語句候補作成手段 12が語句の候補を抽出し、語句選択手 段 13が語句スコアに基づいて語句の候補を選択する。そして、その選択された語句 の候補が出力語として出力される。従って、出力された語句の信頼度を確保すること ができる。
[0094] 実施の形態 2.
第 2の実施の形態の情報抽出システムは、第 1の実施の形態と同様であり、第 2の 実施の形態の情報抽出システムも図 1のように示すことができる。ただし、パターン候 補作成手段 11、語句候補作成手段 12、語句選択手段 13の処理内容が第 1の実施 の形態とは異なる。
[0095] 第 2の実施の形態では、パターン候補作成手段 11は、前方または後方のみのバタ ーンの候補を決定する。すなわち、本実施の形態では、パターン候補作成手段 11は 、 ノターンの候補として、前方パターン候補のみ、あるいは後方パターン候補のみを 決定する。
[0096] また、第 2の実施の形態では、語句候補作成手段 12は、前方パターン候補のみ、 あるいは後方パターン候補のみに基づいて語句候補 17を作成する。従って、前方パ ターン候補のみを考慮した処理、または、後方パターン候補のみを考慮した処理を 実現することができる。
[0097] 第 2の実施の形態では、前方パターン候補のみ、あるいは後方パターン候補のみ に基づ!ヽて語句の候補となる文字列を決定することで、不必要な接尾辞や接頭辞を 除去することが可能となる。不必要な接頭辞や接尾辞とは、文書テキスト中で注意を 喚起するために付与する、「 *」や「 #」と!、つた記号等のことである。
[0098] 第 2の実施の形態では、前方パターン候補のみ、または、後方パターン候補のみを 用いることによって、このような不必要な接尾辞や接頭辞の除去を実現し、これによつ て出力語の信頼性向上を図る。
[0099] 次に、本実施の形態の動作について説明する。図 8は、本実施の形態の動作の例 を示すフローチャートである。図 8に示すフローチャートは、第 1の実施の形態の動作 を示すフローチャート(図 2参照。)と以下の点で異なる。すなわち、図 2に示すステツ プ S2, S3, S5, S6, S8の処理力 それぞれ、ステップ S21, S31, S51, S61, S81 の処理【こ置き換わって ヽる^ (で異なる。ステップ S21, S31, S51, S61, S81の処 理については後述する。
[0100] 以下の説明では、第 1の実施の形態と異なる処理内容について述べ、第 1の実施 の形態と同様の処理については説明を省略する。また、以下の例では、パターンの 候補として前方パターン候補のみを用いる例を示すが、パターンの候補として後方パ ターン候補のみを用いる場合も同様である。ノ ターンの候補として前方パターン候補 と後方パターン候補のどちらを用いるかを示す情報をデータ処理装置 200が保持し ておき、その情報に従って前方パターン候補のみ、あるいは後方パターン候補のみ を用いてもよい。あるいは、パターンの候補として前方パターン候補か後方パターン 候補のどちらを用いるかを示す情報が、入力装置 100を介して利用者力も入力され 、データ処理装置 200は、その情報に従って、前方パターン候補のみ、あるいは後 方パターン候補のみを用いてもよ 、。
[0101] ステップ S1の後のステップ S21では、パターン候補作成手段 11は、前方パターン 候補のみ、あるいは後方パターン候補のみを決定する。前方パターン候補を決定す る動作、後方パターン候補を決定する動作は、第 1の実施の形態と同様である。
[0102] 例えば、記憶装置 400 (図 1参照。 )が文書群 15として、図 9に例示する文書群を記 憶していて、ステップ SIでは、文書 ID「文書 B」に対応する文書本文(図 3参照。)が 選択されたものとする。なお、図 9は、文書群 15の一例を示す説明図であり、「文書 B 」に対応する文書本文にぉ 、て、文字列「製品 D」の後に文字「 *」が追加されて 、る 点で、図 3に例示する文書群とは異なっている。また、入力語リストとして、第 1の実施 の形態で例示した場合と同様に図 4に例示する入力語リストが入力されているものと する。ここでは、パターン候補作成手段 11が前方パターン候補のみを決定する場合 を例示する。前方パターン候補を決定する動作は第 1の実施の形態と同様である。 従って、ノターン候補作成手段 11は、「文書 B」に対応する文書本文から「Size = "l 0" >」、 「nt> <p > <b > '」を抽出して、この 2つの文字列を前方パターン候補とし て決定する。
[0103] ステップ S21の後、パターン候補作成手段 11は、パターンスコアを計算し、その計 算結果を記憶装置 400に記憶させる (ステップ S31)。第 2の実施の形態では、バタ ーン候補作成手段 11は、前方パターン候補のみ、あるいは後方パターン候補のみ からパターンスコアを計算する。本実施の形態では、前方パターン候補のみからバタ ーンスコアを計算する場合、文書内に出現する全ての入力語の延べ数に対する、入 力語出現位置の前方の前方パターン候補出現数の割合をパターンスコアとすればよ い。すなわち、パターン候補作成手段 11は、「入力語出現位置前方の前方パターン 候補出現数 Z文書中に出現する全ての入力語数」を計算してパターンスコアを算出 すればよい。また、後方パターン候補のみからパターンスコアを計算する場合、文書 内に出現する全ての入力語の延べ数に対する、入力語出現位置の後方の後方バタ ーン候補出現数の割合をパターン候補とすればよい。すなわち、パターン候補作成 手段 11は、「入力語出現位置後方の後方パターン候補出現数 Z文書中に出現する 全ての入力語数」を計算してパターンスコアを算出すればよい。
[0104] ここでは、前方パターン候補のみからパターンスコアを計算する場合を例示する。
例えば、文書 ID「文書 B」に対応する文書本文を参照すると、「製品 A」、「製品 B」、 「 製品 C」の入力語の前方における前方パターン候補「size = "10" >」の出現数は 3 である。また、この文書本文では、入力語「製品 A」、「製品 B」、「製品 C」は、延べ 4つ 出現している。従って、パターン候補作成手段 11は、「size = "10" >」のパターンス コアを「3/4」と算出する。ノターン候補作成手段 11は、他の前方パターン候補につ いても同様にパターンスコアを算出する。
[0105] パターン候補作成手段 11は、各前方パターン候補 (後方パターン候補のみを用い て処理を実行する場合には各後方パターン候補)に対してパターン IDを割り当て、 パターン IDと、前方パターン候補 (または後方パターン候補)と、その前方パターン 候補 (または後方パターン候補)の決定に用いた文書本文の文書 IDと、パターンスコ ァとを対応付けて、パターン候補 16として記憶装置 400に記憶させる。図 10は、第 2 の実施の形態におけるパターン候補 16の一例を示す説明図である。図 10に示すよ うに、本実施の形態におけるパターン候補 16は、パターン IDと、文書 IDと、前方パタ ーン候補と、パターンスコアとを含んでいる。 1レコードは、 1つの前方パターン候補に 対応する。ステップ S21で後方パターン候補のみを決定した場合には、前方パター ン候補の代わりに後方パターン候補を含む。
[0106] ステップ S31の後、第 1の実施の形態と同様にステップ S4の判定処理を行い、文書 群 15に含まれる全ての文書に対してステップ SI, S21, S31の処理を実行したなら ば、ステップ S51に移行する。
[0107] ステップ S51では、語句候補作成手段 12は、記憶装置 400に記憶されるパターン 候補 16から 1レコードを取り出し、文書 IDに対応する文書本文における前方パター ン候補の出現位置を特定する (ステップ S51)。ただし、後方パターン候補のみを用 V、て処理を実行する場合 (すなわちステップ S21で後方パターン候補のみを決定し た場合)には各後方パターン候補の出現位置を特定する。
[0108] ステップ S51の後、語句候補作成手段 12は、語句の候補を特定する (ステップ S61 )。ステップ S21で前方パターン候補のみを決定した場合、前方パターン候補に続く 所定の文字数の文字列を語句の候補として特定する。また、ステップ S21で後方パ ターン候補のみを決定した場合、後方パターン候補の直前の所定の文字数の文字 列を語句の候補として特定する。なお、この所定の文字数は、予め定められていても よい。あるいは、入力装置 100を介して利用者力も文字数が入力され、語句候補作 成手段 12は、その文字数を所定の文字数として定めてもよい。
[0109] 例えば、所定の文字数が 6であり、図 10に示すパターン候補 16の 2レコード目に含 まれる前方パターン候補を用いて語句の候補を特定する場合を例示する。図 10〖こ 示すパターン候補 16の 2レコード目に含まれる文書 IDは、「文書 B」である。従って、 語句候補作成手段 12は、「文書 B」の文書本文における前方パターン候補「Size = " 10" >」に続く 6文字分の文字列を語句の候補を抽出し、語句の候補とする。すなわ ち、語句候補作成手段 12は、「文書 B」の文書本文から「製品 D * <Z」を抽出し、語 句の候補とする。
[0110] ただし、語句候補作成手段 12は、前方パターン候補の直後 (または、後方パターン 候補の直前)に入力語を含む文字列は語句の候補として採用しない。
[0111] 語句候補作成手段 12は、特定した語句の候補と、その語句の候補を抽出した文書 の文書 IDと、その語句の特定に用いたパターンの候補 (前方パターン候補あるいは 後方パターン候補)のパターン IDと、そのパターンスコアとを対応させて、語句候補 1 7として記憶装置 400に記憶させる。図 11は、本実施の形態における語句候補 17の 一例を示す。本実施の形態における語句候補 17は、第 1の実施の形態の場合と同 様に、文書 IDと語句の候補とパターン IDとパターンスコアとを含んでいる。語句候補 17における 1レコードは、 1つの語句の候補に対応する。ただし、本実施の形態では 、それぞれの語句の候補の文字数は所定の文字数 (本例では 6)であり、不必要な接 尾辞やタグ文字列等が付加されたままになっている。
[0112] ステップ 61の後、第 1の実施の形態と同様にステップ S7の判定処理を行い、パタ ーン候補 16 (図 10参照。)の全てのレコードに対してステップ S51, S61の処理を実 行したならば、ステップ S81に移行する。
[0113] ステップ S81では、語句選択手段 13は、語句候補 17を参照して語句の候補を選 択し、その語句の候補の語句スコアを計算する(ステップ S81)。ステップ S81におい て、まず、語句選択手段 13は、語句候補 17から 1レコードを抜き出す。語句選択手 段 13は、そのレコードに含まれる語句の候補の部分文字列を作成する。前方パター ン候補力 決定された語句の候補の場合、その語句の候補の先頭文字のみ力 なる 部分文字列、先頭文字力 その次の文字までで構成した部分文字列、 · · ·、先頭文 字から最終文字までで構成した部分文字列をそれぞれ作成する。後方パターン候補 力 決定された語句の候補の場合、その語句の候補の最終文字のみ力 なる部分 文字列、最終文字力 その 1つ前までの文字までで構成した部分文字列、 · · ·、最終 文字から先頭文字までで構成した部分文字列をそれぞれ作成する。次に、語句選択 手段 13は、語句候補 17を参照し、作成した部分文字列を含むレコードを検索する。 そして、語句選択手段 13は、部分文字列を含むレコード数の全レコード数に占める 割合が所定の範囲内である力否かを判定する。語句選択手段 13は、作成したそれ ぞれの部分文字列に対してこの判定処理を行 、、部分文字列を含むレコード数の全 レコード数に占める割合が所定の範囲内となっている部分文字列を語句スコアの計 算対象とする。ここで、上記の所定の範囲を示す情報を語句候補選択手段 13が予 め保持していてもよい。あるいは、所定の範囲を示す情報が入力装置 100を介して 利用者から入力され、語句選択手段 13は、その所定の範囲を用いて上記の判定処 理を行ってもよい。所定の割合は、例えば、 20%〜40%の範囲とすることが好ましい 力 この範囲に限定されるわけではない。
[0114] 語句選択手段 13は、語句スコアの判定対象とした部分文字列を含むレコードを語 句候補 17 (図 11参照。)から抜き出し、その部分文字列の語句スコアを計算する。こ の語句スコアの計算は第 1の実施の形態で説明した計算と同様に行えばよい。
[0115] 図 11に例示する語句候補 17の 1レコード目を取り出した場合を例にしてステップ S 81の具体例を説明する。この場合、語句選択手段 13は、語句の候補「製品 D<Zt」 から部分文字列を作成し、「製」、「製品」、「製品 D」、「製品 Dく」、「製品 D<Z」、 「 製品 D<Zt」の 6つの部分文字列を得る。語句選択手段 13は、各部分文字列を含 むレコードを検索する。部分文字列「製」および「製品」に関しては、図 11に示す語句 候補 17のうち 1, 2, 3, 4, 5, 8, 9, 10レコード目の 8個のレコードを検索する。部分 文字列「製品 D」に関しては、 1, 4, 9レコード目の 3個のレコードを検索する。部分文 字列「製品 Dく」、「製品 D<Z」、「製品 D<Zt」に関しては、それぞれ 4レコード目 の 1個のレコードを検索する。そして、語句選択手段 13は、部分文字列を含むレコー ド数の全レコード数に占める割合が所定の範囲内(本例では 20%〜40%の範囲内 とする。)となっている部分文字列を語句スコアの計算対象とする。図 11に示す例で は全レコード数は 10個なので、「製品 D」を語句スコアの計算対象とする。
[0116] 語句選択手段 13は、部分文字列「製品 D」を含むレコード(1, 4, 9レコード目の 3 つのレコード)を語句候補 17から抜き出し、語句スコアを計算する。ここでは、第 1の 実施の形態で示した具体例と同様に、各レコードを文書 IDで分類して文書 ID毎に パターンスコアの平均値を計算し、文書 ID毎に計算した平均値の合計を語句スコア とする場合の例を示す。語句選択手段 13は、 Γ3/3 + 3/4 + 2/2 = 2. 75」と語句 スコアを計算する。
[0117] 次のステップ S9では、語句候補 17に含まれる全てのレコードを 1つずつ抜き出して ステップ S81の処理を完了したか否かを判定する。まだ、抜き出していないレコード が存在するならば (ステップ S9の Ν)、ステップ S81に移行し、ステップ S81以降の処 理を繰り返す。全てのレコードについてステップ S81の処理を完了したならば (ステツ プ S9の Υ)、ステップ S10に移行する。
[0118] ステップ S10では、語句スコアの計算対象とされた文字列 (語句の候補の部分文字 列)の中から、語句を選択する (ステップ S10)。ステップ S10における語句の選択方 法は、第 1の実施の形態と同様である。例えば、語句スコアの値が所定のしきい値以 上である部分文字列を選択してもよい。また、例えば、語句スコアの高い順に部分文 字列をソートし、所定の順位以上である部分文字列を選択してもよい。また、例えば、 語句スコアの高い順に部分文字列をソートし、上位の所定の割合の部分文字列(例 えば上位 10%の部分文字列)を選択してもよい。上記の各選択方法における所定の しきい値、所定の順位、所定の割合は、予め定められていてもよい。あるいは、入力 装置 100を介して、利用者力も入力されてもよい。
[0119] 最後に、語句選択手段 13は、第 1の実施の形態と同様に出力語リストを出力装置 3
00に出力(例えば、表示出力、あるいは印字出力)させる。
[0120] 情報抽出システムの利用者は、出力語リストに含まれる出力語と自身が入力した入 力語とを含む辞書を作成すればよい。また、利用者は、各出力語に対応する語句ス コアを参照して、個々の出力語を辞書に含めるべき力否かを精査してもよい。
[0121] 上述の具体例では、ステップ S21で前方パターン候補のみを決定し、前方パターン 候補を用いる場合を説明した。ステップ S21で後方パターン候補のみを決定し、後方 ノ ターン候補を用いる場合の動作も同様である。
[0122] 次に、第 2の実施の形態の効果について説明する。第 2の実施の形態では、パター ンの候補として、前方パターン候補のみ、または後方パターン候補のみを用いる。従 つて、出力語となる文字列の前あるいは後ろに余計な文字列(例えば、不必要な接 尾辞や接頭辞)が付加されていてもこれを除去できる。また、第 1の実施の形態と同 様に、文書形式に依存せずに語句の抽出を行うことができる。すなわち、文書群 15 に様々な文書形式の文書が含まれていたとしても、各文書から入力語と同種の語句 を抽出することができる。また、出力された語句の信頼度を確保することができる。
[0123] 実施の形態 3.
図 12は、本発明による情報抽出システムの第 3の実施の形態を示すブロック図であ る。第 1の実施の形態と同様の構成部については、図 1と同一の符号を付し、説明を 省略する。第 3の実施の形態では、データ処理装置 200は、パターン候補作成手段 11、語句候補作成手段 12、語句選択手段 13に加え、文書検索手段 14も含む。また 、記憶装置 400は、文書群 15、パターン候補 16、語句候補 17に加え、検索結果文 書群 18も記憶する。
[0124] 文書検索手段 14は、入力装置 100から入力語リストを受け取り、入力語リストの中 カゝら複数の入力語を選択し、選択した入力語群を含む文書本文およびその文書 ID を文書群 15中から検索する。文書検索手段 14は検索した文書本文および文書 ID の組を検索結果文書群 18として記憶装置 400に記憶させる。
[0125] 検索結果文書群 18は、文書検索手段 14によって文書群 15から検索された検索結 果である。検索結果文書群 18は、文書群 15と同様に、文書 IDと文書本文とを含む。 パターン候補作成手段 11は、検索結果文書群 18から各レコードを読み込んで、バタ ーン候補 16を作成する。また、語句候補作成手段 12は、検索結果文書群 18から各 レコードを読み込んで、語句候補 17を作成する。
[0126] このように構成によって、文書内での同種語句のまとまりやすさを考慮して、語句抽 出対象となる文書を効果的に文書群 15の中から選択することができる。そして、その 後の処理では、文書群 15ではなぐ文書群 15から選択された文書を用いて処理を 行うので、同種の語句を含んでいる信頼性がより高い出力語リストを作成することがで きる。
[0127] 一般的に同じ種類の語句は同じ文書に出現することが多い。例えば、語句の種類 として「会社名」を例にして説明する。会社名が複数出現する文書は、会社名が 1つ しか出現しない文書に比べて、リスト形式や表形式など同じようなパターンの間に会 社名が出現することが多いと考えられる。したがって、このような文書のみを対象にし てパターン候補 16を作成し、語句候補 17を作成することで、会社名以外の語句を抽 出してしまう可能性を下げることができる。そこで、同一文書に複数の入力語が出現 する文書をあらかじめ検索することで、同様の語句が出現する文書のみを対象に信 頼性の高い出力語リストを作成できる。
[0128] 第 3の実施の形態では、文書検索手段 14が、入力語リストから複数の入力語を選 択し、文書群 15に含まれる文書のうち、選択した入力語を全て含む文書を検索する 。そして、ノターン候補作成手段 11および語句候補作成手段 12は、検索された文 書 (すなわち、検索結果文書群 18)を用いて処理を行う。この結果、出力語リストの信 頼性を向上させることができる。
[0129] 次に、本実施の形態における処理経過の例について説明する。第 1の実施の形態 と同様に、情報抽出システムは、動作前に文書群 15をあらかじめ記憶装置 400に記 憶しておく。また、利用者によって、入力装置 100に入力語リストが入力される。入力 装置 100は、入力された入力語リストをデータ処理装置 200に送る。すなわち、デー タ処理装置 200には、入力装置 100から入力語リストが入力される。
[0130] データ処理装置 200の文書検索手段 14は、入力装置 100から入力語リストが送ら れてくると、その入力語リストの中から複数の入力語を選択する。文書検索手段 14が 入力語リストの中から選択する入力語の数は、文書検索手段 14が予め記憶していて もよい。あるいは、選択すべき入力語の数が、入力装置 100を介して利用者力も文書 検索手段 14に入力されてもよい。文書検索手段 14が入力語リストの中から選択する 入力語の数は、例えば 3とすることが好ましいが、 3に限定されるわけではない。ただ し、選択する入力語の数は 2以上として、入力語リストから複数の入力語が選択され るように定める。
[0131] 文書検索手段 14は、定められた数の入力語を選択するときに、入力語リストの中か ら定められた数の入力語をランダムに選択することが好ましい。ただし、このような選 択方法に限定されるわけではなぐ例えば、文書群 15での出現回数頻度が多い入 力語から順に選択してもよ 、。
[0132] 次に、文書検索手段 14は、文書群 15を参照し、選択した入力語群 (複数の入力語 )を全て含む文書を検索し、検索結果文書群 18として記憶装置 400に記憶させる。 すなわち、文書検索手段 14は、選択した複数の入力語を全て含む文書本文および その文書 IDを文書群 15から検索し、検索した文書 IDおよび文書本文を検索結果文 書群 18として記憶装置 400に記憶させる。
[0133] 次に、文書検索手段 14が、十分な検索結果文書群 18が得られたか否かを判定す る。十分な検索結果文書群 18が得られていないと判定した場合には、文書検索手 段 14は、入力語リストの中から複数の入力語を再度選択し、その複数の入力語を全 て含む文書を文書群 15の中から検索し、検索結果を検索結果文書群 18に追加する 処理を繰り返す。
[0134] 文書検索手段 14は、例えば、入力語リストの中から複数の入力語を選択した回数 が所定に達した場合に十分な検索結果文書群 18が得られたと判定し、複数の入力 語を選択した回数が所定の回数未満である場合に十分な検索結果文書群 18が得ら れていないと判定すればよい。あるいは、文書検索手段 14は、検索結果文書群 18 に含まれる文書数 (レコード数)が所定数に達した場合に十分な検索結果文書群 18 が得られたと判定し、検索結果文書群 18に含まれる文書数が所定数未満である場 合に十分な検索結果文書群 18が得られていないと判定してもよい。ここでは 2種類 の判定方法を示したが、文書検索手段 14は、後者の判定方法 (検索結果文書群 18 に含まれる文書数に基づく判定方法)で判定を行うことが好ま 、。検索結果文書群 18に含まれる文書数をより多くすることができ、その結果、文書から抽出される語句 の信頼性を向上させることができるからである。なお、十分な検索結果文書群 18が得 られたか否かの判定に用いるしきい値の情報は、文書検索手段 14が予め保持して いてもよい。あるいは、入力装置 100を介して利用者から文書検索手段 14に入力さ れてもよい。
[0135] 文書検索手段 14によって十分な検索結果文書群 18が得られたと判定した場合、 データ処理装置 200のパターン候補作成手段 11は、第 1の実施の形態におけるス テツプ S1〜S4 (図 2参照。)と同様の処理を行う。ただし、パターン候補作成手段 11 は、 1レコード分のデータ(1つの文書 IDおよびその文書 IDに対応する文書本文)を 、文書群 15ではなぐ検索結果文書群 18から取り出して、ステップ S1〜S4と同様の 処理を行う。また、パターン候補作成手段 11は、ステップ S4において、検索結果文 書群 18に含まれる全ての文書に対してステップ S1〜S3の処理を行ったか否かを判 定する。ステップ S1〜S3の処理を実行していない文書が検索結果文書群 18に残つ て ヽる場合、ステップ S 1に移行してステップ S 1以降の処理を繰り返す。
[0136] 検索結果文書群 18に含まれる全ての文書に対してステップ S1〜S3の処理を行つ たならば、語句候補作成手段 12は、第 1の実施の形態におけるステップ S5〜S7と 同様の処理を行う。ただし、語句候補作成手段 12は、パターン候補 16のレコードに 含まれる文書 IDに対応する文書本文を読み込む場合、文書群 15ではなぐ検索結 果文書群 18から読み込む。
[0137] パターン候補 16の全てのレコードに対してステップ S5, S6の処理を実行したなら ば (ステップ S7の Y)、語句選択手段 13は、第 1の実施の形態におけるステップ S8以 降と同様の処理を行う。
[0138] 情報抽出システムの利用者は、出力語リストに含まれる出力語と自身が入力した入 力語とを含む辞書を作成すればよい。また、利用者は、各出力語に対応する語句ス コアを参照して、個々の出力語を辞書に含めるべき力否かを精査してもよい。
[0139] 次に、第 3の実施の形態の効果について説明する。本実施の形態では、同種の語 句は同一文書に出現することが多いという性質を利用し、文書検索手段 14が、複数 の入力語を含む文書を文書群 15から検索して、検索結果を検索結果文書群 18とし て記憶させる。そして、パターン候補作成手段 11および語句候補作成手段 12は、文 書群 15の代わりに検索結果文書群 18を用いて第 1の実施の形態と同様の処理を行 う。従って、同種の語句が出現する可能性の高い文書のみを対象に処理するため、 信頼性の高い語句を出力できる。また、第 1の実施の形態と同様の効果も得られる。
[0140] また、上記の第 3の実施の形態において、パターン候補作成手段 11、語句候補作 成手段 12、語句選択手段 13は、第 2の実施の形態と同様の動作を行ってよい (ただ し、文書群 15ではなぐ検索結果文書群 18を用いる)。その場合には、第 2の実施の 形態と同様の効果が得られる。 [0141] 実施の形態 4.
図 13は、本発明による情報抽出システムの第 4の実施の形態を示すブロック図であ る。第 3の実施の形態と同様の構成部については、図 12と同一の符号を付し、説明 を省略する。第 4の実施の形態では、データ処理装置 200は、パターン候補作成手 段 11、語句候補作成手段 12、語句選択手段 13、文書検索手段 14に加え、再作成 手段 19も含む。
[0142] 再作成手段 19は、出力語リストをもとに入力語リストを再作成する。具体的には、再 作成手段 19は、語句選択手段 13から出力語リストを受け取り、出力語リストに含まれ る出力語の集合を入力語リストとして文書検索手段 14に渡す。このとき、再作成手段 19は、記憶装置 400に記憶されている検索結果文書群 18、パターン候補 16、およ び語句候補 17を削除する。すなわち、再作成手段 19が受け取った出力語リストが作 成されたときに記憶装置 400に記憶された検索結果文書群 18、パターン候補 16、 および語句候補 17を削除する。
[0143] また、再作成手段 19は、語句選択手段 13から受け取った出力語リストの複製を内 部に蓄積する。
[0144] 再作成手段 19が文書検索手段 14に入力語リストを渡した後、文書検索手段 14、 パターン候補作成手段 11、語句候補作成手段 12、語句選択手段 13は、第 3の実施 の形態と同様の処理を実行する。ただし、語句選択手段 13は、出力語リストを再作成 手段 19に渡す。再作成手段 19は、十分な出力語リストが得られたならば、その出力 語リストを出力させる。
[0145] 次に、本実施の形態における処理経過の例について説明する。利用者によって、 入力装置 100に入力語リストが入力される。入力装置 100は、入力された入力語リス トをデータ処理装置 200に送る。すなわち、データ処理装置 200には、入力装置 10 0から入力語リストが入力される。
[0146] その後、文書検索手段 14、パターン候補作成手段 11、語句候補作成手段 12、お よび語句選択手段 13は、第 3の実施の形態と同様の処理を行ない出力語リストを作 成する。語句選択手段 13は、作成した出力語リストを再作成手段 19に渡す。
[0147] 再作成手段 19は、語句選択手段 13から出力語リストを受け取ると、十分な出力語リ ストが蓄積された力否かを判定する。再作成手段 19は、例えば、これまでに蓄積して きた出力語リストの複製に含まれる出力語の総数 (ただし、重複する出力語はカウント しない。)が所定数未満であれば十分な出力語リストが蓄積されていないと判定し、こ れまでに蓄積してきた出力語リストの複製に含まれる出力語の総数が所定数以上で あれば十分な出力語リストが蓄積されていると判定してもよい。
[0148] また、例えば、再作成手段 19は、前回、語句選択手段 13から出力語リストを受け取 つた時点で蓄積して!/、た出力語リストの複製に含まれる出力語の総数 (ただし、重複 する出力語はカウントしない。 )に対する、新たに受け取った出力語リストに含まれる 新たな出力語 (それまでに蓄積されていた出力語とは重複しない新たな出力語)の 割合 (すなわち、出力語の増加率)を計算してもよい。そして、再作成手段 19は、そ の増加率が所定値を越えて 、れば十分な出力語リストが蓄積されて 、な 、と判定し、 その増加率が所定値以下であれば十分な出力語リストが蓄積されていると判定して ちょい。
[0149] また、例えば、再作成手段 19は、出力語リストに含まれる出力語の集合を入力語リ ストとして文書検索手段 14に渡した回数が所定回数以下であれば、十分な出力語リ ストが蓄積されていないと判定し、その回数が所定回数に達したならば、十分な出力 語リストが蓄積されて 、ると判定してもよ 、。
[0150] ここでは、 3種類の判定方法を示したが、この判定方法は例示であり、他の判定方 法によって判定を行ってもよい。また、上記の 3種類の各判定方法においてしきい値 として用いる値の情報は、再作成手段 19が予め保持していてもよい。あるいは、入力 装置 100を介して利用者力も再作成手段 19に入力されてもよい。
[0151] また、特に、上述の 3種類の判定方法のうち、出力語の増加率に基づく判定方法に よって判定を行うことが好ましい。新たに出現する出力語の増加率が低いということは 、既に検索結果文書群 18から網羅的に出力語を収集できていると考えられるからで ある。また、この判定方法においてしきい値となる所定の値は例えば 10%程度とする ことが好ましい。例えば、増加率が 10%をこえているときには十分な出力語リストが蓄 積されていないと判定し、増加率が 10%以下のときには十分な出力語リストが蓄積さ れて 、ると判定することが好ま 、。 [0152] 再作成手段 19は、十分な出力語リストが蓄積されていないと判定した場合、語句選 択手段 13から受け取った出力語リストの複製を内部に蓄積する。そして、語句選択 手段 13から受け取った出力語リストに含まれる出力語の集合を入力語リストとして文 書検索手段 14に渡す。このとき、再作成手段 19は、記憶装置 400に記憶されている 検索結果文書群 18、パターン候補 16、および語句候補 17を削除する。再作成手段 19によって出力語の集合が入力語リストとして文書検索手段 14に渡されると、再び、 文書検索手段 14、パターン候補作成手段 11、語句候補作成手段 12、および語句 選択手段 13は、第 3の実施の形態と同様の処理を行ない出力語リストを作成する。 語句選択手段 13は、作成した出力語リストを再作成手段 19に渡し、再作成手段 19 は、上述の動作を繰り返す。
[0153] また、再作成手段 19は、十分な出力語リストが蓄積されていると判定した場合、こ れまで内部に蓄積していた出力語リストを出力装置 300に出力させる。このとき、内 部に蓄積していた出力語リスト内に重複する語句が存在する場合、語句スコアをまと めることで語句の重複を排除して、語句が重複しないようにして出力語リストを出力装 置 300に出力させる。語句スコアをまとめて語句の重複を排除する場合、重複する語 句の語句スコアの平均値、合計値、最大値、あるいは最小値を求めて、求めた値を その語句の語句スコアとして、重複して 、た語句およびその語句スコアを出力語リスト 力も除外すればよい。特に、重複する語句の語句スコアの合計値を、その語句の語 句スコアとすることが好ましい。複数回出力語となった語句は辞書に含めるべき語句 としての信頼度が高 ヽと考えられ、語句スコアの合計値を重複する語句の語句スコア とすることで、そのような信頼度が高 、と考えられる語句の語句スコアを高めることが できる力 である。
[0154] 情報抽出システムの利用者は、出力装置 300から出力された出力語リストに含まれ る出力語と自身が入力した入力語とを含む辞書を作成すればよい。また、利用者は、 各出力語に対応する語句スコアを参照して、個々の出力語を辞書に含めるべきか否 かを精査してもよい。
[0155] 次に、第 4の実施の形態の効果について説明する。本実施の形態では、新たに見 つ力つた同種の語句をさらに入力語リストとして用いて出力語リストに含める出力語の 数を増加させることができる。従って、同種の語句を網羅的にまとめた辞書を作成す ることができる。また、上記の第 4の実施の形態において、パターン候補作成手段 11 、語句候補作成手段 12、語句選択手段 13は、第 2の実施の形態と同様の動作を行 つてよい (ただし、文書群 15ではなぐ検索結果文書群 18を用いる)。その場合には 、第 2の実施の形態と同様の効果が得られる。
[0156] また、上記の第 4の実施の形態では、再作成手段 19が出力語リストに含まれる出力 語の集合を入力語リストとして文書検索手段 14に渡す場合を示した。第 4の実施の 形態において、データ処理装置 200は、文書検索手段 14を備えずに検索結果文書 群 18を作成しない構成であってもよい。その場合、再作成手段 19が出力語リスト〖こ 含まれる出力語の集合を入力語リストとしてパターン候補作成手段 11に渡し、その後 のデータ処理装置 200の動作では、文書群 15に含まれる文書を処理対象として処 理を実行すればよい。
[0157] ここで、第 1の実施の形態力 第 4の実施の形態までの各情報抽出システムの具体 的な構成例について説明する。図 14は、上述の各実施の形態の各情報抽出システ ムの具体的な構成例を示すブロック図である。図 14に示す例において、データ処理 装置 200は、プログラムに従って動作するコンピュータである。データ処理装置 200 には、キーボードやマウス等の入力装置 100と、ディスプレイ装置あるいはプリンタ等 の出力装置 300が接続される。また、データ処理装置 200には、記憶装置 400が接 続される。記憶装置 400は、文書群 15、パターン候補 16、語句候補 17等を記憶す る記憶装置であり、データ処理装置とバスなどで接続されていてもよいし、あるいは、 通信ネットワークを介して接続されていてもよい。第 3、第 4の実施の形態の場合、記 憶装置 400は、検索結果文書群 18も記憶する。また、データ処理装置 200は、情報 抽出プログラム 500を記憶するプログラム記憶装置 501を備える。データ処理装置 2 00は、プログラム記憶装置 501から情報抽出プログラム 500を読込み、情報抽出プ ログラム 500に従って動作する。この結果、データ処理装置 200は、パターン候補作 成手段 11、語句候補作成手段 12、語句選択手段 13、および語句選択手段 13とし て動作する。また、第 3の実施の形態の場合、文書検索手段 14としての動作も行う。 第 4の実施の形態の場合、再作成手段 19としての動作も行う。また、コンピュータで あるデータ処理装置 200は内部に記憶装置を備え、その記憶装置に情報 (例えば、 出力語リストの複製)を記憶してもよ 、。
[0158] また、上述の各実施の形態において、各手段 (パターン候補作成手段 11、語句候 補作成手段 12、語句選択手段 13、文書検索手段 14、再作成手段 19)をそれぞれ 別個のハードウェア装置として、データ処理装置 200が備えて 、てもよ 、。
[0159] また、上記の各実施の形態において、データ処理装置 200は、出力語リストに含ま れる出力語と、入力語リストに含まれる入力語とをあわせることによって、辞書を作成 してもよい。すなわち、データ処理装置 200が自動的に辞書を作成してもよい。
[0160] また、上記の各実施の形態では、入力装置 100の例としてキーボードやマウスを挙 げたが、通信ネットワークを介して他の装置力も情報抽出システムに入力語リストが入 力されてもよい。この場合、通信ネットワークとの通信インタフェースを入力装置 100と して用いればよい。また、出力語リストの出力態様も、通信ネットワークを介して他の 装置に出力語リストを出力する態様であってもよい。この場合も、通信ネットワークとの 通信インタフェースを出力装置 300として用いればょ 、。
[0161] なお、入力手段は、入力装置 100によって実現される。パターン決定手段は、バタ ーン候補作成手段 11によって実現される。語句候補抽出手段は、語句候補作成手 段 12によって実現される。語句選択手段は、語句選択手段 13によって実現される。 文書検索手段は、文書検索手段 14によって実現される。再作成手段は、再作成手 段 19によって実現される。
[0162] 実施の形態 5.
次に、本発明の第 5の実施の形態について説明する。図 15は、本発明による情報 サービスシステムの構成例を示すブロック図である。本実施の形態の情報サービスシ ステムは、情報抽出システム 1000と、辞書サービスシステム 2000と、辞書データべ ース 3000とを備える。
[0163] 情報抽出システム 1000は、第 1の実施の形態力も第 4の実施の形態のうちのいず れかの情報抽出システムである。ただし、本実施の形態では、入力装置 100および 出力装置 300 (図 15において図示せず。)は、辞書サービスシステム 2000との通信 インタフェースによって実現される。情報抽出システム 1000には辞書サービスシステ ム 2000から入力語リストが入力され、入力語と同種の出力語のリストを辞書サービス システム 2000に出力する。
[0164] 辞書データベース 3000は、各種辞書 3001, 3002を記憶する記憶装置である。各 種辞書 3001, 3002は、情報抽出システム 1000が出力した出力語およびその出力 語の抽出のために入力語リスト作成者によって作成された入力語を含む。また、各辞 書は、その辞書の種類の情報と対応付けて登録される。
[0165] 辞書サービスシステム 2000には入力語リスト作成者力も入力語リストが入力され、 辞書サービスシステム 2000はその入力語リストを用いて情報抽出システム 1000に 出力語リストを出力させる。そして、出力語リストを入力語リスト作成者に提示して、入 力語リスト作成者に入力語および出力語を含む辞書の作成を促す。辞書サービスシ ステム 2000は、入力語リスト作成者から辞書を受け取ると、その辞書の種類の情報と 対応付けて、辞書および辞書の種類の情報を辞書データベース 3000に登録する。 また、辞書サービスシステム 2000は、辞書購入者の要求に応じて、辞書データべ一 ス 3000に登録されている辞書を辞書購入者に提供する。また、辞書サービスシステ ム 2000は、辞書サービス運営者が辞書購入者力も受け取るべき金額や、入力語リス ト作成者に支払うべき金額を記録する。
[0166] 以下の説明では、辞書サービスシステム 2000が辞書購入者の端末 (以下、購入者 端末と記す。)および入力語リスト作成者の端末 (以下、作成者端末と記す。)と情報 を送受信するものとして説明する。購入者端末は、辞書購入者によって操作される端 末であり、作成者端末は、入力語リスト作成者によって操作される端末である。
[0167] 図 16は、辞書サービスシステム 2000の構成例を示すブロック図である。辞書サー ビスシステム 2000は、制御部 62と金銭情報記憶手段 61とを備える。制御部 62は、 辞書サービスシステム 2000が備える記憶装置(図示せず。 )に記憶されたプログラム に従って動作する。制御部 62は、購入者端末 51、作成者端末 52、情報抽出システ ム 1000、辞書データベース 3000との間で情報を授受する。なお、辞書サービスシス テム 2000は、購入者端末 51、作成者端末 52、情報抽出システム 1000との通信を 行う際に情報を送受信する通信インタフェースを備える力 図 16では、通信インタフ エースの図示を省略している。また、辞書サービスシステム 2000は、辞書データべ一 ス 3000への情報の書き込みや読込みを行うためのインタフェースを備えるが、図 16 では、そのインタフェースの図示を省略している。制御部 62は、通信インタフェース( 図示せず。)を介して他の装置と情報を送受信したり、辞書データベース 3000とのィ ンタフエース(図示せず。)を介して情報の読み書きを行う。
[0168] また、金銭情報記憶手段 61は、辞書サービス運営者が入力語リスト作成者に支払 う金額や、辞書購入者から受け取る金額を記憶する。制御部 62は、これらの金額を 金銭情報記憶手段 61に記憶させる。辞書サービス運営者は、辞書サービスシステム 2000、情報抽出システム 1000、および辞書データベース 3000の管理者である。
[0169] 次に、動作について説明する。
購入者端末 51は、辞書購入者の操作に従って、辞書購入者が購入を希望する辞 書の種類を辞書サービスシステム 2000に送信する。辞書サービスシステム 2000の 制御部 62は、その種類の情報を受信する。
[0170] 続いて制御部 62は、辞書データベース 3000を検索して、辞書購入者の希望する 種類の辞書が辞書データベース 3000に登録されている力否かを判定する。
[0171] 辞書購入者の希望する種類の辞書が辞書データベース 3000に登録されて 、な ヽ と判定した場合、制御部 62は、以下のように動作する。制御部 62は、辞書購入者が 購入を希望する辞書の種類を作成者端末 52に送信することによって、辞書購入者 の希望する辞書の種類を入力語リスト作成者に提示する。
[0172] 入力語リスト作成者は、その種類に応じた入力語リストを作成し、辞書サービスシス テム 2000に渡す。このとき、作成者端末 52には、入力語リスト作成者によって作成さ れた入力語リストが入力され、作成者端末 52は、入力語リスト作成者の操作に従って 、その入力語リストを辞書サービスシステム 2000に送信する。辞書サービスシステム 2000の制御部 62は、その入力語リストを受信する。
[0173] 制御部 62は、入力語リストを受信すると、その入力語リストを作成した入力語リスト 作成者に対して辞書サービス運営者が支払うべき金額 (辞書作成の対価)の情報を 、金銭情報記憶手段 61に記憶させる。このとき、制御部 62は、金額の情報と、入力 語リスト作成者の識別情報とを対応付けて金銭情報記憶手段 61に記憶させる。なお 、例えば、作成者端末 52が入力語リストを送信するときに、入力語リスト作成者の操 作に従って入力語リスト作成者の識別情報も制御部 62に送信することによって、制 御部 62は入力語リスト作成者の識別情報を得ることができる。
[0174] さらに、制御部 62は、作成者端末 52から受信した入力語リストを、情報抽出システ ム 1000に出力する。情報抽出システム 1000は、制御部 62から入力された入力語リ ストを用いて、出力語リストを作成する。情報抽出システム 1000は、第 1から第 4のい ずれかの実施の形態で説明した動作によって出力語リストを作成すればよい。情報 抽出システム 1000は、辞書サービスシステム 2000に出力語リストを出力し、制御部 62はこの出力語リストを得る。
[0175] 制御部 62は、出力語リストを作成者端末 52に送信して、入力語リスト作成者に辞書 の作成を促す。入力語リスト作成者は、自身が作成した入力語リストに含まれる入力 語と制御部 62から受信した出力語リストに含まれる出力語を含む辞書を作成する。こ のとき、入力語リスト作成者は、出力語リストを精査して辞書を作成してもよい (例えば 、不要な出力語を除外して辞書を作成してもよい。 ) o作成者端末 52は、作成された 辞書を入力され、入力語リスト作成者の操作に従って、その辞書を辞書サービスシス テム 2000に送信する。制御部 62は、辞書を受信すると、辞書購入者が希望した辞 書の種類と辞書とを対応付けてデータベース 3000に登録する。
[0176] 次に、制御部 62は、辞書購入者が希望した種類の辞書を辞書データベース 3000 カゝら読み込んで、購入者端末 51に送信することによって、辞書を辞書購入者に提供 する。
[0177] 辞書購入者の希望する種類の辞書が辞書データベース 3000に登録されて 、ると 判定した場合、制御部 62は、その辞書を辞書データベース 3000から読込み、購入 者端末 51に送信することによって、辞書を辞書購入者に提供すればよい。
[0178] 制御部 62は、辞書を辞書データベース 3000から読み込んで購入者端末 51に送 信した場合、辞書購入者の識別情報と、辞書サービス運営者が辞書購入者から辞書 の対価として受け取る金額の情報とを金銭情報記憶手段 61に記憶させる。なお、例 えば、購入者端末 51が辞書の種類を送信するときに、辞書購入者の操作に従って 辞書購入者の識別情報も制御部 62に送信することによって、制御部 62は辞書購入 者の識別情報を得ることができる。 [0179] 辞書サービス運営者は、金銭情報記憶手段 61に記憶された辞書購入者の識別情 報および金額を確認し、辞書購入者に辞書の対価を請求する。辞書購入者は、その 対価を辞書サービス運営者に支払う。また、辞書サービス運営者は、金銭情報記憶 手段 61に記憶された入力語リスト作成者の識別情報および金額を確認し、その金額 を入力語リスト作成者に支払う。
[0180] ここで、入力語リスト作成者と辞書購入者が同じであってもよい。その場合、入力語 リストの作成者に対して対価を支払う必要はな 、。
[0181] 第 5の実施の形態によれば、これまでよりも安価に辞書を提供できる。その理由は、 情報抽出システムによって自動的に辞書を作成できるためである。従来、辞書を販 売するためには、大量の文書力も人手などにより辞書を作成していたためコストがか かっていた。情報抽出システムを用いることで、辞書を自動的に作成できるため、こ れまでより安価に提供できる。
[0182] また、辞書サービス運営者が入力語リストを作成してもよ!/、が、その場合、辞書サー ビス運営者に、要求された辞書の種類に関する知識が必要である。本実施の形態に おいて、入力語リスト作成者を広く募集し、入力語リスト作成者に対価を支払うことで 、幅広い種類の辞書作成に対応できる。
[0183] 実施の形態 6.
次に、本発明の第 6の実施の形態について説明する。本実施の形態の情報サービ スシステムの構成は、第 5の実施の形態と同様である(図 15および図 16参照。;)。た だし、入力語リスト作成者に辞書作成の対価を支払う態様が異なる。本実施の形態 では、辞書を辞書購入者に販売 (提供)した場合に、辞書作成の対価として辞書サー ビス運営者が支払うべき金額を金銭情報記憶手段 61に記憶する。すなわち、辞書が 販売されること〖こよって、入力語リスト作成者に辞書作成の対価が支払われることに なる。また、入力語リスト作成者に作成料を支払うとき、辞書サービスシステム利用料 としての対価を差し引く。
[0184] 以下の説明にお 、ても、辞書サービスシステム 2000が辞書購入者の端末 (購入者 端末)および入力語リスト作成者の端末 (作成者端末)と情報を送受信するものとして 説明する。 [0185] 本実施の形態の動作にっ 、て説明する。
まず、入力語作成者は、入力語リストを作成し、作成者端末 52を用いて、入力語リ ストを辞書サービスシステム 2000に送信する。このとき、作成者端末 52には、入力語 リストが入力され、作成者端末 52は、入力語作成者の操作に従って、入力語リストを 辞書サービスシステム 2000に送信する。辞書サービスシステム 2000の制御部 62は 、入力語リストを受信する。
[0186] 制御部 62は、作成者端末 52から受信した入力語リストを、情報抽出システム 1000 に出力する。情報抽出システム 1000は、制御部 62から入力された入力語リストを用 いて、出力語リストを作成する。情報抽出システム 1000は、第 1から第 4のいずれか の実施の形態で説明した動作によって出力語リストを作成すればよい。情報抽出シ ステム 1000は、辞書サービスシステム 2000に出力語リストを出力し、制御部 62はこ の出力語リストを得る。
[0187] 制御部 62は、出力語リストを作成者端末 52に送信して、入力語リスト作成者に辞書 の作成を促す。入力語リスト作成者は、自身が作成した入力語リストに含まれる入力 語と制御部 62から受信した出力語リストに含まれる出力語を含む辞書を作成する。こ のとき、入力語リスト作成者は、出力語リストを精査して辞書を作成してもよい (例えば 、不要な出力語を除外して辞書を作成してもよい。 ) o入力語リスト作成者は、作成し た辞書およびその辞書の種類を作成者端末 52から辞書サービスシステム 2000に送 信させる。すなわち、作成者端末 52は、作成された辞書およびその種類を入力され 、入力語リスト作成者の操作に従って、辞書およびその種類を辞書サービスシステム 2000に送信する。
[0188] 辞書サービスシステム 2000の制御部 62は、作成者端末 52から辞書およびその種 類を受信すると、辞書と辞書の種類とを対応付けてデータベース 3000に登録する。
[0189] 次に、辞書購入者が、辞書サービスシステム 2000を介し、辞書データベース 3000 を参照し、購入したい種類の辞書を購入する。このとき、購入者端末 51は、辞書購入 者の操作に従って、制御部 62に、辞書購入を希望する旨の情報を送信する。制御 部 62は、この情報を受信すると、辞書データベース 3000に登録されている各辞書 の種類を読み込んで、各辞書の種類の情報を購入者端末 51に送信し、辞書購入者 に種類の選択を促す。購入者端末 51は、辞書購入者の操作に従って、辞書購入者 が希望する種類を制御部 62に送信する。制御部 62は、辞書の種類の情報を購入者 端末 51から受信すると、その種類に対応する辞書を辞書データベース 3000から読 込み、その辞書を購入者端末 51に送信する。この結果、辞書購入者に辞書が提供 される。また、制御部 62は、辞書の対価となる金額と、辞書購入者の識別情報とを対 応させて、金銭情報記憶手段 61に記憶させる。なお、例えば、購入者端末 51が辞 書購入者の識別情報を送信することによって、制御部 62に辞書購入者の識別情報 を通知すればよい。
[0190] また、制御部 62は、辞書を辞書購入者に提供したときに (辞書を購入者端末 51に 送信したときに)、辞書作成の対価として辞書サービス運営者が入力語リスト作成者 に支払うべき金額と、その入力語リスト作成者の識別情報とを対応させて、金銭情報 記憶手段 61に記憶させる。なお、例えば、作成者端末 52が、辞書を送信するときに 入力語リスト作成者の識別情報もあわせて送信することによって、制御部 62に入力 語リスト作成者の識別情報を通知すればょ 、。
[0191] 辞書サービス運営者は、金銭情報記憶手段 61に記憶された辞書購入者の識別情 報および金額を確認し、辞書購入者に辞書の対価を請求する。辞書購入者は、その 対価を辞書サービス運営者に支払う。
[0192] また、辞書サービス運営者は、金銭情報記憶手段 61に記憶された入力語リスト作 成者の識別情報および金額を確認し、その金額を入力語リスト作成者に支払う。この とき、辞書サービス運営者は、辞書サービスシステム利用料を差し引いた額を入力語 リスト作成者に支払う。なお、制御部 62は、辞書作成の対価から辞書サービスシステ ム利用料を差し引 、た額を金銭情報記憶手段 61に記憶させてぉ 、てもよ 、。
[0193] また、入力語リスト作成者と辞書購入者が同じであってもよい。その場合、入力語リ スト作成者に対して辞書作成の対価を支払う必要はなぐ辞書購入者は辞書サービ ス運営者に対し辞書サービスシステム利用料を支払うのみでよい。この場合、制御部 62は、辞書提供の対価の代わりに、辞書サービスシステム利用料を金銭情報記憶手 段 61に記憶させればよい。
[0194] 本実施の形態では、コストを抑えながらも辞書の信頼性を簡単に保つことができる。 従来の辞書作成では、文書から人手で辞書項目となる語句を収集していたため、信 頼性は高いがコストがかかっていた。情報抽出システムを用いることで、出力語リスト に辞書項目の候補となる語句を自動的に出力できるため、辞書作成のコストを抑える ことができる。また、出力語リストを精査することで辞書の信頼性を保つことができる。
[0195] なお、登録手段、辞書提供手段、金額情報登録手段は、辞書サービスシステム 20 00の制御部 62によって実現される。金銭情報記憶手段は、辞書サービスシステム 2 000の金銭情報記憶手段 61によって実現される。
[0196] 実施の形態 7.
次に、本発明の第 7の実施の形態について説明する。図 17は、本実施の形態の情 報サービスシステムの構成例を示すブロック図である。第 6の実施の形態と同様の構 成部については、図 15と同一の符号を付し、説明を省略する。本実施の形態の情報 サービスシステムは、トレンドキーワードデータベース 4000を備える。なお、辞書サー ビスシステム 2000は、第 6の実施の形態と同様に、制御部 62および金銭情報記憶 手段 61 (図 16参照。)を備える。
[0197] トレンドキーワードデータベース 4000は、流行となっているキーワードのリストを記 憶する記憶装置である。本実施の形態では、辞書サービスシステム 2000の制御部 6 2 (図 17において図示せず。図 16参照。)は、辞書データベース 3000に対する読み 書きと同様に、トレンドキーワードデータベース 4000に対する情報の読み書きも行う
[0198] 制御部 62は、流行となっているキーワードのリストを作成し、トレンドキーワードデー タベース 4000に記憶させる。制御部 62は、インターネットで一般的に利用されてい る検索エンジンの検索キーワードログにアクセスして、数多く検索されて 、る語をキー ワードとして抽出し、そのキーワードのリストをトレンドキーワードデータベース 4000に 記憶させればょ 、。検索エンジンで検索された語を検索回数の多 、順にランク付け して公表している Webページがある。制御部 62は、このような Webページの表示デ ータを取得して、その Webページで検索回数の上位にランク付けされて!、るキーヮ ードを抽出すればよい。このような Webページの URLとして、例えば、「http:〃 guide, search. goo. ne.jp/ ranking/」、「http://picks.dir.yahoo.co.Jp/new/review2005/index.h tml」、 「http:〃 search.biglobe.ne.jp/ranking.html」等がある。また、制御部 62は、ニュ ース記事を公表して 、る Webページの表示データを取得して、その Webページに登 場する語をキーワードとして取得してもよい。また、キーワードのリストを人手で作成し 、辞書サービスシステム 2000に入力して、トレンドキーワードデータベースに記憶さ せてもよい。
[0199] 次に、動作について説明する。
まず、入力語リスト作成者力 辞書サービスシステム 2000を介し、トレンドキーヮー ドデータベース 4000を参照する。例えば、作成者端末 52 (図 17において図示せず 。図 16参照。)力 入力語リスト作成者の操作に従って、トレンドキーワードデータべ ース 4000に記憶されているキーワードのリストを、辞書サービスシステム 2000に要 求する。辞書サービスシステム 2000の制御部 62は、この要求に応じて、トレンドキー ワードデータベース 4000に記憶されているキーワードのリストを読み込み、作成者端 末 52に送信する。作成者端末は、受信したキーワードのリストを表示して、入力語リス ト作成者にキーワードのリストを提示する。
[0200] キーワードのリストは、流行となっている語句のリストであるので、キーワードのリスト によって、販売の可能性の高い辞書の種類を判断することができる。入力語リスト作 成者は、キーワードのリストを参照して、そのような辞書の種類を判断し、その辞書に 含めるべき入力語のリストを作成する。このように、入力語リスト作成者は、販売の可 能性の高い種類の辞書に応じた入力語リストを作成する。
[0201] 以降の動作は、第 6の実施の形態の動作と同様である。この動作によって、販売の 可能性の高 、辞書 (すなわち、売れる可能性の高!、辞書)を辞書データベース 3000 に登録することができる。
[0202] 本実施の形態では、入力語リスト作成者力 トレンドキーワードデータベース 4000 に記憶されているキーワードを参照することによって、どのような種類の語句を含む辞 書が売れそうか判断することができる。従って、入力語リスト作成者は、販売の可能性 の高い辞書の種類を容易に判断することができる。また、入力語リスト作成者がその ような辞書を作成するための入力語リストを作成すれば、その入力語リストを用いて、 情報抽出システムが迅速に出力語リストを作成する。従って、入力語リスト作成者は、 販売の可能性の高い辞書をすばやく作成することができる。また、作成された辞書は 販売の可能性が高いと考えられるので、辞書の販売数を増加し、入力語リスト作成者 と、辞書サービス運営者の収入が増加する。
[0203] なお、流行キーワード記憶手段は、トレンドキーワードデータベース 4000によって 実現される。流行キーワード提供手段は、辞書サービスシステム 2000の制御部 62に よって実現される。
[0204] 実施の形態 8.
次に、本発明の第 8の実施の形態について説明する。図 18は、第 8の実施の形態 の情報サービスシステムの構成例を示すブロック図である。本実施の形態の情報サ 一ビスシステムは、情報抽出システム 1000と、広告サービスシステム 5000と、辞書 データベース 3000とを備える。また、広告サービスシステム 5000には、通信ネットヮ ークを介して広告閲覧システム 6000が接続される。
[0205] 情報抽出システム 1000は、第 1の実施の形態力も第 4の実施の形態のうちのいず れかの情報抽出システムである。ただし、本実施の形態では、入力装置 100および 出力装置 300 (図 18において図示せず。)は、広告サービスシステム 5000との通信 インタフェースによって実現される。情報抽出システム 1000には広告サービスシステ ム 5000から入力語リストが入力され、入力語と同種の出力語のリストを広告サービス システム 5000に出力する。情報抽出システム 1000は、情報抽出システム運営者に よって運営される。
[0206] 広告サービスシステム 5000は、広告主力も広告とその広告に関連する関連キーヮ ードを受け取り、広告と関連キーワードとを対応付けて広告サービスシステム 5000内 に記憶する。また、広告閲覧システム 6000からキーワードを受け取り、このキーヮー ドに関連する広告を返す。このとき、辞書データベース 3000を参照し、キーワードを 含んでいる辞書がある場合、その辞書内のキーワード (語句)を取得し、取得したキ 一ワードに対応する広告も広告閲覧システムに返す。このようにして広告サービスシ ステム 5000は、広告閲覧システム 6000に広告を配信する。広告サービスシステム 5 000は、広告サービス運営者によって運営される。
[0207] 辞書データベース 3000は、各種辞書 3001, 3002を記憶する記憶装置である。各 種辞書 3001, 3002は、情報抽出システム 1000が出力した出力語およびその出力 語の抽出のために広告サービス運営者によって作成された入力語を含む。また、各 辞書は、その辞書の種類の情報と対応付けて記憶される。
[0208] 広告閲覧システム 6000は、広告閲覧者力もキーワードや文書を受け取る。広告閲 覧システム 6000は、文書を受け取った場合は、一般的な形態素解析ツールなどを 用いて文書内の文字列を単語に分割し、分割によって得られた単語をキーワードと する。そして、そのキーワードを広告サービスシステム 5000に渡し、キーワードに対 応した広告を受け取り、広告を表示する。表示には一般的な文書閲覧ツールや Web ブラウザなどを用いる。
[0209] 以下の説明では、広告サービスシステム 5000が広告主の端末 (以下、広告主端末 )および広告サービス運営者の端末 (以下、運営者端末)と情報を送受信するものと して説明する。広告主端末は、広告主によって操作される端末であり、運営者端末は 、広告サービス運営者によって操作される端末である。
[0210] 図 19は、広告サービスシステム 5000と広告閲覧システム 6000の構成例を示すブ ロック図である。広告サービスシステム 5000は、制御部 72と広告記憶手段 71とを備 える。制御部 72は、広告サービスシステム 5000が備える記憶装置(図示せず。 )に 記憶されたプログラムに従って動作する。制御部 62は、広告主端末 55、運営者端末 56、情報抽出システム 1000、辞書データベース 3000との間で情報を授受する。な お、広告サービスシステム 5000は、広告主端末 55、運営者端末 56、情報抽出シス テム 1000との通信を行う際に情報を送受信する通信インタフェースを備える力 図 1 9では、通信インタフェースの図示を省略している。また、広告サービスシステム 500 0は、辞書データベース 3000への情報の書き込みや読込みを行うためのインタフエ ースを備えるが、図 19ではそのインタフェースの図示を省略している。制御部 72は、 通信インタフェース(図示せず。)を介して他の装置と情報を送受信したり、辞書デー タベース 3000とのインタフェース(図示せず。 )を介して情報の読み書きを行う。
[0211] また、広告記憶手段 71は、広告と、その広告に関連する関連キーワードとを対応付 けて記憶する。制御部 72は、広告主端末 55から広告および関連キーワードを受信し 、広告と関連キーワードとを対応付けて広告記憶手段 71に記憶させる。 [0212] 広告閲覧システム 6000は、文書等入力手段 81と、広告要求手段 82と、広告表示 手段 83とを備える。文書等入力手段 81は、キーワードや文書が入力されるキーボー ト等の入力装置である。広告表示手段 83は、広告を表示するディスプレイ装置であ る。
[0213] 広告要求手段 82は、プログラム (形態素解析プログラムやブラウザ等の各種プログ ラム)に従って動作する。広告要求手段 82は、文書等入力手段 81に入力されたキー ワードを広告サービスシステム 5000に送信し、そのキーワードに関連する広告を要 求する。また、広告要求手段 82は、文書等入力手段 81に文書が入力された場合、 その文書内の文字列に対して形態素解析を行って単語に分割し、その単語をキーヮ ードとする。広告要求手段 82は、広告サービスシステム 5000から広告を受信すると 、その広告を広告表示手段 83に表示させる。
[0214] 次に、動作について説明する。本実施の形態の動作は、大きく次の 3つのフェーズ に分かれる。第 1のフェーズは、広告サービスシステム 5000が広告主 (広告主端末 5 5)から広告を受け取り、広告記憶手段 71に登録するフェーズである。第 2のフェーズ は、広告サービスシステム 5000が情報抽出システム 1000に出力語リストを作成させ て、辞書を辞書データベースに登録するフェーズである。第 3のフェーズは、広告閲 覧システム 6000が広告サービスシステム 5000から広告を受信して広告を表示する フェーズである。第 1のフェーズおよび第 2のフェーズは非同期で行われ、その後、第 3のフェーズが行われる。
[0215] 第 1のフェーズについて説明する。広告主端末 55は、広告主から入力された広告 および関連キーワードを、広告主の操作に従って広告サービスシステム 5000に送信 する。広告サービスシステム 5000の制御部 72は、広告主端末 55から広告および関 連キーワードを受信する。
[0216] ここで、広告とは広告主が購入して欲しい商品やサービスの宣伝素材であり、自然 文文字列や画像等を含んでいる。関連キーワードとは、広告主が購入して欲しい商 品やサービスに関連する語句であり、商品名やサービス名、その商品の特徴をあら わす語句等が関連キーワードに該当する。特に、本実施の形態では、関連キーヮー ドが商品名やサービス名を含んで!/、ることが好ま 、。商品名やサービス名はその商 品固有の語句であり最も特徴を現していると考えられるからである。例えば、広告が、 セキュリティに関わる商品の広告である場合、「セキュリティ製品 X」、「情報漏洩」、「 セキュリティ」等を関連キーワードとすればよ 、。
[0217] 制御部 72は、広告と関連キーワードを受信すると、その広告と関連キーワードリスト とを対応付けて広告記憶手段 71に記憶させる。以上が第 1のフェーズの動作である
[0218] 第 2のフェーズについて説明する。まず、広告サービス運営者が、入力語リストを作 成する。入力語リストを作成する際、広告サービス運営者は、広告サービスシステム 5 000の広告記憶手段 71に記憶されて 、る広告の関連キーワードリストを参考にして もよい。そして、関連キーワードリストを参考に、種類の多い商品名やサービス名など 力も入力語リストを作成してもよい。例えば、セキュリティ関係の製品に関する関連キ 一ワードが多い場合、その製品名「セキュリティ製品 X」、「セキュリティ製品 Y」、 「セキ ユリティ製品 Ζ」等を入力語とする入力語リストを作成してもよ!/、。
[0219] 運営者端末 56は、作成された入力語リストおよびその種類を入力され、広告サービ ス運営者の操作に従って入力語リストおよび種類の情報を広告サービスシステム 50 00に送信する。広告サービスシステム 5000の制御部 72は、入力語リストおよび種類 の情報を運営者端末 56から受信すると、その入力語リストおよび種類の情報を情報 抽出システム 1000に送信する。例えば、制御部 72は、 「セキュリティ製品 X」、 「セキ ユリティ製品 Υ」、「セキュリティ製品 Ζ」という入力語からなる入力語リストと、その種類( 本例では「セキュリティ」 )を運営者端末 56から受信し、その入力語リストおよび種類 を情報抽出システム 1000に渡す。
[0220] 情報抽出システム 1000は、制御部 72から入力語リストを受け取ると、その入力語リ ストを用いて出力語リストを作成する。情報抽出システム 1000は、第 1から第 4のいず れかの実施の形態で説明した動作によって出力語リストを作成すればよい。この結果 、例えば、セキュリティ関連製品名のリストが出力語リストとして作成される。情報抽出 システム 1000は、広告サービスシステム 5000に出力語リストを出力し、制御部 72は この出力語リストを得る。
[0221] 広告サービスシステム 5000の制御部 72は、出力語リストに含まれる出力語と、入 力語リストに含まれる入力語とをあわせて辞書を作成し、その種類名とともに、辞書デ ータベース 3000に辞書を記憶させる。以上が第 2のフェーズの動作である。
[0222] 第 3のフェーズについて説明する。まず、広告閲覧システム 6000の文書等入力手 段 81に広告閲覧者力もキーワードリストや文書が入力される。キーワードは、インター ネットなどで一般的に使われている検索エンジンに入力されたキーワード等のように 、広告閲覧者が興味を持っている語句である。文書等入力手段 81に入力される文 書は、自然文テキストや HTML文書等のある程度形式が決まった文書などである。
[0223] 広告要求手段 82は、文書が入力された場合にのみ、その文書を一般的な形態素 解析ツールを用いて単語に分割し、その単語をキーワードリストとする動作を行う。広 告要求手段 82は、このように作成したキーワードリスト、あるいは広告閲覧者から直 接入力されたキーワードを広告サービスシステム 5000に送信する。例えば、「セキュ リティ製品 Y」等のキーワードを広告サービスシステム 5000に送信する。
[0224] 広告サービスシステム 5000の制御部 72は、辞書データベース 3000を参照し、広 告要求手段 82から受信したキーワードリストの語句が、各辞書に含まれて!/、る力否か を判定する。キーワードリストの語句が辞書に含まれている場合には、その辞書に含 まれている語句群 (すなわちキーワードリストの語句と同じ種類の語句群)を辞書デー タベース 3000から読み込む。例えば、「セキュリティ製品 Υ」という語句力 「セキユリ ティ」 t 、う種類の辞書に含まれて 、る場合、その「セキュリティ」の辞書に含まれて ヽ る「セキュリティ製品 X」、「セキュリティ製品 Z」等の語句を得る。
[0225] 次に、制御部 72は、広告記憶手段 71に記憶されている広告と関連キーワードリスト を参照し、広告閲覧システム 6000から受け取ったキーワードリスト、および、辞書デ ータベース 3000から得られた各語句に対応する広告を、広告記憶手段 71から読み 込む。例えば、第 1のフェーズで記憶した「セキュリティ製品 X」の広告等を読み込む。
[0226] 次に、制御部 72は、広告記憶手段 71から読み込んだ広告を広告閲覧システム 60 00に送信する。広告閲覧システム 6000の広告要求手段 82は、この広告を受信する と、広告表示手段 82に表示させる。以上が第 3のフェーズの動作である。
[0227] 本実施の形態によれば、これまでよりも幅広ぐ関連する広告を表示でき、その結果 、広告閲覧者にとっては選択の幅が広がり、広告主にとっては広告を表示できる回数 が増えるという効果が得られる。その理由は、情報抽出システム 1000を用いて、簡単 に関連製品などの辞書を作ることができ、この辞書を参照して閲覧する広告を幅広く 集めることができるためである。
[0228] すなわち、広告閲覧システム 6000から受け取ったキーワードに関連する広告だけ でなぐそのキーワードと同種の語句群を辞書力 読み込み、広告閲覧システム 600 0から受け取ったキーワードに関連する広告および辞書力も読み込んだ語句に関連 する広告を広告記憶手段 71から取得して、広告閲覧システムに提供することができ る。例えば、「セキュリティ製品 Y」というキーワードを広告閲覧システム力も受信した 場合、単に「セキュリティ製品 Υ」の広告を提供するだけでなぐ「セキュリティ製品 Υ」 と「セキュリティ製品 X」とを同じ種類の語句として含む辞書が辞書データベース 3000 に登録されて ヽれば、関連製品「セキュリティ製品 X」に関する広告も提供することが できる。この結果、広告主の広告機会を増やすことができる。
また、製品の移り変わりが頻繁に起こったとしても、情報抽出システム 1000が出力 語リストを自動的に作成するので、辞書を素早く簡単に作成することができる。
[0229] なお、登録手段および広告提供手段は、広告サービスシステム 5000の制御部 72 によって実現される。広告記憶手段は、広告サービスシステム 5000の広告記憶手段 71によって実現される。
産業上の利用可能性
[0230] 本発明によれば、人名の語句リストや地名の語句リストなどを簡単に作成すると 、つ た辞書作成に適用することができる。また、文書中から特定の種類の語句を検索して 抽出する情報抽出にも適用することができる。

Claims

請求の範囲
[1] 文書内の語句を文書力 抽出して出力する情報抽出システムであって、
複数の語句を含む入力語リストが入力される入力手段と、
形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書 内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパター ンとして決定することを文書毎に行うパターン決定手段と、
ノターンによって区切られる文字列を、当該パターンの決定に用いた文書力も抽出 して語句の候補とする語句候補抽出手段と、
語句候補抽出手段によって抽出された語句の候補または当該語句の候補に含ま れる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対 象の語句として選択する語句選択手段とを備えた
ことを特徴とする情報抽出システム。
[2] ノターン決定手段は、入力語リストに含まれる語句の前方の文字列および後方の 文字列をパターンとして決定し、
語句候補抽出手段は、前記前方の文字列および前記後方の文字列によって挟ま れる文字列を文書力 抽出して語句の候補とし、
語句選択手段は、語句候補抽出手段によって抽出された語句の候補の中から出 力対象の語句を選択する
請求項 1に記載の情報抽出システム。
[3] 語句選択手段は、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアが所定のしき 、値以上である語句の候補を出力対象の語句として選 択する
請求項 2に記載の情報抽出システム。
[4] 語句選択手段は、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし所定の順位以上である語句の候補 を出力対象の語句として選択する 請求項 2に記載の情報抽出システム。
[5] 語句選択手段は、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし上位の所定の割合の語句の候補を 出力対象の語句として選択する
請求項 2に記載の情報抽出システム。
[6] ノターン決定手段は、入力語リストに含まれる語句の前方の文字列のみ、あるいは
、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、 語句候補抽出手段は、前記前方の文字列に続く文字列、あるいは、前記後方の文 字列の直前の文字列を文書力 抽出して語句の候補とし、
語句選択手段は、語句の候補に含まれる部分文字列を作成し、作成した各部分文 字列の中から出力対象の語句を選択する
請求項 1に記載の情報抽出システム。
[7] 語句選択手段は、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアが所定のしき 、値以上である部分文字列を出力対象の語句とし て選択する
請求項 6に記載の情報抽出システム。
[8] 語句選択手段は、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし所定の順位以上である部分文 字列を出力対象の語句として選択する 請求項 6に記載の情報抽出システム。
[9] 語句選択手段は、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし上位の所定の割合の部分文 字列を出力対象の語句として選択する
請求項 6に記載の情報抽出システム。
[10] 形式が異なる文書を含む複数の文書であって、予め記憶装置に記憶されている複 数の文書の中から、入力語リストから選択した複数の語句全てを含む文書を検索す る文書検索手段を備え、
パターン決定手段は、文書検索手段によって検索された文書毎にパターンの決定 を行う
請求項 1から請求項 9のうちのいずれか 1項に記載の情報抽出システム。
[11] 語句選択手段によって選択された語句のリストを入力語リストとして文書検索手段 に付与する再作成手段を備えた
請求項 10に記載の情報抽出システム。
[12] 語句選択手段によって選択された語句のリストを入力語リストとしてパターン決定手 段に付与する再作成手段を備えた
請求項 1から請求項 9のうちのいずれか 1項に記載の情報抽出システム。
[13] 請求項 1から請求項 12のうちのいずれか 1項に記載の情報抽出システムと、
同種の語句のリストである辞書を記憶する辞書データベースと、
辞書の作成および辞書の販売に伴い授受される金額を管理する辞書サービスシス テムとを備え、
辞書サービスシステムは、
入力語リスト作成者によって作成された入力語リストを情報抽出システムに入力して 、情報抽出システム力 語句のリストを受け取り、当該語句のリストおよび前記入力語 リストに含まれる語句を含む辞書を辞書データベースに登録する登録手段と、 辞書購入者の端末力 の要求に応じて、辞書データベースに記憶されている辞書 を前記端末に送信する辞書提供手段と、
辞書作成および辞書の販売に伴い授受される金額を記憶する金銭情報記憶手段 と、
辞書サービスシステムの運用者が入力語リスト作成者に対し辞書の作成の対価とし て支払うべき金額、および辞書購入者が辞書サービスシステムの運用者に辞書の対 価として支払うべき金額を金銭情報記憶手段に記憶させる金額情報登録手段とを含 む
ことを特徴とする情報サービスシステム。
[14] 流行して!/ヽる語句を記憶する流行キーワード記憶手段を備え、
辞書サービスシステムは、
流行キーワード記憶手段から流行して!/ヽる語句を読み込んで、入力語リスト作成者 の端末に送信する流行キーワード提供手段を含む
請求項 13に記載の情報サービスシステム。
[15] 請求項 1から請求項 12のうちのいずれか 1項に記載の情報抽出システムと、
同種の語句のリストである辞書を記憶する辞書データベースと、
広告を表示する広告表示装置からキーワードを受信して、広告表示装置に広告を 送信する広告サービスシステムとを備え、
広告サービスシステムは、
入力語リスト作成者によって作成された入力語リストを情報抽出システムに入力して 、情報抽出システム力 語句のリストを受け取り、当該語句のリストおよび前記入力語 リストに含まれる語句を含む辞書を辞書データベースに登録する登録手段と、 広告および当該広告に関連する関連キーワードを対応付けて記憶する広告記憶 手段と、
広告表示装置から受信したキーワードを含む辞書を辞書データベースに記憶され た辞書の中から検索し、検索された辞書に含まれる語句に対応付けられた広告およ び広告表示装置から受信したキーワードに対応づけられた広告を広告記憶手段から 読み込んで、広告表示装置に送信する広告提供手段とを含む
ことを特徴とする情報サービスシステム。
[16] 文書内の語句を文書力 抽出する情報抽出方法であって、
入力手段が、複数の語句を含む入力語リストを入力し、
パターン決定手段が、形式が異なる文書を含む複数の文書の中から一つの文書を 選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と 区切る文字列をパターンとして決定することを文書毎に行い、
語句候補抽出手段が、パターンによって区切られる文字列を、当該パターンの決 定に用いた文書力 抽出して語句の候補とし、
語句選択手段が、語句候補抽出手段によって抽出された語句の候補または当該 語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部 分文字列を出力対象の語句として選択する
ことを特徴とする情報抽出方法。
[17] ノターン決定手段が、入力語リストに含まれる語句の前方の文字列および後方の 文字列をパターンとして決定し、
語句候補抽出手段が、前記前方の文字列および前記後方の文字列によって挟ま れる文字列を文書力 抽出して語句の候補とし、
語句選択手段が、語句候補抽出手段によって抽出された語句の候補の中から出 力対象の語句を選択する
請求項 16に記載の情報抽出方法。
[18] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアが所定のしき 、値以上である語句の候補を出力対象の語句として選 択する
請求項 17に記載の情報抽出方法。
[19] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし所定の順位以上である語句の候補 を出力対象の語句として選択する
請求項 17に記載の情報抽出方法。
[20] 語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あ るいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出 し、語句スコアの高 、順に語句の候補をソートし上位の所定の割合の語句の候補を 出力対象の語句として選択する
請求項 17に記載の情報抽出方法。
[21] ノターン決定手段が、入力語リストに含まれる語句の前方の文字列のみ、あるいは 、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、 語句候補抽出手段が、前記前方の文字列に続く文字列、あるいは、前記後方の文 字列の直前の文字列を文書力 抽出して語句の候補とし、
語句選択手段が、語句の候補に含まれる部分文字列を作成し、作成した各部分文 字列の中から出力対象の語句を選択する
請求項 16に記載の情報抽出方法。
[22] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアが所定のしき 、値以上である部分文字列を出力対象の語句とし て選択する
請求項 21に記載の情報抽出方法。
[23] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし所定の順位以上である部分文 字列を出力対象の語句として選択する
請求項 21に記載の情報抽出方法。
[24] 語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割 合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲 に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要 度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した 部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句ス コアとし、語句スコアの高!、順に部分文字列をソートし上位の所定の割合の部分文 字列を出力対象の語句として選択する
請求項 21に記載の情報抽出方法。
[25] 文書検索手段が、形式が異なる文書を含む複数の文書であって、予め記憶装置に 記憶されて 、る複数の文書の中から、入力語リストから選択した複数の語句全てを含 む文書を検索し、
パターン決定手段が、文書検索手段によって検索された文書毎にパターンの決定 を行う
請求項 16から請求項 24のうちのいずれか 1項に記載の情報抽出方法。
[26] 再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとして 文書検索手段に付与する
請求項 25に記載の情報抽出方法。
[27] 再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとして パターン決定手段に付与する
請求項 16から請求項 24のうちのいずれか 1項に記載の情報抽出方法。
[28] 文書内の語句を文書力 抽出して出力するコンピュータに搭載される情報抽出プロ グラムであって、
前記コンピュータに、
複数の語句を含む入力語リストを入力する入力処理、
形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書 内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパター ンとして決定することを文書毎に行うパターン決定処理、
ノターンによって区切られる文字列を、当該パターンの決定に用いた文書力も抽出 して語句の候補とする語句候補抽出処理、および
語句候補抽出処理で抽出された語句の候補または当該語句の候補に含まれる部 分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語 句として選択する語句選択処理
を実行させるための情報抽出プログラム。
PCT/JP2007/055958 2006-03-23 2007-03-23 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム WO2007108529A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008506343A JP5083669B2 (ja) 2006-03-23 2007-03-23 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US12/294,143 US8886661B2 (en) 2006-03-23 2007-03-23 Information extraction system, information extraction method, information extraction program, and information service system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-081598 2006-03-23
JP2006081598 2006-03-23

Publications (1)

Publication Number Publication Date
WO2007108529A1 true WO2007108529A1 (ja) 2007-09-27

Family

ID=38522553

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/055958 WO2007108529A1 (ja) 2006-03-23 2007-03-23 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム

Country Status (3)

Country Link
US (1) US8886661B2 (ja)
JP (1) JP5083669B2 (ja)
WO (1) WO2007108529A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041420A1 (ja) * 2008-10-10 2010-04-15 日本電気株式会社 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
WO2011102430A1 (ja) * 2010-02-17 2011-08-25 エフルート・モバイル・テクノロジー株式会社 制御プログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812304B2 (en) * 2008-08-12 2014-08-19 Abbyy Infopoisk Llc Method and system for downloading additional search results into electronic dictionaries
US9081765B2 (en) 2008-08-12 2015-07-14 Abbyy Infopoisk Llc Displaying examples from texts in dictionaries
US20100057569A1 (en) * 2008-08-29 2010-03-04 Nathan Cantelmo Advertising System for Internet Discussion Forums
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
US9785628B2 (en) * 2011-09-29 2017-10-10 Microsoft Technology Licensing, Llc System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication
WO2013085409A1 (ru) * 2011-12-08 2013-06-13 Общество С Ограниченной Ответственностью Базелевс-Инновации Способ анимации sms-сообщений
TW201411379A (zh) * 2012-09-14 2014-03-16 Hon Hai Prec Ind Co Ltd 搜索系統及方法
SG11201502379UA (en) * 2012-09-27 2015-05-28 Nec Corp Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information
US20150248699A1 (en) * 2012-11-30 2015-09-03 Google Inc. Keyword remarketing
US9229926B2 (en) * 2012-12-03 2016-01-05 International Business Machines Corporation Determining similarity of unfielded names using feature assignments
WO2014146032A2 (en) * 2013-03-15 2014-09-18 Suarez Sergio David Jr System for method for data sweeping using keywords
JP5664813B1 (ja) * 2014-06-10 2015-02-04 富士ゼロックス株式会社 デザイン管理装置及びプログラム
EP3324305A4 (en) * 2015-07-13 2018-12-05 Teijin Limited Information processing apparatus, information processing method, and computer program
CN109791572A (zh) * 2017-02-07 2019-05-21 松下知识产权经营株式会社 翻译装置以及翻译方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001297100A (ja) * 2000-04-14 2001-10-26 Fuji Xerox Co Ltd キーワード抽出ルール精製支援装置
JP2002108887A (ja) * 2000-09-29 2002-04-12 Canon Inc 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体
JP2004151926A (ja) * 2002-10-30 2004-05-27 Ricoh Co Ltd キーワード抽出装置、キーワード抽出方法並びにプログラムおよび記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
JP4843867B2 (ja) * 2001-05-10 2011-12-21 ソニー株式会社 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
JP2003256447A (ja) 2002-02-26 2003-09-12 Kyoji Umemura 関連語抽出方法および装置
JP2003330947A (ja) 2002-05-09 2003-11-21 Nippon Steel Corp ファクトデータの抽出装置
JP2004152041A (ja) 2002-10-31 2004-05-27 Ricoh Co Ltd 重要語句抽出装置、プログラムおよび記録媒体
US7797303B2 (en) * 2006-02-15 2010-09-14 Xerox Corporation Natural language processing for developing queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001297100A (ja) * 2000-04-14 2001-10-26 Fuji Xerox Co Ltd キーワード抽出ルール精製支援装置
JP2002108887A (ja) * 2000-09-29 2002-04-12 Canon Inc 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体
JP2004151926A (ja) * 2002-10-30 2004-05-27 Ricoh Co Ltd キーワード抽出装置、キーワード抽出方法並びにプログラムおよび記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MORI S. ET AL.: "n-gram Tokei niyoru Corpus Karano Michigo Chushutsu", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 39, no. 7, 15 July 1998 (1998-07-15), pages 2093 - 2100, XP003018028 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041420A1 (ja) * 2008-10-10 2010-04-15 日本電気株式会社 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
JPWO2010041420A1 (ja) * 2008-10-10 2012-03-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
US8510249B2 (en) 2008-10-10 2013-08-13 Nec Corporation Determining whether text information corresponds to target information
JP5527548B2 (ja) * 2008-10-10 2014-06-18 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
WO2011102430A1 (ja) * 2010-02-17 2011-08-25 エフルート・モバイル・テクノロジー株式会社 制御プログラム

Also Published As

Publication number Publication date
JP5083669B2 (ja) 2012-11-28
US20110161144A1 (en) 2011-06-30
JPWO2007108529A1 (ja) 2009-08-06
US8886661B2 (en) 2014-11-11

Similar Documents

Publication Publication Date Title
JP5083669B2 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US9323827B2 (en) Identifying key terms related to similar passages
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
Chehal et al. Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations
CN101681251A (zh) 从文档到排名短语的语义分析
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
JP2000348041A (ja) 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP5442401B2 (ja) 行動情報抽出システム及び抽出方法
JP2007018285A (ja) 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
US20090089257A1 (en) Method and apparatus for providing content summary information
JP2007233584A (ja) 印象判定システム、広告記事生成システム、印象判定方法、広告記事生成方法、印象判定プログラムおよび広告記事生成プログラム
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP2002007450A (ja) 検索支援システム
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
CN108470289A (zh) 基于电商购物平台的虚拟物品发放方法及设备
JP5000801B2 (ja) インターネット補助システム
JP6960553B2 (ja) ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム
US20180005300A1 (en) Information presentation device, information presentation method, and computer program product
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
JP2002189744A (ja) Webページ検索システム
JP2732661B2 (ja) テキスト型データベース装置
JP2005284776A (ja) テキストマイニング装置及びテキスト分析方法
JP2002123504A (ja) ドキュメント作成システム、ドキュメント作成方法、及び、コンピュータ読取り可能な記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07739399

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008506343

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07739399

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12294143

Country of ref document: US