WO2006134682A1 - 固有表現抽出装置、方法、及びプログラム - Google Patents

固有表現抽出装置、方法、及びプログラム Download PDF

Info

Publication number
WO2006134682A1
WO2006134682A1 PCT/JP2005/023768 JP2005023768W WO2006134682A1 WO 2006134682 A1 WO2006134682 A1 WO 2006134682A1 JP 2005023768 W JP2005023768 W JP 2005023768W WO 2006134682 A1 WO2006134682 A1 WO 2006134682A1
Authority
WO
WIPO (PCT)
Prior art keywords
extraction
specific expression
order
specific
expression
Prior art date
Application number
PCT/JP2005/023768
Other languages
English (en)
French (fr)
Inventor
Takashi Tsuzuki
Yoshiyuki Okimoto
Kenji Mizutani
Satoshi Matsuura
Tsuyoshi Inoue
Hiroshi Kutsumi
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2007521081A priority Critical patent/JP4129048B2/ja
Priority to CN2005800496646A priority patent/CN101167075B/zh
Priority to US11/916,222 priority patent/US7761437B2/en
Publication of WO2006134682A1 publication Critical patent/WO2006134682A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Definitions

  • Named entity extraction apparatus Named entity extraction apparatus, method, and program
  • the present invention relates to a specific expression extraction apparatus capable of extracting a specific expression adapted to a user.
  • the specific expression is a proper noun, company name, e-mail address, country name, city name, product name, organization name, time, date and time, monetary expression, percentage, which is treated as one unit by the task.
  • a specific language item such as an expression.
  • Patent Document 1 Japanese Patent Laid-Open No. 2003-248680
  • the specific expression extraction method that can deal with different tasks by operating a plurality of conventional specific expression extraction modules, the type and unit of the extracted specific expression to the user or display terminal.
  • the specific expression extraction method since it cannot be stored in association with each other, it is impossible to extract a specific expression adapted to the user or the display terminal.
  • the user since it cannot be stored in association with each other, it is impossible to extract a specific expression adapted to the user or the display terminal.
  • the user understands the specific expression and meaning including a character string redundant to the user when the extracted unique expression is displayed. In order to do so, I had to read a specific expression that was too short.
  • a subtitle is redundant information for a user who can identify a program only by the main subject, with respect to a program having the main title and the subtitle as a program name. Conversely, for a user who cannot identify a program only with the main subject, the subtitle is necessary information, and it is necessary to present the main subject and the subtitle together.
  • the present invention has been made in view of the above circumstances, and a user's input history and table are provided. It is an object to provide an apparatus for extracting a specific expression that can extract a specific expression adapted to the extraction condition represented by the display capability of the display terminal.
  • the named entity extraction apparatus sequentially uses one or more named entity patterns indicating a criterion for identifying the named portion included in the text, and the one or more named entity patterns are used.
  • An apparatus for extracting a specific expression from an input text an extraction order setting means for determining an extraction order indicating a use order of a specific expression pattern depending on an extraction condition, and an order indicated by the predetermined extraction order
  • a specific expression extraction means for extracting a specific expression from the one or more input texts using a specific expression pattern.
  • the unique expression having a short or long character string length is compared with the unique expression having a nested structure.
  • the specific expression extraction process can be stopped when the proper expression of the character string length optimal for the user is extracted, and the optimal specific expression is extracted for the user and the display terminal. be able to.
  • FIG. 1 is a configuration diagram of a named entity extraction apparatus according to a first embodiment.
  • FIG. 2 is a diagram illustrating an example of an extraction order stored in an extraction order storage unit used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 3 is a diagram showing an example of rules used for extraction.
  • FIG. 4 is a diagram showing another example of rules used for extraction.
  • FIG. 5 is a diagram showing still another example of rules used for extraction.
  • FIG. 6 is a diagram showing a specific example of extraction performed using a rule for extracting names.
  • FIG. 7 is a flowchart showing an operation in the first embodiment.
  • FIG. 8 is a diagram showing a specific example of the extraction result obtained by the named entity extraction apparatus of the first embodiment.
  • FIG. 9 is a diagram illustrating an example of the extraction order stored in the extraction order storage unit used in the named entity extraction apparatus of the first embodiment.
  • FIG. 10 is a diagram illustrating an example of an extraction order stored in an extraction order storage unit used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 11 is a configuration diagram showing an example of an extraction order reading unit used in the named entity extraction apparatus of the first embodiment.
  • FIG. 12 is a flowchart showing an operation example in the first embodiment.
  • FIG. 13 is a diagram showing an example of the contents of the usage pattern database used in the named entity extraction apparatus of the first embodiment.
  • FIG. 14 is a diagram illustrating an example of the contents of an extraction order database used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 15 is a diagram showing an example of the contents of the usage pattern database used in the named entity extraction apparatus of the first embodiment.
  • FIG. 16 is a diagram showing an example of the contents of a usage pattern database used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 17 is a diagram showing an example of the extraction order stored in the extraction order storage unit used in the named entity extraction apparatus of the first embodiment.
  • FIG. 18 is a diagram illustrating an example of an extraction order stored in an extraction order storage unit used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 19 is a block diagram showing an example of the extraction end determination unit used in the named entity extraction apparatus of the first embodiment.
  • FIG. 20 is a flowchart showing an operation example in the first embodiment.
  • FIG. 21 is a diagram illustrating an example of the contents stored in the extraction count storage unit used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 22 is a diagram illustrating an example of contents stored in an extraction number storage unit used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 23 is a diagram showing an example of the contents stored in the extraction order storage unit used in the named entity extraction apparatus of the first embodiment.
  • FIG. 24 is a diagram illustrating an example of contents stored in an extraction order storage unit used in the named entity extraction apparatus according to the first embodiment.
  • FIG. 25 is a diagram showing an example of the extraction order stored in the extraction order storage unit used in the named entity extraction apparatus of the first embodiment.
  • FIG. 26 is a configuration diagram of a named entity extraction apparatus according to a modification of the first embodiment.
  • FIG. 27 is a block diagram showing a configuration of the named entity extraction apparatus according to the second embodiment of the present invention.
  • FIG. 28 is a diagram showing an example of the extraction order stored in the extraction order storage unit used in the named entity extraction apparatus of the second embodiment.
  • FIG. 29 is a flowchart showing an operation example in the second embodiment.
  • FIGS. 30 (A) and 30 (B) are diagrams showing examples of displaying unique expressions in the second embodiment.
  • FIG. 31 is a block diagram showing the configuration of the named entity extraction apparatus according to Embodiment 3 of the present invention.
  • FIG. 32 is a diagram illustrating an example of contents stored in a specific expression storage unit used in the specific expression extraction apparatus of the third embodiment.
  • FIG. 33 is a flowchart showing an operation example in the third embodiment.
  • FIG. 34 is a diagram showing a display example of proper expressions in the third embodiment.
  • FIG. 35 is a diagram showing a display example of the specific expression in the third embodiment.
  • FIG. 36 is a diagram showing a display example of the specific expression in the third embodiment.
  • FIG. 37 is a diagram showing an example of Chinese input text in the modified example.
  • the named entity extraction apparatus of the present invention indicates a criterion for identifying the named portion included in the text.
  • a specific expression extraction device that extracts a specific expression from one or more input texts using one or more specific expression patterns in sequence, and the extraction conditions for the specific expression pattern to be used for extraction of the specific expression
  • the extraction condition includes a user who uses the extracted specific expression, a terminal device that displays the extracted specific expression, an attribute of the input text, the number of input texts, and a specific expression extracted in the past. It may be expressed by using at least one of the number of times of being performed.
  • the input text may represent program information constituting an electronic program guide.
  • the specific expression extraction device sets the order of the specific expression patterns used for extraction of the specific expressions according to the extraction conditions, for example, a user who uses the extracted specific expressions, Depending on the extraction conditions represented by the terminal device that displays the extracted specific expressions, the input text attributes, the number of input texts, and the number of times the specific expressions have been extracted in the past, etc. Extraction results can be obtained
  • This configuration is suitable, for example, when the input text represents program information constituting an electronic program guide.
  • a program title when extracting a program title from a program information as a unique expression, a relatively short unique expression consisting only of the main subject is extracted and presented to users who are familiar with the program, and to a user who is not the main subject.
  • a relatively long unique expression consisting of subtitles and subtitles, it is possible to present a program title with a length reflecting the optimum content according to the user.
  • the terminal device that displays the extracted unique expression is a portable information terminal device
  • the main subject is extracted and displayed, and when the terminal device is a home-use television broadcast receiving device, the main subject and subtitles are displayed. If these are extracted and displayed, a long program title is displayed on the portable information terminal device, and as a result, the listability is impaired and the inconvenience of being difficult to see for the user can be reduced.
  • the specific expression extraction device further stores a specific expression pattern storage unit that stores a plurality of specific expression patterns, and a plurality of extraction conditions that are stored in the specific expression pattern storage unit.
  • Extraction order storage means for storing the order to be used for extraction of the unique expression of one or more specific expression patterns, wherein the extraction order setting means is given one of the plurality of extraction conditions And the order of the unique expression patterns stored in the extraction order storage means for the given extraction condition may be determined as the extraction order.
  • the specific expression extraction device further includes a specific expression pattern storage unit that stores a plurality of specific expression patterns, and one or more specific expression patterns stored in the specific expression pattern storage unit.
  • An extraction order storage means for storing the order to be used for extraction of the specific expressions and an extraction order for changing the order of the specific expression patterns stored in the extraction order storage means in accordance with the extraction conditions. Changing means, and the extraction order setting means may determine the order of the unique expression patterns after the change as the extraction order.
  • the feature of the present invention that different extraction results can be obtained by using different unique expression patterns depending on the extraction conditions, specifically, according to the extraction conditions from a plurality of extraction orders. This can be realized by changing the extraction order according to the force realized by using one or the extraction conditions.
  • the specific expression extraction device includes a user identifier for identifying a user as an extraction condition, and further includes user identification means for acquiring the user identifier, and the extraction order storage means includes a plurality of user identifiers.
  • the extraction order setting means stores the acquired user identifier in the extraction order storage means for storing the order of one or more specific expression patterns stored in the specific expression pattern storage means.
  • the specific expression pattern order may be determined as the extraction order, and the specific expression extraction device uses the terminal identifier of the terminal device that displays the extracted specific expression as an extraction condition, and further, the terminal Terminal identifier acquisition means for acquiring an identifier, the extraction order storage means for each of a plurality of terminal identifiers Storing the order of one or more unique expression patterns stored in the pattern storage means
  • the extraction order setting means may determine the order of the unique expression patterns stored in the extraction order storage means for the acquired terminal identifier as the extraction order.
  • the specific expression extraction device includes an attribute acquisition unit that acquires an attribute of the input text as an extraction condition, and further acquires the attribute of the input text, and the extraction order storage unit includes each of a plurality of attributes.
  • the order of one or more specific expression patterns stored in the specific expression pattern storage means is stored, and the extraction order setting means is stored in the extraction order storage means for the acquired attributes
  • the order of the specific expression patterns may be determined as the extraction order.
  • the input text represents program information constituting an electronic program guide
  • a program category included in the program information is acquired as an attribute of the input text, and the acquired program category Therefore, if a unique unique expression pattern that can appropriately extract a unique expression from program information of the program category is used, it is possible to obtain a good extraction result.
  • the specific expression extraction apparatus uses the number of input texts as an extraction condition, and further extracts an information database storing a plurality of texts and one or more texts serving as input texts from the information database.
  • the extraction order setting means determines the order of the unique expression patterns stored in the extraction order storage means for the number of retrieved texts as the extraction order, and extracts the specific expression.
  • the means includes a unique expression pattern in the order shown in the predetermined extraction order. A unique expression may be extracted from the retrieved text using a text.
  • the input text represents the program information constituting the electronic program guide
  • the program title is extracted from the program text as the unique expression
  • the number of input texts is predetermined. If it is less than the value, a specific expression consisting only of the main topic is extracted. If it is greater than the threshold value, a specific expression consisting of the main subject and the subtitle is extracted. If the same unique expression is extracted, the inconvenience that the user cannot distinguish them can be reduced.
  • the specific expression extraction device uses the number of input texts as an extraction condition, and further stores an information database storing a plurality of texts, and a text for acquiring a plurality of texts from the information database. Similar text that obtains, as the input text, a plurality of texts similar to each other when displayed on the display means, from a plurality of texts obtained by the obtaining means, display means for displaying the text, and the text obtaining means.
  • the extraction order storage means stores the order of one or more specific expression patterns stored in the specific expression pattern storage means for each of a plurality of values indicating the number of texts.
  • the extraction order setting means includes the extraction order storage means for the number of texts acquired by the similar text acquisition means.
  • the order of the stored unique expression patterns is determined as the extraction order, and the specific expression extraction means uses the specific expression patterns in the order shown in the determined extraction order, and the similar text acquisition means uses the specific expression patterns.
  • a specific expression may be extracted from the acquired text.
  • the specific expression extraction apparatus uses the number of times that a specific expression has been extracted in the past as an extraction condition.
  • an extraction number counting means for counting the number of times the unique expressions have been extracted in the past using the unique expression pattern.
  • the order changing means may change the order of the unique expression patterns stored in the extraction order storage means according to the counted number.
  • the extraction order indicates a plurality of specific expression patterns in an order in which a longer specific expression is expected to be extracted for each use when sequentially used, and the specific expression extraction apparatus further determines in advance.
  • an extraction truncation unit may be provided that terminates extraction performed using the specific expression pattern thereafter.
  • the threshold value is set to a necessary limit length according to the user, the terminal device, and the like, a longer-than-necessary specific expression cannot be extracted. Necessary specific expressions can be extracted while reducing the amount of computation required to extract tangible expressions.
  • the named entity extraction apparatus of the present invention extracts a named entity from one or more input texts by sequentially using one or more named entity patterns indicating the criterion for determining the named entity portion included in the text.
  • a unique expression extraction device an information database storing a plurality of texts, a text acquisition means for acquiring a plurality of texts from the information database, and a specific expression pattern storage storing a plurality of specific expression patterns
  • An extraction order storage means for storing a plurality of orders to be used for extracting a specific expression of one or more specific expression patterns stored in the specific expression pattern storage means, and the text acquisition means From a plurality of acquired texts, a specific expression is extracted using a specific expression pattern in each order stored in the extraction order storage means,
  • a named entity extraction means for the named entity set named entities extracted for each ordinal the named entity extraction For each unique expression set obtained by the output means, the number of similar specific expressions, which is the number of similar specific expressions included in the specific expression set, is calculated, and the specific expression set with the smallest
  • the specific expression extraction device further includes display means for displaying text, and the specific expression determination means uses the unique expression when calculating the number of similar specific expressions for each specific expression set. If partial specific expressions corresponding to the number of characters that can be displayed on the display means are extracted, and the extracted partial specific expressions are similar, the number of similar partial specific expressions may be used as the number of similar specific expressions.
  • the named entity extraction apparatus of the present invention extracts a named entity from one or more input texts by sequentially using one or more named entity patterns indicating a criterion for determining the named entity included in the text.
  • a unique expression extraction device that stores a plurality of unique expression patterns, and a unique expression extraction of one or more unique expression patterns stored in the specific expression pattern storage means.
  • An extraction order storage means for storing the order to be used in the extraction order storage means, and the one or more input texts using the one or more specific expression patterns in the order stored in the extraction order storage means.
  • the specific expression extracting means for extracting the specific expression is associated with the input text, the specific expression extracted from the input text, and the stage in the order in which the extraction is performed.
  • a specific expression storage means for storing, a display condition designating means for designating a predetermined stage or one or more specific expressions extracted in a common stage according to a user operation, and the display condition instruction means If the default stage is specified, the previous specified entity storage means When all the unique expressions stored corresponding to the designated stage are acquired, and when one or more unique expressions are designated from the display condition instruction means, from the proper expression storing means, Specific expression acquired by the specific expression acquisition means; specific expression acquisition means for acquiring a specific expression stored corresponding to the next stage of the common stage for the input text corresponding to each specified specific expression; A duplication deletion means for deleting duplicates from the expression; and a display means for displaying the unique expressions remaining after the duplication is deleted by the duplication deletion means.
  • the extracted specific expressions can be displayed in each direction, for example, from a simple specific expression to a complex specific expression in a moving direction. Convenient for checking in stages.
  • the present invention can be realized not only as such a unique expression extraction apparatus but also as a specific expression extraction method in which processing executed by characteristic means included in such a specific expression extraction apparatus is a step. It can also be realized as a program that causes a computer to execute these steps. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.
  • FIG. 1 is a configuration diagram of a named entity extraction apparatus according to Embodiment 1 of the present invention.
  • This specific expression extraction device sets the usage order of one or more specific expression patterns used for extraction according to the extraction conditions, and uses the specific expression pattern in the set order to extract the specific expressions from the input text.
  • a specific expression extraction device for extraction includes an input unit 101, an extraction order storage unit 102, an extraction order reading unit 103, a specific expression pattern storage unit 104, a specific expression extraction unit 105, and an extraction end determination unit 106.
  • the extraction order reading unit 103 is an example of an extraction order setting unit.
  • the input unit 101 includes input devices such as a keyboard, a mouse, and a remote controller. When the user inputs text including a specific expression, the input unit 101 outputs a value 1 as an initial value of the input text and the extraction order to be processed. To do.
  • the input unit 101 includes information on TV broadcast programs and The information about the content stored in the hard disk recorder or the like, or the text to be presented to the user from the database that stores the content existing on the Internet, and the value 1 as the initial value of the text to be acquired and the extraction order to be processed 1 May be output.
  • the extraction order storage unit 102 stores the extraction order, which is the order in which the specific expression pattern stored in the specific expression pattern storage unit 104 is used, and the specific expression pattern name corresponding to the extraction order in association with each other. Further, the total number of extraction orders, which is the total number of extraction orders, is also stored.
  • Fig. 2 shows an example of the extraction order stored in the extraction order storage unit 102, and (3, (1, unique, specific number of extraction order, (extraction order, specific expression pattern name to be used)) is shown. (Representation A pattern), (2, proper expression B pattern), (3, proper expression C pattern), ...-) are stored.
  • the extraction order reading unit 103 reads the specific expression pattern name and the total number of extraction orders corresponding to the input extraction order from the extraction order storage unit 102 and inputs them.
  • the text, the extraction order, and the extraction order total number read from the extraction order storage unit 102 and the unique expression pattern name are output.
  • the specific expression pattern storage unit 104 extracts a specific expression A pattern 104A used to extract the specific expression A, a specific expression B pattern 104B used to extract the specific expression B, and a specific expression C.
  • the proper expression C pattern 104C used for is stored.
  • the small title is the text corresponding to the main title “Matsugami Electric Founding” and the middle title is the small title plus the number of times “ If the text and large title corresponding to “Matsugami Electric Founding (1)” are all equivalent to “Matsugami Electric Founding (1) —Birth One”, the specific expression A is the small title and specific expression.
  • the specific expression A pattern 104A is a rule for extracting a small title
  • the specific expression B pattern 104B is a rule for extracting a medium title
  • the specific expression C pattern 104C Is a rule for extracting large titles.
  • the rule is the character string to be extracted itself, the character string to be extracted and the character ⁇ IJ before and after it being stored, the concatenation probability of the character string to be extracted and the character string before and after it, etc. It is.
  • a method of extracting a character string that matches a pattern contained in the personal name regular expression table from the text as a personal name is used.
  • a name probability table that stores the concatenation probability between the character string before and after the appearance of the person name and the person name as shown in Fig. 5 is used.
  • the likelihood value is “1.1” by adding the probability value “0.2” of “ ⁇ I ⁇ ,”), and when the likelihood exceeds a specific threshold, there is a method of extracting from the text as a person name.
  • the named entity extraction unit 105 extracts a rule (person name pattern) for extracting a person name illustrated in FIGS. Is used in accordance with the method described above to extract the personal name “Takashi Saki”, which is an example of a specific expression.
  • the rule S may be constructed for multiple characters, with the power S being the rule for only one character before and after.
  • specific expression A pattern 104A the specific expression B pattern 104B, and the specific expression C pattern 104C are collectively referred to as specific expression patterns, respectively.
  • the specific expression extraction unit 105 specifies the specific expression pattern corresponding to the input specific expression pattern name.
  • An expression is read from the expression pattern storage unit 104, and a specific expression is extracted from the input text using the read specific expression pattern. Then, the extraction order inputted from the text including the extracted specific expressions and the extraction order reading unit 103 Output total number and extraction order.
  • the extraction end determination unit 106 receives a numerical value 1 as the extraction order value if the extraction order is smaller than the total extraction order number. And the extraction order after the addition and the text input from the specific expression extraction unit 105 are output to the extraction order reading unit 103.
  • the text input from the specific expression extraction unit 105 is output as a result text that is a specific expression extraction result.
  • the user inputs text including a specific expression from the input unit 101 (step S101).
  • the input unit 101 outputs the input text and the value 1 as the initial value of the extraction order to be processed to the extraction order reading unit 103 (step S102).
  • the input unit 101 displays the text “Matsugami Electric Founded”.
  • the value 1 is output to the extraction order reading unit 103 as the initial value of the extraction order.
  • the extraction order reading unit 103 reads the unique expression pattern name corresponding to the input extraction order and the total number of extraction orders from the extraction order storage unit 102 ( In step S103), the input text, the extraction order, the extraction order total number read from the extraction order storage unit 102, and the unique expression pattern name are output.
  • the extraction order reading unit 103 receives the text “Matsugami Electric founding (1) One birth one” and the extraction order value 1 from the input part 101, the extraction order value 1 is input. Is read from the extraction order storage unit 102 and the text “Matsugami Electric Founding (1) —Birth—” is input.
  • the extraction order value 1, the extraction order total value 3, and the specific expression pattern name “specific expression A pattern” are output to the specific expression extraction unit 105.
  • the specific expression extraction unit 105 responds to the input specific expression pattern name.
  • the specific expression pattern to be read is read from the specific expression pattern storage unit 104 (step S104), and the specific expression is extracted from the input text using the read specific expression pattern (step S105). Then, the text including the extracted unique expressions, the extraction order total number input from the extraction order reading unit 103, and the extraction order are output.
  • the named entity extraction unit 105 receives from the extraction order reading unit 103 the text "Matsugami Electric Founding (1) -Birth-", the extraction order value 1 and the extraction order total value 3.
  • the specific expression pattern name “specific expression A pattern” is input, the specific expression pattern “specific expression A pattern” corresponding to the input specific expression pattern name “specific expression A pattern” is stored in the specific expression pattern. This is read from the section 104, and the specific expression is extracted from the text “Matsugami Electric founding (1) —Birth—” input using the read specific expression pattern “specific expression A pattern”.
  • the unique expression pattern “specific expression A pattern” is a pattern for extracting a small title
  • the text “Matsugami Electric Founding Note (1) "Is extracted as a specific expression of" small title ".
  • the extracted unique expressions are ⁇ Kugen title type '' and ⁇ Ku / Yangi type ''. ”
  • the unique expression extraction unit 105 then extracts the text “KUMI TITLE> Matsukami Denki Sangaku / Small Title> (1) —Birth—” including the extracted specific expression, the extraction order total value 3 and the extraction order. 1 is output to the extraction end determination unit 106 (extraction result in Fig. 8 (first time)).
  • the extraction end determination unit 106 receives the extraction order number if the extraction order is smaller than the total extraction order number (step S106).
  • the numerical value 1 is added to the value (step S107), and the extraction order after addition and the text input from the specific expression extraction unit 105 are output to the extraction order reading unit 103. If the extraction order is equal to or greater than the total number of extraction orders (step S106), the text input from the specific expression extraction unit 105 is output as a result text that is a specific expression extraction result.
  • the extraction end determination unit 106 sends the extraction order total value 3 and the extraction order value 1 and the text "KUMI TITLE" from Matsushita Electric Co., Ltd. If (1) One birth is entered, the extraction order value 1 is smaller than the extraction order total value 3. So, add the number 1 to the extraction order value 1 to make the value 2, and extract the extraction order value 2 and the text “Small title> Matsugami Electric founding / Small title> (1) Birth one” Output to order reading unit 103.
  • the extraction order reading unit 103 and the specific expression extraction unit 105 perform the same processing as described above, and the extraction end determination unit 106 receives the extraction order total value 3 and the extraction order from the specific expression extraction unit 105.
  • the extraction order reading unit 103 and the specific expression extraction unit 105 perform the same processing as described above, and the extraction end determination unit 106 receives the value 3 of the extraction order total number from the specific expression extraction unit 105.
  • Extraction order value 3 and the text “Kuo Taito Nore> ⁇ Medium Title> Kusai Tight Nore> Matsugami Denki Founding / Small Title> (1) Ku / Medium Title> —Birth—Kaku / Large Title>” are entered.
  • the extraction order storage unit 102 stores the total number of extraction orders, the extraction order, and the unique expression pattern name in association with the extraction order.
  • the extraction order total number, the extraction order, and the set of unique expression pattern names are stored in association with the user identifier for identifying the user, and the extraction order reading unit 103 receives the text and the extraction order from the input unit 101, and
  • the extraction order reading unit 103 receives the text and the extraction order from the input unit 101, and
  • the total number of extraction orders corresponding to the input user identifier, the extraction order, and the specific expression pattern name corresponding to the extraction order input for the set of specific expression pattern names and the total number of extraction orders Is extracted from the extraction order storage unit 102, and the input text, the extraction order, the user identifier, the extraction order total number read from the order storage unit 102, and the unique expression pattern name are output. That You may do it.
  • the input unit 101 is an example of a user identification unit.
  • the specific expression extraction unit 105 and the extraction end determination unit 106 output the user identifier output from the extraction order reading unit 103 as it is in addition to the operation in the above embodiment.
  • the extraction order storage unit 102 sets (01, 3, (1, unique expression A pattern), (user identifier, total number of extraction orders, (extraction order, specific expression pattern name)), (2, proper expression B pattern), (3, proper expression C pattern), ( ⁇ ), (02, 2, (1, proper expression I pattern), (2, proper table 3 ⁇ 4! Pattern), (3, It is assumed that the proper expression K pattern), ⁇ ⁇ -), ⁇ -are stored.
  • the contents of the extraction order storage unit 102 in this case are as shown in FIG.
  • the extraction order reading unit 103 receives the user identifier “01”, the text “Matsugami Electric Founding (1) One birth One” and the extraction order value 1 from the input unit 101, and the input user identifier is input.
  • the “proprietary expression A pattern” is output to the specific expression extraction unit 105.
  • the subsequent unique expression extraction unit 105 and the extraction end determination unit 106 further output the user identifier “01” in addition to the operation of the above embodiment. In this way, the extraction order of specific expressions and the specific expressions to be extracted can be changed for each user, and specific expressions adapted to the user can be extracted.
  • the extraction order storage unit 102 sets a unique expression pattern name in association with the total number of extraction orders, the extraction order, and the extraction order, holds a plurality of sets, and sets the types of unique expressions to be extracted for each set.
  • the extraction order reading unit 103 assigns the corresponding set ID and manages the extraction order.
  • the extraction order storage unit 10 stores the unique expression pattern name corresponding to the extraction order input for the set of the order and the specific expression pattern name and the total number of extraction orders. It is also possible to read from 2, input text, extraction order, set ID, extraction order total number read from the extraction order storage unit 102, and unique expression pattern name.
  • the set ID functions as information indicating the extraction condition
  • the extraction order reading unit 103 is stored in order in the extraction order storage unit 102 corresponding to the set ID by the above-described reading operation.
  • the specific expression pattern is set as one or more specific expression patterns used for extraction and their usage order.
  • the unique expression extraction unit 105 and the extraction end determination unit 106 output the set ID output from the extraction order reading unit 103 as it is in addition to the operation in the above embodiment.
  • the extraction order storage unit 102 sets (01, 3, (1, unique expression A) as a set of (set ID, total number of extraction orders, (extraction order, specific expression pattern name)). Pattern), (2, proper expression B pattern), (3, proper expression C pattern), ..., (02, 2, (1, proper expression I pattern), (2, proper table 3 ⁇ 4! Pattern))
  • the contents of the extraction order storage unit 102 are as shown in Fig. 10.
  • the extraction order reading unit 103 is input to the input unit 101 and the set ID “ (Set ID, total number of extraction order, (extraction order, unique expression pattern name)) (01, 3,
  • the user can extract the text related to the program name from the input text by specifying the set ID "01" in the above embodiment, and, as an example, the unique expression I pattern is the surname of the person name.
  • the unique expression I pattern is the surname of the person name.
  • a specific expression K pattern is a rule for extracting the first name and last name of a person name. If you specify, you can extract text related to a person's name from the input text. That is, the user can specify a specific expression to be extracted.
  • the set ID is a force identifier corresponding to the type of the unique expression to be extracted.
  • the set ID is a terminal identifier for identifying the terminal that displays the specific expression to be extracted. Further, the input unit 101 displays the specific expression. By making it possible to obtain the terminal identifier of a terminal, it is possible to extract a specific expression corresponding to the terminal.
  • the input unit 101 is an example of a terminal identifier acquisition unit.
  • the unique name of the program name is useful on a television. Even if the specific name of the program name is not necessary on a CD player, such as when the unique name of the program name is unnecessary, Since it is possible to set a specific expression to be extracted for each display terminal, it is not necessary to display redundant information for the display terminal.
  • the named entity extraction apparatus uses the text input by the user from the input unit 101 as a search keyword to search for information related to a TV broadcast program or content stored in a hard disk recorder or the like.
  • an information database 306 that stores text information related to contents existing on the Internet, and is configured as a device that performs a specific expression extraction for the searched text.
  • an extraction order database 302 that stores the total number in association with each other.
  • the output order reading unit 103 further includes a text search unit 303, an order total number acquisition unit 304, and a usage pattern acquisition unit 305.
  • the text search unit 303 receives the text and the initial value of the extraction order from the input unit 101.
  • the text including a part of the input text is acquired from the information database 306, and the search result text and the extraction order are output to the order total number acquisition unit 304.
  • the order total number acquisition unit 304 receives the search result text from the text search unit 303.
  • the extraction order the total number of extraction orders corresponding to the number of texts in the input search result text is obtained from the extraction order database 302 in the extraction order storage unit 102, and the total number of extraction orders and the search result text to be obtained are acquired.
  • the extraction order are output to the usage pattern acquisition unit 305.
  • the specific expression pattern name corresponding to the input extraction order is acquired from the usage pattern database 301 of the extraction order storage unit 102 and acquired.
  • the specific expression pattern name, the search result text, the total number of extraction orders, and the extraction order may be output to the specific expression extraction unit 105.
  • FIG. 11 shows an example of the contents of the usage pattern database 301.
  • ((Extraction order, specific expression pattern name)) ((1, specific expression A pattern), (2, specific expression B pattern), (3, proper expression C pattern),.
  • Fig. 14 shows an example of the contents of the extraction order database 302. (Number of text, total number of extraction order) ((1 or less, 1), (2 or more, 5 or less, 2), (6 or more, 3 )) Is memorized.
  • the text search unit 303 inputs text from the information database.
  • the text “Matsugami Electric Founding (1) Birth 1” and “Matsugami Electric Founding (2) —Development—” are retrieved (step S202).
  • (1) Birth 1 ”,“ Matsugami Electric Founding (2) — Development 1 ”and the extraction order value 1 are output to the order total acquisition unit 304.
  • the total order acquisition unit 304 inputs the search result text “Matsugami Electric Founding (1) birth 1” and “Matsugami Electric Founding (2) — Development One” and the extraction order value 1 from the text search unit 303.
  • the extraction order database 302 of the extraction order storage unit 102 is input, and the extraction order total number 2 corresponding to the text number 2 of the input search result text is obtained (step S203).
  • the extraction order value 1 is output to the usage pattern acquisition unit 305.
  • the usage pattern acquisition unit 305 receives the extraction order value 1 input from the usage pattern database 301 of the extraction order storage unit 102.
  • the unique expression pattern name “specific expression A pattern” corresponding to is acquired (step S204), the specific expression pattern name “specific expression A pattern”, the search result text, the extraction order total number 2, the extraction order value 1 and Is output to the named entity extraction unit 105.
  • the text "Matsugami Electric founding" searched from the input unit 101 is input.
  • the information contained in the information database 306 includes electronic program guide information and music information.
  • the input unit 101 is used to input Giannore, etc.
  • the text search unit 303 displays the title corresponding to the input genre in the information database.
  • the search result text retrieved from 306 may be used.
  • FIG. 15 to FIG. 15 show the usage pattern database and the extraction order database that are associated with a common set ID.
  • the set ID is used as an extraction condition together with the number of input texts, and the set ID is further input from the input unit 101.
  • the extraction order reading unit 103 uses the use pattern database corresponding to the set ID input from the input unit 101.
  • the extraction order database and the specific expression pattern name are obtained by referring to the extraction order database.
  • the extraction order reading unit 103 uses one or more unique expression patterns stored in the extraction order storage unit 102 in order corresponding to the set ID. It is set as a specific expression pattern and its use order.
  • the set ID is input from the input unit 101 and stored in the force extraction order database 302 in association with the number of texts, and the extraction order reading unit 103
  • the total number of extraction orders and the set ID corresponding to the number of search result texts may be acquired from the extraction order database 302, and the unique expression pattern name may be acquired with reference to the usage pattern database corresponding to the set ID. .
  • the extraction order reading unit 103 extracts the unique expression patterns stored in the extraction order storage unit 102 according to the number of search result texts. One or more specific expression patterns to be used and their use order are set.
  • An example of the extraction order database 302 in this case is shown in FIG.
  • the extraction order reading unit 103 sets the specific expression pattern and the usage order used for extraction based on the number of search result texts searched by the text search unit 303.
  • the text search unit 303 extracts text for the number of characters that can be displayed on the display unit from the search result text to be searched, and sets the search result text similar to the plurality of extracted texts as a similar text group.
  • the total order number acquisition unit 304 it is possible to set the usage order of the unique expression pattern used for extraction based on the number of similar texts when displayed.
  • FIG. 26 is a configuration diagram of the named entity extraction apparatus according to such a modification. Compared with the specific expression extraction apparatus shown in FIG. 11, this specific expression extraction apparatus includes a similar text acquisition unit 308 and a display unit 309.
  • the genre “documentary” is input from the input unit 101 to the text search unit 303, and the text “Documentary: History of Matsugami Denki”, “Human Document” is input from the information database 306.
  • “Matsushita's footprint (1)” and “Human document Matsushita's footprint (2)” are searched, and the number of characters that can be displayed per unique expression on the display unit 309 is eight.
  • the similar text acquisition unit 308 extracts the first eight characters of the text "Documentary”, “Human document”, and “Human document” from the searched text, performs similarity determination, and the same text.
  • the text “human document Matsushita footprint (1)” and “human document Matsushita footprint (2)” corresponding to “human document” determined to be the same text group is output to the order total number acquisition unit 304,
  • the text “Documentary History of Matsugami Electric” corresponding to the text “Documentary” determined to be similar is output to the display unit 309 as the result text.
  • the order total number acquiring unit 304 refers to the extraction order database 302 in FIG. 25 to acquire the extraction order total number 2 and the set ID value 02
  • the usage pattern acquiring unit 305 acquires the usage pattern in FIG.
  • the database 301 when the extraction order is 1, the unique expression I pattern is obtained, and when the extraction order is 2, the eigentable pattern is obtained.
  • the expression I pattern is used, the part corresponding to the subtitle is extracted from the program name text as a small title, and if the eigentable pattern is used, the part that summarizes the number of consecutive subtitles and subtitles from the program name text is the middle title.
  • the similar text acquisition unit 308 has been described so that when the similar text is determined, the same text is regarded as the similar text. May be determined. For example, if the number of displayed characters is 10 characters and the specific ratio is 80%, if the character strings of 8 or more characters are the same, it is determined that the text is similar.
  • the search result text determined by the similar text acquisition unit 308 to be other than the similar text group is displayed as it is on the display unit 309, and the text is identified for the user with respect to the similar text group.
  • the display of the search result text on the display unit is also necessary for the user to identify the text in consideration of the number of characters that can be displayed on the display unit. Can be extracted.
  • the extraction order reading unit 103 may input the text attribute if the text attribute is added to the text attribute only by the user.
  • Part 101 functions as an attribute acquisition part that acquires the text attribute assigned to the text.
  • the unique expression pattern name and the extraction order total number corresponding to the text attribute acquired by 1 may be read from the extraction order storage unit 102.
  • the input unit 101 in this case is an example of an attribute acquisition unit, and the contents of the extraction order storage unit 102 are as shown in FIG.
  • This text attribute may indicate a category of a TV program such as “drama”, “news program”, or “validity one” as well as a classification such as "IT document” or "TV program information”. ,. Since the category of the television program is included in the program information constituting the electronic program guide, the input unit 101 can acquire the category from the program information constituting the electronic program guide.
  • the text attribute is estimated by calculating the distance between the word vector generated using the word included in the text and the word vector expressing the text attribute. Then, the unique expression pattern name and the extraction order total number corresponding to the text attribute may be read from the extraction order storage unit 102. In this way, the extraction performance of the specific expression extraction can be improved, and when the text attribute is given to the target text of the specific expression extraction, the user need not specify the text attribute.
  • a terminal name for displaying the result text which is the text extracted from the unique expression, or a terminal identifier that can identify the terminal may be used.
  • the contents of the extraction order storage unit 102 in this case are as shown in FIG. By doing this, it is possible to set a specific expression to be extracted for each terminal that displays the result text.
  • the named entity extraction apparatus is configured such that the extraction order change unit 204 included in the extraction end determination unit 106 changes the extraction order according to the extraction condition. If the unique expression pattern name corresponding to the extraction order input from the extraction end determination unit 106 cannot be read, the reading unit 103 further outputs a value 1 as an extraction end flag, and if the unique expression pattern name can be read, the reading is performed. A value 0 is output as the end flag, and the unique expression extraction unit 105 extracts a specific expression corresponding to the specific expression pattern read from the specific expression pattern storage unit 104 when the input extraction end flag is the value 1. Place If the specific expression is not extracted, the value 0 and the extraction end flag value 1 are output as the extraction flag.
  • the extraction end determination unit 106 An extraction number storage unit 202, an extraction number update unit 203, and an extraction order change unit 204 are provided.
  • the determination unit 201 If the extraction end flag has a value of 0, the numerical value 1 is added to the value of the extraction order, and the extracted extraction order and the text input from the specific expression extraction unit 105 are output to the extraction order reading unit 103. At this time, the extraction order is equal to the total number of extraction orders.
  • the text input from the unique expression extraction unit 105 is output as result text that is the result of the specific expression extraction. If the extraction end flag is 1, the extraction end flag value 1 is output to the extraction order change unit 204. Output.
  • the extraction number storage unit 202 stores an extraction order that is the order in which the unique expressions are extracted, and an extraction number that is the number of times that the specific expressions are extracted in this extraction order.
  • the extraction order changing unit 204 is when the total number of extraction times in the extraction number storage unit 202 is equal to or greater than a certain value.
  • the extraction order of the extraction order storage unit 102 may be changed based on the number of extractions corresponding to the extraction order stored in the extraction number storage unit 202.
  • the extraction number updating unit 203 and the extraction number storage unit 202 are an example of an extraction number counting unit that counts the number of times that a unique expression has been extracted in the past using individual unique expression patterns.
  • the determination unit 201 extracts the value 3 of the extraction order from the unique expression extraction unit 105, the value 1 of the extraction order, and the text “Small Title> Matsugami Electric Founding / Small Title> (1) If the extraction end flag value 0 is input (“Birth—”) (step S301), the extraction end flag value is 0 (step S309). 1 is added to the value 1 to make the value 2 (step S303), and the extraction order value 2 and the text ⁇ Small Title> Matsugami Electric Founding / Small Title> (1) birth are read in the extraction order. To part 103 (step S304)
  • the determination unit 201 obtains the extraction order total value 3 and the extraction order value 3 from the specific expression extraction unit 105, and the text "ku title” Kunaka title> Ku title> Matsugami Electric founding / If a small title> (1) Z Z middle title> first birth / large title> '' and the extraction end flag value 0 are entered, the extraction order value 3 is equal to the extraction order total value 3 (step S 302), the input text “Large title> Kunaka title> Kuminato title> Matsugami Electric founding note / Small tight nore> (1) ⁇ Z medium tight nore> —Birth 1 / big title>” The result text is output (Step S310).
  • Step S309 Since the extraction end flag is 0 (Step S309), the value 1 is added to the value 3 in the extraction order to set the value to 4 (Step S303).
  • the extraction order reading unit 103 If the extraction order reading unit 103 has the extraction order value 5 input from the extraction end determination unit 106 and the specific expression pattern name corresponding to the extraction order value 5 cannot be read, the extraction order reading unit 103 is the extraction end flag value 1, the extraction order total value 3, the extraction order value 5, and the text “Large title”, “Medium title”, “Small title”, Matsugami Electric founding / small title> (1) Ku / medium tight nore> first birth / big title> ”is output to the named entity extraction unit 105.
  • the determination unit 201 extracts the value 3 of the extraction order from the specific expression extraction unit 105, the value 5 of the extraction order, and the text “Large Tit Nore> ⁇ Medium Title> ⁇ Small Tit Nore> > (1) Ku Z Middle Title> —Birth—Kaku / Large Title> ”and extraction end flag value 1 (step S301), the extraction end flag value is 1 (step S309).
  • the end flag value 1 is output to the extraction order changing unit 204 (step S311).
  • the extraction number storage unit 202 stores an extraction order that is the order in which the unique expressions are extracted, and an extraction number that is the number of times that the specific expressions are extracted in this extraction order.
  • FIG. 21 shows an example of the extraction order stored in the extraction number storage unit 202 and the number of extractions corresponding to the extraction order.
  • extraction order number of extractions
  • ((19), (2 6), (3 3 ), (4, 1)) are stored.
  • it means that small titles were extracted 9 times, medium titles 6 times, large titles 3 times, and all titles 1 time.
  • the extraction number update unit 203 receives the text, the extraction flag value 1, the extraction order total value 3, the extraction order value 1, and the extraction end flag value 0 from the specific expression extraction unit 105.
  • Step S301 since the extraction flag to be input is value 1 (Step S305), 1 is added to the value 9 of the number of extractions stored in the extraction number storage unit 202 corresponding to the value 1 of the extraction order, Set the value to 10 (step S3 06). Similarly, in the subsequent processing, specific expressions are also extracted for medium titles and large titles. Therefore, the respective extraction count values stored in the extraction count storage unit 202 corresponding to the extraction order values 2 and 3 are used. Update 6 and value 3 to value 7 and value 4.
  • FIG. 22 shows the contents of the extraction number storage unit 202 after being updated by the extraction number updating unit 203.
  • the extraction order changing unit 204 has a total number of extraction times in the extraction number storage unit 202 that is equal to or greater than a specific value (for example, value 20) (
  • the extraction order value 2 corresponding to the extraction order stored in the extraction number storage unit 202 is equal to or greater than a specific value (for example, the value 5).
  • the total number of extraction orders is set (step S308).
  • FIG. 23 shows the contents of the extraction order storage unit 102 after being changed by the extraction order changing unit 204.
  • the total number of extraction orders is changed using the history of extracting unique expressions from the user's input text, and it is unique to the search result text searched from the information database using the changed total number of extraction orders.
  • Expression can be extracted, and as a result, the unique expression extracted from the search result text can be matched with the same form as the specific expression with high input frequency of the user. Or, it becomes possible for the user to automatically extract only the specific expressions necessary for identifying the text.
  • the extraction order storage unit 102 sets the extraction order total number, the extraction order, and the specific expression pattern names in association with the extraction order, and holds a plurality of such sets.
  • the extraction number storage unit 202 can be managed by managing the extraction order and the number of extractions as a set for each user identifier and set ID.
  • Figure 24 shows the extraction order when the extraction order and number of extractions are managed as a set for each user identifier. The contents of the intro memory 102 are shown.
  • the extraction end determination unit 106 determines whether to continue the specific expression extraction process based on the total number of extraction orders and the extraction order, but may determine based on the number of characters of the extracted specific expressions.
  • the specific expression extraction unit 105 outputs the number of characters of the specific expression to be extracted in addition to the operation in the above embodiment to the extraction end determination unit 106, and the extraction end determination unit 106
  • the extraction order the number of characters of the unique expression to be extracted, and the text are input from the extraction unit 105
  • the numerical value 1 is added to the value of the extraction order, and the addition is performed.
  • the subsequent extraction order and the text input from the specific expression extraction unit 105 are output to the extraction order reading unit 103. If the number of characters in the specific expression is equal to or greater than the specific number of characters, the specific expression extraction unit 105 The input text is output as the result text that is the extraction result of the proper expression.
  • the extraction end determination unit 106 terminates the extraction performed using the subsequent specific expression pattern. It is an example.
  • the extraction end determination unit 106 reads the text "Kumiko Title” Matsugami Electric founding / small title from which the extraction order value 1 and the unique expression are extracted from the specific expression extraction unit 105. > (1) Birth 1 ”and the extracted number of characters 7 in the proper expression“ Matsugami Electric Founding ”is input, the number of characters in the specific expression 7 is a specific number of characters (in this example, the number of characters is set to 8) The extraction order value is set to 2, and the extraction order value 2 and the text “Kumiko Title> Matsugami Electric Founding / Small Title” (1) —Birth— are entered in the extraction order reading section 103. Output.
  • the extraction end determination unit 106 further extracts the value “2” of the extraction order and the specific expression from the specific expression extraction unit 105 “kunaka title> 1) If the number of characters 9 in the proper expression “Matsugami Denki Kogyo (1)” extracted as ⁇ Tight in the Z> is born ”is entered, the number of characters in the specific expression 9 is more than a specific number of 8 characters. "Kunaka title> Kuminato title> Matsugami Electric founding Z small title> (1) Ku / Naka Tit Nore> One birth one" is output as the result text.
  • the unique expression that cannot be displayed is not extracted by setting the number of characters that can be displayed as the threshold number of characters of the extraction end determination unit 106. It is possible to reduce the processing amount of the specific expression extraction.
  • the specific expression extraction apparatus of the above embodiment further includes a changing unit that allows the user to change the extraction order total number, extraction order, and specific expression pattern name stored in the extraction order storage unit 102. Also good. In this way, the user can change the extracted specific expressions.
  • the present embodiment it is possible to extract only the specific expressions necessary for the user, application, and terminal by setting the order of extracting the specific expressions.
  • the number of specific expressions targeted for speech recognition can be reduced. Can be improved.
  • the unique expression extracted from the unique expression extraction device is stored as a search target keyword in the search target database together with the search target data, the search target keyword can be reduced. Search accuracy can be improved.
  • FIG. 27 is a configuration diagram showing the configuration of the named entity extraction apparatus according to the second embodiment of the present invention.
  • the specific expression extraction apparatus of the present embodiment is an apparatus for extracting the minimum specific expression necessary for the user to identify the text when the search result text includes the same character string.
  • the usage pattern database 401 and the extraction order database 402 are associated with a common set ID, and the usage pattern database 401 includes an extraction order and a unique expression pattern name corresponding to the extraction order for each set ID. It is memorized and the extraction order data
  • the database 402 stores the total number of extraction orders for each set ID.
  • FIG. 15 is an example of the usage pattern database 401
  • FIG. 28 is an example of the contents of the extraction order database 402.
  • the order total number acquisition unit 403 receives the youngest set ID from the extraction order database 402 and the extraction order total number and set corresponding to the set ID. Acquires the maximum ID value, and outputs the search result text, extraction order, set ID, total extraction order, and maximum set ID value to usage pattern acquisition unit 305
  • the extraction order is reset to 1, and 1 is added to the input set ID.
  • the total number of extraction orders corresponding to the set ID after addition is obtained from the extraction order database, and the search result text, extraction order, set ID, total number of extraction orders, and maximum set ID are stored in the usage pattern acquisition unit 305. Output.
  • the extraction end determination unit 404 adds 1 to the extraction order, When the extraction order is larger than the total number of extraction orders, the set ID, the maximum value of the set ID and the text are output to the unique expression determination unit 405, and when the set ID is less than the maximum value of the set ID, the total number of order acquisition unit 403 If the extraction order, the total number of extraction orders, the set ID, and the maximum value of the set ID are output, and the extracted extraction order is less than or equal to the total number of extraction orders, the text, extraction order, set ID, extraction order total number, and set The maximum ID value is output to the usage pattern acquisition unit 305.
  • the specific expression determination unit 405 extracts a unique ID extracted from a plurality of texts that are simultaneously input in association with the set ID. If the set ID is equal to the maximum value of the set ID, the number of similar specific expressions is calculated and calculated for the specific expressions stored in association with each set ID. The unique expression corresponding to the smallest set ID is output as the result text.
  • FIG. 29 is a flowchart showing a flow of an operation example when extracting a specific expression.
  • the information included in the information database 306 is electronic program information
  • the text search unit 303 receives the genre "documentary” and the initial value 1 of the extraction order from the input unit 101 (step S401)
  • the information database The texts of the program names corresponding to the genre “Documentary” from 306 “Documentary (1) —Birth of Matsugami Electric”, “Documentary (2) —Development of Matsugami Electric” — “Human Documents Taro Matsushita's Footprints ( 1) ”,“ Human Document Taro Matsushita's Footprint (2) ”(Step S402), and the search result text“ Documentary (1) —Birth of Matsugami Electric ”—“ Documentary (2) —Matsugami Development of electrical appliances ”,“ Human document Taro Matsushita's footprint (1) ”,“ Human document Taro Matsushita's footprint (2) ”and the extraction order 1 are output to the total order acquisition unit 403.
  • the order total number acquisition unit 403 receives the search result text “documentary” from the text search unit 303.
  • the usage pattern acquisition unit 305 receives the maximum value of the set ID as shown in FIG.
  • the unique expression pattern name “Unique expression A pattern” corresponding to the set ID value 1 and the extraction order value 1 input from the usage pattern database 401 of 5 is acquired (step S404).
  • the proper expression extraction unit 105 uses the input specific expression pattern “specific expression A pattern” to input the text “Documentary (1) —Birth of Matsugami Electric” — “ Documentary (2) — Development of Matsugami Electric ”,“ Human Document Taro Matsushita's Footprint (1) ”,“ Human Document Taro Matsushita's Footprint (2) ” Extract “Documentary”, “Human Document”, and “Human Document” (Step S406), and extract the unique expression from the text “Small Title> Documentary Ku / Small Title> (1) —Birth of Matsugami Electric— ”,“ Koku Title> Documentary K Z Title> (2) —Development of Matsugami Electric ”,“ Kuku Title> Human Document K Z Tai Tait Nore> Taro Matsushita's feet (1) ”,“ Small Tights> Human Documents / Small Tights> Taro Matsushita's Footprint (2) ”, the total number of extraction orders, the extraction
  • the extraction end determination unit 404 adds 1 to the input extraction order value to set the value to 2 (step S407), and the extracted extraction order value 2 is less than or equal to 2 in the extraction order total number.
  • Step S4 08 the input text “Kakuta Tit Nore> Documentary Kaku / Small Title” (1) —Birth of Matsukami Denki— ”,“ Kaku Title> Documentary Kaku / Small Title> (2) —Matsugami “Development of Electric Appliances”, “Koku Title> Human Documents / Small Title> Taro Matsushita's Footprint (1)”, “Koku Title> Human Documents / Small Title> Taro Matsushita's Footprint (2)”
  • Output total number 2 extraction order 2, set ID value 1, and set ID maximum value 2 are output to usage pattern acquisition section 305.
  • the usage pattern acquisition unit 305 acquires the specific expression pattern name "specific expression B pattern", and the specific expression extraction unit 105 uses the specific expression pattern "specific expression B pattern”.
  • the proper expression extraction unit 105 has found that the text “Kokunaka Tight Treasure> ⁇ Small Tight Tale> Documentary Kaku / Tight Tight Treasure> (1) Kuku / Middle Tight Treasure> birth of Ichimatsu Kouichi”, “ Kunaka Taito Nore> ⁇ Small Tit Nore> Documentary One / Small Title> (2) ⁇ Z Middle Title> — Development of Matsugami Denki ”,“ Kuo Taito Nore> Human Document Ku Z Small Title> Footprint of Taro Matsushita (1 ) ”,“ Small Title> Human Document ⁇ / Small Tit Nore> Taro Matsushita's Footprint (2) ”, Extraction Order Total 2 and Extraction Order Value 2 And set ID value 1 and set ID maximum value 2 are output to extraction end
  • the extraction end determination unit 404 adds 1 to the input extraction order value to set the value to 3 (step S407), and the extracted extraction order value 3 is larger than the extraction order total number 2 (
  • the unique expression determination unit 405 sets the set ID value 1 and the maximum set ID value 2 and the text “ ⁇ Medium Tight Nore> Small Tight Nore> Documentary / Small Tight Nore> (1) Ku / Medium Tight Nore> Matsugami Electric's birth 1 "," Kunaka Tight Nore> Small Title> Documentary Ku / Small Tight Nore> (2) Ku / Naka Tight Nore> Development of Ichimatsu Kouden "" Koku Title "Human Document Ku Z Small “Title Nore> Footprint of Matsushita Taro (1)", “Koku Tight Treasure> Human Document / Tatoshi Matsushita Footprint (2)” is output (Step S409), and Set ID value 1 is the maximum of Set ID Since the value is less than 2 (step S410), the total number of sequence
  • the total order acquisition unit 403 extracts the extraction order value 3 and the set ID value from the extraction end determination unit 404.
  • the usage pattern acquisition unit 305 acquires the specific expression pattern name “specific expression I pattern”, and the specific expression extraction unit 105 uses the specific expression pattern “specific expression I pattern”.
  • the unique expression extraction unit 105 reads the text “Documentary (1) —Kakuko Title> birth of Matsugami Electric / Small Title> — ”,“ Documentary (2) —Kakuta Title> Development of Matsugami Electric Z Small Title> — ”,“ Human Document "Title> Taro Matsushita's Footprints Z Small Title>(1)","Human Documents Small Title> Taro Matsushita's Footprints / Small Titles” (2) ", Extraction Order Total 2 and Extraction Order Value 2 and the set ID of the value 1 and set ID Is output to the extraction end determination unit 404.
  • the usage pattern acquisition unit 305 acquires the specific expression pattern name “specific expression J pattern”, and the specific expression extraction unit 105 uses the specific expression pattern “specific table 3 ⁇ 4 [pattern”.
  • the expression extractor 105 has the text “Documentary (1)-Small Title> Birth of Matsugami Electric / Small Title> —”, “Documentary (2)-Small Title> Development of Matsugami Electric / Small Title> 1 ”,“ Human Document Kunaka Tight Nore> ⁇ Small Tight Nore> Taro Matsushita's Footprint / Small Tight Nore> (1) ⁇ Z Middle Tight Nore> ” Shimotaro's Footprint / Small Title> (2) ⁇ / Medium Title> ”, Extraction Order Total 2, Extraction Order Value 2, Set ID Value 2, and
  • the extraction end determination unit 404 has the extraction order value 3 larger than the total number of extraction orders (step S408).
  • ID Maximum 2 and text “Documentary (1) — Small Title> birth of Matsugami Electric / Small Title> —”, “Documentary (2) — Small Small Tight> Development of Matsugami Electric / Small Title > ”,“ Human Document Small Title> Taro Matsushita's Footprint / Small Title> (1) ”,“ Human Document Small Title> Taro Matsushita's Footprint / Small Title> (2) ” Output to the determination unit 405.
  • the specific expression determination unit 405 receives the set ID value 1 and the maximum set ID value 2 from the extraction end determination unit 404 and the text "Kakunaka Tight Treasure> ⁇ Small Tight Tail> Documentary Kut / Small Tight Treasure> (1) ⁇ / Naka Taito Nore> birth of Ichimatsu Kou Denki>, Kunaka Taito Nore> ⁇ Small Tight Nore> Documentary Ku-Z Small Title> (2) Ku / Middle Title> Development of Ichimatsu Kou Denki>, Kukun Taito Nore> If you enter "Human Document Ku Z Title> Matsushita Taro's Footprint (1)", "Kumiko Title> Human Document Ku / Small Tit Nore> Matsushita Taro Footprint (2)", the set ID value 1 A unique expression “documentary (1) extracted from multiple texts input simultaneously ) "," Documentary (2) ",” Human Document ",” Human Document ".
  • the unique expression determining unit 405 further sets the unique expression "human” to the set ID value 1. Since “Document” and “Human Document” are the same, the number of similar unique expressions is set to 2 (here, only the same text is considered to be similar text, but the same text may be more than a certain number of characters), and the set ID For the value of 2, all the unique expressions are different, so the number of similar specific expressions is 0.
  • the specific expression determining unit 405 calculates the number of similar specific expressions using the extracted specific expressions as they are, but the text is generally displayed on a display unit having a finite size. If the number of display characters that can be displayed per unique expression is known on the display unit, only the text for the number of display characters is extracted from the beginning of the specific expression, and the number of similar specific expressions is extracted from the extracted text. If you ask for it, ...
  • the unique expression determination unit 405 has (set ID, unique expression group) as (1, (Matsushita Electric Industrial's birth, Matsushita Electric Industrial development, Matsushita Electric Industrial stock price transition, Matsushita Consider the case where the new product introduction in the electronics industry)), (2, (Matsushita documentary, Matsushita documentary, economic second use, trendy product introduction)) is input.
  • This example shows an example of the unique expression extracted from the program name included in the program information. These specific expressions are detailed tables with different numbers of characters used per specific expression. The display format and the display format with improved listability are used separately, and it is determined that they are displayed on the same display section.
  • the specific expression determining unit 405 has a maximum of 12 characters of text (1, 1, (Birth of Matsushita Electric Industrial, Development of Matsushita Electric Industrial, Stock Price Transition of Matsushita Electric Industrial, Introduction of New Products of Matsushita Electric Industrial)), (2, (Introduction of Matsushita Documentary, Matsushita Documentary, Economic News, Trendy Products))) To extract. In this case, all characters of each unique expression are extracted. Then, the number of similar unique expressions for the set ID values 1 and 2 is obtained as 0 and 2, respectively.
  • the unique expression corresponding to the set ID value 1 with the smallest number of similar specific expressions is “Matsushita Electric Industrial's "Birth”, “Development of Matsushita Electric Industrial”, “Stock price transition of Matsushita Electric Industrial”, “Introducing new products of Matsushita Electric Industrial” are output to the display section as result text.
  • Fig. 30 (A) is an example of a detailed display format.
  • the program information power for three channels is displayed on one screen using the unique information of up to 12 characters extracted. Is done. This format is suitable for users who want to watch program information in more detail.
  • the specific expression determination unit 405 displays a maximum of six characters of text ( 1, (Matsushita Electric Industrial, Matsushita Electric Industrial, Matsushita Electric Industrial, Matsushita Electric Industrial)), (2, (Matsushita Document, Matsushita Document, economic news, trendy product introduction)). Then, the number of similar unique expressions for the set ID values 1 and 2 is 4 and 2, respectively.
  • the unique expressions corresponding to the set ID value 2 with the smallest number of similar unique expressions are “Matsushita Documente” and “Matsushita”. "Docume”, "Economic news", "Introducing trendy products” are output as result text.
  • Figure 30 (B) shows an example of a display format with improved listability. In this example, one screen is displayed.
  • Program information for 6 channels is displayed using unique information of up to 6 characters extracted from the name of the program. This format is suitable for users who want to overlook program information more widely.
  • unique information that is originally 7 characters or more it is possible to omit the following characters by replacing the 6th character with a predetermined character (for example, “ ⁇ ”). May be specified.
  • the set in which the specific expression included in each set is the most different.
  • the number of unique expressions that can be identified by the user can be increased by making the unique expressions of the final result.
  • FIG. 31 is a configuration diagram showing a configuration of the named entity extraction device according to the third embodiment of the present invention.
  • the specific expression extraction apparatus deletes the duplicate and further specifies the specific expression to be displayed, and then the specified specific expression is nested.
  • an input unit 101, an extraction order storage unit 102, an extraction order reading unit 103, a specific expression pattern storage unit 104, and a specific expression extraction unit 105 are provided.
  • the specific expression storage unit 501 stores the input text, the specific expression extracted from the input text, and the extraction order in association with each other.
  • An example of the contents of the named entity storage unit 501 is shown in FIG.
  • the extraction end determination unit 502 associates the extraction order with the specific expressions extracted from the text and the text to represent the specific expressions. If the extraction order is smaller than the total number of extraction orders, the numerical value 1 is added to the value of the extraction order, and the extraction order after the addition and the text input from the specific expression extraction part 105 are stored. Is output to the extraction order reading unit 103.
  • Display unit 506 displays a specific expression.
  • the display condition acquisition unit 503 has a fixed designation specified by the user from the extraction order of the unique expressions displayed on the display unit 506 and the plurality of displayed unique expressions. Enter the expression.
  • the specific expression acquisition unit 504 acquires a specific expression corresponding to the extraction order input from the specific expression storage unit 501, and the display condition acquisition unit
  • the extraction order and the specific expression specified by the user are input from 503
  • the text corresponding to the input extraction order and the specific expression is searched from the text stored in the specific expression storage unit 501, and the text of the searched text In the specific expression, a specific expression corresponding to the extraction order next to the input extraction order is acquired.
  • Duplicate deletion unit 505 eliminates duplication of the unique expression acquired by specific expression acquisition unit 504 and displays it on display unit 506.
  • FIG. 33 is a flowchart showing a flow of an operation example when extracting and displaying a specific expression.
  • step S101 to step S105 Operation for extracting a specific expression from input text using the input unit 101, the extraction order storage unit 102, the extraction order reading unit 103, the specific expression pattern storage unit 104, and the specific expression extraction unit 105 (step S101 to step S105) Since the same operation as in Embodiment 1 is performed, the description thereof is omitted.
  • the extraction end determination unit 502 receives the total number of extraction orders 3 and the extraction order 1 from the proper expression extraction unit 105 and the text “Kaku Title> Documentary K / Small Title” (1) —Birth of Matsugami Electric— ”,“ Small Title> Documentary Ku / Small Tight> (2) —Development of Matsugami Denki ”,“ Kumiko Title> Human Document Ku / Small Title ”Taro Matsushita's Footprint (1)”, “Kumiko Title> Human Document / Small Title> Taro Matsushita's Footprint (2) ”is input, the extraction order 1 and the text“ Documentary (1) —Birth of Matsugami Electric ”,“ Documentary (2) —Development of Matsugami Electric —, “Human Document Taro Matsushita's Footprint (1)”, “Human Document Taro Matsushita's Footprint (2)” and the specific expressions “Documentary”, “Documentary”, “Human Document”, “Human Document”,
  • the value is calculated to be 2 (step S107), the value 2 of the extraction order after addition and the text input from the named entity extraction unit 105
  • the display condition acquisition unit 503 inputs the value 1 that is the initial value of the extraction order to the specific expression acquisition unit 504 without accepting the user force designation.
  • the proper expression acquisition part 504 receives the proper expression "documentary” corresponding to the extraction order value 1 from the proper expression storage part 501. ",” Documentary “,” Human Document “,” Human Document “are acquired (step S503).
  • the duplicate deletion unit 505 performs duplication on these specific expressions.
  • the unique expressions “documentary” and “human document” are displayed on the display unit 506 (step S507).
  • An example of the display contents displayed on the display unit 506 at this time is shown in FIG.
  • the duplicate deletion unit 505 may simultaneously display the number of duplicates in each unique expression when displaying each unique expression. An example of the display contents displayed on the display unit 506 at this time is shown in FIG.
  • Each unique expression displayed here is added with a user interface function for accepting a predetermined operation by the user, for example, a mouse click operation.
  • a predetermined operation by the user for example, a mouse click operation.
  • the display condition acquisition unit 503 accepts a predetermined operation by the user to one of the displayed specific expressions, the display condition acquisition unit 503 inputs the specific expression on which the operation has been performed and the extraction order of the specific expression to the specific expression acquisition unit 504. .
  • the display condition acquisition unit 503 inputs the extraction order value 1 and the specific expression “documentary” specified by the user.
  • the specific expression acquisition unit 504 receives an input from the text stored in the specific expression storage unit 501.
  • the text “Documentary (1) Birth of Ichimatsu Kouen” “Documentary (2) —Evolution of Matsuue Denki” corresponding to the value 1 of the extracted extraction order and the specific expression “Documentary” is searched (Step S504).
  • the specific expressions “documentary (1)” and “documentary (2)” corresponding to the extraction order value 2 next to the input extraction order are acquired (step S505).
  • the input text since the input text is displayed according to the nested structure of the extracted unique expression, the input text can be displayed in the menu hierarchy.
  • the menu hierarchy is generated according to the nesting of the unique expression, so the user needs to search for the target title from a list of titles with duplicates. Nagu Menu You can find the title you want just by navigating the hierarchy.
  • FIGS. 37 (A) and 37 (B) are examples of program names included in the Chinese program information to be input text. From this program name, a unique expression is extracted in the same manner as described above and presented to the user. As a result, the unique expression adapted to the extraction condition represented by the user's input history, display capability of the display terminal, etc. A unique expression extraction device that can be extracted from the input text is obtained.
  • the extracted specific expression when extracting a specific expression from a text, can be adapted to a user application and a terminal used by the user, It is useful for DVD recorders, TVs, audio components, terminals that can access the Internet, and information retrieval servers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 固有表現をテキストから抽出する順序を設定できるようにすることで、ユーザに適応した固有表現を抽出する固有表現抽出装置は、抽出順序記憶部102に抽出順序に対応付けて記憶されている固有表現パターン名を取得する抽出順序読込部103と、抽出順序読込部103で取得した固有表現パターン名に対応する固有表現パターンを用いて入力テキストから固有表現を抽出する固有表現抽出部105と、抽出が終了していない場合は、抽出順序読込部103に抽出途中のテキストを出力し、固有表現抽出処理を続行する抽出終了判定部106とを備える。

Description

明 細 書
固有表現抽出装置、方法、及びプログラム
技術分野
[0001] 本発明は、ユーザに適応した固有表現を抽出することが可能な固有表現抽出装置 に関するものである。
背景技術
[0002] 従来、複数の異なるタスクに対応するため、 1つの入力テキストに対し複数の固有 表現抽出モジュールを動作させ、抽出される固有表現をまとめることができる固有表 現抽出方法が開示されている (例えば、特許文献 1参照)。
[0003] ここで、固有表現とは、タスクによって 1つの単位として扱われる、固有名詞、会社 名、電子メールアドレス、国名、都市名、製品名、組織名、時間、 日時、金額表現、割 合表現など特定の言語項目を言う。
特許文献 1 :特開 2003— 248680号公報
発明の開示
発明が解決しょうとする課題
[0004] し力しながら、従来の複数の固有表現抽出モジュールを動作させることで異なるタ スクに対応することができる固有表現抽出方法は、抽出する固有表現の種類や単位 をユーザや表示端末に対して対応付けて記憶することができないため、ユーザや表 示端末に適応した固有表現を抽出することができなレ、。このため、特に、固有表現の 中に固有表現が存在する固有表現の入れ子構造において、ユーザは抽出された固 有表現が表示される場合、ユーザにとって冗長な文字列を含む固有表現や意味を 理解するには短すぎる固有表現を読まなければならなかった。例えば、テレビ番組情 報において、本題と副題を合わせて番組名とする番組に対し、本題のみで番組を識 別できるユーザにとっては、副題は冗長な情報である。逆に本題のみで番組を識別 できないユーザにとっては、副題は必要な情報であり、本題と副題を合わせてユーザ に提示する必要がある。
[0005] そこで、本発明は上記の事情に鑑みてなされたものであり、ユーザの入力履歴や表 示端末の表示能力等によって表される抽出条件に適応した固有表現を抽出すること 力 Sできる固有表現抽出装置を提供することを目的とする。
課題を解決するための手段
[0006] 前述の目的を達成するために、この発明にかかわる固有表現抽出装置は、テキスト に含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用 いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって 、抽出条件に応じて異なる固有表現パターンの使用順序を示す抽出順序を定める 抽出順序設定手段と、前記定められた抽出順序に示される順序で固有表現パター ンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手 段とを備える。
発明の効果
[0007] この構成によれば、固有表現を抽出する順序を抽出条件に応じて設定することが できるので、例えば、入れ子構造が存在する固有表現に対して、文字列長の短い、 または長い固有表現から順次抽出する場合は、ユーザに最適な文字列長の固有表 現が抽出されるところで固有表現抽出処理を停止することができ、ユーザや表示端 末にとつて最適な固有表現を抽出することができる。
図面の簡単な説明
[0008] [図 1]図 1は、実施形態 1における固有表現抽出装置の構成図である。
[図 2]図 2は、実施形態 1の固有表現抽出装置に用いられる抽出順序記憶部に記憶 される抽出順序の一例を示す図である。
[図 3]図 3は、抽出に用いられるルールの一例を示す図である。
[図 4]図 4は、抽出に用いられるルールの他の一例を示す図である。
[図 5]図 5は、抽出に用いられるルールのさらに他の一例を示す図である。
[図 6]図 6は、人名抽出用のルールを用いて行われる抽出の一具体例を示す図であ る。
[図 7]図 7は、実施形態 1における動作を示すフローチャートである。
[図 8]図 8は、実施形態 1の固有表現抽出装置による抽出結果の一具体例を示す図 である。 園 9]図 9は、実施形態 1の固有表現抽出装置に用いられる抽出順序記憶部に記憶 される抽出順序の一例を示す図である。
[図 10]図 10は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記 憶される抽出順序の一例を示す図である。
[図 11]図 11は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序読込部の一 例を示す構成図である。
園 12]図 12は、実施形態 1における動作例を示すフローチャートである。
園 13]図 13は、実施形態 1の固有表現抽出装置に用いられる利用パターンデータべ ースの内容の一例を示す図である。
[図 14]図 14は、実施形態 1の固有表現抽出装置に用いられる抽出順序データべ一 スの内容の一例を示す図である。
園 15]図 15は、実施形態 1の固有表現抽出装置に用いられる利用パターンデータべ ースの内容の一例を示す図である。
[図 16]図 16は、実施形態 1の固有表現抽出装置に用いられる利用パターンデータべ ースの内容の一例を示す図である。
園 17]図 17は、実施形態 1の固有表現抽出装置に用レヽられる抽出順序記憶部に記 憶される抽出順序の一例を示す図である。
[図 18]図 18は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記 憶される抽出順序の一例を示す図である。
園 19]図 19は、実施形態 1の固有表現抽出装置に用いられる抽出終了判定部の一 例を示す構成図である。
[図 20]図 20は、実施形態 1における動作例を示すフローチャートである。
園 21]図 21は、実施形態 1の固有表現抽出装置に用いられる抽出回数記憶部に記 憶される内容の一例を示す図である。
[図 22]図 22は、実施形態 1の固有表現抽出装置に用いられる抽出回数記憶部に記 憶される内容の一例を示す図である。
園 23]図 23は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記 憶される内容の一例を示す図である。 [図 24]図 24は、実施形態 1の固有表現抽出装置に用レ、られる抽出順序記憶部に記 憶される内容の一例を示す図である。
園 25]図 25は、実施形態 1の固有表現抽出装置に用レヽられる抽出順序記憶部に記 憶される抽出順序の一例を示す図である。
園 26]図 26は、実施形態 1における変形例に係る固有表現抽出装置の構成図であ る。
[図 27]図 27は、本発明の実施の形態 2の固有表現抽出装置の構成を示す構成図で ある。
園 28]図 28は、実施形態 2の固有表現抽出装置に用レ、られる抽出順序記憶部に記 憶される抽出順序の一例を示す図である。
園 29]図 29は、実施形態 2における動作例を示すフローチャートである。
園 30]図 30 (A)及び (B)は、実施形態 2における固有表現表示例を示す図である。 園 31]図 31は、本発明の実施の形態 3の固有表現抽出装置の構成を示す構成図で ある。
[図 32]図 32は、実施形態 3の固有表現抽出装置に用いられる固有表現記憶部に記 憶される内容の一例を示す図である。
園 33]図 33は、実施形態 3における動作例を示すフローチャートである。
[図 34]図 34は、実施形態 3における固有表現の表示例を示す図である。
園 35]図 35は、実施形態 3における固有表現の表示例を示す図である。
園 36]図 36は、実施形態 3における固有表現の表示例を示す図である。
園 37]図 37は、変形例における中国語の入力テキストの例を示す図である。
符号の説明
101 入力部
102 抽出順序記憶部
103 抽出順序読込部
104 固有表現パターン記憶部
104A 固有表現 Aパターン
104B 固有表現 Bパターン 104C 固有表現。パターン
105 固有表現抽出部
106 抽出終了判定部
201 判定部
202 抽出回数記憶部
203 抽出回数更新部
204 抽出順序変更部
301 利用パターンデータベース
302 抽出順序データベース
303 テキスト検索部
304 順序総数取得部
305 利用パターン取得部
306 情報データベース
308 類似テキスト取得部
309 表示部
401 利用パターンデータベース
402 抽出順序データベース
403 順序総数取得部
404 抽出終了判定部
405 固有表現決定部
501 固有表現記憶部
502 抽出終了判定部
503 表示条件取得部
504 固有表現取得部
505 重複削除部
506 表示部
発明を実施するための最良の形態
本発明の固有表現抽出装置は、テキストに含まれる固有表現部分の判断基準を示 す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表 現を抽出する固有表現抽出装置であって、固有表現の抽出に使用されるべき固有 表現パターンの、抽出条件に応じて異なる順序を示す抽出順序を定める抽出順序 設定手段と、前記定められた抽出順序に示される順序で固有表現パターンを用いて 、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手段とを備え る。
[0011] また、前記抽出条件は、抽出される固有表現を利用するユーザ、抽出される固有表 現を表示する端末装置、入力テキストの属性、入力テキストの数、及び過去に固有表 現が抽出された回数のうちの少なくとも一つを用いて表されるとしてもよい。
[0012] また、前記入力テキストは、電子番組ガイドを構成する番組情報を表すとしてもよい
[0013] この構成によれば、前記固有表現抽出装置は、固有表現の抽出に用いる固有表 現パターンの順序を抽出条件に応じて設定するので、例えば、抽出される固有表現 を利用するユーザ、抽出される固有表現を表示する端末装置、入力テキストの属性、 入力テキストの数、及び過去に固有表現が抽出された回数等によって表される抽出 条件に応じて、異なる固有表現パターンを用いて異なる抽出結果を得ることができる
[0014] この構成は、例えば、前記入力テキストが電子番組ガイドを構成する番組情報を表 す場合に好適である。具体例として、番組情報から番組タイトルを固有表現として抽 出する際に、その番組に慣れ親しんだユーザには本題のみからなる比較的短い固 有表現を抽出して提示し、そうでないユーザには本題と副題とからなる比較的長い固 有表現を抽出して提示すれば、ユーザに応じて最適な内容を反映した長さの番組タ イトルを提示することができる。
[0015] また、抽出される固有表現を表示する端末装置が、携帯情報端末装置である場合 には本題のみを抽出して表示し、家庭用テレビジョン放送受信装置である場合には 本題と副題とを抽出して表示すれば、携帯情報端末装置に長い番組タイトルが表示 されてしまレ、、その結果一覧性が損なわれてユーザにとってかえって見づらいといつ た不便を軽減できる。 [0016] また、前記固有表現抽出装置は、さらに、複数の固有表現パターンを記憶している 固有表現パターン記憶手段と、複数の抽出条件のそれぞれについて、前記固有表 現パターン記憶手段に記憶されている一つ以上の固有表現パターンの固有表現の 抽出に使用されるべき順序を記憶している抽出順序記憶手段とを備え、前記抽出順 序設定手段は、前記複数の抽出条件の一つが与えられると、与えられた抽出条件に ついて前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記 抽出順序として定めてもよい。
[0017] また、前記固有表現抽出装置は、さらに、複数の固有表現パターンを記憶している 固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶されている一 つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を記憶してレ、 る抽出順序記憶手段と、前記抽出順序記憶手段に記憶されている固有表現パター ンの順序を、抽出条件に応じて変更する抽出順序変更手段とを備え、前記抽出順序 設定手段は、変更後の固有表現パターンの順序を、前記抽出順序として定めてもよ レ、。
[0018] この構成によれば、抽出条件に応じて異なる固有表現パターンを用いて異なる抽 出結果が得られるという本発明の特徴を、具体的に、複数の抽出順序の中から抽出 条件に応じた一つを用いることによって実現する力、または抽出条件に応じて抽出順 序を変更することによって実現することができる。
[0019] また、前記固有表現抽出装置は、ユーザを識別するユーザ識別子を抽出条件とし 、さらに、前記ユーザ識別子を取得するユーザ識別手段を備え、前記抽出順序記憶 手段は、複数のユーザ識別子のそれぞれについて、前記固有表現パターン記憶手 段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、前記抽出 順序設定手段は、取得されたユーザ識別子について前記抽出順序記憶手段に記憶 されている固有表現パターンの順序を、前記抽出順序として定めてもよいし、また、 前記固有表現抽出装置は、抽出される固有表現を表示する端末装置の端末識別子 を抽出条件とし、さらに、前記端末識別子を取得する端末識別子取得手段を備え、 前記抽出順序記憶手段は、複数の端末識別子のそれぞれについて、前記固有表現 パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶し ており、前記抽出順序設定手段は、取得された端末識別子について前記抽出順序 記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めて あよい。
[0020] この構成によれば、前述したように、ユーザごと、及び端末装置ごとに、望ましい固 有表現を抽出することができる。
[0021] また、前記固有表現抽出装置は、入力テキストの属性を抽出条件とし、さらに、前 記入力テキストの属性を取得する属性取得手段を備え、前記抽出順序記憶手段は、 複数の属性のそれぞれについて、前記固有表現パターン記憶手段に記憶されてい る一つ以上の固有表現パターンの順序を記憶しており、前記抽出順序設定手段は、 取得された属性について前記抽出順序記憶手段に記憶されている固有表現パター ンの順序を、前記抽出順序として定めてもよい。
[0022] この構成によれば、前記入力テキストの属性に応じて、その入力テキストから固有 表現を適切に抽出できる固有表現パターンが異なる場合に、取得された属性に応じ て、その属性の入力テキストから適切に固有表現を抽出可能な特有の固有表現パタ ーンを用いることができるので、固有表現の抽出精度の向上に役立つ。
[0023] 例えば、前述したように、前記入力テキストが電子番組ガイドを構成する番組情報 を表す場合に、前記入力テキストの属性としてその番組情報に含まれる番組カテゴリ を取得し、取得された番組カテゴリに応じて、その番組カテゴリの番組情報から適切 に固有表現を抽出可能な特有の固有表現パターンを用いれば、良好な抽出結果を 得ること力 Sできる。
[0024] また、前記固有表現抽出装置は、入力テキストの数を抽出条件とし、さらに、複数の テキストが格納されている情報データベースと、入力テキストとなる一つ以上のテキス トを前記情報データベースから検索するテキスト検索手段とを備え、前記抽出順序記 憶手段は、入力テキストの数を示す複数の値のそれぞれについて、前記固有表現パ ターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶して おり、前記抽出順序設定手段は、検索されたテキストの数について前記抽出順序記 憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、前 記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現パタ ーンを用いて、前記検索されたテキストから固有表現を抽出してもよい。
[0025] この構成によれば、入力テキストの数に応じた長さの固有表現を抽出することが可 能となる。入力テキストが多いほど、抽出される固有表現の区別を容易とするために、 より長い固有表現を抽出することが望ましぐこの構成によってそのような要請に応え ること力 Sできる。
[0026] 例えば、前述したように、前記入力テキストが電子番組ガイドを構成する番組情報 を表し、そこから番組タイトルを固有表現として抽出する際に、入力テキストの数が予 め定められたしきい値よりも少なければ本題のみからなる固有表現を抽出し、そのし きい値以上であれば本題と副題とからなる固有表現を抽出すれば、入力テキストが 多数ある場合に、本題のみからなる多数の同一の固有表現が抽出されてしまレ、、ュ 一ザはそれらを区別することができないといった不便を軽減できる。
[0027] また、前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、 複数のテキストが格納されてレ、る情報データベースと、複数のテキストを前記情報デ ータベースから取得するテキスト取得手段と、テキストを表示する表示手段と、前記テ キスト取得手段で取得される複数のテキストから、前記表示手段に表示された際に類 似する複数のテキストを前記入力テキストとして取得する類似テキスト取得手段とを備 え、前記抽出順序記憶手段は、テキストの数を示す複数の値のそれぞれについて、 前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの 順序を記憶しており、前記抽出順序設定手段は、前記類似テキスト取得手段によつ て取得されたテキストの数について前記抽出順序記憶手段に記憶されている固有表 現パターンの順序を、前記抽出順序として定め、前記固有表現抽出手段は、前記定 められた抽出順序に示される順序で固有表現パターンを用いて、前記類似テキスト 取得手段によって取得されたテキストから固有表現を抽出してもよい。
[0028] この構成によれば、入力テキストの中でも特に類似する入力テキストの数に応じた 長さの固有表現を抽出することが可能となる。類似する入力テキストが多いほど、抽 出される固有表現の区別を容易とするために、より長い固有表現を抽出することが望 ましぐこの構成によってそのような要請に応えることができる。
[0029] また、前記固有表現抽出装置は、過去に固有表現が抽出された回数を抽出条件と し、さらに、前記抽出順序記憶手段に記憶されている固有表現パターンのそれぞれ について、その固有表現パターンを用いて過去に固有表現が抽出された回数を計 数する抽出回数計数手段を備え、前記抽出順序変更手段は、前記抽出順序記憶手 段に記憶されている固有表現パターンの順序を、前記計数された数に応じて変更し てもよい。
[0030] この構成によれば、抽出順序を変更することによって、固有表現の抽出に寄与して レ、ない固有表現パターンをその後の抽出に用いなレ、ようにできるので、固有表現の 抽出に要する計算量を減らしつつ、それまでと同様の固有表現の抽出を続けること ができる。
[0031] また、前記抽出順序は、複数の固有表現パターンを、順次使用された場合に使用 ごとにより長い固有表現の抽出が期待される順序で示し、前記固有表現抽出装置は 、さらに、予め定められたしきい値を上回る長さの固有表現が抽出された場合、それ 以降の固有表現パターンを用いて行われる抽出を打ち切る抽出打ち切り手段を備え てもよい。
[0032] この構成によれば、前記しきい値を、ユーザ、端末装置等に応じて必要限度の長さ に定めておくことによって、必要以上に長い固有表現の抽出が行われないので、固 有表現の抽出に要する計算量を減らしつつ、必要な固有表現を抽出することができ る。
[0033] また、本発明の固有表現抽出装置は、テキストに含まれる固有表現部分の判断基 準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから 固有表現を抽出する固有表現抽出装置であって、複数のテキストが格納されている 情報データベースと、複数のテキストを前記情報データベースから取得するテキスト 取得手段と、複数の固有表現パターンを記憶している固有表現パターン記憶手段と 、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターン の、固有表現の抽出に使用されるべき順序を複数記憶している抽出順序記憶手段と 、前記テキスト取得手段で取得される複数のテキストから、前記抽出順序記憶手段で 記憶されている各順序で固有表現パターンを用いて固有表現を抽出し、順序ごとに 抽出された固有表現を固有表現セットとする固有表現抽出手段と、前記固有表現抽 出手段で得られた固有表現セット毎に、その固有表現セットに含まれる類似する固有 表現の数である類似固有表現数を算出し、類似固有表現数が最も少ない固有表現 セットを出力する固有表現決定手段とを備える。
[0034] この構成によれば、前記複数の固有表現セットの中で類似固有表現数が最も少な い固有表現セットが出力されるので、ユーザは、区別しにくい類似な固有表現をでき るだけ含まない好ましい固有表現を得ることができる。
[0035] また、前記固有表現抽出装置は、さらに、テキストを表示する表示手段を備え、前 記固有表現決定手段は、固有表現セット毎に類似固有表現数を算出する際に、固 有表現から前記表示手段に表示可能な文字数分の部分固有表現を抽出し、抽出し た部分固有表現同士が類似する場合に、類似する部分固有表現の数を類似固有表 現数としてもよい。
[0036] この構成によれば、さらに、表示手段に表示可能な文字数を勘案して、類似な固有 表現をできるだけ含まない好ましい固有表現を得ることができる。これにより、例えば 、抽出された固有表現の表示に用いられる文字数が異なる表示フォーマットを使い 分ける場合などに、表示フォーマットに応じてユーザにとって最も区別しやすいと考 えられる好適な固有表現を提示できる。
[0037] また、本発明の固有表現抽出装置は、テキストに含まれる固有表現部分の判断基 準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから 固有表現を抽出する固有表現抽出装置であって、複数の固有表現パターンを記憶 している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶され ている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を記 憶している抽出順序記憶手段と、前記抽出順序記憶手段に記憶されている順序で 前記一つ以上の固有表現パターンを用いて、前記一つ以上の入力テキストから固有 表現を抽出する固有表現抽出手段と、前記入力テキスト、その入力テキストから抽出 された固有表現、及びその抽出が行われた前記順序における段を対応付けて記憶 する固有表現記憶手段と、既定の段を指定するか、又は共通の段において抽出され た一つ以上の固有表現をユーザ操作に応じて指定する表示条件指定手段と、前記 表示条件指示手段から既定の段が指定された場合、前記固有表現記憶手段から前 記指定された段に対応して記憶されている全ての固有表現を取得し、また、前記表 示条件指示手段から一つ以上の固有表現が指定された場合、前記固有表現記憶手 段から、前記指定された各固有表現に対応する入力テキストについて前記共通の段 の次の段に対応して記憶されている固有表現を取得する固有表現取得手段と、前記 固有表現取得手段で取得された固有表現から重複を削除する重複削除手段と、前 記重複削除手段によって重複を削除されて残った固有表現を表示する表示手段とを 備える。
[0038] この構成によれば、抽出された固有表現を、段毎に、例えば簡略な固有表現から 複雑な固有表現へと向力、う方向に表示できるので、ユーザが抽出された固有表現を 段階的に確認する上で便利である。
[0039] また、本発明は、このような固有表現抽出装置として実現できるだけでなぐこのよう な固有表現抽出装置が備える特徴的な手段によって実行される処理をステップとす る固有表現抽出方法として実現することも、また、それらのステップをコンピュータに 実行させるプログラムとして実現することもできる。そして、そのようなプログラムは、 C D— ROM等の記録媒体やインターネット等の伝送媒体を介して配信できることはレヽ うまでもない。
[0040] (実施の形態 1)
以下、本発明の実施形態 1による固有表現抽出装置について図面を参照しながら 説明する。図 1は本発明の実施形態 1による固有表現抽出装置の構成図である。こ の固有表現抽出装置は、抽出条件に応じて、抽出に用いられる一つ以上の固有表 現パターンの使用順序を設定し、設定された順序で固有表現パターンを用いて入力 テキストから固有表現を抽出する固有表現抽出装置であり、入力部 101、抽出順序 記憶部 102、抽出順序読込部 103、固有表現パターン記憶部 104、固有表現抽出 部 105、抽出終了判定部 106を含んで構成される。
[0041] ここで、抽出順序読込部 103が、抽出順序設定手段の一例である。
[0042] 入力部 101は、キーボードやマウス、リモコン等の入力装置で構成され、ユーザが 固有表現を含むテキストを入力すると、この入力されるテキストと処理する抽出順序の 初期値として値 1を出力する。また、入力部 101は、テレビ放送番組に関する情報や ハードディスクレコーダ等に蓄積されたコンテンツに関する情報、または、インターネ ット上に存在するコンテンツを記憶するデータベースからユーザに提示するテキスト を取得し、この取得するテキストと処理する抽出順序の初期値として値 1を出力するよ うにしてもよい。
[0043] 抽出順序記憶部 102は、固有表現パターン記憶部 104に記憶される固有表現バタ ーンを使用する順序である抽出順序と抽出順序に対応する固有表現パターン名とを 対応付けて記憶し、さらに抽出順序の総数である抽出順序総数も記憶する。図 2は、 抽出順序記憶部 102に記憶される抽出順序の一例を示すものであり、(抽出順序総 数、(抽出順序、使用する固有表現パターン名))として、(3、(1、固有表現 Aパター ン)、 (2、固有表現 Bパターン)、 (3、固有表現 Cパターン)、 · · -)が記憶される。
[0044] 抽出順序読込部 103は、テキストと抽出順序が入力されると、入力される抽出順序 に対応した固有表現パターン名と抽出順序総数とを抽出順序記憶部 102から読み 込み、入力されるテキストと抽出順序と抽出順序記憶部 102から読み込んだ抽出順 序総数と固有表現パターン名とを出力する。
[0045] 固有表現パターン記憶部 104は、固有表現 Aを抽出するために使用する固有表現 Aパターン 104A、固有表現 Bを抽出するために使用する固有表現 Bパターン 104B 、固有表現 Cを抽出するために使用する固有表現 Cパターン 104Cを記憶する。例え ば、番組名「松上電器創業記(1) —誕生一」の場合、小タイトルをメインタイトル「松 上電器創業記」に相当するテキスト、中タイトルを小タイトルに回数を追加したもの「松 上電器創業記(1)」に相当するテキスト、大タイトルを番組名全て「松上電器創業記( 1) —誕生一」に相当するテキストとする場合、固有表現 Aを小タイトル、固有表現 B を中タイトル、固有表現 Cを大タイトルとすると、固有表現 Aパターン 104Aは小タイト ルを抽出するためのルール、固有表現 Bパターン 104Bは中タイトルを抽出するため のルール、固有表現 Cパターン 104Cは大タイトルを抽出するためのルールとなる。こ こでレ、うルールとは、抽出する文字列そのものや抽出する文字列とその前後の文字 歹 IJを対応付けて記憶するものや抽出する文字列とその前後の文字列との連接確率 などである。
[0046] ルールを用いて行われる抽出の具体的な一例として、テキスト「[解説]続木貴史、 松下太郎」から固有表現の 1つである人名として「続木貴史」を抽出する場合につい て説明する。そのような抽出を行う方法としては、図 3に示すような人名を記憶する人 名テーブルを利用して、人名テーブルに含まれる人名と完全一致する文字列を人名 としてテキストから抽出する方法がある。さらには、抽出する文字列とその前後の文字 列を対応付けて記憶する一例としては、図 4に示すような人名が出現する前後の文 字列のパターンを記憶する人名正規表現テーブルを利用して、人名正規表現テー ブルに含まれるパターンと一致する文字列を人名としてテキストから抽出する方法が ある。さらには、抽出する文字列とその前後の文字列との連接確率の一例としては、 図 5に示すような人名が出現する前後の文字列と人名との連接確率を記憶する人名 確率テーブルを利用して、尤度を計算し (上記テキスト中の人名「続木貴史」の場合 は、前の文字列「]」の確率値「0.9」と後ろの文字
歹 I丌、」の確率値「0.2」を足し合わせて尤度は「1.1」となる)、尤度が特定の閾値以上 になった場合に人名としてテキストから抽出する方法がある。
[0047] 図 6に示すように、固有表現抽出部 105は、人名を含むテキスト「[解説]続木貴史、 松下太郎」から、図 3〜図 5に例示した人名抽出用のルール (人名パターン)を前述し た方法に従って用いて、固有表現の一例である人名「続木貴史」を抽出する。
[0048] また、上記具体例では、文字列を対象として説明したが、形態素や単語、固有表現 抽出結果である固有表現ラベルでもよぐさらには、文字列と形態素、単語、固有表 現ラベルなどを組み合わせてルールを構築してもよい。また、上記具体例では、前後 1文字のみを対象としてルールを構築した力 S、複数文字を対象にルールを構築して あよい。
[0049] なお、固有表現 Aパターン 104A、固有表現 Bパターン 104B、固有表現 Cパターン 104Cを以下、それぞれ固有表現パターンと総称する。
[0050] 固有表現抽出部 105は、抽出順序読込部 103からテキストと抽出順序と抽出順序 総数と固有表現パターン名が入力されると、入力される固有表現パターン名に対応 する固有表現パターンを固有表現パターン記憶部 104から読み込み、この読み込ん だ固有表現パターンを使用して入力されるテキストから固有表現を抽出する。そして 、抽出した固有表現を含むテキストと抽出順序読込部 103から入力される抽出順序 総数と抽出順序とを出力する。
[0051] 抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数と抽出順序とテキ ストが入力されると、抽出順序が抽出順序総数より小さい場合は、抽出順序の値に数 値 1を加算し、加算後の抽出順序と固有表現抽出部 105から入力されるテキストとを 抽出順序読込部 103に出力する。また、抽出順序が抽出順序総数以上の場合は、 固有表現抽出部 105から入力されるテキストを固有表現抽出結果である結果テキス トとして出力する。
[0052] このように構成された本実施形態による固有表現抽出装置の動作例について図 1 のブロック図、図 7のフローチャート、及び図 8の抽出結果の一具体例を示す図を用 いて説明する。ユーザが入力部 101から固有表現を含むテキストを入力する(ステツ プ S101)。入力部 101は、固有表現を含むテキストが入力されると、この入力される テキストと処理する抽出順序の初期値として値 1を抽出順序読込部 103に出力する( ステップ S102)。具体的な一例として、ユーザが入力部 101から番組名であるテキス ト「松上電器創業記(1) 一誕生一」を入力すると、入力部 101は、入力されるテキス ト「松上電器創業記(1) 一誕生一」と抽出順序の初期値として値 1を抽出順序読込 部 103に出力する。
[0053] 抽出順序読込部 103は、入力部 101からテキストと抽出順序が入力されると、入力 される抽出順序に対応した固有表現パターン名と抽出順序総数とを抽出順序記憶 部 102から読み込み (ステップ S103)、入力されるテキストと抽出順序と抽出順序記 憶部 102から読み込んだ抽出順序総数と固有表現パターン名とを出力する。上記の 例では、抽出順序読込部 103は、入力部 101からテキスト「松上電器創業記(1) 一誕生一」と抽出順序の値 1が入力されると、入力される抽出順序の値 1に対応し た固有表現パターン名「固有表現 Aパターン」と抽出順序総数の値 3とを抽出順序記 憶部 102から読み込み、入力されるテキスト「松上電器創業記(1) —誕生—」と抽出 順序の値 1と抽出順序総数の値 3と固有表現パターン名「固有表現 Aパターン」とを 固有表現抽出部 105に出力する。
[0054] 固有表現抽出部 105は、抽出順序読込部 103からテキストと抽出順序と抽出順序 総数と固有表現パターン名が入力されると、入力される固有表現パターン名に対応 する固有表現パターンを固有表現パターン記憶部 104から読み込み(ステップ S 104 )、この読み込んだ固有表現パターンを使用して入力されるテキストから固有表現を 抽出する(ステップ S105)。そして、抽出した固有表現を含むテキストと抽出順序読 込部 103から入力される抽出順序総数と抽出順序とを出力する。
[0055] 上記の例では、固有表現抽出部 105は、抽出順序読込部 103からテキスト「松上電 器創業記(1) —誕生—」と抽出順序の値 1と抽出順序総数の値 3と固有表現パター ン名「固有表現 Aパターン」が入力されると、入力される固有表現パターン名「固有表 現 Aパターン」に対応する固有表現パターン「固有表現 Aパターン」を固有表現パタ ーン記憶部 104から読み込み、この読み込んだ固有表現パターン「固有表現 Aバタ ーン」を使用して入力されるテキスト「松上電器創業記(1) —誕生—」から固有表現 を抽出する。
[0056] この場合、固有表現パターン「固有表現 Aパターン」は小タイトルを抽出するパター ンであるので、テキスト「松上電器創業記(1) 誕生 の一部であるテキスト「松上 電器創業記」が「小タイトル」の固有表現として抽出される。一例としてここでは、「く 小タイトル >松上電器創業記く/小タイトル > (1) 誕生 のように、抽出される 固有表現を「く固有表現の種類〉」と「く/固有表現の種類〉」で囲む。そして、固 有表現抽出部 105は、抽出した固有表現を含むテキスト「く小タイトル〉松上電器創 業記く/小タイトル〉(1) —誕生—」と抽出順序総数の値 3と抽出順序の値 1とを 抽出終了判定部 106に出力する(図 8の抽出結果(1回目))。
[0057] 抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数と抽出順序とテキ ストが入力されると、抽出順序が抽出順序総数より小さい場合は (ステップ S106)、抽 出順序の値に数値 1を加算し (ステップ S107)、加算後の抽出順序と固有表現抽出 部 105から入力されるテキストとを抽出順序読込部 103に出力する。また、抽出順序 が抽出順序総数以上の場合は (ステップ S106)、固有表現抽出部 105から入力され るテキストを固有表現抽出結果である結果テキストとして出力する。
[0058] 上記の例では、抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数 の値 3と抽出順序の値 1とテキスト「く小タイトル〉松上電器創業記く Z小タイトル〉 (1) 一誕生一」が入力されると、抽出順序の値 1が抽出順序総数の値 3よりも小さい ので、抽出順序の値 1に数値 1を加算して値を 2にし、抽出順序の値 2とテキスト「く 小タイトル >松上電器創業記く/小タイトル > (1) 誕生一」とを抽出順序読込部 103に出力する。
[0059] この後、抽出順序読込部 103、固有表現抽出部 105では、上記と同様の処理が行 われ、抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数の値 3と抽出 順序の値 2とテキスト「く中タイトル〉く小タイトル〉松上電器創業記く Z小タイトノレ > (1)く/中タイトル〉 —誕生-」が入力されるが、抽出順序の値 2が抽出順序総 数の値 3よりも小さいので、抽出順序の値 2に数値 1を加算して値を 3にし、抽出順序 の値 3とテキスト「く中タイトル〉く小タイトル〉松上電器創業記く Z小タイトル〉(1 ) < /中タイトノレ〉 —誕生—」とを抽出順序読込部 103に出力する(図 8の抽出結 果 (2回目))。
[0060] さらにこの後、抽出順序読込部 103、固有表現抽出部 105では、上記と同様の処 理が行われ、抽出終了判定部 106は、固有表現抽出部 105から抽出順序総数の値 3と抽出順序の値 3とテキスト「く大タイトノレ > <中タイトル〉く小タイトノレ >松上電器 創業記く/小タイトル〉(1)く/中タイトル〉 —誕生—く/大タイトル〉」が入力さ れ、抽出順序の値 3が抽出順序総数の値 3以上であるので、テキスト「<大タイトル > <中タイトル〉く小タイトル〉松上電器創業記く/小タイトル〉(1)く/中タイトノレ > —誕生-く/大タイトル〉」を固有表現抽出結果である結果テキストとして出力 する(図 8の抽出結果(3回目))。
[0061] なお、上記の実施例では、抽出順序記憶部 102は、抽出順序総数と抽出順序と抽 出順序に対応付けて固有表現パターン名とをセットにして記憶するようにしたが、こ の抽出順序総数と抽出順序と固有表現パターン名のセットをユーザを識別するユー ザ識別子と対応付けて記憶するようにし、抽出順序読込部 103は、入力部 101から テキストと抽出順序が入力され、さらにユーザ識別子が入力されると、入力されるユー ザ識別子に対応する抽出順序総数と抽出順序と固有表現パターン名のセットを対象 に入力される抽出順序に対応する固有表現パターン名と抽出順序総数とを抽出順 序記憶部 102から読み込み、入力されるテキストと抽出順序とユーザ識別子と抽出 順序記憶部 102から読み込んだ抽出順序総数と固有表現パターン名とを出力するよ うにしてもよい。
[0062] ここでは、入力部 101がユーザ識別手段の一例である。
[0063] この場合、固有表現抽出部 105と抽出終了判定部 106は、上記実施例での動作 以外にさらに抽出順序読込部 103から出力されるユーザ識別子をそのまま出力する ようにする。具体的な一例として、抽出順序記憶部 102は、(ユーザ識別子、抽出順 序総数、(抽出順序、固有表現パターン名))のセットとして、 (01、 3、(1、固有表現 Aパターン)、 (2、固有表現 Bパターン)、 (3、固有表現 Cパターン)、 ·■·)、 (02、 2、 ( 1、固有表現 Iパターン)、 (2、固有表 ¾!パターン)、 (3、固有表現 Kパターン)、■· -)、 · · -、が記憶されるとする。この場合の抽出順序記憶部 102の内容は図 9のようになる 。さらに、抽出順序読込部 103は、入力部 101からユーザ識別子「01」とテキスト「松 上電器創業記(1) 一誕生一」と抽出順序の値 1が入力されると、入力されるユーザ 識別子「01」に対応する(ユーザ識別子、抽出順序総数、(抽出順序、固有表現パタ ーン名))のセットである(01、 3、(1、固有表現 Aパターン)、 (2、固有表現 Bパターン )、(3、固有表現 Cパターン)、 · · ·)を対象に、入力される抽出順序の値 1に対応した 固有表現パターン名「固有表現 Aパターン」と抽出順序総数の値 3とを抽出順序記憶 部 102から読み込み、入力されるテキスト「松上電器創業記(1) 誕生一」と抽出順 序の値 1とユーザ識別子「01」と抽出順序総数の値 3と固有表現パターン名「固有表 現 Aパターン」とを固有表現抽出部 105に出力する。以降の固有表現抽出部 105と 抽出終了判定部 106においては、上記実施例の動作以外にユーザ識別子「01」をさ らに出力する。こうすることで、ユーザ毎に固有表現の抽出する順序や抽出する固有 表現を変更することができ、ユーザに適応した固有表現を抽出することができる。
[0064] 次に、抽出順序記憶部 102の変形例について、図 10を参照して説明する。
[0065] 抽出順序記憶部 102は、抽出順序総数と抽出順序と抽出順序に対応付けて固有 表現パターン名とをセットにし、このセットを複数保持し、セット毎に抽出する固有表 現の種類に対応するセット IDを付与して管理するようにし、抽出順序読込部 103は、 入力部 101からセット IDとテキストと抽出順序が入力されると、入力されるセット IDに 対応する抽出順序総数と抽出順序と固有表現パターン名のセットを対象に入力され る抽出順序に対応する固有表現パターン名と抽出順序総数とを抽出順序記憶部 10 2から読み込み、入力されるテキストと抽出順序とセット IDと抽出順序記憶部 102から 読み込んだ抽出順序総数と固有表現パターン名とを出力するようにしてもよい。
[0066] この場合、セット IDが抽出条件を示す情報として機能し、抽出順序読込部 103は、 前述した読み込み動作によって、セット IDに対応して抽出順序記憶部 102に順序付 けて記憶されている固有表現パターンを、抽出に用いられる一つ以上の固有表現パ ターンとその使用順序として設定することになる。そして、固有表現抽出部 105と抽 出終了判定部 106は、上記実施例での動作以外にさらに抽出順序読込部 103から 出力されるセット IDをそのまま出力するようにする。
[0067] 具体的な一例として、抽出順序記憶部 102は、(セット ID、抽出順序総数、(抽出順 序、固有表現パターン名))のセットとして、 (01、 3、(1、固有表現 Aパターン)、 (2、 固有表現 Bパターン)、 (3、固有表現 Cパターン)、 ·■ 、 (02、 2、 (1、固有表現 Iパタ 一ン)、 (2、固有表 ¾!パターン))、■·■、が記憶されるとする。この場合の抽出順序記 憶部 102の内容は図 10のようになる。さらに、抽出順序読込部 103は、入力部 101 力 入力されるセット ID「01」に対応する(セット ID、抽出順序総数、(抽出順序、固 有表現パターン名))のセットである(01、 3、
(1、固有表現 Aパターン)、 (2、固有表現 Bパターン)、 (3、固有表現 Cパターン)、 · · ·)を対象に、入力される抽出順序の値 1に対応した固有表現パターン名「固有表現 Aパターン」と抽出順序総数の値 3とを抽出順序記憶部 102から読み込み、入力され るテキスト「松上電器創業記(1) —誕生—」と抽出順序の値 1とセット ID「01」と抽出 順序総数の値 3と固有表現パターン名「固有表現 Aパターン」とを固有表現抽出部 1 05に出力する。以降の固有表現抽出部 105と抽出終了判定部 106においては、上 記の実施例の動作以外にセット ID「01」をさらに出力する。
[0068] こうすることで、ユーザは、上記の実施例ではセット ID「01」を指定すると入力テキス トから番組名に関連するテキストを抽出でき、さらに一例として、固有表現 Iパターンは 人名の姓を抽出するためのルール、固有表 ¾ [パターンは人名の名を抽出するため のルール、固有表現 Kパターンは人名の姓名を抽出するためのルールとすると、ュ 一ザは、セット ID「02」を指定すると入力テキストから人名に関係するテキストを抽出 すること力 Sできる。つまり、ユーザは、抽出したい固有表現を指定することができる。 [0069] また、上記セット IDは抽出する固有表現の種類に対応した力 セット IDは、抽出す る固有表現を表示する端末を識別する端末識別子とし、さらに、入力部 101が固有 表現を表示する端末の端末識別子を取得できるようにすることで、端末に応じた固有 表現を抽出することができる。この場合には、入力部 101が端末識別子取得手段の 一例である。
[0070] こうすることで、例えば、テレビでは番組名の固有表現は有用だ力 CDプレーヤで は番組名の固有表現が不用な場合など、表示端末によって有用な固有表現が異な る場合においても、表示端末毎に抽出する固有表現を設定することができるので、表 示端末にとって冗長な情報を表示しなくてもよくなる。
[0071] 次に、入力テキスト数を抽出条件として用いる例について、図 11から図 14を参照し て説明する。
[0072] この場合の固有表現抽出装置は、図 11に示すように、入力部 101からユーザが入 力するテキストを検索キーワードとして、テレビ放送番組に関する情報やハードデイス クレコーダ等に蓄積されたコンテンツに関する情報、または、インターネット上に存在 するコンテンツに関するテキスト情報を記憶する情報データベース 306を検索し、検 索されたテキストに対して固有表現抽出を行う装置として構成され、抽出順序記憶部 102は、抽出順序と抽出順序に対応する固有表現パターン名とを記憶する利用パタ ーンデータベース 301と、入力部 101からユーザが入力したテキストの一部を含むテ キストが情報データベースに存在する場合のテキスト数と抽出順序総数とを対応付け て記憶する抽出順序データベース 302とを含むようにし、また、抽出順序読込部 103 はさらに、テキスト検索部 303と順序総数取得部 304と利用パターン取得部 305とを 備え、テキスト検索部 303は、入力部 101からテキストと抽出順序の初期値が入力さ れると、入力テキストの一部を含むテキストを情報データベース 306から取得して、検 索結果テキストと抽出順序を順序総数取得部 304に出力し、順序総数取得部 304は 、テキスト検索部 303から検索結果テキストと抽出順序が入力されると、入力される検 索結果テキストのテキスト数に対応する抽出順序総数を抽出順序記憶部 102の抽出 順序データベース 302から取得して、取得する抽出順序総数と検索結果テキストと抽 出順序を利用パターン取得部 305に出力し、利用パターン取得部 305は、順序総数 取得部 304から検索結果テキストと抽出順序総数と抽出順序が入力されると、入力さ れる抽出順序に対応する固有表現パターン名を抽出順序記憶部 102の利用パター ンデータベース 301から取得して、取得する固有表現パターン名と検索結果テキスト と抽出順序総数と抽出順序とを固有表現抽出部 105に出力するようにしてもよい。
[0073] この場合の抽出順序記憶部 102と抽出順序読込部 103のブロック図を図 11にフロ 一チャートを図 12に示し、動作例について説明する。また、図 13は、利用パターン データベース 301の内容の一例を示すものであり、(抽出順序、固有表現パターン名 )として、((1、固有表現 Aパターン)、 (2、固有表現 Bパターン)、 (3、固有表現 Cパ ターン)、 ·■·)が記憶される。図 14は、抽出順序データベース 302の内容の一例を示 すものであり、(テキスト数、抽出順序総数)として((1以下、 1)、(2以上 5以下、 2)、 ( 6以上、 3) )が記憶される。
[0074] 上記の実施例では、テキスト検索部 303は、入力部 101からテキスト「松上電器創 業記」と抽出順序の初期値 1が入力されると (ステップ S201)、情報データベースから 入力テキストを含むテキスト「松上電器創業記(1) 誕生一」と「松上電器創業記(2 ) —発展—」とを取得するとし (ステップ S202)、この検索結果テキスト「松上電器創 業記(1) 誕生一」、「松上電器創業記 (2) —発展一」と抽出順序の値 1を順序総 数取得部 304に出力する。順序総数取得部 304は、テキスト検索部 303から検索結 果テキスト「松上電器創業記(1) 誕生一」と「松上電器創業記(2) —発展一」と 抽出順序の値 1が入力されると、抽出順序記憶部 102の抽出順序データベース 302 力 入力される検索結果テキストのテキスト数 2に対応する抽出順序総数 2を取得し( ステップ S203)、この抽出順序総数 2と検索結果テキストと抽出順序の値 1を利用パ ターン取得部 305に出力する。利用パターン取得部 305は、順序総数取得部 304か ら検索結果テキストと抽出順序総数と抽出順序が入力されると、抽出順序記憶部 10 2の利用パターンデータベース 301から入力される抽出順序の値 1に対応する固有 表現パターン名「固有表現 Aパターン」を取得し (ステップ S204)、この固有表現バタ ーン名「固有表現 Aパターン」と検索結果テキストと抽出順序総数 2と抽出順序の値 1 とを固有表現抽出部 105に出力する。
[0075] 上記処理を抽出順序の値が抽出順序総数未満の間、繰り返した結果、結果テキス トとしては、「く中タイトル〉く小タイトル〉松上電器創業記く/小タイトル〉(1) <
/中タイトル〉 —誕生一」と「く中タイトル〉く小タイトル〉松上電器創業記く/小 タイトノレ > (2) < /中タイトノレ > 発展一」になる。
[0076] また、上記実施例では、入力部 101から検索されるテキスト「松上電器創業記」を入 力したが、情報データベース 306に含まれる情報が電子番組表情報や音楽情報な どのようにコンテンツ (番組や音楽)に対するタイトル、ジャンル、時間長、出演者など で構成される場合、入力部 101からジヤンノレなどを入力し、テキスト検索部 303は入 力されるジャンルに対応するタイトルを情報データベース 306から検索される検索結 果テキストとしてもよい。
[0077] 次に、利用パターンデータベースが複数存在する場合について、図 15から図 18を 参照して説明する。この場合は、利用パターンデータベースと抽出順序データべ一 スとを対応づけるため、抽出する固有表現の種類に対応する共通の IDで管理すれ ばよレ、。図 15、図 16には、共通の IDであるセット IDで対応付けられる利用パターン データベースと抽出順序データベースとをそれぞれ示す。この場合、入力テキスト数 と共にセット IDが抽出条件として用いられ、入力部 101からさらにセット IDも入力され るとし、抽出順序読込部 103は入力部 101から入力されるセット IDに対応する利用 パターンデータベースと抽出順序データベースを参照して抽出順序総数と固有表現 パターン名を取得するようにする。前述したように、このような取得動作によって、抽出 順序読込部 103は、セット IDに対応して抽出順序記憶部 102に順序付けて記憶され ている固有表現パターンを、抽出に用いられる一つ以上の固有表現パターンとその 使用順序として設定することになる。
[0078] また、上記実施例では、セット IDが入力部 101から入力されるとした力 抽出順序 データベース 302にセット IDもテキスト数と対応付けられて記憶されるものとし、抽出 順序読込部 103は、検索結果テキスト数に対応する抽出順序総数とセット IDを抽出 順序データベース 302から取得し、さらに、セット IDに対応する利用パターンデータ ベースを参照して固有表現パターン名を取得するようにしてもよい。
[0079] このような取得動作によって、抽出順序読込部 103は、検索結果テキスト数に対応 して抽出順序記憶部 102に順序付けて記憶されている固有表現パターンを、抽出に 用いられる一つ以上の固有表現パターンとその使用順序として設定することになる。 この場合の抽出順序データベース 302の一例を図 25に示す。
[0080] さらに、抽出順序読込部 103では、テキスト検索部 303で検索される検索結果テキ スト数に基づき抽出に用レ、られる固有表現パターンと使用順序を設定したが、本実 施例がさらに表示部を含む場合、テキスト検索部 303は、検索される検索結果テキス トから表示部で表示できる文字数分のテキストを抽出し、抽出される複数のテキストが 類似する検索結果テキストを類似テキスト群として順序総数取得部 304に出力するこ とで、表示した際に類似するテキストの数に基づき抽出に用いられる固有表現パター ンゃ使用順序を設定するようにしてもょレ、。
[0081] 図 26は、そのような変形に係る固有表現抽出装置の構成図である。この固有表現 抽出装置は、図 11に示される固有表現抽出装置と比べて、類似テキスト取得部 308 と、表示部 309とが追加される。
[0082] ここで、具体的な一例として、テキスト検索部 303には、入力部 101からジャンル「ド キュメンタリー」が入力され、情報データベース 306からテキスト「ドキュメンタリ 松上電器の歴史一」、「人間ドキュメント 松下の足跡(1)」、「人間ドキュメント 松下 の足跡(2)」を検索するとし、さらに表示部 309で一つの固有表現あたり表示できる 文字数を 8文字とする場合を考える。
[0083] その場合、類似テキスト取得部 308は、検索されるテキストから先頭 8文字のテキス ト「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」を抽出して類似判定を行 レ、、同じテキストであると判定される「人間ドキュメント」に対応するテキスト「人間ドキュ メント 松下の足跡(1)」、「人間ドキュメント 松下の足跡(2)」を類似テキスト群として 順序総数取得部 304に出力し、類似しないと判定されるテキスト「ドキュメンタリー」に 対応するテキスト「ドキュメンタリ 松上電器の歴史—」は結果テキストとして表示 部 309へ出力する。
[0084] その後、順序総数取得部 304は、図 25の抽出順序データベース 302を参照して抽 出順序総数 2とセット IDの値 02を取得し、利用パターン取得部 305は、図 15の利用 パターンデータベース 301を参照することで、抽出順序が 1の場合は固有表現 Iバタ ーン、抽出順序が 2の場合は固有表 ¾ [パターンを取得する。ここで、例えば、固有 表現 Iパターンを用いると、番組名のテキストから副題に当たる部分が小タイトルとして 抽出され、固有表 パターンを用いると、番組名のテキストから副題と副題に連続し ている回数をまとめた部分が中タイトルとして抽出されるものとする。その結果、最終 的にテキスト「人間ドキュメント 松下太郎の足跡(1)」、「人間ドキュメント 松下太郎 の足跡(2)」から結果テキストとして「松下の足跡(1 )」、「松下の足跡(2)」がそれぞ れ抽出される。
[0085] また、類似テキスト取得部 308は類似テキストを判定する際に、同一テキストを類似 テキストとするように説明したが、表示文字数の特定の割合の文字数以上同じ文字 列であれば、類似テキストと判定するようにしてもよい。例えば、表示文字数が 10文 字で特定の割合が 8割であるとすると、 8文字以上の文字列が同じであれば類似テキ ストであると判定することになる。
[0086] こうすることで、類似テキスト取得部 308で類似テキスト群以外であると判断された 検索結果テキストはそのまま表示部 309に表示され、類似テキスト群に関しては、ュ 一ザにとってテキストを識別するために必要となる最少の固有表現を表示部 309に 表示できるので、表示部に検索結果テキストを表示する際、表示部に表示できる文 字数も考慮してユーザにとってテキストを識別するために必要となる最少の固有表現 を抽出することができる。
[0087] よって、検索結果のテキストに同一の文字列が含まれる場合、ユーザにとってテキ ストを識別するために必要となる最少の固有表現を抽出することができるので、ユー ザにとって冗長な文字列を抽出しないことが可能になる。
[0088] また、本発明は固有表現パターンを学習する際に用いたテキストと異なる書式のテ キストに対して処理を行うと、固有表現の抽出性能が低下するため、上記セット IDの 代わりに書式名やテキストの種類を表すテキスト属性、一例としてテキストが IT関連の テキストである場合の属性は「IT文書」、テキストがテレビ番組情報のテキストである 場合の属性は「テレビ番組情報」や「ドラマに関するテキスト」、「番組名」などで管理 するようにしても良ぐこの場合、抽出順序読込部 103はユーザが入力するテキスト属 性だけでなぐテキストにテキスト属性が付与されている場合は、入力部 101がそのテ キストに付与されているテキスト属性を取得する属性取得部として機能し、入力部 10 1によって取得されたテキスト属性に対応する固有表現パターン名と抽出順序総数と を抽出順序記憶部 102から読み込むようにしてもよい。この場合の入力部 101が属 性取得手段の一例であり、抽出順序記憶部 102の内容は図 17のようになる。
[0089] このテキスト属性は、「IT文書」、「テレビ番組情報」といった分類を示すだけでなぐ 「ドラマ」「報道番組」「バライティ一」といったテレビ番組のカテゴリを示すものであって もよレ、。テレビ番組のカテゴリは、電子番組ガイドを構成する番組情報に含まれてい るので、入力部 101は、電子番組ガイドを構成する番組情報からそのカテゴリを取得 すること力 Sできる。
[0090] また、テキストにテキスト属性が付与されていない場合でも、テキストに含まれる単語 を用いて生成した単語ベクトルとテキスト属性を表現する単語ベクトルとの距離を算 出することによりテキスト属性を推定し、そのテキスト属性に対応する固有表現パター ン名と抽出順序総数とを抽出順序記憶部 102から読み込むようにしてもよい。こうす ることで、固有表現抽出の抽出性能を向上させることができ、さらに固有表現抽出の 対象テキストにテキスト属性が付与される場合は、ユーザがテキスト属性を指定する 必要がなくなる。
[0091] また、上記セット IDの変わりに固有表現抽出されたテキストである結果テキストを表 示する端末名や端末を識別することができる端末識別子を利用するようにしても良い 。この場合の抽出順序記憶部 102の内容は図 18のようになる。こうすることで、結果 テキストを表示する端末毎に抽出する固有表現を設定できる。
[0092] 次に、過去に固有表現が抽出された回数を抽出条件として用いる例について、図 1 9から図 24を参照して説明する。
[0093] この場合の固有表現抽出装置は、図 19に示すように、抽出終了判定部 106に含ま れる抽出順序変更部 204が抽出条件に応じて抽出順序を変更するように構成され、 抽出順序読込部 103は抽出終了判定部 106から入力される抽出順序に対応する固 有表現パターン名が読み込めない場合は、さらに抽出終了フラグとして値 1を出力し 、固有表現パターン名が読み込める場合は、抽出終了フラグとして値 0を出力し、固 有表現抽出部 105は、入力される抽出終了フラグが値 1の場合で、固有表現パター ン記憶部 104から読み込む固有表現パターンに対応した固有表現が抽出される場 合は、さらに抽出フラグとして値 1と抽出終了フラグの値 1を出力し、固有表現が抽出 されない場合は、抽出フラグとして値 0と抽出終了フラグの値 1を出力するようにし、入 力される抽出終了フラグが値 0の場合は、何も処理をせずに抽出フラグとして値 0と抽 出終了フラグの値 0を出力するようにし、さらに、抽出終了判定部 106は、判定部 20 1と抽出回数記憶部 202と抽出回数更新部 203と抽出順序変更部 204とを備え、判 定部 201は固有表現抽出部 105から抽出終了フラグと抽出順序総数と抽出順序とテ キストが入力されると、抽出終了フラグが値 0の場合は、抽出順序の値に数値 1をカロ 算し、加算後の抽出順序と固有表現抽出部 105から入力されるテキストとを抽出順序 読込部 103に出力し、さらにこの際に、抽出順序が抽出順序総数と等しい場合は、 固有表現抽出部 105から入力されるテキストを固有表現抽出結果である結果テキス トとして出力し、抽出終了フラグが値 1の場合は、抽出終了フラグの値 1を抽出順序 変更部 204に出力する。また、抽出回数記憶部 202は固有表現が抽出される順序で ある抽出順序とこの抽出順序で固有表現が抽出される回数である抽出回数とを記憶 するものであり、抽出回数更新部 203は、固有表現抽出部 105から抽出フラグと抽出 順序総数と抽出順序が入力されると、入力される抽出フラグが値 1の場合、入力され る抽出順序に対応する抽出回数記憶部 202に記憶される抽出回数を更新するもの であり、抽出順序変更部 204は、判定部 201から抽出終了フラグの値 1が入力される 場合、抽出回数記憶部 202の抽出回数の合計数が一定の値以上である場合、抽出 回数記憶部 202に記憶される抽出順序に対応する抽出回数に基づいて抽出順序記 憶部 102の抽出順序を変更するようにしてもよい。
[0094] ここで、抽出回数更新部 203及び抽出回数記憶部 202が、個々の固有表現パター ンを用いて過去に固有表現が抽出された回数を計数する抽出回数計数手段の一例 である。
[0095] ここで、図 19に示す抽出終了判定部 106の構成図、及び図 20に示すフローチヤ ートを参照して、動作例について説明する。上記の実施例では、判定部 201は、固 有表現抽出部 105から抽出順序総数の値 3と抽出順序の値 1とテキスト「く小タイトル >松上電器創業記く/小タイトル > (1) —誕生—」と抽出終了フラグの値 0が入力 されると(ステップ S301)、抽出終了フラグが値 0なので (ステップ S309)、抽出順序 の値 1に数値 1を加算して値を 2にし (ステップ S303)、抽出順序の値 2とテキスト「く 小タイトル >松上電器創業記く/小タイトル > (1) 誕生 とを抽出順序読込部 103に出力する(ステップ S304)
[0096] さらに、判定部 201は、固有表現抽出部 105から抽出順序総数の値 3と抽出順序 の値 3とテキスト「く大タイトル〉く中タイトル〉く小タイトル〉松上電器創業記く/ 小タイトル〉(1)く Z中タイトル〉 一誕生一く/大タイトル〉」と抽出終了フラグの 値 0が入力されると、抽出順序の値 3が抽出順序総数の値 3と等しいので (ステップ S 302)、入力テキスト「く大タイトル〉く中タイトル〉く小タイトル〉松上電器創業記 く/小タイトノレ > (1) <Z中タイトノレ > —誕生一く/大タイトル >」を固有表現抽 出結果である結果テキストとして出力し (ステップ S310)、抽出終了フラグが値 0なの で (ステップ S309)、抽出順序の値 3に数値 1をカ卩算して値を 4にし (ステップ S303) 、抽出順序の値 4とテキスト「く大タイトノレ > <中タイトノレ〉く小タイトノレ >松上電器 創業記く/小タイトル〉(1)く/中タイトル〉 —誕生—く/大タイトル〉」とを抽出 順序読込部 103に出力する (ステップ S304)
[0097] また、抽出順序読込部 103が抽出終了判定部 106から入力される抽出順序の値 5 の時に、抽出順序の値 5に対応する固有表現パターン名が読み込めないとすると、 抽出順序読込部 103は、抽出終了フラグの値 1と抽出順序総数の値 3と抽出順序の 値 5とテキスト「く大タイトル〉く中タイトル〉く小タイトル〉松上電器創業記く/小 タイトル〉(1)く/中タイトノレ〉 一誕生一く/大タイトル〉」を固有表現抽出部 105 に出力する。この後、判定部 201は、固有表現抽出部 105から抽出順序総数の値 3 と抽出順序の値 5とテキスト「く大タイトノレ > <中タイトル > <小タイトノレ >松上電器 創業記く/小タイトル〉(1)く Z中タイトル〉 —誕生—く/大タイトル〉」と抽出終 了フラグの値 1が入力されると (ステップ S301)、抽出終了フラグが値 1なので (ステツ プ S309)、抽出終了フラグの値 1を抽出順序変更部 204に出力する(ステップ S311 )。また、抽出回数記憶部 202は固有表現が抽出される順序である抽出順序とこの抽 出順序で固有表現が抽出される回数である抽出回数とを記憶する。
[0098] 図 21は、抽出回数記憶部 202に記憶される抽出順序と抽出順序に対応する抽出 回数の一例を示すものであり、(抽出順序、抽出回数)として((1 9)、(2 6)、 (3 3 )、(4、 1) )が記憶される。つまり、小タイトルを 9回、中タイトルを 6回、大タイトルを 3 回、全タイトルを 1回抽出したことを意味するとする。上記の実施例では、抽出回数更 新部 203は、固有表現抽出部 105からテキストと抽出フラグの値 1と抽出順序総数の 値 3と抽出順序の値 1と抽出終了フラグの値 0が入力されると (ステップ S301)、入力 される抽出フラグが値 1なので (ステップ S305)、抽出順序の値 1に対応する抽出回 数記憶部 202に記憶される抽出回数の値 9に 1を加算し、値を 10にする(ステップ S3 06)。この後の処理で同様に、中タイトル、大タイトルに対しても固有表現が抽出され るので、抽出順序の値 2、 3に対応する抽出回数記憶部 202に記憶されるそれぞれ の抽出回数の値 6と値 3を値 7と値 4に更新する。
[0099] 図 22は、抽出回数更新部 203により更新された後の抽出回数記憶部 202の内容 を示すものである。抽出順序変更部 204は、判定部 201から抽出終了フラグの値 1が 入力されると、抽出回数記憶部 202の抽出回数の合計数が特定の値(一例として、 値 20)以上になるので (ステップ S307)、抽出回数記憶部 202に記憶される抽出順 序に対応する抽出回数が、特定の値 (一例として値 5)以上に対応している抽出順序 の値 2を抽出順序記憶部 102の抽出順序総数とする(ステップ S308)。
[0100] 図 23は、抽出順序変更部 204により変更された後の抽出順序記憶部 102の内容 を示すものである。こうすることで、ユーザの入力テキストから固有表現を抽出した履 歴を用いて抽出順序総数を変更し、変更された抽出順序総数を用いて情報データ ベースから検索される検索結果テキストに対して固有表現を抽出することができ、こ の結果、検索結果テキストから抽出される固有表現をユーザの入力頻度の高い固有 表現と同じ形式に合わせることができるので、ユーザにとって冗長な固有表現を抽出 しない、または、ユーザにとってテキストの識別に必要な固有表現のみを抽出するこ とが自動で可能になる。また、上記実施例のように抽出順序記憶部 102において、抽 出順序総数と抽出順序と抽出順序に対応付けて固有表現パターン名とをセットにし 、このセットを複数保持し、セット毎にユーザ識別子やセット IDなどを付与して管理す る場合は、抽出回数記憶部 202もユーザ識別子やセット ID毎に抽出順序と抽出回 数をセットで管理することにより、対応可能である。
[0101] 図 24は、ユーザ識別子毎に抽出順序と抽出回数をセットで管理する場合の抽出順 序記憶部 102の内容を示すものである。
[0102] また、抽出終了判定部 106は、固有表現抽出処理の続行を抽出順序総数と抽出 順序により判定したが、抽出される固有表現の文字数で判定するようにしてもよい。 具体的な一例として、固有表現抽出部 105は、上記実施例での動作以外にさらに抽 出する固有表現の文字数も抽出終了判定部 106に出力するようにし、抽出終了判定 部 106は、固有表現抽出部 105から抽出順序と抽出される固有表現の文字数とテキ ストが入力されると、固有表現の文字数が特定の文字数よりも小さい場合は、抽出順 序の値に数値 1を加算し、加算後の抽出順序と固有表現抽出部 105から入力される テキストとを抽出順序読込部 103に出力するようにし、また、固有表現の文字数が特 定の文字数以上の場合は、固有表現抽出部 105から入力されるテキストを固有表現 抽出結果である結果テキストとして出力する。
[0103] ここで、抽出終了判定部 106が、予め定められたしきい値を上回る長さの固有表現 が抽出された場合、それ以降の固有表現パターンを用いて行われる抽出を打ち切る 抽出打ち切り手段の一例である。
[0104] 上記の実施例では、抽出終了判定部 106は、固有表現抽出部 105から抽出順序 の値 1と固有表現が抽出されたテキスト「く小タイトル〉松上電器創業記く/小タイト ル> (1) 誕生一」と抽出される固有表現「松上電器創業記」の文字数 7が入力さ れると、固有表現の文字数 7が特定の文字数 (ここでは、一例として文字数を 8にする )よりも小さいので、抽出順序の値を 2にし、抽出順序の値 2とテキスト「く小タイトル〉 松上電器創業記く/小タイトル〉(1) —誕生—」とを抽出順序読込部 103に出力 する。この後さらに、抽出終了判定部 106は、固有表現抽出部 105から抽出順序の 値 2と固有表現が抽出されたテキスト「く中タイトル〉く小タイトル〉松上電器創業記 く/小タイトノレ > (1) <Z中タイトノレ > —誕生一」と抽出される固有表現「松上電器 創業記(1)」の文字数 9が入力されると、固有表現の文字数 9が特定の文字数 8以上 なので、テキスト「く中タイトル〉く小タイトル〉松上電器創業記く Z小タイトル〉(1 )く/中タイトノレ〉 一誕生一」を結果テキストとして出力する。こうすることで、表示部 に表示可能な文字数の上限が決まっている場合などでは、表示可能な文字数を抽 出終了判定部 106の閾値文字数とすることにより、表示できない固有表現を抽出しな くてもよくなり、固有表現抽出の処理量を減少させることができる。
[0105] また、上記実施例の固有表現抽出装置は、抽出順序記憶部 102に記憶される抽 出順序総数や抽出順序、固有表現パターン名をユーザが変更することができる変更 部をさらに含むようにしてもよい。こうすることで、ユーザは抽出される固有表現を変 更すること力 Sできる。
[0106] 以上のように、本実施形態によれば、固有表現を抽出する順序を設定することによ り、ユーザやアプリケーション、端末にとって必要な固有表現のみを抽出することがで きる。また、固有表現抽出装置から抽出される固有表現を音声認識の対象語彙とす る音声認識装置においては、音声認識の対象とする固有表現を減少させることがで きるので、音声認識の認識性能を向上させることができる。また、固有表現抽出装置 から抽出される固有表現を検索対象のキーワードとして検索対象データと共に検索 対象データベースに格納する検索装置にぉレ、ては、検索対象のキーワードを減少さ せることができるので、検索の精度を向上させることができる。
[0107] (実施の形態 2)
次に、本発明に係る実施の形態 2の固有表現抽出装置について、図面を参照しな 力 Sら説明する。
[0108] 図 27は、本発明の実施の形態 2の固有表現抽出装置の構成を示す構成図である 。ここで、実施の形態 1と同一符号の構成要素は同じ動作を行うものとし、それらの詳 細な説明は省略する。本実施の形態の固有表現抽出装置は、検索結果のテキストに 同一の文字列が含まれる場合、ユーザにとってテキストを識別するために必要な最 少の固有表現を抽出するための装置であり、図 27に示すように入力部 101、抽出順 序記憶部 102、固有表現パターン記憶部 104、固有表現抽出部 105、テキスト検索 部 303、利用パターン取得部 305、情報データベース 306、利用パターンデータべ ース 401、抽出順序データベース 402、順序総数取得部 403、抽出終了判定部 404 、固有表現決定部 405を含んで構成される。
[0109] 利用パターンデータベース 401と抽出順序データベース 402は、共通の IDである セット IDで対応付けられ、利用パターンデータベース 401は、セット ID毎に抽出順序 と抽出順序に対応する固有表現パターン名とを記憶するものであり、抽出順序デー タベース 402は、セット ID毎に抽出順序総数が記憶されるものである。図 15は、利用 パターンデータベース 401の一例であり、図 28は、抽出順序データベース 402の内 容の一例である。
[0110] 順序総数取得部 403は、テキスト検索部 303から検索結果テキストと抽出順序が入 力される場合、抽出順序データベース 402から最も若いセット IDとそのセット IDに対 応する抽出順序総数とセット IDの最大値を取得して、検索結果テキストと抽出順序と セット IDと抽出順序総数とセット IDの最大値を利用パターン取得部 305へ出力する
[0111] そして、抽出終了判定部 404から抽出順序とセット IDと抽出順序総数とセット IDの 最大値が入力される場合、抽出順序を 1にセットし直し、入力されるセット IDに 1をカロ 算して、加算後のセット IDに対応する抽出順序総数を抽出順序データベースから取 得し、検索結果テキストと抽出順序とセット IDと抽出順序総数とセット IDの最大値を 利用パターン取得部 305に出力する。
[0112] 抽出終了判定部 404は、固有表現抽出部 105からテキストと抽出順序とセット IDと 抽出順序総数とセット IDの最大値が入力されると、抽出順序に 1を加算し、加算後の 抽出順序が抽出順序総数より大きい場合においては、固有表現決定部 405にセット IDとセット IDの最大値とテキストを出力し、セット IDがセット IDの最大値未満の場合、 順序総数取得部 403に抽出順序と抽出順序総数とセット IDとセット IDの最大値を出 力し、また、加算後の抽出順序が抽出順序総数以下の場合においては、テキストと 抽出順序とセット IDと抽出順序総数とセット IDの最大値を利用パターン取得部 305 に出力する。
[0113] 固有表現決定部 405は、抽出終了判定部 404からセット IDとセット IDの最大値とテ キストが入力されると、セット IDに対応付けて同時に入力される複数テキストから抽出 される固有表現を記憶し、さらに、セット IDがセット IDの最大値と等しい場合、セット I D毎に対応付けて記憶される固有表現に対して、類似する固有表現数を算出し、算 出される類似固有表現数が最も少ないセット IDに対応する固有表現を結果テキスト として出力する。
[0114] このように構成された本実施の形態による固有表現抽出装置において固有表現を 抽出する際の動作例について説明する。図 29は固有表現を抽出する際の動作例の 流れを示すフローチャートである。
[0115] 情報データベース 306に含まれる情報を電子番組情報とし、テキスト検索部 303は 、入力部 101からジャンル「ドキュメンタリー」と抽出順序の初期値 1が入力されると (ス テツプ S401)、情報データベース 306からジャンル「ドキュメンタリー」に対応する番 組名のテキスト「ドキュメンタリー(1) —松上電器の誕生一」、「ドキュメンタリー(2) —松上電器の発展—」、「人間ドキュメント 松下太郎の足跡(1)」、「人間ドキュメント 松下太郎の足跡(2)」を取得し (ステップ S402)、この検索結果テキスト「ドキュメン タリー(1) —松上電器の誕生—」、「ドキュメンタリー(2) —松上電器の発展—」、「 人間ドキュメント 松下太郎の足跡(1)」、「人間ドキュメント 松下太郎の足跡(2)」と 抽出順序 1を順序総数取得部 403に出力する。
[0116] 順序総数取得部 403は、テキスト検索部 303から検索結果テキスト「ドキュメンタリー
(1) 一松上電器の誕生一」、「ドキュメンタリー(2) —松上電器の発展一」、「人間ド キュメント 松下太郎の足跡(1)」、「人間ドキュメント 松下太郎の足跡(2)」と抽出順 序の値 1が入力されると、図 28に示される抽出順序データベース 402から最も若いセ ット IDの値 1とそのセット IDに対応する抽出順序総数の値 2とセット IDの最大値 2を取 得して (ステップ S403)、テキスト「ドキュメンタリー(1) —松上電器の誕生一」、「ドキ ュメンタリー(2) —松上電器の発展一」、「人間ドキュメント 松下太郎の足跡(1)」、 「人間ドキュメント 松下太郎の足跡(2)」と抽出順序 1とセット IDの値 1と抽出順序総 数 2とセット IDの最大値 2を利用パターン取得部 305へ出力する。
[0117] 利用パターン取得部 305は、実施の形態 1と同様に、順序総数取得部 403からテ キストと抽出順序総数と抽出順序とセット IDとセット IDの最大値が入力されると、図 1 5の利用パターンデータベース 401から入力されるセット IDの値 1と抽出順序の値 1 に対応する固有表現パターン名「固有表現 Aパターン」を取得し (ステップ S404)、こ の固有表現パターン名「固有表現 Aパターン」と入力テキストと抽出順序総数と抽出 順序とセット IDとセット IDの最大値とテキスト「ドキュメンタリー(1) —松上電器の誕 生一」、「ドキュメンタリー(2) —松上電器の発展一」、「人間ドキュメント 松下太郎 の足跡(1)」、「人間ドキュメント 松下太郎の足跡(2)」を固有表現抽出部 105に出 力する。
[0118] 固有表現抽出部 105は、実施形態 1と同様に、入力される固有表現パターン「固有 表現 Aパターン」を用いて、テキスト「ドキュメンタリー(1) —松上電器の誕生—」、「ド キュメンタリー(2) —松上電器の発展一」、「人間ドキュメント 松下太郎の足跡(1)」 、「人間ドキュメント 松下太郎の足跡(2)」から、小タイトルの固有表現であるテキスト 「ドキュメンタリー」、 「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」を抽出 し (ステップ S406)し、固有表現が抽出されたテキスト「く小タイトル >ドキュメンタリー く/小タイトル > (1) —松上電器の誕生—」、「く小タイトル >ドキュメンタリーく Z 小タイトル〉(2) —松上電器の発展—」、「く小タイトル〉人間ドキュメントく Z小タ イトノレ > 松下太郎の足跡(1)」、「く小タイトノレ〉人間ドキュメントく/小タイトノレ〉 松下太郎の足跡(2)」と抽出順序総数と抽出順序とセット IDとセット IDの最大値を抽 出終了判定部 404に出力する。
[0119] 抽出終了判定部 404は、入力される抽出順序の値に 1を加算して値を 2とし (ステツ プ S407)、加算後の抽出順序の値 2が抽出順序総数 2以下であるので (ステップ S4 08)、入力されるテキスト「く小タイトノレ〉ドキュメンタリーく/小タイトル〉(1) —松 上電器の誕生—」、「く小タイトル〉ドキュメンタリーく/小タイトル〉(2) —松上電 器の発展—」、「く小タイトル〉人間ドキュメントく/小タイトル〉 松下太郎の足跡( 1)」、「く小タイトル〉人間ドキュメントく/小タイトル〉 松下太郎の足跡(2)」と抽 出順序総数 2と抽出順序 2とセット IDの値 1とセット IDの最大値 2を利用パターン取得 部 305に出力する。
[0120] その後、上記と同様に、利用パターン取得部 305では、固有表現パターン名「固有 表現 Bパターン」を取得し、固有表現抽出部 105において固有表現パターン「固有表 現 Bパターン」を用いてテキストから固有表現を抽出した結果、固有表現抽出部 105 は、テキスト「く中タイトノレ > <小タイトノレ >ドキュメンタリーく /小タイトノレ > ( 1 )く/ 中タイトノレ〉 一松上電器の誕生一」、「く中タイトノレ > <小タイトノレ〉ドキュメンタリ 一く/小タイトル > (2) <Z中タイトル > —松上電器の発展一」、「く小タイトノレ > 人間ドキュメントく Z小タイトル〉 松下太郎の足跡(1)」、「く小タイトル〉人間ドキ ュメント< /小タイトノレ > 松下太郎の足跡(2)」と抽出順序総数 2と抽出順序の値 2 とセット IDの値 1とセット IDの最大値 2を抽出終了判定部 404に出力する。
[0121] 抽出終了判定部 404は、入力される抽出順序の値に 1を加算して値を 3とし (ステツ プ S407)、加算後の抽出順序の値 3が抽出順序総数 2より大きいので (ステップ S40 8)、固有表現決定部 405にセット IDの値 1とセット IDの最大値 2とテキスト「<中タイト ノレ〉く小タイトノレ〉ドキュメンタリーく/小タイトノレ〉(1)く/中タイトノレ〉 一松上 電器の誕生一」、 「く中タイトノレ >く小タイトル >ドキュメンタリーく /小タイトノレ > (2) く/中タイトノレ〉 一松上電器の発展一」、「く小タイトル〉人間ドキュメントく Z小タ イトノレ > 松下太郎の足跡(1)」、「く小タイトノレ〉人間ドキュメントく/小タイトノレ〉 松下太郎の足跡(2)」を出力し (ステップ S409)、セット IDの値 1がセット IDの最大値 2未満であるので (ステップ S410)、順序総数取得部 403に抽出順序の値 3と抽出順 序総数 2とセット IDの値 1とセット IDの最大値 2を出力する。
[0122] 順序総数取得部 403は、抽出終了判定部 404から抽出順序の値 3とセット IDの値
1と抽出順序総数 2とセット IDの最大値 2が入力される場合、抽出順序の値を 1にセッ トし直し、入力されるセット IDの値に 1をカ卩算して値を 2にし、加算後のセット IDの値 2 に対応する抽出順序総数 2を抽出順序データベース 402から取得し、検索結果テキ スト「ドキュメンタリー(1) 一松上電器の誕生一」、「ドキュメンタリー(2) —松上電器 の発展 「人間ドキュメント 松下太郎の足跡(1)」、「人間ドキュメント 松下太郎 の足跡(2)」と抽出順序の値 1とセット IDの値 2と抽出順序総数 2とセット IDの最大値 2を利用パターン取得部 305に出力する。
[0123] その後、上記と同様に、利用パターン取得部 305では、固有表現パターン名「固有 表現 Iパターン」を取得し、固有表現抽出部 105において固有表現パターン「固有表 現 Iパターン」を用いてテキストから固有表現を抽出した結果(一例として、固有表現 I パターンを用いると、番組名のテキストからは副題に当たる部分が小タイトルとして抽 出されるとする)、固有表現抽出部 105は、テキスト「ドキュメンタリー(1) —く小タイ トル〉松上電器の誕生く/小タイトル〉—」、「ドキュメンタリー(2) —く小タイトノレ >松上電器の発展く Z小タイトル〉—」、「人間ドキュメント く小タイトル〉松下太 郎の足跡く Z小タイトル〉(1)」、「人間ドキュメント く小タイトル〉松下太郎の足跡 く/小タイトル〉(2)」と抽出順序総数 2と抽出順序の値 1とセット IDの値 2とセット ID の最大値 2を抽出終了判定部 404に出力し、抽出終了判定部 404は、抽出順序の 値を 2にして、抽出順序の値 2と抽出順序総数 2とセット IDの値 2とセット IDの最大値 2を利用パターン取得部 305に出力する。
[0124] その後もまた同様に、利用パターン取得部 305は、固有表現パターン名「固有表現 Jパターン」を取得し、固有表現抽出部 105において固有表現パターン「固有表 ¾[パ ターン」を用いてテキストから固有表現を抽出した結果(一例として、固有表 ¾ [バタ ーンを用いると、番組名のテキストから副題と副題に連続している回数をまとめて中タ ィトルとして抽出するとする)、固有表現抽出部 105は、テキスト「ドキュメンタリー(1) —く小タイトル〉松上電器の誕生く/小タイトル〉—」、「ドキュメンタリー(2) - く小タイトル〉松上電器の発展く/小タイトル〉一」、「人間ドキュメント く中タイト ノレ > <小タイトノレ >松下太郎の足跡く/小タイトノレ > (1) <Z中タイトノレ〉」、「人間 ドキュメント く中タイトノレ > <小タイトノレ〉松下太郎の足跡く/小タイトノレ〉(2) < /中タイトル >」と抽出順序総数 2と抽出順序の値 2とセット IDの値 2とセット IDの最 大値 2を抽出終了判定部 404に出力する。
[0125] 抽出終了判定部 404は、上記と同じ動作を行った結果、抽出順序の値 3が抽出順 序総数より大きいので(ステップ S408)、固有表現決定部 405にセット IDの値 2とセッ ト IDの最大値 2とテキスト「ドキュメンタリー(1) —く小タイトル〉松上電器の誕生く /小タイトル〉—」、「ドキュメンタリー(2) —く小タイトノレ〉松上電器の発展く/小 タイトル〉—」、「人間ドキュメント く小タイトル〉松下太郎の足跡く/小タイトル > ( 1)」、「人間ドキュメント く小タイトル〉松下太郎の足跡く/小タイトル〉(2)」とを固 有表現決定部 405に出力する。
[0126] 固有表現決定部 405は、抽出終了判定部 404からセット IDの値 1とセット IDの最大 値 2とテキスト「く中タイトノレ > <小タイトノレ >ドキュメンタリーく/小タイトノレ〉(1) < /中タイトノレ〉 一松上電器の誕生一」、「く中タイトノレ > <小タイトノレ〉ドキュメンタ リーく Z小タイトル > (2)く/中タイトル〉 一松上電器の発展一」、「く小タイトノレ > 人間ドキュメントく Z小タイトル〉 松下太郎の足跡(1)」、「く小タイトル〉人間ドキ ュメントく/小タイトノレ > 松下太郎の足跡(2)」が入力されると、セット IDの値 1に対 応付けて同時に入力される複数テキストから抽出される固有表現「ドキュメンタリー(1 )」、「ドキュメンタリー(2)」、「人間ドキュメント」、「人間ドキュメント」を記憶する。
[0127] さらに、抽出終了判定部 404からセット IDの値 2とセット IDの最大値 2とテキスト「ド キュメンタリー(1) —く小タイトノレ〉松上電器の誕生く/小タイトノレ〉一」、「ドキュメ ンタリー(2) —く小タイトル〉松上電器の発展く/小タイトル〉一」、「人間ドキュメ ント く中タイトノレ > <小タイトノレ >松下太郎の足跡く/小タイトノレ > (1) <Z中タイ トノレ〉」、「人間ドキュメント く中タイトノレ > <小タイトノレ >松下太郎の足跡く/小タ イトノレ > (2)く/中タイトノレ >」が入力されると、セット IDの値 2に対応付けて同時に 入力される複数テキストから抽出される固有表現「松下電器の誕生」、「松下電器の 発展」、「松下太郎の足跡(1)」、「松下太郎の足跡(2)」を記憶する。
[0128] この時さらに、固有表現決定部 405は、セット IDの値 2がセット IDの最大値 2と等し いので(ステップ S410)、セット IDの値 1に対しては、固有表現「人間ドキュメント」、「 人間ドキュメント」が同じなので類似固有表現数を 2とし (ここでは、同じテキストのみを 類似テキストとしたが、一定の文字数以上同じテキストを類似テキストしても良い)、セ ット IDの値 2に対しては、全て固有表現が異なるので、類似固有表現数を 0とする。
[0129] そして、類似固有表現数が最も少ないセット IDの値 2に対応する固有表現「松下電 器の誕生」、「松下電器の発展」、「松下太郎の足跡(1)」、「松下太郎の足跡(2)」を 結果テキストとして出力する。
[0130] また、上記実施例では、固有表現決定部 405は、抽出される固有表現をそのまま 用いて類似固有表現数を算出したが、テキストが一般に有限の大きさの表示部に表 示されることを考慮し、その表示部に一つの固有表現あたり表示できる表示文字数が 分かっている場合、固有表現の先頭から表示文字数分のテキストのみを抽出し、抽 出されるテキストに対して類似固有表現数を求めるようにしてもょレ、。
[0131] 具体的な一例として、固有表現決定部 405に、(セット ID、固有表現群)として、 (1 、(松下電器産業の誕生、松下電器産業の発展、松下電器産業の株価推移、松下 電器産業の新製品紹介))、(2、 (松下ドキュメンタリー、松下ドキュメンタリー、経済二 ユース、流行の商品紹介))が入力される場合を考える。
[0132] この例は、番組情報に含まれる番組名力 抽出された固有表現の一例を示してい る。これらの固有表現は、一つの固有表現あたりに用いる文字数が異なる詳細な表 示フォーマットと一覧性を高めた表示フォーマットとを使い分けて、同じ表示部に表示 されることを ¾1定してレ、る。
[0133] 詳細な表示フォーマットにおいて一つの固有表現あたりに用いられる文字数を、例 えば 12文字とすると、固有表現決定部 405は、各固有表現の先頭から最大で 12文 字分のテキスト(1、(松下電器産業の誕生、松下電器産業の発展、松下電器産業の 株価推移、松下電器産業の新製品紹介))、(2、 (松下ドキュメンタリー、松下ドキュメ ンタリー、経済ニュース、流行の商品紹介))を抽出する。この場合には、各固有表現 の全ての文字が抽出される。そして、セット IDの値 1、 2に対して類似固有表現数をそ れぞれ、 0、 2と求め、類似固有表現数が最も少ないセット IDの値 1に対応する固有 表現「松下電器産業の誕生」、「松下電器産業の発展」、「松下電器産業の株価推移 」、「松下電器産業の新製品紹介」を結果テキストとして表示部へ出力する。
[0134] 図 30 (A)は、詳細な表示フォーマットの一例であり、この例では、 1画面に 3チャン ネル分の番組情報力 番組名力 抽出された最大 12文字の固有情報を用いて表示 される。このフォーマットは、より詳細に番組情報をウォッチしたいユーザに適する。
[0135] また、一覧性を高めた表示フォーマットにおいて一つの固有表現あたり用いられる 文字数を、例えば 6文字とすると、固有表現決定部 405は、各固有表現の先頭から 最大で 6文字分のテキスト(1、(松下電器産業、松下電器産業、松下電器産業、松 下電器産業))、(2、(松下ドキュメ、松下ドキュメ、経済ニュース、流行の商品紹))を 抽出する。そして、セット IDの値 1、 2に対して類似固有表現数をそれぞれ、 4、 2と求 め、類似固有表現数が最も少ないセット IDの値 2に対応する固有表現「松下ドキュメ 」、「松下ドキュメ」、「経済ニュース」、「流行の商品紹」を結果テキストとして出力する。
[0136] 図 30 (B)は、一覧性を高めた表示フォーマットの一例であり、この例では、 1画面に
6チャンネル分の番組情報が、番組名力、ら抽出された最大 6文字の固有情報を用い て表示される。このフォーマットは、より広く番組情報を見渡したいユーザに適する。 なお、図示されるように、本来 7文字以上ある固有情報については、 6文字目を所定 の文字 (例えば「■·■」)で置き換えることによって、後続する文字が省略されてレ、ること を明示してもよい。
[0137] このように、異なる複数の表示フォーマットを使い分ける場合に、図 30 (A) (B)に示 すようにユーザが番組を識別するためにそれぞれ最も有効な固有表現を表示させる こと力 Sできる。
[0138] 以上のように、本実施形態によれば、同一テキストから固有表現の抽出方法を変更 することで抽出される複数組の固有表現から、各組に含まれる固有表現が最も異な る組の固有表現を最終結果とすることにより、ユーザが識別できる固有表現数を増や すことができる。
[0139] (実施の形態 3)
次に、本発明に係る実施の形態 3の固有表現抽出装置について、図面を参照しな 力 ¾説明する。
[0140] 図 31は、本発明の実施の形態 3の固有表現抽出装置の構成を示す構成図である 。ここで、実施の形態 1と同一符号の構成要素は同じ動作を行うものとし、それらの詳 細な説明は省略する。本実施の形態の固有表現抽出装置は、表示される固有表現 に同一の固有表現が存在する場合、重複を削除し、さらにユーザが表示される固有 表現を指定すると、指定される固有表現を入れ子として含む固有表現を表示すること ができる装置であり、図 31に示すように、入力部 101、抽出順序記憶部 102、抽出順 序読込部 103、固有表現パターン記憶部 104、固有表現抽出部 105、固有表現記 憶部 501、抽出終了判定部 502、表示条件取得部 503、固有表現取得部 504、重 複削除部 505、表示部 506を含んで構成される。
[0141] 固有表現記憶部 501は、入力テキストと入力テキストから抽出される固有表現と抽 出順序とを対応付けて記憶するものである。固有表現記憶部 501の内容例を図 32 に示す。
[0142] 抽出終了判定部 502は、固有表現抽出部 105から抽出順序総数と抽出順序とテキ ストが入力されると、抽出順序とテキストとテキストから抽出された固有表現を対応付 けて固有表現記憶部 501に記憶し、さらに、抽出順序が抽出順序総数より小さい場 合は、抽出順序の値に数値 1を加算し、加算後の抽出順序と固有表現抽出部 105か ら入力されるテキストとを抽出順序読込部 103に出力する。
[0143] 表示部 506は、固有表現を表示する。表示条件取得部 503は、表示部 506に表示 される固有表現の抽出順序や表示される複数の固有表現からユーザが指定する固 有表現を入力する。
[0144] 固有表現取得部 504は、表示条件取得部 503から抽出順序のみ入力される場合、 固有表現記憶部 501から入力される抽出順序に対応する固有表現を取得し、また、 表示条件取得部 503から抽出順序とユーザが指定する固有表現が入力される場合 、固有表現記憶部 501に記憶されるテキストから、入力される抽出順序と固有表現に 対応するテキストを検索し、検索されるテキストの固有表現において、入力される抽出 順序の次の抽出順序に対応する固有表現を取得する。
[0145] 重複削除部 505は、固有表現取得部 504で取得される固有表現に対して重複を 省いて表示部 506に表示する。
[0146] このように構成された本実施の形態による固有表現抽出装置において固有表現を 抽出し、表示部に表示する際の動作例について説明する。図 33は、固有表現を抽 出し、表示する際の動作例の流れを示すフローチャートである。
[0147] 入力部 101、抽出順序記憶部 102、抽出順序読込部 103、固有表現パターン記憶 部 104、固有表現抽出部 105を用いて入力テキストから固有表現を抽出する動作( ステップ S101〜ステップ S105)は、実施の形態 1と同じ動作を行うので説明は省略 する。
[0148] 抽出終了判定部 502は、固有表現抽出部 105から抽出順序総数 3と抽出順序 1と テキスト「く小タイトル〉ドキュメンタリーく/小タイトル〉(1) —松上電器の誕生— 」、「く小タイトル >ドキュメンタリーく/小タイトノレ > (2) —松上電器の発展一」、「 く小タイトル〉人間ドキュメントく/小タイトル〉 松下太郎の足跡(1)」、「く小タイト ル>人間ドキュメントく/小タイトル > 松下太郎の足跡(2)」が入力されると、抽出 順序 1とテキスト「ドキュメンタリー(1) —松上電器の誕生一」、「ドキュメンタリー(2) —松上電器の発展—」、「人間ドキュメント 松下太郎の足跡(1)」、「人間ドキュメント 松下太郎の足跡(2)」とテキストから抽出された固有表現「ドキュメンタリー」、「ドキュ メンタリー」、「人間ドキュメント」、「人間ドキュメント」を対応付けて固有表現記憶部 50 1に記憶し (ステップ S501)、さらに、抽出順序の値 1が抽出順序総数 3より小さいの で (ステップ S106)、抽出順序の値に数値 1をカ卩算して値を 2とし (ステップ S107)、 加算後の抽出順序の値 2と固有表現抽出部 105から入力されるテキスト「く小タイト ノレ〉ドキュメンタリーく/小タイトル〉(1) —松上電器の誕生一」、「く小タイトル〉 ドキュメンタリーく/小タイトル〉(2) —松上電器の発展—」、「く小タイトル〉人間 ドキュメントく/小タイトル〉 松下太郎の足跡(1)」、「く小タイトル〉人間ドキュメン ト<7小タイトノレ > 松下太郎の足跡(2)」を抽出順序読込部 103に出力する。
[0149] 上記動作を抽出順序が抽出順序総数以上になるまで繰り返した後の固有表現記 憶部 501の内容は図 32のようになるとする。
[0150] 続いて、このようにして得られた内容を用いて、次のような表示動作が行われる。
[0151] 最初、表示条件取得部 503は、ユーザ力 指定を受け付けることなしに、抽出順序 の初期値である値 1を固有表現取得部 504へ入力する。
[0152] 固有表現取得部 504は、表示条件取得部 503から抽出順序の値 1のみ入力される 場合 (ステップ S502)、固有表現記憶部 501から抽出順序の値 1に対応する固有表 現「ドキュメンタリー」、 「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」を取 得する(ステップ S 503)。
[0153] 重複削除部 505は、固有表現取得部 504で取得される固有表現が「ドキュメンタリ 一」、「ドキュメンタリー」、「人間ドキュメント」、「人間ドキュメント」の場合、これら固有表 現に対して重複を削除して (ステップ S506)、固有表現「ドキュメンタリー」、「人間ドキ ュメント」を表示部 506に表示する(ステップ S507)。この時の表示部 506に表示され る表示内容例を図 34に示す。また、重複削除部 505は、各固有表現を表示する際 に、各固有表現において重複した数を同時に表示しても良い。この時の表示部 506 に表示される表示内容例を図 35に示す。
[0154] ここで表示される各固有表現には、ユーザによる所定の操作、例えばマウスクリック 操作等を受け付けるユーザインタフェース機能が付加される。表示条件取得部 503 は、表示された固有表現の一つへユーザによる所定の操作を受け付けると、その操 作がなされた固有表現とその固有表現の抽出順序とを固有表現取得部 504へ入力 する。
[0155] 一例として、図 34においてユーザが「ドキュメンタリー」をクリックすると、表示条件取 得部 503から抽出順序の値 1とユーザが指定する固有表現「ドキュメンタリー」が入力 される。固有表現取得部 504は、固有表現記憶部 501に記憶されるテキストから、入 力される抽出順序の値 1と固有表現「ドキュメンタリー」に対応するテキスト「ドキュメン タリー(1) 一松上電器の誕生 「ドキュメンタリー(2) —松上電器の発展一」を 検索し (ステップ S504)、検索されるテキストの固有表現において、入力される抽出 順序の次の抽出順序の値 2に対応する固有表現「ドキュメンタリー(1)」「ドキュメンタ リー(2)」を取得する(ステップ S505)
[0156] そして、重複削除部 505には、固有表現「ドキュメンタリー(1)」「ドキュメンタリー(2) 」が入力され、この場合は、固有表現の重複が存在しないため、そのまま表示部 506 に固有表現が表示される。この時の表示部 506に表示される表示内容例を図 36に 示す。
[0157] 以上のように、本実施形態によれば、抽出される固有表現の入れ子構造に従い、 入力されるテキストを表示するので、入力されるテキストをメニュー階層で表示するこ とができる。また、入力テキストがユーザの蓄積デバイスに記憶されているコンテンツ のタイトルなどの場合、固有表現の入れ子に従ってメニュー階層が生成されるので、 ユーザは、重複が存在するタイトル一覧から目的のタイトルを探す必要なぐメニュー 階層を迪つていくだけで目的のタイトルを発見することができる。
[0158] (その他の変形例)
ここまで、入力テキスト及び抽出される固有表現が日本語である例を用いて説明し てきたが、入力テキスト及び抽出される固有表現が日本語に限定されないことは言う までもない。例えば中国語 (簡字体)で表された入力テキストから固有表現を抽出す ることも、もちろん可能である。
[0159] 図 37 (A) (B)は、入力テキストとなるべき、中国語の番組情報に含まれる番組名 の一例である。この番組名から、前述と同様にして固有表現を抽出し、ユーザに提示 することによって、ユーザの入力履歴や表示端末の表示能力等によって表される抽 出条件に適応した固有表現を中国語の入力テキストから抽出することができる固有 表現抽出装置が得られる。
産業上の利用可能性
[0160] 本発明は、テキストから固有表現を抽出する際、抽出される固有表現をユーザゃァ プリケーシヨン、ユーザが利用する端末に適応させることができ、ハードディスクレコー ダゃ DVDレコーダ、 TV、オーディオコンポ、インターネットにアクセスして情報検索 を行うことができる端末や情報検索サーバ等において有用である。

Claims

請求の範囲
[1] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターン を順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置 であって、
固有表現の抽出に使用されるべき固有表現パターンの、抽出条件に応じて異なる 順序を示す抽出順序を定める抽出順序設定手段と、
前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記一つ 以上の入力テキストから固有表現を抽出する固有表現抽出手段と
を備えることを特徴とする固有表現抽出装置。
[2] 前記抽出条件は、抽出される固有表現を利用するユーザ、抽出される固有表現を 表示する端末装置、入力テキストの属性、入力テキストの数、及び過去に固有表現 が抽出された回数のうちの少なくとも一つを用いて表される
ことを特徴とする請求項 1に記載の固有表現抽出装置。
[3] 前記入力テキストは、電子番組ガイドを構成する番組情報を表す
ことを特徴とする請求項 1に記載の固有表現抽出装置。
[4] 前記固有表現抽出装置は、さらに、
複数の固有表現パターンを記憶している固有表現パターン記憶手段と、 複数の抽出条件のそれぞれについて、前記固有表現パターン記憶手段に記憶さ れている一つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を 記憶している抽出順序記憶手段と
を備え、
前記抽出順序設定手段は、前記複数の抽出条件の一つが与えられると、与えられ た抽出条件について前記抽出順序記憶手段に記憶されている固有表現パターンの 順序を、前記抽出順序として定める
ことを特徴とする請求項 1に記載の固有表現抽出装置。
[5] 前記固有表現抽出装置は、ユーザを識別するユーザ識別子を抽出条件とし、さら に、
前記ユーザ識別子を取得するユーザ識別手段を備え、 前記抽出順序記憶手段は、複数のユーザ識別子のそれぞれについて、前記固有 表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記 憶しており、
前記抽出順序設定手段は、取得されたユーザ識別子について前記抽出順序記憶 手段に記憶されている固有表現パターンの順序を、前記抽出順序として定める ことを特徴とする請求項 4に記載の固有表現抽出装置。
[6] 前記固有表現抽出装置は、抽出される固有表現を表示する端末装置の端末識別 子を抽出条件とし、さらに、
前記端末識別子を取得する端末識別子取得手段を備え、
前記抽出順序記憶手段は、複数の端末識別子のそれぞれについて、前記固有表 現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶 しており、
前記抽出順序設定手段は、取得された端末識別子について前記抽出順序記憶手 段に記憶されている固有表現パターンの順序を、前記抽出順序として定める ことを特徴とする請求項 4に記載の固有表現抽出装置。
[7] 前記固有表現抽出装置は、前記入力テキストの属性を抽出条件とし、さらに、 前記入力テキストの属性を取得する属性取得手段を備え、
前記抽出順序記憶手段は、複数の属性のそれぞれについて、前記固有表現パタ ーン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており 前記抽出順序設定手段は、取得された属性について前記抽出順序記憶手段に記 憶されて
レ、る固有表現パターンの順序を、前記抽出順序として定める
ことを特徴とする請求項 4に記載の固有表現抽出装置。
[8] 前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、
複数のテキストが格納されている情報データベースと、
前記入力テキストとなるべき一つ以上のテキストを前記情報データベースから検索 するテキスト検索手段と を備え、
前記抽出順序記憶手段は、テキストの数を示す複数の値のそれぞれについて、前 記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順 序を記憶しており、
前記抽出順序設定手段は、検索されたテキストの数について前記抽出順序記憶手 段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、 前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現 パターンを用いて、前記検索されたテキストから固有表現を抽出する
ことを特徴とする請求項 4に記載の固有表現抽出装置。
[9] 前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、
複数のテキストが格納されている情報データベースと、
複数のテキストを前記情報データベースから取得するテキスト取得手段と、 テキストを表示する表示手段と、
前記テキスト取得手段で取得される複数のテキストから、前記表示手段に表示され た際に類似する複数のテキストを前記入力テキストとして取得する類似テキスト取得 手段と
を備え、
前記抽出順序記憶手段は、テキストの数を示す複数の値のそれぞれについて、前 記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順 序を記憶しており、
前記抽出順序設定手段は、前記類似テキスト取得手段によって取得されたテキスト の数について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を 、前記抽出順序として定め、
前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現 パターンを用いて、前記類似テキスト取得手段によって取得されたテキストから固有 表現を抽出する
ことを特徴とする請求項 4に記載の固有表現抽出装置。
[10] 前記固有表現抽出装置は、さらに、 複数の固有表現パターンを記憶している固有表現パターン記憶手段と、 前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターン の固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と、 前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、抽出条件 に応じて変更する抽出順序変更手段と
を備え、
前記抽出順序設定手段は、変更後の固有表現パターンの順序を、前記抽出順序 として定める
ことを特徴とする請求項 1に記載の固有表現抽出装置。
[11] 前記固有表現抽出装置は、過去に固有表現が抽出された回数を抽出条件とし、さ らに、
前記抽出順序記憶手段に記憶されている固有表現パターンのそれぞれについて、 その固有表現パターンを用いて過去に固有表現が抽出された回数を計数する抽出 回数計数手段を備え、
前記抽出順序変更手段は、前記抽出順序記憶手段に記憶されている固有表現パ ターンの順序を、前記計数された数に応じて変更する
ことを特徴とする請求項 10に記載の固有表現抽出装置。
[12] 前記抽出順序は、複数の固有表現パターンを、順次使用された場合に使用ごとに より長い固有表現の抽出が期待される順序で示し、
前記固有表現抽出装置は、さらに、
予め定められたしきい値を上回る長さの固有表現が抽出された場合、それ以降の 固有表現パターンを用いて行われる抽出を打ち切る抽出打ち切り手段を備える ことを特徴とする請求項 1に記載の固有表現抽出装置。
[13] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターン を順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置 であって、
複数のテキストが格納されている情報データベースと、
複数のテキストを前記情報データベースから取得するテキスト取得手段と、 複数の固有表現パターンを記憶している固有表現パターン記憶手段と、 前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターン の、固有表現の抽出に使用されるべき順序を複数記憶している抽出順序記憶手段と 前記テキスト取得手段で取得される複数のテキストから、前記抽出順序記憶手段で 記憶されている各順序で固有表現パターンを用いて固有表現を抽出し、順序ごとに 抽出された固有表現を固有表現セットとする固有表現抽出手段と、
前記固有表現抽出手段で得られた固有表現セット毎に、その固有表現セットに含 まれる類似する固有表現の数である類似固有表現数を算出し、類似固有表現数が 最も少ない固有表現セットを出力する固有表現決定手段と
を備えることを特徴とする固有表現抽出装置。
[14] 前記固有表現抽出装置は、さらに、
テキストを表示する表示手段を備え、
前記固有表現決定手段は、固有表現セット毎に類似固有表現数を算出する際に、 固有表現から前記表示手段に表示可能な文字数分の部分固有表現を抽出し、抽出 した部分固有表現同士が類似する場合に、類似する部分固有表現の数を類似固有 表現数とする
ことを特徴とする請求項 13記載の固有表現抽出装置。
[15] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターン を順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置 であって、
複数の固有表現パターンを記憶している固有表現パターン記憶手段と、 前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターン の、固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と、 前記抽出順序記憶手段に記憶されている順序で前記一つ以上の固有表現パター ンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手 段と、
前記入力テキスト、その入力テキストから抽出された固有表現、及びその抽出が行 われた前記順序における段を対応付けて記憶する固有表現記憶手段と、 既定の段を指定するか、又は共通の段において抽出された一つ以上の固有表現 をユーザ操作に応じて指定する表示条件指定手段と、
前記表示条件指示手段から既定の段が指定された場合、前記固有表現記憶手段 力 前記指定された段に対応して記憶されている全ての固有表現を取得し、また、前 記表示条件指示手段から一つ以上の固有表現が指定された場合、前記固有表現記 憶手段から、前記指定された各固有表現に対応する入力テキストについて前記共通 の段の次の段に対応して記憶されている固有表現を取得する固有表現取得手段と、 前記固有表現取得手段で取得された固有表現から重複を削除する重複削除手段 と、
前記重複削除手段によって重複を削除されて残った固有表現を表示する表示手 段と
を備えることを特徴とする固有表現抽出装置。
[16] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターン を順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出方法 であって、
抽出条件に応じて異なる固有表現パターンの使用順序を示す抽出順序を定める 抽出順序設定ステップと、
前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記一つ 以上の入力テキストから固有表現を抽出する固有表現抽出ステップと
を含むことを特徴とする固有表現抽出方法。
[17] テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記 憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶さ れている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を 複数記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固 有表現を抽出する固有表現抽出方法であって、
一つ以上のテキストを情報データベースから取得するテキスト取得ステップと、 前記テキスト取得ステップで取得される複数のテキストから、前記抽出順序記憶手 段で記憶されている各順序で固有表現パターンを用いて固有表現を抽出し、順序ご とに抽出された固有表現を固有表現セットとする固有表現抽出ステップと、
前記固有表現抽出ステップで得られた固有表現セット毎に、その固有表現セットに 含まれる類似する固有表現の数である類似固有表現数を算出し、類似固有表現数 が最も少ない固有表現セットを出力する固有表現決定ステップと
を含むことを特徴とする固有表現抽出方法。
テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記 憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶さ れている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を 記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固有表 現を抽出する固有表現抽出方法であって、
前記抽出順序記憶手段に記憶されている順序で前記一つ以上の固有表現パター ンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出ス テツプと、
前記入力テキスト、その入力テキストから前記固有表現抽出ステップで抽出された 固有表現、及びその抽出が行われた前記順序における段を対応付けて記憶する固 有表現記憶ステップと、
既定の段を指定するか、又は共通の段において抽出された一つ以上の固有表現 をユーザ操作に応じて指定する表示条件指定ステップと、
前記表示条件指示ステップで既定の段が指定された場合、前記固有表現記憶ステ ップで記憶され、かつ前記指定された段に対応する固有表現を取得し、また、前記 表示条件指示ステップで一つ以上の固有表現が指定された場合、前記固有表現記 憶ステップで記憶され、かつ前記指定された各固有表現に対応する入力テキストに ついて前記共通の段の次の段に対応する固有表現を取得する固有表現取得ステツ プと、
前記固有表現取得ステップで取得された固有表現から重複を削除する重複削除ス テツプと、
前記重複削除ステップで重複を削除されて残った固有表現を表示する表示ステツ プと
を含むことを特徴とする固有表現抽出方法。
[19] テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターン を順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置 に用いられるコンピュータ実行可能なプログラムであって、
抽出条件に応じて異なる固有表現パターンの使用順序を示す抽出順序を定める 抽出順序設定ステップと、
前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記一つ 以上の入力テキストから固有表現を抽出する固有表現抽出ステップと
をコンピュータに実行させることを特徴とするプログラム。
[20] テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記 憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶さ れている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を 複数記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固 有表現を抽出するためのコンピュータ実行可能なプログラムであって、
一つ以上のテキストを情報データベースから取得するテキスト取得ステップと、 前記テキスト取得ステップで取得される複数のテキストから、前記抽出順序記憶手 段で記憶されている各順序で固有表現パターンを用いて固有表現を抽出し、順序ご とに抽出された固有表現を固有表現セットとする固有表現抽出ステップと、
前記固有表現抽出ステップで得られた固有表現セット毎に、その固有表現セットに 含まれる類似する固有表現の数である類似固有表現数を算出し、類似固有表現数 が最も少ない固有表現セットを出力する固有表現決定ステップと
をコンピュータに実行させることを特徴とするプログラム。
[21] テキストに含まれる固有表現部分の判断基準を示す複数の固有表現パターンを記 憶している固有表現パターン記憶手段と、前記固有表現パターン記憶手段に記憶さ れている一つ以上の固有表現パターンの、固有表現の抽出に使用されるべき順序を 記憶している抽出順序記憶手段とを参照して、一つ以上の入力テキストから固有表 現を抽出するためのコンピュータ実行可能なプログラムであって、 前記抽出順序記憶手段に記憶されている順序で前記一つ以上の固有表現パター ンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出ス テツプと、
前記入力テキスト、その入力テキストから前記固有表現抽出ステップで抽出された 固有表現、及びその抽出が行われた前記順序における段を対応付けて記憶する固 有表現記憶ステップと、
既定の段を指定するか、又は共通の段において抽出された一つ以上の固有表現 をユーザ操作に応じて指定する表示条件指定ステップと、
前記表示条件指示ステップで既定の段が指定された場合、前記固有表現記憶ステ ップで記憶され、かつ前記指定された段に対応する全ての固有表現を取得し、また、 前記表示条件指示ステップで一つ以上の固有表現が指定された場合、前記固有表 現記憶ステップで記憶され、かつ前記指定された各固有表現に対応する入力テキス トについて前記共通の段の次の段に対応する固有表現を取得する固有表現取得ス テツプと、
前記固有表現取得ステップで取得された固有表現から重複を削除する重複削除ス テツプと、
前記重複削除ステップで重複を削除されて残った固有表現を表示する表示ステツ プと
をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2005/023768 2005-06-15 2005-12-26 固有表現抽出装置、方法、及びプログラム WO2006134682A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007521081A JP4129048B2 (ja) 2005-06-15 2005-12-26 固有表現抽出装置、方法、及びプログラム
CN2005800496646A CN101167075B (zh) 2005-06-15 2005-12-26 专有表现抽取装置、方法以及程序
US11/916,222 US7761437B2 (en) 2005-06-15 2005-12-26 Named entity extracting apparatus, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-175678 2005-06-15
JP2005175678 2005-06-15

Publications (1)

Publication Number Publication Date
WO2006134682A1 true WO2006134682A1 (ja) 2006-12-21

Family

ID=37532053

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/023768 WO2006134682A1 (ja) 2005-06-15 2005-12-26 固有表現抽出装置、方法、及びプログラム

Country Status (4)

Country Link
US (1) US7761437B2 (ja)
JP (2) JP4129048B2 (ja)
CN (1) CN101167075B (ja)
WO (1) WO2006134682A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1965312A3 (en) * 2007-03-01 2010-02-10 Sony Corporation Information processing apparatus and method, program, and storage medium

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
US7917489B2 (en) * 2007-03-14 2011-03-29 Yahoo! Inc. Implicit name searching
EP2025523B1 (en) 2007-07-26 2014-10-22 Brother Kogyo Kabushiki Kaisha Sheet processing apparatus
JP2009094658A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd 関連情報提供装置、及び関連情報提供方法
US7987416B2 (en) * 2007-11-14 2011-07-26 Sap Ag Systems and methods for modular information extraction
US8185509B2 (en) * 2008-10-15 2012-05-22 Sap France Association of semantic objects with linguistic entity categories
US20100138402A1 (en) * 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
JP4645731B2 (ja) * 2008-12-10 2011-03-09 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像データ管理方法、およびコンピュータプログラム
JP2010149537A (ja) * 2008-12-23 2010-07-08 Autonetworks Technologies Ltd 制御装置、制御方法及びコンピュータプログラム
JP5540537B2 (ja) * 2009-03-24 2014-07-02 株式会社オートネットワーク技術研究所 制御装置、制御方法及びコンピュータプログラム
US8290968B2 (en) 2010-06-28 2012-10-16 International Business Machines Corporation Hint services for feature/entity extraction and classification
CN102737030A (zh) * 2011-04-06 2012-10-17 上海量明科技发展有限公司 专利文档的数据输出方法、终端及系统
JP2016133861A (ja) * 2015-01-16 2016-07-25 株式会社ぐるなび 情報多言語変換システム
US10776424B2 (en) * 2016-07-29 2020-09-15 Newswhip Media Limited System and method for identifying and ranking trending named entities in digital content objects
US10803057B1 (en) 2019-08-23 2020-10-13 Capital One Services, Llc Utilizing regular expression embeddings for named entity recognition systems
US11586812B2 (en) 2019-10-31 2023-02-21 International Business Machines Corporation Unsupervised generation of rules for an adapter grammar
US10904027B1 (en) 2020-03-31 2021-01-26 Amazon Technologies, Inc. Usage-based device naming and grouping
CN116737924B (zh) * 2023-04-27 2024-06-25 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134600A (ja) * 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2002334076A (ja) * 2001-05-10 2002-11-22 Communication Research Laboratory テキスト処理方法
JP2004046775A (ja) * 2002-05-15 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2004086534A (ja) * 2002-08-27 2004-03-18 Nippon Telegr & Teleph Corp <Ntt> 時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2004312627A (ja) * 2003-04-10 2004-11-04 Matsushita Electric Ind Co Ltd テレビジョン受像装置およびその番組情報検索方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JPH10283355A (ja) 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JP3575242B2 (ja) * 1997-09-10 2004-10-13 日本電信電話株式会社 キーワード抽出装置
JP2000099501A (ja) * 1998-09-17 2000-04-07 Internatl Business Mach Corp <Ibm> 文書データへの情報の埋め込み方法およびシステム
JP2001318792A (ja) * 2000-05-10 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP4106889B2 (ja) 2001-09-25 2008-06-25 沖電気工業株式会社 情報検索システム
US7315810B2 (en) 2002-01-07 2008-01-01 Microsoft Corporation Named entity (NE) interface for multiple client application programs
EP1485825A4 (en) * 2002-02-04 2008-03-19 Cataphora Inc DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134600A (ja) * 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体
JP2002334076A (ja) * 2001-05-10 2002-11-22 Communication Research Laboratory テキスト処理方法
JP2004046775A (ja) * 2002-05-15 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2004086534A (ja) * 2002-08-27 2004-03-18 Nippon Telegr & Teleph Corp <Ntt> 時系列情報からの固有情報抽出方法および装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2004312627A (ja) * 2003-04-10 2004-11-04 Matsushita Electric Ind Co Ltd テレビジョン受像装置およびその番組情報検索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1965312A3 (en) * 2007-03-01 2010-02-10 Sony Corporation Information processing apparatus and method, program, and storage medium

Also Published As

Publication number Publication date
JP4129048B2 (ja) 2008-07-30
JPWO2006134682A1 (ja) 2009-01-08
US7761437B2 (en) 2010-07-20
JP2008152774A (ja) 2008-07-03
CN101167075A (zh) 2008-04-23
JP4977589B2 (ja) 2012-07-18
US20090119274A1 (en) 2009-05-07
CN101167075B (zh) 2010-05-12

Similar Documents

Publication Publication Date Title
WO2006134682A1 (ja) 固有表現抽出装置、方法、及びプログラム
US11048882B2 (en) Automatic semantic rating and abstraction of literature
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
JP2011134334A (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN101526938B (zh) 文档处理装置
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN110866408B (zh) 数据库制作装置以及检索系统
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
US20130054578A1 (en) Text search apparatus and text search method
JP4959603B2 (ja) ドキュメントを解析するためのプログラム,装置および方法
JP5224532B2 (ja) 評判情報分類装置及びプログラム
US20200005169A1 (en) System for predicting mood of user by using web content, and method therefor
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP2012141681A (ja) クエリセグメント位置決定装置
JP2000259653A (ja) 音声認識装置及び音声認識方法
JP2005173999A (ja) 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP7180767B2 (ja) 応答処理プログラム、応答処理方法および情報処理装置
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP2016035688A (ja) テキスト分析装置、テキスト分析方法、テキスト分析プログラムおよび記録媒体
JP2008293070A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007521081

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580049664.6

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 11916222

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05820180

Country of ref document: EP

Kind code of ref document: A1