WO2010103916A1 - 文書の特徴語提示装置及び特徴語の優先度付与プログラム - Google Patents

文書の特徴語提示装置及び特徴語の優先度付与プログラム Download PDF

Info

Publication number
WO2010103916A1
WO2010103916A1 PCT/JP2010/052710 JP2010052710W WO2010103916A1 WO 2010103916 A1 WO2010103916 A1 WO 2010103916A1 JP 2010052710 W JP2010052710 W JP 2010052710W WO 2010103916 A1 WO2010103916 A1 WO 2010103916A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
word
specific
specific position
feature
Prior art date
Application number
PCT/JP2010/052710
Other languages
English (en)
French (fr)
Inventor
真弓 竹田
Original Assignee
コニカミノルタホールディングス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタホールディングス株式会社 filed Critical コニカミノルタホールディングス株式会社
Publication of WO2010103916A1 publication Critical patent/WO2010103916A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Definitions

  • the present invention relates to a document feature word presentation device that extracts and presents feature words representing the content of a document, and a feature word priority assignment program that gives priority to the feature words for presentation.
  • Information such as the file name, storage location (folder path, etc.), and storage time can be easily obtained as information for obtaining an overview of the document content. However, it is difficult to determine the document content using only this information. There are many cases.
  • a method of presenting a part of the contents of each document as a summary or generating and presenting a summary sentence is also performed (for example, see Patent Document 1).
  • Patent Document 1 rather than displaying the search result of a document in the original text, a summary sentence from a viewpoint desired by the user is created and presented so that the contents of the document searched by the user can be easily understood.
  • a document information retrieval apparatus that can quickly determine whether or not necessary is described.
  • Patent Document 2 when outputting a search result of a document, a characteristic important word group is acquired, and the important word (characteristic word) group is displayed together with the search result, so that a narrow search is easy and appropriate.
  • the technology which can be done is proposed.
  • Patent Document 1 a summary sentence can be created and displayed (see Patent Document 1), or a group of keywords can be extracted and displayed (see Patent Document 2) so that the user can quickly and accurately understand the contents of the document.
  • Patent Document 2 a summary sentence can be created and displayed (see Patent Document 1), or a group of keywords can be extracted and displayed (see Patent Document 2) so that the user can quickly and accurately understand the contents of the document.
  • Technology has been proposed.
  • Patent Document 1 it is difficult to read the summary display in the sentence format, such as displaying a large number of documents in a list format, and may not be appropriate.
  • Patent Document 2 there are many cases where the word to be used as a keyword differs depending on the person or application, and when trying to deal with them, the number of keywords to be held increases, which may cause inconvenience in management and search. . In addition, when there is a restriction in the recording area, it may be necessary to narrow down.
  • the present invention has been made in view of the above technical problems. It is an object of the present invention to extract and present a feature word group that can appropriately represent the contents of a document, and to easily understand the contents of each document and its difference even in a list format of a large number of documents. It is to provide a document feature word presentation device and a feature word priority assigning program that can appropriately convey the contents of a document even if there is a restriction on the document.
  • the present invention has the following features.
  • Feature word extraction means for extracting a feature word characterizing the content of the document from a document to be presented; Specific position acquisition means for acquiring a specific position in the document that meets a predetermined specific position acquisition condition from the document; Distance calculation means for calculating the distance between the appearance position of the feature word extracted by the feature word extraction means in the document and the specific position acquired by the specific position acquisition means; Feature word priority assigning means for assigning a priority of presentation to the feature words extracted by the feature word extracting means based on the distance calculated by the distance calculating means; Storage means for storing the feature word given the priority, the specific position acquired by the specific position acquisition means, the distance calculated by the distance calculation means, and information for extracting them; A feature word presentation device for a document, comprising: feature word presentation means for selectively presenting the feature words according to the priority assigned by the feature word priority assignment means.
  • the said specific position acquisition means acquires the specific word according to the said specific position acquisition condition in the said document, and acquires the position where this specific word appears in the said document as said specific position.
  • the said 1 characterized by the above-mentioned. Document feature word presentation device.
  • the distance calculation means sets a section in the document, and calculates a distance between sections to which the specific position and the appearance position of the feature word respectively belong as the distance.
  • Feature word presentation device sets a section in the document, and calculates a distance between sections to which the specific position and the appearance position of the feature word respectively belong as the distance.
  • the distance calculating means sets the document as a structured document, and calculates the distance on the tree structure of the specific position and the appearance position of the feature word in the structured document as the distance.
  • a feature word presentation device for a document according to 1.
  • Computer Feature word extraction means for extracting a feature word characterizing the content of the document from a document to be presented with the content; Specific position acquisition means for acquiring a specific position in the document that meets a predetermined specific position acquisition condition from the document; Distance calculation means for calculating a distance between the appearance position of the feature word extracted by the feature word extraction means in the document and the specific position acquired by the specific position acquisition means; Feature word priority assigning means for assigning a presentation priority to the feature words extracted by the feature word extracting means based on the distance calculated by the distance calculating means;
  • a program for assigning priorities of feature words of a document characterized in that
  • the said specific position acquisition means acquires the specific word according to the said specific position acquisition conditions in the said document, and acquires the position where this specific word appears in the said document as the said specific position.
  • the said 15 characterized by the above-mentioned. Prioritization program for document feature words.
  • the distance calculation means sets a section in the document, and calculates the distance between sections to which the specific position and the appearance position of the feature word respectively belong as the distance.
  • Feature word prioritization program sets a section in the document, and calculates the distance between sections to which the specific position and the appearance position of the feature word respectively belong as the distance.
  • the distance calculating means sets the document as a structured document, and calculates the distance on the tree structure of the specific position and the appearance position of the feature word in the structured document as the distance. 15.
  • the feature word group that can appropriately represent the contents of the document is extracted, and the appearance positions of the feature words in the document are Based on the distance from the specific position selected under a predetermined condition, an appropriate priority can be given to those feature words.
  • FIG. 2 It is a block diagram which shows the example of schematic structure of the characteristic word presentation apparatus of the document based on this invention. It is a flowchart which shows the flow of the whole process of the feature word presentation method in the feature word presentation apparatus of the document which concerns on this invention. 3 is a flowchart showing in more detail the process of feature word processing in FIG. 2, that is, the flow of feature word extraction and priority assignment processing. The flowchart of the example of a procedure of the phrase extraction process of the object document is shown. It is a figure which shows the example list (part) of an extraction word / phrase.
  • FIG. 1 Each flowchart of (a) the example of a procedure of a feature word extraction process and (b) the example of a process which produces
  • the flowchart of the example of a procedure of a specific position acquisition process is shown.
  • the example (part) of the specific position list acquired by the specific position acquisition process is shown.
  • the flowchart of the example of a procedure of distance calculation processing is shown. It is a figure which shows the example of the feature word distance list
  • the flowchart of the example of a procedure of a priority provision process is shown.
  • FIG. 14 is a diagram illustrating an example of a priority feature word list in which priority is given to the feature words in the feature word list illustrated in FIG. 7 according to the distance with reference to the feature word distance list in FIG. 11.
  • A Flowcharts of a procedure example of a method for classifying a document to extract a word representing a document type
  • FIG. 1 is a block diagram showing a schematic configuration example of a document feature word presentation apparatus according to the present invention. With reference to FIG. 1, a schematic configuration and a function of each component of a feature word presentation device for a document as an embodiment of the present invention will be described.
  • reference numeral 1 denotes a document feature word presentation device according to the present embodiment.
  • a general information processing device represented by a personal computer (PC) or the like is assigned priorities of document feature words according to the present invention. It is realized by applying a program and making it function.
  • the document feature word presentation device 1 has the following components as an information processing device.
  • Reference numeral 2 denotes a feature word processing unit, which extracts a feature word representing the document content, in particular, from the operation function for presenting an outline of the target document using the feature word for the target word of the document feature word presentation device 1. And has a function of a part for giving priority for presentation.
  • a control unit comprising a CPU, which controls the overall processing functions of the document feature word presentation device 1 which is an information processing device.
  • processing of a document accessed by the user that is, acquisition of a target document, feature word extraction of the feature word processing unit 2, acquisition of a specific position, distance calculation and priority assignment, and document processing using feature words according to priority
  • the presentation of the outline is controlled.
  • Reference numeral 4 denotes a storage means such as a hard disk, which stores and holds data and information necessary for the control performed by the control unit 3 for the processing related to priority assignment from the feature word extraction of the feature word processing unit 2 and other processing. .
  • Reference numeral 5 denotes a display unit such as a display, which functions as a feature word presentation unit that presents an outline of a document using feature words according to the priority of presentation under the control of the control unit 3. Other data and information for informing the user are displayed under the control of the control unit 3.
  • the 6 is an operation unit such as a keyboard, which accepts data and information input by the user according to the display content of the display unit 5 and the like.
  • the acquired data and information are subjected to necessary processing such as being stored in the storage unit 4 by the control unit 3.
  • a communication unit which is an input / output interface device. Under the control of the control unit 3, necessary data and information are transmitted or received to / from other storage devices or other information processing devices outside the document feature word presentation device 1.
  • the control unit 3 inputs / outputs a document file and other data to an external medium.
  • the feature word processing unit 2 extracts the feature words representing the document contents by the following means and assigns priorities for presentation.
  • the feature word extraction means 10 extracts a phrase from a document to be presented with the document content as a feature word, and creates a phrase list. Also, a word that meets a predetermined selection condition is extracted from the word list as a feature word, and a feature word list is created.
  • the specific position acquisition unit 20 acquires, from the target document, a position of a specific word that meets a predetermined specific position acquisition condition or a position in a document that meets a predetermined specific position acquisition condition as the specific position, and the document. Create a list of specific locations.
  • the distance calculation means 30 calculates the distance between each specific position in the specific position list and the appearance position of each feature word in the target document, obtains the shortest distance from the specific position for each feature word, and includes distance information. Create a feature word distance list.
  • the feature word priority assigning means 40 determines the priority of each feature word in the feature word list based on the distance from the specific position in the feature word distance list of the target document. Also, a feature word list with priority is created.
  • FIG. 2 is a flowchart showing the overall processing flow of the feature word presentation method in the document feature word presentation apparatus according to the present invention. With reference to FIG. 2, the overall processing procedure of the document feature word presentation method in the feature word presentation apparatus of the present invention will be described.
  • the target document is first determined for the feature word presentation device of the document, and the process starts in a state acquired by the feature word presentation device.
  • step S10 the feature word extraction step of step S10 is executed.
  • phrases are extracted from the acquired document for which feature words are to be presented, and a phrase list is created.
  • feature words that meet a predetermined selection condition are extracted from the word list to create a feature word list.
  • a specific position in the document is acquired according to the specific position acquisition condition.
  • the specific position acquisition condition specifies a specific word selection condition or directly specifies a specific position condition.
  • the appearance position of the specific word is the specific position.
  • a specific position list describing the acquired specific positions is created.
  • step S30 the distance between each specific position in the specific position list and the appearance position of each feature word is calculated, the shortest distance from the specific position is obtained for each feature word, and the feature word distance list with distance information is obtained.
  • step S40 priority is determined for each feature word in the feature word list based on the distance from the specific position in the feature word distance list of the target document. Also, a feature word list with priority is created.
  • each step included in the feature word processing step is realized by a computer (CPU) functioning in accordance with a feature word priority assignment program according to the present invention. A detailed procedure example of each step will be described later.
  • step S50 feature words are presented to represent the contents of the target document according to the priority of each feature word up to step S40.
  • the presentation of the feature words according to the priority is displayed in a predetermined format together with the target document name on the display unit 5 or the like under the control of the control unit 3, such as displaying the predetermined number of feature words in priority order.
  • the form of the document for which the feature word is presented is not limited. Any form may be used as long as a feature word can be extracted.
  • voice data converted into text by voice recognition processing may be used. Further, it may be one file or may be composed of a plurality of files.
  • the feature word processing steps are the feature word extraction step in step S10, the specific position acquisition step in step S20, the distance calculation step in step S30, and the feature word priority in step S40 It demonstrates in order of a degree provision process.
  • FIG. 3 is a flowchart showing the flow of step S10 (feature word extraction process) in FIG. 2, that is, a phrase extraction process and a feature word extraction process. A detailed procedure example of the phrase extraction process and the feature word extraction process will be described.
  • FIG. 4 shows a flowchart of a procedure example of the phrase extraction process.
  • step S111 in FIG. 4 first, a document file that is a target of feature word presentation is acquired.
  • step S112 the target document file is opened and the text (character data) is taken out.
  • a method of extracting a phrase using kanji or hiragana for Japanese may be used, and a method of extracting a phrase with a blank as a separator may be used for English.
  • a part of speech of a word may be obtained by using a part of speech analysis method, and a phrase of a specific part of speech (for example, a particle) that is difficult to express as a feature may not be extracted as a morpheme.
  • a phrase of a specific part of speech for example, a particle
  • FIG. 6A shows a flowchart of a procedure example of the phrase extraction process.
  • Model generation is a function that uses a learning corpus (language data) to manually assign attributes, learn words that should be added to feature words, and automatically tag words that approximate in the state of vector conversion as feature words Generate the model to be used.
  • learning corpus language data
  • step S503 tags (attributes are added) to words / phrases to be extracted as feature words manually.
  • Fig. 7 shows a list of extracted feature words. This is the feature word extracted in step S122 by applying the following model to the document file from which the words in FIG. 5 have been extracted and performing the process in step S121 in FIG.
  • ⁇ Compound word> A word obtained by combining a plurality of words including the extracted proper noun is extracted.
  • the FLR method is used for extraction.
  • the FLR method is a method in which the frequency F at which the term W appears in the document data is added to the connection frequency LR method or the connection type LR method.
  • the articulation frequency LR method scans the vocabulary and calculates the number of times a word appears on each of the left and right sides of the word. In the connection type LR method, the number of types of words that appear on the left and right of each word is counted.
  • the score LR (W) of the term W in the concatenation frequency LR method or the concatenation type LR method is Is defined as follows.
  • step S20 specific position acquisition step
  • the intent of this step is to set a position in a document and acquire it as a specific position, and acquire a specific position according to a predetermined specific position acquisition condition.
  • the specific position acquisition condition is, for example, when (a) acquiring a specific word for the document and acquiring the specific position of the specific word as the specific position, (b) directly specifying the specific position in the document. When specifying, it is conceivable.
  • the specific position is for calculating the distance from the feature word and giving the priority of the feature word as will be described later. Therefore, if a word that symbolizes the content of the document is acquired as a specific word for the user, the characteristic word that appears in the vicinity of the appearance position of the specific word is presented as a characteristic of the content of the document. It is intended to increase the priority.
  • a feature word that appears in the vicinity of the specific position further characterizes the contents of the document.
  • the priority of the presentation is to be increased.
  • the criteria for assigning the priority of the feature word varies depending on the condition for selecting the specific word or the specific position.
  • the specific position acquisition condition should be set depending on the viewpoint from which the feature words are to be narrowed down.
  • a specific position acquisition condition for acquiring a word included in a document title as a specific word is used.
  • the title of the document includes a phrase that symbolizes the document, and from the viewpoint of grasping the content of the document, the feature word that appears in the vicinity of the occurrence of the phrase similarly characterizes the content. It can be regarded as likely.
  • FIG. 8 shows a flowchart of a procedure example of the specific position acquisition process.
  • step S21 it is determined whether to acquire a specific word or directly acquire a specific position according to the specific position acquisition condition.
  • the specific position acquisition condition in this embodiment is a condition that a specific word is acquired and its appearance position is set as the specific position, and the specific word is a word included in the title of the document.
  • step S21: YES If the specific word is acquired based on the specific position acquisition condition in step S21 (step S21: YES), the next step S22 is executed. Or when acquiring a specific position directly according to a specific position acquisition condition (step S21: NO), step S24 is performed.
  • a specific word is acquired based on the specific position acquisition condition.
  • the condition is that a word included in the title of the document is a specific word.
  • a specific word may be acquired by extracting a file name or a sentence described at the top of the document.
  • step S23 for each acquired specific word, the appearance position in the document is acquired as the specific position. If there are a plurality of appearance positions for each specific word, a plurality of specific positions are acquired for each specific word.
  • step S24 the specific position in the document is directly acquired according to the specific position acquisition condition. If there are a plurality of positions according to the specific position acquisition condition in the document, a plurality of specific positions are acquired.
  • step S23 When the specific position is acquired in step S23 or step S24, the specific position acquired in the specific position list in step S25 is described, and the list is held in a form that can be referred to by the selected document.
  • FIG. 9A shows an example of a specific position list when a word included in a title is acquired as a specific word according to the specific position acquisition condition, and the appearance position of the specific word is acquired as the specific position. For the selected specific word, the appearance position, that is, the specific position is listed.
  • the specific position is used as a reference for giving priority to the feature word of the target document. Therefore, it is necessary to select the specific position acquisition condition so that the feature word representing the feature of the document is located near the specific position.
  • the position where the word included in the title that will most clearly indicate the content of the document is acquired as the specific position, and the priority of the characteristic word located in the vicinity thereof is increased, thereby further improving the document.
  • the specific position acquisition condition is set from the viewpoint that a feature word that characterizes can be selected.
  • FIG. 9B shows an example of the specific position list in the case where the specific position acquisition condition is a condition for directly specifying the specific position.
  • the position described in the figure or table is the specific position (see the fifth embodiment to be described later).
  • FIG. 10 shows a flowchart of an example of a procedure for calculating the distance between the feature word and the specific position.
  • step S31 an unprocessed (distance calculation is not performed) specific position described in the specific position list is acquired.
  • step S32 the sentence (text data) placed at the acquired specific position in the document is taken out.
  • step S33 it is determined whether or not the extracted sentence (text) includes a feature word described in the feature word list extracted by the feature word extraction process.
  • step S34 determination and a branch process of the procedure based on the determination are performed.
  • the feature word (may be plural) is acquired, and step S35 is executed. If the feature word is not included (step S34: NO), the process returns to step S31 as it is, and the above process is repeated for the next unprocessed specific position.
  • a method of counting the number of characters (Nc) from a specific position to the feature word is defined as the distance on the text data. In this way, it is estimated that the closer the distance in the sentence is, the stronger the relation is. Therefore, as described later, it is appropriate to increase the priority of the feature word that is close to the specific position.
  • step S36 a feature word distance list in which the distance calculated in step S35 is described in association with a feature word and a specific position is created if not created, or added and listed if already created. To do.
  • the distance described in the feature word distance list may be defined so as to be represented by the shortest distance for different specific words (or specific positions) and in different sentences.
  • step S37 it is determined whether or not the above process has been completed for all the specific positions described in the specific position list. If all the specific positions have been processed (step S37: YES), step S38 is executed. If unprocessed specific positions remain (step S37: NO), the process returns to step S31, and the above steps are repeated until the processing is completed for all the specific positions described in the specific position list.
  • step S38 the distance described in the created feature word distance list is represented by the shortest distance when a plurality of distances are described for the same feature word.
  • processing may be performed by selecting the shortest distance in the feature word priority assignment processing described later, or depending on the purpose, the representative distance may be defined by another method instead of the shortest distance.
  • FIG. 11 shows an example (part) of a feature word distance list in which the distance between the specific position calculated based on the specific position list shown in FIG. 9A and the feature word is listed for each feature word.
  • the feature words are arranged in the same order as the feature word list of FIG. 7, and the shortest distance (Nc: represented by the number of characters) is represented for each feature word.
  • Nc represented by the number of characters
  • a feature word whose distance has not been calculated (not found in the vicinity of the specific position) has a blank distance.
  • the distance is calculated only when the feature word is included in the sentence determined by the specific position, but the distance is not limited thereto.
  • the distance may be calculated in units of classification according to the classification of the document. For example, in addition to sentence units, distance calculations such as paragraph units, section units, chapter units, and page units can be assumed.
  • This distance calculation method can be applied regardless of the length of the document or the document format, and can also be applied to a document such as a presentation material in which sections are divided for each page.
  • a structure tree may be created and the distance between the tree structures may be calculated.
  • the distance between tree structures there is the following literature by Chiba University Kawashima et al. ⁇ "Approximate calculation of distance between tree structures" IEICE technical report.
  • Structuring makes it possible to calculate a semantic distance.
  • the weighting of the distance immediately after that position is increased, and when the specific position is determined by the position of the table, the position immediately before that position (if horizontal writing) The weight of the distance in the upward direction may be increased.
  • FIG. 12 is a flowchart illustrating an example of a procedure for priority assignment processing for assigning priority to feature words according to distance.
  • a predetermined priority is given as an initial setting to each feature word described in the feature word list.
  • the default priority is set to 0 as a numerical value, and the priority is increased according to the proximity of the distance.
  • step S42 for each feature word, the distance of the corresponding feature word is acquired from the feature word distance list, and the priority is increased accordingly.
  • priority 0 (initial setting) + 1 / Nc.
  • Nc 0 (when the specific position or the position of the specific word matches the position of the feature word)
  • priority 0 (initial setting) is set.
  • Nc 0 (when the specific position or the position of the specific word matches the position of the feature word)
  • the priority is as it is (initial setting).
  • presentation priority is assigned to all feature words described in the feature word list, and the feature word list is a feature word list with priority (feature word priority list). It will be recreated.
  • FIGS. 13A and 13B refer to the feature word distance list in FIG. 11 with respect to the feature words in the feature word list shown in FIG. An example of a given feature word list with priority is shown.
  • FIG. 13A is a feature word priority list in which the priorities are initially set
  • FIG. 13B is an example of a feature word priority list given priority based on distance.
  • the present invention is not limited to this.
  • the feature word distance may be corrected according to the type of the feature word or the specific position acquisition condition.
  • the distances of all feature words may be normalized so that the maximum distance is 1, and a difference from 1 (maximum distance) may be used.
  • a feature word group capable of appropriately expressing the contents of the document is extracted, and the appearance positions of the feature words in the document are extracted. Based on the distance from the specific position selected under a predetermined condition, an appropriate priority can be given to those feature words.
  • the specific position acquisition condition is set from the viewpoint of acquiring, as the specific position, the position where the word included in the title that will most characteristically indicate the content of the document appears. Is intended to preferentially select feature words that further characterize the document. That is, the closer the distance to the word included in the title is, the higher the priority of the characteristic word that characterizes the document is.
  • the second embodiment differs from the first embodiment only in the specific position acquisition condition in the specific position acquisition process shown in FIG. Only the difference in the specific position acquisition conditions will be described.
  • the specific position acquisition condition in the present embodiment is a condition when a document summary is to be presented as a search result in which a document is searched for a keyword.
  • the keyword input by the searched user is a specific word, and the specific word A specific position is acquired as the appearance position.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • the position where the search keyword appears as a word representing the content of the document with a high degree of interest of the user is acquired as the specific position, and is located in the vicinity of the search keyword in which the user is interested.
  • the third embodiment also differs from the first embodiment only in the specific position acquisition condition in the specific position acquisition process shown in FIG. Differences in specific position acquisition conditions will be described.
  • the specific position acquisition condition in the present embodiment acquires a specific position as an appearance position of the specific word, with a word having a high appearance frequency when a document viewed by the browsing user of the document is used as a population as a specific word. Is.
  • Step 1 Specify the browsing user of the document. For example, it is set so that a user ID is acquired when logging in to the apparatus, and a document browsing user can be specified using the acquired user ID.
  • Procedure 2 Extract words from other document groups viewed with the same user ID as the identified user.
  • the phrase extraction can be performed in the same manner as the phrase extraction procedure of FIG. 4 described in the first embodiment.
  • Procedure 3 Count the appearance frequency of each word extracted above. Further, the appearance frequency of each word is obtained for all the document groups (populations) that have been browsed, and the sum is summed up for each word.
  • Procedure 4 A predetermined number (for example, five) of words / phrases is set as a specific word in order from the highest appearance frequency of each word / phrase.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • a position where a word having a high appearance frequency and a high degree of knowledge and interest appears in a document browsed in the past by the user is acquired as a specific position, and the user browses or sees it. It is intended to preferentially select feature words that further characterize the document by increasing the priority of feature words located in the vicinity of words with high probability. That is, the priority of the feature word characterizing the document is increased as the distance from the word having a high appearance frequency is closer.
  • the fourth embodiment differs from the first embodiment only in the specific position acquisition condition in the specific position acquisition process shown in FIG. Differences in specific position acquisition conditions will be described.
  • the specific position acquisition condition in the present embodiment is to acquire a specific position as the appearance position of the specific word, using the specific type of feature word extracted in the document as the specific word.
  • feature words include the following types of feature words. ⁇ Proper nouns ⁇ Time words ⁇ Technical words ⁇ Document features ⁇ Compound words These details will be described later.
  • select feature words of a type other than the types (proprietary nouns and compound words in this embodiment) employed in the feature word extraction process see the description of step S12 in FIG. 3).
  • a specific word may be used.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • a position where a specific type of feature word different from the feature word characterizing the document, such as a feature word representing time appears as the specific position.
  • the feature representing time It is intended to preferentially select feature words that further characterize a document, for example, by increasing the priority of feature words that include personal names that are likely to be located near words. That is, the priority of the feature word that characterizes the document is increased as the distance from the specific type of feature word selected from different viewpoints is closer.
  • the fifth embodiment differs from the first embodiment only in the specific position acquisition condition in the specific position acquisition process shown in FIG. Differences in specific position acquisition conditions will be described.
  • the specific position acquisition condition in the present embodiment is to acquire the specific position as the appearance position of the chart in the document.
  • conditions such as the maximum area or the first appearance may be added.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • description characterizing the contents of the document attention is paid to the figure or table, and the position where they appear or any one of them is acquired as the specific position. It is intended to preferentially select feature words that further characterize the document by increasing the priority of feature words located in the vicinity. In other words, the closer the distance to the figure or table in the document, the higher the priority of the feature word that characterizes the document.
  • the sixth embodiment differs from the first embodiment only in the specific position acquisition condition in the specific position acquisition process shown in FIG. Differences in specific position acquisition conditions will be described.
  • the specific position acquisition condition in this embodiment is to acquire the start position of the document as the specific position. There is a high probability that an outline of the document is described at the beginning of the document, and there is a high possibility that a characteristic word that further characterizes the content of the document is included.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • the top position of a document with a high probability that the outline of the document is described is acquired as the specific position, and the priority of the feature word included in the description of the outline that will be located in the vicinity thereof This is intended to preferentially select feature words that further characterize the document. That is, the closer the distance to the head position of the document, the higher the priority of the feature word that characterizes the document.
  • the seventh embodiment differs from the first embodiment only in the specific position acquisition condition in the specific position acquisition process shown in FIG. Differences in specific position acquisition conditions will be described.
  • the specific position acquisition condition in the present embodiment is to acquire the end position of the document as the specific position. There is a high probability that the end of the document contains the conclusion of the document, and there is a high possibility that a feature word that further characterizes the content of the document will be included.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • the end position of the document with a high probability that the conclusion of the document is described is acquired as the specific position, and the priority of the feature word included in the description of the conclusion that will be located in the vicinity thereof This is intended to preferentially select feature words that further characterize the document. That is, the closer the distance from the end position of the document is, the higher the priority of the feature word that characterizes the document is.
  • the eighth embodiment differs from the first embodiment only in the specific position acquisition conditions in the specific position acquisition process shown in FIG. Differences in specific position acquisition conditions will be described.
  • the specific position acquisition condition in this embodiment is to classify a document as a page and acquire the center position of the page as a specific position.
  • a document or the like as a presentation material has a high probability that an important phrase appropriately indicating the content is laid out in the central portion of the page, and there is a high possibility that a characteristic word that further characterizes the content of the document is included.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • the center position of a page with a high probability that an important word is described in a presentation material or the like is acquired as a specific position, and an important word or phrase that is located in the vicinity thereof, that is, a characteristic word It is intended to preferentially select feature words that further characterize the document by increasing the priority. That is, the closer the distance to the center position of the page of the document, the higher the priority of the feature word that characterizes the document.
  • the ninth embodiment differs from the first embodiment only in the specific position acquisition condition in the specific position acquisition process shown in FIG. Differences in specific position acquisition conditions will be described.
  • the specific position acquisition condition in this embodiment is to classify a document as a page and acquire the top position of the page as a specific position.
  • a document or the like as a presentation material has a high probability that the title of the page is laid out at the top of the page, and there is a high possibility that a characteristic word that further characterizes the content of the document is included.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • the top position of a page with a high probability that the title of the page is described in the presentation material or the like is acquired as the specific position, and the feature word included in the title of the page that will be positioned in the vicinity thereof It is intended to preferentially select feature words that further characterize the document by increasing the priority of. That is, the priority of the feature word that characterizes the document is increased as the distance from the top position of the page of the document is shorter.
  • the tenth embodiment differs from the first embodiment in the specific position acquisition conditions in the specific position acquisition process shown in FIG. 8 and the distance calculation method shown in FIG. The difference between the specific position acquisition condition and the distance calculation method will be described.
  • the specific position acquisition condition in this embodiment is to acquire the appearance position of the symbol in the document as the specific position.
  • a document as a presentation material has a high probability that a description of a result is laid out after a symbol such as an arrow appears, and a feature word that further characterizes the content of the document is likely to be included.
  • the processing described in the first embodiment may be modified based on the following concept.
  • a sentence appearing in a direction indicated by a symbol (arrow) at a specific position is extracted, and a feature word (described in a feature word list) included in the extracted sentence is obtained.
  • the distance the number of characters (Nc) between the obtained feature word and the specific position (arrow position) may be counted and used as the distance.
  • the specific position acquisition condition is set so that the feature word representing the feature of the document is located near the specific position, as in the first embodiment.
  • the position of a symbol such as an arrow having a high probability that various results are described in the vicinity is acquired as a specific position in a presentation material, etc., and is included in the result that will be positioned in the vicinity.
  • the “proprietary noun” is used as the feature word to be extracted, but the present invention is not limited to this.
  • the following words can be assumed as feature words.
  • -Words representing time Although it is difficult to input accurately as a key for keyword search, on the other hand, it is easy to distinguish a plurality of documents seen simultaneously as a result.
  • -Technical term It is easy to guess the content (field) of the document.
  • a word representing the type of document it is easy to guess the content (type) of the document.
  • words representing time can be extracted by the following method.
  • Motohide Iwase, Hirokazu Watanabe, Tsukasa Kawaoka Construction of a common-sense time-judgment system based on understanding the meaning of sentences" Information Processing Society of Japan Vol. 2007, no. 26 (2007) Yasushi Kaneda, "Analysis and Representation Method for Chronological Information for Text Retrieval Method to Generate Chronology Dynamically from Encyclopedia" 1999, no. 57 (1999).
  • ⁇ Words for document types> For example, a word representing the type of document is extracted.
  • the following methods have been proposed as means for classifying documents. Classification is performed by these classification methods, and the classification name of the classification destination can be used as a feature word.
  • step S601 a model is applied to each word, and the probability that a word (or a set of a plurality of words) belongs to each category is obtained.
  • step S602 the probability that a document (a set of words) belongs to each category is obtained based on the probability that each word belongs to each category.
  • step S603 the category having the highest probability of belonging is estimated as the category to which the document belongs.
  • the above model can generate a classification model by manually classifying the learning corpus.
  • FIG. 14B shows an example of the flow.
  • Model generation may be performed with reference to the following classification method. Daiya Takamura, Yuji Matsumoto “Document classification and composition function learning using SVM” Transactions of Information Processing Society of Japan: Database Vol. 44, no. SIG03 (2003) Daiya Takamura, Yuji Matsumoto “Document classification using independent component analysis: feature space reconstruction for SVM” Information Processing Society of Japan. Natural Language Processing Study Group Report Vol. 2001, no. 54 (2001).
  • a feature word group capable of appropriately expressing the contents of the document is extracted, and the document of the feature words is extracted.
  • Appropriate priorities can be assigned to the feature words based on the distance from the specific position selected under a predetermined condition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与する。これにより、文書の内容を適切に表現できる特徴語群を抽出し、提示するに際し、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような文書の特徴語提示装置及び特徴語の優先度付与プログラムが提供できる。

Description

文書の特徴語提示装置及び特徴語の優先度付与プログラム
 本発明は、文書の内容を表す特徴語を抽出し提示する文書の特徴語提示装置、及び該特徴語に提示のための優先度を付与する特徴語の優先度付与プログラムに関する。
 近年、文書をデジタル化し、コンピュータ等で、様々な処理を行うことが一般的になっている。大量の文書ファイルを蓄積し、迅速に検索し、必要な文書を取得し、処理を行うことが行われている。
 これらの文書ファイル処理を行うに際して、それぞれの文書の内容に関する概要を迅速に取得することが必要な局面が多々ある。
 文書の内容に関する概要を知るための情報として、ファイル名や保存場所(フォルダーパス等)、保存時刻などの情報が容易に取得できるが、しかしこれらの情報だけでは、文書の内容は判断が困難な場合も多い。
 各文書の内容の一部分をサマリーとして提示するとか、要約文を生成して提示するといった方法も行われている(例えば、特許文献1参照)。
 特許文献1には、文書の検索結果を原文で表示するのではなく、利用者の所望する視点での要約文を作成し、提示することにより、利用者が検索した文書の内容をたやすく理解し、要不要を素早く判定できる文書情報検索装置が記載されている。
 また、文書の内容をキーワードで表現し、メタデータとして保持しておくという方法もある(例えば、特許文献2参照)。
 特許文献2には、文書の検索結果を出力するに際し、特徴的な重要語群を取得し、検索結果と合わせて重要語(特徴語)群を表示することにより、絞り込み検索が簡易、かつ適切に行える技術が提示されている。
特開平7-182373号公報 特開2006-178599号公報
 上述したように、従来、文書の概略的内容を簡便にかつ迅速に把握できるような提示が行える方法や装置が求められてきた。そのため要約文を作成して表示(特許文献1参照)したり、キーワード群を抽出して表示(特許文献2参照)したりして、利用者に迅速にかつ的確に文書内容を理解させるための技術が提案されてきた。
 しかしながら、特許文献1に記載の技術では、多数の文書を一覧形式で表示するなど、文形式の概要表示は読みにくく、適切でない場合もある。
 また特許文献2に記載の技術では、キーワードとしたい語が人や用途により異なる場合が多く、それらに対処しようとすると保持するキーワード数が多くなり、管理や検索に不便が生じてくる場合もある。また記録領域に制約がある場合には、絞り込む必要が生じたりする。
 本発明は、上記の技術的課題を鑑みてなされたものである。本発明の目的は、文書の内容を適切に表現できる特徴語群を抽出し、提示するに際し、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような文書の特徴語提示装置及び特徴語の優先度付与プログラムを提供することである。
 上記の課題を解決するために、本発明は以下の特徴を有するものである。
 1.内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
 前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段と、
 前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段と、
 前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段と、
 前記優先度を付与された前記特徴語、前記特定位置取得手段により取得された前記特定位置、前記距離算出手段により算出された前記距離、及びそれらを抽出するための情報を記憶する記憶手段と、
 前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
 ことを特徴とする文書の特徴語提示装置。
 2.前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 3.前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
 ことを特徴とする前記2に記載の文書の特徴語提示装置。
 4.前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
 ことを特徴とする前記2に記載の文書の特徴語提示装置。
 5.前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
 ことを特徴とする前記2に記載の文書の特徴語提示装置。
 6.前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
 ことを特徴とする前記2に記載の文書の特徴語提示装置。
 7.前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 8.前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 9.前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 10.前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 11.前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 12.前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 13.前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 14.前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
 ことを特徴とする前記1に記載の文書の特徴語提示装置。
 15.コンピュータを、
 内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
 前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段、
 前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段、
 前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段、
 として機能させることを特徴とする文書の特徴語の優先度付与プログラム。
 16.前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 17.前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
 ことを特徴とする前記16に記載の文書の特徴語の優先度付与プログラム。
 18.前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
 ことを特徴とする前記16に記載の文書の特徴語の優先度付与プログラム。
 19.前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
 ことを特徴とする前記16に記載の文書の特徴語の優先度付与プログラム。
 20.前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
 ことを特徴とする前記16に記載の文書の特徴語の優先度付与プログラム。
 21.前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 22.前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 23.前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 24.前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 25.前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 26.前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 27.前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 28.前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
 ことを特徴とする前記15に記載の文書の特徴語の優先度付与プログラム。
 本発明に係る文書の特徴語提示装置及び特徴語の優先度付与プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与することができる。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。 本発明に係る文書の特徴語提示装置における特徴語提示方法の、全体としての処理の流れを示すフローチャートである。 図2における特徴語処理の工程、すなわち特徴語抽出と優先度付与処理の流れをより詳細に示すフローチャートである。 対象となる文書の語句抽出処理の手順例のフローチャートを示す。 抽出語句のリスト例(一部分)を示す図である。 (a)特徴語抽出処理の手順例、及び(b)上記手順で用いる「特徴語抽出のためのモデル」を生成する処理例の各フローチャートを示す。 抽出した特徴語のリスト例を示す図である。 特定位置取得処理の手順例のフローチャートを示す。 特定位置取得処理で取得した特定位置リストの例(一部分)を示す。 距離算出処理の手順例のフローチャートを示す。 距離算出処理で算出した特徴語距離リストの例を示す図である。 優先度付与処理の手順例のフローチャートを示す。 図7に示した特徴語リスト記載の特徴語に対して、図11の特徴語距離リストを参照して、距離に応じて優先度付与した優先度付き特徴語リストの例を示す図である。 (a)文書の種類を表す語を抽出するため文書を分類する方法の手順例、及び(b)その手順に用いるモデル生成の手順例の各フローチャートを示す。
 本発明の実施形態を、以下に図面を参照して説明する。
 (文書の特徴語提示装置の構成と機能)
 図1は、本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。図1を用いて、本発明の実施形態としての文書の特徴語提示装置について概略構成と各構成要素の機能を説明する。
 <全体構成>
 図1において、1は本実施形態に係る文書の特徴語提示装置であり、パーソナルコンピュータ(PC)などで代表される一般的な情報処理装置に、本発明に係る文書の特徴語の優先度付与プログラムを適用して機能させることにより実現される。文書の特徴語提示装置1は、情報処理装置として、以下に示すような構成要素を有する。
 2は特徴語処理部であり、文書の特徴語提示装置1が対象となる文書に対して、特徴語を用いてその概要を提示する動作機能のうち、特に、文書内容を表す特徴語を抽出し、提示するための優先度を付与する部分の機能を有する。
 それらの機能は、コンピュータのCPUが、それぞれに対応するプログラムに従って、特徴語抽出手段10、特定位置取得手段20、距離算出手段30、及び特徴語優先度付与手段40として機能することで実現される。それらの各手段の機能の詳細については後述する。
 3はCPUからなる制御部であり、情報処理装置である文書の特徴語提示装置1の処理機能全般を制御する。特に、ユーザがアクセスする文書の処理、すなわち対象となる文書の取得や特徴語処理部2の特徴語抽出、特定位置取得、距離算出と優先度付与、そして優先度に従った特徴語による文書の概要の提示等が制御される。
 4はハードディスク等の記憶手段であり、特徴語処理部2の特徴語抽出から優先度付与に関する処理やその他の処理について、制御部3が行う制御に伴い必要なデータや情報を記憶し、保持する。
 5はディスプレイ等の表示部であり、制御部3の制御により、提示の優先度に従い特徴語による文書の概要の提示を行う特徴語提示手段として機能する。その他ユーザに知らせるためのデータや情報を、制御部3の制御で表示する。
 6はキーボード等の操作部であり、表示部5の表示内容等に従ってユーザが操作入力したデータや情報を受け付ける。取得したデータや情報は、制御部3により記憶手段4に保持させる等の必要な処理が行われる。
 7は通信部であり、入出力のインタフェイス装置である。制御部3の制御により、文書の特徴語提示装置1の外部にある他の記憶装置あるいは他の情報処理装置との間で、必要なデータや情報を送信または受信する。
 8は外部媒体であり、メモリーやディスク等の可搬記録媒体である。ユーザが直接的に文書の特徴語提示装置1に装着などすることで、制御部3は文書ファイルその他のデータを外部媒体に入出力処理する。
 <特徴語処理部2の構成>
 上述したように、特徴語処理部2は、下記各手段により、文書内容を表す特徴語を抽出し、提示するための優先度を付与する。
 特徴語抽出手段10は、文書内容を特徴語で提示する対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する語を特徴語として抽出し、特徴語リストを作成する。
 特定位置取得手段20は、対象となる文書から所定の特定位置取得条件に適合する特定語の出現位置、または所定の特定位置取得条件に適合する文書中の位置を特定位置として取得し、その文書の特定位置リストを作成する。
 距離算出手段30は、対象となる文書における、特定位置リストの各特定位置と各特徴語の出現位置との距離を算出し、特徴語ごとに特定位置との最短距離を求め、距離情報付きの特徴語距離リストを作成する。
 特徴語優先度付与手段40は、特徴語リストの各特徴語について、対象となる文書の特徴語距離リストにおける特定位置との距離に基づいて優先度を決定する。また優先度付きの特徴語リストを作成する。
 これらの手段による機能動作の詳細については、図2、図3を用いて以下に各処理の流れを手順として説明する。
 (文書の特徴語提示方法の手順)
  <全体の処理の流れ>
 図2は、本発明に係る文書の特徴語提示装置において、特徴語提示方法の全体としての処理の流れを示すフローチャートである。図2を用いて、本発明の特徴語提示装置における文書の特徴語提示方法について、全体としての処理の手順を説明する。
 図2において、まず文書の特徴語提示装置に対して、対象となる文書が定まり、特徴語提示装置によって取得された状態で処理が開始する。
 まずステップS10の特徴語抽出工程が実行される。この工程では、取得した特徴語提示の対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する特徴語を抽出し、特徴語リストを作成する。
 次にステップS20の特定位置取得工程では、特定位置取得条件に従い、文書中の特定位置を取得する。特定位置取得条件は、特定語の選択条件を指定する、もしくは直接的に特定位置の条件を指定する。特定語の選択条件が指定された場合は、その特定語の出現位置が特定位置となる。取得された特定位置を記載する特定位置リストを作成する。
 ステップS30の距離算出工程では、特定位置リストの各特定位置と各特徴語の出現位置との距離を算出し、特徴語ごとに特定位置との最短距離を求め、距離情報付きの特徴語距離リストを作成する。
 ステップS40の特徴語優先度付与工程では、特徴語リストの各特徴語について、対象となる文書の特徴語距離リストにおける特定位置との距離に基づいて優先度を決定する。また優先度付きの特徴語リストを作成する。
 上記特徴語処理の工程に含まれる各工程は、既述したように、本発明に係る特徴語の優先度付与プログラムに従ってコンピュータ(CPU)が機能することにより実現される。各工程の詳細な手順例は後述する。
 次のステップS50では、ステップS40までの各特徴語の優先度に従って、対象となる文書の内容を表すべく、特徴語の提示を行う。優先度に従った特徴語の提示は、例えば定められた特徴語数を優先順に表示するなど、制御部3の制御により表示部5等に対象となる文書名称とともに定められた形式で表示する。
 これで全体の処理は終了する。必要であれば最初に戻って、処理を繰り返す、すなわち次の対象となる文書を待つような手順でもよい。
 上記の処理において、特徴語提示の対象となる文書の形態は問わない。特徴語を抽出できればどのような形態でもよい。例えば音声データを音声認識処理によりテキストに変換したものであってもよい。また、1つのファイルであってもよいし、複数のファイルから構成されていてもよい。
  <各処理手順の詳細>
 本発明の第1の実施形態に係る文書の特徴語提示装置における特徴語提示方法について、特徴語抽出から優先度付与に至る各処理の手順例を、適宜、図3から図13を参照して、以下に詳しく説明する。
 (第1の実施形態)
 図2で説明した全体の処理の流れに従い、上記特徴語処理の工程を、ステップS10の特徴語抽出工程、ステップS20の特定位置取得工程、ステップS30の距離算出工程、そしてステップS40の特徴語優先度付与工程の順に説明する。
 <特徴語抽出工程>
 図3は、図2におけるステップS10(特徴語抽出工程)、すなわち語句抽出処理と特徴語抽出処理とからなる流れを示すフローチャートである。語句抽出処理と特徴語抽出処理との詳細な手順例について説明する。
  <語句抽出処理>
 特徴語抽出工程においては、まずステップS11で語句抽出処理が行われる。図4に、語句抽出処理の手順例のフローチャートを示す。
 図4のステップS111で、まず特徴語提示の対象となる文書ファイルを取得する。
 次にステップS112で対象となる文書ファイルを開き、テキスト(文字データ)を取り出す。
 ステップS113では、取り出したテキストに対して、語句抽出のために形態素解析を行う。形態素解析は、公知の方法、例えばChasen(http://chasen-legacy.sourceforge.jp/)などを用いることができる。
 ステップS114で、形態素解析に基づき、テキストのすべての語句を抽出し、語句リストを作成し、対象となる文書及びその付属情報(例えばユーザIDなど)と関連付けて保持する。図5に抽出語句のリスト例(一部分)を示す。
 以上で語句抽出処理を終了する。
 なお上記では、語句抽出に形態素解析を用いたが、それに限るものではない。
 他の方法としては、例えば日本語であれば漢字か平仮名かで語句抽出する方法等を用いてもよいし、英語であれば空白を区切りとして語句抽出する手法等を用いてもよい。
 また複数の連続した語からなる特定のフレーズは、最後まで分解せずにフレーズのままで形態素とするように形態解析してもよい。
 特徴語を抽出するための語句リストであるから、すべての語句を抽出するのではなく、特徴を表しているとは言い難い語句は予め抽出しないような工夫をしておいてもよい。
 例えば品詞解析手法を用いて語の品詞を求め、特徴を表しているとは言い難い特定の品詞(例えば助詞など)の語句は形態素として抽出しないようにしてもよい。
 また特徴を表しているとは言い難い一般的な単語を予め辞書として保持しておき、該当する場合は語句として抽出しないようにしてもよい。
  <特徴語抽出処理>
 次に図3のステップS12で特徴語抽出処理が行われる。図6(a)に、語句抽出処理の手順例のフローチャートを示す。
 まず図6(a)のステップS121では、単語に分解されたテキスト(もしくは語句リスト)に対して、所定のモデル(特徴語抽出のためのモデル)を適用し、自動的に語句を選別しタグを付与する。
 次にステップS122で、所定のタグが付与された語句を抽出し、特徴語リストを作成し、対象となる文書及びその付属情報(例えばユーザIDなど)と関連付けて保持する。
 以上で特徴語抽出処理を終了する。
 図6(b)には、上記ステップS121で用いる「特徴語抽出のためのモデル」を生成する処理例のフローチャートを示す。
 モデル生成は学習用コーパス(言語データ)を用いて手作業で属性を付与して、特徴語足るべき語句を学習させ、ベクトル変換した状態で近似する語句を特徴語として自動タグ付けするように機能するモデルを生成する。
 まずステップS501では、学習用コーパスを入力する。
 次にステップS502で、学習用コーパスを単語(形態素)に分解する。
 ステップS503では、手作業で、特徴語として抽出したい語句にタグ付け(属性の付与)を行う。
 ステップS504で、タグ情報を含めた単語の情報を所定のルールでベクトル変換し、ステップS505で、ベクトル変換した情報を基に、モデル、すなわち自動でタグ付けを行うルールを生成する。
 以上で特徴語抽出のためのモデルを生成する処理は終了である。
 図7に抽出した特徴語のリスト例を示す。これは図5の語句を抽出した文書ファイルに対して、次に示すモデルを適用して図6(a)のステップS121の処理を行い、ステップS122で抽出した特徴語である。
  (特徴語の抽出基準)
 上記図7の例は、特徴語として、文書の内容を表しやすく、また複数の文書を区別しやすい固有名詞を含む複合語(複数の単語の組み合わせ)を抽出するモデルを、図6(b)に示した手順で生成し、適用したものである。特徴語の抽出基準(固有名詞を含む複合語)について、以下に詳しく述べる。
  <固有名詞>
 固有名詞などの特定の種類の語を抽出する手法として、MUC(Message Understanding Conference)で提唱された「固有表現抽出」という概念がある。「固有表現抽出」とは、人名・組織名などの固有名詞や、日付表現などの「特定の種類の用語」を抽出する手法全般を指す語である。固有名詞抽出の流れを図6(b)に手順例で示した。
  <複合語>
 抽出した固有名詞を含む複数の単語が組み合わさった語を抽出する。
 抽出には、例えば、FLR法を用いる。FLR法は、連接頻度LR法または連接種類LR法に、用語Wが文書データ中に出現した頻度Fを加味する方法である。詳細は(「出現頻度と連接頻度に基づく専門用語抽出」、湯本他、自然言語処理、10(1)27-45,2003年1月)を参照。
 連接頻度LR法は、語彙を走査し、用語Wを構成する単語について、該単語の左右それぞれに単語が出現する回数を計算する。また連接種類LR法は、単語の左右それぞれに何種類の単語が出現するかをカウントする。
 ここで、例えば、カタカナ語彙中の用語「サーバシステム、コンピュータシステム、オープンシステム」があり、構成する単語を分けると(サーバ|システム)、(コンピュータ|システム)、(オープン|システム)となり、単語「システム」の左に単語が3回出現したので、単語「システム」の連接頻度LR法での左方スコアはL(システム)=3となる。また単語「システム」の左に単語が3種類出現したので、連接種類LR法での左方スコアはL(システム)=3となる。
 一般に、単語w1、w2、・・・wnが連なって構成する用語W=w1、w2、・・・wnについて、連接頻度LR法または連接種類LR法の用語WのスコアLR(W)は、以下のように定義される。
Figure JPOXMLDOC01-appb-M000001
 <特定位置取得工程>
 図2のステップS20(特定位置取得工程)の詳細な手順例を以下に説明する。
  <特定位置取得条件>
 この工程の意図は、文書中に位置を設定し、特定位置として取得することにあり、所定の特定位置取得条件に従って特定位置の取得を行う。
 特定位置取得条件は、例えば、(a)その文書についての特定語を取得し、その特定語の文書中での出現位置を特定位置として取得する場合、(b)直接的に文書における特定位置を指定する場合、が考えられる。
 特定位置は、後述するように特徴語との距離を算出し、特徴語の優先度を付与するためのものである。従って、ユーザにとってその文書の内容を象徴するような語が特定語として取得されれば、その特定語の出現位置の近傍に出現する特徴語は、その文書の内容をより特徴づけるものとして提示の優先度を高くなるようにするものである。
 あるいは、文書における重要なポイントとなる文が置かれるような位置が直接的に特定位置として取得される場合も、その特定位置の近傍に出現する特徴語は、その文書の内容をより特徴づけるものとして提示の優先度を高くなるようにするものである。
 従ってこの特定語、あるいは特定位置を選択する条件によって、特徴語の優先度を付与する基準が変わってくる。どういう観点から特徴語を絞り込みたいかによって、特定位置取得条件の設定はなされるべきである。
 本実施形態では、以下に述べるように文書のタイトルに含まれる語を特定語として取得する特定位置取得条件とした。文書のタイトルには、その文書を象徴するような語句が含まれており、そういう文書の内容把握の観点から、その語句の出現する近傍で出現する特徴語は、同様に内容を特徴づけている可能性が高いと見なせる。
  <特定位置取得処理>
 図8に、特定位置取得処理の手順例のフローチャートを示す。
 まずステップS21で、特定位置取得条件に従い、特定語を取得するのか、それとも直接的に特定位置を取得するのかを判定する。本実施形態における特定位置取得条件は、特定語を取得してその出現位置を特定位置とするものであり、特定語は当該文書のタイトルに含まれる語であるという条件とする。
 ステップS21で特定位置取得条件に基づき特定語を取得する場合(ステップS21:YES)は、次のステップS22を実行する。あるいは特定位置取得条件に従い直接的に特定位置を取得する場合(ステップS21:NO)は、ステップS24を実行する。
 ステップS22では、特定位置取得条件に基づき特定語を取得する。本実施形態では、文書のタイトルに含まれる語を特定語とする条件である。タイトル以外に、ファイル名や、文書の先頭に記述されている文を抽出して特定語を取得するようにしてもよい。
 具体的に、例えば文書のタイトルから特定語を抽出する場合、タイトルが「ABC研究所訪問:KMスペシャル1異常原因解析」であるとすると、「ABC」「研究所訪問」「KM」「スペシャル」「1」「異常」「原因」「解析」という語句が特定語として取得されうる。
 ステップS23では、取得した各特定語について、それぞれ文書中での出現位置を特定位置として取得する。各特定語に対して複数の出現位置があれば、各特定語に対して複数の特定位置が取得される。
 一方ステップS24では、特定位置取得条件に従い直接的に文書中の特定位置が取得される。文書中で特定位置取得条件に従う位置が複数あれば、複数の特定位置が取得される。
 ステップS23、もしくはステップS24で特定位置が取得されると、ステップS25で特定位置リストに取得した特定位置を記載し、該リストを、選択した文書が参照可能な形で保持する。
 以上で特定位置取得処理を終了する。
 図9(a)に、特定位置取得条件に従ってタイトルに含まれる語を特定語として取得し、特定語の出現位置を特定位置として取得したときの特定位置リストの例を示す。選択された特定語に対して、その出現位置、すなわち特定位置がリストアップされる。
 本実施形態では、「ABC研究所訪問:KMスペシャル1異常原因解析」のタイトルからの、「ABC」「研究所訪問」「KM」「スペシャル」「1」・・・という特定語に対して、特定位置(位置1、2・・・)がリストアップされている。
 既に述べたように、特定位置は、対象となる文書の特徴語に対して、優先度を付与するための基準に用いられる。従って、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得の条件を選択する必要がある。
 本実施形態では、文書の内容を最も特徴的に示すであろうタイトルに含まれる語の出現する位置を特定位置として取得し、その近傍に位置する特徴語の優先度を上げることによって、より文書を特徴付ける特徴語を選択することができるという観点で特定位置取得条件が設定されている。
 なお、図9(b)に、特定位置取得条件が直接的に特定位置を指定するような条件の場合の特定位置リストの例を示す。ここでは図や表の記載されている位置を特定位置としている(後述する第5の実施形態参照)。
 <距離算出工程>
  <距離算出処理>
 次の距離算出工程(図2のステップS30)の処理手順例を、図10を用いて説明する。図10に、特徴語と特定位置との距離算出処理の手順例のフローチャートを示す。
 特定位置リストに記載されたすべての特定位置について以下の処理を行う。
 まずステップS31で、特定位置リストに記載された未処理(距離算出を行っていない)の特定位置を取得する。
 次にステップS32で、文書中の取得した特定位置に置かれている文(テキストデータ)を取り出す。
 ステップS33では、取り出した文(テキスト)に対して、特徴語抽出処理により抽出された特徴語リストに記載されている特徴語を含むかどうかを判定処理する。
 ステップS34で判定と判定による手順の分岐処理を行う。取り出した文に特徴語が含まれている場合(ステップS34:YES)は、その特徴語(複数の場合もあり)を取得し、ステップS35を実行する。特徴語が含まれていない場合(ステップS34:NO)は、そのままステップS31へ戻り、次の未処理の特定位置に対して上記処理を繰り返す。
 次のステップS35では、特定位置から、含まれていた各特徴語への距離を算出する。
 距離の算出方法は、例えば本実施形態のように、テキストデータ上の距離として、特定位置からその特徴語に至るまでの文字数(Nc)をカウントする等の方法を定義しておく。このように、文中での距離が近いほど関連が強いと推測されるので、後述するように特定位置との距離が近い特徴語の優先度を上げることが妥当となる。
 ステップS36では、ステップS35で算出した距離を特徴語、特定位置と関連付けて記載した特徴語距離リストを、未作成の場合は作成する、あるいは既作成の場合は追加してリストアップして、保持する。
 同じ文中の同じ特徴語に対して複数の同じ特定語(もしくは特定位置)が存在する場合は、算出された各距離の最短の距離で代表して取得するのが効率的でよい。もちろん後述するように、異なる特定語(もしくは特定位置)に対しても、異なる文中に対しても、最短の距離で代表させるように特徴語距離リストに記載する距離を定義してもよい。
 ステップS37では、特定位置リストに記載されたすべての特定位置について上記処理を終えたかどうかを判定する。すべての特定位置の処理を終えた場合(ステップS37:YES)は、ステップS38を実行する。未処理の特定位置が残っている場合(ステップS37:NO)は、ステップS31へ戻り、特定位置リストに記載されたすべての特定位置について処理を終えるまで、上記のステップを繰り返す。
 ステップS38では、上記作成した特徴語距離リストに記載の距離を、同じ特徴語に対して複数の距離が記載されている場合は、最短の距離で代表させる。これはすなわち、ステップS36で述べた、異なる特定語(もしくは特定位置)に対しても、異なる文中に対しても、最短の距離で代表させる、ということであり、ステップS36で実施しておいてもよい。
 また後述の特徴語優先度付与処理の中で最短の距離を選択して処理を行ってもよいし、目的によっては、最短の距離でなく別の方法で代表距離を定義してもよい。
 以上で距離算出処理は終了する。
 図11には、図9(a)に示した特定位置リストに基づいて算出した特定位置と特徴語の距離を各特徴語についてリストアップした特徴語距離リストの例(一部)を示す。
 ここでは、図7の特徴語リストと同順序に整理し、特徴語ごとに最短距離(Nc:文字数で表される)を代表して記載している。距離が算出されなかった(特定位置の近傍に見つからなかった)特徴語は距離が空欄となっている。
 なお上記手順例では、特徴語が特定位置により定まる文中に含まれている場合だけ距離を算出したが、それに限るものではない。
 例えば別の文中にある特徴語に対しても、文字単位ではなく文単位で距離をカウントするような方法も可能である。その場合、優先度付与に対して、文単位の距離を文字単位の距離より重み付けを大きくするようにすれば適切である。
 同様に文書の区分に応じて、区分単位で距離を算出してもよい。例えば、文単位以外に、段落単位、節単位、章単位、頁単位などの距離算出が想定できる。
 こういった距離の算出方法により、文書の長短や文書形式に関わらず適用でき、またプレゼン資料のような頁ごとにセクションが分かれるような文書にも対応できる。
 また文書が構造体文書の場合、構造木を作成し、木構造間の距離を算出するようにしてもよい。木構造間の距離の算出については、千葉大学 川島らによる、次のような文献がある。
・「木構造間の距離の近似計算」電子情報通信学会技術研究報告。
 構造化することによって、意味的な距離を算出することができる。
 また図の位置によって特定位置が定まる場合は、その位置の直後(横書きならば下方向)の距離の重み付けを大きくし、表の位置によって特定位置が決まる場合は、その位置の直前(横書きならば上方向)の距離の重み付けを大きくしてもよい。
 <特徴語優先度付与工程>
  <優先度付与処理>
 特徴語優先度付与工程(図2のステップS40)の処理手順例を、図12を用いて説明する。図12は、特徴語に距離に応じた優先度を付与する優先度付与処理の手順例のフローチャートを示す。
 これは特徴語リストに記載のすべての特徴語に対して、特徴語距離リストに記載の距離に基づいて提示の優先度を付与する処理である。
 まずステップS41では、特徴語リストに記載の各特徴語について、初期設定として所定の優先度を付与する。本実施形態では、初期設定の優先度を数値で0とし、距離の近さに応じて優先度を上げていく。
 ステップS42では、各特徴語について、特徴語距離リストから対応する特徴語の距離を取得し、それに応じて優先度を上げる。
 例えば、距離がNc(文字数)であれば、優先度=0(初期設定)+1/Ncとする。またここでは、Nc=0の場合(特定位置または特定語と特徴語の位置が一致する場合)、優先度=0(初期設定)とする。但し、それに限るものではない。
 また、特徴語距離リストに対応する特徴語距離の記載がなければ、優先度はそのまま(初期設定)である。
 以上の優先度付与の手順が終了すると、特徴語リストに記載のすべての特徴語に対して提示の優先度が付与され、特徴語リストは優先度付き特徴語リスト(特徴語優先度リスト)として作成されなおすことになる。
 以上で優先度付与処理は終了する。
 図13(a)、(b)には、図7に示した特徴語リスト記載の特徴語に対して、図11の特徴語距離リストを参照し、記載の各特徴語距離に応じて優先度付与した優先度付き特徴語リストの例を示す。図13(a)は優先度が初期設定の状態の特徴語優先度リストであり、図13(b)は距離に基づき優先度付与した特徴語優先度リストの例である。
 なお本実施形態では、特徴語の距離に基づく優先度付与方法として、優先度の初期設定値から一律に特徴語距離の逆数を加えていく方法を採用したが、これに限定するものではない。例えば、特徴語の種類、もしくは特定位置取得条件などに応じて、特徴語距離を修正してもよい。また全特徴語の距離を最大距離が1になるよう正規化して、1(最大距離)からの差分を用いてもよい。
 上述の本実施形態に係る特徴語の抽出から優先度付与に至る処理を行うことによって、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与することができる。
 すなわち、本実施形態では、文書の内容を最も特徴的に示すであろうタイトルに含まれる語の出現する位置を特定位置として取得するという観点で特定位置取得条件が設定されており、その特定位置の近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわちタイトルに含まれる語との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第2の実施形態)
 上述の第1の実施形態とは異なる第2の実施形態について述べる。
 第2の実施形態は、図8に示した特定位置取得処理において特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについてのみ説明する。
 本実施形態における特定位置取得条件は、文書がキーワード検索された検索結果として文書概要の提示を行おうとする場合の条件であり、検索したユーザによって入力されたキーワードを特定語とし、その特定語の出現位置として特定位置を取得するものである。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではユーザの興味の度合いが高い、文書の内容を表す語として検索キーワードの出現する位置を特定位置として取得するものであり、そのユーザが関心を持つ検索キーワードの近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち検索キーワードとの距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第3の実施形態)
 上述の第1及び第2の実施形態とは異なる第3の実施形態について述べる。
 第3の実施形態も、図8に示した特定位置取得処理において特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについて説明する。
 本実施形態における特定位置取得条件は、その文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を特定語とし、その特定語の出現位置として特定位置を取得するものである。
 文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を特定語として求めるための概略手順例を以下に示す。
 手順1:その文書の閲覧ユーザを特定する。例えば本装置にログインするときにユーザIDを取得するように設定し、取得したユーザIDを用いて文書の閲覧ユーザが特定できるようにしておく。
 手順2:特定されたユーザと同一ユーザIDで閲覧された他の文書群について、語句抽出を行う。語句抽出は、第1の実施の形態で説明した図4の語句抽出手順と同様にして行うことができる。
 手順3:上で抽出した各語句の出現頻度をカウントする。また、閲覧された文書群(母集団)すべてに対して各語句の出現頻度を求め、語句ごとに総和する。
 手順4:各語句の出現頻度の高い方から順に、所定数(例えば5個等)の語句を特定語とする。
 以上のように出現頻度が高い語を特定語として求める。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではユーザの過去に閲覧した文書で出現頻度が高く、知識や興味の度合いが高い語の出現する位置を特定位置として取得するものであり、そのユーザが閲覧あるいは目にしている確率が大きい語句の近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち出現頻度が高い語との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第4の実施形態)
 上述の第1から第3の実施形態とは異なる第4の実施形態について述べる。
 第4の実施形態は、図8に示した特定位置取得処理において、特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについて説明する。
 本実施形態における特定位置取得条件は、その文書において抽出された特定の種類の特徴語を特定語とし、その特定語の出現位置として特定位置を取得するものである。
 特定の種類の特徴語としては、以下のような種類の特徴語が上げられる。
・固有名詞
・時間を表す語
・専門語
・文書の特徴を表す語
・複合語
 これらの詳細については後述する。
 これらの種類の特徴語の中から、特徴語抽出処理(図3のステップS12の説明参照)で採用した種類(本実施形態では固有名詞、及び複合語)以外の種類の特徴語を選択して特定語とすればよい。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態では、例えば時間を表す特徴語など、その文書を特徴付ける特徴語とは別の特定の種類の特徴語の出現する位置を特定位置として取得するものであり、例えば時間を表す特徴語の近傍に位置しやすい人名を含む特徴語の優先度を上げるなどによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち異なる観点から選択された特定の種類の特徴語との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第5の実施形態)
 上述の第1から第4の実施形態とは異なる第5の実施形態について述べる。
 第5の実施形態は、図8に示した特定位置取得処理において特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについて説明する。
 本実施形態における特定位置取得条件は、その文書における図表の出現位置として特定位置を取得するものである。図や表についてはさらに、面積が最大の、あるいは最初に出現する等の条件を付加してもよい。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態では文書の内容を特徴付ける記載として、図や表に着目し、それら、もしくはその何れかの出現する位置を特定位置として取得するものであり、文書の内容を特徴付ける図や表の近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書における図や表との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第6の実施形態)
 上述の第1から第5の実施形態とは異なる第6の実施形態について述べる。
 第6の実施形態は、図8に示した特定位置取得処理において特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについて説明する。
 本実施形態における特定位置取得条件は、文書の先頭位置を特定位置として取得するものである。文書の冒頭部分には、その文書の概要が記載されている確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではその文書の概要が記載されている確率が高い文書の先頭位置を特定位置として取得するものであり、その近傍に位置するだろう概要の記載に含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の先頭位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第7の実施形態)
 上述の第1から第6の実施形態とは異なる第7の実施形態について述べる。
 第7の実施形態は、図8に示した特定位置取得処理において特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについて説明する。
 本実施形態における特定位置取得条件は、文書の末尾位置を特定位置として取得するものである。文書の末尾部分には、その文書の結論が記載されている確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではその文書の結論が記載されている確率が高い文書の末尾位置を特定位置として取得するものであり、その近傍に位置するだろう結論の記載に含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の末尾位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第8の実施形態)
 上述の第1から第7の実施形態とは異なる第8の実施形態について述べる。
 第8の実施形態は、図8に示した特定位置取得処理において特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについて説明する。
 本実施形態における特定位置取得条件は、文書を頁からなるものとして区分し、その頁の中央位置を特定位置として取得するものである。プレゼン資料としての文書などは、頁の中央部分に内容を適切に示す重要な語句がレイアウトされる確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではプレゼン資料などで重要な語句が記載されている確率が高い頁の中央位置を特定位置として取得するものであり、その近傍に位置するだろう重要な語句、すなわち特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の頁の中央位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第9の実施形態)
 上述の第1から第8の実施形態とは異なる第9の実施形態について述べる。
 第9の実施形態は、図8に示した特定位置取得処理において特定位置取得条件のみが第1の実施形態と異なる。特定位置取得条件の違いについて説明する。
 本実施形態における特定位置取得条件は、文書を頁からなるものとして区分し、その頁の先頭位置を特定位置として取得するものである。プレゼン資料としての文書などは、頁の先頭部分に頁のタイトルがレイアウトされる確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではプレゼン資料などで頁のタイトルが記載されている確率が高い頁の先頭位置を特定位置として取得するものであり、その近傍に位置するだろう頁のタイトルに含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の頁の先頭位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第10の実施形態)
 上述の第1から第9の実施形態とは異なる第10の実施形態について述べる。
 第10の実施形態は、図8に示した特定位置取得処理における特定位置取得条件、及び図10に示した距離算出方法が第1の実施形態と異なる。特定位置取得条件及び距離算出方法の違いについて説明する。
 本実施形態における特定位置取得条件は、文書における記号の出現位置を特定位置として取得するものである。プレゼン資料としての文書などは、例えば矢印などの記号の出現した後に結果の記載がレイアウトされる確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。
 テキストではなく、例えば矢印などの記号の出現位置を求めるには、画像として抽出し、パターンマッチングなどの手法で、矢印の形状にマッチする位置(特定位置)と矢印の方向を抽出すればよい。これらを特定位置リストに記載する。
 さらに矢印の位置近傍の特徴語を見つけ、その距離を算出するには、第1の実施形態で説明した処理に対して、以下のような考え方で修正を加えればよい。
・特定位置の記号(矢印)が指す方向に出現している文を抽出し、抽出された文中に含まれる(特徴語リスト記載の)特徴語を求める。
・距離については、求めた特徴語と特定位置(矢印位置)との間の文字数(Nc)をカウントし、距離とすればよい。
 すなわち、本実施形態も第1の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではプレゼン資料などで、近傍に種々の結果が記載されている確率が高い矢印などの記号の位置を特定位置として取得するものであり、その近傍に位置するだろう結果に含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書中の特定の記号(矢印など)の位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
  (特徴語の種類について)
 既述してきた各実施形態においては、抽出する特徴語として「固有名詞」としてきたが、これに限るものではない。例えば、次のような語を特徴語とすることも想定できる。
・時間を表す語:キーワード検索のキーとしては正確に入力しにくいが、一方で、結果として同時に目にする複数の文書を区別しやすい。
・専門語:文書の内容(分野)を推測しやすい。
・文書の種類を表す語:文書の内容(種類)を推測しやすい。
 以下に、上記のような語を特徴語として抽出する方法の例を述べる。
  <時間を表す語>
 特徴語抽出において、例えば次の方法で時間を表す語を抽出することができる。
岩瀬元秀、渡部広一、河岡司「文の意味理解に基づく常識的時間判断システムの構築」情報処理学会研究報告 Vol.2007,No.26(2007)
金田泰「百科事典から動的に年表を生成するテキスト検索法のための年代情報の抽出法と表現法」情報処理学会研究報告 Vol.1999,No.57(1999)。
  <専門語>
 特徴語抽出において、例えば次のような手段を用いて、専門語(専門用語)を抽出することができる。
横浜国立大学 専門用語自動抽出システム(http://www.forest.eis.ynu.ac.jp/Forest/ja/term-extraction.html)
立石健二、久寿居大「企業内情報共有のための専門用語抽出方式の提案」日本データベース学会letters Vol.4,No.4(2006)
立石健二、久寿居大「複数の作成者情報付き文書からの専門用語抽出(<特集>情報融合)」情報処理学会論文誌.データベース Vol.47,No.SIG_8(2006)。
  <文書の種類を表す語>
 特徴語抽出において、例えば文書の種類を表す語を抽出する。文書を分類する手段として、次のような方法が提案されている。これらの分類方法によって分類し、分類先の分類名を特徴語とすることができる。
 分類方法には、例えば図14(a)にフローを示すような方法がある。手順の例を以下に述べる。
ステップS601で、各単語にモデルを適用し、単語(あるいは複数の単語の組)が各カテゴリに属する確率を求める。
ステップS602で、各単語が各カテゴリに属する確率をもとに、文書(単語の集合)が各カテゴリに属する確率を求める。
ステップS603で、最も属する確率の高いカテゴリを、その文書が属するカテゴリと推定する。
 上記のモデルは学習用コーパスを手作業で分類することにより、分類のモデルを生成することができる。図14(b)にそのフローの例を示す。
 以下のような分類方法を参考にして、モデル生成を行ってもよい。
高村大也、松本裕治「SVMを用いた文書分類と構成機能学習法」情報処理学会論文誌トランザクション:データベース Vol.44,No.SIG03(2003)
高村大也、松本裕治「独立成分分析を用いた文書分類:SVMのための素性空間再構成」情報処理学会研究報告.自然言語処理研究会報告 Vol.2001,No.54(2001)。
 なお、特徴語として「固有名詞」を用いる場合と同様に、これらの語の複合語(複数の単語を組み合わせた語)を用いて特徴語とすることで、文書の内容を表しやすく、また複数の文書を区別しやすくするようにしてもよい。
 また、特徴語の抽出以外の手順は、既述した実施形態に準ずればよい。
 上述してきたように、本実施形態に係る文書の特徴語提示装置及び特徴語の優先度付与プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与することができる。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 なお、上述の実施形態は、すべての点で例示であって制限的なものではない。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
 1 文書の特徴語提示装置
 2 特徴語処理部
 3 制御部
 4 記憶手段
 5 表示部
 6 操作部
 7 通信部
 8 外部媒体
 10 特徴語抽出手段
 20 特定位置取得手段
 30 距離算出手段
 40 特徴語優先度付与手段

Claims (28)

  1.  内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
     前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段と、
     前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段と、
     前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段と、
     前記優先度を付与された前記特徴語、前記特定位置取得手段により取得された前記特定位置、前記距離算出手段により算出された前記距離、及びそれらを抽出するための情報を記憶する記憶手段と、
     前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
     ことを特徴とする文書の特徴語提示装置。
  2.  前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  3.  前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
     ことを特徴とする請求項2に記載の文書の特徴語提示装置。
  4.  前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
     ことを特徴とする請求項2に記載の文書の特徴語提示装置。
  5.  前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
     ことを特徴とする請求項2に記載の文書の特徴語提示装置。
  6.  前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
     ことを特徴とする請求項2に記載の文書の特徴語提示装置。
  7.  前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  8.  前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  9.  前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  10.  前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  11.  前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  12.  前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  13.  前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  14.  前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
     ことを特徴とする請求項1に記載の文書の特徴語提示装置。
  15.  コンピュータを、
     内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
     前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段、
     前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段、
     前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段、
     として機能させることを特徴とする文書の特徴語の優先度付与プログラム。
  16.  前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  17.  前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
     ことを特徴とする請求項16に記載の文書の特徴語の優先度付与プログラム。
  18.  前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
     ことを特徴とする請求項16に記載の文書の特徴語の優先度付与プログラム。
  19.  前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
     ことを特徴とする請求項16に記載の文書の特徴語の優先度付与プログラム。
  20.  前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
     ことを特徴とする請求項16に記載の文書の特徴語の優先度付与プログラム。
  21.  前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  22.  前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  23.  前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  24.  前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  25.  前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  26.  前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  27.  前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
  28.  前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
     ことを特徴とする請求項15に記載の文書の特徴語の優先度付与プログラム。
PCT/JP2010/052710 2009-03-13 2010-02-23 文書の特徴語提示装置及び特徴語の優先度付与プログラム WO2010103916A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009061043 2009-03-13
JP2009-061043 2009-03-13

Publications (1)

Publication Number Publication Date
WO2010103916A1 true WO2010103916A1 (ja) 2010-09-16

Family

ID=42728207

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/052710 WO2010103916A1 (ja) 2009-03-13 2010-02-23 文書の特徴語提示装置及び特徴語の優先度付与プログラム

Country Status (1)

Country Link
WO (1) WO2010103916A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061757A (ja) * 2011-09-13 2013-04-04 Hitachi Solutions Ltd 文書分類方法
JP2017219937A (ja) * 2016-06-03 2017-12-14 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 請求項中のキーワードの抽出
US11977841B2 (en) 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157965A (ja) * 2002-09-12 2004-06-03 Ricoh Co Ltd 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2004234078A (ja) * 2003-01-28 2004-08-19 Oki Electric Ind Co Ltd 情報検索装置
JP2004234597A (ja) * 2003-02-03 2004-08-19 Ricoh Co Ltd キーワード抽出装置、プログラム、及び記録媒体
JP2005222480A (ja) * 2004-02-09 2005-08-18 Oki Electric Ind Co Ltd 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム
JP2006059024A (ja) * 2004-08-18 2006-03-02 Nippon Telegr & Teleph Corp <Ntt> 語句抽出方法及び装置及びプログラム
JP2007011973A (ja) * 2005-07-04 2007-01-18 Sharp Corp 情報検索装置及び情報検索プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157965A (ja) * 2002-09-12 2004-06-03 Ricoh Co Ltd 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2004234078A (ja) * 2003-01-28 2004-08-19 Oki Electric Ind Co Ltd 情報検索装置
JP2004234597A (ja) * 2003-02-03 2004-08-19 Ricoh Co Ltd キーワード抽出装置、プログラム、及び記録媒体
JP2005222480A (ja) * 2004-02-09 2005-08-18 Oki Electric Ind Co Ltd 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム
JP2006059024A (ja) * 2004-08-18 2006-03-02 Nippon Telegr & Teleph Corp <Ntt> 語句抽出方法及び装置及びプログラム
JP2007011973A (ja) * 2005-07-04 2007-01-18 Sharp Corp 情報検索装置及び情報検索プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061757A (ja) * 2011-09-13 2013-04-04 Hitachi Solutions Ltd 文書分類方法
JP2017219937A (ja) * 2016-06-03 2017-12-14 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 請求項中のキーワードの抽出
US10755049B2 (en) 2016-06-03 2020-08-25 International Business Machines Corporation Extraction of a keyword in a claim
US11977841B2 (en) 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents

Similar Documents

Publication Publication Date Title
US9323827B2 (en) Identifying key terms related to similar passages
US7783644B1 (en) Query-independent entity importance in books
TWI536181B (zh) 在多語文本中的語言識別
US10552467B2 (en) System and method for language sensitive contextual searching
US8874590B2 (en) Apparatus and method for supporting keyword input
JP5587821B2 (ja) 文書トピック抽出装置及び方法及びプログラム
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
KR20220060699A (ko) 논문의 요약과 본문 매칭에 기반한 학술 정보 제공 방법 및 장치
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
RU2698405C2 (ru) Способ поиска в базе данных
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP6409071B2 (ja) 文の並び替え方法および計算機
JP5577546B2 (ja) 計算機システム
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
CN116308758B (zh) 一种基于大数据的金融风险分析方法及系统
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
Přichystal Mobile application for customers’ reviews opinion mining
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10750670

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 10750670

Country of ref document: EP

Kind code of ref document: A1