WO2010106660A1 - 特徴語提示装置及び特徴語提示プログラム - Google Patents

特徴語提示装置及び特徴語提示プログラム Download PDF

Info

Publication number
WO2010106660A1
WO2010106660A1 PCT/JP2009/055430 JP2009055430W WO2010106660A1 WO 2010106660 A1 WO2010106660 A1 WO 2010106660A1 JP 2009055430 W JP2009055430 W JP 2009055430W WO 2010106660 A1 WO2010106660 A1 WO 2010106660A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
comparison
feature word
user
feature
Prior art date
Application number
PCT/JP2009/055430
Other languages
English (en)
French (fr)
Inventor
真弓 竹田
Original Assignee
コニカミノルタホールディングス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタホールディングス株式会社 filed Critical コニカミノルタホールディングス株式会社
Priority to PCT/JP2009/055430 priority Critical patent/WO2010106660A1/ja
Publication of WO2010106660A1 publication Critical patent/WO2010106660A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Definitions

  • the present invention relates to a feature word presentation device and a feature word presentation program for extracting and presenting feature words representing the contents of a document.
  • the present invention relates to a feature word presentation device and a feature word presentation program for a document that gives priority to extracted feature words and presents feature words according to the priorities.
  • Information such as the file name, storage location (folder path, etc.), and storage time can be easily obtained as information for obtaining an overview of the document content. However, it is difficult to determine the document content using only this information. There are many cases.
  • a method of presenting a part of the contents of each document as a summary or generating and presenting a summary sentence is also performed (for example, see Patent Document 1).
  • Patent Document 1 rather than displaying the search result of a document in the original text, a summary sentence from a viewpoint desired by the user is created and presented so that the contents of the document searched by the user can be easily understood.
  • a document information retrieval apparatus that can quickly determine whether or not necessary is described.
  • Patent Document 2 when outputting a search result of a document, a characteristic important word group is acquired, and the important word (characteristic word) group is displayed together with the search result, so that a narrow search is easy and appropriate.
  • the technology which can be done is proposed. JP-A-7-182373 JP 2006-178599 A
  • Patent Document 1 a summary sentence can be created and displayed (see Patent Document 1), or a group of keywords can be extracted and displayed (see Patent Document 2) so that the user can quickly and accurately understand the contents of the document.
  • Patent Document 2 a summary sentence can be created and displayed (see Patent Document 1), or a group of keywords can be extracted and displayed (see Patent Document 2) so that the user can quickly and accurately understand the contents of the document.
  • Technology has been proposed.
  • Patent Document 1 it is difficult to read the summary display in the sentence format, such as displaying a large number of documents in a list format, and may not be appropriate.
  • Patent Document 2 there are many cases where the word to be used as a keyword differs depending on the person or application, and when trying to deal with them, the number of keywords to be held increases, which may cause inconvenience in management and search. . In addition, when there is a restriction in the recording area, it may be necessary to narrow down.
  • the present invention has been made in view of the above technical problems. It is an object of the present invention to extract and present a feature word group that can appropriately represent the contents of a document, and to easily understand the contents of each document and its difference even in a list format of a large number of documents. To provide a feature word presentation device and a feature word presentation program for a document that can appropriately convey the contents of the document even if there is a restriction on the document.
  • the present invention has the following features.
  • Feature word extraction means for extracting a feature word characterizing the content of the document from a document to be presented;
  • a comparison document selecting means for selecting a comparison document for judging the priority of the feature word from a document accessed by a user who browses the document or a user designated by the user;
  • a comparison document phrase extraction unit that extracts a phrase from the comparison document selected by the comparison document selection unit;
  • Feature word priority that gives priority to presentation of the feature word to the feature word extracted by the feature word extraction unit based on the appearance frequency of the corresponding word extracted by the comparison document phrase extraction unit A degree giving means;
  • Storage means for storing the feature words given the priority, the phrases extracted from the comparison document, and information for extracting them;
  • a feature word presentation device for a document comprising: feature word presenting means for selectively presenting the feature words according to the priority given by the feature word priority assigning means.
  • the comparison document selection means includes: The document in which a document file is opened for a predetermined time or a window in which a document file is opened is active for a predetermined time or more is selected as the comparison document from documents accessed by the user in the past. 2.
  • the comparison document selection means includes: 2. The document feature word presentation apparatus according to claim 1, wherein a document on which a document file is printed out is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 2. The document feature word presentation device according to claim 1, wherein a document in which a document file is output to a portable recording medium is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: The document in which a document file is output to the same portable recording medium in which the target document is recorded is selected as the comparison document from documents accessed by the user in the past. 4.
  • the comparison document selection means includes: 2. The document feature word presentation device according to claim 1, wherein a document in which a document file is updated and saved is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 2. The document feature word presentation device according to claim 1, wherein a document input by the user's scanning process is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 2. The document feature word presentation device according to claim 1, wherein a document extracted by the user under the same conditions as a target document is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 2. The document according to 1, wherein a document accessed within a predetermined time before and after the time when the target document is accessed is selected as the comparison document from documents accessed by the user in the past. Document feature word presentation device.
  • the comparison document selection means selects a plurality of comparison documents
  • the comparison document phrase extraction means includes: 10. The feature word presentation device for a document according to any one of 1 to 9, wherein a phrase with a high frequency of appearance between the plurality of comparison documents selected by the comparison document selection unit is extracted.
  • Computer Feature word extraction means for extracting a feature word characterizing the content of the document from a document to be presented with the content;
  • a comparison document selecting means for selecting a comparison document for judging the priority of the feature word from the document browsing user or the document accessed by the user designated by the user;
  • Comparison document phrase extraction means for extracting a phrase from the comparison document selected by the comparison document selection means;
  • Feature word priority assigning means for assigning a presentation priority to the feature words extracted by the feature word extracting means based on the appearance frequency of the corresponding words extracted by the comparison document phrase extracting means;
  • Feature word presenting means for selectively displaying the feature words according to the priority assigned by the feature word priority assigning means for presenting the content of the target document;
  • a feature word presentation program for a document characterized by functioning as
  • the comparison document selection means includes: The document in which a document file is opened for a predetermined time or a window in which a document file is opened is active for a predetermined time or more is selected as the comparison document from documents accessed by the user in the past. 11.
  • the comparison document selection means includes: 12. The document feature word presentation program according to item 11, wherein a document in which a document file is printed out is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 12. The document feature word presentation program according to 11, wherein a document in which a document file is output to a portable recording medium is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: The document in which a document file is output to the same portable recording medium in which the target document is recorded is selected as the comparison document from documents accessed by the user in the past. 14. A program for presenting feature words of a document according to 14.
  • the comparison document selection means includes: 12. The document feature word presentation program according to claim 11, wherein a document in which a document file is updated and saved is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 12. The document feature word presentation program according to claim 11, wherein a document input by the user's scanning process is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 12. The document feature word presentation program according to claim 11, wherein a document extracted by the user under the same conditions as a target document is selected as the comparison document from documents accessed by the user in the past.
  • the comparison document selection means includes: 12. The document according to 11, wherein a document accessed within a predetermined time before and after a time when the target document is accessed is selected as the comparison document from documents accessed by the user in the past. Document feature word presentation program.
  • the comparison document selection means selects a plurality of comparison documents
  • the comparison document phrase extraction means includes: 20.
  • a feature word group capable of appropriately expressing the contents of a document is extracted, and comparisons selected for these feature words under a predetermined condition are performed. Based on the appearance frequency of each feature word in the document, an appropriate priority can be given to the feature words.
  • FIG. 2 It is a block diagram which shows the example of schematic structure of the characteristic word presentation apparatus of the document based on this invention. It is a flowchart which shows the flow of the whole process of the feature word presentation method in the feature word presentation apparatus of the document which concerns on this invention. 3 is a flowchart showing in more detail the process of feature word processing in FIG. 2, that is, the flow of feature word extraction and priority assignment processing. The flowchart of the example of a procedure of the phrase extraction process of the object document is shown. It is a figure which shows the example list (part) of an extraction word / phrase.
  • FIG. 9 Each flowchart of (a) the example of a procedure of a phrase comparison process with a feature word, and (b) the example of a procedure of a priority provision process is shown. Compared with the word / phrase list (with appearance frequency) in FIG. 11 (d), the feature word list with priority given to the feature words in the feature word list shown in FIG. It is a figure which shows an example.
  • (A) Flowcharts of a procedure example of a method for classifying a document to extract a word representing a document type
  • FIG. 1 is a block diagram showing a schematic configuration example of a document feature word presentation apparatus according to the present invention. With reference to FIG. 1, a schematic configuration and a function of each component of a feature word presentation device for a document as an embodiment of the present invention will be described.
  • reference numeral 1 denotes a document feature word presentation apparatus according to the present embodiment.
  • the document feature word presentation program according to the present invention is applied to a general information processing apparatus represented by a personal computer (PC) or the like. It is realized by making it function.
  • the document feature word presentation device 1 has the following components as an information processing device.
  • Reference numeral 2 denotes a feature word processing unit, which extracts a feature word representing the document content, in particular, from the operation function for presenting an outline of the target document using the feature word for the target word of the document feature word presentation device 1. And has a function of a part for giving priority for presentation.
  • control unit 3 is a control unit comprising a CPU, which controls the overall processing functions of the document feature word presentation device 1 which is an information processing device.
  • the processing of the document accessed by the user that is, the acquisition of the target document, the selection of the comparison document, the feature word extraction and the priority assignment of the feature word processing unit 2, and the presentation of the outline of the document by the feature word are controlled.
  • Reference numeral 4 denotes a storage means such as a hard disk, which stores and holds data and information necessary for the control performed by the control unit 3 for processing related to feature word extraction and priority assignment of the feature word processing unit 2 and other processing. .
  • Reference numeral 5 denotes a display unit such as a display, which functions as a feature word presentation unit that presents an outline of a document using feature words according to the priority of presentation under the control of the control unit 3. Other data and information for informing the user are displayed under the control of the control unit 3.
  • the 6 is an operation unit such as a keyboard, which accepts data and information input by the user according to the display content of the display unit 5 and the like.
  • the acquired data and information are subjected to necessary processing such as being stored in the storage unit 4 by the control unit 3.
  • a communication unit which is an input / output interface device. Under the control of the control unit 3, necessary data and information are transmitted or received to / from other storage devices or other information processing devices outside the document feature word presentation device 1.
  • the control unit 3 inputs / outputs a document file and other data to an external medium.
  • the feature word processing unit 2 extracts the feature words representing the document contents by the following means and assigns priorities for presentation.
  • the feature word extraction means 10 extracts a phrase from a document to be presented with the document content as a feature word, and creates a phrase list. Also, a word that meets a predetermined selection condition is extracted from the word list as a feature word, and a feature word list is created.
  • the comparison document selection means 20 selects a document that meets a predetermined selection condition 1 from the accessed documents, and creates a comparison document list 1. Also, a document that satisfies a predetermined selection condition 2 is selected from the comparison document list 1 as a comparison document, and the comparison document list 2 is created.
  • the comparison document phrase extraction unit 30 extracts a phrase from each document in the comparison document list 2, obtains the appearance frequency, and creates a comparison document phrase list with the appearance frequency.
  • the feature word priority assigning means 40 compares each feature word in the feature word list with the corresponding phrase in the comparison document phrase list with the appearance frequency, and determines the priority based on the appearance frequency of the phrase in the comparison document. Also, a feature word list with priority is created.
  • FIG. 2 is a flowchart showing the overall processing flow of the feature word presentation method in the document feature word presentation apparatus according to the present invention. With reference to FIG. 2, the overall processing procedure of the document feature word presentation method in the feature word presentation apparatus of the present invention will be described.
  • the process starts by determining whether or not an operation for accessing a document has been performed on the document feature presentation apparatus in step S1.
  • step S1 If an access operation to the document is performed in step S1 (step S1; YES), the process proceeds to step S2. If the operation is not an access operation for a document (step S1; NO), step S1 is repeated until the operation for accessing the document is performed.
  • step S2 it is determined whether or not the accessed document is presented with a feature word, that is, whether or not the document is a target document.
  • step S2 when the feature word representing the content of the document is presented (step S2; YES), the process proceeds to the feature word processing step in step S3.
  • This process includes a feature word extraction process in step S10, a comparison document selection process in step S20, a comparison document phrase extraction process in step S30, and a feature word priority assignment process in step S40.
  • step S2 If no feature word representing the contents of the document is presented in step S2 (step S2; NO), the process proceeds to the comparison document selection step in step S20 as an access document, and documents that meet the selection condition 1 are compared as will be described later. The process is described in the document list 1, and the process returns to step S1 to repeat the processing operation from the beginning.
  • the feature word extraction step in step S10 is first executed.
  • phrases are extracted from the acquired document for which feature words are to be presented, and a phrase list is created.
  • feature words that meet a predetermined selection condition are extracted from the word list to create a feature word list.
  • selection condition 2 is set based on the document for which the feature word is to be presented, and a document that meets the selection condition 2 is selected as a comparison document from the created comparison document list 1. Then, the comparison document list 2 is created.
  • comparison document phrase extraction step in step S30 phrases are extracted from each document in the comparison document list 2, the appearance frequency is obtained, and a comparison document phrase list with the appearance frequency is created.
  • each feature word in the feature word list is compared with the corresponding word in the comparison document phrase list with the appearance frequency, and the priority is determined based on the appearance frequency of the comparison word in the comparison document. To do. Also, a feature word list with priority is created.
  • step S4 feature words are presented to represent the contents of the target document according to the priority of each feature word in step S3.
  • the presentation of the feature words according to the priority is displayed in a predetermined format together with the target document name on the display unit 5 or the like under the control of the control unit 3, such as displaying the predetermined number of feature words in priority order.
  • the form of the document for which the feature word is presented is not limited. Any form may be used as long as a feature word can be extracted.
  • voice data converted into text by voice recognition processing may be used. Further, it may be one file or may be composed of a plurality of files.
  • FIG. 3 is a flowchart showing in more detail the flow of step S3 (feature word processing step) in FIG. 2, that is, feature word extraction and priority assignment processing.
  • the feature word processing step in step S3 is performed as a feature word extraction step in step S10, a comparison document selection step in step S20, a comparison document phrase extraction step in step S30, and a step S40. Will be described in the order of the feature word priority assignment process.
  • FIG. 4 shows a flowchart of a procedure example of the phrase extraction process.
  • step S111 in FIG. 4 first, a document file that is a target of feature word presentation is acquired.
  • step S112 the target document file is opened and the text (character data) is taken out.
  • step S113 the extracted text is subjected to morphological analysis for phrase extraction.
  • morphological analysis a known method such as Chasen (http://chasen-legacy.sourceforge.jp/) can be used.
  • step S114 based on the morphological analysis, all the words / phrases of the text are extracted, a word / phrase list is created, and stored in association with the target document and its associated information (for example, user ID).
  • FIG. 5 shows an example (part) of the extracted word list.
  • phrase extraction is used for phrase extraction, but it is not limited thereto.
  • a method of extracting a phrase using kanji or hiragana for Japanese may be used, and a method of extracting a phrase with a blank as a separator may be used for English.
  • a specific phrase composed of a plurality of consecutive words may be morphologically analyzed so that the phrase remains as a morpheme without being decomposed to the end.
  • a part of speech of a word may be obtained by using a part of speech analysis method, and a phrase of a specific part of speech (for example, a particle) that is difficult to express as a feature may not be extracted as a morpheme.
  • a phrase of a specific part of speech for example, a particle
  • general words that are difficult to say that represent features may be stored in advance as a dictionary, and may not be extracted as words when applicable.
  • FIG. 6A shows a flowchart of a procedure example of the phrase extraction process.
  • a predetermined model (model for feature word extraction) is applied to the text (or phrase list) decomposed into words to automatically select words and tags. Is granted.
  • step S122 a phrase with a predetermined tag is extracted, a feature word list is created, and stored in association with the target document and its attached information (for example, user ID).
  • FIG. 6B shows a flowchart of a processing example for generating the “model for feature word extraction” used in step S121.
  • Model generation is a function that uses a learning corpus (language data) to manually assign attributes, learn words that should be added to feature words, and automatically tag words that approximate in the state of vector conversion as feature words Generate the model to be used.
  • learning corpus language data
  • step S501 a learning corpus is input.
  • step S502 the learning corpus is decomposed into words (morphemes).
  • step S503 tags (attributes are added) to words / phrases to be extracted as feature words manually.
  • step S504 word information including tag information is vector-converted according to a predetermined rule, and in step S505, a model, that is, a rule for automatically tagging is generated based on the vector-converted information.
  • Fig. 7 shows a list of extracted feature words. This is the feature word extracted in step S122 by applying the following model to the document file from which the words in FIG. 5 have been extracted and performing the process in step S121 in FIG.
  • Feature word extraction criteria In the example of FIG. 7, a model for extracting a compound word (a combination of a plurality of words) including a proper noun that can easily represent the contents of a document and easily distinguish a plurality of documents as a feature word is illustrated in FIG. It is generated and applied by the procedure shown in.
  • the feature word extraction criteria will be described in detail below.
  • ⁇ Compound word> A word obtained by combining a plurality of words including the extracted proper noun is extracted.
  • the FLR method is used for extraction.
  • the FLR method is a method in which the frequency F at which the term W appears in the document data is added to the connection frequency LR method or the connection type LR method.
  • the articulation frequency LR method scans the vocabulary and calculates the number of times a word appears on each of the left and right sides of the word. In the connection type LR method, the number of types of words that appear on the left and right of each word is counted.
  • the score LR (W) of the term W in the concatenation frequency LR method or the concatenation type LR method is as follows: Is defined as follows.
  • ⁇ Comparison document selection process> Selection of first comparison document>
  • a first comparison document selection process is performed in step S21 of FIG. As shown in the figure, processing is performed for all accessed documents before the target document is accessed.
  • Selection condition 1 is a selection condition that does not depend on the target document, and is a condition that allows selection determination before the target document is determined.
  • a predetermined selection condition 2 to be described later is a selection condition that depends on the target document, and is a condition that allows selection determination after the target document is determined. For this reason, it is a procedure for selecting a comparison document in two stages, selection condition 1 and selection condition 2, for the access document.
  • FIG. 8A shows a flowchart of a procedure example of the first comparison document selection process.
  • step S211 it is determined whether or not the accessed document satisfies a predetermined selection condition 1.
  • the selection condition 1 in this embodiment is that the document is browsed, and the determination condition is that the document file is opened for a predetermined time or more.
  • the window in which the document is opened may be active for a predetermined time or more.
  • Documents that meet the selection condition 1 in step S211 are described in the comparison document list 1 in the next step S212, and the list is held in a form in which the selected document and its associated information (for example, user ID) can be referred to. To do. Documents that do not meet the selection condition 1 in step S211 are not listed in the comparison document list 1 in step S212.
  • the comparison document is used as a reference for assigning priority to the feature word of the target document. That is, the more frequently a phrase that matches each feature word appears in the comparison document, the more the feature word does not express the difference from the comparison document.
  • the comparison document selection condition 1 is set from the viewpoint of a document whose contents have already been grasped to some extent by the user.
  • FIG. 8B shows a flowchart of a procedure example of the second comparison document selection process.
  • the predetermined selection condition 2 is a selection condition that depends on the target document, and is a condition that allows selection determination after the target document is determined. Therefore, in this step, the comparison document further selected by the selection condition 2 is selected from the documents in the comparison document list 1 selected by the selection condition 1.
  • step S221 of FIG. 8B it is determined whether or not each document described in the comparison document list 1 meets a predetermined selection condition 2.
  • the comparison document selection condition 2 in the present embodiment is a document that has been browsed in the past by a browsing user who has accessed the target document, and the determination condition is the user ID held as attached information of each document file, It is assumed that the user ID of the document to be included is included.
  • the user ID may be a login ID of a PC (computer).
  • the selection condition 2 may be a document browsed by a user designated by the browsing user.
  • the determination condition is that the user ID held as the attached information of each document file includes the ID of the specified user.
  • the selection condition 2 may be a document browsed by either a browsing user of the target document and a user designated by the user, or may be a document browsed by both.
  • the determination condition is that the user ID held as the attached information of each document file includes at least one of the user IDs of the browsing user of the target document or the user specified by the user. In the latter case, both user IDs are included.
  • step S221 the document that satisfies the selection condition 2 is described in the comparison document list 2 in the next step S222, and the list is held in a form in which the selected document and its associated information can be referred to. Documents that do not meet the selection condition 1 in step S221 are not listed in the comparison document list 2 in step S222.
  • FIG. 9 shows an example (part) of list 2 of comparison documents selected by selection condition 1 and selection condition 2 and selected. The name of the selected document is listed.
  • the comparison document is used as a reference for assigning priority to the feature word of the target document. Therefore, it is necessary to select a document for which a difference from the target document is to be shown as a feature word as a comparison document.
  • the selection conditions 1 and 2 of the comparison document are set from the viewpoint of a document whose contents have already been grasped to some extent by the user, and words frequently viewed and viewed by the user are characteristic. It is intended to lower the priority as a word.
  • a comparative document phrase extraction process is performed in step S31 of FIG. This may be performed in the same manner as the phrase extraction for the target document performed in step S11 of FIG.
  • FIG. 10 shows a flowchart of a procedure example of the phrase extraction process of the comparison document. The following processing is performed for all the documents described in the comparison document list 2.
  • step S311 an unprocessed (word / phrase extraction) document file described in the comparison document list 2 is acquired.
  • step S312 the acquired document file is opened and text (character data) is taken out.
  • step S313 the extracted text is subjected to morphological analysis for phrase extraction.
  • the morphological analysis can use the same method as the phrase extraction for the target document performed in step S11.
  • step S314 based on the morphological analysis, all words in the text are extracted, a word list is created, and stored in association with the target document and its associated information.
  • the next step S41 is the phrase comparison process (step S41) in FIG. 3, and a part of the feature priority assignment step (step S40) is performed in advance.
  • step S41 The processing in step S41 will be described later, but the completed phrase list is not a list of all the phrases in the text, but a phrase list with an appearance frequency for only the phrases corresponding to the feature words in the feature word list.
  • step S315 it is determined whether or not the above processing has been completed for all documents listed in the comparison document list 2. When all the documents have been processed (step S315; YES), this process ends. If an unprocessed document remains (step S315; NO), the process returns to step S311 and the above steps are repeated until the processing is completed for all the documents described in the comparison document list 2.
  • FIGS. 11A, 11B, and 11C show examples of word lists (with appearance frequency) extracted for each comparison document shown in FIG.
  • FIG. 11 (d) shows an example of a phrase list (with the sum of appearance frequencies) obtained by combining them.
  • a phrase that appears redundantly between comparison documents may be preferentially extracted. For example, if it is decided to extract only a phrase having a frequency of occurrence of more than a predetermined overlapping frequency, a phrase that is frequently viewed by the user and viewed frequently between comparison documents while omitting the effort is extracted. As will be described later, the priority as a feature word can be lowered. That is, the priority of the feature word that significantly shows the difference from the comparative document that the user often browses and sees is relatively raised.
  • ⁇ Feature word priority assignment process> ⁇ Phrase comparison>
  • a phrase comparison process is first performed in step S41 of FIG.
  • the process is already executed in the comparative document phrase extraction step, but an example of the processing procedure will be described below again.
  • FIG. 12 (a) shows a flowchart of an example of a procedure for phrase comparison processing with a feature word.
  • step S411 it is determined whether or not the corresponding feature word is listed in the feature word list of the target document for each extracted phrase.
  • step S411 The word / phrase in which the corresponding characteristic word is described in step S411 is described in the comparison document word / phrase list (with appearance frequency) and held together with the appearance frequency information in next step S412.
  • a word / phrase for which the corresponding characteristic word is not described in step S411 is not described in the comparison document word / phrase list (with appearance frequency) in step S412.
  • the comparison document phrase list (with appearance frequency) is already listed for each document as shown in FIGS. 11A, 11B, and 11C, but for the next priority assignment process, As shown in FIG. 11 (d), it may be created as a word / phrase list (with the sum of appearance frequencies) that combines them.
  • FIG. 12B shows a flowchart of a procedure example of priority assignment processing.
  • a predetermined priority is assigned as an initial setting to each feature word described in the feature word list.
  • the default priority is set to 0 as a numerical value, and the priority is lowered according to the appearance frequency.
  • the priority of presentation is assigned to all the feature words described in the feature word list, and the feature word list is recreated as a feature word list with priority.
  • FIGS. 13A and 13B show the feature words in the feature word list shown in FIG. 7 according to the appearance frequency compared with the word list (with appearance frequency) in FIG.
  • An example of a prioritized feature word list to which priority has been given is shown.
  • FIG. 13A shows a feature word list with the priority set to an initial setting
  • FIG. 13B shows an example of a feature word list given priority based on the appearance frequency.
  • the present invention as a method of assigning priority based on the appearance frequency, a method of uniformly subtracting the appearance frequency from the initial priority setting value is adopted, but the present invention is not limited to this.
  • the minus value may be corrected according to the type of feature word or the attribute of the comparison document.
  • priority determination methods There are also the following priority determination methods.
  • an IDF value is obtained for each feature word, and the priority of the feature word is set.
  • the IDF value is obtained as follows.
  • idf (t) log (N / f (t)) + 1 This idf (t) is the IDF value.
  • the priority of the feature word is changed.
  • the priority of the synonym may be changed in the same way.
  • Synonyms may be constructed with reference to the following database and selected from there. Synonyms. jp (http://ruigo.jp/) EDR electronic dictionary (http://www2.nict.go.jp/r/r312/EDR/J_index.html) Classification vocabulary table (http://www.kokken.go.jp/kanko/goiyo/).
  • feature word groups that can appropriately express the contents of the document are extracted, and the feature words are selected under a predetermined condition. Based on the appearance frequency of each feature word in the compared document, the priority can be given to the feature words.
  • the selection conditions 1 and 2 of the comparison document are set from the viewpoint of a document whose contents have already been grasped to some extent by the user, and the user frequently browses and frequently sees the phrase Is intended to lower the priority as a feature word.
  • the priority of feature words that significantly distinguish the document that the user often browses and sees is increased.
  • the second embodiment differs from the first embodiment only in the comparison document selection condition 1 in the first comparison document selection processing shown in FIG. Only the difference in the selection condition 1 will be described.
  • the selection condition 1 is that the document is output on paper
  • the determination condition is that the print instruction for the document file is transmitted to a paper output device such as an MFP.
  • the comparison document selection condition 1 is set from the viewpoint of a document whose contents have already been grasped to some extent by the user.
  • a document output by a user on a paper is used as a comparison document, and the user frequently browses the document in a paper output state, and the word / phrase frequently viewed is a priority as a feature word. Is intended to lower. That is, the priority of the feature word that significantly represents the difference from the document output by the user on paper is increased.
  • the third embodiment is also different from the first embodiment only in the comparison document selection condition 1 in the first comparison document selection process shown in FIG. Only the difference in the selection condition 1 will be described.
  • the selection condition 1 is that a document is output to a portable recording medium
  • the determination condition is that an instruction to copy or move a document file to the portable recording medium is performed.
  • the comparison document selection condition 1 is set from the viewpoint of a document whose contents have already been grasped to some extent by the user.
  • a document output to a portable recording medium by a user is used as a comparison document, and the phrase that is output to the portable recording medium by the user and has a high probability of being viewed or seen in some form. Is intended to lower the priority as a feature word. That is, the priority of the feature word that significantly shows the difference from the document output to the portable recording medium by the user is increased.
  • the selection condition 1 in this embodiment is that the document is output to a portable recording medium, and the determination condition is that an instruction to copy or move the document file to the portable recording medium is performed.
  • the ID of the portable recording medium that is the output destination of each selected comparison document is recorded together with the comparison document list 1.
  • the selection condition 2 is that the user IDs are the same as in the first embodiment, and that the document is output to the same portable recording medium as the recording medium of the target document. Assume that the ID of the recording medium of the target document matches the ID of the portable recording medium for which an instruction to copy or move the document file is issued.
  • the selection condition 1 and the selection condition 2 for the comparison document are set from the viewpoint of a document whose contents have already been grasped to some extent by the user.
  • a document output to the same portable recording medium by the user is used as a comparison document, and the user can output the same portable recording medium so that the user can browse or view the document in some way. It is intended to reduce the priority as a feature word for a phrase that has a high probability. That is, the priority of the feature word that significantly shows the difference from the document output to the same portable recording medium is increased.
  • the fifth embodiment differs from the first embodiment only in the comparison document selection condition 1 in the first comparison document selection process shown in FIG. Only the difference in the selection condition 1 will be described.
  • the selection condition 1 in the fifth embodiment is that processing such as editing has been performed on a document, and the determination condition is that an update storage instruction for a document file has been performed.
  • the comparison document selection condition 1 is set from the viewpoint of a document whose contents have already been grasped to some extent by the user.
  • a document that has been edited by the user is used as a comparison document, and when the user performs editing or the like, a word or phrase that has a high probability of being viewed or viewed is used as a feature word. Is intended to lower the priority. That is, the priority of the feature word that significantly shows the difference from the document that has been processed by the user is increased.
  • the sixth embodiment differs from the first embodiment only in the comparison document selection condition 1 in the first comparison document selection process shown in FIG. Differences in selection condition 1 will be described.
  • the selection condition 1 is that the document is scanned
  • the determination condition is that the document is scanned
  • the scanned document is subjected to the OCR process, and is listed in the comparison document list 1 as the scanned access document.
  • the comparison document selection condition 1 is set in terms of a document whose contents have already been grasped to some extent by the user.
  • a document on which a paper document has been scanned is used as a comparison document, and when the user performs scanning processing, the document can be viewed or viewed in the form of a paper document or in an electronic form. It is intended to lower the priority as a feature word for words with a high probability of being. In other words, the priority of the feature word that significantly represents the difference between the documents is increased.
  • the comparison document selection condition 1 and the selection condition 2 in the first comparison document selection process and the second comparison document selection process shown in FIGS. 8A and 8B are the first implementation. Different from form. Not only that, but because the concept of the target document and the comparison document itself are different, there is a part where the procedure changes.
  • a feature word is presented with each of a plurality of documents extracted under the same condition as a target document, such as searching for and listing documents or listing documents in the same folder.
  • a target document such as searching for and listing documents or listing documents in the same folder.
  • the comparison document is all documents other than the document A among the plurality of documents extracted under the same condition.
  • the flow shown in FIG. 3 is repeated for each of a plurality of listed documents while sequentially replacing the target documents.
  • the selection condition 1 and the selection condition 2 are already satisfied when the target document or the other document (ie, the comparison document) is selected. Therefore, the first comparison document selection process (step S21) and the second comparison document selection process (step S22) may be omitted.
  • phrase extraction processing (step S11) of the target document and the phrase extraction processing (step S31) of the comparison document can be used as they are even if the target document is replaced. Therefore, the phrase list of each document is retained (preferably with the appearance frequency), and each time the flow of FIG. 3 is repeated, the retained phrase list is acquired and the process proceeds. It is efficient if it is corrected.
  • a comparison document is selected from the viewpoint of a document searched by the user under the same search condition (if the document list in the same folder is taken as an example, the same document is selected.
  • the comparison document is selected from the viewpoint of the document in the folder).
  • a document searched under the same search condition is used as a comparison document, and the intention is to lower the priority of words that are frequently viewed or viewed among them. is doing. That is, the priority of the feature word that significantly represents the difference between the retrieved documents is increased.
  • comparison document selection is a document accessed (output to a portable recording medium) within a predetermined time before and after the time when the target document is accessed.
  • the selection condition 1 in this embodiment is that the document is output to a portable recording medium, and the determination condition is that an instruction to copy or move the document file to the portable recording medium is performed. However, in the first comparison document selection process, the output time of each selected comparison document is recorded together with the comparison document list 1.
  • the selection condition 2 is that the user IDs match in the same manner as in the first embodiment, and the document is accessed almost at the same time as the target document.
  • the determination condition is the target document. It is assumed that an instruction to copy or move a document file is given within a predetermined time before and after the access time.
  • the selection condition 1 and the selection condition 2 for the comparison document are set from the viewpoint of a document whose contents are grasped by the user at a time close to that of the target document.
  • a document accessed almost simultaneously by a user is used as a comparison document, so that a word or phrase that has a high probability of being viewed or seen in common among those documents is given priority as a feature word. Intended to lower. That is, the priority of the feature word that significantly shows the difference between documents accessed in the near period is increased.
  • the “proprietary noun” is used as the feature word to be extracted, but the present invention is not limited to this.
  • the following words can be assumed as feature words.
  • -Words representing time Although it is difficult to input accurately as a key for keyword search, on the other hand, it is easy to distinguish a plurality of documents seen simultaneously as a result.
  • -Technical term It is easy to guess the content (field) of the document.
  • a word representing the type of document it is easy to guess the content (type) of the document.
  • words representing time can be extracted by the following method.
  • Motohide Iwase, Hirokazu Watanabe, Tsukasa Kawaoka Construction of a common-sense time-judgment system based on understanding the meaning of sentences" Information Processing Society of Japan Vol. 2007, no. 26 (2007) Yasushi Kaneda, "Analysis and Representation Method for Chronological Information for Text Retrieval Method to Generate Chronology Dynamically from Encyclopedia” Information Processing Society of Japan Vol. 1999, no. 57 (1999).
  • ⁇ Words for document types> For example, a word representing the type of document is extracted.
  • the following methods have been proposed as means for classifying documents. Classification is performed by these classification methods, and the classification name of the classification destination can be used as a feature word.
  • step S601 a model is applied to each word, and the probability that a word (or a set of a plurality of words) belongs to each category is obtained.
  • step S602 the probability that a document (a set of words) belongs to each category is obtained based on the probability that each word belongs to each category.
  • step S603 the category having the highest probability of belonging is estimated as the category to which the document belongs.
  • the above model can generate a classification model by manually classifying the learning corpus.
  • FIG. 14B shows an example of the flow.
  • Model generation may be performed with reference to the following classification method. Daiya Takamura, Yuji Matsumoto “Document classification and composition function learning using SVM” Transactions of Information Processing Society of Japan: Database Vol. 44, no. SIG03 (2003) Daiya Takamura, Yuji Matsumoto “Document classification using independent component analysis: feature space reconstruction for SVM” Information Processing Society of Japan. Natural Language Processing Study Group Report Vol. 2001, no. 54 (2001).
  • a feature word group that can appropriately represent the contents of a document is extracted, and a predetermined number of the feature words are determined for the feature words. Based on the appearance frequency of each feature word in the comparison document selected under the above condition, an appropriate priority can be given to the feature words.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与する。その優先度に従った特徴語の提示を行うことで、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができる、文書の特徴語提示装置及び特徴語提示プログラム。

Description

特徴語提示装置及び特徴語提示プログラム
 本発明は、文書の内容を表す特徴語を抽出し提示する文書の特徴語提示装置及び特徴語提示プログラムに関する。特に、抽出された特徴語に優先度を付与し、該優先度に従って特徴語の提示を行う文書の特徴語提示装置、及び特徴語提示プログラムに関する。
 近年、文書をデジタル化し、コンピュータ等で、様々な処理を行うことが一般的になっている。大量の文書ファイルを蓄積し、迅速に検索し、必要な文書を取得し、処理を行うことが行われている。
 これらの文書ファイル処理を行うに際して、それぞれの文書の内容に関する概要を迅速に取得することが必要な局面が多々ある。
 文書の内容に関する概要を知るための情報として、ファイル名や保存場所(フォルダーパス等)、保存時刻などの情報が容易に取得できるが、しかしこれらの情報だけでは、文書の内容は判断が困難な場合も多い。
 各文書の内容の一部分をサマリーとして提示するとか、要約文を生成して提示するといった方法も行われている(例えば、特許文献1参照)。
 特許文献1には、文書の検索結果を原文で表示するのではなく、利用者の所望する視点での要約文を作成し、提示することにより、利用者が検索した文書の内容をたやすく理解し、要不要を素早く判定できる文書情報検索装置が記載されている。
 また、文書の内容をキーワードで表現し、メタデータとして保持しておくという方法もある(例えば、特許文献2参照)。
 特許文献2には、文書の検索結果を出力するに際し、特徴的な重要語群を取得し、検索結果と合わせて重要語(特徴語)群を表示することにより、絞り込み検索が簡易、かつ適切に行える技術が提示されている。
特開平7-182373号公報 特開2006-178599号公報
 上述したように、従来、文書の概略的内容を簡便にかつ迅速に把握できるような提示が行える方法や装置が求められてきた。そのため要約文を作成して表示(特許文献1参照)したり、キーワード群を抽出して表示(特許文献2参照)したりして、利用者に迅速にかつ的確に文書内容を理解させるための技術が提案されてきた。
 しかしながら、特許文献1に記載の技術では、多数の文書を一覧形式で表示するなど、文形式の概要表示は読みにくく、適切でない場合もある。
 また特許文献2に記載の技術では、キーワードとしたい語が人や用途により異なる場合が多く、それらに対処しようとすると保持するキーワード数が多くなり、管理や検索に不便が生じてくる場合もある。また記録領域に制約がある場合には、絞り込む必要が生じたりする。
 本発明は、上記の技術的課題を鑑みてなされたものである。本発明の目的は、文書の内容を適切に表現できる特徴語群を抽出し、提示するに際し、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような文書の特徴語提示装置及び特徴語提示プログラムを提供することである。
 上記の課題を解決するために、本発明は以下の特徴を有するものである。
 1. 内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段と、
前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段と、
前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、前記特徴語の提示の優先度を付与する特徴語優先度付与手段と、
前記優先度を付与された前記特徴語、前記比較文書より抽出された前記語句、及びそれらを抽出するための情報を記憶する記憶手段と、
前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
ことを特徴とする文書の特徴語提示装置。
 2. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
ことを特徴とする前記1に記載の文書の特徴語提示装置。
 3. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
ことを特徴とする前記1に記載の文書の特徴語提示装置。
 4. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
ことを特徴とする前記1に記載の文書の特徴語提示装置。
 5. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
ことを特徴とする前記4に記載の文書の特徴語提示装置。
 6. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
ことを特徴とする前記1に記載の文書の特徴語提示装置。
 7. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
ことを特徴とする前記1に記載の文書の特徴語提示装置。
 8. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
ことを特徴とする前記1に記載の文書の特徴語提示装置。
 9. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
ことを特徴とする前記1に記載の文書の特徴語提示装置。
 10. 前記比較文書選択手段は、複数の比較文書を選択し、
前記比較文書語句抽出手段は、
前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
ことを特徴とする前記1から9の何れか1項に記載の文書の特徴語提示装置。
 11. コンピュータを、
内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段、
前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段、
前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、提示の優先度を付与する特徴語優先度付与手段、
前記対象となる文書の内容を提示するため、前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に表示する特徴語提示手段、
として機能させることを特徴とする文書の特徴語提示プログラム。
 12. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
ことを特徴とする前記11に記載の文書の特徴語提示プログラム。
 13. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
ことを特徴とする前記11に記載の文書の特徴語提示プログラム。
 14. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
ことを特徴とする前記11に記載の文書の特徴語提示プログラム。
 15. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
ことを特徴とする前記14に記載の文書の特徴語提示プログラム。
 16. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
ことを特徴とする前記11に記載の文書の特徴語提示プログラム。
 17. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
ことを特徴とする前記11に記載の文書の特徴語提示プログラム。
 18. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
ことを特徴とする前記11に記載の文書の特徴語提示プログラム。
 19. 前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
ことを特徴とする前記11に記載の文書の特徴語提示プログラム。
 20. 前記比較文書選択手段は、複数の比較文書を選択し、
前記比較文書語句抽出手段は、
前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
ことを特徴とする前記11から19の何れか1項に記載の文書の特徴語提示プログラム。
 本発明に係る文書の特徴語提示装置及び特徴語提示プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与することができる。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。 本発明に係る文書の特徴語提示装置における特徴語提示方法の、全体としての処理の流れを示すフローチャートである。 図2における特徴語処理の工程、すなわち特徴語抽出と優先度付与処理の流れをより詳細に示すフローチャートである。 対象となる文書の語句抽出処理の手順例のフローチャートを示す。 抽出語句のリスト例(一部分)を示す図である。 (a)特徴語抽出処理の手順例、及び(b)上記手順で用いる「特徴語抽出のためのモデル」を生成する処理例の各フローチャートを示す。 抽出した特徴語のリスト例を示す図である。 (a)第1の比較文書選択処理の手順例、及び(b)第2の比較文書選択処理の手順例の各フローチャートを示す。 選択条件1及び選択条件2で絞り込み、選択した比較文書のリスト2の例(一部分)を示す。 比較文書の語句抽出処理の手順例のフローチャートを示す。 (a)、(b)、(c)図9に示した各比較文書について、それぞれ抽出した語句リスト(出現頻度付き)の例、及び(d)それらを総合した語句リスト(出現頻度の総和付き)の例を示す図である。 (a)特徴語との語句比較処理の手順例、及び(b)優先度付与処理の手順例の各フローチャートを示す。 図7に示した特徴語リスト記載の特徴語に対して、図11(d)の語句リスト(出現頻度付き)と比較して、出現頻度に応じて優先度付与した優先度付き特徴語リストの例を示す図である。 (a)文書の種類を表す語を抽出するため文書を分類する方法の手順例、及び(b)その手順に用いるモデル生成の手順例の各フローチャートを示す。
符号の説明
 1 文書の特徴語提示装置
 2 特徴語処理部
 3 制御部
 4 記憶手段
 5 表示部
 6 操作部
 7 通信部
 8 外部媒体
 10 特徴語抽出手段
 20 比較文書選択手段
 30 比較文書語句抽出手段
 40 特徴語優先度付与手段
 本発明の実施形態を、以下に図面を参照して説明する。
 (文書の特徴語提示装置の構成と機能)
 図1は、本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。図1を用いて、本発明の実施形態としての文書の特徴語提示装置について概略構成と各構成要素の機能を説明する。
 <全体構成>
 図1において、1は本実施形態に係る文書の特徴語提示装置であり、パーソナルコンピュータ(PC)などで代表される一般的な情報処理装置に、本発明に係る文書の特徴語提示プログラムを適用して機能させることにより実現される。文書の特徴語提示装置1は、情報処理装置として、以下に示すような構成要素を有する。
 2は特徴語処理部であり、文書の特徴語提示装置1が対象となる文書に対して、特徴語を用いてその概要を提示する動作機能のうち、特に、文書内容を表す特徴語を抽出し、提示するための優先度を付与する部分の機能を有する。
 それらの機能は、コンピュータのCPUが、それぞれに対応するプログラムに従って、特徴語抽出手段10、比較文書選択手段20、比較文書語句抽出手段30、及び特徴語優先度付与手段40として機能することで実現される。それらの各手段の機能の詳細については後述する。
 3はCPUからなる制御部であり、情報処理装置である文書の特徴語提示装置1の処理機能全般を制御する。特に、ユーザがアクセスする文書の処理、すなわち対象となる文書の取得や比較文書の選択、特徴語処理部2の特徴語抽出と優先度付与、そして特徴語による文書の概要の提示等が制御される。
 4はハードディスク等の記憶手段であり、特徴語処理部2の特徴語抽出と優先度付与に関する処理やその他の処理について、制御部3が行う制御に伴い必要なデータや情報を記憶し、保持する。
 5はディスプレイ等の表示部であり、制御部3の制御により、提示の優先度に従い特徴語による文書の概要の提示を行う特徴語提示手段として機能する。その他ユーザに知らせるためのデータや情報を、制御部3の制御で表示する。
 6はキーボード等の操作部であり、表示部5の表示内容等に従ってユーザが操作入力したデータや情報を受け付ける。取得したデータや情報は、制御部3により記憶手段4に保持させる等の必要な処理が行われる。
 7は通信部であり、入出力のインタフェイス装置である。制御部3の制御により、文書の特徴語提示装置1の外部にある他の記憶装置あるいは他の情報処理装置との間で、必要なデータや情報を送信または受信する。
 8は外部媒体であり、メモリーやディスク等の可搬記録媒体である。ユーザが直接的に文書の特徴語提示装置1に装着などすることで、制御部3は文書ファイルその他のデータを外部媒体に入出力処理する。
 <特徴語処理部2の構成>
 上述したように、特徴語処理部2は、下記各手段により、文書内容を表す特徴語を抽出し、提示するための優先度を付与する。
 特徴語抽出手段10は、文書内容を特徴語で提示する対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する語を特徴語として抽出し、特徴語リストを作成する。
 比較文書選択手段20は、アクセスされた文書から所定の選択条件1に適合する文書を選択し、比較文書リスト1を作成する。また比較文書リスト1から所定の選択条件2に適合する文書を比較文書として選択し、比較文書リスト2を作成する。
 比較文書語句抽出手段30は、比較文書リスト2の各文書から語句を抽出し、出現頻度を求め、出現頻度付きの比較文書語句リストを作成する。
 特徴語優先度付与手段40は、特徴語リストの各特徴語について、出現頻度付きの比較文書語句リストの対応する語句と比較し、その語句の比較文書における出現頻度に基づき優先度を決定する。また優先度付きの特徴語リストを作成する。
 これらの手段による機能動作の詳細については、図2、図3を用いて以下に各処理の流れを手順として説明する。
 (文書の特徴語提示方法の手順)
  <全体の処理の流れ>
 図2は、本発明に係る文書の特徴語提示装置において、特徴語提示方法の全体としての処理の流れを示すフローチャートである。図2を用いて、本発明の特徴語提示装置における文書の特徴語提示方法について、全体としての処理の手順を説明する。
 図2において、まずステップS1の、文書の特徴提示装置に対して、文書にアクセスする操作が行われたかどうかの判定で処理が開始する。
 ステップS1で文書に対するアクセス操作が行われた場合(ステップS1;YES)は、ステップS2へ進む。文書に対するアクセス操作ではない場合(ステップS1;NO)は、戻って文書へのアクセス操作が行われるまでステップS1を反復し、待ち続ける。
 ステップS2では、アクセスした文書について特徴語による内容の提示を行うかどうか、すなわち対象となる文書であるかどうかを判定する。
 ステップS2において、文書の内容を表す特徴語提示を行う場合(ステップS2;YES)は、ステップS3の特徴語処理の工程へ進む。この工程は、ステップS10の特徴語抽出工程、ステップS20の比較文書選択工程、ステップS30の比較文書語句抽出工程、及びステップS40の特徴語優先度付与工程を含んでいる。
 ステップS2において、文書の内容を表す特徴語提示を行わない場合(ステップS2;NO)は、アクセス文書としてステップS20の比較文書選択工程へ進み、後述するように選択条件1に適合する文書を比較文書リスト1に記載して、ステップS1に戻り、最初から処理動作を繰り返す。
 ステップS3の特徴語処理の工程では、まずステップS10の特徴語抽出工程が実行される。この工程では、取得した特徴語提示の対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する特徴語を抽出し、特徴語リストを作成する。
 次にステップS20の比較文書選択工程では、特徴語提示の対象となる文書に基づいて選択条件2を設定し、作成されている比較文書リスト1から選択条件2に適合する文書を比較文書として選択し、比較文書リスト2を作成する。
 ステップS30の比較文書語句抽出工程では、比較文書リスト2の各文書から語句を抽出し、出現頻度を求め、出現頻度付きの比較文書語句リストを作成する。
 ステップS40の特徴語優先度付与工程では、特徴語リストの各特徴語について、出現頻度付きの比較文書語句リストの対応する語句と比較し、その語句の比較文書における出現頻度に基づき優先度を決定する。また優先度付きの特徴語リストを作成する。
 ステップS3の特徴語処理の工程に含まれる上記各工程の詳細な手順例は、図3を用いて後述する。
 次のステップS4では、ステップS3での各特徴語の優先度に従って、対象となる文書の内容を表すべく、特徴語の提示を行う。優先度に従った特徴語の提示は、例えば定められた特徴語数を優先順に表示するなど、制御部3の制御により表示部5等に対象となる文書名称とともに定められた形式で表示する。
 これで全体の処理は終了する。必要であれば最初に戻って、処理を繰り返す、すなわち次の対象となる文書を待つような手順でもよい。
 上記の処理において、特徴語提示の対象となる文書の形態は問わない。特徴語を抽出できればどのような形態でもよい。例えば音声データを音声認識処理によりテキストに変換したものであってもよい。また、1つのファイルであってもよいし、複数のファイルから構成されていてもよい。
  <特徴語抽出と優先度付与処理の流れ>
 図3は、図2におけるステップS3(特徴語処理の工程)、すなわち特徴語抽出と優先度付与処理の流れをより詳細に示すフローチャートである。
 本発明の第1の実施形態に係る文書の特徴語提示装置における特徴語提示方法について、特徴語抽出と優先度付与処理の手順例を、図3を用いて(適宜、図4から図13を参照して)、この後より詳しく説明する。
  (各処理手順の詳細)
 (第1の実施形態)
 図2で説明した全体の処理の流れに従い、ステップS3の特徴語処理の工程を、ステップS10の特徴語抽出工程、ステップS20の比較文書選択工程、ステップS30の比較文書語句抽出工程、そしてステップS40の特徴語優先度付与工程の順に説明する。
 <特徴語抽出工程>
  <語句抽出>
 特徴語抽出工程においては、まずステップS11で語句抽出処理が行われる。図4に、語句抽出処理の手順例のフローチャートを示す。
 図4のステップS111で、まず特徴語提示の対象となる文書ファイルを取得する。
 次にステップS112で対象となる文書ファイルを開き、テキスト(文字データ)を取り出す。
 ステップS113では、取り出したテキストに対して、語句抽出のために形態素解析を行う。形態素解析は、公知の方法、例えばChasen(http://chasen-legacy.sourceforge.jp/)などを用いることができる。
 ステップS114で、形態素解析に基づき、テキストのすべての語句を抽出し、語句リストを作成し、対象となる文書及びその付属情報(例えばユーザIDなど)と関連付けて保持する。図5に抽出語句のリスト例(一部分)を示す。
 以上で語句抽出処理を終了する。
 なお上記では、語句抽出に形態素解析を用いたが、それに限るものではない。
 他の方法としては、例えば日本語であれば漢字か平仮名かで語句抽出する方法等を用いてもよいし、英語であれば空白を区切りとして語句抽出する手法等を用いてもよい。
 また複数の連続した語からなる特定のフレーズは、最後まで分解せずにフレーズのままで形態素とするように形態解析してもよい。
 特徴語を抽出するための語句リストであるから、すべての語句を抽出するのではなく、特徴を表しているとは言い難い語句は予め抽出しないような工夫をしておいてもよい。
 例えば品詞解析手法を用いて語の品詞を求め、特徴を表しているとは言い難い特定の品詞(例えば助詞など)の語句は形態素として抽出しないようにしてもよい。
 また特徴を表しているとは言い難い一般的な単語を予め辞書として保持しておき、該当する場合は語句として抽出しないようにしてもよい。
  <特徴語抽出>
 次に図3のステップS12で特徴語抽出処理が行われる。図6(a)に、語句抽出処理の手順例のフローチャートを示す。
 まず図6(a)のステップS121では、単語に分解されたテキスト(もしくは語句リスト)に対して、所定のモデル(特徴語抽出のためのモデル)を適用し、自動的に語句を選別しタグを付与する。
 次にステップS122で、所定のタグが付与された語句を抽出し、特徴語リストを作成し、対象となる文書及びその付属情報(例えばユーザIDなど)と関連付けて保持する。
 以上で特徴語抽出処理を終了する。
 図6(b)には、上記ステップS121で用いる「特徴語抽出のためのモデル」を生成する処理例のフローチャートを示す。
 モデル生成は学習用コーパス(言語データ)を用いて手作業で属性を付与して、特徴語足るべき語句を学習させ、ベクトル変換した状態で近似する語句を特徴語として自動タグ付けするように機能するモデルを生成する。
 まずステップS501では、学習用コーパスを入力する。
 次にステップS502で、学習用コーパスを単語(形態素)に分解する。
 ステップS503では、手作業で、特徴語として抽出したい語句にタグ付け(属性の付与)を行う。
 ステップS504で、タグ情報を含めた単語の情報を所定のルールでベクトル変換し、ステップS505で、ベクトル変換した情報を基に、モデル、すなわち自動でタグ付けを行うルールを生成する。
 以上で特徴語抽出のためのモデルを生成する処理は終了である。
 図7に抽出した特徴語のリスト例を示す。これは図5の語句を抽出した文書ファイルに対して、次に示すモデルを適用して図6(a)のステップS121の処理を行い、ステップS122で抽出した特徴語である。
  (特徴語の抽出基準)
 上記図7の例は、特徴語として、文書の内容を表しやすく、また複数の文書を区別しやすい固有名詞を含む複合語(複数の単語の組み合わせ)を抽出するモデルを、図6(b)に示した手順で生成し、適用したものである。特徴語の抽出基準(固有名詞を含む複合語)について、以下に詳しく述べる。
  <固有名詞>
 固有名詞などの特定の種類の語を抽出する手法として、MUC(Message Understanding Conference)で提唱された「固有表現抽出」という概念がある。「固有表現抽出」とは、人名・組織名などの固有名詞や、日付表現などの「特定の種類の用語」を抽出する手法全般を指す語である。固有名詞抽出の流れを図6(b)に手順例で示した。
  <複合語>
 抽出した固有名詞を含む複数の単語が組み合わさった語を抽出する。
 抽出には、例えば、FLR法を用いる。FLR法は、連接頻度LR法または連接種類LR法に、用語Wが文書データ中に出現した頻度Fを加味する方法である。詳細は(「出現頻度と連接頻度に基づく専門用語抽出」、湯本他、自然言語処理、10(1)27-45,2003年1月)を参照。
 連接頻度LR法は、語彙を走査し、用語Wを構成する単語について、該単語の左右それぞれに単語が出現する回数を計算する。また連接種類LR法は、単語の左右それぞれに何種類の単語が出現するかをカウントする。
 ここで、例えば、カタカナ語彙中の用語「サーバシステム、コンピュータシステム、オープンシステム」があり、構成する単語を分けると(サーバ|システム)、(コンピュータ|システム)、(オープン|システム)となり、単語「システム」の左に単語が3回出現したので、単語「システム」の連接頻度LR法での左方スコアはL(システム)=3となる。また単語「システム」の左に単語が3種類出現したので、連接種類LR法での左方スコアはL(システム)=3となる。
 一般に、単語w1、w2、・・・wnが連なって構成する用語W=w1、w2、・・・wnについて、連接頻度LR法または連接種類LR法の用語WのスコアLR(W)は、以下のように定義される。
Figure JPOXMLDOC01-appb-M000001
 <比較文書選択工程>
  <第1の比較文書選択>
 次の比較文書選択工程においては、まず図3のステップS21で第1の比較文書選択処理が行われる。これは図にも示したように、対象となる文書がアクセスされる以前から、アクセスされた文書すべてに対して処理が行われる。
 この工程の意図は、アクセス文書から比較文書を選択することにあり、所定の選択条件1に従って選択を行う。選択条件1は対象となる文書に依存しない選択条件であり、対象となる文書を決定する前から選択判定の可能な条件である。後述する所定の選択条件2は対象となる文書に依存する選択条件であり、対象となる文書を決定した後で選択判定の可能な条件である。このことからアクセス文書に対して、選択条件1と選択条件2の2段階で比較文書を選択する手順となっている。
 図8(a)に、第1の比較文書選択処理の手順例のフローチャートを示す。
 まずステップS211で、アクセスした文書が所定の選択条件1に適合するかどうかを判定する。本実施形態における選択条件1は、文書が閲覧されたこととし、判定条件は文書ファイルが所定時間以上オープンされたこととする。あるいは文書の開かれたウィンドウが所定時間以上アクティブであったこととしてもよい。
 ステップS211で選択条件1に適合した文書については、次のステップS212で比較文書リスト1に記載し、該リストを、選択した文書及びその付属情報(例えばユーザIDなど)が参照可能な形で保持する。ステップS211で選択条件1に適合しなかった文書については、ステップS212で比較文書リスト1に記載しない。
 以上で第1の比較文書選択処理を終了する。
 比較文書は、対象となる文書の特徴語に対して、優先度を付与するための基準に用いられる。すなわち各特徴語に一致する語句が比較文書に出現する頻度が多いほどその特徴語は、比較文書との違いを十分表現していないことになる。
 従って対象となる文書との差を特徴語として示したい文書を比較文書として選択する必要がある。ここではユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1が設定されている。
  <第2の比較文書選択>
 図8(b)に、第2の比較文書選択処理の手順例のフローチャートを示す。
 これは図3にも示したように、対象となる文書がアクセスされ、特徴語処理が始まる時点で、比較文書リスト1に記載された文書すべてに対して処理が行われる。
 すなわち、上述したように、所定の選択条件2は対象となる文書に依存する選択条件であり、対象となる文書を決定した後で選択判定の可能な条件である。従ってこの工程では、選択条件1により選択された比較文書リスト1の文書に対して、選択条件2でさらに絞り込んだ比較文書を選択する手順となっている。
 まず図8(b)のステップS221では、比較文書リスト1に記載された各文書が所定の選択条件2に適合するかどうかを判定する。本実施形態における比較文書の選択条件2は、対象となる文書にアクセスした閲覧ユーザが過去に閲覧した文書であることとし、判定条件は各文書ファイルの付属情報として保持するユーザIDに、対象となる文書のユーザIDが含まれていることとする。ユーザIDは、PC(コンピュータ)のログインIDを用いるようにしてもよい。
 また、選択条件2は、上記閲覧ユーザが指定したユーザが閲覧した文書であることとしてもよい。その場合、判定条件は各文書ファイルの付属情報として保持するユーザIDに、指定されたユーザのIDが含まれることとする。
 さらに、選択条件2として、上記対象となる文書の閲覧ユーザと上記ユーザが指定したユーザの何れかが閲覧した文書であることとしてもよいし、両者が閲覧した文書であることとしてもよい。判定条件は、前者の場合、各文書ファイルの付属情報として保持するユーザIDに、上記対象となる文書の閲覧ユーザ、または上記ユーザが指定したユーザの少なくとも何れかのユーザIDが含まれることであり、後者の場合、両者のユーザIDが含まれることとなる。
 ステップS221で選択条件2に適合した文書については、次のステップS222で比較文書リスト2に記載し、該リストを、選択した文書及びその付属情報が参照可能な形で保持する。ステップS221で選択条件1に適合しなかった文書については、ステップS222で比較文書リスト2に記載しない。
 以上で第2の比較文書選択処理を終了する。
 図9に、選択条件1及び選択条件2で絞り込み、選択した比較文書のリスト2の例(一部分)を示す。選択された文書の名称がリストアップされている。
 既に述べたように、比較文書は、対象となる文書の特徴語に対して、優先度を付与するための基準に用いられる。従って対象となる文書との差を特徴語として示したい文書を比較文書として選択する必要がある。
 本実施形態ではユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1及び選択条件2が設定されており、そのユーザがよく閲覧し、目にしている頻度が多い語句は特徴語としての優先度を下げることを意図している。
 <比較文書語句抽出工程>
  <語句抽出>
 次の比較文書語句抽出工程においては、まず図3のステップS31で比較文書の語句抽出処理が行われる。これは同じく図3のステップS11で行った対象となる文書に対する語句抽出と同様の方法で行えばよい。
 図10に、比較文書の語句抽出処理の手順例のフローチャートを示す。比較文書リスト2に記載されたすべての文書について以下の処理を行う。
 まずステップS311で、比較文書リスト2に記載された未処理(語句抽出を行っていない)の文書ファイルを取得する。
 次にステップS312で、取得した文書ファイルを開き、テキスト(文字データ)を取り出す。
 ステップS313では、取り出したテキストに対して、語句抽出のために形態素解析を行う。形態素解析は、ステップS11で行った対象となる文書に対する語句抽出と同様の方法を用いることができる。
 ステップS314で、形態素解析に基づき、テキストのすべての語句を抽出し、語句リストを作成し、対象となる文書及びその付属情報と関連付けて保持する。
 次のステップS41は、図3の語句比較処理(ステップS41)であり、特徴度優先度付与工程(ステップS40)の一部を先行して行う。
 ここでの語句比較処理を省略し、比較文書の語句抽出処理を終え、比較文書の語句リストを完成してから語句比較処理に入ってもよいが、語句を抽出する段階で特徴語との語句比較処理を導入しておくことで、特徴語と対応しない語句は抽出の都度省略して、語句リストを簡単化し、出現頻度のカウント等の手間を省くことができる。
 ステップS41での処理は、後述するが、完成した語句リストはテキストのすべての語句のリストではなく、特徴語リストの特徴語と対応する語句のみについての出現頻度付きの語句リストとなる。
 ステップS315では、比較文書リスト2に記載されたすべての文書について上記処理を終えたかどうかを判定する。すべての文書の処理を終えた場合(ステップS315;YES)は、本処理は終了する。未処理の文書が残っている場合(ステップS315;NO)は、ステップS311へ戻り、比較文書リスト2に記載されたすべての文書について処理を終えるまで、上記のステップを繰り返す。
 図11(a)、(b)及び(c)には、図9に示した各比較文書について、それぞれ抽出した語句リスト(出現頻度付き)の例を示す。図11(d)には、それらを総合した語句リスト(出現頻度の総和付き)の例を示す。
 なお、上記の語句抽出処理については、比較文書間で重複して出現している語句を優先的に抽出するようにしてもよい。例えば、所定以上の重複出現頻度の語句だけを抽出することにすれば、その分手間を省きながら、ユーザが比較文書間でよく閲覧し、目にしている頻度が多い語句は、語句抽出され、後述するように特徴語としての優先度を下げることができる。すなわち、ユーザがよく閲覧し、目にしている比較文書との違いを顕著に表す特徴語の優先度を相対的に上げている。
 以上で比較文書の語句抽出処理(語句比較処理含む)を終了する。
 <特徴語優先度付与工程>
  <語句比較>
 特徴語優先度付与工程においては、まず図3のステップS41で語句比較処理が行われる。本実施形態では、上記の比較文書語句抽出工程で既に実行されているが、その処理手順例を改めて以下に説明する。
 図12(a)は、特徴語との語句比較処理の手順例のフローチャートを示す。
 まずステップS411では、抽出した各語句について、対応する特徴語が対象となる文書の特徴語リストに記載されているかどうかを判定する。
 ステップS411で対応する特徴語が記載されている語句については、次のステップS412で、その出現頻度情報とともに比較文書語句リスト(出現頻度付き)に記載し、保持する。ステップS411で対応する特徴語が記載されていない語句については、ステップS412で比較文書語句リスト(出現頻度付き)に記載しない。
 比較文書語句リスト(出現頻度付き)は、既に図11(a)、(b)及び(c)に示したように文書ごとにリストアップされるが、次の優先度付与処理のために、一気に図11(d)に示したような、それらを総合した語句リスト(出現頻度の総和付き)として作成してもよい。
 以上で、特徴語との語句比較処理を終了する。
  <優先度付与>
 図12(b)に、優先度付与処理の手順例のフローチャートを示す。
 これは特徴語リストに記載のすべての特徴語に対して、比較文書の語句リストの対応する語句の出現頻度に基づいて提示の優先度を付与する処理である。
 まずステップS421では、特徴語リストに記載の各特徴語について、初期設定として所定の優先度を付与する。本実施形態では、初期設定の優先度を数値で0とし、出現頻度に応じて優先度を下げていく。
 ステップS422では、各特徴語について、比較文書の語句リスト(出現頻度付き)から対応する語句の出現頻度を取得し、それに応じて優先度を下げる。例えば、出現頻度がnであれば、優先度=0(初期設定)-nとする。比較文書の語句リスト(出現頻度付き)に対応する語句がなければ、優先度はそのまま(初期設定)である。
 以上で優先度付与処理は終了する。
 処理が終了すると、特徴語リストに記載のすべての特徴語に対して提示の優先度が付与され、特徴語リストは優先度付き特徴語リストとして作成されなおすことになる。
 図13(a)、(b)には、図7に示した特徴語リスト記載の特徴語に対して、図11(d)の語句リスト(出現頻度付き)と比較して、出現頻度に応じて優先度付与した優先度付き特徴語リストの例を示す。図13(a)は優先度が初期設定の状態の特徴語リストであり、図13(b)は出現頻度に基づき優先度付与した特徴語リストの例である。
 本実施形態では、出現頻度に基づく優先度付与方法として、優先度の初期設定値から一律に出現頻度をマイナスしていく方法を採用したが、これに限定するものではない。
 例えば、特徴語の種類、もしくは比較文書の属性などに応じて、マイナスする値を修正してもよい。また次のような優先度決定方法もある。
 対象となる文書とすべての比較文書からなる文書集合について、それぞれの特徴語ごとにIDF値を求め、その特徴語の優先度とする。IDF値は次のようにして求める。
 全文書数をN、そのうちtという特徴語が出現する文書数がf(t)であるとき、
idf(t)=N/f(t)
 このidf(t)がIDF値である。
 また、Nの変化量に対するidf(t)の変化を小さくするために、idf(t)は次のように定めてもよい。
idf(t)=log(N/f(t))+1
 このidf(t)がIDF値である。
 このような優先度付与方法を用いると、文書間での重複出現頻度の大きい語句をIDF値が大きくなるようにする、すなわち優先度を下げることができる。
 また、本実施形態では特徴語の優先度を変更しているが、特徴語の中に類義語がある場合は、その類義語の優先度も同様な変更を行うようにしてもよい。類義語は次のようなデータベースを参照して構築し、そこから選択するようにしてもよい。
類語.jp(http://ruigo.jp/)
EDR電子化辞書(http://www2.nict.go.jp/r/r312/EDR/J_index.html)
分類語彙表(http://www.kokken.go.jp/kanko/goihyo/)。
 上述の本実施形態に係る特徴語の抽出処理と優先度付与処理を行うことによって、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与することができる。
 すなわち、本実施形態ではユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1及び選択条件2が設定されており、そのユーザがよく閲覧し、目にしている頻度が多い語句は特徴語としての優先度を下げることを意図している。すなわちそのユーザがよく閲覧し、目にしている文書との違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第2の実施形態)
 上述の第1の実施形態とは異なる第2の実施形態について述べる。
 第2の実施形態は、図8(a)に示した第1の比較文書選択処理において比較文書の選択条件1のみが第1の実施形態と異なる。選択条件1の違いについてのみ説明する。
 本実施形態における選択条件1は、文書が紙出力されたこととし、判定条件は文書ファイルについてのプリント指示がMFP等の紙出力装置に送信されたこととする。
 すなわち、本実施形態も第1の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1が設定されている。しかしながら、本実施形態ではユーザにより紙出力された文書を比較文書とするものであり、そのユーザが紙出力された状態でよく閲覧し、目にしている頻度が多い語句を特徴語としての優先度を下げるべく意図している。すなわちユーザにより紙出力された文書との違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第3の実施形態)
 上述の第1及び第2の実施形態とは異なる第3の実施形態について述べる。
 第3の実施形態も、図8(a)に示した第1の比較文書選択処理において比較文書の選択条件1のみが第1の実施形態と異なる。選択条件1の違いについてのみ説明する。
 本実施形態における選択条件1は、文書が可搬記録媒体に出力されたこととし、判定条件は可搬記録媒体への文書ファイルのコピーまたは移動の指示が行われたこととする。
 すなわち、本実施形態も第1の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1が設定されている。しかしながら、本実施形態ではユーザにより可搬記録媒体に出力された文書を比較文書とするものであり、そのユーザが可搬記録媒体に出力し、何らかの形で閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわちユーザにより可搬記録媒体に出力された文書との違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第4の実施形態)
 上述の第1から第3の実施形態とは異なる第4の実施形態について述べる。
 第4の実施形態は、図8(a)に示した第1の比較文書選択処理及び図8(b)に示した第2の比較文書選択処理において、比較文書の選択条件1及び選択条件2のみが第1の実施形態と異なる。選択条件1及び選択条件2の違いについてのみ説明する。
 本実施形態における選択条件1は、文書が可搬記録媒体に出力されたこととし、判定条件は可搬記録媒体への文書ファイルのコピーまたは移動の指示が行われたこととする。但し、上記第1の比較文書選択処理においては、選択された各比較文書の出力先の可搬記録媒体のIDを比較文書リスト1に併せて記録しておくものとする。
 また選択条件2は、第1の実施形態と同様にユーザIDが一致することに加えて、対象となる文書の記録媒体と同一の可搬記録媒体に文書が出力されたこととし、判定条件は対象となる文書の記録媒体のIDと、文書ファイルのコピーまたは移動の指示が行われた可搬記録媒体のIDが一致することとする。
 すなわち、本実施形態も第1の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1及び選択条件2が設定されている。しかしながら、本実施形態ではユーザにより同じ可搬記録媒体に出力された文書を比較文書とするものであり、そのユーザが同じ可搬記録媒体に出力することで、何らかの形で関連して閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわち同じ可搬記録媒体に出力された文書との違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第5の実施形態)
 上述の第1から第4の実施形態とは異なる第5の実施形態について述べる。
 第5の実施形態は、図8(a)に示した第1の比較文書選択処理において比較文書の選択条件1のみが第1の実施形態と異なる。選択条件1の違いについてのみ説明する。
 第5の実施形態における選択条件1は、文書に対して編集などの処理が行われたこととし、判定条件は文書ファイルについての更新保存指示が行われたこととする。
 すなわち、本実施形態も第1の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1が設定されている。しかしながら、本実施形態ではユーザにより編集などの処理が行われた文書を比較文書とするものであり、そのユーザが編集などの処理を行うに際し、閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわちユーザにより編集などの処理が行われた文書との違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第6の実施形態)
 上述の第1から第5の実施形態とは異なる第6の実施形態について述べる。
 第6の実施形態は、図8(a)に示した第1の比較文書選択処理において比較文書の選択条件1のみが第1の実施形態と異なる。選択条件1の違いについて説明する。
 本実施形態における選択条件1は、文書に対してスキャン処理が行われたこととし、判定条件は文書についてのスキャン指示が行われたこととする。
 具体的には、第1の比較文書選択処理においてスキャン処理が行われるたびに、スキャン文書にOCR処理を掛け、スキャン処理されたアクセス文書として比較文書リスト1に記載する。
 またOCR処理と併せて、語句抽出処理や出現頻度の計数を行ってしまうのも効率的である。その場合、後の比較文書語句抽出工程の処理手順をそれに応じて修正する必要がある。すなわち、比較文書語句抽出工程では、比較文書リスト2に記載の各比較文書に関連付けられた出現頻度付きの語句リストを取得し、後の処理を行うことになる。
 本実施形態も第1の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件1が設定されている。しかしながら、本実施形態では紙文書に対するスキャン処理が行われた文書を比較文書とするものであり、そのユーザがスキャン処理を行うことで、紙文書の形態あるいは電子化された形態で閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。言い換えれば、それらの文書間での違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第7の実施形態)
 上述の第1から第6の実施形態とは異なる第7の実施形態について述べる。
 第7の実施形態は、図8(a)及び(b)に示した第1の比較文書選択処理及び第2の比較文書選択処理における比較文書の選択条件1及び選択条件2が第1の実施形態と異なる。またそれだけでなく対象となる文書と比較文書の考え方自体が異なるため、手順の変わってくる部分が生ずる。
 すなわち、本実施形態では文書を検索して一覧したり、同フォルダ内の文書を一覧するなど、同一条件で抽出された複数の文書それぞれを対象文書として特徴語提示を行う場合を想定している。同一条件で抽出された複数の文書のうち任意の文書Aを対象となる文書とした場合、比較文書は同一条件で抽出された複数の文書のうち文書A以外のすべての文書である。
 従って一覧された複数の文書すべてに対して、それぞれ対象となる文書を順に入れ替えながら、図3に示したフローを繰り返すことになる。そこでは対象となる文書以外の文書はすべて比較文書であるから、対象となる文書かそれ以外(すなわち比較文書)かを選別判定された時点で、選択条件1及び選択条件2は既に満たされており、第1の比較文書選択処理(ステップS21)及び第2の比較文書選択処理(ステップS22)は省略してもよい。
 また対象となる文書の語句抽出処理(ステップS11)及び比較文書の語句抽出処理(ステップS31)についても、一度行った語句抽出は対象となる文書を入れ替えてもそのまま利用できる。従って各文書の語句リストを(望ましくは出現頻度付きで)保持しておいて、図3のフローの繰り返しに際しては、その都度、保持している語句リストを取得して処理を進めるようなフローに修正すれば効率的でよい。
 本実施形態は、例えば検索による抽出を例にすると、ユーザによって同一の検索条件で検索された文書という観点で比較文書を選択している(同じフォルダ内の文書一覧を例にすれば、同一のフォルダ内文書という観点で比較文書を選択している)。文書の内容を示す特徴語については、同一の検索条件で検索された文書を比較文書とすることで、それらの間で共通に閲覧、あるいは目にする頻度が多い語句の優先度を下げるべく意図している。すなわち検索された文書間での違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 (第8の実施形態)
 上述の第1から第7の実施形態とは異なる第8の実施形態について述べる。
 第8の実施形態は、図8(a)に示した第1の比較文書選択処理及び図8(b)に示した第2の比較文書選択処理において、比較文書の選択条件1及び選択条件2のみが第1の実施形態と異なる。選択条件1及び選択条件2の違いについて説明する。
 比較文書選択の考え方は、対象となる文書がアクセスされた時刻の前後、所定の時間内にアクセス(可搬記録媒体に出力)された文書である。
 本実施形態における選択条件1は、文書が可搬記録媒体に出力されたこととし、判定条件は可搬記録媒体への文書ファイルのコピーまたは移動の指示が行われたこととする。但し、上記第1の比較文書選択処理においては、選択された各比較文書の出力された時刻を比較文書リスト1に併せて記録しておくものとする。
 また選択条件2は、第1の実施形態と同様にユーザIDが一致することに加えて、対象となる文書とほぼ同時期にアクセスされた文書であることとし、判定条件は対象となる文書のアクセス時刻の前後、所定の時間内に文書ファイルのコピーまたは移動の指示が行われていることとする。
 すなわち、本実施形態は、ユーザによって対象となる文書と近い時期に内容が把握された文書という観点で比較文書の選択条件1及び選択条件2が設定されている。しかしながら、本実施形態ではユーザによりほぼ同時期にアクセスされた文書を比較文書とすることで、それらの文書間で共通して閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわち近い時期にアクセスされた文書間での違いを顕著に表す特徴語の優先度を上げている。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
  (特徴語の種類について)
 既述してきた各実施形態においては、抽出する特徴語として「固有名詞」としてきたが、これに限るものではない。例えば、次のような語を特徴語とすることも想定できる。
・時間を表す語:キーワード検索のキーとしては正確に入力しにくいが、一方で、結果として同時に目にする複数の文書を区別しやすい。
・専門語:文書の内容(分野)を推測しやすい。
・文書の種類を表す語:文書の内容(種類)を推測しやすい。
 以下に、上記のような語を特徴語として抽出する方法の例を述べる。
  <時間を表す語>
 特徴語抽出において、例えば次の方法で時間を表す語を抽出することができる。
岩瀬元秀、渡部広一、河岡司「文の意味理解に基づく常識的時間判断システムの構築」情報処理学会研究報告 Vol.2007,No.26(2007)
金田泰「百科事典から動的に年表を生成するテキスト検索法のための年代情報の抽出法と表現法」情報処理学会研究報告 Vol.1999,No.57(1999)。
  <専門語>
 特徴語抽出において、例えば次のような手段を用いて、専門語(専門用語)を抽出することができる。
横浜国立大学 専門用語自動抽出システム(http://www.forest.eis.ynu.ac.jp/Forest/ja/term-extraction.html)
立石健二、久寿居大「企業内情報共有のための専門用語抽出方式の提案」日本データベース学会letters Vol.4,No.4(2006)
立石健二、久寿居大「複数の作成者情報付き文書からの専門用語抽出(<特集>情報融合)」情報処理学会論文誌.データベース Vol.47,No.SIG_8(2006)。
  <文書の種類を表す語>
 特徴語抽出において、例えば文書の種類を表す語を抽出する。文書を分類する手段として、次のような方法が提案されている。これらの分類方法によって分類し、分類先の分類名を特徴語とすることができる。
 分類方法には、例えば図14(a)にフローを示すような方法がある。手順の例を以下に述べる。
ステップS601で、各単語にモデルを適用し、単語(あるいは複数の単語の組)が各カテゴリに属する確率を求める。
ステップS602で、各単語が各カテゴリに属する確率をもとに、文書(単語の集合)が各カテゴリに属する確率を求める。
ステップS603で、最も属する確率の高いカテゴリを、その文書が属するカテゴリと推定する。
 上記のモデルは学習用コーパスを手作業で分類することにより、分類のモデルを生成することができる。図14(b)にそのフローの例を示す。
 以下のような分類方法を参考にして、モデル生成を行ってもよい。
高村大也、松本裕治「SVMを用いた文書分類と構成機能学習法」情報処理学会論文誌トランザクション:データベース Vol.44,No.SIG03(2003)
高村大也、松本裕治「独立成分分析を用いた文書分類:SVMのための素性空間再構成」情報処理学会研究報告.自然言語処理研究会報告 Vol.2001,No.54(2001)。
 なお、特徴語として「固有名詞」を用いる場合と同様に、これらの語の複合語(複数の単語を組み合わせた語)を用いて特徴語とすることで、文書の内容を表しやすく、また複数の文書を区別しやすくするようにしてもよい。
 また、特徴語の抽出以外の手順は、既述した実施形態に準ずればよい。
 上述してきたように、本実施形態に係る文書の特徴語提示装置及び特徴語提示プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与することができる。
 その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。
 なお、上述の実施形態は、すべての点で例示であって制限的なものではない。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

Claims (20)

  1. 内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
    前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段と、
    前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段と、
    前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、前記特徴語の提示の優先度を付与する特徴語優先度付与手段と、
    前記優先度を付与された前記特徴語、前記比較文書より抽出された前記語句、及びそれらを抽出するための情報を記憶する記憶手段と、
    前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
    ことを特徴とする文書の特徴語提示装置。
  2. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第1項に記載の文書の特徴語提示装置。
  3. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第1項に記載の文書の特徴語提示装置。
  4. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第1項に記載の文書の特徴語提示装置。
  5. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第4項に記載の文書の特徴語提示装置。
  6. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第1項に記載の文書の特徴語提示装置。
  7. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第1項に記載の文書の特徴語提示装置。
  8. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第1項に記載の文書の特徴語提示装置。
  9. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第1項に記載の文書の特徴語提示装置。
  10. 前記比較文書選択手段は、複数の比較文書を選択し、
    前記比較文書語句抽出手段は、
    前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
    ことを特徴とする請求の範囲第1項から第9項の何れか1項に記載の文書の特徴語提示装置。
  11. コンピュータを、
    内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
    前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段、
    前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段、
    前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、提示の優先度を付与する特徴語優先度付与手段、
    前記対象となる文書の内容を提示するため、前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に表示する特徴語提示手段、
    として機能させることを特徴とする文書の特徴語提示プログラム。
  12. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第11項に記載の文書の特徴語提示プログラム。
  13. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第11項に記載の文書の特徴語提示プログラム。
  14. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第11項に記載の文書の特徴語提示プログラム。
  15. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第14項に記載の文書の特徴語提示プログラム。
  16. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第11項に記載の文書の特徴語提示プログラム。
  17. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第11項に記載の文書の特徴語提示プログラム。
  18. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第11項に記載の文書の特徴語提示プログラム。
  19. 前記比較文書選択手段は、
    前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
    ことを特徴とする請求の範囲第11項に記載の文書の特徴語提示プログラム。
  20. 前記比較文書選択手段は、複数の比較文書を選択し、
    前記比較文書語句抽出手段は、
    前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
    ことを特徴とする請求の範囲第11項から第19項の何れか1項に記載の文書の特徴語提示プログラム。
PCT/JP2009/055430 2009-03-19 2009-03-19 特徴語提示装置及び特徴語提示プログラム WO2010106660A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/055430 WO2010106660A1 (ja) 2009-03-19 2009-03-19 特徴語提示装置及び特徴語提示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/055430 WO2010106660A1 (ja) 2009-03-19 2009-03-19 特徴語提示装置及び特徴語提示プログラム

Publications (1)

Publication Number Publication Date
WO2010106660A1 true WO2010106660A1 (ja) 2010-09-23

Family

ID=42739329

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/055430 WO2010106660A1 (ja) 2009-03-19 2009-03-19 特徴語提示装置及び特徴語提示プログラム

Country Status (1)

Country Link
WO (1) WO2010106660A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012221316A (ja) * 2011-04-11 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 文書トピック抽出装置及び方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02181261A (ja) * 1989-01-05 1990-07-16 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH08329118A (ja) * 1994-11-18 1996-12-13 Matsushita Electric Ind Co Ltd 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145290A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02181261A (ja) * 1989-01-05 1990-07-16 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH08329118A (ja) * 1994-11-18 1996-12-13 Matsushita Electric Ind Co Ltd 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145290A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012221316A (ja) * 2011-04-11 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 文書トピック抽出装置及び方法及びプログラム

Similar Documents

Publication Publication Date Title
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US10552467B2 (en) System and method for language sensitive contextual searching
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
CN111970186A (zh) 确定电子通信回复中包括的非文本回复内容的方法和装置
JPH1173417A (ja) テキストジャンル識別方法
US7284006B2 (en) Method and apparatus for browsing document content
Wynne Searching and concordancing
US20100131534A1 (en) Information providing system
JP2012221316A (ja) 文書トピック抽出装置及び方法及びプログラム
JP2005025525A (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
CN116308758B (zh) 一种基于大数据的金融风险分析方法及系统
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP4469817B2 (ja) 文書検索システム及びプログラム
WO2010106660A1 (ja) 特徴語提示装置及び特徴語提示プログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
KR100885527B1 (ko) 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JP3734101B2 (ja) ハイパーメディア構築支援装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09841865

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09841865

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP