WO2006115228A1 - 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置 - Google Patents

調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置 Download PDF

Info

Publication number
WO2006115228A1
WO2006115228A1 PCT/JP2006/308474 JP2006308474W WO2006115228A1 WO 2006115228 A1 WO2006115228 A1 WO 2006115228A1 JP 2006308474 W JP2006308474 W JP 2006308474W WO 2006115228 A1 WO2006115228 A1 WO 2006115228A1
Authority
WO
WIPO (PCT)
Prior art keywords
index word
document group
target document
document
series change
Prior art date
Application number
PCT/JP2006/308474
Other languages
English (en)
French (fr)
Inventor
Hiroaki Masuyama
Haru-Tada Sato
Taichi Ito
Original Assignee
Intellectual Property Bank Corp.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellectual Property Bank Corp. filed Critical Intellectual Property Bank Corp.
Priority to JP2007514696A priority Critical patent/JPWO2006115228A1/ja
Publication of WO2006115228A1 publication Critical patent/WO2006115228A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Definitions

  • Index word extraction device for survey target documents
  • the present invention relates to the extraction of index terms in a document to be investigated, and in particular, the automatic extraction of index terms that makes it possible to accurately analyze the nature of the document to be investigated or the position of the document group and its time-series changes.
  • the present invention relates to a device, an extraction program, an extraction method, and a personality expression diagram using extracted index terms.
  • the present invention relates to a document feature analysis apparatus, and in particular, a general positioning of a search target document included in a survey target document group with respect to another document group and its time-series change, and features of the entire search target document group.
  • the present invention relates to a document feature analysis apparatus, an analysis program, an analysis method, and a document feature expression diagram.
  • Patent Document 1 Similar Document Retrieval Device and Similar Document Retrieval Method
  • Patent Document 2 Japanese Patent Application Laid-Open No. 11 345239 “Document Information Extraction Method and Apparatus and Storage Medium Stored Document Information Extraction Program”
  • the “target document set overall feature” that characterizes the “target document set” with respect to the “standard document set” is calculated, and each “individual document” in the “target document set” is calculated as another individual sentence.
  • the “individual document feature” that characterizes the document is calculated. Then, based on these “target document set overall feature” and “individual document feature”, the feature information of each “individual document” is output.
  • This technology is beneficial in that it makes it easy for users of large volumes of information to find and select useful information.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 11 73415 “Similar Document Retrieval Device and Similar Document Retrieval Method J”
  • Patent Document 2 Japanese Patent Application Laid-Open No. 11 345239 “Document Information Extraction Method and Apparatus, and Storage Medium Stored Document Information Extraction Program”
  • Patent Document 2 a specific theme such as “cherry blossom viewing” is determined and a “target document set” that matches this is extracted. Only when this “target document set” is extracted, each “individual document” from which feature information is to be extracted is determined. In other words, the “target document set” and the specific theme from which it is extracted are determined in advance, and the “individual document” cannot even be determined. Therefore, the technology described in this publication can analyze the character only when a specific document to be investigated is given.
  • Index word extraction means for extracting an index word in the document to be investigated
  • First appearance frequency calculating means for calculating a function value of the appearance frequency of the extracted index word in the comparison target document group;
  • a similar document group selecting means for selecting the similar document group from the selected source document group based on the data of the survey target document;
  • Second appearance frequency calculation means for calculating a function value of the appearance frequency of the extracted index word in the similar document group
  • the output means includes
  • the function value of the appearance frequency in the comparison target document group is taken as the first axis of coordinates, and the function value of the appearance frequency in the similar document group is taken as the second axis of the coordinates, and the index word is arranged and outputted.
  • each index word can be visually grasped from the position of the index word arranged on the coordinates.
  • the position of the index word arranged on the coordinates is an average or aggregated result value at the given analysis time of each index word, and the index word arranged on the coordinates.
  • the temporal transition of the position of the word was expressed on the coordinates as the change of the position, and it was impossible to quantitatively know the temporal transition of the character of the index word.
  • the problem of the present invention is that if a document to be investigated is given, it is possible to quantitatively know the temporal transition of the character just by enabling accurate grasp of the character.
  • An index word extraction device is provided.
  • the index word extraction device of the present invention provides a document to be investigated, the adjustment ⁇ ⁇ An input means for inputting a comparison target document group to be compared with the target document; an index word extraction means for extracting an index word in the search target document; and the comparison target document group of the extracted index word
  • a first appearance frequency calculating means for calculating a function value of the appearance frequency in the document, a similar document group selecting means for selecting the similar document group from the comparison target document group based on the data of the investigation target document, and the extraction Second appearance frequency calculation means for calculating a function value of the appearance frequency of the indexed word in the similar document group, and a function value of the frequency of appearance in the calculated comparison target document group for each index word
  • a position calculation means for calculating the function value of the position of each index word based on the combination of the appearance frequency function value in the similar document group, and the time series change amount and time series of the position at the position of each index word How to change Time series change calculating means for calculating
  • the present invention can provide an accurate grasp of the personality of a document to be surveyed only if it is given. It is possible to quantitatively know the temporal transition of the.
  • the process of extracting the index word in the investigation target document the process of selecting a similar document group from the comparison target document group, the function value of the appearance frequency in the comparison target document group or the similar document group Since all calculations are performed by a computer, there is no need for humans to read the document contents for each process.
  • a similar document group is newly selected for each period belonging to the time series based on the data of the survey target document, and the function value of the appearance frequency in the similar document group and the appearance in the comparison target document group are selected. Based on the combination with the function value of the frequency, each index word, its positioning and its time-series change data are output, so that the character of the document to be investigated can be analyzed with high accuracy.
  • the comparison target document group needs to be data that can be searched, but there are no particular restrictions on the contents. For example, they may be the same document group or different document groups. May be. Further, either or both of these document groups may be randomly extracted from a certain document group, or all documents may be extracted under certain conditions. Typical As an example, all patent documents (such as published patent gazettes) in a certain country and period can be used as a comparison target document group.
  • the document to be investigated may be one document or a plurality of documents. When multiple documents are collected into a survey target document, it indicates the character of the document group rather than the individual survey target document.
  • Index word extraction by the index word extraction means is performed by cutting out words from all or part of a document.
  • a method may be used in which a dictionary (thesaurus) database is stored in advance and index words obtained from the database are used.
  • the appearance frequency of the index word in the document group for example, the number of hit documents (document frequency DF) when the document group is searched and the search is performed with a certain index word is used.
  • the total number of hits of the index word may be used.
  • the output of the index word by the output means may output all of the index words extracted by the index word extraction means, or may output only some index words that strongly indicate the character of the document. good.
  • the positioning and time-series change data output together with the index word by the output means may output the function value of the appearance frequency in the comparison target document group and the similar document group as it is, or based on this. It may be output as a diagram in which index words are arranged on the coordinates, or may be output as a list of index words grouped based on the function value of the appearance frequency.
  • the similar document group selection means for each document of the investigation target document, the function value of the appearance frequency of each index word included in the document or the index word of the index word A vector whose component is a function value of the appearance frequency in the comparison target document group is calculated, and a document having a high degree of similarity to the vector calculated for the survey target document is selected from the comparison target document group. Therefore, it is desirable to use similar documents.
  • a similar document group is selected based on a vector of each document, high reliability can be ensured. Also, select similar documents by matching IPC (International Patent Classification), etc.
  • IPC International Patent Classification
  • the number of cases can be freely specified in the order of the degree of similarity unlike the case of performing the above.Therefore, the degree of similarity of the above vectors can be determined by using the cosine between vectors or the Tanimoto correlation (similarity). You can use the function of the product between, or use the function of the difference between vector components, such as the distance between vectors (dissimilarity).
  • the output means based on the result of each calculation means, the first group of index words having a low appearance frequency in the comparison target document group and the similar document group, and Index of the second group having a higher appearance frequency in the comparison target document group than the index word of the first group, and Index of the third group having a higher appearance frequency in the similar document group than the index word of the first group It is desirable to output each word.
  • the index words of the first to third groups are output, respectively.
  • the characteristics of the target document can be analyzed from multiple angles.
  • the index words of the first group can be evaluated as words (technical terms) that express technical contents included in the survey target document or concepts directly related thereto.
  • the second group mentioned here includes words (creative attention words) indicating powerful concepts that are not much noticed in similar fields for the high appearance frequency in the comparison target document group.
  • the third group here includes words that characterize similar document groups (similar document group defined words). For example, if a technical document is the subject of the survey, similar technical documents and the technical field of the subject document can be found by looking at the index word in the third loop.
  • the first to the second functions using the function value of the appearance frequency in the comparison target document group and its time series change amount, and the function value of the appearance frequency in the similar document group and its time series change amount.
  • Directionality For example, if you look at the direction of time transition of each index word, Directionality is divided.
  • the personality expression diagram of the present invention uses the function value of the appearance frequency in the comparison target document group to be compared with the search target document for the index word in the search target document as the first axis of coordinates, and A function value of appearance frequency in a similar document group similar to a document is arranged on the second axis of the coordinates, and the time series change amount and the time series change direction of the position data of each index word are displayed and output respectively. Therefore, the position of each index word and its temporal transition can be visually grasped by the position of the index word arranged and displayed on the coordinates and its time-series change, so that the character of the surveyed document can be analyzed accurately. .
  • the X axis (horizontal axis) is used as the first axis
  • the Y axis (vertical axis) is used as the second axis.
  • the present invention is not limited to this. Also good for axes.
  • an index word extraction device that can accurately represent the personality and time-series changes when a survey target document is given.
  • FIG. 1 is a diagram showing a hardware configuration of a feature index word extraction device according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining in detail the configuration and functions of the feature index word extraction device.
  • FIG. 3 is a flowchart showing the operation of the processing apparatus 1.
  • FIG. 4 is a diagram showing a display example of an input condition setting screen.
  • FIG. 5 is a diagram showing a display example of an input condition setting screen.
  • FIG. 6 A display example of a selection condition setting screen.
  • FIG. 7 is a diagram showing a display example of an output condition setting screen.
  • FIG. 8 is a conceptual diagram for explaining the nature of the feature index word output map (frequency plan view).
  • FIG. 9 is a conceptual diagram for explaining correction of an output map (frequency plan view) of feature index words.
  • FIG. 10 is a conceptual diagram for explaining the principle (triangular model) of the output map (frequency plan and position variation) of feature index words.
  • FIG.11 Display example of feature index word output map (frequency plan) up to 1993.
  • FIG.13 An example of the display of the position and the amount of change from 1993 to 1994 of the output map (frequency plan and position change) of the feature index word.
  • FIG.14 An example showing the position and the amount of change from 1993 to 1994 in the output list of feature index words (frequency plan and position change).
  • FIG.15 Display example of moment distribution map of feature index word output map (frequency map).
  • FIG.16 Example of display of flow velocity distribution map of feature index word output map (frequency plan).
  • Processing device 2 Input device 3: Recording device 4: Output device
  • 110 Survey target document d reading unit
  • 120 Index word (d) extraction unit
  • 121 TF (d) calculation unit
  • 130 Comparison target document group P reading unit
  • 140 Index word (P) extraction unit
  • 141 TF (P) calculation unit
  • 142 IDF (P) calculation unit
  • 150 Similarity calculation unit
  • 160 Similar document group S selection unit
  • 170 Index word (S) extraction unit
  • 171 IDF (S) calculation
  • 180 Feature index word extraction unit
  • 190 Time series classification unit
  • 191 Position data correction unit
  • 192 Position / variation calculation unit
  • a original word of interest area
  • b technical word area
  • c similar document group definition word area
  • d general language area Area.
  • document means a patent publication, patent gazette, academic paper, and the like, and in particular, technical information is desirable, but is not limited thereto. It is not specified if the document is readable by a computer. However, even if it cannot be read by a computer, it is the same if it is read by humans in advance and converted into a text file. Drawings etc. may be included in the document of this specification as long as the names of parts such as devices are data.
  • the document format can be, for example, the full text of a patent publication, patent gazette, academic paper, etc., or it can be a partial sentence such as a summary or claims, or a memo or itemized list. But it ’s okay.
  • “Survey document d” A project related to the survey. For example, a document such as a patent number gazette, or a collection thereof.
  • Comparison document group P A collection of documents to be compared with the survey document d.
  • all patent documents such as published patent gazettes
  • the case where the survey target document d is included will be described, but it may not be included.
  • Comparison target document group P ′ A set of different documents to be compared with the survey target document d. For example, a comparison target document group for a second predetermined period with respect to a comparison target document group for a first predetermined period.
  • Similar document group S A set of documents similar to the document d to be investigated.
  • V is described when d is included, but it is not included.
  • the case where the document is selected from the comparison target document group P will be explained.
  • d or (d), P or (P), or S or (S) attached to the component in each figure Means the survey target document, the comparison target document group, or the similar document group, respectively, and is also attached to the constituent elements and operations for easy identification.
  • the index word (d) means the index word of the document d to be investigated.
  • TF calculation is the calculation of Term Frequency, which is the calculation of the appearance frequency (index word frequency) of an index word contained in a document in the document.
  • DF operation means calculation of Document Frequency, which is the calculation of the number of hit documents (document frequency) when searching from a search target document group using an index word included in a certain document.
  • the “IDF operation” is, for example, a calculation of the reciprocal of the DF operation result or the logarithm of the reciprocal multiplied by the number of documents P or S as the search target document group.
  • the natural logarithm is used as the logarithm in the calculation of IDF (P) or the like here.
  • the logarithm is not limited to this, and a common logarithm or the like may be used.
  • N The total number of documents in the comparison target document group P.
  • TF (d) Frequency of occurrence in d according to the index word of d.
  • TF (P) Frequency of occurrences in p due to p index terms.
  • DF (P) Document frequency in P with d or p index terms.
  • IDF (P) Reciprocal of DF (P) X Logarithm of number of documents: In [N / DF (P)].
  • IDF (S) Reciprocal of DF (S) X Logarithm of document number: In [ ⁇ '/ DF (S)].
  • TFIDF product of TF and IDF. Calculated for each index word in the document.
  • Similarity similarity rate
  • Index word is a so-called keyword, which is a word cut out from all or part of a document.
  • the method of extracting words is known in the past, and it is possible to extract meaningful parts of speech, excluding particles and conjunctions, by using a method or commercially available morphological analysis software.
  • a database of dictionaries (thesaurus) may be stored in advance and index words obtained from the database may be used.
  • the "first predetermined period” is a period including time data such as year / month / day data attached or identified to the comparison target document group P including the survey target document d. For example, if the document group P to be compared is a group of patent publications (approximately 4.5 million) issued in 2003 by the year 1993, the first predetermined period is from 1993 to 2003.
  • the “second predetermined period” is a period including time data such as year / month / day data attached or identified to another comparison target document group P ′ including the survey target document d.
  • the comparative document group P is a group of patent publications issued from 1993 to 2004 (approximately 5 million)
  • the second predetermined period is from 1993 to 2004.
  • start time of the second predetermined period should coincide with the start time of the first predetermined period.
  • the “characteristic index word and its position data in the first predetermined period” are the characteristic index word and its position data obtained from the comparison target document group P including the investigation target document d in the first predetermined period.
  • the “feature index word and its position data in the second predetermined period” are the characteristic index word and its position data obtained from the comparison target document group P ′ including the investigation target document d in the second predetermined period.
  • FIG. 1 is a diagram showing a hardware configuration of an index word extraction device according to an embodiment of the present invention.
  • the index word extraction device includes a processing device 1, a keyboard (manual input device), and the like that are configured with power such as a CPU (central processing unit) and a memory (recording device).
  • Input device 2 which is the input function of the recording device
  • recording device 3 which is a recording function for storing the document data, conditions, work results of the processing device 1, and the like, and an output function for displaying the index word extraction results, etc. on a map or list It is comprised from the output device 4 which is.
  • the recording device 3 has a condition recording function, a work result storage function, and a document storage function, and an internal database 30 for storing the acquired documents and the like together with these.
  • An external database means, for example, a document database such as IPDL of a patent digital library serviced by the Patent Office or PATOLIS serviced by Patrice Co., Ltd.!
  • the internal database is a database that stores data such as patent JP-ROM that is sold on its own, FD (flexible disk), CDROM (compact disk), MO (magneto-optical disk), DVD that stores documents.
  • Media reading devices such as (digital versatile discs) Read devices, devices such as OCR (optical information reader) that reads documents output or handwritten on paper, etc., and converts the read data into electronic data such as text It is assumed that the device to be used is included.
  • OCR optical information reader
  • a communication function for exchanging signals and data among the processing device 1, the input device 2, the recording device 3, and the output device 4 is a USB (Universal System Bus) cable or the like. It may be connected directly, may be transmitted / received via a network such as a LAN (local area network), or may be via a medium such as FD, CDROM, MO, or DVD that stores documents. Alternatively, some or a combination of these may be used.
  • a network such as a LAN (local area network)
  • a medium such as FD, CDROM, MO, or DVD that stores documents.
  • some or a combination of these may be used.
  • the survey target document d reading unit 110 reads the survey target document from the internal database 30 based on the conditions recorded in the internal database 30.
  • the retrieved document d to be investigated is sent to the index word (d) extraction unit 120.
  • the index word (d) extraction unit 120 also extracts the index word based on the document power obtained by the survey target document d reading unit 110.
  • the TF (d) calculation unit 121 performs TF calculation on the work result of the index word (d) extraction unit 120 for the investigation target document d.
  • the obtained data of TF (d) is sent to the similarity calculation unit 150.
  • the comparison target document group P reading unit 130 reads a plurality of documents to be compared from the internal database 30 based on the conditions recorded in the internal database 30.
  • the read target document group P is sent to the index word (P) extraction unit 140.
  • Index word (P) extraction Based on the conditions recorded in the internal database 30, the unit 140 extracts index words from the document obtained by the comparison target document group P reading unit 130, and performs the TF (P) calculation unit 141 and the IDF ( P) is sent to the calculation unit 142.
  • the TF (P) calculation unit 141 performs TF calculation on the work result of the index word (P) extraction unit 140 for the comparison target document group P recorded in the internal database 30.
  • the obtained TF (P) data is sent to the similarity calculation unit 150.
  • the IDF (P) calculation unit 142 performs IDF calculation on the work result of the index word (P) extraction unit 140 for the comparison target document group P recorded in the internal database 30.
  • the obtained IDF (P) data is sent to the similarity calculation unit 150 and the feature index word extraction unit 180.
  • the similarity calculation unit 150 uses the calculation results of the TF (d) calculation unit 121, the TF (P) calculation unit 141, and the IDF (P) calculation unit 142. , The degree of similarity of each document in the comparison target document group P with respect to the survey target document d is calculated. The obtained similarity is attached as similarity data to each document in the comparison target document group P and sent to the similar document group S selection unit 160.
  • the similarity calculation in the similarity calculation unit 150 is performed for each index word of each document, for example, TF (d) IDF (P) calculation or the like.
  • the similarity to the target document d is calculated.
  • the TFIDF operation is the product of the TF operation result and the IDF operation result. The calculation method of similarity will be described in detail later.
  • the similar document group S selection unit 160 obtains the similarity calculation result of the comparison target document group P from the result of the similarity calculation unit 150, and based on the conditions recorded in the internal database 30, the similar document group S Is elected. For selecting the similar document group S, for example, the documents are sorted in descending order of similarity, and the necessary number indicated in the condition is selected, for example, 3000 in descending order of similarity.
  • the selected similar document group S is sent to the index word (S) extraction unit 170.
  • the index word (S) extraction unit 170 extracts the index word (S) from the similar document group S of the similar document group S selection unit 160 based on the conditions recorded in the internal database 30.
  • the extracted index word (S) is sent to the internal database 30 and the IDF (S) calculation unit 171 directly.
  • the IDF (S) calculation unit 171 obtains the index word (S) from the index word (S) extraction unit 170, and this index word
  • IDF is calculated based on the conditions recorded in the internal database 30 (S). I obtained The DF (S) is sent to the internal database 30 feature index word extraction unit 180.
  • the feature index word extraction unit 180 uses the result of the IDF (S) calculation unit 171 and the result of the IDF (P) calculation unit 142 for the necessary number recorded in the conditions recorded in the internal database 30, or The index word (d) is extracted by the number selected by the calculation result based on the same condition.
  • the index word extracted here will be referred to as “characteristic index word”.
  • the extracted feature index word (d) is sent to the internal database 30 or directly to the time series classification unit 190.
  • the result of the feature index word extraction unit 180 is the feature index word and its position data in the first predetermined period, or the feature index word and its position data in the second predetermined period. Is determined.
  • the result of the feature index word extraction unit 180 is the feature index word and its position data for the first predetermined period
  • the result is directly sent to the position / change amount calculation unit 192 via the position data correction unit 191.
  • it is returned to the comparison target document group P reading unit 130 via the internal database 30, and a new comparison target document group P ′ in which data is added to the comparison target document group P after a lapse of a certain period of time. Based on the characteristic bow arch I and its position data are calculated.
  • the result of the feature index word extraction unit 180 is sent to the position data correction unit 191 in the case of the feature index word and its position data for the second predetermined period.
  • the position data correction unit 191 is calculated based on a new comparison target document group P 'in which documents after a certain period have been added to the feature index word and its position data in the first predetermined period. In order to be able to correctly compare the feature index word and its position data in the second predetermined period with those of the feature index word and its position data in the first predetermined period, the total number of documents in the new comparison target document group P ′ N 'is corrected according to the total number of documents N in the comparison target document group P. Then, it is sent to the position / variation calculation unit 192.
  • the position and change amount calculation unit 192 is corrected by the feature index word and its position data of the first predetermined period calculated by the feature index word extraction unit 180 and by the position data correction unit 191 of the same feature index word. Further, the amount of change is calculated from the feature index word and its position data for the second predetermined period and stored in the internal database 30.
  • FIG. 3 is a flowchart showing the operation of the processing apparatus 1.
  • Initialization Step S101
  • the survey target document d reading unit 110 reads the survey target document from the internal database 30 (step S110).
  • the index word (d) extraction unit 120 extracts the index word of the investigation target document d (step S 120).
  • the TF (d) calculation unit 121 performs TF calculation for each of the extracted index words (step S121).
  • the comparison target document group P is read from the internal database 30 (step S130).
  • the index word (P) extraction unit 140 extracts index words from the comparison target document group P (step S140).
  • TF (P) calculation unit 141 performs TF calculation (step S 141)
  • IDF (P) calculation unit 142 performs IDF calculation. (Step S 142).
  • the similarity calculation unit 150 calculates the similarity (step S150). This similarity calculation is executed by calling a similarity calculation module for calculating the similarity from the internal database 30 based on the condition input from the input device 2.
  • the similarity (or dissimilarity) between document vectors d and p is obtained.
  • the cosine (similarity) between vectors means that the degree of similarity is higher as the value is larger, and the distance between dissimilar points (dissimilarity) means that the degree of similarity is higher as the value is smaller.
  • the obtained similarity is stored in the internal database 30 and sent to the similar document group S selection unit 160.
  • the similar document group S selection unit 160 rearranges the documents whose similarity is calculated in step S150 in order of similarity, and selects the number of similar document groups S according to the input extraction condition (step S 160).
  • the index word (S) extraction unit 170 of the similar document group S extracts the index word (S) of the similar document group S selected in step S160 (step S170).
  • the IDF (S) calculation unit 171 performs IDF calculation on the similar document group S (step S171).
  • a feature index word is extracted from the result of the IDF (S) operation in step S171 and the result of the IDF (P) operation in step S142 (step S180). [0066] Next, in the time series classification in step S190, whether the result of feature index word extraction in step S180 is the feature index word and its position data in the first predetermined period, or the feature index word in the second predetermined period And whether it is the position data.
  • step S180 If the result of the feature index word extraction in step S180 is the feature index word and its position data for the first predetermined period, the position / change amount of step 192 is determined via the position data correction unit in step 191. At the same time it is sent to the calculation unit, it returns to the comparison target document group P reading unit 130 via the internal database 30, and a new comparison target document group to which data after a certain period of time in the comparison target document group P is added is added. A feature index word based on P ′ and its position data are calculated (step S 190).
  • step S191 when the result of feature index word extraction in step S180 is the feature index word and its position data in the second predetermined period, the position data of the feature index word is corrected in step S191.
  • the feature index word and its position data of the second predetermined period calculated based on the new comparison target document group P ′ to which the documents after the elapse of a certain period in the comparison target document group P are added are the first predetermined period.
  • it is corrected according to the total number of documents N in the comparison target document group P (step S191). Then, it is sent to the position / change amount calculation unit 192.
  • the position / variation calculation unit 192 changes how much the corrected feature index word and its position data in the second predetermined period have changed with respect to the feature index word and its position data in the first predetermined period. Is calculated.
  • the amount of change is just the amount of change taking into account the difference between the two position data or the flow (motion) speed at that position when the index word is regarded as a fluid.
  • FIG. 4 is a diagram showing a display example of the input condition setting screen for the survey target document d.
  • “Survey document” is selected from “Search target document” and “Comparison target document group” in the “Target document” window, and then “Public patent” in the “Document content” window.
  • the first predetermined period and the second predetermined period are input, or the number of time sequences to be analyzed as a period difference interval is input.
  • FIG. 5 is a diagram showing a display example of the input condition setting screen for the comparison target document group P.
  • Fig. 7 select "Comparison Documents” from “Survey Documents” and “Comparison Documents” in the “Target Documents” window, and then select the "Document Contents" window.
  • FIG. 6 is a diagram showing a display example of a setting screen for index word extraction conditions and similar document group selection conditions.
  • “In-house keyword extraction 1”, “In-house keyword extraction 2”, “Commercial keyword extraction 1”, “Commercial keyword extraction 2”, etc. in the “Index word extraction condition” window are displayed. Select “Out 1”, then “Similarity 1” “Similarity 2” “Similarity 3” “Similarity 4” “Similarity 5” “Similarity 6”, etc.
  • FIG. 7 is a diagram showing a display example of the output condition setting screen of the feature index word extraction device.
  • X axis: comparison target documents” and “X axis” in the “Map calculation method” window are displayed.
  • Y axis is selected as “X axis: Similar documents?”
  • Map 1”, “Map 2”, “Map 1” with list, “Map 2” list in “Map” window “Map 1 sheet” with comments "Map 2 sheets with comment”””Map 1 list with comments””Map 2 list with comments”, etc.
  • FIG. 8 is a conceptual diagram for explaining the nature of the map output by the index word extraction device of the first embodiment.
  • This map outputs the index word extracted by the feature index word extraction unit 180 out of the index words (d) of the survey target document d and expresses it by the display function.
  • the map shows the calculation result of ID F (P) calculation unit 142 in comparison target document group P on the horizontal axis, and IDF (S) on similar document group S on the vertical axis.
  • the calculation result of the calculation unit 171 is taken and arranged on the frequency plane.
  • the X coordinate is the value of IDF ( ⁇ ). This is an area where index words that exist in most of the comparison target document group P are arranged.
  • the ⁇ coordinate is the value of IDF (S), and the vicinity of the value power of Y, that is, the vicinity of D, is an index word region that exists in most of the similar document group S.
  • the inside of the line segment ⁇ whose Y coordinate is j8 1 ⁇ 'is in the similar document group S.
  • an index word having a small document frequency DF (P) in the comparison target document group P that is, an unusual index word appears on the right side of FIG. 8 because IDF (P) is large.
  • Index words with large DF (P) that is, frequently used, appear near the Y-axis in Fig. 8 because IDF (P) is small. Therefore, rare index words in the comparison target document group P appear to the right, and index words that are frequently used in the comparison target document group P appear to the left.
  • the similar document group S is a subset of the comparison target document group P, so on the right side of Fig. 8, there are index word points only within the area cut by the line segment BC. .
  • the line segment BC is derived as follows. Since the similar document group S is a subset of the comparison target document group P,
  • uniform means that when the number of documents NQ of the document group Q to be measured is changed
  • the index word point can exist in the area sufficiently to the left of the line segment AD. Force When considering the following, the area is treated as a non-existing area of the index word point. However, this does not hinder the interpretation of the nature of the document d to be investigated. In other words, since this region is a region far from the original word region A of interest, even if it appears, it is a force-specific index word, and DF (S) ⁇ DF (P)- Existence limit line derived from the restriction of ⁇ + ⁇ ':
  • the feature index word extracted from the survey target document d has a similar document group as the document frequency in the comparison target document group P decreases as it goes to the right of the frequency plane in FIG. Document frequency at S is low. Therefore, each area in Fig. 8 has an index word with the following properties: Therefore, it is possible to read the position of the comparison target document group P of the survey target document d and its time-series change and character from the distribution state of the points on the frequency plane.
  • Technical term area b An area in which index words that are infrequently used appear in both the comparison target document group P! And the similar document group S.
  • the index words at the corners are more specialized.
  • Original attention word region a A region where index words indicating concepts that have not attracted much attention in a similar field appear in spite of the high appearance frequency in the comparison target document group P. It is included in the second area of the present invention. Among the index words that appear in the area of the second area, the index words at the corners are more original.
  • Similar document group specified word area c Indicates the nature of the similar document group S that most documents have in the similar document group S, and therefore the corresponding number of documents also have in the comparison target document group P An area where very natural index terms appear. For example, if a technical document is the subject of investigation, the technical field of the similar document group S and the subject document d can be known by looking at the similar document group terminology. It is included in the third area of the present invention.
  • General word area d An area in which frequently used index words appear in both the comparison target document group P and the similar document group S. Compared with the target document group P! When analyzing the nature of the target document d, the importance is often low.
  • the movement amount, movement direction, and movement speed of the position of the feature index word on the frequency plan after a predetermined time can be defined.
  • appropriate values cannot be obtained because the area near the boundary of the frequency plan view and the nature of the region cannot be considered.
  • the intensity of movement can be expressed quantitatively by the intensity of the flow, it is possible to compare the intensity change between time series or index words.
  • Position data I on the frequency plan view in document group A at a certain time t for feature index word w Consider DF (w, A (t); t) and its change over time.
  • A is a comparison target document group P or a similar document group S.
  • the frequency plan view by the feature index word is drawn.
  • X and Y are expressed as X (A), and the index word w dependency notation is omitted.
  • V (A) -Ln [DF (A; t + At) / DF (A; t)]
  • V (P) -Ln [1 + ⁇ DF (P; t) / DF (P; t)],
  • V (P) - ⁇ DF (P; t) / DF (P; t)
  • G is equivalent to the nonlinear expansion of the relative elongation of DF.
  • FIG. 9 is a conceptual diagram for explaining position data correction of a feature index word. Only the X direction is shown for simplicity. Resulting power of feature index word extraction in step S180 In the case of the feature index word and its position data in the second predetermined period, the position data of the feature index word is corrected in step S191. In the case of the feature index word and its position data for the first predetermined period, the second index calculated based on the new comparison target document group P ′ in which documents after a certain period have been added to the comparison target document group P. The feature index words and their position data for a specified period are added. In order to compare the feature index word and its position data in the second predetermined period with the feature index word and its position data in the first predetermined period, the total number of documents in the comparison target document group P ′ is corrected to N.
  • Map output example 1 Fig. 11 to Fig. 13 (solar cell)> Figure 11 shows the feature index word extraction device of Example 1, when one published patent gazette related to “solar cell” was selected as the search target document d. This is a specific example of a map display in which the predetermined period is designated as 1990-1994.
  • This map corresponds to the frequency plan view of the present invention (the following maps are also the same).
  • For extraction select in-house keyword extraction 1 (commercial index word extraction tool), and the similarity is calculated by calculating the TFIDF for each component of the document vector and cosine of each of the document d to be compared and the group P of comparison documents.
  • the top 3000 similarities are selected for selecting similar document group S, and the X-axis: IDF for comparison target document group P and Y-axis: IDF for similar document group S are selected. Selected and displayed as a result of selecting one map at the map output position.
  • JP-A-05-** * 123 is selected as the search target document d in the published patent publications up to 1993 as the comparison target document group.
  • the search target document d is naturally the same, but the published patent gazettes up to 1994 were treated as a comparison target document group.
  • FIG. 13 shows the time series change amount of the position data of the feature index word on the frequency plan view of the present invention.
  • the boundary wall is corrected and the change amount is shown. It is shown connected with line segments.
  • the change direction and change amount of the position of each index word are known.
  • the index word “stratified” has a decreasing value on the vertical axis (IDF (S)) from 1993 to 1994. From this, it can be inferred that the index word “multilayer” is being generalized in a similar field of the survey target document d regarding solar cells.
  • the change in the property of the index word over time can be read.
  • the change in the position of the index word it is possible to know the change in the character of the document d to be investigated. For example, if the documents in the first predetermined period are set as the comparison target document group P, the index word is located in the original focus word area a or the technical word area b (characterizing the target document d).
  • the document for the second predetermined period is the comparison target document group P, if the document moves toward the general word region d or the similar document group specified word region c, the survey target document d is no longer in the index.
  • the survey target document d has a strong character as a document characterized by the index word. And then you can.
  • FIG. 14 is a specific example of the list output of the feature index word extraction device for the same document to be investigated and the group of documents to be compared as in FIGS.
  • Characteristic index words such as “cloudy”, “assuming”, “spreading”, “the day”, “rainy weather”, and “promotion” in the original attention word area a Characteristic index words such as “bribe” and “cloudy weather” in the technical language area b,
  • NIDF is the correction data in the P direction
  • V or V is
  • the index word to be output in each region is obtained as follows, for example.
  • the ratio of the document frequency DF ( ⁇ ) to the number of documents ⁇ in the comparison target document group ⁇ is ⁇ 2 (%) or less, and the number of documents N in the similar document group S.
  • Index words whose ratio of document frequency DF (S) to 'exceeds sZ2 (%) will be extracted.
  • the extraction conditions are not limited to the above.
  • the potential flow is the solution to the equation of motion of the fluid regardless of the presence or absence of viscosity, and considering the above article, it is primary to consider a potential flow model for an incompressible perfect fluid.
  • a quadrilateral region T'FCB is divided into two triangular regions AFCB and AT'FB, a potential flow that springs up at point B and has suction at point F.
  • the vertex V is located at the value c2 on the real axis of the complex z plane, and the interior angles of the three vertices V, V, and V are
  • the rotation expansion factor cl is expressed using the arbitrary constant a.
  • ⁇ ( ⁇ ) ⁇ ( ⁇ -1) / ( ⁇ — ⁇ )
  • F21 is a Gaussian hypergeometric function
  • B (o ;, J8) is a beta function.
  • f and ⁇ are the upper half plane ( ⁇ > 0) or a circle passing through three points ⁇ , ⁇ , ⁇
  • the original image of the congruent triangle can be obtained from the lower half ⁇ plane or the outside of ⁇ ).
  • Coefficient a is a relational expression of edge length
  • intercept k is given, and and a are all fixed at once (that is,
  • Force Gradient U Flow given by grad Is called the potential flow ( ⁇ is the velocity potential), and the streamline is given by the line where the flow function ⁇ takes a constant value.
  • nth derivative of W (If the nth derivative of W is taken, it represents an upflow by n + 1 quadrupoles).
  • the flow rate Q and the circulation ⁇ are calculated by integration along the closed curve C surrounding the spring point.
  • flow information on the ⁇ plane is converted into flow information on the z plane.
  • the origin is selected so that the integer j falls within the range of 0 ⁇ j ⁇ L / ⁇ for the effective size L of the search area on the ⁇ plane and the division interval ⁇ .
  • the (j, k) coordinate value is determined for an arbitrary ⁇ , and the corresponding discrete value ⁇ (j, k) of ⁇ is determined.
  • the discrete grid is preferably based on orthogonal curve coordinates along streamlines and equipotential lines.
  • the discrete grid is preferably based on orthogonal curve coordinates along streamlines and equipotential lines.
  • the discrete grid is preferably based on orthogonal curve coordinates along streamlines and equipotential lines.
  • V (m + i / c) V (Formula 3.1)
  • FIG. 15 (m, ⁇ ) plane (moment distribution diagram).
  • the auxiliary curve is a circle whose center is the origin and whose radius is the average value of (m 2 + ⁇ 2 ).
  • FIG. 16 A plane (m
  • the auxiliary curve is a circle whose radius is the average value of IV (m 2 + ⁇ 2 ).
  • along the streamline is directed to the general word region d. It can be said to be an index word with a high strength of moving force or a moving speed.
  • perpendicular to the streamline has a high strength or moving speed toward the original attention word region a.
  • that is perpendicular to the streamline and has a large absolute value indicates the strength or movement of the flow toward the similar document group terminology region c.
  • the index word has a high speed. Therefore, it is possible to quantitatively grasp how much each index word is moving in the direction of the general word, the direction of the original attention word, or the direction of the similar document group definition word at the flow intensity or moving speed.
  • Fig. 15 and Fig. 16 the strength and direction of movement of each index word, or the speed and direction of movement of each index word, the apparent amount of movement and the way of movement as shown in Fig. 13. Regardless of the direction, it can be quantitatively grasped regardless of where it is located in each area shown in Fig. 8, so the position of the index word in the survey target document, and thus the character of the survey target document, in which direction It is possible to analyze quantitatively how it changes.
  • These distribution maps may be obtained by standardizing coordinates. For example, Fig. 17 shows the standardized moment (m, ⁇ ) coordinates for each index word.
  • ⁇ ⁇ represents the mean and standard deviation for the index point of variable X.
  • Index terms with a moment change larger than the average appear outside the right side of the auxiliary curve, and index terms with a smaller change than the average tend to appear outside the left side of the auxiliary curve.
  • the original, ⁇ ) plane represents a circle with a constant Mahalanobis distance (R). [0139] Ku 6— 7. Other models>
  • Figure 19 shows the (m, ⁇ ) distribution map (moment distribution map) based on the trapezoidal model.
  • FIG. 20 is a (m
  • the integral is AppeU-Lauricella's n—two-variable hypergeometric function
  • Figure 22 shows the (m, ⁇ ) distribution map (moment distribution map) based on the pentagon model.
  • Fig. 23 shows the (m

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

調査対象文書d内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、比較対象文書群Pにおける出現頻度の関数値IDF(P)を算出する第1出現頻度算出手段と、調査対象文書dのデータに基づき、比較対象文書群Pの中から調査対象文書dに類似する類似文書群Sを選出する類似文書群選出手段と、前記抽出された索引語の、類似文書群Sにおける出現頻度の関数値IDF(S)を算出する第2出現頻度算出手段と、各索引語についての、前記算出された比較対象文書群及び類似文書群における各出現頻度の関数値の組合せに基づき、各索引語とその位置づけ及びその時系列変化のデータとを出力する出力手段と、を備える。これにより、文書を読まずに調査対象文書の性格及びその時間的推移の的確な把握を可能にする。

Description

明 細 書
調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置 技術分野
[0001] 本発明は、調査対象文書中の索引語の抽出に係わり、特に調査対象文書の性格 又は文書群に対する位置付け及びその時系列変化を的確に分析することを可能に する、索引語の自動抽出装置、抽出プログラム、抽出方法、及び抽出された索引語 を用いた性格表現図に関するものである。
また、本発明は文書の特徴分析装置に係わり、特に調査対象文書群に含まれる調 查対象文書の、他の文書群に対する大まかな位置付け及びその時系列変化や、調 查対象文書群全体としての特色を分析できるようにする文書の特徴分析装置、分析 プログラム、分析方法、及び文書特徴表現図に関するものである。
背景技術
[0002] 特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近 年、文書データが電子化されて流通するようになってから、膨大な文書群から調査対 象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。例えば 、特開平 11 73415号公報「類似文書検索装置及び類似文書検索方法」(特許文 献 1)においては、調査対象の文書に含まれる索引語を他の文書群に含まれる索引 語と比較し、類似する索引語の種類目や出現回数などから類似度を算出し、最も類 似度の高 ヽ文書から順に出力して!/ヽる。
[0003] しかし、類似文書は検索されても、それだけでは調査対象の文書の性格或いは文 書群での位置付け及びその時系列変化を知ることはできな!、。調査対象の文書の性 格又は文書群での位置付け及びその時系列変化を知るためには、検索結果の類似 文書を読み込んだ上で、読み込んだ類似文書を前提として調査対象文書の評価を しなければならなかった。
[0004] 一方、文書の特徴そのものを自動抽出するものとして、例えば特開平 11 34523 9号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶 媒体」(特許文献 2)が存在する。この公報においては、「標準文書集合」から検索に より「対象文書集合」を抽出し、この「対象文書集合」を構成する各「個別文書」の特 徴情報を抽出している。
具体的には、「対象文書集合」を「標準文書集合」に対して特徴付ける『対象文書集 合全体特徴』を算出するとともに、「対象文書集合」中の各「個別文書」を他の個別文 書に対して特徴付ける『個別文書特徴』を算出する。そして、これら『対象文書集合全 体特徴』と『個別文書特徴』に基づいて、各「個別文書」の特徴情報を出力する。この 技術は、大量の情報の中力 ユーザが有益な情報を見つけ出して取捨選択すること を容易にする点で有益である。
特許文献 1:特開平 11 73415号公報「類似文書検索装置及び類似文書検索方法 J
特許文献 2:特開平 11 345239号公報「文書情報抽出方法及び装置及び文書情 報抽出プログラムを格納した記憶媒体」
発明の開示
発明が解決しょうとする課題
[0005] しかし、上記特開平 11— 345239号公報 (特許文献 2)に記載の技術では例えば「 桜の花見」など特定のテーマを決めて力 これに合致する「対象文書集合」を抽出す る。そしてこの「対象文書集合」が抽出されることで初めて、特徴情報の抽出対象とな る各「個別文書」が決定される。すなわち、「対象文書集合」やそれを抽出する特定の テーマが予め決まって 、な 、と「個別文書」を決定することさえできな 、。従ってこの 公報に記載の技術では、特定の調査対象文書が与えられたときにしかその性格を分 析することはできない。
[0006] そこで、本出願人は、本出願の優先日において未公開の国際特許出願番号 PCT
/JP2004/015082【こお!ヽて、
調査対象文書、前記調査対象文書と比較され、又、前記調査対象文書に類似する 類似文書群の選出元となる比較対象文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算 出する第 1出現頻度算出手段と、 前記調査対象文書のデータに基づき、前記選出源文書群の中から前記類似文書 群を選出する類似文書群選出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出す る第 2出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の 関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引 語とその位置づけデータとを出力する出力手段と、
を備えた、索引語抽出装置
を提案した。
[0007] これにより、調査対象文書があたえられたときにその性格の的確な把握ができること となった。
[0008] 更に、この索引語抽出装置について、
前記出力手段は、
前記比較対象文書群における出現頻度の関数値を座標の第 1軸にとり、 前記類似文書群における出現頻度の関数値を前記座標の第 2軸にとって、前記索 引語を配置し出力する
ことを提案した。
[0009] これにより、座標上に配置された索引語の位置により、各索引語の位置付けを視覚 的に把握することができることとなった。
[0010] し力しながら、座標上に配置された索引語の位置は、各索引語の所与の解析時点 における平均的或いは集計された結果の値であって、座標上に配置された索引語の 位置の時間的推移が位置の変化として座標上に表現されて、その索引語の性格の 時間的推移を定量的に知る、ということができな力つた。
[0011] 本発明の課題は、調査対象文書が与えられればそれだけで、その性格の的確な把 握を可能にするだけでなぐその性格の時間的推移を定量的に知ることを可能にす る、索引語抽出装置を提供することである。
課題を解決するための手段
[0012] 上記課題を解決するため、本発明の索引語抽出装置は、調査対象文書、前記調 查対象文書と比較される比較対象文書群、を入力する入力手段と、前記調査対象文 書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較 対象文書群における出現頻度の関数値を算出する第 1出現頻度算出手段と、前記 調査対象文書のデータに基づき、前記比較対象文書群の中から前記類似文書群を 選出する類似文書群選出手段と、前記抽出された索引語の、前記類似文書群にお ける出現頻度の関数値を算出する第 2出現頻度算出手段と、各索引語についての、 前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群 における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出 する位置算出手段と、前記各索引語の位置における、位置の時系列変化量及び時 系列変化方向を算出する時系列変化算出手段と、前記各索引語と、その位置のデ ータ、その時系列変化量及びその時系列変化方向を出力する出力手段と、を備えて いる。
[0013] 本発明は、出現頻度の関数値を各索引語における組合せで観察することにより、 調査対象文書が与えられればそれだけで、その性格の的確な把握を可能にするだ けでなぐその性格の時間的推移を定量的に知ることを可能にするものである。
[0014] 本発明によれば、調査対象文書内の索引語を抽出する処理、比較対象文書群か ら類似文書群を選出する処理、比較対象文書群又は類似文書群における出現頻度 の関数値を算出する処理等は、すべてコンピュータで行われるので、各処理のため に人間が文書内容を読む必要はまったくない。
[0015] 特に、調査対象文書のデータに基づいて類似文書群を、時系列に属する各期間ご とに新たに選出し、この類似文書群における出現頻度の関数値と、比較対象文書群 における出現頻度の関数値との組合せに基づき、各索引語とその位置付け及びそ の時系列変化データとを出力するので、調査対象文書の性格を精度よく分析するこ とがでさる。
[0016] 上記比較対象文書群は、検索処理可能なデータである必要はあるが、内容につい ては格別の制約はなぐ例えばこれらが同一の文書群であっても良いし、異なる文書 群であってもよい。また、これらの文書群の何れか又は双方が、ある文書群から無作 為抽出されたものでも良いし、一定条件のもとで全件抽出されたものでもよい。典型 例としては、ある国及び期間における全特許文書 (公開特許公報など)を、比較対象 文書群とすることができる。
[0017] 上記調査対象文書は、 1文書でも複数の文書でもよい。複数の文書をまとめて調査 対象文書とする場合は、個々の調査対象文書の性格というよりは、文書群としての性 格を示すことになる。
[0018] 上記索引語抽出手段による索引語の抽出は、文書の全部又は一部から単語を切り 出すことにより行う。単語の切り出し方に特段の制約はなぐ例えば従来力 知られて いる方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除いて意味ある品 詞を抽出する方法でも良いし、索引語の辞書 (シソーラス)のデータベースを事前に 保持し、該データベース力 得られる索引語を利用する方法でもよい。
[0019] 索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、 ある索引語で検索したときのヒット文書数 (文書頻度 DF)を用いるが、これに限られる ものではなぐ例えば当該索引語がヒットした延べ回数でもよい。
[0020] 出力手段による索引語の出力は、索引語抽出手段により抽出された索引語すベて を出力しても良いし、文書の性格を強く示す一部の索引語のみを出力しても良い。ま た、出力手段により索引語とともに出力される位置付け及びその時系列変化データ は、比較対象文書群及び類似文書群における出現頻度の関数値をそのままの形で 出力しても良いし、これに基づいて座標上に索引語を配置した図として出力しても良 いし、上記出現頻度の関数値に基づいてグループ分けされた索引語のリストとして出 力しても良い。
[0021] 上記索引語抽出装置において、前記類似文書群選出手段は、前記調査対象文書 の各文書について、当該文書に含まれる各索引語の当該文書における出現頻度の 関数値又は各索引語の前記比較対象文書群における出現頻度の関数値を成分と するベクトルを算出し、前記調査対象文書について算出された前記ベクトルに対する 類似度合!ヽの高!ヽベクトルをもつ文書を前記比較対象文書群から選出して、類似文 書群とすることが望ましい。
[0022] 類似文書群の選出を各文書のベクトルに基づいて行うので、高い信頼性を確保す ることができる。また、例えば IPC (国際特許分類)等の一致により類似文書群を選出 する場合と異なり、類似度合いの高い順に何件という形での件数指定も自在にできる 従って、上記ベクトルの類似度合いの判定は、ベクトル間の余弦乃至 Tanimoto相 関 (類似度)などべ外ル成分間の積の関数を用いても良いし、ベクトル間の距離 (非 類似度)などベクトル成分間の差の関数を用いてもょ 、。
[0023] 上記索引語抽出装置において、前記出力手段は、各算出手段の結果に基づき、 前記比較対象文書群においても前記類似文書群においても出現頻度の低い第 1グ ループの索引語と、前記第 1グループの索引語よりも前記比較対象文書群における 出現頻度が高い第 2グループの索引語と、前記第 1グループの索引語よりも前記類 似文書群における出現頻度が高い第 3グループの索引語と、をそれぞれ出力するこ とが望ましい。
[0024] 従って、比較対象文書群における出現頻度の関数値と、類似文書群における出現 頻度の関数値とを用いて、第 1〜第 3グループの索引語をそれぞれ出力することによ り、調査対象文書の性格を多面的に分析することができる。
[0025] 例えば上記第 1グループの索引語は、調査対象文書に含まれる専門的な内容、又 はこれに直結する概念を表現する語 (専門語)であると評価できる。
また例えばここでいう第 2グループには、比較対象文書群における出現頻度の高さ の割には、類似分野ではあまり着目されていな力つた概念を示す語 (独創的着目語) が含まれる。
また例えばここでいう第 3グループには、類似文書群を特徴付ける語 (類似文書群 規定語)が含まれる。例えば技術文書を調査対象とした場合であれば、この第 3ダル ープの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることがで きる。
[0026] 上記索引語抽出装置において、比較対象文書群における出現頻度の関数値及び その時系列変化量と、類似文書群における出現頻度の関数値及びその時系列変化 量とを用いて、第 1〜第 3グループの索引語及びその時系列変化量をそれぞれ出力 することにより、調査対象文書の性格を多面的に分析することができる。
例えば、各索引語の時間的推移の方向を見れば、文書群の性格の時間的推移の 方向性が分力る。
[0027] 本発明の性格表現図は、調査対象文書内の索引語について、前記調査対象文書 と比較される比較対象文書群における出現頻度の関数値を座標の第 1軸にとり、前 記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標の 第 2軸にとって配置し、前記各索引語の位置データの時系列変化量及び時系列変 化方向を表示して、それぞれ出力するので、座標上に配置表示された索引語の位置 及びその時系列変化により、各索引語の位置付け及びその時間的推移を視覚的に 把握できる結果、調査対象文書の性格を的確に分析することができる。
座標系としては、第 1軸として X軸 (横軸)、第 2軸として Y軸 (縦軸)を用いるが、これ に限らず例えば 3次元座標を用いて、時間或いは上記以外の指標を Z軸にとってもよ い。
発明の効果
[0028] 本発明によれば、第 1に、調査対象文書が与えられたときにその性格及び時系列 変化を的確に表現できるようにする索引語抽出装置を提供することができる。
また第 2に、調査対象文書の性格を多面的に分析できるようにする索引語抽出装 置及び性格表現図を提供することができる。
また第 3に、調査対象文書群に含まれる調査対象文書の、比較対象文書群に対す る大まかな位置付け及びその時系列変化や、調査対象文書群全体としての傾向を 分析できるようにする文書特徴分析装置及び文書特徴表現図を提供することができ る。
図面の簡単な説明
[0029] [図 1]本発明の一実施形態に係る特徴索引語抽出装置のハードウェア構成を示す図
[図 2]上記特徴索引語抽出装置における構成と機能を詳細に説明する図。
[図 3]処理装置 1の動作を示すフローチャート。
[図 4]入力条件設定画面の表示例を示す図。
[図 5]入力条件設定画面の表示例を示す図。
[図 6]選出条件設定画面の表示例を示す図。 [図 7]出力条件設定画面の表示例を示す図。
[図 8]特徴索引語の出力マップ (頻度平面図)の性質を説明するための概念図。
[図 9]特徴索引語の出力マップ (頻度平面図)の補正を説明するための概念図。
[図 10]特徴索引語の出力マップ (頻度平面図と位置の変化量)の原理 (三角形モデ ル)を説明するための概念図。
[図 11]特徴索引語の出力マップ (頻度平面図)の 1993年までの表示例。
[図 12]特徴索引語の出力マップ (頻度平面図)の 1994年までの表示例。
[図 13]特徴索引語の出力マップ (頻度平面図と位置の変化量)の 1993年から 1994 年への位置とその変化量を示す表示例。
[図 14]特徴索引語の出力リスト (頻度平面図と位置の変化量)の 1993年から 1994年 への位置とその変化量を示す例。
[図 15]特徴索引語の出力マップ (頻度平面図)のモーメント分布図の表示例。
[図 16]特徴索引語の出力マップ (頻度平面図)の流速分布図の表示例。
[図 17]特徴索引語についてモーメント (m, κ )を標準化した座標の分布図。
[図 18]台形モデルの z面における M = aの流線図。
[図 19]台形モデルに基づく(m、 κ )分布図(モーメント分布図)。
[図 20]台形モデルに基づく (m|V|、 κ |V|)分布図 (流速分布図)。
[図 21]五角形モデルの z面における M = aの流線図。
[図 22]五角形モデルに基づく(m、 κ )分布図(モーメント分布図)。
[図 23]五角形モデルに基づく (m|V|、 κ |V|)分布図 (流速分布図)。
符号の説明
1:処理装置、 2:入力装置、 3:記録装置、4:出力装置、
110:調査対象文書 d読み出し部、 120:索引語 (d)抽出部、 121:TF(d)演算部、 130:比較対象文書群 P読み出し部、 140:索引語 (P)抽出部、 141:TF(P)演算部 、 142:IDF(P)演算部、 150:類似度演算部、 160:類似文書群 S選出部、 170:索 引語 (S)抽出部、 171:IDF(S)演算部、 180:特徴索引語抽出部、 190:時系列分 類部、 191:位置データ補正部、 192:位置 ·変化量算出部、
a:独創語的着目語領域、 b:専門語領域、 c:類似文書群規定語領域、 d:一般語領 域。
発明を実施するための最良の形態
[0031] 以下、本発明の実施の形態を、図面を参照して詳細に説明する。
< 1.語彙の説明等 >
本明細書の中で使用する語彙を定義或いは説明する。
本明細書の中で、「文書」とは、特許公開公報、特許公報、学術論文などのことであ り、特に、技術情報であることが望ましいが、これに限らない。文書がコンピュータで 判読できるものであれば、特に規定しない。もっともコンピュータで判読できなくても 事前に人間などが判読してテキストファイルなどに変換しておけば同じことである。図 面なども、少なくとも装置などの部品の名称などがデータになっていれば、本明細書 の文書に含めてよい。
尚、本明細書の文書には、例えば、公開日或いは発行日など、時間(年、月、 日、 時刻など)を識別するデータが含まれて ヽる必要がある。
文書の形式は、例えば、特許公開公報、特許公報、学術論文などの全文でももち ろん良いし、要約や特許請求の範囲などだけの一部の文章でも、或いはメモの状態 や箇条書きのものでも構わな 、。
「調査対象文書 d」:調査に係る、ある案件。例えば、特許第何号公報などの文書、 或いはその集合。
「比較対象文書群 P」:調査対象文書 dと比較する対象の文書の集合。例えば、ある 国及び期間における特許文書 (公開特許公報など)のすベて、又はそこ力も無作為 抽出された文書の集合である。ここでは調査対象文書 dを含む場合について説明す るが含んでいなくてもよい。
「比較対象文書群 P'」:調査対象文書 dと比較する対象の、別の文書の集合。例え ば、第 1所定期間の比較対象文書群に対する、第 2の所定期間の比較対象文書群。
「類似文書群 S」:調査対象文書 dに類似な文書の集合。ここでは dを含む場合につ V、て説明するが含んで 、なくてもょ 、。また比較対象文書群 Pの中から選出される場 合について説明する。
[0032] 各図の中の構成要素に付してある、 d或いは(d)、 P或いは(P)、又は S或いは(S) は、それぞれ調査対象文書、比較対象文書群、又は類似文書群の意味であり、以降 判別しやすいように構成要素や動作にも付する。例えば、索引語 (d)とは、調査対象 文書 dの索引語を意味する。
「TF演算」とは Term Frequencyの計算のことであり、ある文書に含まれる索引語の 当該文書内の出現頻度 (索引語頻度)の計算である。
「DF演算」とは Document Frequencyの計算のことであり、ある文書に含まれる索引 語で検索対象文書群から検索したときのヒット文書数 (文書頻度)の計算である。
「IDF演算」とは、例えば DF演算結果の逆数、或いは逆数に検索対象文書群であ る Pないし Sの文書数を乗じたものの対数などの計算である。
ここで、 IDF (P)などの算出に、対数としてここでは自然対数を用いたが、これに限 らず常用対数等を用いてもよい。
[0033] 以降の説明を簡素にするため、略号を決める。
d :調査対象文書。
P :比較対象文書群 Pに属する文書。
N :比較対象文書群 Pの全文書数。
Ν' :類似文書群 Sの文書の数。
TF (d) : dの索引語による、 dの中での出現頻度。
TF (P): pの索引語による、 pの中での出現頻度。
DF (P) : d又は pの索引語による、 Pの中での文書頻度。
DF (S) : dの索引語による、 Sの中での文書頻度。
IDF (P): DF (P)の逆数 X文書数の対数: In [N/DF (P) ]。
IDF (S) : DF (S)の逆数 X文書数の対数: In [Ν' /DF (S) ]。
TFIDF:TFと IDFとの積。文書の索引語ごとに演算される。
「類似度 (類似率)」:調査対象文書 dと、比較対象文書群 Pに属する或る文書 pとの 類似の程度。
[0034] 「索引語」とはいわゆるキーワードであり、文書の全部或いは一部から切り出される 単語のことである。単語の切り出し方は従来力 知られて 、る方法や市販の形態素 解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出してもよいし、又索 引語の辞書 (シソーラス)のデータベースを事前に保持し該データベース力 得られ る索引語を利用してもよい。
[0035] 「第 1所定期間」とは、調査対象文書 dを含む比較対象文書群 Pに付属或いは識別 する年月日データなどの時間データを含む期間。例えば、比較対象文書群 Pが、 19 93年力も 2003年迄に発行された特許公開公報群 (約 450万件)ならば、第 1所定期 間は、 1993年から 2003年迄を指す。
「第 2所定期間」とは、調査対象文書 dを含む別の比較対象文書群 P'に付属或い は識別する年月日データなどの時間データを含む期間。例えば、比較対象文書群 P ,が 1993年から 2004年迄に発行された特許公開公報群 (約 500万件)ならば、第 2 所定期間は、 1993年から 2004年迄を指す。
尚、第 2所定期間の開始時間は、第 1所定期間の開始時間と一致していることが望 ましい。
「第 1所定期間の特徴索引語及びその位置データ」とは、第 1所定期間内の調査対 象文書 dを含む比較対象文書群 Pから求めた、特徴索引語及びその位置データであ る。
「第 2所定期間の特徴索引語及びその位置データ」とは、第 2所定期間内の調査対 象文書 dを含む比較対象文書群 P'から求めた、特徴索引語及びその位置データで ある。
[0036] < 2.索引語抽出装置の構成:図 1、図 2>
図 1は本発明の一実施形態に係る索引語抽出装置のハードウェア構成を示す図で ある。
[0037] 同図に示すように、本実施形態の索引語抽出装置は、 CPU (中央演算装置)およ びメモリ(記録装置)など力も構成される処理装置 1、キーボード (手入力器具)などの 入力機能である入力装置 2、文書データや条件や処理装置 1による作業結果などを 格納する記録機能である記録装置 3、および索引語の抽出結果などをマップやリスト などで表示などする出力機能である出力装置 4から構成される。
[0038] 記録装置 3は、条件記録機能や、作業結果格納機能や、文書格納機能を持ってお り、それらと外部データベース力 取得した文書などを保存する内部データベース 30 を含んでいる。外部データベースとは、例えば特許庁でサービスしている特許電子 図書館の IPDLや、株式会社パトリスでサービスして!/、る PATOLISなどの文書デー タベースを意味する。又内部データベースとは、販売している例えば特許 JP— ROM などのデータを自前で格納したデータベース、文書を格納した FD (フレキシブルディ スク)、 CDROM (コンパクトディスク)、 MO (光磁気ディスク)、 DVD (デジタル多用 途ディスク)などの媒体力 読み出す装置、紙などに出力された或いは手書きされた 文書を読み込む OCR (光学的情報読み取り装置)などの装置及び読み込んだデー タをテキストなどの電子データに変換する装置などを含んでいるものとする。
[0039] 図 1及び図 2において、処理装置 1、入力装置 2、記録装置 3、および出力装置 4の 間で信号やデータをやり取りする通信機能としては、 USB (ユニバーサルシステムバ ス)ケーブルなどで直接接続してもよ 、し、 LAN (ローカルエリヤネットワーク)などの ネットワークを介して送受信してもよいし、文書を格納した FD、 CDROM, MO、 DV Dなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたも のでもよい。
[0040] 次に、図 2により本発明に係る一実施形態の索引語抽出装置における機能を詳しく 説明する。
[0041] < 2— 1.処理装置 1の詳細 >
図 2の処理装置 1において、調査対象文書 d読み出し部 110は、内部データベース 30に記録された条件に基づいて、調査対象の文書を、内部データベース 30より読 み出す。読み出された調査対象文書 dは、索引語 (d)抽出部 120に送られる。索引 語 (d)抽出部 120は、調査対象文書 d読み出し部 110で得られた文書力も索引語の 抽出を行なう。
[0042] TF (d)演算部 121は、前記調査対象文書 dについての前記索引語 (d)抽出部 120 の作業結果を、 TF演算する。得られた TF (d)のデータは、類似度演算部 150に送ら れる。
[0043] 比較対象文書群 P読み出し部 130は、内部データベース 30に記録された条件に 基づいて、比較対象となる複数の文書を、内部データベース 30より読み出す。読み 出された比較対象文書群 Pは、索引語 (P)抽出部 140に送られる。索引語 (P)抽出 部 140は、内部データベース 30に記録された条件に基づいて、比較対象文書群 P 読み出し部 130で得られた文書から索引語の抽出を行な 、、 TF (P)演算部 141及 び IDF (P)演算部 142に送られる。
[0044] TF (P)演算部 141は、内部データベース 30に記録された比較対象文書群 Pにつ いての索引語 (P)抽出部 140の作業結果を、 TF演算する。得られた TF (P)のデー タは、類似度演算部 150に送られる。
[0045] IDF (P)演算部 142は、内部データベース 30に記録された比較対象文書群 Pにつ いての索引語 (P)抽出部 140の作業結果を、 IDF演算する。得られた IDF (P)のデ ータは、類似度演算部 150に及び特徴索引語抽出部 180に送られる。
[0046] 類似度演算部 150は、内部データベース 30に記録された条件に基づいて、 TF (d )演算部 121、 TF (P)演算部 141、及び IDF (P)演算部 142の演算結果から、比較 対象文書群 Pの文書それぞれの、調査対象文書 dに対する類似度を演算する。得ら れた類似度は、比較対象文書群 Pのそれぞれの文書に類似度データとして付され、 類似文書群 S選出部 160に送られる。
[0047] 類似度演算部 150における類似度の演算は、各文書の索引語毎に、例えば TF (d ) IDF (P)演算などの計算がなされ、比較対象文書群 Pの文書それぞれの、調査対 象文書 dに対する類似度が計算される。 TFIDF演算とは、 TF演算結果と IDF演算 結果の積である。類似度の演算方法は後で詳しく述べる。
[0048] 類似文書群 S選出部 160は、類似度演算部 150の結果から比較対象文書群 Pの 類似度演算結果を得て、内部データベース 30に記録された条件に基づいて類似文 書群 Sを選出する。類似文書群 Sの選出は、例えば類似度の高い順に文書をソート し、条件に記された必要な数だけ、例えば類似度の高い順に 3000個だけ選出する 。選出された類似文書群 Sは、索引語 (S)抽出部 170に送られる。
[0049] 索引語 (S)抽出部 170は、類似文書群 S選出部 160の類似文書群 Sから、内部デ ータベース 30に記録された条件に基づいて、索引語 (S)を抽出する。抽出された索 引語 (S)は、内部データベース 30及び直接 IDF (S)演算部 171に送られる。
[0050] IDF (S)演算部 171は、索引語 (S)抽出部 170から索引語 (S)を得て、この索引語
(S)を、内部データベース 30に記録された条件に基づいて IDF演算する。得られた I DF (S)は、内部データベース 30特徴索引語抽出部 180に送られる。
[0051] 特徴索引語抽出部 180は、 IDF (S)演算部 171の結果及び IDF (P)演算部 142の 結果から、内部データベース 30に記録された条件に記された必要な数だけ、或いは 同条件に基づいた計算結果により選ばれた数だけ、索引語 (d)を抽出する。ここで抽 出された索引語を「特徴索引語」と称することにする。抽出された特徴索引語 (d)は、 内部データベース 30或いは直接、時系列分類部 190に送られる。
[0052] 時系列分類部 190では、特徴索引語抽出部 180の結果が、第 1所定期間の特徴 索引語及びその位置データであるか、第 2所定期間における特徴索引語及びその 位置データであるか、が判断される。
[0053] 特徴索引語抽出部 180の結果が、第 1所定期間の特徴索引語及びその位置デー タの場合には、位置データ補正部 191を経由して直接位置 ·変化量算出部 192に送 られると同時に、内部データベース 30を経由して比較対象文書群 P読み出し部 130 に戻され、比較対象文書群 Pに、ある期間の経過後においてデータが追加された新 たな比較対象文書群 P 'に基づく特徴索弓 I語及びその位置データを算出する。
特徴索引語抽出部 180の結果が、第 2所定期間の特徴索引語及びその位置デー タの場合は位置データ補正部 191に送られる。
[0054] 位置データ補正部 191は、第 1所定期間の特徴索引語及びその位置データに対し て、ある期間経過後の文書が追加された新たな比較対象文書群 P'に基づき算出さ れた第 2所定期間の特徴索引語及びその位置データを、第 1所定期間の特徴索引 語及びその位置データのものと正しく比較できるようにするために、新たな比較対象 文書群 P'の全文書数 N'を比較対象文書群 Pの全文書数 Nに合わせて、補正する。 そして位置 ·変化量算出部 192に送られる。
[0055] 位置,変化量算出部 192は、特徴索引語抽出部 180により算出された第 1所定期 間の特徴索引語及びその位置データと、同じ特徴索引語の位置データ補正部 191 により補正された第 2所定期間の特徴索引語及びその位置データとから、それらの変 化量を算出し、内部データベース 30に格納する。
[0056] < 3.索引語の抽出動作、及びその位置'変化量算出動作:図 3 >
図 3は、処理装置 1の動作を示すフローチャートである。まず初期化 (ステップ S101 )のあと、内部データベース 30に記録された条件に基づいて、内部データベース 30 から読み出す文書を、調査対象文書 dと比較対象文書群 Pに区別する (ステップ S10 2)。読み出す文書が調査対象文書 dであるとき、調査対象文書 d読み出し部 110〖こ ぉ 、て調査対象文書を内部データベース 30より読み出す (ステップ S110)。次に、 索引語 (d)抽出部 120にお 、て調査対象文書 dの索引語抽出を行なう (ステップ S 1 20)。引き続き、抽出された索引語の各々について、 TF (d)演算部 121において TF 演算をする (ステップ S 121)。
[0057] 一方ステップ S102で、読み出す文書が比較対象文書群 Pであるとき、内部データ ベース 30から比較対象文書群 Pを読み出す (ステップ S130)。次に、索引語 (P)抽 出部 140において比較対象文書群 Pの索引語抽出を行なう(ステップ S140)。引き 続き、抽出された索引語の各々につ 、て、 TF (P)演算部 141にお 、て TF演算をす る(ステップ S 141)とともに、 IDF (P)演算部 142において IDF演算をする(ステップ S 142)。
[0058] 次に、 TF (d)演算部 121の出力の TF (d)演算結果と、 TF (P)演算部 141の出力 の TF (P)演算結果、及び IDF (P)演算部 142の出力の IDF (P)演算結果を基に、 類似度演算部 150により、類似度の演算を行なう (ステップ S150)。この類似度の演 算は、入力装置 2から入力された条件に基づき、類似度算出のための類似度算出モ ジュールを内部データベース 30から呼び出してきて実行する。
[0059] 類似度演算の具体的な一例を説明すると以下の通りである。今、 dを調査対象文書 とし、 pを比較対象文書群 Pの個々の文書とする。これら文書 d及び pに対する演算の 結果、文書 dから切り出された索引語を「赤」「青」「黄」とする。また、文書 pから切り出 された索引語を「赤」「白」とする。その場合、文書 d中の索引語の索引語頻度を TF ( d)とし、文書 p中の索引語の索引語頻度を TF (P)とし、比較対象文書群 Pから得た 索引語の文書頻度を DF (P)とし、全文書数を 50とする。
[0060] このとき、例えば、
[表 1] 特徴索引語 主
赤 黄 白
T F ( d ) 1 2 4 0
T F ( P ) 2 0 0 1
D F ( P ) 3 0 2 0 4 5 1 3
であるとする。 TF * IDF (P)を各文書の索引語毎に計算して、ベクトル表現を算出 する。この結果は文書ベクトル d及び pについて、
[表 2]
Figure imgf000018_0001
となる。
[0061] このベクトル d及び p間の余弦 (又は距離)の関数を取れば、文書ベクトル d及び p間 の類似度 (又は非類似度)が得られる。なお、ベクトル間の余弦 (類似度)は値が大き いほど類似度合いが高いことを意味し、べ外ル間の距離 (非類似度)は値が小さい ほどやはり類似度合いが高いことを意味する。得られた類似度は、内部データベース 30に格納されるとともに、類似文書群 S選出部 160に送られる。
[0062] 次に、類似文書群 S選出部 160により、ステップ S150にて類似度演算した文書を 類似度の順に並べ替え、入力する抽出条件に沿った数の類似文書群 Sを選出する( ステップ S 160)。
[0063] 次に、類似文書群 Sの索引語 (S)抽出部 170により、ステップ S160にて選出した 類似文書群 Sの索引語 (S)を抽出する (ステップ S170)。
[0064] 次に、索引語 (d)の各々について、 IDF (S)演算部 171により、類似文書群 Sにお ける IDF演算をする (ステップ S171)。
[0065] 次に、ステップ S171による IDF (S)演算の結果と、ステップ S142による IDF (P)演 算の結果とから、特徴索引語を抽出する (ステップ S180)。 [0066] 次に、ステップ S190による時系列分類にて、ステップ S180の特徴索引語抽出の 結果が、第 1所定期間の特徴索引語及びその位置データであるか、第 2所定期間の 特徴索引語及びその位置データであるか、が判断される。
[0067] ステップ S180の特徴索引語抽出の結果が、第 1所定期間の特徴索引語及びその 位置データである場合は、ステップ 191の位置データ補正部を経由してステップ 192 の位置 ·変化量の算出部に送られると同時に、内部データベース 30を経由して比較 対象文書群 P読み出し部 130に戻され、比較対象文書群 Pにある期間経過後のデー タが追加された新たな比較対象文書群 P'に基づく特徴索引語及びその位置データ を算出する (ステップ S 190)。
[0068] 次に、ステップ S180の特徴索引語抽出の結果が、第 2所定期間の特徴索引語及 びその位置データである場合は、ステップ S 191により特徴索引語の位置データ補 正が行われる。比較対象文書群 Pにある期間経過後の文書が追加された新たな比 較対象文書群 P'に基づき算出された第 2所定期間の特徴索引語及びその位置デ ータを、第 1所定期間の特徴索引語及びその位置データのものと比較するために、 比較対象文書群 Pの全文書数 Nに合わせて、補正される (ステップ S191)。そして位 置 ·変化量算出部 192に送られる。
[0069] 位置 ·変化量算出部 192は、第 1所定期間の特徴索引語及びその位置データに対 して、補正した第 2所定期間の特徴索引語及びその位置データが、どれだけ変化し ているかを算出する。
尚、変化量はただ 2つの位置データの差分又は、索引語を流体とみなした時のその 位置における流れ (動き)の速度を考慮した変化量である。これら、算出された位置 及び変化量が出力装置 4に送られる (ステップ 192)。
[0070] 尚、任意の第 1所定期間及び第 2所定期間に対して、上記のステップを反復して出 力してちょい。
[0071] < 3— 1.入力画面:図 4〜図 7>
図 4は、調査対象文書 dの入力条件設定画面の表示例を示す図である。 図 4にお 、ては、「対象文書」のウィンドの「調査対象文書」と「比較対象文書群」の 中から「調査対象文書」を選び、次に「文書内容」のウィンドの「公開特許」「登録特許 」「実用新案」「学術文献」などの中から「公開特許」を選び、次に「データの読み出し」 のウィンドの「自社 DB1」「自社 DB2」「特許庁 IPDL」「PATOLIS」「他商用 DB1」「 他商用 DB2」「FD」「CD」「MO」「DVD」「その他」などの中から「FD」を選び、更に「 FD」の「文書 1」「文書 2」「文書 3」「文書 4」「文書 5」「文書 6」などの中から「文書 3」を 選んだ状態の例が示されている。この例のような入力条件設定画面における設定条 件が、入力される。
図示はしていないが、第 1所定期間及び第 2所定期間の入力、または期間差分間 隔と解析する時間列の個数などの入力がされる。
[0072] 図 5は、比較対象文書群 Pの入力条件設定画面の表示例を示す図である。図 7に ぉ ヽては、「対象文書」のウィンドの「調査対象文書」と「比較対象文書群」などの中か ら「比較対象文書群」を選び、次に「文書内容」のウィンドの「公開特許」「登録特許」「 実用新案」「学術文献」などの中から「公開特許」と「登録特許」の両方を選び、次に「 抽出内容」のウィンドの「請求項」「従来技術」「発明の課題」「手段'効果」「実施例」「 図の説明」「図面」「要約」「書誌事項」「経過情報」「登録情報」「その他」などの中から 「請求項」と「要約」の両方を選び、次に「データの読み出し」のウィンドで前述と同じ 項目の中から「自社 DB1」を選んだ状態の例が示されて 、る。この例のような入力条 件設定画面における設定条件が、入力される。
[0073] 図 6は、索引語抽出条件および類似文書群選出条件の設定画面の表示例を示す 図である。図 6においては、「索引語抽出条件」のウィンドの「自社キーワード切出 1」「 自社キーワード切出 2」「商用キーワード切出 1」「商用キーワード切出 2」などの中から 「自社キーワード切出 1」を選び、次に「類似度算出方法」のウィンドの「類似度 1」「類 似度 2」「類似度 3」「類似度 4」「類似度 5」「類似度 6」などの中から「類似度 1」を選び 、次に「類似文書選出」のウィンドの「類似文書数」「非類似文書数」などの中から「類 似文書数」を選び、更に「上位 100件」「上位 1000件」「上位 3000件」「上位 5000件 」「数値入力」などの中から「上位 3000件」を選んだ状態の例が示されている。この例 のような抽出条件設定画面における設定条件が、入力される。
[0074] 図 7は、特徴索引語抽出装置の出力条件設定画面の表示例を示す図である。図 7 においては、「マップ算出方法」のウィンドの「X軸」に「X軸:比較対象文書群 」及 び「Y軸」に「Υ軸:類似文書群 ?」を選び、次に「マップ」のウィンドの「マップ 1枚」「 マップ 2枚」「マップ 1枚'リスト付」「マップ 2枚'リスト付」「マップ 1枚'コメント付」「マツ プ 2枚'コメント付」「マップ 1 ·リスト'コメント付」「マップ 2 ·リスト'コメント付」などの中か ら「マップ 1枚」を選び、次に「出力データ」のウィンドの「独創的着目語」「専門語」「類 似文書群規定語」などの中から「独創的着目語」を選び、更に「なし」「上位 5個」「上 位 10個」「上位 15個」「上位 20個」「数値入力」などの中から「上位 20個」を選んだ状 態の例が示されている。次に「コメント」のウィンドの枠内の「(自由記入)」には無記入 にした。こうして出力条件が入力される。
[0075] < 4.実施例 1 >
まず、第 1所定期間の特徴索引語及びその位置データの頻度平面図を描く。
[0076] く 4—1.マップの性質:図 8 >
図 8は、実施例 1の索引語抽出装置により出力したマップの性質を説明するための 概念図である。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出部 180で抽出された索引語を出力し、表示機能により表現するものである。マップは、 特徴索引語の各々について、それぞれ、横軸の値に比較対象文書群 Pにおける ID F (P)演算部 142の演算結果を、縦軸の値に類似文書群 Sにおける IDF (S)演算部 171の演算結果を取って、頻度平面上に配置したものである。
[0077] 図 8において、 X— Y平面は、 X軸力 DF (P)の値で、 Y軸力 DF (S)の値で作る平 面である。比較対象文書群 Pの文書数を N、類似文書群 Sの文書数を N' とすれば、 IDF (P)の最大値 j8 =1ηΝ、 IDF (S)の最大値 j8 =1ηΝ' である。
1 2
平面の原点を Dとする。 Y=Xの直線と、 Υ= β の線との交点を Αとする。 Υ= β の
2 2 線と、 X= j8 の線の交点を Bとする。 Υ— |8 =Χ- β の直線が X軸を切る点を Cとす
1 2 1
る。従って、四角形 ABCDは、平行四辺形である。ひニ — β = In (N/N )とす
1 2
ると、平行四辺形 ABCDの各頂点の値は、それぞれ、 D= (0, 0)、 Β= ( |8 , β ) ,
1 2
Α二(β , β )、C二(α, 0)である。
2 2
[0078] 線分 ΑΒは、 Y= j8 、線分 ADは、 Y=Xの直線である。線分 BCは、 Y—j8 =X-
2 2 β の直線である。線分 DCは、 Y=0の直線である。
[0079] 図 8にお!/、て、 X座標は IDF (Ρ)の値であり、 Xの値が 0付近すなわち D付近は、比 較対象文書群 Pのほとんどに存在する索引語が配置される領域である。 X座標が β ι =1ηΝの内側は、比較対象文書群 Ρにもほとんど存在しない索引語の領域で、 X座標 が oc =ln (N/N/ )の内側すなわち Cの内側は、比較対象文書群 Ρにも類似文書群 Sの文書数 N' 相当の数が存在する索引語の領域である。一方、 Υ座標は IDF (S) の値であり、 Yの値力^付近すなわち D付近は、類似文書群 Sのほとんどに存在する 索引語の領域である。 Y座標が j8 =1ηΝ' の線分 ΑΒの内側は、類似文書群 Sの中
2
にはほとんど存在せず、ほぼ調査対象文書 dにしか存在しない索引語の領域である
[0080] 図 8において、比較対象文書群 Pにおける文書頻度 DF (P)が小さい、即ち珍しい 索引語は、 IDF (P)が大きいため、図 8上の右側に現れる。 DF (P)が大きい、即ち頻 繁に用いられる索引語は、 IDF (P)が小さいため、図 8上の Y軸の近くに現れる。従 つて、比較対象文書群 Pにおいて珍しい索引語ほど右に現れ、比較対象文書群 Pに おいて頻繁に用いられる索引語ほど左に現れる。二次元平面上では類似文書群 S が比較対象文書群 Pの部分集合であることによる制限が課せられるため、図 8の右側 では線分 BCで切られる領域内部にしか索引語の点は存在しない。
[0081] 同様に、類似文書群 Sにおける文書頻度 DF (S)が 1件しかない索引語、即ち調査 対象文書 d自身にしか含まれていない索引語は、 IDF (S)が大きいため、図 8上の B A線上に現れる。 DF (S)が 1より大きいと、索引語は BA線より下に位置する。逆に、 類似文書群 Sの全ての文書に存在する索引語は、 IDF (S) = 0 のため、図 8上の D C線上、すなわち y= 0 の線上に現れる。従って、 Sにおいて珍しい索引語ほど上に 現れ、 Sにおいて頻繁に用いられる索引語ほど下に現れる。
[0082] ここで線分 BCは次により導出される。類似文書群 Sが比較対象文書群 Pの部分集 合であることより、
DF (P)≥DF (S)
である。また、 IDFの上記定義より、
DF (P) =N exp [— IDF (P) ]
DF (S) =N exp [― IDF (S) ]
である。これらの関係式より、境界線の式として Y=X— a、即ち Υ— β =Χ— β が得られる。
[0083] 類似文書群 Sの文書数に依存せず、一様に含まれる索引語の場合、その索引語は 図 8の線分 DA (直線 Y=X)上に現れる。ここで一様とは、計測対象とする文書群 Q の文書数 NQを変化させる時、
DF (Q) =NQZk (kは 1より大なる定数)
が成立する Qを一様又は空間一様性のある文書群、また、その様な性質を持つ索引 語を、空間一様性を持つ索引語と呼ぶ。 Q = P, Sに対して一様性を仮定すると、 Ink = In [N/DF (P) ] = In [Ν' /DF (S) ]
より、直線 Y=Xが得られる。
[0084] 実際には、多くの索引語は類似文書群 Sよりも膨大な文書群である比較対象文書 群 Pにおいても頻出するから、線分 DAの下方領域に出現するのが普通であり、特異 なものだけがこの線分の上側に浮かび上がることになる。このうち特に、図 8内の線分 BAの半分位の高さより上側の領域にあっては、比較対象文書群 Pにおいては珍しく ないが、類似文書群 Sにおいては珍しい索引語が出現する。この傾向により A付近の 領域は独創的着目語領域と言ってよ!、。
[0085] 図 8において、線分 AD左方の充分外側の領域にも索引語の点は存在可能である 力 次のことを考え合わせると、該領域を索引語の点の非存在領域として扱っても、 調査対象文書 dの性質解読に支障を来たすものではない。すなわち、該領域は、独 創的着目語領域 Aの遠方の領域なので、もし出現したとしても、力なり特異な索引語 であること、 Y軸近傍には DF (S)≥DF (P) -Ν + Ν' の制限から導かれる存在限界 線:
Υ= -1η ( γ βχρ(-Χ) y + 1)、但し γ =Ν/Ν'
があり、同線に近いこと、観測的事実として、類似文書群 Sの類似度が十分高い場合 には該領域には索引語が観測されな力つたことなどをあわせて、事実上、非存在領 域と帰結される。
[0086] 以上のように、調査対象文書 dから抽出された特徴索引語は、図 8の頻度平面の右 に行くほど比較対象文書群 Pでの文書頻度は低ぐ上に行くほど類似文書群 Sでの 文書頻度が低い。そこで、図 8における各領域には、次のような性質を持つ索引語が 配置されるため、該頻度平面上の点の分布状況から、調査対象文書 dの、比較対象 文書群 Pの位置付け及びその時系列変化や性格を読み取ることができる。
[0087] 専門語領域 b:比較対象文書群 Pにお!/ヽても類似文書群 Sにお ヽても使用頻度の 低い索引語が現れる領域。すなわち調査対象文書 dに含まれる高度に専門的な内 容、又はこれに直結する概念を記述する索引語の出現する領域。本発明の第 1エリ ァに含まれる。第 1エリアの領域に出現する索引語の中でも、隅にある索引語ほど、 専門性が高いと云える。
[0088] 独創的着目語領域 a:比較対象文書群 Pにおける出現頻度の高さの割には、類似 分野ではあまり着目されていなかった概念を示す索引語の出現する領域。本発明の 第 2エリアに含まれる。第 2エリアの領域に出現する索引語の中でも、隅にある索引語 ほど、独創性が高いと云える。
[0089] 類似文書群規定語領域 c :類似文書群 Sでほとんどの文書が持ち、従って比較対 象文書群 Pにおいてもそれに相当する数の文書が持っている、類似文書群 Sの性質 を表わすのに極めて自然な索引語が現れる領域。例えば技術文書を調査対象とし た場合であれば、この類似文書群規定語を見れば、類似文書群 S及び調査対象文 書 dの技術分野を知ることができる。本発明の第 3エリアに含まれる。
[0090] 一般語領域 d:比較対象文書群 Pと類似文書群 Sの両方において頻出する索引語 が現れる領域。比較対象文書群 Pとの比較にお!、て調査対象文書 dの性格を分析す る際には、重要度が低いことが多い。
[0091] <4 2.頻度平面図上の位置データの時系列変化量の算出 >
2つの頻度平面図 (索引語の性格表現図)、すなわち第 1所定期間の特徴索引語及 びその位置データの頻度平面図上の、第 2所定期間の特徴索引語及びその位置デ ータの移動を計算する。
[0092] 頻度平面図上の特徴索引語の位置の一定時間経過後の移動量、移動方向、移動 速度は定義できる。但し、単純な移動距離による比較評価では、頻度平面図の境界 付近や、領域の性格などを考慮できないので、適切な値が得られない。
そこで定量的な移動量、移動方向、移動速度などの表現を求めるために、各特徴索 引語の移動の様子が如何なる運動に従っているのかを考慮する必要がある。 [0093] 頻度平面上で、概念的に流れの強度を考えてみると、独創的着目語領域付近では 単純な移動量が大きい (流速が大)からといって、文書頻度そのものが大きく増カロして いる訳ではなぐ流れの強度は小さいと考えられる。一方、一般語領域付近において は、移動量は小さいが、文書頻度の増加が比較的大きく (流速が大)、領域の性格 (独 創性及び専門性への寄与の低さ)を考慮すれば、流れの強度が小さ!、と考えるのが 自然である。
従って、流れの強度によって移動の強さを定量的に表現できれば、強度変化を時 系列または索引語間で比較することが可能となる。
[0094] この様な流速と強度との関係は、流体の運動法則と類似しており、この類似性に着 目すれば、移動量、移動方向、移動速度などによって定量的に表現できることがわ かる。
[0095] 流体運動の記述は、連続方程式や運動方程式など幾つかの基本原理を満たす必 要があり、一般にその解は複雑だが、ここでは扱いの最も簡単な非圧縮性完全流体 のポテンシャル問題を解くことを用い、流れの強度によって特徴索引語の移動の強さ を定量的に表現する。ポテンシャル流には速度を決定する速度ポテンシャルが存在 し、このポテンシャルによって流速と流線が決定される。指定点力 湧き出し、指定点 に流入するポテンシャル流 (強度パラメータは未定)を座標変換によって指定の領域 内に写像して速度函数を求め、写像面に対応する性格表現図から計測した速度と比 較することによって強度パラメータを決定する。
[0096] 以降の説明のため、ここで記法、 T (k)、 T' (k)を定める(但し、 k≤ β )。 (図 9及び
2
図 10参照)
T'(k):直線 y= と直線 y=x+k (k実数)との交点。
2
従って、 A=T'(0), B = T '(— a ) .
T(k):直線 y=x + kの y軸切片。従って、原点 D = T(0) .
E:直線 y= β の y軸切片。
2
F:直線 y=x+kの X軸切片。
[0097] < 4 3.流速観測法 >
特徴索引語 wの或る時刻 tでの文書群 Aにおける頻度平面図上の位置データ I DF(w,A(t); t)及びその時間的変化を考える。
Aは比較対象文書群 P、または、類似文書群 Sである。先ず、時刻 tの瞬間におい ては、
従来通りの静止状態の観測に基づいて、 Aの文書数 N(A)を定数として含む座標 値
(X,Y) = (X(w;t), Y(w;t)) = (IDF(w,P(t); t), IDF(w,S(t); t))- · '(式 1.1)
或いは、一般に広義の変換
G :(X,Y)→ ( g (X,Y;t), g (Χ,Υ; t))
1 2
によって、特徴索引語による頻度平面図が描かれる。
[0098] 次に、一定時刻 Atだけ経過した、 tの変化 t→ t+ At力も、
単位時間当たりの特徴索引語 g (i= l,2)の位置データの変化量は次のようになる。
A g.(t)/ At ={ g (t+ At)-g.(t) }/ At .
これが、頻度平面図 Gにおける特徴索引語 wの移動分である。
[0099] <4 4.頻度平面図の境界壁の変化の補正 >
特徴索引語の位置データの時間による移動量を計算する場合、特徴索引語が描 かれている元の頻度平面図の境界壁が変化してしまうと、境界壁の移動に伴なう流 れの変化を考慮する必要があり、上述の移動分では誤認のおそれがある。そこで、 頻度平面図の境界壁の変化を補正し、時間変化があっても境界壁が変化しな 、よう に頻度平面図及びその中の特徴索引語の位置データを変換する。
[0100] 領域の境界線 (壁)が i=l,2 の各方向に Δ ΙΙ だけ移動する場合は、壁の移動速 度 Δ U/ Δ tを差し弓 Iいて、 wの移動速度を定義する:
V (w, t) = (u(w,t), v(w,t)) = ( A g(t)— A U)/ At.…(式 1.2)
G i i
[0101] 例えば、変換 G力 狭義の単純線型写像の場合、特に、(式 1.1)の場合を考える。
以下、表記の簡単のため、 X及び Yを X(A)と表し、索引語 w依存性の表記を省略 するものとする。
Atを計測単位時間にとれば移動分は、
Δ Χ(Α; t)/ At= ln[ N(A; t+ Δΐ)/Ν(Α; t) ] ln[ DF(A; t+ At)/DF(A; t) ] であり、 X(A)方向の壁の移動分は N(A; t)→N(A; t+ Δΐ)を考慮して、 A U= β (t+ Δΐ) - β (t) = In N(A; t+ At) - In N(A; t) .
従って、索引語の移動速度 V の A成分は
G
V (A) = -Ln[ DF(A;t+ At)/DF(A; t) ]
G
で与えられる。
特に、 A=Pの場合は、 DF(P; t+ At) = DF(P; t)+ A DF(P; t); A DF(P; t)≥0が厳 密に成立するので、
V (P)= -Ln [ 1 + Δ DF(P; t)/DF(P; t)] ,
G
であり、更に DF(P; t) > Δ DF(P; t)の時、
V (P)= - Δ DF(P;t)/DF(P; t)
G
であるから、 DF(P; t)の相対伸び率を表す。負号が付いているのは、座標値の方向 を DFが減少する方向にとっていることに由来する。 A=S の場合についても、 Sを構 成する文書群が著しく変化しない場合は、同様なことが成立し、結局 V
Gは DFの相対 伸び率の非線形拡張に相当する量になっている。
[0102] 尚、壁の移動速度を相殺せずに観測する場合は、索引語の移動速度が境界上で は壁の移動速度に一致するという境界条件 (粘着条件)を満たす必要があるので、粘 性流体の扱いとなる。
粘性の影響は境界付近だけに留まり、境界層外部では粘性を無視した完全流体の 記述でよい。
[0103] 図 9は、特徴索引語の位置データ補正を説明するための概念図である。簡単のた め X方向のみ図示する。ステップ S180の特徴索引語抽出の結果力 第 2所定期間の 特徴索引語及びその位置データである場合は、ステップ S 191により特徴索引語の 位置データ補正が行われる。第 1所定期間の特徴索引語及びその位置データの場 合は、比較対象文書群 Pに、ある期間経過後の文書が追加された新たな比較対象文 書群 P'に基づき算出された第 2所定期間の特徴索引語及びその位置データを追カロ する。第 2所定期間の特徴索引語及びその位置データを第 1所定期間の特徴索引 語及びその位置データと比較するために、比較対象文書群 P'の全文書数を Nに合 わせて補正する。
[0104] < 5- 1.マップ出力例 1 :図 11〜図 13 (太陽電池)〉 図 11は、実施例 1の特徴索引語抽出装置において、調査対象文書 dとして「太陽 電池」に関する公開特許公報を 1件選んだときの、第 1所定期間を 1990年力も 1993 年に、第 2所定期間を 1990年から 1994年として指定した、マップ表示の具体例であ る。
このマップは本発明の頻度平面図に相当する(以下のマップも同様)。比較対象文 書群 P及び比較対象文書群 P'の選出源として、過去 10年間の特許公報及び公開 特許公報約 464万件を選び、抽出内容には特許請求の範囲と要約を選び、索引語 抽出は自社キーワード切り出し 1 (市販の索引語切出しツール)を選び、類似度算出 方法には、文書ベクトルの成分ごとに TFIDFを計算し調査対象文書 dと比較対象文 書群 Pのそれぞれとの余弦を計算する方法を選び、類似文書群 S選出には類似度の 上位 3000件を選び、マップ算出方法には X軸:比較対象文書群 Pに対する IDFと、 Y軸:類似文書群 Sに対する IDFを選び、マップ出力位置にマップ 1枚を選んだ結果 、表示されたものである。
[0105] 図 11においては、比較対象文書群として 1993年までの公開特許公報の中で、調 查対象文書 dとして「特開平 05— * * * 123号」を選んだ。図 12においては、調査 対象文書 dは当然同じだが、比較対象文書群として 1994年までの公開特許公報を 扱った。
[0106] 図 11から、図 8にて示した独創的着目語領域 aには、「曇」「想定」「普及」「当日」「 雨天」「促進」などの特徴索引語を見つけ、同じく専門語領域 bには、「賄」「曇天」など の特徴索引語を見つけ、又同じく類似文書群規定語領域 cには、「電池」「太陽」「発 電」「電力」などの特徴索引語を見つけることができる。
[0107] 図 12でも、それぞれの領域における特徴索引語は、頻度平面上の位置は違うが、 索引語自体はほとんど同じものを見つけた。
[0108] 図 13は、本発明の頻度平面図上の特徴索引語の位置データの時系列変化量を 表したもので、図 12を図 11と重ねるために境界壁を補正し、変化量を線分で結んで 示したものである。
図 13によれば、各索引語の位置の変化方向及び変化量がわかる。例えば、「重層 」という索引語は 1993年から 1994年にかけて縦軸 (IDF (S) )の値が低下している。 このことから、「重層」という索引語は、太陽電池に関する調査対象文書 dの類似分野 にお 、て一般化されつつあることが推測できる。
また例えば、ある索引語が図 8に示す各領域の 1つ力も他の領域に向力つて移動し ている場合には、時間経過によるその索引語の性質の変化を読み取ることができる。 また、索引語の位置の変化を見ることにより、調査対象文書 dの性格の変化も知るこ とができる。例えば、第 1所定期間の文書を比較対象文書群 Pとしたときには独創的 着目語領域 aや専門語領域 bに位置して ヽた (調査対象文書 dを特徴付けて 、た)索 引語が、第 2所定期間の文書を比較対象文書群 Pとしたときには一般語領域 d或い は類似文書群規定語領域 cへ近づく方向へ移動して ヽた場合、調査対象文書 dは、 もはや当該索引語によって特徴付けられる文書ではなくなりつつあるということができ る。一方、逆に一般語領域 d或いは類似文書群規定語領域 cより遠ざ力る方向へ移 動した場合は、調査対象文書 dは、当該索引語によって特徴付けられる文書という性 格が強くなつて 、ると 、うことができる。
また、多数の索引語が、図 8に示す各領域の 1つ力も他の領域に、例えば一般語領 域 dに向力つて移動している場合には、調査対象文書 dは、一般的な内容の文書に 変化しつつあると 、うことができる。
[0109] く 5— 2.リスト出力例 1 :図 14 (太陽電池)〉
図 14は、図 11〜図 13と同じ調査対象文書及び比較対象文書群に関する、特徴索 引語抽出装置のリスト出力の具体例である。
独創的着目語領域 aの「曇」「想定」「普及」「当日」「雨天」「促進」などの特徴索引語 専門語領域 bの「賄」「曇天」などの特徴索引語、
類似文書群規定語領域 cの「電池」「太陽」「発電」「電力」などの特徴索引語、 につ 、てのそれぞれの 1993年と 1994年の補正された位置データ及び位置の変化 量を見つけることができる。図中で NIDFは P方向の補正データ、 V、或いは Vはそ
X Y
れぞれ、 V (P)、或いは V (S)を表している。
G G
[0110] 各領域において出力すべき索引語は、例えば次のように求められる。
各領域に応じて変換 Μ : (Χ, Υ)→(Χ^ , Ύ' )が与えられる時、 (s/100) Εχρ[Υ' ]<2
なる点を、 Χ' で降順に抽出する。但し、
(ρ/100) Εχρ[Χ' ]≥2
なる点に限る。
[0111] 各領域力 抽出するための上記変換 Μ(Χ' 、 Ύ' )は次で与えられる:
独創的着目語領域 a (X, X-Y)
専門語領域 b (Υ, Y— X+
類似文書群規定語領域 ··(Χ, Υ
一般語領域 d (Y-X+ α, Y)o
但し、 α =ln(N/N ;)。
[0112] 例えば類似文書群規定語を抽出する場合は、比較対象文書群 Ρにおける文書数 Νに対する文書頻度 DF (Ρ)の割合が ρΖ2 (%)以下で、且つ類似文書群 Sにおける 文書数 N' に対する文書頻度 DF(S)の割合が、 sZ2(%)を超える索引語が抽出さ れることになる。図 12では、 p = s = 25として索引語を抽出した。
独創的着目語、専門語及び一般語に対する変換値 、 Ύ' )はそれぞれ類似 文書群規定語領域 c付近に写像したものであるので、同様の抽出条件を用いること により各領域の索引語が抽出される。
[0113] なお、抽出条件は上記に限らず、例えば、
PDF(wi, P) = (p/100)Exp[X ] 1
PDF(wi, S) = (s/100) Exp [Υ' ] 1
とおいて、
PDF (wi, P)≥lのとき、
X" =lnPDF(wi, P)
0<PDF (wi, P)<1のとき、
X." 1
PDF (wi, P)≤0のとき、
X." 2
のように離散化し (Υ' についても同様)、 Υ く 0且つ X ≥0なる索引語を、 X 値 の降順に抽出しても同様の結果を得ることができる。
[0114] < 6.ポテンシャル流〉
索引語の密度変化の伝播速度∞ (密度一定)を仮定し、非圧縮性流体であると仮 定する (類似を考える)。
ポテンシャル流は粘性の有無に関係なく流体の運動方程式の解になっており、上 記事情を考慮すれば非圧縮性完全流体のポテンシャル流のモデルを考えることが 第一義的となる。以下では、複素数 z=X+iYを考え、流れのポテンシャルモデルは 境界の形に依存して各論となる。
[0115] く 6— 1.モデル設定〉
索引語が B力 湧き出し、 Cまたは T'(k)近傍で流速が小さぐ最終的に Fまたは Dへと流入していく澱み流のモデルを考える。境界設定により下記の様な模型が考 えられる。
(0 5角形モデル
境界が 5角形領域 T'TDCB (k= β の場合は台形領域 EDCB)。
2
GO台形モデル
台形領域 EDCB (5角形モデルにぉ 、て、 k= β とする場合)。
2
(iii)平行四辺形モデル
平行四辺形領域 T'FCBの場合。流入点を Dの代わりに Fとする。
(iv) 3角形分割モデル
四辺形領域 T'FCBを 2つの三角形領域 AFCBと AT'FBとに分割し、点 Bに湧き 出し、点 Fに吸い込みを設けたポテンシャル流。
[0116] 3角形分割モデルに関しては、以下の注意点が存在する。
注意点 1:不要語領域の速度増大を抑制するが、 2つの三角形の接続線上では速 度が不連続であり、物理的には固定壁を設けることに相当する。但し、四辺形 T'FC Bが菱形 (即ち、 ACBFが二等辺三角形)の場合に限り連続となり、固定壁を除くこ とが可能である。
注意点 2 : AT'BCと AT'FCに分割し、 B及び Fに湧き出し、 Cに吸い込みを設 けるなど、他の分割も可能である。 [0117] 上記の様な 2頂点に湧き出し (吸い込み)を持つ多角形領域内の流線又は等ポテン シャル線は、 Schwarz-Christoffel(SC)変換によって求められることが知られて!/、る。 手順は、最初に望みの z面の多角形領域を写像とする様な原平面 ζからの座標変 換を求め、次に ζ面の複素速度ポテンシャルに座標変換を適用し、望む z面領域 でのポテンシャノレを得る。
[0118] 以下では、先ず最も簡単な 3角形モデルによって原理説明を行い、その後、平行 四辺形モデル、台形モデル、一般形の順に拡張を説明する。
[0119] く 6— 2.座標変換 >
頂点 V が複素 z平面の実数軸上の値 c2に位置し、 3頂点 V , V , V の内角が
1 1 2 3
各々 ひ π (i=l,2,3,a + a + a =1)である三角形領域 V V を実現する i 1 2 3 1 2 3
変換 ζ→ zは、 SC変換公式に従って一般に
[数 1]
Z-c.f dt + c2
Figure imgf000032_0001
(式 2.1)
1≤ ≤3
と表現される。 ζ平面の座標設定の仕方には原点位置、実数軸の方向、座標単位 長さの 3つの任意自由度が存在するが、 ζ を原点におき、 ζ - ζ の方向を実数
1 2 1
軸に、単位長さを |ζ — ζ 1 =1と規格ィ匕すれば、上記任意性は一般性を失わずに固
2 1
定され、 ζ =0, ζ =1と選ぶことができる(これらの自由度は、 z平面において回転
1 2
拡大因子 clと平行移動因子 c2によって復活させることが可能である)。
[0120] ここで、回転拡大因子 clを任意定数 aを用いて
[数 2] =。(« 1- ' と再定義すれば、 SC公式 (2.1)は不完全ベータ函数 B(a,b;z)を用いて次の様に積 分され
[数 3] z = c2 + αΒ(α,, a2 ; ρ(ζ))
= ε2 +— ρ(ζ)α> F21(«l5«1 +or3 ;cfj +1; ρ(ζ)) (式 2.2)
:= /(
となり、頂点 vの z座標は v = ζ 1 ), ν2 =Κζ 2 ), ν 3 =Κζ 3 )で与えられる。
i 1
但し、 ρ(ζ)= ζ(ζ - 1)/( ζ — ζ )であり、 F21は Gaussの超幾何函数である。
3 3
[0121] これにより各頂点の座標値及び関係式、
ί(ζ )=i(0) = c2,
ί(ζ )=i(l) = c2 + a Β(α ,ひ ) ,
2 1 2
ί( ζ ) = c2 + a Β(α , a )Exp[i π α ],
3 1 3 1
ί(ζ )-i(l)=-a Β(α ,α ) Εχρ[-ίπ a ],
3 2 3 2
が導かれ、辺 V V, V V, V Vの長さ L,し, Lは
1 2 2 3 3 1 1 2 3
L =|i(l)-i(0)| = a Β(α ,α ),
1 1 2
L =|Κζ )-Kl)| = a Β(α ,α ) ,
2 3 2 3
L =| 0)
3 — ζ )| = aB(a , a ),
3 3 1
となることが示される。ここで、 B(o;, J8)はベータ函数である。
[0122] 同様に、辺 V Vを共有して平行四辺形をなす合同な三角形に対しては、
3 1
cl→ cl ExpLi兀」,
c2→ (ί(0) -i(0)Exp[i π ]) + (Exp[i π ]ί(0) - Exp[i π ]ί( ζ ))
3
と選べば ζ )によって変換が決まり、
Figure imgf000033_0001
と表される力 この f及び ζは上半平面 (Ιπιζ >0)または 3点 {ζ , ζ , ζ }を通る円
1 2 3
Γ内部でのみ定義されており、このままでは ζ平面における流れの原像が不自然な 形となる。
[0123] この問題を解決するには、合同三角形の原像を下半 ζ平面ほたは Γ外部)に求め ればよぐ変換 ρ( ζ )→1/ρ( ζ )に応答した置換
Κζ)≡ F(p)→ Εχρ[2 πία^ F(l/p)
を行って、
z = g(C)=— Εχρ[2πία ]F(l/p)+l )+Κθ), (Impく 0) とするのがよい(回転因子 は ζの変換において右辺に位相因子 Εχρ[2
Figure imgf000034_0001
πί]を乗じることに対応する)。
[0124] この変換は、上記の注意点 1で指摘の通り、特に α = α であれば、 ζ =∞の時
1 3 3
、 g( ζ )= ζ )が成立し、 ζ面及び z面上での連続性が保たれる。
[0125] また、 Κ ζ )の微分係数は、(式 2.1)により、
画 (式 2.3)
Figure imgf000034_0002
となる。
[0126] AFCB及び AT'FBを与える SC変換 ζ )及び g( ζ )は、上の結果に oc =3/4, c
2
2=— kを代入して(簡単化及び例示のため ζ
3 =∞と固定)、
[数 5] z = /(ζ) = -k + a i^ ,^; ζ)
= -k+— a< F21("い丄; 1;0
GTj 4
z = g(0 = -Exp(2 ai)f(-^) + f(∞)-k となる。
[0127] 係数 aは辺長の関係式
L =|FC| = aB(a , 3/4)= a +k,
L =|CB| = aB(a , 3/4) = β 2,
2 3 2
L =|BF| = aB(a , a )
3 3 1
から、 a = (a +k)/B(Q; , 3/4)= β 2/Β(α , 3/4)
1 2 3
と決定され、切片 kを与えれば 従って 及び aが全て一斉に固定される(つま
1 3
り、 a, k, α , α のうちどれかを固定すれば全ての値が矛盾なく固定される)。
1 3
[0128] く 6— 3.予備知識 >
ζ面上でポテンシャル流を与えれば、 SC変換によって z面上の流線が得られる。
[0129] 速度ベクトル U = (u,v) =q Exp[i θ ]力 勾配 U = grad によって与えられる流れ をポテンシャル流と呼び( Φは速度ポテンシャル)、流線は流れの函数 Ψが一定値を とる線で与えられる。渦なしの非圧縮 2次元流の場合は、 Φ及び Ψは調和函数 (ΔΦ = ΔΨ=0の解)であり、複素速度ポテンシャル W(z)= Φ +ΪΨによって、 複素速度 V*(Z) = dW(z)/dz =u-iv (速度 V(z)の複素共役)が与えられる。
[0130] 非圧縮流の湧き出し (吸 、込み)ポテンシャルは、
(m>0:湧き出し、 m<0:吸い込み)
Figure imgf000035_0001
で与えられる (Wの n階微分をとれば、 n+1重極による湧き出し流を表す)。
[0131] また、回転流のポテンシャルは
( κ >0:反時計回り、 κ <0:時計回り)
Figure imgf000035_0002
であり、 zは湧き出し点または回転中心の位置を表し、係数 m及び κはそれぞれ流 a
量 Qと循環 Γの強さを表す。これらの線型結合をとればモーメント M (M=m-iK) の湧き出し循環流
W(z)=M In (z-z)
a
を表し、この場合でも極座標表示 z=z +r Exp[i θ ]をとると、
Figure imgf000035_0003
ν)/{2π)
となるから、流量 Q及び循環 Γは、湧き出し点を囲む閉曲線 Cに沿う積分により
Q= J άΨ= m, Γ= ί άΦ= κ の様に与えられる。
c c
[0132] <6— 4. 3角形モデルへの適用 >
3角形モデルの場合、 ζ面の原点にモーメント M (m<0)の湧き出しポテンシャル を置けば、 AFCBの頂点 Fにおいてポテンシャル値 M Ln ζ の吸い込み循環流が 、同様にモーメント M (m>0)の湧き出しポテンシャルを置けば、 AT'FBの頂点 Bに おいてポテンシャル値 M Ln ζの湧き出し循環流が対応する。
[0133] 従って、湧き出しポテンシャルとして頂点 V に
W(z)=M LnC
の形を与える時、任意の三角形に対して複素速度は(式 2.2)を用いて次の様に計算 される:
[数 6]
Figure imgf000036_0001
△FCBの場合、これに α =3/4, ζ =∞を代入すれば、
2 3
[数 7] = (Μ / "' ( 4
dz
△T'FBの場合は Mの符号を逆転(M→ -M)するだけでよい。(仮に分割壁に向 かう循環流を考えるなら、 AT'FBにおいて κの符号を保ち、 m→-mとするだけでよ い)。
このようにして、 ζ平面の流れの情報は z平面上の流れ情報に変換される。
参考までに、図 10に z面における M = aの流線 (Ψ—定, α = α )の様子を示す
1 3
< 6 - 5.数値計算 >
実際の観測面は z平面なので、 z面からの ζ面への変換が必要である。等角変換 なので逆写像は必ず存在し、形式的には
Figure imgf000036_0002
Arg(z + k) > π a → ζ =g_1(z)=f_1( Exp[— 2 π i a ]{ ∞)— k— z} ) と表すことができるが、一般に数値計算では、整数 j, kを用いて ζ面の座標を離散 的な格子座標 ζ 0,k)で表現し、変換 ζ )によって z面上の格子点 Z(j,k)= ζ 0,k)) を 1: 1で対応させることによって逆変換を求めるのが普通である(g( C )も同様)。 即ち、 z面上の任意に与えられた点 zに対して最近接格子点 z(j,k)を検索する: [数 8]
ここで、整数 jは ζ面上での検索領域の有効サイズ Lと分割間隔 Δに対して、区間 0≤ j≤ L / Δの範囲内をとる様に原点を選んでおく。 これにより与えられた 及び Δ ;の下で、任意の ζに対して(j,k)座標値が決定さ れ、対応する ζの離散値 ζ (j, k)が決まる。
[0135] 通常、離散格子は、流線、等ポテンシャル線に沿う直交曲線座標に基づくのが良く 、例えば上記ポテンシャルの場合は平面極座標に基づ 、て、
C O, k) = ExpQ A +i k A ]
1 2
と与えるのが便利である。以上の処方により、任意の zに対して、座標、ポテンシャル 、速度の離散値
z(j,k), ζ 0,k), WO,k) =W(zO,k)), VO,k)=V(zO,k))
が決定される。但し、モーメント Mの値は、この段階ではまだ任意である。
[0136] < 6— 6.流量と循環の強さ >
点 z上の索引語 wに対して、移動速度の観測値 V ,単位モーメント当たりのポテ
G
ンシャノレ (M = l)による流速 V,複素モーメント Mをそれぞれ、 V =(u,v), V=(a,b)
G
,M = m— i / とすれば、、
V =(m+i /c )V (式 3.1)
G
を解くことによって、これまで任意としてきた流量と循環の強さ m及び κ が求められ る。但し、 V ≠0且つ V=∞の場合は、 Vと V のなす角 δを 0に選ぶものとする。
G G
δを用いれば、 m及び κは、
m = (|V |/|V|)cos δ , κ =(|V |/|V|)sin δ
G G
で与えられる。全ての wについて Mが同一値であれば、全域で厳密にポテンシャ ル流が実現して 、ることになる。
現実には、夫々の wについてまちまちの値となるので、(式 3.1)は局所的な関係式 として理解する必要がある。こうすることによって、索引語の時系流れの全貌、各索引 語の(m, K )座標や、その平均値をグラフ表示したり、時系列表示することにより、定 量及び定性両面からの時系比較分析を行うことが可能となる。
[0137] 図 15ではモーメント変化の大きい索引語力 又、図 16では流速変化の大きい索引 語が、それぞれ補助曲線の外側に出現する傾向が見える。
(図 15): (m, Κ )平面 (モーメント分布図)。補助曲線は原点を中心とし (m2+ κ 2) の平均値を半径とする円となる。 (図 16): (m, K )平面の各点に流速 |V|を乗じた平面(m|V|, κ Μ) (流速分布図) 。補助曲線は、 IV (m2+ κ 2)の平均値を半径とする円である。
これら図 15及び図 16においては、流線に沿った方向成分 m又は m|V|が横軸に、流 線に直交する方向成分 κ又は κ |V|が縦軸に表れている。
図 10に示す流線は専門語領域 bから一般語領域 dへ向力つているので、流線に沿 つた方向成分 m又は m|V|の値が大きい索引語は、一般語領域 dに向力う流れの強度 或いは移動速度が大きい索引語ということができる。また、流線に直行する方向成分 κ又は κ |V|の値が正で絶対値の大きい索引語は、独創的着目語領域 aに向力う流 れの強度或いは移動速度が大き 、索引語と 、うことができ、流線に直行する方向成 分 κ又は κ |V|の値が負で絶対値の大きい索引語は、類似文書群規定語領域 cに向 力う流れの強度或いは移動速度が大きい索引語ということができる。従って、各索引 語が、一般語の方向、独創的着目語の方向又は類似文書群規定語の方向に、どの 位の流れの強度或いは移動速度で移動しているかを定量的に把握することができる これら図 15及び図 16によれば、各索引語の流れの強度と移動方向、或いは各索 引語の移動速度と移動方向が、図 13に示されるような見かけ上の移動量や移動方 向に関わらず、更に、図 8に示す各領域の何れに位置するかに関わらず、定量的に 把握できるので、調査対象文書内の索引語の位置づけ、ひいては調査対象文書の 性格が、どの方向へどのように変化しているかを定量的に分析することができる。 これらの分布図は、座標を標準化したものであってもよい。例えば、図 17は、各索 引語についてモーメント (m, κ )を標準化した座標
m = \ .—)/ σ , κ = ( κ——< κ〉)/ σ
std m std κ
の分布図である。ただし、 , σ χは変数 Xの索引語点に関する平均と標準偏差を表 す。
モーメント変化が平均よりも大きな索引語は補助曲線の右側外部に現われ、変化 が平均よりも小さな索引語は補助曲線の左側外部に出現する傾向がある。
(図 17)標準化モーメント (m , κ )の分布図。補助曲線は原点を中心とする楕円で std std
、元の , κ )平面ではマハラノビス距離が一定値 (R )の円を表す。 [0139] く 6— 7.その他のモデル >
(式 2.2)の様に座標変換の函数形 ζ )さえ求めれば、測定原理は上述の 3角 形分割モデルと同様なので、以下では座標変換のみ示す。
[0140] < 6— 7— 1.平行四辺形モデル >
一般に、平行四辺形の頂点 V(j= 1,2,3,4)は、その内角 a が条件
ひ + ひ + ひ + ひ =2, (式 4.1)
1 2 3 4
X 、 X = a 9 a + =1, 、式 4.2)
1 3 2 4 1 2
を満たす様に配置されなければならな ヽ。
平行四辺形 FCB T'では、 V 0=1,2,3,4)
を F, C, B, T'の順に選べばこの配置を満足する。
[0141] 今、条件 (4.1)だけを課して複素積分(2.1)を 4因子に拡張し、
[数 9] ί ヽひ
Ρ(ζ)
z = c2 + (aja) (式 4.3)
\ ノ
F, ( 1;1一 az;l -α,,-Ι + , ρ(ζ), ρ(ζ)/ρ(ζ4)) と選ぶとき、その積分は Appellの 2変数越幾何函数 Fl(a; bl; b2; c; x, y) (文献 [1] [2]参照)を用いて、
[数 10] z = c2 + χ (式 4.4)
Figure imgf000039_0001
F,(a! ax \ a^ \ l+ ^; ρ{ζ), ρ(ζ)/ρ(ζ4)) と求積できる。この結果において、条件 (式 4.2)を代入すると、
[0142] [数 11]
ヽ》, I—ひ 卜ひ
C, = _fl(l— 3 ' 3 4 S5 特に、 Ρ(ζ )=— 1 (i.e., ζ = ζ /(2- ζ ;))と選ぶ時、これは 2辺の等長条件 |V
4 4 3 3 1
V | = |V V Iに等しく、 α =2α' と置いて ρ( ζ )→ ρ( ζ )とすれば、変換 (式 4.4)は
2 1 4 1 1
3角形モデル (菱形の場合: α' = α' )の座標変換(式 2.2)を再現する。
1 3 文献 [1] 日本数学会,岩波数学辞典第 3版, 超幾何関数 264,岩波書店(2002). 文献 [2] P.Appell, bur les fonctions hypergeometriques deplusieurs variaoles, Memoir. Sci.Math., Gauthier— Villars, (1925).
[0143] <6— 7— 2.台形モデノレ DCBE>
台形 DCBEの場合、 V 0=1,2,3,4)を D, C,B , Εの順に選べば、 aに対する条件 は、
a + + + =1 ,
1 2 3 4
― a =l/ , + =丄,
1 4 2 3
となる。(式 4.3)において、これらの条件を課せば、(式 4.3)は、
z = c2 + (a/a ) [ρ( ζ )/ ζ f )
1 4
XFKl/2; a ; l/2;3/2; ρ(ζ), ρ(ζ)/ρ(ζ )) .
3 4
である。
[0144] 図 18は、台形モデルの z面における M = aの流線図である。
図 19は、台形モデルに基づく(m、 κ)分布図(モーメント分布図)である。
図 20は、台形モデルに基づく(m|V|、 κ |V|)分布図(流速分布図)である。
[0145] <6-7-3.五角形モデル >
五角形領域 DCBT'Tの頂点 V 0=1,2,3,4,5)を D,C, B, Τ', Τの順に選ぶと、そ の内角 a 0=1,2,3,4,5)は以下の条件に従う。
Figure imgf000040_0001
a =1/2, a =a =a =3/4, a =1/4. (式 5.2)
1 2 4 5 3
今、条件 (式 5.1)だけを課して複素積分(式 2.1)を 5因子に拡張し、
ζ =0, ζ =1,ζ =∞,
1 2 3
[数 12]
F(。 ; b,; ί?2;…; b"—2 ; c; x{, x2 , ..., Λ-"_2) =
——!—— tdu
Figure imgf000040_0002
と選ぶとき、その積分は AppeU-Lauricellaの n— 2変数超幾何関数
[数 13] Ρ
F(QJ ; 1— 2 ; 1— α4 ; 1— "5; 1 + ; ρ(ζ),■
Ρ
(文献 [1] [2]参照)を用いて、 η=5の場合に
[数 14] z = c2+~-p{ )a'
«1
F ( ! ;卜 "2 ; ί— "4;…; 1 - "„ , 1 + ;
Figure imgf000041_0001
と求積できる。この結果において、条件 (式 5.2)を代入すると、
z =c2 + 2a^p( ζ ) F(l/2; 1/4; 1/4; 1/4; 3/2; ρ( ζ ), ρ(ζ )/ρ( ζ ), ρ(ζ )/ρ( ζ )) ·
4 5
[0146] 図 21は、五角形モデルの z面における M = aの流線図である。
図 22は、五角形モデルに基づく(m、 κ)分布図(モーメント分布図)である。
図 23は、五角形モデルに基づく(m|V|、 κ |V|)分布図(流速分布図)である。
[0147] 同様に、 n角形では、座標変換
[数 15]
ϋΛ、 = ArgMin (んゾ: ー んゾ 2)|
Figure imgf000041_0002
ゾ 2))| を導くことができ、同様なモーメント分布図や流速分布図を作成することができる。

Claims

請求の範囲
[1] 調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力 手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算 出する第 1出現頻度算出手段と、
前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群 を選出する類似文書群選出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出す る第 2出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の 関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引 語の位置の関数値を算出する位置算出手段と、
前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出 する時系列変化算出手段と、
前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方 向を出力する出力手段と、
を備えた、索引語抽出装置。
[2] 請求項 1において、前記出力手段は、
前記比較対象文書群における出現頻度の関数値を座標の第 1軸にとり、 前記類似文書群における出現頻度の関数値を前記座標の第 2軸にとって、 前記索引語の位置、及び前記各索引語の位置の時系列変化量並びに時系列変 化方向を表示しそれぞれ出力する、索引語抽出装置。
[3] 請求項 1において、
前記時系列変化算出手段は、更に、
前記各索引語の位置の時系列変化量及び時系列変化方向に基づいて、各索引 語の時系列変化を、所定の流線に沿った方向成分と当該流線に交差する方向成分 とに分けて各方向成分の時系列変化量を算出し、 前記出力手段は、
前記所定の流線に沿った方向成分の時系列変化量を座標の第 1軸にとり、 前記流線に交差する方向成分の時系列変化量を前記座標の第 2軸にとり、 前記各索引語を表示しそれぞれ出力する、索引語抽出装置。
[4] 請求項 1乃至請求項 3の何れか一項において、
前記比較対象文書群又は前記類似文書群における出現頻度の関数値は、当該出 現頻度の逆数に、前記比較対象文書群又は前記類似文書群の総文書数を乗じたも のの対数である、
索引語抽出装置。
[5] 請求項 1乃至請求項 4の何れか一項において、
前記各索引語の位置データの時系列変化量及び時系列変化方向を、流体力学モ デルの流体のポテンシャル変化に基づいて算出する、索引語抽出装置。
[6] 調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力 ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算 出する第 1出現頻度算出ステップと、
前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群 を選出する類似文書群選出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出す る第 2出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の 関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引 語の位置の関数値を算出する位置算出ステップと、
前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出 する時系列変化算出ステップと、
前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方 向を出力する出力ステップと、 を備えた、索引語抽出方法。
[7] 調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力 機能と、
前記調査対象文書内の索引語を抽出する索引語抽出機能と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算 出する第 1出現頻度算出機能と、
前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群 を選出する類似文書群選出機能と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出す る第 2出現頻度算出機能と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の 関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引 語の位置の関数値を算出する位置算出機能と、
前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出 する時系列変化算出機能と、
前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方 向を出力する出力機能と、
をコンピュータに実行させる、索引語抽出プログラム。
[8] 調査対象文書内の索引語について、
前記調査対象文書と比較される比較対象文書群における出現頻度の関数値を座 標の第 1軸にとり、
前記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標 の第 2軸にとって配置し、
前記索引語とその位置のデータ、その時系列変化量及び時系列変化方向を表し た、
調査対象文書の性格表現図。
[9] 調査対象文書内の索引語について、
所定の流線に沿った方向成分の時系列変化量を座標の第 1軸にとり、 前記流線に交差する方向成分の時系列変化量を前記座標の第 2軸にとり、 前記各索引語を表示した、
調査対象文書の性格表現図。
PCT/JP2006/308474 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置 WO2006115228A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007514696A JPWO2006115228A1 (ja) 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005123568 2005-04-21
JP2005-123568 2005-04-21

Publications (1)

Publication Number Publication Date
WO2006115228A1 true WO2006115228A1 (ja) 2006-11-02

Family

ID=37214843

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/308474 WO2006115228A1 (ja) 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置

Country Status (2)

Country Link
JP (1) JPWO2006115228A1 (ja)
WO (1) WO2006115228A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818278B2 (en) 2007-06-14 2010-10-19 Microsoft Corporation Large scale item representation matching
CN105574105A (zh) * 2015-12-14 2016-05-11 北京锐安科技有限公司 一种文本分类模型的确定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014330A (ja) * 1999-06-30 2001-01-19 Just Syst Corp ターム評価プログラムを記憶した記憶媒体
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014330A (ja) * 1999-06-30 2001-01-19 Just Syst Corp ターム評価プログラムを記憶した記憶媒体
WO2004061714A1 (ja) * 2002-12-27 2004-07-22 Intellectual Property Bank Corp. 技術評価装置、技術評価プログラム、技術評価方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AIZAWAA.: "Go to Bunsho no Kyoki ni Motozuku 'Tokuchoryo' no Teigi to Tekiyo. (A Quantitative Representation of Features based on Words and Documents Co-occurences)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2000, no. 29, 22 March 2000 (2000-03-22), pages 25 - 32, 2000-FI-57-4, XP003004658 *
ISHIDA K. AND OTA T.: "Yogokan Kankei ni Chakumoku shita Bunshokan Kankei ni Kansuru Tokeiteki Bunseki to Bunseki Shien System no Kaihatsu. (On a statistical analysis of relation among documents in terms of terminology and a development of system to support the analysis)", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 99, no. 57, pages 49 - 56, 99-FI-55-7, XP003004659 *
NASUKAWA T. ET AL.: "Tokushu Field o Hirogeru Shizen Gengo Shori 2 Text Mining", JOHO SHORI. (IPSJ MAGAZINE), vol. 40, no. 4, pages 358 - 364, XP003004660 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818278B2 (en) 2007-06-14 2010-10-19 Microsoft Corporation Large scale item representation matching
CN105574105A (zh) * 2015-12-14 2016-05-11 北京锐安科技有限公司 一种文本分类模型的确定方法
CN105574105B (zh) * 2015-12-14 2019-05-28 北京锐安科技有限公司 一种文本分类模型的确定方法

Also Published As

Publication number Publication date
JPWO2006115228A1 (ja) 2008-12-18

Similar Documents

Publication Publication Date Title
CA2886581C (en) Method and system for analysing sentiments
US8243988B1 (en) Clustering images using an image region graph
US20090157649A1 (en) Hybrid Method and System for Content-based 3D Model Search
JP2004110161A (ja) テキスト文比較装置
JP2004110200A (ja) テキスト文比較装置
US20080250007A1 (en) Document Characteristic Analysis Device for Document To Be Surveyed
Sonnenfeld Statistical strong lensing-III. Inferences with complete samples of lenses
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
Assa et al. Displaying data in multidimensional relevance space with 2D visualization maps
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
WO2006115228A1 (ja) 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
CN112417082A (zh) 一种科研成果数据消歧归档存储方法
Silalahi et al. Big Data Analytics in Library to Classification Book Publishers
Sailaja et al. An overview of pre-processing text clustering methods
US20090093994A1 (en) Rotation invariant 2d sketch descriptor
Song Bibliomapper: A cluster-based information visualization technique
JP2012003333A (ja) 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
Trost et al. Parameter free hierarchical graph-based clustering for analyzing continuous word embeddings
Saabni et al. Keywords image retrieval in historical handwritten Arabic documents
Chen et al. Image-based airborne LiDAR point cloud encoding for 3D building model retrieval
Hartanto et al. Performance Comparison of Rabin-Karp Algorithm and Winnowing Algorithm for Document Abstraction Similarity Detection
CN116383677B (zh) 一种知识图谱实体相似度计算方法及系统
Wolfram et al. The Impact of Term-Indexing Characteristics on a Document Space.
Darmanović et al. SCI-3000: A Dataset for Figure, Table and Caption Extraction from Scientific PDFs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2007514696

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

122 Ep: pct application non-entry in european phase

Ref document number: 06732232

Country of ref document: EP

Kind code of ref document: A1