WO2007069408A1 - 技術文書属性の関連性分析支援装置 - Google Patents

技術文書属性の関連性分析支援装置 Download PDF

Info

Publication number
WO2007069408A1
WO2007069408A1 PCT/JP2006/321958 JP2006321958W WO2007069408A1 WO 2007069408 A1 WO2007069408 A1 WO 2007069408A1 JP 2006321958 W JP2006321958 W JP 2006321958W WO 2007069408 A1 WO2007069408 A1 WO 2007069408A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
cluster
attribute
vectors
generated
Prior art date
Application number
PCT/JP2006/321958
Other languages
English (en)
French (fr)
Inventor
Hiroaki Masuyama
Makoto Asada
Kazumi Hasuko
Original Assignee
Intellectual Property Bank Corp.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellectual Property Bank Corp. filed Critical Intellectual Property Bank Corp.
Priority to KR1020087011111A priority Critical patent/KR20080086430A/ko
Priority to US12/097,446 priority patent/US20090138465A1/en
Priority to PCT/JP2006/324876 priority patent/WO2007069663A1/ja
Priority to JP2007550208A priority patent/JPWO2007069663A1/ja
Publication of WO2007069408A1 publication Critical patent/WO2007069408A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices

Definitions

  • the present invention relates to an analysis support apparatus, a support method, and a support program that analyze the relationship between document attributes in a technical document group.
  • Non-patent literature 1 Taichiro Ueda et al. "Practical workshop Excel thorough use Multivariate analysis
  • the problem of the present invention is that the mutual relationship between the first vector group corresponding to the first attribute X of the technical document and the mutual relationship between the second vector group corresponding to the second attribute Y In addition, the first attribute X and the second attribute Y are considered together, and then the concentration and distribution status of the document attribute data distribution in the technical document group is identified.
  • the technical document attribute relevance analysis support device, the support method, and the support program which can show the judgment criteria for the direction of technology development of the company, are provided.
  • the technical document attribute relevance analysis support apparatus of the present invention provides:
  • Data acquisition means for acquiring data of a technical document group including a plurality of technical documents each having at least two types of attributes;
  • Score calculating means for calculating a score according to the data of the technical document belonging to each of the combination of the first attribute X and the second attribute Y of the at least two types of attributes; and the first attribute X
  • a first vector group generation that generates vectors based on the scores belonging to each column in the matrix arrangement when the score is arranged in a matrix with the second attribute Y on the vertical axis and the second attribute Y on the vertical axis Means,
  • First vector relevance calculating means for calculating the relevance of the vector groups generated by the first vector group generating means
  • the first vector arrangement means for arranging the highly related vectors closer to each other;
  • Second vector group generation means for generating a vector based on the scores belonging to each row in the matrix arrangement;
  • Second vector relationship calculating means for calculating the relevance of the vector groups generated by the second vector group generating means;
  • the vector group generated by the second vector group generation means includes second vector arrangement means for arranging the vectors closer to each other with high relevance.
  • vectors having similar distributions of the second attribute Y are calculated by calculating the relationship between the vectors corresponding to the first attribute X (each column of scores arranged in a matrix). Are placed closer together, and the mutual relationship between the vectors corresponding to the second attribute Y (each row of scores arranged in a matrix) is calculated, and vectors with similar distributions of the first attribute X are calculated. It will be placed closer. Therefore, the relationship between the vectors corresponding to the first attribute X and the relationship between the vectors corresponding to the second attribute Y are analyzed in detail, and then the first attribute X and the second attribute By considering the attribute Y together, it is possible to identify the concentration and distribution of the document attribute data distribution in the technical document group.
  • first attribute X and the second attribute Y are a human attribute of each technical document, and the other is a technical field attribute of each technical document.
  • the human attribute includes, for example, the applicant and the inventor for patent documents, and the author and editor for technical papers and books.
  • the technical field attributes include technical elements such as IPC (International Patent Classification), technical elements, and keywords.
  • the score may be calculated by weighting each of the documents and totaling them.
  • the weighting of a patent publication gazette is greater than that of a published patent gazette, thereby emphasizing the importance or quality of a technical document.
  • the first vector group generation means or the second vector group generation means generates a vector that includes the logarithm of each score belonging to each column or each row in the matrix arrangement as a component.
  • the first vector arrangement means includes:
  • a first cluster generating means for selecting two vectors from the vector group generated by the first vector group generating means on a predetermined basis and generating a cluster by adjoining the two vectors;
  • a vector having the highest relevance to either of the end vectors located at both ends of the vector group constituting the cluster generated by the first cluster generation unit is generated by the first vector group generation unit.
  • a second cluster generating means for selecting two vectors from the vector group generated by the second vector group generating means on a predetermined basis and generating a cluster by adjoining the two vectors;
  • a vector having the highest relevance to either of the end vectors located at both ends of the vector group constituting the cluster generated by the second cluster generation unit is generated by the second vector group generation unit.
  • the joining vector is obtained.
  • a second cluster expansion means for sequentially expanding the cluster by adding a vector to the cluster.
  • the first cluster generation means or the second cluster generation means are respectively the first solid About the vector group generated by the tor group generation means or the vector group generated by the second vector group generation means,
  • the first vector arrangement means includes:
  • An end vector located at both ends of the vector group constituting the cluster generated by the first cluster generation means and a vector other than the cluster among the vector group generated by the first vector group generation means A first cluster expansion stop determination means for stopping the selection of the joining vector and the expansion of the cluster by the first cluster expansion means when the relevance is less than or equal to a predetermined threshold;
  • a first cluster regeneration unit that selects two vectors from a group of vectors other than the cluster generated by the first cluster generation unit according to a predetermined criterion and generates another cluster by adjoining the two vectors.
  • the vector having the highest relevance to any one of the end vectors located at both ends of the vector group constituting the other cluster generated by the first cluster regenerating unit is determined by the first vector group generating unit.
  • a vector group that is generated and selected from the vector groups other than the cluster generated by the first cluster generation means is selected as a join vector other than the other cluster, and is related to the join vector.
  • the second vector arrangement means includes
  • Second cluster expansion stop determination means for stopping the selection of the joining vector and the expansion of the cluster by the second cluster expansion means
  • a second cluster regeneration unit that selects two vectors from a group of vectors other than the clusters generated by the second cluster generation unit according to a predetermined criterion and generates another cluster by adjoining the two vectors.
  • the vector having the highest relevance to any one of the end vectors located at both ends of the vector group constituting the other cluster generated by the second cluster regeneration unit is obtained by the second vector group generation unit.
  • a vector group other than the cluster group generated by the second cluster generation means is selected from the vector group other than the other cluster as a subscription vector, and is related to the subscription vector.
  • a second cluster re-expansion means for sequentially enlarging the other cluster by adding the join vector to the other cluster by adjoining the end vector that has the highest height and the subscription vector; It is desirable to further include
  • Display means for displaying a distribution state of scores arranged in a matrix shape based on the arrangement by the first vector arrangement means and the second vector arrangement means with a pattern or color corresponding to the score. Is desired.
  • the distribution state is not clear at first glance by simply indicating the distribution of the score, the distribution state of the score can be displayed more easily by adding a pattern or color.
  • the present invention provides a technical document attribute relevance analysis support method including the same steps as the method executed by each of the above apparatuses, and the same process as the process executed by each of the above apparatuses.
  • This is a relevance analysis support program for technical document attributes that can be executed by the system.
  • This program is recorded on recording media such as FD, CDROM, and DVD. It may be the one that is sent or received over the network.
  • FIG. 1 is a diagram showing a hardware configuration of a technical document attribute relevance analysis support apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a flowchart showing an operation procedure of the processing device 1 in the relevance analysis support device of the first embodiment.
  • FIG. 3 is a diagram showing a display example by a display unit.
  • FIG. 4 is a diagram showing another display example by the display unit.
  • FIG. 5 is a flowchart showing an operation procedure of the processing device 1 in the relevance analysis support device of the second embodiment.
  • FIG. 6 shows an example of a document number matrix generated in the second embodiment.
  • X, Y Attributes of individual technical documents. For example, applicant, technical field (keyword or IPC).
  • Score calculated for each combination of attribute X and attribute ⁇ .
  • the range of attribute X is X, X, kj 1 2
  • a ⁇ -dimensional vector whose components are scores ⁇ , ⁇ ,..., ⁇ belonging to qj] is a vector ((
  • FIG. 1 is a diagram showing a hardware configuration of a technical document attribute relevance analysis support apparatus according to the first embodiment of the present invention.
  • the relevance analysis support device of the present embodiment includes a processing device 1 composed of a CPU (central processing unit) and a memory (recording device), and input means such as a keyboard (manual input device).
  • Input device 2 recording device 3 that is a recording means for storing data and conditions of technical document groups, work results by processing device 1, etc., and output means for displaying or printing scores arranged in a matrix It consists of output device 4 that is.
  • the processing device 1 includes a data acquisition unit 110, a score calculation unit 120, first and second vector group generation units 130 and 140, first and second vector relevance calculation units 150 and 160, first and second Vessel arrangement sections 170 and 180 are provided.
  • the recording device 3 includes a condition recording unit 31, a work result storage unit 32, a document storage unit 33, and the like.
  • the document storage unit 33 includes data on technical document groups that have acquired external database and internal database capabilities.
  • the external database means, for example, a document database such as IPDL of a patent digital library serviced by the Japan Patent Office or PATOLI S (registered trademark) serviced by Patrice Co., Ltd.!
  • the internal database is a database that stores data such as patent JP-ROM that is sold on its own, FD (flexible disk), CD (compact disk) ROM, MO (magneto-optical) Devices such as optical discs), DVDs (digital video discs), media reading devices, devices such as OCR (optical information readers) that read documents that have been output or handwritten on paper, and electronic data such as text It includes devices that convert data.
  • data such as patent JP-ROM that is sold on its own, FD (flexible disk), CD (compact disk) ROM, MO (magneto-optical) Devices such as optical discs), DVDs (digital video discs), media reading devices, devices such as OCR (optical information readers) that read documents that have been output or handwritten on paper, and electronic data such as text It includes devices that convert data.
  • USB Universal System Bus
  • a communication means for exchanging signals and data among the processing device 1, the input device 2, the recording device 3, and the output device 4 a USB (Universal System Bus) cable or the like may be directly connected. It may be sent and received via a network such as a LAN (Local Area Network), or via a medium such as an FD, CDROM, MO, or DVD that stores documents. Alternatively, a part or a combination of these may be used.
  • the input device 2 accepts inputs such as data acquisition conditions for the technical document group, score calculation conditions, vector generation conditions, relevance calculation conditions, and vector arrangement conditions. These input conditions are sent to and stored in the condition recording unit 31 of the recording device 3.
  • the data acquisition unit 110 acquires data of the technical document group to be analyzed from the document storage unit 33 of the recording device 3 in accordance with the acquisition conditions of data input by the input device 2. For example, at least two types of attributes of each technical document are acquired as data based on bibliographic information of each technical document.
  • the acquired technical document group data is sent directly to the score calculation unit 120 and used for processing there, or sent to the work result storage unit 32 of the recording device 3 and stored therein.
  • the score calculation unit 120 is a combination of the first attribute X and the second attribute Y among the at least two types of attributes.
  • the score ⁇ corresponding to the data of the technical documents belonging to each is calculated.
  • This score ⁇ is calculated for each combination of the value of the first attribute X and the value of the second attribute Y, kj kj.
  • the calculated score ⁇ is directly sent to the first and second vector group generation units 130 and 140 and used for processing thereof, or is sent to the work result storage unit 32 of the recording device 3 and stored therein.
  • the first vector group generation unit 130 generates a vector group X based on the score ⁇ calculated by the score calculation unit 120.
  • This vector group X includes each “column” in the matrix arrangement when the score ⁇ is arranged in a matrix with the first attribute X on the horizontal axis and the second attribute ⁇ on the vertical axis. It is calculated based on the above-mentioned score belonging to The second vector group generation unit 140 is based on the score ⁇ calculated by the score calculation unit 120.
  • This vector group ⁇ has the first attribute X on the horizontal axis and the second attribute X.
  • the vector groups X and Y generated by the first and second vector group generation units 130 and 140 are identical to each other.
  • the vector groups X and Y generated by the first and second vector group generation units 130 and 140 are
  • the first vector relevance calculation unit 150 calculates the relevance of the vector group X generated by the first vector group generation unit 130.
  • the second vector relevance calculation unit 160 calculates the relevance of the vector group Y generated by the second vector group generation unit 140.
  • the relevance data calculated by the first and second vector relevance calculation units 150 and 160 are sent directly to the first and second vector arrangement units 170 and 180, respectively, and used for processing there, or It is sent to the work result storage unit 32 of the recording device 3 and stored.
  • the first vector placement unit 170 places the highly related vectors closer to each other based on the mutual relationship between the vectors X calculated by the first vector relationship calculation unit 150. j
  • the second vector arrangement unit 180 arranges the highly related vectors closer to each other based on the mutual relationship between the vectors Y calculated by the second vector relevance calculation unit 160.
  • the vector arrangement determined by the first and second vector arrangement sections 170 and 180 is sent to and stored in the work result storage section 32 of the recording apparatus 3, and is output by the output apparatus 4 as necessary.
  • FIG. 1 shows the first and second cluster generation units 171 and 181, and the first and second cluster expansion units 172, respectively. And with 182 are shown.
  • FIG. 1 shows the first and second cluster expansion stop determining units 174 and 184, the first and second cluster regeneration units 175 and 185, and the first and second cluster reexpansion units, respectively. Those with 176 and 186 are shown ing.
  • the first cluster generation unit 171 selects two vectors from the vector group generated by the first vector group generation unit 130 according to a predetermined criterion, and generates a cluster by adjoining these two vectors. .
  • the second cluster generation unit 181 selects two vectors from the vector group generated by the second vector group generation unit 140 according to a predetermined criterion, and generates a cluster by making these two vectors adjacent to each other.
  • the predetermined criterion for selecting the two vectors is, for example, the high degree of association, and the two vectors having the highest mutual relation can be selected.
  • the clusters generated by the first and second cluster generation units 171 and 181 are sent directly to the first and second cluster expansion units 172 and 182 and used for processing there, or the results of the operation of the recording device 3 It is sent to storage 32 and stored.
  • the first cluster expansion unit 172 sequentially expands the clusters generated by the first cluster generation unit 171 by adding a join vector to the clusters generated by the first cluster generation unit 171.
  • This join vector is a vector that has the highest relevance to one of the end vectors located at both ends of the vector group that constitutes the cluster generated by the first cluster generation unit 171. This is determined by selecting a vector group force other than the above cluster from the vector group X generated by the above.
  • Joining a join vector to a cluster is performed by adjoining the end vector and the join vector that have the highest relevance to the join vector.
  • the join vector is not limited to this, and joins other places in the cluster. You may add a solid bed.
  • the second cluster expanding unit 182 sequentially expands the clusters generated by the second cluster generating unit 181 by adding the joining vector to the clusters generated by the second cluster generating unit 181.
  • This join vector is a vector that has the highest relevance to any one of the end vectors located at both ends of the vector group that constitutes the cluster generated by the second cluster generation unit 181.
  • the second vector group generation unit 140 Among the vector group Y generated by
  • the outside vector group force is determined by selecting.
  • Joining a subscription vector to a cluster consists of an end vector that is most relevant to the subscription vector, and the subscription vector.
  • the present invention is not limited to this, and it is also possible to add a subscription title to another location in the cluster.
  • first and second cluster expansion units 172 and 182 expand the cluster and there are no non-cluster-added vectors, the processing of the first and second vector arrangement units 170 and 180 ends.
  • the first cluster expansion cancellation determination unit 174 generates end vectors located at both ends of the vector group constituting the cluster generated by the first cluster generation unit 171 and the first vector group generation unit 130. What is the relevance to the vectors other than the above cluster in the vector group X
  • the second cluster expansion stop determination unit 184 includes end vectors located at both ends of the vector group constituting the cluster generated by the second cluster generation unit 181 and the vector generated by the second vector group generation unit 140. What is the relevance of a vector other than the above cluster in group Y?
  • the selection of the joining vector and the cluster expansion by the second cluster expansion unit 182 are stopped.
  • the predetermined threshold value be 0 (no correlation) for a correlation coefficient, for example.
  • the first cluster regeneration unit 175 is a vector group other than the clusters generated by the first cluster generation unit 171 (the cluster after the expansion when the first cluster expansion unit 172 is expanded). One vector is selected according to a predetermined criterion, and another cluster is generated by making the two vectors adjacent to each other.
  • the second cluster regeneration unit 185 selects two vectors from the vector group other than the cluster generated by the second cluster generation unit 181 (or the cluster after expansion when enlarged by the second cluster expansion unit 182). Select according to a predetermined criterion, and create another cluster by adjoining the two vectors.
  • the other clusters generated by the first and second cluster regenerators 175 and 185 are directly sent to the first and second cluster re-enlargers 176 and 186, respectively, and used for processing there, or the recording device 3 Is sent to the work result storage unit 32 and stored therein.
  • the first cluster re-expansion unit 176 generates the other cluster generated by the first cluster re-generation unit 175.
  • the other clusters are sequentially enlarged by storing the joining vector in the star.
  • This joining vector is a vector that has the highest relevance to one of the end vectors located at both ends of the vector group that constitutes the other cluster generated by the first cluster regenerating unit 175.
  • the vector group X generated by the group generation unit 130 is determined by selecting a vector group force other than the above-mentioned other clusters among vector groups other than the cluster generated by the first cluster generation unit 171.
  • the joining vector is added to the other cluster by adjoining the joining vector and the end vector that is considered most relevant to the joining vector.
  • the second cluster re-expansion unit 186 sequentially expands the other clusters by storing the joining vector in the other cluster generated by the second cluster re-generation unit 185.
  • This joining vector is a vector that has the highest relevance to one of the end vectors located at both ends of the vector group that constitutes the other cluster generated by the second cluster regeneration unit 185.
  • the joining vector is joined to the other cluster by adjoining the joining vector and the end vector that is considered most relevant to the joining vector.
  • first and second cluster re-enlargement units 176 and 186 are used to enlarge the cluster and there are no vector groups other than the cluster, the processing of the first and second vector arrangement units 170 and 180 is ended.
  • the condition recording unit 31 records information such as conditions obtained from the input device 2, and sends necessary data based on a request from the processing device 1.
  • the work result storage unit 32 stores the work result of each component in the processing device 1 and sends necessary data based on the request of the processing device 1.
  • the document storage unit 33 stores and provides necessary technical document group data obtained from the external database or the internal database based on the request of the input device 2 or the processing device 1.
  • the output device 4 outputs scores and the like arranged in a matrix based on the vector arrangement determined by the first and second vector arrangement units 170 and 180 of the processing apparatus 1.
  • the output device 4 includes a display unit 41 such as a display device, and displays the distribution state of the scores arranged in a matrix with a pattern or color according to the score.
  • the output form is not limited to the display on the display unit 41, but may be printing on a print medium such as paper, or transmission to a computer device on a network via a communication means.
  • FIG. 2 is a flowchart showing an operation procedure of the processing device 1 in the relevance analysis support device of the first embodiment.
  • the data acquisition unit 110 acquires data of a technical document group to be analyzed (step S110).
  • Each document in this technical document group must have at least two types of attributes X and Y.
  • the number of documents in this technical document group is N.
  • the data shown in [Table 1] below is obtained.
  • the number of attribute values for each technical document may be one, or the attribute value for each technical document, such as attribute Z of technical document numbers 2, 3, 4 etc. in [Table 1] below.
  • Attribute X Attribute Y ⁇ .. Attribute z
  • the score calculation unit 120 calculates a score according to the data of the technical document belonging to each of the combination of the first attribute X and the second attribute Y among the at least two types of attributes (step S 120 ).
  • two types of the above-mentioned attributes are selected, hereinafter referred to as “X” and “Y” in the description of this embodiment, respectively. This selection is made based on a user instruction input from the input device 2.
  • One of the two types of attributes is a human attribute such as an applicant or an inventor, and the other is a technical field attribute such as a keyword or IPC. It is preferable that Also, both of the two types of attributes may be technical field attributes, for example, one may be a technical classification and the other may be a technical element. Further, an attribute that is neither a human attribute nor a technical field attribute, for example, an application date, may be selected for either or both of the two types of attributes.
  • each attribute X, Y ! and the attribute value X, Y (eg applicant j k
  • a specific name of a keyword not limited to a numerical value). For example, create a descending ranking of the number of applicable technical documents as shown in [Table 2] below.
  • attribute X the range of values that fall within the top p for attribute X and the top q for attribute Y, and the range of each attribute.
  • the number x of values X in the range of attribute X and the number of values Y in the range of attribute Y can be the same. Or it may be different.
  • the value range may be selected according to the purpose of analysis, such as the ability to analyze the company with the highest number of cases or which technical field to analyze. In the following description, the value X, X, ... for the attribute X, the value Y, Y, ... for the X force attribute Y
  • p X q scores ⁇ are calculated based on the number of technical documents having combinations of these attribute values.
  • the score ⁇ may be the number of technical documents with the same combination of attribute values X and ⁇ (X, ⁇ ), or a function value with the number of documents as a variable, such as normalization. Also good.
  • the technical document with attribute (X, ⁇ ) pair is the technical document number among the ⁇ technical documents.
  • the core ⁇ is as shown in [Table 3] below. Refer to the hypothetical examples shown in [Table 3] as appropriate.
  • score ⁇ may be determined after setting the attribute value again with a certain width. For example, if the filing date is selected as the attribute X, the value of ⁇ will be 1000 or more in several years, but the filing year or filing date may be set as the attribute value. This makes it easy to analyze the attribute value range.
  • weights 0; 1, 2,. May be reflected in the score calculation.
  • weights may be used as the score ⁇ .
  • i i W When i i W is issued, it can be analyzed appropriately with a score that takes into account the importance or qualitative factors of technical documents.
  • the first and second vector group generation units 130 and 140 generate vectors (steps S130 and S140).
  • This vector X is a vector indicating the distribution of attribute ⁇ ⁇ ⁇ ⁇ for the value X of attribute X.
  • this is a vector indicating the distribution of technical fields.
  • Applicant X has many special features in the technical fields ⁇ and ⁇ .
  • Tuttle Y is a vector indicating the distribution of attribute X for attribute ⁇ . For example k k
  • the vectors X and Y may have the score itself as a component as described above, but the score ⁇
  • logarithm cannot be defined in the case of the score ⁇ force ⁇ , but for the sake of convenience, for example, where the logarithm of 0 should be taken-1 or other negative numbers may be used, or all the scores For convenience, the logarithm may be taken after counting 1 or other positive numbers.
  • is multiplied by 1Z4, which is the reciprocal of this appearance frequency. Then, for example, the score ⁇ lj 12
  • Vectors composed of the components of each column corresponding to 6 are respectively named X to X, and vectors composed of the components of each row corresponding to the range Y to Y are respectively set.
  • the first and second vector relevance calculating sections 150 and 160 calculate the relevance of p vectors X and the relevance of q vectors Y, respectively (step S1
  • the relevance of p vectors X can be obtained as data shown in [Table 5] using the correlation coefficient, for example.
  • methods for evaluating relevance include methods that use inner products and methods that calculate Spearman's rank correlation coefficient.
  • the first and second cluster generation units 171 and 181 generate clusters by making two vectors adjacent to each other (steps S 171 and S 181).
  • two vectors having the highest correlation are selected from the p vectors X, and a cluster is generated by adjoining these vectors.
  • the vector X with the correlation coefficient of 0.84 and the X force are the most relevant vectors.
  • Adjacent these By generating the cluster by selecting the two vectors with the highest relevance, it is possible to ensure that the most relevant and the vectors are adjacent to each other, thus ensuring quantitative objectivity of the vector arrangement. it can.
  • Selection of vectors to be adjacent may be performed by other methods. For example, when a specific applicant (such as one's own company) is to be compared with the remaining applicants, the vector of the specific applicant and the most relevant vector may be adjacent to each other. Also, for example, if you want to compare two specific applicants (your company and competitors, etc.) and the remaining applicants, set the vectors of the two specific applicants next to each other. Moyo!
  • cluster a collection of a plurality of adjacent vectors.
  • the first and second cluster expansion units 172 and 182 add the addition vector to the cluster to expand the cluster (steps S 172 and S 182).
  • the most relevant vector set is determined between the vectors located at both ends of the cluster and the remaining vectors not included in the cluster.
  • the vector most relevant to the vector X or X located at both ends of the cluster is the vector
  • the vectors are adjacent to form a larger cluster.
  • the vectors X and Y are adjacent to form a larger cluster.
  • Adjoining vector X is adjacent to vector X in X. However, it is not limited to this class
  • the subscription vector may be added to other locations in the data.
  • a distribution state can be formed to be manifest.
  • step S 173 and S 183: NO if there is no cluster unjoined vector (steps S 173 and S 183: NO), the vector arrangement ends. If the cluster-unjoined vector remains (steps S 173 and S 183: YES), the process proceeds to steps SI 74 and SI 84, respectively.
  • step (3) it is determined whether or not the force is related to a vector other than the cluster and is not more than a predetermined threshold. If even one of the associations exceeds the predetermined threshold (steps S 174 and S 1 84: NO), the process returns to steps S 172 and S 182, respectively, to expand the cluster sequentially. For example, between the ends X or X of adjacent clusters in the order of vectors X, X, X
  • the most relevant vector is the vector X with a correlation coefficient of 0.49 with the vector X.
  • steps S174 and S184 if the relevance is less than or equal to a predetermined threshold (steps S174 and S184: YES), the process proceeds to steps S175 and S185, respectively.
  • steps S 175 and S 185 the first and second cluster regenerators 175 and 185 are! /, And other vectors are generated by adjoining two vectors in the vector group other than the above clusters.
  • the addition cluster is added to the other cluster to expand the other cluster (steps S176 and S186).
  • a cluster is generated again using only the remaining vectors, and the same cluster expansion procedure is repeated.
  • the relevance threshold is preferably 0 (no correlation) for a correlation coefficient, for example. Relevance
  • the use of a correlation coefficient as an evaluation method is advantageous in that it is easy to set a threshold value.
  • step S 177 and S 187: NO the arrangement of the vectors ends. If a vector not yet joined to the cluster remains V (steps S 177 and S 187: YES), the process proceeds to steps S 178 and S 188, respectively.
  • steps S178 and S188 it is determined whether or not the relevance with a vector other than the cluster is less than or equal to a predetermined threshold value. If even one of the associations exceeds the predetermined threshold (steps S178 and S188: NO), the process returns to steps S176 and S186, respectively, to sequentially expand the other clusters. If the relevance is less than or equal to a predetermined threshold (steps S 1 78 and S 188: YES), the process returns to steps S 175 and S 185 to generate another cluster.
  • Clusters can be placed adjacent to each other in a descending or ascending order of the cluster size (number of vectors included in the cluster) in one direction from one end to the other, or from both ends to the center. A method of arranging them alternately is conceivable.
  • the processing in the second solid layer may be executed before any one, and after the other, or both may be performed simultaneously. May be executed. Further, only one of them may be executed. For example, when one attribute X is a human attribute such as applicant and the other attribute Y is a technical classification based on a coding system such as IPC, only one of them is executed. There may be cases where it is easier to see the arrangement based on the systematic code number order without the arrangement based on the characteristics.
  • the output by the output device 4 may be in the form shown in [Table 6] above, or for better visibility, the score distribution state may be displayed with a pattern or color corresponding to the score. For example, it is preferable to add a dark or warm color to an area where a high score is distributed, and to add a light color or a cold color to an area where a low score is distributed. Although the distribution state may not be apparent at first glance simply by showing the score distribution numerically, it is possible to display the score distribution state easily by attaching a pattern or color.
  • FIG. 3 is a diagram showing one display example by the display unit.
  • dense regions are marked with high line density and grid-like diagonal lines, and regions with coarse distribution are marked with low linear density and grid-like diagonal lines.
  • cloud map or contour map As shown in this figure, by showing the score distribution state by a so-called cloud map or contour map, the density of the score distribution state becomes clear and the score distribution state can be displayed more easily. it can.
  • FIG. 4 is a diagram showing another example of display by the display unit. This figure specifically shows the value of each attribute when “Applicant” is selected as the first attribute X and “Technical field” is selected as the second attribute Y.
  • the dense distribution area is indicated by a high-density grid-like diagonal line
  • the coarse distribution area is indicated by a low-line density low-density grid line. Is clear. In other words, if you select a specific “applicant” and look at a dense distribution area, you can read the main technical fields being developed by that applicant, and select a specific “technical field” to distribute the distribution. If you look at this section, you can read the main applicants who have developed in the technical field.
  • FIG. 4 illustrates an example in which one of the two types of attributes is a human attribute and the other is a technical field attribute.
  • the present invention is not limited to this, and both of the two types of attributes are technical field attributes.
  • one may be a technical classification and the other may be a technical element.
  • one may be the IPC main classification (section, class) and the other the IPC subclass (group, subgroup).
  • the company has grasped the technological development results that the company has developed in its own R & D organization and the current state of its technological asset portfolio, and has determined the future development direction. It is possible to have objective guidelines and contribute to corporate technology development investment decisions.
  • FIG. 5 is a flowchart showing an operation procedure of the processing device 1 in the relevance analysis support device of the second embodiment.
  • This second embodiment has main features in a portion corresponding to the processing until the generation of the first and second vector groups in the first embodiment. That is, in this second embodiment, a technology in which the task word and the solution word included in the document are used as the attributes X and Y of the technical document, and the combination of the task word and the solution word is the same as the score as a vector component. Use the rate of increase or decrease in the number of documents The processing for arranging the generated vector group is substantially the same as in the first embodiment. The operation procedure of the second embodiment will be described in detail below.
  • the data acquisition unit 110 acquires a technical document group to be analyzed based on the acquisition condition of the analysis target document group input from the input device 2 (step S210).
  • the type of technical documents to be acquired is arbitrary, such as patent documents and technical papers.
  • patent documents are described in a format in which the following problem words and solution words can be extracted by computer processing. It can be said that it is preferable.
  • the acquisition condition of the analysis target document group may be specified by, for example, an IPC code, or a predetermined number of documents having higher similarity to a specific technical document may be acquired.
  • the data acquisition unit 110 extracts candidates of “task word” and “solution word” from each document of the acquired analysis target document group (step S211). For example, if there are “issue” and “solution” items in the summary part or other parts of each document, the words in that part are extracted. Also, for example, if each document contains a description such as “the subject of the present invention is“ ... ”or“ the present invention is to solve this subject ”, the word immediately after the description To extract.
  • the data acquisition unit 110 selects a “task word” and a “solution word” to be used for analysis from the extracted “task word” and “solution word” candidates (step S212).
  • a selection method for example, the document frequency in the analysis target document group (DF: number of hit documents when searching with each index word in the analysis target document group) for each “task word” and “solution word” candidate.
  • DF number of hit documents when searching with each index word in the analysis target document group
  • a method of selecting the top predetermined number for example, 100 words each
  • the data acquisition unit 110 performs factor analysis using the selected “task word”, and calculates the factor loading amount of each task word (step S213). Specifically, this is performed as follows.
  • I row G column data can be obtained.
  • Z be the matrix of I rows and G columns with z as the matrix element.
  • TFIDF is the index word frequency (TF: number of occurrences of the subject word in a document) and document frequency (DF: number of documents in the document group in which the subject word appears) for a certain index word.
  • TF index word frequency
  • DF number of documents in the document group in which the subject word appears
  • IDF logarithm of the document frequency
  • factor loadings in factor analysis are calculated in which each document i is a subject, each task word g is an observation variable, and each weighting amount z is an answer by the subject.
  • the factor loading for each factor h of each task word g is a.
  • a factor score matrix F with f as a matrix element is set as follows.
  • V is the residual variance-covariance matrix
  • R—V R *.
  • Factor axis rotation methods include orthogonal rotation such as Norimax, Coatimax, Ekamax, Percimax, Osomax, Orthogonal Procrustes, and Oblique Procrastes such as Promax, Oblimin, Harris' Kaiser, and Oblique Procrustes Rotation is mentioned.
  • the data acquisition unit 110 also performs factor analysis on the “solution word” and calculates the factor load amount of each solution word (step S214).
  • the method for calculating the factor loading is the same as that described for “task word”.
  • the data acquisition unit 110 selects a predetermined number of factors (respectively “problem factor” and “solution factor”) obtained as a result of factor analysis of each of the task word and the solution word (step S215).
  • a predetermined number of factors higher than the eigenvalue are selected based on the eigenvalue of each factor.
  • the number of factors to be selected is arbitrary.
  • p task factors and q solution factors are selected.
  • two types of attributes X, Y “Problem factor” and “Solution factor” are selected as the attribute values, and the p value problem factor p and the eigenvalue upper q solution factor are selected as the attribute value range (range), respectively.
  • the data acquisition unit 110 determines attribution factors for each task word and each solution word (steps S217 and S218).
  • the factor loading a for a factor h is the maximum.
  • the assignment factor of the subject word (or solution) g is the factor h gh
  • a lower limit is set for the factor load, and the maximum factor load a for a given task word (or solution) g a force If the force is less than the lower limit, the task word (or solution) g is any factor. After all, it doesn't belong to J.
  • the score calculation unit 120 counts the number of corresponding technical documents for each combination of each task word and each solution word determined by the attribution factor (step S220). For example, an AND search that searches for a document that contains both one task word and one solution word determined by the attribution factor in the document or its summary part is performed, and the number of hit documents is set as the number of technical documents.
  • the score calculation unit 120 collects the number of documents for each combination of each task factor and each solution factor (step S221). For example, the total number of technical documents is counted for all combinations of one of the problem words belonging to a certain problem factor and one of the solution words belonging to a certain solution factor.
  • the task words belonging to a certain task factor are Xg, Xg, Xg 3
  • each document is returned based on the factor score for each factor h of each document i calculated by the above-described factor analysis.
  • This document number matrix shows how many technical documents exist for each combination of problem factors and solution factors, and what issues and solutions are attracting attention in a certain technical field.
  • FIG. 6 shows an example of a document number matrix generated in the second embodiment.
  • This document number matrix extracts a predetermined number of patent documents with the highest similarity in Patent Document i related to “Semiconductor Device and its Manufacturing Method”, and performs factor analysis for each of the problem word and the solution word by the above method. It was obtained by going. The meaning of the factor interpreted by the analyst based on each problem factor and the problem word group included in each solution factor and the solution word group is described in the column of this matrix.
  • solution factor 1 and 2 there are more patent documents for solution factor 1 and 2 than issue factor 1.
  • issue factor 2 has more patent documents than issue factor 2.
  • etching can be an effective solution for manufacturing management.
  • various analyzes are possible.
  • the problem factor represents an inconvenience that may occur for some purpose.
  • the application can be inferred from the solution factor.
  • first and second vector groups are generated in the same manner as in the first embodiment. Based on the vector arrangement, it may be possible to analyze the state of concentration and dispersion of the problem factors and solution factors, but in the second embodiment, a vector group is further generated as follows. .
  • the score calculation unit 120 classifies each element of the document number matrix of ⁇ rows and q columns for each predetermined period (step S222). For example, in the case of patent documents, it can be classified by year of application or classified by multiple years. Preferably, it is classified into two periods before and after a predetermined time.
  • the score calculation unit 120 calculates the rate of increase / decrease in the number of technical documents for each element of the document matrix of p rows and q columns based on the classification for each predetermined period. If the classification for each given period is a classification for two periods, the rate of increase / decrease is calculated for each element of the p-row / q-column document count matrix, so the p-row / q-column increase / decrease rate matrix Generated power. If the classification for each predetermined period is a classification to T period (T ⁇ 3), an increase / decrease rate matrix of ⁇ rows and q columns may be generated for each adjacent period, and (T-1) may be used. However, one matrix of average rate of change may be generated.
  • Changes in trends in issues and solutions can be detected from the change rate matrix generated in this way. For example, focus on a specific solution factor (one row with a matrix) to find a change in the application of the technology, or focus on a specific problem factor (one column with a matrix) and change the solution to the problem. Or headline.
  • the subsequent processing is the same as that in the first embodiment, and the first and second vector group generation units 130 and 140 use the first and second vector group generation units 130 and 140 as the scores ⁇ as the respective elements (increase / decrease rates) of the increase / decrease rate matrix of p rows and q columns.
  • a second vector group is generated (steps S230 and S240).
  • the first and second vector relevance calculation units 150 and 160 calculate the relevance between the vectors, respectively (steps S250 and S260), and the first and second vector arrangement units 170 and 180 respectively (Steps S271 to 278, S281 to S288).
  • the q-dimensional vector related to p task factors is referred to as the “issue factor publication number increase / decrease rate vector”
  • the P-dimensional vector related to q solution factors Is referred to as “solution factor publication number increase / decrease rate vector”.
  • the first and second clusters are referred to as “issue factor cluster” and “solution factor cluster”, respectively.
  • each element of the matrix is the rate of increase / decrease in the number of documents, etc., it will be possible to grasp in detail the temporal transition of the problem factor (use) and solution factor (technology). In particular, it can be visualized so that the increase / decrease in the matrix is significant and the problem factors (uses) and solution factors (technology) can be quickly grasped. Furthermore, there are cases where an element whose number of cases tends to increase can be found.
  • the attribute arranged on each axis of the matrix will be described with respect to a case where one is a human attribute and the other is a technical field attribute. Cite. However, this is only an example. Other personal information such as the inventor may be used as the human attribute. In this case, the same effects as those of the first embodiment can be obtained.
  • the present invention is not particularly limited to this. Absent. It is also possible to use an arbitrary score corresponding to the data in the technical document for the score that is each element of the matrix.
  • only one matrix may be generated for one technical document group to be analyzed, and each element of a matrix is classified, for example, for each predetermined period and divided into matrices for each predetermined period. A plurality of matrices may be generated.
  • the trend of the document group to be analyzed for example, a (Trend) can be roughly grasped.
  • a (Trend) can be roughly grasped.
  • one of the attributes is a problem factor and the other is a solution factor
  • several uses, technologies that compose it, and major issues are organized, and when and what solutions are mainstream. Can be grasped.

Abstract

属性Xと属性Yとを有する技術文書を複数含んだ技術文書群のデータを取得し、属性Xと属性Yとの組合せのそれぞれに属する技術文書のデータに応じたスコアを算出する。属性Xを横軸に、属性Yを縦軸にとって上記スコアをマトリクス状に配置したときの、当該マトリクス状の配置における各列に属する上記スコアに基づき、ベクトル群Xjを生成し、各行に属する上記スコアに基づき、ベクトル群Ykを生成する。ベクトル群Xj及びYkのそれぞれについて、関連性の高いベクトル同士をより近くに配置する。これにより、技術文書の第1の属性Xに対応する第1のベクトル群の相互の関連性と、第2の属性Yに対応する第2のベクトル群の相互の関連性とを詳細に分析し、その上で第1の属性Xと第2の属性Yとを併せ考慮した検討を行うことができるようにする。

Description

明 細 書
技術文書属性の関連性分析支援装置
技術分野
[0001] 本発明は、技術文書群における文書属性の関連性を分析する分析支援装置、支 援方法及び支援プログラムに関する。
背景技術
[0002] 企業が自社の研究開発組織にお!、て開発してきた技術開発成果や、その技術資 産ポートフォリオの現状を自身で把握し、今後の開発方向性の客観的な指針を持つ ことは容易ではない。企業の開発方向性の客観的な指針を得るための方策として、 自社及び他社の技術文書群カゝら得られるデータを収集分析することは有効な手段と 考えられるが、膨大な技術文書群力も有用な情報を抽出することには相当な困難が 伴う。
[0003] 従来、膨大なデータの中からそこに埋もれた情報を発掘する試みとして、例えば X ( j = l, 2, ···, p)及び Y (k=l, 2, ···, q)という二種類の項目を横軸及び縦軸に
k
配置し、これらの項目の組合せごとの集計結果を表にしたクロス表を分析するものが ある。
[0004] 例えば次の文献に記載された双対尺度法 (Dual Scaling)は、このようなクロス表の 横軸の項目 X(表頭)及び縦軸の項目 Y (表側)にそれぞれ尺度 X(j = l, 2, ···, p
j k j
)及び尺度 Y (k=l, 2, ···, q)を与え、クロス表に隠された傾向を見つけようとする
k
ものである。この文献では、尺度 X及び尺度 Yの具体的数値を算出するために、 p次
j k
元ベクトル X= (X , X , ···, X)と q次元ベクトル Υ= (Υ , Υ , ···, Υ)との相関係
1 2 ρ 1 2 q
数の自乗ができるだけ 1に近くなるようにベクトル Xと Yの成分を求めて 、る。
非特許文献 1:上田太一郎 他著「実践ワークショップ Excel徹底活用 多変量解析
」株式会社秀和システム, 2003年 9月 5日発行, 323〜337頁
発明の開示
発明が解決しょうとする課題
[0005] しかし、上記の双対尺度法やその他従来の手法では、クロス表の縦軸の項目 X (j = 1, 2, · · · , p)相互の関係や、横軸の項目 Y (k= l, 2, · · · , q)相互の関係を十
k
分に分析するものではないから、 Xと Yとを併せ考慮した検討を十分に行うことがで
j k
きない。上記の双対尺度法は、 Xと Yとにそれぞれ尺度を与えているが、そこから得
j k
られる情報は限られたものでしかない。この手法を用いても、技術文書群における文 書属性の関連性を十分に分析することはできない。従って、企業の技術開発の方向 性に対する客観的な指針を得るための判断基準とすることはできない。
[0006] 本発明の課題は、技術文書の第 1の属性 Xに対応する第 1のベクトル群の相互の 関連性と、第 2の属性 Yに対応する第 2のベクトル群の相互の関連性とを詳細に分析 し、その上で第 1の属性 Xと第 2の属性 Yとを併せ考慮した検討を行うことで、技術文 書群における文書属性のデータ分布の集中や分散の状態を識別し、企業の技術開 発の方向性に対する判断基準を示すことができる技術文書属性の関連性分析支援 装置、支援方法及び支援プログラムを提供することである。
課題を解決するための手段
[0007] (1)上記の課題を解決するため、本発明の技術文書属性の関連性分析支援装置 は、
少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデ ータを取得するデータ取得手段と、
前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞ れに属する技術文書のデータに応じたスコアを算出するスコア算出手段と、 前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリク ス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに 基づきベクトルを生成する第 1ベクトル群生成手段と、
前記第 1ベクトル群生成手段により生成されたベクトル群について、相互の関連性 を算出する第 1べ外ル関連性算出手段と、
前記第 1ベクトル群生成手段により生成されたベクトル群について、前記関連性の 高 、ベクトル同士をより近くに配置する第 1ベクトル配置手段と、
前記マトリクス状の配置における各行に属する前記スコアに基づきベクトルを生成 する第 2ベクトル群生成手段と、 前記第 2ベクトル群生成手段により生成されたベクトル群について、相互の関連性 を算出する第 2べ外ル関連性算出手段と、
前記第 2ベクトル群生成手段により生成されたベクトル群について、前記関連性の 高 、ベクトル同士をより近くに配置する第 2ベクトル配置手段と、を備えて 、る。
[0008] これによれば、第 1の属性 X(マトリクス状に配置したスコアの各列)にそれぞれ対応 するベクトル相互の関連性を算出して第 2の属性 Yの分布が似ているベクトル同士を より近くに配置し、第 2の属性 Y (マトリクス状に配置したスコアの各行)にそれぞれ対 応するベクトル相互の関連性を算出して第 1の属性 Xの分布が似ているベクトル同士 をより近くに配置することになる。従って、第 1の属性 Xに対応するベクトル相互の関 連性と、第 2の属性 Yに対応するベクトル相互の関連性とを詳細に分析し、その上で 第 1の属性 Xと第 2の属性 Yとを併せ考慮した検討を行うことで、技術文書群における 文書属性のデータ分布の集中や分散の状態を識別することができる。
[0009] (2)上記の技術文書属性の関連性分析支援装置において、
前記第 1の属性 X及び第 2の属性 Yのうち、一方は各技術文書の人的属性であり、 他方は各技術文書の技術分野属性であることが望ましい。
人的属性には例えば特許文書であれば出願人や発明者などが含まれ、技術論文 や書籍であれば著者や編集者などが含まれる。技術分野属性には IPC (国際特許 分類)などの技術分類の他、技術要素、キーワードなどが含まれる。
[0010] これにより、人的属性に対応するベクトル相互の関連性と、技術分野属性に対応す るべ外ル相互の関連性を分析し、その上で人的属性と技術分野属性とを併せ考慮 した検討が可能となる。例えば、自社と他社とで技術開発領域の関連性が示される ので、類似の開発性向を有する企業を探すことができる。ここでいう類似の開発性向 を有する企業は、現に市場で競合している企業とは限らない。自社と比較される企業 1S 自社と類似の開発性向を有しながら、自社にとって未参入の業界に参入済みの 場合、自社がその業界に新規参入するための技術的ハードルは低いことが予想でき る。また、自社と市場で競合しているが異なる開発性向を有する企業と比較して自社 の開発部門の強み Z弱みを発見したり、互いの開発部門の弱点を補い合える技術 提携先を探したりして、自社が参入したい業界で他社に対抗できるようにするための 技術開発の方針策定に役立てることもできる。また更に、例えばある技術分野と他の 技術分野とで開発主体の関連性が示されるので、技術分野間の関連性を分析する ことができる。例えば、比較する技術分野を同一企業が併せて手掛ける傾向が高い 場合、(a)両者を手掛けることで現存の事業に結びついている可能性を見出し、当該 事業への参入可否や、当該事業に参入するための技術開発の要否を判断すること ができる。或いは、(b)技術的に一見関連していないようでも相互の技術を転用でき る可能性を見出すことができる。
[0011] (3)上記の技術文書属性の関連性分析支援装置において、
前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前記第 2の属 性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文書の数に基
k j k
づいて、前記スコアを算出することが望ましい。
[0012] 組合せが同一である技術文書の数に基づいてスコアを算出することにより、属性の 分布の集中や分散の状態を簡単に且つ客観的に表現することができる。
[0013] (4)また、前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前 記第 2の属性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文
k j k
書の各々に重み付けをして合計することにより、前記スコアを算出することとしてもよ い。
[0014] 組合せが同一である技術文書の各々に重み付けをして合計してスコアを算出する ことにより、技術文書の重要度或いは質的要素を加味したスコアで、適切に分析を行 うことができる。
重み付けは、例えば、公開特許公報よりも特許掲載公報の重み付けを大きくするこ とにより、技術文書の重要度或いは質の高さが強調される。
[0015] (5)上記の技術文書属性の関連性分析支援装置において、
前記第 1ベクトル群生成手段又は前記第 2ベクトル群生成手段は、前記マトリクス状 の配置における各列又は各行に属するスコアの各々の対数を成分として含むベタト ルを生成することが望まし 、。
[0016] これにより、特に各スコアが非負で且つ 0付近に分布が集中している場合に、ベタト ル成分の分布が正規分布に近くなるので、関連性算出結果の信頼度を向上すること ができる。
[0017] (6)上記の技術文書属性の関連性分析支援装置において、
前記第 1ベクトル配置手段は、
前記第 1ベクトル群生成手段により生成されたベクトル群のうち 2つのベクトルを所 定の基準で選択し、前記 2つのベクトルを隣接させてクラスタを生成する第 1クラスタ 生成手段と、
前記第 1クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 1ベタ トル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトル群から 選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端部べタト ルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記クラスタに 加えて前記クラスタを順次拡大させる第 1クラスタ拡大手段と、を備え、且つ Z又は、 前記第 2ベクトル配置手段は、
前記第 2ベクトル群生成手段により生成されたベクトル群のうち 2つのベクトルを所 定の基準で選択し、前記 2つのベクトルを隣接させてクラスタを生成する第 2クラスタ 生成手段と、
前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 2ベタ トル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトル群から 選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端部べタト ルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記クラスタに 加えて前記クラスタを順次拡大させる第 2クラスタ拡大手段と、を備えることが望ま Uヽ
[0018] これによれば、関連性の高!、ベクトルから順次隣接させ、クラスタを拡大させて 、く ので、関連性の高いベクトル同士を確実に近くに配置し、文書属性のデータ分布の 集中や分散の状態を明示させることができる。
[0019] (7)上記の技術文書属性の関連性分析支援装置において、
前記第 1クラスタ生成手段又は前記第 2クラスタ生成手段は、それぞれ前記第 1ベタ トル群生成手段により生成されたベクトル群又は前記第 2ベクトル群生成手段により 生成されたベクトル群について、
当該ベクトル群のうち相互の関連性が最も高い 2つのベクトルを選択することが望ま しい。
[0020] これにより、最も関連性の高いベクトル同士を確実に隣接させることができるので、 ベクトル配置の定量的な客観性を担保することができる。
[0021] (8)上記の技術文書属性の関連性分析支援装置において、
前記第 1ベクトル配置手段は、
前記第 1クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルと、前記第 1ベクトル群生成手段により生成されたベクトル 群のうち前記クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である場合 、前記第 1クラスタ拡大手段による前記加入ベクトルの選択と前記クラスタの拡大を中 止する、第 1クラスタ拡大中止判定手段と、
前記第 1クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち、 2つの ベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成 する、第 1クラスタ再生成手段と、
前記第 1クラスタ再生成手段により生成された前記他のクラスタを構成するベクトル 群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前 記第 1ベクトル群生成手段により生成されたベクトル群であって前記第 1クラスタ生成 手段により生成されたクラスタ以外のベクトル群のうち前記他のクラスタ以外のベタト ル群カゝら選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端 部ベクトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記他 のクラスタに加えて前記他のクラスタを順次拡大させる、第 1クラスタ再拡大手段と、を 更に備え、且つ Z又は、
前記第 2ベクトル配置手段は、
前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルと、前記第 2ベクトル群生成手段により生成されたベクトル 群のうち前記クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である場合 、前記第 2クラスタ拡大手段による前記加入ベクトルの選択と前記クラスタの拡大を中 止する、第 2クラスタ拡大中止判定手段と、
前記第 2クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち、 2つの ベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成 する、第 2クラスタ再生成手段と、
前記第 2クラスタ再生成手段により生成された前記他のクラスタを構成するベクトル 群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前 記第 2ベクトル群生成手段により生成されたベクトル群であって前記第 2クラスタ生成 手段により生成されたクラスタ以外のベクトル群のうち前記他のクラスタ以外のベタト ル群カゝら選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端 部ベクトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記他 のクラスタに加えて前記他のクラスタを順次拡大させる、第 2クラスタ再拡大手段と、を 更に備えることが望ましい。
[0022] これによれば、端部ベクトルとの関連性が所定の閾値以下である場合、 1つのクラス タに無理にまとめられてしまうことを回避し、より高い関連性を有するベクトル同士の 組合せを優先させることができ、ベクトルの配置の信頼性を向上することができる。関 連性の閾値は例えば相関係数 0を用いる。
[0023] (9)上記の技術文書属性の関連性分析支援装置において、
前記第 1ベクトル配置手段及び前記第 2ベクトル配置手段による配置に基づいてマ トリタス状に配置されるスコアの分布状態を、スコアに応じた模様又は色彩を付して表 示する表示手段を備えることが望まし 、。
[0024] スコアの分布を数値で示すだけでは、分布状態が一見して明らかではな 、が、模 様又は色彩を付すことにより、スコアの分布状態をより識別しやすく表示することがで きる。
[0025] (10)また本発明は、上記各装置によって実行される方法と同じ工程を備えた技術 文書属性の関連性分析支援方法、並びに上記各装置によって実行される処理と同 じ処理をコンピュータに実行させることのできる技術文書属性の関連性分析支援プロ グラムである。このプログラムは、 FD、 CDROM、 DVDなどの記録媒体に記録され たものでもよく、ネットワークで送受信されるものでもよい。
図面の簡単な説明
[0026] [図 1]本発明の第一実施形態に係る技術文書属性の関連性分析支援装置のハード ウェア構成を示す図。
[図 2]上記第一実施形態の関連性分析支援装置における処理装置 1の動作手順を 示すフローチャート。
[図 3]表示部による表示例を示す図。
[図 4]表示部による他の表示例を示す図。
[図 5]第二実施形態の関連性分析支援装置における処理装置 1の動作手順を示す フローチャート。
[図 6]第二実施形態で生成される文書数マトリクスの一例。
符号の説明
[0027] 1 :処理装置、 2 :入力装置、 3 :記録装置、 4 :出力装置、 110 :データ取得部、 120 :スコア算出部、 130及び 140 :第 1及び第 2ベクトル群生成部、 150及び 160 :第 1及 び第 2ベクトル関連性算出部、 170及び 180 :第 1及び第 2ベクトル配置部
発明を実施するための最良の形態
[0028] 以下、本発明の実施の形態を、図面を参照して詳細に説明する。
< 1.略号の説明等 >
i: 個々の技術文書に付与される技術文書番号。例えば一定条件下で抽出された 全特許出願にそれぞれ付与される。技術文書数を Nとすると、 i= l, 2, · · · , Nであ る。
X、 Y: 個々の技術文書の属性。例えば出願人、技術分野 (キーワード又は IPC) など。
X、 Y: 属性の値。例えば出願人や技術分野の具体的名称を指し、数値で表現さ j k
れるものに限らない。
σ : 属性 Xと属性 Υとの組合せごとに算出されるスコア。属性 Xの値域を X、 X、 · kj 1 2
• ·、 X、属性 Yの値域を Y、 Y、 · · ·、 Yとした場合、 p X q個のスコア σ を定義でき
Ρ 1 2 q k]
、これらを q行 p列のマトリクス状に配置することができる。マトリクス状に配置された各 列に属するスコア σ 、 σ 、 · · ·、 σ を成分とする q次元ベクトルをベクトル X、各行
1] 2] qj ] に属するスコア σ 、 σ 、 · · ·、 σ を成分とする ρ次元ベクトルをベクトル Υとする(
kl k2 kp k 対応する属性の値 X、 Yと同じ符号を用いる)。
j k
[0029] < 2.技術文書属性の関連性分析支援装置の構成 >
図 1は本発明の第一実施形態に係る技術文書属性の関連性分析支援装置のハー ドウ ア構成を示す図である。同図に示すように、本実施形態の関連性分析支援装 置は、 CPU (中央演算装置)およびメモリ(記録装置)などから構成される処理装置 1 、キーボード (手入力器具)などの入力手段である入力装置 2、技術文書群のデータ や条件や処理装置 1による作業結果などを格納する記録手段である記録装置 3、お よびマトリクス状に配置されたスコア等を表示又は印刷等する出力手段である出力装 置 4から構成される。
[0030] 処理装置 1は、データ取得部 110、スコア算出部 120、第 1及び第 2ベクトル群生成 部 130及び 140、第 1及び第 2ベクトル関連性算出部 150及び 160、第 1及び第 2ベ タトル配置部 170及び 180、を備えている。
[0031] 記録装置 3は、条件記録部 31、作業結果格納部 32、文書格納部 33などから構成 される。文書格納部 33は外部データベースや内部データベース力も得た、技術文書 群のデータを含んでいる。外部データベースとは、例えば日本国特許庁でサービス して 、る特許電子図書館の IPDLや、株式会社パトリスでサービスして!/、る PATOLI S (登録商標)などの文書データベースを意味する。又内部データベースとは、販売 されて!/、る例えば特許 JP— ROMなどのデータを自前で格納したデータベース、文 書を格納した FD (フレキシブルディスク)、 CD (コンパクトディスク) ROM、 MO (光磁 気ディスク)、 DVD (デジタルビデオディスク)などの媒体力 読み出す装置、紙など に出力された或いは手書きされた文書を読み込む OCR (光学的情報読み取り装置) などの装置及び読み込んだデータをテキストなどの電子データに変換する装置など を含んでいるものとする。
本実施例では、技術文書として主に特許公報類を扱うが、これに限らず、実用新案 公報、技術論文、技術を扱った雑誌、書籍など広く技術文書一般を分析することが できる。 [0032] 処理装置 1、入力装置 2、記録装置 3、および出力装置 4の間で信号やデータをや り取りする通信手段としては、 USB (ユニバーサルシステムバス)ケーブルなどで直接 接続してもよ 、し、 LAN (ローカルエリヤネットワーク)などのネットワークを介して送受 信してもよいし、文書を格納した FD、 CDROM、 MO、 DVDなどの媒体を介してもよ い。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。
[0033] < 2— 1.入力装置 2の詳細 >
次に、上記の関連性分析支援装置における構成と機能を詳しく説明する。 入力装置 2では、技術文書群のデータの取得条件、スコアの算出条件、ベクトルの 生成条件、関連性の算出条件、ベクトルの配置条件などの入力を受け付ける。これら 入力された条件は、記録装置 3の条件記録部 31へ送られて格納される。
[0034] < 2— 2.処理装置 1の詳細 >
データ取得部 110は、入力装置 2で入力されるデータの取得条件に従って、分析 対象となる技術文書群のデータを記録装置 3の文書格納部 33から取得する。例えば 、各技術文書の書誌情報などに基づいて、各技術文書の少なくとも 2種類の属性を データとして取得する。取得された技術文書群のデータは、スコア算出部 120に直接 送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 32に送ら れて格納される。
[0035] スコア算出部 120は、データ取得部 110で取得された技術文書群のデータに基づ いて、上記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそ れぞれに属する技術文書のデータに応じたスコア σ を算出する。このスコア σ は、 kj kj 上記第 1の属性 Xの値と第 2の属性 Yの値との組合せごとに、それぞれ算出される。 算出されたスコア σ は、第 1及び第 2ベクトル群生成部 130及び 140に直接送られ てそれらでの処理に用いられ、或いは記録装置 3の作業結果格納部 32に送られて 格納される。
[0036] 第 1ベクトル群生成部 130は、スコア算出部 120で算出されたスコア σ に基づき、 ベクトル群 Xを生成する。このベクトル群 Xは、上記第 1の属性 Xを横軸に、上記第 2 の属性 Υを縦軸にとって上記スコア σ をマトリクス状に配置したときの、当該マトリク ス状の配置における各「列」に属する上記スコアに基づいて算出される。 第 2ベクトル群生成部 140は、スコア算出部 120で算出されたスコア σ に基づき、
«
ベクトル群 Υを生成する。このベクトル群 Υは、上記第 1の属性 Xを横軸に、上記第 2
k k
の属性 Yを縦軸にとって上記スコア σ をマトリクス状に配置したときの、当該マトリク ス状の配置における各「行」に属する上記スコアに基づ 、て算出される。
第 1及び第 2ベクトル群生成部 130及び 140で生成されたベクトル群 X及び Yは、
j k それぞれ第 1及び第 2ベクトル関連性算出部 150及び 160に直接送られてそこでの 処理に用いられ、或いは記録装置 3の作業結果格納部 32に送られて格納される。
[0037] 第 1ベクトル関連性算出部 150は、第 1ベクトル群生成部 130により生成されたべク トル群 Xについて、相互の関連性を算出する。
第 2ベクトル関連性算出部 160は、第 2ベクトル群生成部 140により生成されたべク トル群 Yについて、相互の関連性を算出する。
k
第 1及び第 2ベクトル関連性算出部 150及び 160で算出された関連性のデータは、 それぞれ第 1及び第 2ベクトル配置部 170及び 180に直接送られてそこでの処理に 用いられ、或 、は記録装置 3の作業結果格納部 32に送られて格納される。
[0038] 第 1ベクトル配置部 170は、第 1ベクトル関連性算出部 150により算出されたべタト ル X相互の関連性に基づいて、当該関連性の高いベクトル同士をより近くに配置す j
る処理を行う。
第 2ベクトル配置部 180は、第 2ベクトル関連性算出部 160により算出されたべタト ル Y相互の関連性に基づいて、当該関連性の高いベクトル同士をより近くに配置す k
る処理を行う。
第 1及び第 2ベクトル配置部 170及び 180で決定されたベクトルの配置は、記録装 置 3の作業結果格納部 32に送られて格納され、必要に応じて出力装置 4にて出力さ れる。
[0039] 第 1及び第 2ベクトル配置部 170及び 180の特に好ましい態様として、図 1には、そ れぞれ第 1及び第 2クラスタ生成部 171及び 181、第 1及び第 2クラスタ拡大部 172及 び 182を備えたものが示されている。更に好ましい態様として、この図 1には、それぞ れ第 1及び第 2クラスタ拡大中止判定部 174及び 184、第 1及び第 2クラスタ再生成 部 175及び 185、第 1及び第 2クラスタ再拡大部 176及び 186を備えたものが示され ている。
[0040] 第 1クラスタ生成部 171は、第 1ベクトル群生成部 130により生成されたベクトル群 のうち 2つのベクトルを所定の基準で選択し、これら 2つのベクトルを隣接させてクラス タを生成する。
第 2クラスタ生成部 181は、第 2ベクトル群生成部 140により生成されたベクトル群 のうち 2つのベクトルを所定の基準で選択し、これら 2つのベクトルを隣接させてクラス タを生成する。
2つのベクトルを選択する所定の基準は、例えば関連性の高さとし、相互の関連性 が最も高 、2つのベクトルを選択することができる。
第 1及び第 2クラスタ生成部 171及び 181で生成されたクラスタは、それぞれ第 1及 び第 2クラスタ拡大部 172及び 182に直接送られてそこでの処理に用いられ、或いは 記録装置 3の作業結果格納部 32に送られて格納される。
[0041] 第 1クラスタ拡大部 172は、第 1クラスタ生成部 171で生成されたクラスタに加入べク トルを加えることにより、第 1クラスタ生成部 171で生成されたクラスタを順次拡大させ る。この加入ベクトルは、第 1クラスタ生成部 171により生成されたクラスタを構成する ベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタト ルを、第 1ベクトル群生成部 130により生成されたベクトル群 Xのうち上記クラスタ以 外のベクトル群力 選択することによって決定する。加入ベクトルのクラスタへの加入 は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入ベクトル とを隣接させることによって行うが、これに限らずクラスタ内の他の箇所に加入べタト ルを加入させてもよい。
第 2クラスタ拡大部 182は、第 2クラスタ生成部 181で生成されたクラスタに加入べク トルを加えることにより、第 2クラスタ生成部 181で生成されたクラスタを順次拡大させ る。この加入ベクトルは、第 2クラスタ生成部 181により生成されたクラスタを構成する ベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタト ルを、第 2ベクトル群生成部 140により生成されたベクトル群 Yのうち上記クラスタ以
k
外のベクトル群力 選択することによって決定する。加入ベクトルのクラスタへの加入 は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入ベクトル とを隣接させることによって行うが、これに限らずクラスタ内の他の箇所に加入べタト ルを加入させてもよい。
第 1及び第 2クラスタ拡大部 172及び 182によりクラスタを拡大させ、クラスタ未加入 のベクトルがなくなったときは、第 1及び第 2ベクトル配置部 170及び 180の処理は終 了する。
[0042] 第 1クラスタ拡大中止判定部 174は、第 1クラスタ生成部 171により生成されたクラス タを構成するベクトル群のうち両端に位置する端部ベクトルと、第 1ベクトル群生成部 130により生成されたベクトル群 Xのうち上記クラスタ以外のベクトルとの関連性が何
j
れも所定の閾値以下である場合、第 1クラスタ拡大部 172による加入ベクトルの選択 とクラスタの拡大を中止する。
第 2クラスタ拡大中止判定部 184は、第 2クラスタ生成部 181により生成されたクラス タを構成するベクトル群のうち両端に位置する端部ベクトルと、第 2ベクトル群生成部 140により生成されたベクトル群 Yのうち上記クラスタ以外のベクトルとの関連性が何
k
れも所定の閾値以下である場合、第 2クラスタ拡大部 182による加入ベクトルの選択 とクラスタの拡大を中止する。
ここで所定の閾値としては、例えば相関係数なら 0 (無相関)とすることが望ましい。
[0043] 第 1クラスタ再生成部 175は、第 1クラスタ生成部 171により生成されたクラスタ (第 1 クラスタ拡大部 172により拡大された場合は拡大後のクラスタ)以外のベクトル群のう ち、 2つのベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラ スタを生成する。
第 2クラスタ再生成部 185は、第 2クラスタ生成部 181により生成されたクラスタ (第 2 クラスタ拡大部 182により拡大された場合は拡大後のクラスタ)以外のベクトル群のう ち、 2つのベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラ スタを生成する。
第 1及び第 2クラスタ再生成部 175及び 185で生成された他のクラスタは、それぞれ 第 1及び第 2クラスタ再拡大部 176及び 186に直接送られてそこでの処理に用いられ 、或いは記録装置 3の作業結果格納部 32に送られて格納される。
[0044] 第 1クラスタ再拡大部 176は、第 1クラスタ再生成部 175で生成された上記他のクラ スタに加入ベクトルをカ卩えることにより、上記他のクラスタを順次拡大させる。この加入 ベクトルは、第 1クラスタ再生成部 175により生成された上記他のクラスタを構成する ベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタト ルを、第 1ベクトル群生成部 130により生成されたベクトル群 Xであって第 1クラスタ生 成部 171により生成されたクラスタ以外のベクトル群のうち上記他のクラスタ以外のベ タトル群力 選択することによって決定する。加入ベクトルの上記他のクラスタへの加 入は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入べタト ルとを隣接させることによって行う。
第 2クラスタ再拡大部 186は、第 2クラスタ再生成部 185で生成された上記他のクラ スタに加入ベクトルをカ卩えることにより、上記他のクラスタを順次拡大させる。この加入 ベクトルは、第 2クラスタ再生成部 185により生成された上記他のクラスタを構成する ベクトル群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベタト ルを、第 2ベクトル群生成部 140により生成されたベクトル群 Yであって第 2クラスタ
k
生成部 181により生成されたクラスタ以外のベクトル群のうち上記他のクラスタ以外の ベクトル群力 選択することによって決定する。加入ベクトルの上記他のクラスタへの 加入は、当該加入ベクトルと関連性が最も高いとされた端部ベクトルと、当該加入べ タトルとを隣接させることによって行う。
第 1及び第 2クラスタ再拡大部 176及び 186によりクラスタを拡大させ、クラスタ以外 のベクトル群がなくなったときは、第 1及び第 2ベクトル配置部 170及び 180の処理は 終了する。
[0045] < 2— 3.記録装置 3の詳細 >
記録装置 3において、条件記録部 31は、入力装置 2から得られた条件などの情報 を記録し、処理装置 1の要求に基づき、必要なデータを送る。作業結果格納部 32は 、処理装置 1における各構成要素の作業結果を格納し、処理装置 1の要求に基づき 、必要なデータを送る。文書格納部 33は、入力装置 2或いは処理装置 1の要求に基 づき、外部データベース或いは内部データベース力も得た、必要な技術文書群のデ ータを格納し、提供する。
[0046] < 2-4.出力装置 4の詳細 > 出力装置 4は、処理装置 1の第 1及び第 2ベクトル配置部 170及び 180で決定され たベクトルの配置に基づいてマトリクス状に配置されるスコア等を出力する。この出力 装置 4は例えばディスプレイ装置などの表示部 41を備え、マトリクス状に配置されるス コアの分布状態を、スコアに応じた模様又は色彩を付して表示する。出力の形態とし ては、表示部 41での表示に限らず、紙などの印刷媒体への印刷、或いは通信手段 を介してのネットワーク上のコンピュータ装置への送信などによってもよい。
[0047] < 3.第一実施形態の動作 >
図 2は上記第一実施形態の関連性分析支援装置における処理装置 1の動作手順 を示すフローチャートである。
[0048] < 3— 1.技術文書群のデータ入手 >
まず、データ取得部 110において、分析対象となる技術文書群のデータを取得す る (ステップ S110)。この技術文書群の個々の文書は、それぞれ少なくとも 2種類の 属性 X及び Yをもっている必要がある。この技術文書群の文書数を N個とする。例え ば次の [表 1]のようなデータを得る。なお、個々の技術文書について属性の値の数 は 1つでも良いし、次の [表 1]の技術文書番号 2、 3、 4等の属性 Zのように、個々の技 術文書について属性の値が複数あっても良い。例えば 1つの特許文書に複数の発 明者が記載されている場合、発明者属性の値は発明者の数だけあることになる。
[表 1]
技術文書番号 i 属性 X 属性 Y ■ . . 属性 z
1
2 X! Y3 z2 z4
3 y3
4 χ z2 z3
5 z3
6 x2 ^ z4
7 x2 3 z4
8 x2 Y4 z4
9 x2 z5
1 0 x3 γ2 z5
N x4 Z3
[0049] く 3— 2.スコアの算出〉
次に、スコア算出部 120において、上記少なくとも 2種類の属性のうち第 1の属性 X と第 2の属性 Yとの組合せのそれぞれに属する技術文書のデータに応じたスコアを 算出する (ステップ S 120)。
このために、まず上記属性のうち 2種類 (例えば「出願人」及び「キーワード」の 2種 類。以下本実施例の説明においてそれぞれ X及び Yとする。)を選択する。この選択 は入力装置 2より入力されるユーザの指示に基づき行われるが、 2種類の属性のうち 一方を出願人や発明者などの人的属性とし、他方をキーワードや IPCなどの技術分 野属性とすることが好ましい。また、 2種類の属性の両方を技術分野属性とし、例えば 一方を技術分類、他方を技術要素としてもよい。また、 2種類の属性のうち何れか又 は両方に、人的属性でも技術分野属性でもない属性、例えば出願日等を選択しても よい。
[0050] 2種類の属性を選択したら、各属性 X、 Yにつ!/ヽて、属性の値 X、 Y (例えば出願人 j k
やキーワードの具体的名称を指し、数値に限らない)の範囲 (値域)を決定する。例え ば次の [表 2]のような、該当技術文書数の降順ランキングを作成し、属性 Xについて は上位 p個、属性 Yについては上位 q個以内に入る値の範囲を、各属性の値域とす る。属性 Xの値域内の値 Xの個数 pと、属性 Yの値域内の値 Yの個数 qは同じでも良 いし、異なっていてもよい。例えば、件数上位何社につき分析する力、或いはどの技 術分野について分析するか、など分析目的に応じて値域を選択すればよい。以下の 説明では、属性 Xについては値 X、 X、 · · ·、 X力 属性 Yについては値 Y、 Y、 · ·
1 2 p 1 2
·、 Y力 値域として決定されたものとして説明する。
[表 2]
Figure imgf000019_0001
続いて、属性の値 Xと Yとの各組み合わせ(但し、 j = l, 2, · · · , p、k= l, 2, · · · ,
] k
q)について、これら属性の値の組み合わせを有する技術文書の文書数に基づいて p X q個のスコア σ を算出する。
スコア σ は、属性の値 Xと Υとの組み合わせ (X、 Υ )が同一である技術文書の文 書数そのものとしても良いし、規格化処理をするなど文書数を変数とする関数値とし てもよい。スコア σ を文書数そのものとした場合、例えば上の [表 1]のように、属性の 値 (X、 Υ )の組をもつ技術文書が、 Ν個の技術文書のうち技術文書番号 i= lのみ である場合は、(X、 Y )の組に関するスコア σ は、 1となる。また例えば上の [表 1]
1 1 11
のように、属性 (X、 Υ )の組をもつ技術文書が、 Ν個の技術文書のうち技術文書番
1 3
号 i = 2及び 3の 2つである場合は、(X、 Y )の組に関するスコア σ は、 2となる。ス
1 3 31
コア σ は例えば次の [表 3]のようなものとなる。以下、この [表 3]に示された仮想事 例を適宜参照する。
[表 3] び
Χ2 χ3 Χ4 χ5 χ6 σ ! τ = 1 σ12=8 σ13=0 σ14= 1 σ15 = 0 σ16= 1 γ2 σ21 =0 σ 22 = 0 σ 23= 5 σ24= 2 び 25= 1 σ26=0 γ3 σ si = 6 σ 32= 0 σ 33= 0 σ34= 0 σ35= 1 σ36=0 γ4 σ41 = 2 σ42= 1 σ43= 0 σ44= 0 σ45= 1 σ46=0 γ5 σ51 = 1 σ52=0 び 53= 1 σ54=0 σ55 = 0 σ56=0 γ6 σ61 =0 σ62= 1 σ63=0 σ64=0 σ65 = 0 σ 66= 1
[0052] このように、属性の値の組み合わせが pXq個あるため、 pXq個のスコア σ (j = l, 2, · · ·, p、k=l, 2, · · ·, q)を、 q行 p列のマトリクス状に配置することができる。 [表 3 ]の例では、 6行 6歹 Uとなっている。
[0053] なお、属性 X又は Yの値域が大きく pや qが大きすぎる場合には、ある程度の幅を設 けて属性の値を設定し直した上でスコア σ を決定してもよい。例えば、属性 Xとして 出願日を選んだ場合、そのままでは数年分で ρの値が 1000以上になるが、出願年 や出願年月を属性の値として設定してもよい。これにより、属性の値域を分析しやす い大きさとすることができる。
[0054] ここでは文書数に基づいてスコア σ を算出する例について説明した力 これに限 らず、個々の技術文書に重み 0; =1, 2, ···, Ν)を与え、この重みをスコアの算出 に反映させることとしてもよい。例えば、属性の値 Xと Υとの各組み合わせにっき、 j k
σ = ∑ α V ie(X、 Υ)
« i j k
で算出してもよい。すなわち、属性の値の組合せが (X、 Y )であるすベての iについ j k
ての重みひの和をスコア σ としてもよい。例えば上の [表 1]のように、属性 (X、 Υ ) i kj 1 3 の組をもつ技術文書が、 N個の技術文書のうち技術文書番号 i= 2及び 3の 2つであ り、それぞれ重み α
2及び α
3が与えられている場合は、(X、Υ
1 3 )の組に関するスコア σ 、 ひ + ひ と る。
31 2 3
この場合の重み は、例えば特許文書の場合には特許登録されていれば大きな 値を、されていなければ小さな値を付与するなど、出願経過情報に基づいて付与し たり、独立請求項数や被引用回数などに基づいて付与したりするのが好ましい。
[0055] スコア σ を文書数で表す場合 (すべての技術文書につき同じ重み α =1を与える
« i
場合)は、属性の分布が簡単に且つ客観的に表現されるという利点がある。 一方、技術文書ごとに別々の重み αの値を与え、重みひを合計してスコア σ を算
i i W 出する場合、技術文書の重要度或いは質的要素を加味したスコアで、適切に分析を 行うことができる。
[0056] < 3— 3.ベクトルの生成 >
次に、第 1及び第 2ベクトル群生成部 130及び 140において、ベクトルを生成する( ステップ S 130及び S 140)。
具体的には、上記のようにスコアを q行 p列のマトリクス状に配置したときの各列に属 するスコア σ 、 σ 、 · · ·、 σ を成分とする q次元ベクトルを、ベクトル X (j = 1, 2, · · lj 2] qj ]
· , ρ)とする。このベクトル Xは、属性 Xの値 Xについて、属性 Υの分布を示すベクトル となる。例えばある企業 Xの特許出願について、技術分野の分布を示すベクトルとな る。上の [表 3]の仮想事例では、出願人 Xは、技術分野 Υ及び Υにおいて多くの特
1 3 4
許出願をしているが、技術分野 Υ
2及び Υの
6 特許出願はしていない。
同様に、上記のようにマトリクス状に配置したときの各行に属するスコア σ 、 σ 、 · kl k2
· ·、 σ を成分とする p次元ベクトルを、ベクトル Y (k= l, 2, · · ·, q)とする。このべ kp k
タトル Yは、属性 Υの値 Υについて、属性 Xの分布を示すベクトルとなる。例えばある k k
技術分野 Y
kについて、出願人の分布を示すベクトルとなる。上の [表 3]の仮想事例 では、技術分野 Y
1において、出願人 X
2が多くの特許出願をしている力 他の出願人 はあまり特許出願をして 、な 、。
[0057] ベクトル X及び Yは、上記のようにスコアそのものを成分としてもよいが、スコア σ
j k « の対数を成分とすることが望ましい。これは、 2種類の技術文書属性の組合せに基づ くスコア σ は非負で且つ 0付近に分布が集中しやすい傾向にあるためである。この ような場合にスコア σ の対数を成分とすれば、ベクトル成分の分布が正規分布に近 くなるので、関連性算出結果の信頼度を向上することができる。特に関連性の評価 方法として相関係数を選んだ場合は、スコア σ の対数を成分とすることが望ましい。 なお、スコア σ 力^の場合は対数を定義できな 、が、例えば 0の対数をとるべきとこ ろを便宜的に― 1又はその他の負数とぉ 、ても良 、し、或いは全スコアにそれぞれ 便宜的に 1又はその他の正数をカ卩えた上でそれぞれ対数をとつてもよい。
[0058] ベクトルの生成法としては、上記のようにスコアそのものを成分とする方法、スコア σ の対数を成分とする方法の他に、スコアに出現頻度の逆数を乗算したものを成分と
W
する方法も考えられる。
例えば上記 [表 3]において、一方の属性 Xの値 Xにおいては、スコア σ が属'性 Υ
2 k2 の値域 Y〜Υにおいて 3回出現している(σ =0であるスコアは出現回数に算入し
1 6 kj
て ヽな 、)。従って、値 Xに対応するスコア σ にはこの出現頻度の逆数である 1Z3
2 k2
を乗算する。 更に上記 [表 3]において、他方の属性 Yの値 Yにおいては、スコア σ が属性 Xの値域 X〜Χにおいて 4回出現している。従って、値 Υに対応するスコ lj 1 6 1
ァ σ にはこの出現頻度の逆数である 1Z4を乗算する。 すると、例えばスコア σ lj 12
=8に対しては、値 Xにおける出現頻度の逆数 1Z3と値 Yにおける出現頻度の逆
2 1
数 1Z4とを乗算することになるので、ベクトル Xの第 1成分或いはベクトル Yの第 2
2 1 成分 (値 (X、 Y )の組み合わせに対応する成分)は、 8/ (3 X 4)となる。他の成分
2 1
についても同様に各スコアに出現頻度の逆数を乗算すると、 [表 4]のような成分が得 られる。値域 X〜X
1 6に対応する各列の成分から構成されるベクトルをそれぞれべタト ル X〜Xとし、値域 Y〜Yに対応する各行の成分から構成されるベクトルをそれぞ
1 6 1 6
れべクトノレ Υ〜Υとする。
1 6
[表 4]
Figure imgf000022_0001
このように、多くのベクトルに共通して出現するベクトル成分の値が低ぐ特定のベタ トルにしか出現しないベクトル成分の値が高くなるようにすることで、各文書属性の値 独自のスコアを強調したベクトルを生成することができる。
< 3— 4.関連性の算出 > 次に、第 1及び第 2ベクトル関連性算出部 150及び 160において、 p個のベクトル X 相互の関連性及び q個のベクトル Y相互の関連性をそれぞれ算出する (ステップ S1
k
50及び SI 60)。
例えば上記 [表 3]の仮想事例において、 p個のベクトル X相互の関連性は、例えば 相関係数を用いて次の [表 5]のようなデータとして得られる。
[表 5]
Figure imgf000023_0001
ここでは属性 Xに対応するベクトル Xについて関連性の算出結果を示した力 属性 Yについても同様に行うことができる。関連性の評価方法としては、相関係数の他に も、内積を用いる方法、スピアマンの順位相関係数を算出する方法などが考えられる
[0061] < 3- 5.ベクトルの配置 >
次に、第 1及び第 2ベクトル配置部 170及び 180において、関連性の高いベクトル 同士を関連性の低いベクトルより近くに配置する処理を行う。以下に、その方法の 1 つを説明する。なお、以下では主に属性 Xについての例を示しながら説明するが、属 性 Yについても同様に行うことができる。
[0062] < 3— 5— 1.クラスタの生成 >
まず、第 1及び第 2クラスタ生成部 171及び 181において、 2つのベクトルを隣接さ せてクラスタを生成する(ステップ S 171及び S 181 )。
その方法の一例としては、 p個のベクトル Xのうち、相互の関連性が最も高い 2つの ベクトルを選択し、これらのベクトルを隣接させてクラスタを生成する。上の [表 5]の例 では、相関係数 0. 84であるベクトル Xと X力 最も関連性の高いベクトルであるから
3 4
、これらを隣接させる。 関連性が最も高い 2つのベクトルを選択してクラスタを生成することにより、関連性が 最も高 、ベクトル同士を確実に隣接させることができるので、ベクトル配置の定量的 な客観性を担保することができる。
[0063] 隣接させるベクトルの選択は、他の方法によってもよい。例えば、特定の出願人(自 社など)を残りの出願人と対比したい場合に、当該特定の出願人のベクトルと、これに 最も関連性の高いベクトルとを隣接させてもよい。また例えば、特定の 2名の出願人( 自社と競合他社など)を対比しつつ、これらと残りの出願人とを対比したい場合に、当 該特定の 2名の出願人のベクトルを隣接させてもよ!、。
以下、隣接させた複数のベクトルの集まりを「クラスタ」と称することにする。
[0064] < 3— 5— 2.クラスタの拡大 >
次に、第 1及び第 2クラスタ拡大部 172及び 182において、加入ベクトルをクラスタ に加えてクラスタを拡大させる(ステップ S 172及び S 182)。
具体的には、クラスタの両端に位置するベクトルと、クラスタに入っていない残りの各 ベクトルとの間で、最も関連性の高いベクトルの組を判定する。上の例では、クラスタ の両端に位置するベクトル X又は Xとの間で最も関連性の高いベクトルは、ベクトル
3 4
Xとの相関係数が 0· 37であるベクトル Xである。このベクトル Xを加入ベクトルとす
3 5 5
る。
最も関連性の高いベクトルの組が決定されたら、そのベクトル同士を隣接させること により、より大きなクラスタを形成する。上の例では、既に隣接しているベクトル X及び
3
Xのうち、ベクトル Xの隣に、加入ベクトル Xを隣接させる。但し、これに限らずクラス
4 3 5
タ内の他の箇所に加入ベクトルを加入させてもよい。
以上のように関連性の高 、ベクトル力 順次隣接させてクラスタを拡大させることに より、関連性の高いベクトル同士を確実に近くに配置し、文書属性のデータ分布の集 中や分散の状態を明示させるように分布状態を形成することができる。
[0065] クラスタ拡大の結果、クラスタ未加入のベクトルがなくなったら(ステップ S 173及び S 183 : NO)、ベクトルの配置は終了する。クラスタ未加入のベクトルが残っている場合 (ステップ S 173及び S 183 : YES)、それぞれステップ SI 74及び SI 84に移行する。
[0066] ステップ S174及び S184では、第 1及び第 2クラスタ拡大中止判定部 174及び 184 において、クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である力否か を判定する。 1つでも所定の閾値を超える関連性がある場合 (ステップ S 174及び S 1 84 : NO)、それぞれステップ S172及び S182に戻ってクラスタを順次拡大する。 例えば、ベクトル X、 X、 Xの順で隣接しているクラスタの両端 X又は Xとの間で
5 3 4 5 4 最も関連性の高いベクトルは、ベクトル Xとの相関係数が 0. 49であるベクトル Xで
5 1 あるとすると、ベクトル Xの隣に、加入ベクトル Xを隣接させる。
5 1
[0067] クラスタの両端のうちいずれに関連性の高いベクトルを隣接させるかを、予め決め ておいてもよい。例えば、クラスタの両端のうち一方のみとの間で関連性の高いベタト ルを判定して隣接させることにしておけば、最初にクラスタを構成したベクトルが最終 的にマトリクスの端部に配置されたものを作成することも可能である。また例えば、クラ スタの一端及び他端で、交互に関連性の高いベクトルを判定して隣接させることにし ておけば、最初にクラスタを構成したベクトルが最終的にマトリクスの中央に配置され たものを作成することも可能である。
[0068] < 3— 5— 3.他のクラスタの生成 >
ステップ S 174及び S 184において、関連性が何れも所定の閾値以下である場合 ( ステップ S 174及び S 184 : YES)、それぞれステップ S175及び S185に移行する。 ステップ S 175及び S 185では、第 1及び第 2クラスタ再生成部 175及び 185にお!/ヽ て、上記クラスタ以外のベクトル群のうち 2つのベクトルを隣接させて他のクラスタを生 成する。
そして、第 1及び第 2クラスタ再拡大部 176及び 186において、加入ベクトルを上記 他のクラスタに加えて上記他のクラスタを拡大させる(ステップ S176及び S186)。 すなわち、閾値以上の関連性を有するベクトルがなくなった場合には、残りのベタト ルだけで再度クラスタを生成し、上記と同様のクラスタ拡大手順を繰り返す。
[0069] このように、クラスタの両端のベクトルとの関連性が所定の閾値以下である場合に、 1つのクラスタに無理にまとめられてしまうことを回避し、より高い関連性を有するベタ トル同士の組合せを優先させることにより、ベクトルの配置の信頼性を向上することが できる。
関連性の閾値は、例えば相関係数なら 0 (無相関)とすることが望ましい。関連性の 評価方法として相関係数を用いることは、このように閾値を設定し易い点でも有利で ある。
[0070] 他のクラスタの拡大の結果、クラスタ未加入のベクトルがなくなったら(ステップ S 17 7及び S 187 : NO)、ベクトルの配置は終了する。クラスタ未加入のベクトルが残って V、る場合 (ステップ S 177及び S 187 : YES)、それぞれステップ S 178及び S 188に移 行する。
[0071] ステップ S178及び S188では、クラスタ以外のベクトルとの関連性が何れも所定の 閾値以下であるか否かを判定する。 1つでも所定の閾値を超える関連性がある場合( ステップ S 178及び S 188 : NO)、それぞれステップ S 176及び S 186に戻って上記他 のクラスタを順次拡大する。関連性が何れも所定の閾値以下である場合 (ステップ S 1 78及び S 188 : YES)、それぞれステップ S 175及び S 185に戻って更に他のクラスタ を生成する。
[0072] 以上の処理により、クラスタが複数できるので、最後にこれらクラスタ同士を隣接さ せる。クラスタ同士を隣接させる方法としては、クラスタの大きさ(クラスタに含まれるベ タトルの数)の降順又は昇順で、一端側から他端側へ一方向に並べる方法、両端か ら中央に向力つて交互に並べる方法などが考えられる。
同様の手順を属性 Xのみならず属性 Yについても行い、配置決定が終了する。上 の例では次の [表 6]のようになる。
[表 6]
Figure imgf000026_0001
なお、ステップ S120におけるスコア算出後の、第 1ベクトル群生成部 130、第 1ベタ トル関連性算出部 150、第 1ベクトル配置部 170における処理 (ステップ S130、 S15 0及び S171〜S178)と、第 2ベクトル群生成部 140、第 2ベクトル関連性算出部 160 、第 2ベタ卜ノレ酉己置咅 における処理 (ステップ S140、 S160及び S181〜S188) とは、任意の何れか一方から先に、他方を後に実行しても良いし、両者を同時に並 行して実行してもよい。また、何れか一方のみを実行することとしても良い。何れか一 方のみを実行するのは、例えば、一方の属性 Xを出願人などの人的属性、他方の属 性 Yを IPCなどのコード体系による技術分類としたときに、属性 Yについては関連性 に基づく配置を行わず、体系化されたコード番号順に従って配置した方が見やすい 場合などが考えられる。
[0073] < 3— 6.出力例 >
出力装置 4による出力は、上記 [表 6]のような形態でも良いし、更に見やすくするた め、スコアの分布状態を、スコアに応じた模様又は色彩を付して表示しても良い。例 えば、高いスコアが分布する領域に濃い色又は暖色を付し、低いスコアが分布する 領域に薄 、色又は寒色を付すのが好まし 、。スコアの分布を数値で示すだけでは、 分布状態が一見して明らかではない可能性があるが、模様又は色彩を付すことによ り、スコアの分布状態を見やすく表示することができる。
[0074] 図 3は、表示部による 1つの表示例を示す図である。この図では、分布が密の領域 には線密度の高 、格子状斜線を付し、分布が粗の領域には線密度の低 、格子状斜 線を付している。この図に示すように、スコアの分布状態を所謂雲マップ或いは等高 線マップで示すことにより、スコアの分布状態の粗密が明瞭になり、スコアの分布状 態をより識別しやすく表示することができる。
[0075] 図 4は、表示部による他の 1つの表示例を示す図である。この図では、第 1の属性 X として「出願人」を、第 2の属性 Yとして「技術分野」を選んだ場合の各属性の値が具 体的に示されている。この図でも、分布が密の領域には線密度の高い格子状斜線を 付し、分布が粗の領域には線密度の低い格子状斜線を付しているので、スコアの分 布状態の粗密が明瞭となっている。すなわち、特定の「出願人」を選んで分布が密の 箇所を見れば、当該出願人において開発されている主要な技術分野を読み取ること ができ、特定の「技術分野」を選んで分布が密の箇所を見れば、当該技術分野にお V、て開発を行って 、る主要な出願人を読み取ることができる。
[0076] 図 4のように人的属性と技術分野属性とを用いることにより、次のような分析が可能 となる。
[0077] 自社と他社とで技術開発領域の関連性が示されるので、
(a)類似の開発性向を有する企業を探すことができる。図 4では、例えば「E自動車」 を自社としたとき、隣接している「F電気」を発見できる。ここで発見される企業は、現 に市場で自社と競合して 、る企業とは限らな 、。自社「E自動車」と比較される「F電 気」が、「電池」「セラミタス」など自社と類似の開発性向を有しながら、自社にとって未 参入の業界 (例えば電気関連製品)に参入済みの場合、自社がその業界に新規参 入するための技術的ハードルは低いことが予想できる。
(b)自社と市場で競合しているが、異なる開発性向を有する企業と比較して自社の開 発部門の強み Z弱みを発見することができる。図 4では、例えば「半導体」を得意とす る一方で、「電気 ·電子」を不得意とする「D電機」を自社としたとき、異なる開発性向 を有し「電気 ·電子」を得意とする一方、「半導体」を不得意とする「A電機」と比較す れば自社の開発部門の強み Z弱みを発見することができる。
(c)異なる開発性向を有し互いの開発部門の弱点を補い合える技術提携先を探すこ とができる。図 4では、例えば「半導体」や「光学」に特ィ匕しており他に得意分野を有し な!ヽ「C製作所」を自社としたとき、異なる開発性向を有し「電気 ·電子」等に強!ヽ「A 電機」などを発見できる。
[0078] また、ある技術分野と他の技術分野とで開発主体の関連性が示されるので、技術 分野間の関連性を分析することができる。例えば、図 4で隣接する「電池」と「セラミク ス」のように、比較する技術分野を同一企業「E自動車」又は「F電気」が併せて手掛 ける傾向が高い場合、
(a)両者を手掛けることで現存の事業に結びついている可能性を見出し、当該事業 への参入可否や、当該事業に参入するための技術開発の要否を判断することができ る。或いは、
(b)技術的に一見関連していないようでも相互の技術を転用できる可能性を見出す ことができる。
[0079] 図 4では、 2種類の属性のうち一方を人的属性とし、他方を技術分野属性とした例 について説明したが、これに限らず、 2種類の属性の両方を技術分野属性とし、例え ば一方を技術分類、他方を技術要素としてもよい。また、一方を IPC主分類 (セクショ ン、クラス)、他方を IPC副分類 (グループ、サブグループ)等としてもよい。
[0080] 以上のように、本実施例によれば、企業が自社の研究開発組織において開発して きた技術開発成果や、その技術資産ポートフォリオの現状を自身で把握し、今後の 開発方向性の客観的な指針を持つことが可能となり、企業の技術開発投資判断に資 することが可能である。
また、以上のように、技術文書の属性の様々な組合せに対して、本発明の手法を適 用することにより、特定企業の開発体制の現状をより多面的な角度力 より精緻に分 析することが可能となり、さらに、当該分析力も得られた結果に基づき、今後の開発の 方向性に対する企業の意思決定をより効果的に支援することが可能となる。
[0081] <4.第二実施形態 >
次に、本発明の第二実施形態について説明する。この第二実施形態に係る技術文 書属性の関連性分析支援装置のハードウェア構成は、上記第一実施形態における ハードウ ア構成(図 1)と同一であるので、その説明を省略する。
[0082] 図 5は第二実施形態の関連性分析支援装置における処理装置 1の動作手順を示 すフローチャートである。
この第二実施形態は、上記第一実施形態における第 1及び第 2ベクトル群を生成 するまでの処理に相当する部分に、主な特徴を有している。すなわち、この第二実施 形態において、技術文書の属性 X及び Yとして、文書に含まれる課題語及び解決語 を用い、ベクトル成分となるスコアとして、上記課題語及び解決語の組合せが同一で ある技術文書数の増減率を用いる。生成されたベクトル群を配置する処理等は、上 記第一実施形態とほぼ同様である。この第二実施形態の動作手順について、以下 詳細に説明する。
[0083] < 4 1.技術文書群の取得 >
まず、データ取得部 110が、入力装置 2から入力される分析対象文書群の取得条 件に基づき、分析対象となる技術文書群を取得する (ステップ S210)。取得される技 術文書群の種類は特許文書、技術論文等任意であるが、特に特許文書は次に述べ る課題語、解決語がコンピュータ処理で抽出可能なフォーマットで記載されて ヽるの で好ましいと言える。分析対象文書群の取得条件は、例えば IPCコードで指定しても 良 ヽし、特定の技術文書に対する類似度上位所定件数の文書を取得することとして も良い。
[0084] く 4— 2.課題語、解決語の選定 >
次に、データ取得部 110は、取得された分析対象文書群の各文書から、「課題語」 と「解決語」の候補をそれぞれ抽出する (ステップ S211)。例えば各文書の要約部分 又はその他の部分に「課題」や「解決手段」の項目がある場合は、その部分の単語を 抽出する。また例えば各文書に「本発明の課題は' · ·」或いは「この課題を解決する ために本発明は · · ·」等の記述が含まれている場合は、当該記述の直後の部分から 単語を抽出する。
[0085] 次に、データ取得部 110は、抽出された「課題語」及び「解決語」の候補の中から、 分析に用いる「課題語」及び「解決語」それぞれ選定する (ステップ S212)。選定方法 としては、例えば、各「課題語」及び「解決語」の候補について、分析対象文書群にお ける文書頻度 (DF :分析対象文書群において各索引語で検索したときのヒット文書 数)の上位所定数 (例えば各 100語)を選定する方法が考えられるが、それ以外の方 法でも良い。
[0086] <4 3.因子負荷量の算出 >
次に、データ取得部 110は、選定された「課題語」を用いて因子分析を行い、各課 題語の因子負荷量を算出する (ステップ S 213)。具体的には、次のように行う。 分析対象文書群の文書数を Iとし、各文書を i(i= l, 2, · · · , I)で表す。また、選定 された課題語の数を Gとし、各課題語を g (g= l, 2, · · · , G)で表す。 I件の各文書 i にっき、各課題語 gの重み付け量 zを算出する。この結果、次のような I行 G列のデー タを得ることができる。この zを行列要素とする I行 G列の行列を Zとおく。
[表 7]
索引語 1 索引語 2 索引語 G
文書 1 Z 1 1 Z 1 2 ■ . . Z 1 G 文書 2 Z 2 1 z 2 2 ■ . . z 2 G 文書 3 Z 3 1 z 3 2 ■ . . z 3 G
■ . . ■ . . ■ . . ■ . .
文書 I Z I 1 Z I 2 ■ . . Z I G [0087] ここで重み付け量とは、所定の観点力 各課題語に対し各文書において与えられ る数量をいい、例えば TFIDFを用いるのが好ましい。 TFIDFとは、ある索引語につ いて、索引語頻度 (TF :ある文書における当該課題語の出現回数)と、文書頻度 (D F:所定文書集団のうち当該課題語が出現する文書の文書数)の逆数又は文書頻度 の対数の逆数 (IDF :逆文書頻度)との積により求められる値である。文書ベクトルの 算出対象となる文書にぉ ヽて多数用いられる課題語であって、所定文書集団にぉ ヽ てあまり用いられて ヽな 、課題語にっ 、ては高 ヽ TFIDF値が算出される。
[0088] 次に、各文書 iを被験者とし、各課題語 gを観測変数とし、各重み付け量 zを被験者 による回答とした因子分析における因子負荷量を算出する。
具体的には、因子数を Hとし、各因子を h (h= l, 2, · · · , H)で表し、各課題語 gの 各因子 hに対する因子負荷量を a とする。また、各文書 iの各因子 hに関する因子得 gh
点を f とする。そして、因子負荷量 a を行列要素とする因子負荷行列 Aと、因子得点 ih gh
f を行列要素とする因子得点行列 Fを次のようにおく。
[表 8]
Figure imgf000031_0001
[表 9]
Figure imgf000031_0002
次に、 I行 G列の残差行列を Eとおき、式
Z = F X At + E
但し、 は Aの転置行列
を以下のようにして解!、て因子負荷行列 Aを求める。 [0090] 因子得点行列 Fの各要素である因子得点 f 及び残差行列 Eの各要素である残差 e ih i に関し、(1)因子得点は、平均 0、標準偏差 1に標準化されている、(2)各因子得点 間の相関は 0である、(3)各残差間の相関は 0である、(4)各因子得点と各残差との 相関は 0である、との仮定を設けると、一般に、
Figure imgf000032_0001
但し、 Rは観測変数間の相関行列、 Vは残差の分散共分散行列
が成立することが知られている。そこで、次式において因子負荷量を求める。
AAt =R-V
次に、 R— V=R*とおく。この R*を算出するため、行列 Zの各要素 z の値力も相関 行列 Rを算出した上で、相関行列の対角要素を共通性の推定値で置き換えることに より、 R*行列を推定する(共通性の推定法としては例えば SMC法、 RMAX法等があ る)。そして、 R* =AAtであることから、この R*行列を基に因子負荷行列 Aを算出し て因子負荷量を求める(因子負荷量を求める方法としては例えば主因子法、最小二 乗法、最尤法等がある)。
[0091] そして、より有意味な因子を見出すため、因子の回転という操作を行うことが望まし い。因子軸の回転方法としては、ノ リマックス、コーティマックス、ェカマックス、パーシ マックス、ォーソマックス、直交プロクラステス等の直交回転や、プロマックス、ォブリミ ン、ハリス'カイザー、斜交プロクラステス等の斜交回転が挙げられる。
[0092] データ取得部 110は、「解決語」についても因子分析を行い、各解決語の因子負荷 量を算出する (ステップ S214)。因子負荷量の算出方法は「課題語」について説明し たものと同一である。
[0093] <4 4.因子の選定 >
次に、データ取得部 110は、課題語、解決語それぞれの因子分析の結果得られた 因子 (それぞれ「課題因子」、「解決因子」とする)のうちそれぞれ所定個数を選定す る (ステップ S215、 S216) 0例えば各因子の固有値に基づき、固有値上位所定個数 の因子を選定する。選定する因子の数は任意であり、ここでは課題因子を p個、解決 因子を q個選定するものとする。
第一実施形態と対比して述べるならば、本第二実施形態では、 2種類の属性 X, Y として「課題因子」と「解決因子」を選択し、属性の値の範囲 (値域)としてそれぞれ固 有値上位 p個の課題因子と固有値上位 q個の解決因子を選ぶことになる。
[0094] < 4 5.課題語、解決語の帰属因子の決定 >
次に、データ取得部 110は、各課題語、各解決語の帰属因子をそれぞれ決定する (ステップ S217、 S218)。
例えば、ある課題語 (又は解決語) gの各因子 (但し、上記因子の選定において選 定されなかった因子を除く。 )に対する因子負荷量のうち、ある因子 hに対する因子負 荷量 a が最大であれば、当該課題語 (又は解決語) gの帰属因子を当該因子 hとす gh
る。なお、この場合、 1つの課題語 (又は解決語)が帰属し得る因子は 1つのみとなる 力 1つの因子に帰属する課題語 (又は解決語)は 1つとは限らない。
また、因子負荷量に下限値を設け、ある課題語 (又は解決語) gの因子負荷量の最 大値 a 力当該下限値未満であれば、当該課題語 (又は解決語) gはいかなる因子に ち' J帚属しな 、こととしてちょ 、。
[0095] <4-6.マトリクス作成〉
次に、スコア算出部 120は、帰属因子が決定した各課題語、各解決語の組合せご とに、該当技術文書数を計数する (ステップ S220)。例えば、帰属因子が決定した 1 つの課題語と 1つの解決語の両者を文書内又はその要約部内に含む文書を検索す る AND検索を実行し、そのヒット文書数を該当技術文書数とする。
[0096] 次に、スコア算出部 120は、各課題因子、各解決因子の組合せごとに、文書数を集 計する (ステップ S221)。例えば、ある課題因子に帰属する課題語のうちの 1つと、あ る解決因子に帰属する解決語のうちの 1つとの全組合せについて、該当技術文書数 を集計する。例えば、ある課題因子に帰属する課題語が Xg、 Xg、 Xgの 3
1 2 3 つである とし、ある解決因子に帰属する解決語が Yg、 Ygの 2つであるとすれば、
1 2
(Xg , Yg )についての該当技術文書数、
(Xg , Yg )についての該当技術文書数、
1 2
(Xg , Yg )についての該当技術文書数、
2 1
(Xg , Yg )についての該当技術文書数、
2 2
(Xg , Yg )についての該当技術文書数、 (Xg , Yg )についての該当技術文書数
3 2
を合計したものが、当該課題因子と当該解決因子の組合せに係る文書数となる。
[0097] 因子の組合せごとに文書数を集計する方法はこれに限らず、例えば、上述の因子 分析で算出される各文書 iの各因子 hに関する因子得点を f に基づいて各文書が帰
ih
属する因子の組合せを決定し、これに基づ!ヽて文書数を集計しても良 、。
[0098] こうして各課題因子と各解決因子の組合せに係る文書数をそれぞれ算出すると、 p 個の課題因子と q個の解決因子の組合せは P X q個であるので、 p行 q列の文書数マ トリタスが得られる。
この文書数マトリクスは、課題因子と解決因子の各組合せにっ ヽて幾つの技術文 書が存在するかを示すものであり、ある技術分野でどのような課題及び解決手段が 注目されているのかを把握したり、特定の解決因子 (マトリクスのある 1行)に着目して 当該技術で解決し得る複数の課題 (用途)を見出したり、特定の課題因子 (マトリクス のある 1列)に着目して当該課題に対する複数の解決手段を見出したりするのに役立 つものである。
[0099] 図 6は、第二実施形態で生成される文書数マトリクスの一例を示したものである。こ の文書数マトリクスは、「半導体装置及びその製造方法」に関するある特許文献 iの類 似度上位所定件数の特許文献を抽出し、上述の方法により課題語及び解決語につ いてそれぞれ因子分析を行って得られたものである。このマトリクスの欄外に、各課題 因子及び各解決因子に含まれる課題語群及び解決語群に基づいて分析者が解釈 した因子の意味が記載されて 、る。
まず、マトリクスを縦に見てみる。特許文献数を縦軸に集計すると、この分析対象文 書群の主要な課題が見えてくる。この例では、課題因子 1及び 2の数が大きい。従つ て、「半導体装置及びその製造方法」に関する特許文献 iの類似文献群において、主 要な課題は微細化と製造管理であると言える。更に、各列で平均出願年を算出する と、課題因子 3は、数は少ないものの比較的新しい特許文献が集中していることがわ かる。つまり、主要な課題が微細化や製造管理力 消費電力へ移ってきていることが わかる。パーソナルコンピュータ等の設置型の用途から、携帯端末等のバッテリー駆 動用途がトレンドになりつつあることが推測される。 次に、マトリクスを横に見てみる。課題因子 1に対して、解決因子 1及び 2の特許文 献数が多い。つまり、微細化に対してはリソグラフィ及びエッチングが主要な解決手 段であることがわかる。また、解決因子 2は課題因子 2に対しても特許文献数が多い。 つまり、エッチングは製造管理においても、有効な解決手段になり得る。また例えば 課題因子 1における各解決因子の出願人構成を見たり、あるボックスに注目して年ご との推移を見たりすることによって、種々の分析が可能となる。
上述したとおり、属性の一方を課題因子、他方を解決因子とした場合、課題因子は 何らかの用途で起こり得る不都合を表し、解決因子はそれを解消し得る技術であると すると、課題因子カゝら用途を、解決因子から技術を類推することができる。
更に、ある課題に対する各解決因子を企業別に集計することによって、同一課題に 対する各社の技術戦略を分析することができる。
[0100] この p行 q列の文書数マトリクスの各要素(文書数)をスコア σ として、第一実施形 態と同様に第 1及び第 2ベクトル群を生成し、それぞれベクトル間の関連性に基づい てベクトルの配置を行うことにより、課題因子及び解決因子の集中や分散の状態を分 析できるようにしてもよいが、本第二実施形態では、更に以下のようにしてベクトル群 を生成する。
[0101] く 4— 7.増減率マトリクス作成 >
スコア算出部 120は、 ρ行 q列の文書数マトリクスの各要素を、所定期間ごとに分類 する (ステップ S222)。例えば特許文書であれば、出願の年ごとに分類したり、複数 年ごとに分類したりすることが考えられる。好ましくは、所定時期を境に前後 2期間に 分類する。
[0102] 次に、スコア算出部 120は、 p行 q列の文書数マトリクスの各要素について、上記所 定期間ごとの分類に基づいて技術文書数の増減率を算出する。上記所定期間ごと の分類が 2期間への分類であった場合には、増減率は p行 q列の文書数マトリクスの 各要素につき 1つずつ算出されるので、 p行 q列の増減率マトリクス力^つ生成される 。上記所定期間ごとの分類が T期間 (T≥3)への分類であった場合には、隣接する 期間ごとに ρ行 q列の増減率マトリクスを生成して (T—1)個としても良いし、平均増減 率のマトリクスを 1つ生成しても良い。 このようにして生成された増減率マトリクスにより、課題や解決手段のトレンドの変化 を察知することができる。例えば、特定の解決因子 (マトリクスのある 1行)に着目して 当該技術の用途の変化を見出したり、特定の課題因子 (マトリクスのある 1列)に着目 して当該課題に対する解決手段の変化を見出したりすることができる。
[0103] <4 8.ベクトルの生成等 >
以降の処理は第一実施形態と同様であり、第 1及び第 2ベクトル群生成部 130及び 140により、この p行 q列の増減率マトリクスの各要素(増減率)をスコア σ として第 1 及び第 2ベクトル群を生成する(ステップ S230、 S240)。
そして、第 1及び第 2ベクトル関連性算出部 150及び 160により、それぞれベクトル 間の関連性を算出し (ステップ S250、 S260)、第 1及び第 2ベクトル配置部 170及び 180により、それぞれベクトルの配置を行う(ステップ S271〜278、 S281〜S288)。 なお、第 1及び第 2ベクトル群について、本第二実施形態では、 p個の課題因子に 関する q次元ベクトルを「課題因子公報件数増減率ベクトル」と称し、 q個の解決因子 に関する P次元ベクトルを「解決因子公報件数増減率ベクトル」と称している。また、 第 1及び第 2クラスタについて、本第二実施形態では、それぞれ「課題因子クラスタ」 及び「解決因子クラスタ」と称して 、る。
こうして増減率マトリクスについてベクトルの配置を行うことにより、課題因子及び解 決因子のトレンドに関する集中や分散の状態を分析することができる。
また、マトリクスの各要素を文書数等の増減率とした場合、課題因子 (用途)と解決 因子 (技術)の時間的変遷を詳細に把握することが可能となる。特に、マトリクスの中 で増減の著し 、課題因子 (用途)と解決因子 (技術)を迅速に把握できるよう可視化 することができる。更に、件数が増加傾向にある要素を発見できる場合がある。
また、ある課題因子 (用途)について、特定の解決因子 (技術)が増加傾向にあると きは、その用途の主流技術が変化してきたことを察知できる。同様に、ある技術の用 途が変化する兆候をつかむことも可能である。このことはシーズである技術の新たな ニーズへの転用可能性を意味しており、シーズに基づく技術開発戦略策定の基礎と することが可能となる。
[0104] < 5.他の実施形態 > なお、本発明は、以上で説明した実施形態に限定されるものではなぐ本発明の要 旨の範囲内において種々の変形が可能である。
例えば、第 1実施形態では、マトリクスの各軸に配置される属性は、一方が人的属 性であり、他方が技術分野属性である場合について説明し、人的属性の例として出 願人を挙げている。しかし、これは例示に過ぎない。人的属性として、発明者等の他 の人的情報を利用してもよい。この場合も第 1実施形態と同様の作用効果を奏するこ とがでさる。
また、上記第 2実施形態では、マトリクスの各要素となるスコアに文書数を利用する 場合と、文書数等の増減率を利用する場合とを説明したが、特にこれに限定されるも のではない。マトリクスの各要素となるスコアに、技術文書のデータに応じた任意のス コアを用いるようにしてもょ ヽ。
またマトリクスは、分析対象となる 1つの技術文書群に対して 1枚のみ生成しても良 いし、あるマトリクスの各要素を例えば所定期間ごとに分類し、当該所定期間ごとのマ トリタスに分けることで複数枚のマトリクスを生成しても良い。
そして、所定期間ごとのマトリクスに分ける等により複数枚のマトリクスを生成した場 合、マトリクス要素内の特許文献を出願年ごとに追っていくと、分析対象となる文書群 のトレンド (例えばある用途に対する技術トレンド)をおおむね把握することができる。 更に例えば属性の一方を課題因子、他方を解決因子とした場合、いくつかの用途と それを構成する技術、そして主要な課題が整理され、いつごろどのような解決手段が 主流であつたかを網羅的に把握できる。

Claims

請求の範囲
[1] 少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデ ータを取得するデータ取得手段と、
前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞ れに属する技術文書のデータに応じたスコアを算出するスコア算出手段と、
前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリク ス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに 基づきベクトルを生成する第 1ベクトル群生成手段と、
前記第 1ベクトル群生成手段により生成されたベクトル群について、相互の関連性 を算出する第 1べ外ル関連性算出手段と、
前記第 1ベクトル群生成手段により生成されたベクトル群について、前記関連性の 高 、ベクトル同士をより近くに配置する第 1ベクトル配置手段と、
前記マトリクス状の配置における各行に属する前記スコアに基づきベクトルを生成 する第 2ベクトル群生成手段と、
前記第 2ベクトル群生成手段により生成されたベクトル群について、相互の関連性 を算出する第 2べ外ル関連性算出手段と、
前記第 2ベクトル群生成手段により生成されたベクトル群について、前記関連性の 高いベクトル同士をより近くに配置する第 2ベクトル配置手段と、を備えた、技術文書 属性の関連性分析支援装置。
[2] 請求項 1に記載の技術文書属性の関連性分析支援装置であって、
前記第 1の属性 X及び第 2の属性 Yのうち、一方は各技術文書の人的属性であり、 他方は各技術文書の技術分野属性である、技術文書属性の関連性分析支援装置。
[3] 請求項 1又は請求項 2に記載の技術文書属性の関連性分析支援装置であって、 前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前記第 2の属 性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文書の数に基
k j k
づいて、前記スコアを算出する、技術文書属性の関連性分析支援装置。
[4] 請求項 1又は請求項 2に記載の技術文書属性の関連性分析支援装置であって、 前記スコア算出手段は、前記第 1の属性 Xの値 X (j = l, 2, · · · , p)と前記第 2の属 性 Yの値 Y (k= l, 2, · · · , q)との組合せ (X , Y )が同一である技術文書の各々に k j k
重み付けをして合計することにより、前記スコアを算出する、技術文書属性の関連性 分析支援装置。
[5] 請求項 1乃至請求項 4の何れか一項に記載の技術文書属性の関連性分析支援装 置であって、
前記第 1ベクトル群生成手段又は前記第 2ベクトル群生成手段は、前記マトリクス状 の配置における各列又は各行に属するスコアの各々の対数を成分として含むベタト ルを生成する、技術文書属性の関連性分析支援装置。
[6] 請求項 1乃至請求項 5の何れか一項に記載の技術文書属性の関連性分析支援装 置であって、
前記第 1ベクトル配置手段は、
前記第 1ベクトル群生成手段により生成されたベクトル群のうち 2つのベクトルを所 定の基準で選択し、前記 2つのベクトルを隣接させてクラスタを生成する第 1クラスタ 生成手段と、
前記第 1クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 1ベタ トル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトル群から 選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端部べタト ルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記クラスタに 加えて前記クラスタを順次拡大させる第 1クラスタ拡大手段と、を備え、且つ Z又は、 前記第 2ベクトル配置手段は、
前記第 2ベクトル群生成手段により生成されたベクトル群のうち 2つのベクトルを所 定の基準で選択し、前記 2つのベクトルを隣接させてクラスタを生成する第 2クラスタ 生成手段と、
前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前記第 2ベタ トル群生成手段により生成されたベクトル群のうち前記クラスタ以外のベクトル群から 選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端部べタト ルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記クラスタに 加えて前記クラスタを順次拡大させる第 2クラスタ拡大手段と、を備えた、技術文書属 性の関連性分析支援装置。
[7] 請求項 6に記載の技術文書属性の関連性分析支援装置であって、
前記第 1クラスタ生成手段又は前記第 2クラスタ生成手段は、それぞれ前記第 1ベタ トル群生成手段により生成されたベクトル群又は前記第 2ベクトル群生成手段により 生成されたベクトル群について、
当該ベクトル群のうち相互の関連性が最も高い 2つのベクトルを選択する、技術文 書属性の関連性分析支援装置。
[8] 請求項 6又は請求項 7に記載の技術文書属性の関連性分析支援装置であって、 前記第 1ベクトル配置手段は、
前記第 1クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルと、前記第 1ベクトル群生成手段により生成されたベクトル 群のうち前記クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である場合 、前記第 1クラスタ拡大手段による前記加入ベクトルの選択と前記クラスタの拡大を中 止する、第 1クラスタ拡大中止判定手段と、
前記第 1クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち、 2つの ベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成 する、第 1クラスタ再生成手段と、
前記第 1クラスタ再生成手段により生成された前記他のクラスタを構成するベクトル 群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前 記第 1ベクトル群生成手段により生成されたベクトル群であって前記第 1クラスタ生成 手段により生成されたクラスタ以外のベクトル群のうち前記他のクラスタ以外のベタト ル群カゝら選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端 部ベクトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記他 のクラスタに加えて前記他のクラスタを順次拡大させる、第 1クラスタ再拡大手段と、を 更に備え、且つ Z又は、
前記第 2ベクトル配置手段は、 前記第 2クラスタ生成手段により生成されたクラスタを構成するベクトル群のうち両 端に位置する端部ベクトルと、前記第 2ベクトル群生成手段により生成されたベクトル 群のうち前記クラスタ以外のベクトルとの関連性が何れも所定の閾値以下である場合 、前記第 2クラスタ拡大手段による前記加入ベクトルの選択と前記クラスタの拡大を中 止する、第 2クラスタ拡大中止判定手段と、
前記第 2クラスタ生成手段により生成されたクラスタ以外のベクトル群のうち、 2つの ベクトルを所定の基準で選択し、当該 2つのベクトルを隣接させて他のクラスタを生成 する、第 2クラスタ再生成手段と、
前記第 2クラスタ再生成手段により生成された前記他のクラスタを構成するベクトル 群のうち両端に位置する端部ベクトルの何れかとの関連性が最も高いベクトルを、前 記第 2ベクトル群生成手段により生成されたベクトル群であって前記第 2クラスタ生成 手段により生成されたクラスタ以外のベクトル群のうち前記他のクラスタ以外のベタト ル群カゝら選択して加入ベクトルとし、当該加入ベクトルと関連性が最も高 ヽとされた端 部ベクトルと、当該加入ベクトルとを隣接させることにより、当該加入ベクトルを前記他 のクラスタに加えて前記他のクラスタを順次拡大させる、第 2クラスタ再拡大手段と、を 更に備える技術文書属性の関連性分析支援装置。
[9] 請求項 1乃至請求項 8の何れか一項に記載の技術文書属性の関連性分析支援装 置であって、
前記第 1ベクトル配置手段及び前記第 2ベクトル配置手段による配置に基づいてマ トリタス状に配置されるスコアの分布状態を、スコアに応じた模様又は色彩を付して表 示する表示手段を備えた、技術文書属性の関連性分析支援装置。
[10] 少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデ ータを取得するデータ取得ステップと、
前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞ れに属する技術文書のデータに応じたスコアを算出するスコア算出ステップと、 前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリク ス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに 基づきベクトルを生成する第 1ベクトル群生成ステップと、 前記第 1ベクトル群生成ステップにより生成されたベクトル群について、相互の関連 性を算出する第 1べ外ル関連性算出ステップと、
前記第 1ベクトル群生成ステップにより生成されたベクトル群について、前記関連性 の高いベクトル同士をより近くに配置する第 1ベクトル配置ステップと、
前記マトリクス状の配置における各行に属する前記スコアに基づきベクトルを生成 する第 2ベクトル群生成ステップと、
前記第 2ベクトル群生成ステップにより生成されたベクトル群について、相互の関連 性を算出する第 2べ外ル関連性算出ステップと、
前記第 2ベクトル群生成ステップにより生成されたベクトル群について、前記関連性 の高いベクトル同士をより近くに配置する第 2ベクトル配置ステップと、を備えた、技術 文書属性の関連性分析支援方法。
少なくとも 2種類の属性をそれぞれ有する技術文書を複数含んだ技術文書群のデ ータを取得するデータ取得ステップと、
前記少なくとも 2種類の属性のうち第 1の属性 Xと第 2の属性 Yとの組合せのそれぞ れに属する技術文書のデータに応じたスコアを算出するスコア算出ステップと、 前記第 1の属性 Xを横軸に、前記第 2の属性 Yを縦軸にとって前記スコアをマトリク ス状に配置したときの、当該マトリクス状の配置における各列に属する前記スコアに 基づきベクトルを生成する第 1ベクトル群生成ステップと、
前記第 1ベクトル群生成ステップにより生成されたベクトル群について、相互の関連 性を算出する第 1べ外ル関連性算出ステップと、
前記第 1ベクトル群生成ステップにより生成されたベクトル群について、前記関連性 の高いベクトル同士をより近くに配置する第 1ベクトル配置ステップと、
前記マトリクス状の配置における各行に属する前記スコアに基づきベクトルを生成 する第 2ベクトル群生成ステップと、
前記第 2ベクトル群生成ステップにより生成されたベクトル群について、相互の関連 性を算出する第 2べ外ル関連性算出ステップと、
前記第 2ベクトル群生成ステップにより生成されたベクトル群について、前記関連性 の高いベクトル同士をより近くに配置する第 2ベクトル配置ステップと、をコンピュータ に実行させる、技術文書属性の関連性分析支援プログラム。
PCT/JP2006/321958 2005-12-13 2006-11-02 技術文書属性の関連性分析支援装置 WO2007069408A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020087011111A KR20080086430A (ko) 2005-12-13 2006-12-13 기술 문서 속성의 관련성 분석 지원 장치
US12/097,446 US20090138465A1 (en) 2005-12-13 2006-12-13 Technical document attribute association analysis supporting apparatus
PCT/JP2006/324876 WO2007069663A1 (ja) 2005-12-13 2006-12-13 技術文書属性の関連性分析支援装置
JP2007550208A JPWO2007069663A1 (ja) 2005-12-13 2006-12-13 技術文書属性の関連性分析支援装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-358529 2005-12-13
JP2005358529 2005-12-13

Publications (1)

Publication Number Publication Date
WO2007069408A1 true WO2007069408A1 (ja) 2007-06-21

Family

ID=38162723

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/321958 WO2007069408A1 (ja) 2005-12-13 2006-11-02 技術文書属性の関連性分析支援装置

Country Status (4)

Country Link
US (1) US20090138465A1 (ja)
JP (1) JPWO2007069663A1 (ja)
KR (1) KR20080086430A (ja)
WO (1) WO2007069408A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001696A1 (ja) * 2007-06-22 2008-12-31 Patent Result Co., Ltd. 情報処理装置、プログラム、情報処理方法
WO2009150758A1 (ja) * 2008-06-13 2009-12-17 株式会社パテント・リザルト 情報処理装置、プログラム、情報処理方法
JP2013097785A (ja) * 2011-11-02 2013-05-20 Korea Institute Of Science & Technology Infomation 連関技術サービス提供方法及びシステム
WO2014118861A1 (ja) * 2013-01-31 2014-08-07 アスタミューゼ株式会社 情報提示装置及び情報提示システム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169158A1 (en) * 2008-12-30 2010-07-01 Yahoo! Inc. Squashed matrix factorization for modeling incomplete dyadic data
JP5123870B2 (ja) * 2009-02-10 2013-01-23 キヤノン株式会社 画像処理方法および画像処理装置およびプログラム
WO2011068939A2 (en) * 2009-12-02 2011-06-09 Foundationip, Llc Method and system for performing analysis on documents related to various technology fields
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092825A (ja) * 1999-09-17 2001-04-06 Nec Corp 情報処理装置および情報処理方法
JP2003345811A (ja) * 2002-05-27 2003-12-05 Hitachi Ltd 文書情報表示システム、文書情報表示方法及び文書検索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050197784A1 (en) * 2004-03-04 2005-09-08 Robert Kincaid Methods and systems for analyzing term frequency in tabular data
US20060112146A1 (en) * 2004-11-22 2006-05-25 Nec Laboratories America, Inc. Systems and methods for data analysis and/or knowledge management

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092825A (ja) * 1999-09-17 2001-04-06 Nec Corp 情報処理装置および情報処理方法
JP2003345811A (ja) * 2002-05-27 2003-12-05 Hitachi Ltd 文書情報表示システム、文書情報表示方法及び文書検索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001696A1 (ja) * 2007-06-22 2008-12-31 Patent Result Co., Ltd. 情報処理装置、プログラム、情報処理方法
WO2009150758A1 (ja) * 2008-06-13 2009-12-17 株式会社パテント・リザルト 情報処理装置、プログラム、情報処理方法
JP2013097785A (ja) * 2011-11-02 2013-05-20 Korea Institute Of Science & Technology Infomation 連関技術サービス提供方法及びシステム
WO2014118861A1 (ja) * 2013-01-31 2014-08-07 アスタミューゼ株式会社 情報提示装置及び情報提示システム

Also Published As

Publication number Publication date
JPWO2007069663A1 (ja) 2009-05-21
US20090138465A1 (en) 2009-05-28
KR20080086430A (ko) 2008-09-25

Similar Documents

Publication Publication Date Title
Li et al. A bibliometric analysis of topic modelling studies (2000–2017)
WO2007069663A1 (ja) 技術文書属性の関連性分析支援装置
US11709871B2 (en) Computer implemented method for quantifying the relevance of documents
Moeyersoms et al. Including high-cardinality attributes in predictive models: A case study in churn prediction in the energy sector
WO2007069408A1 (ja) 技術文書属性の関連性分析支援装置
Bergstrom Eigenfactor: Measuring the value and prestige of scholarly journals
Marqués et al. Ranking-based MCDM models in financial management applications: analysis and emerging challenges
Liu et al. Incrests: Towards real-time incremental short text summarization on comment streams from social network services
Yang et al. Tag-based expert recommendation in community question answering
CN112418956A (zh) 一种金融产品的推荐方法及装置
Chen et al. Exploring technology opportunities and evolution of IoT-related logistics services with text mining
Modak Validity index for clustered data in non-negative space
JP4667889B2 (ja) データマップ作成サーバ、およびデータマップ作成プログラム
Wang et al. A reliable location design of unmanned vending machines based on customer satisfaction
US20220343353A1 (en) Identifying Competitors of Companies
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统
Zhang et al. An efficient data preprocessing method for mining customer survey data
KR102269425B1 (ko) 토픽 선정을 위한 자동화된 정보 처리 방법
CN117056392A (zh) 一种基于动态超图技术的大数据检索服务系统及方法
CN110532306B (zh) 一种基于多视角二分k-means的高校图书馆用户画像模型构建方法
JP7454213B2 (ja) 新規事業提案コンピュータシステム、新規事業提案コンピュータプログラム、新規事業提案方法、新規事業提案装置
CN114610776A (zh) 一种基于标签的数字化解决方案推荐方法及装置
Ramsey et al. Text mining to identify customers likely to respond to cross-selling campaigns: Reading notes from your customers
Katsaliaki et al. A profile of OR research and practice published in the Journal of the Operational Research Society
Han et al. Can in-house use data of print collections shed new light on library practices? Statistical evidence from a five-year longitudinal study in China

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06822876

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP