JPWO2009001696A1 - Information processing apparatus, program, and information processing method - Google Patents

Information processing apparatus, program, and information processing method Download PDF

Info

Publication number
JPWO2009001696A1
JPWO2009001696A1 JP2009520467A JP2009520467A JPWO2009001696A1 JP WO2009001696 A1 JPWO2009001696 A1 JP WO2009001696A1 JP 2009520467 A JP2009520467 A JP 2009520467A JP 2009520467 A JP2009520467 A JP 2009520467A JP WO2009001696 A1 JPWO2009001696 A1 JP WO2009001696A1
Authority
JP
Japan
Prior art keywords
data
word
morpheme
information
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009520467A
Other languages
Japanese (ja)
Inventor
和巳 蓮子
和巳 蓮子
則夫 荒木
則夫 荒木
小池 孝幸
孝幸 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PATENT RESULT CO., LTD.
Original Assignee
PATENT RESULT CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PATENT RESULT CO., LTD. filed Critical PATENT RESULT CO., LTD.
Publication of JPWO2009001696A1 publication Critical patent/JPWO2009001696A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本発明に係る情報処理装置は、文書データを記憶する記憶部2と、ユーザから分析対象となる文書データ群の情報を受付ける入力部3と、受付けた文書データ群の情報に基づいて記憶部2から当該文書データ群を取得し、当該文書データ群について形態素解析処理を行って各文書データを形態素データに分解し、所定規則に従って各形態素データからなる特徴語を生成し、生成した特徴語を用いて各文書データの傾向を示す情報を生成する制御部10と、各文書データの傾向を示す情報を出力する表示部4とを備える。これにより、ユーザが文書を解読することなく、当該文書の特徴を従来よりも容易に推測しうる情報処理装置を提供する。The information processing apparatus according to the present invention includes a storage unit 2 that stores document data, an input unit 3 that receives information on a document data group to be analyzed from a user, and a storage unit 2 based on the received information on the document data group. The document data group is obtained from the document data, morpheme analysis processing is performed on the document data group, each document data is decomposed into morpheme data, a feature word composed of each morpheme data is generated according to a predetermined rule, and the generated feature word is used. A control unit 10 for generating information indicating the tendency of each document data, and a display unit 4 for outputting information indicating the tendency of each document data. This provides an information processing apparatus that allows a user to guess the characteristics of a document more easily than before without decoding the document.

Description

文書データを解析する技術に関し、特に、文書データの特徴を解析して解析結果を出力する技術に関する。   The present invention relates to a technique for analyzing document data, and more particularly to a technique for analyzing characteristics of document data and outputting an analysis result.

従来、文書データの特徴を解析する技術として、下記の特許文献1、および特許文献2が開示されている。   Conventionally, Patent Document 1 and Patent Document 2 below are disclosed as techniques for analyzing the characteristics of document data.

特許文献1に開示されている技術は、文書データのキーワード抽出を高速に行うことを目的としてなされており、文書データ中の全形態素について出現頻度を算出し、他の形態素との一致度合を計算する等の処理を行うことなくキーワードを抽出する技術である。   The technique disclosed in Patent Document 1 is intended to perform keyword extraction of document data at high speed, calculates the appearance frequency for all morphemes in the document data, and calculates the degree of coincidence with other morphemes This is a technique for extracting a keyword without performing a process such as.

具体的には、文書データ中の形態素のうちの格助詞や係助詞に導かれている名詞相当の単語を当該文書データのキーワードとして抽出するものであり、格助詞や係助詞に導かれる名詞相当の単語は、当該文書データ中において話題として取り上げられているものであると看做すことで、文書データ中のキーワード抽出を高速に行うものである。   Specifically, a word corresponding to a noun that is led to a case particle or a particle is extracted as a keyword of the document data from among morphemes in the document data. This word is considered to be taken up as a topic in the document data, so that keywords are extracted from the document data at high speed.

また、特許文献2に開示されている技術は、文書の内容を十分に把握することができるように語句を抽出して提示することを目的としてなされており、文書データから重要語句を抽出すると共に、当該文書データの主題として提示されている主題提示語句を抽出し、主題提示語句と重要語句とを関連付けて提示することにより上記目的を達成させる技術である。   Further, the technique disclosed in Patent Document 2 is intended to extract and present a phrase so that the contents of the document can be sufficiently grasped, and extract an important phrase from document data. This is a technique for achieving the above-mentioned object by extracting a subject presentation word / phrase presented as the subject of the document data and presenting the subject presentation word / phrase and the important word / phrase in association with each other.

具体的には、文書データ中の全単語について単語間の類似度を算出し、文書データ中の副助詞に付属する連続する語句を主題提示語句として抽出し、主題提示語句に含まれる単語との類似度が高い単語を重要語句として抽出して、その主題提示語句と重要語句とをリンク付けして表示するものある。このように、文書の主題と関連深い語句をリンク付けて表示することで、抽出した語句を単に出現順等で表示する場合と比べ、ユーザに文書の内容を理解させやすくすることができる。
特開平11−328206号公報 特開2000−298673号公報
Specifically, the similarity between words is calculated for all the words in the document data, consecutive words attached to the auxiliary particles in the document data are extracted as the subject-presented phrases, and the words included in the subject-presented phrases A word having a high similarity is extracted as an important phrase, and the subject presentation phrase and the important phrase are linked and displayed. In this way, by displaying linked words and phrases that are closely related to the subject of the document, it is possible to make it easier for the user to understand the contents of the document than when the extracted phrases are simply displayed in the order of appearance.
JP 11-328206 A JP 2000-298673 A

しかしながら、上記特許文献2は、文書の主要語句と類似度が高い重要語句を単にリンク付けして出力するにとどまっており、ユーザはリンク付けされた各語句を逐次読み取って語句間の関係を把握してから、語句間の関係からその文書の特徴を推測しなければならず、ユーザに負担を強いるものとなっている。   However, the above-mentioned patent document 2 merely links and outputs important words / phrases having high similarity with the main words / phrases of the document, and the user sequentially reads each word / phrase linked to grasp the relationship between the words / phrases. Then, the characteristics of the document must be estimated from the relationship between the phrases, which imposes a burden on the user.

更に、特許文献2で出力される各語句は、形態素解析処理を行った後の形態素であるため、形態素で表された語句間の関係を把握して文書の意味を理解するには困難な場合もありうる。また、上記特許文献1の技術を適用して語句を生成したとしても、ユーザが文書の意味を理解するためにリンク付けされた各語句を逐次読み取る負担に変わりはない。   Furthermore, since each word output in Patent Document 2 is a morpheme after the morpheme analysis processing is performed, it is difficult to understand the meaning of the document by grasping the relationship between the words represented by the morpheme There is also a possibility. Moreover, even if the words and phrases are generated by applying the technique of the above-mentioned Patent Document 1, there is no change in the burden that the user sequentially reads each word and phrase linked to understand the meaning of the document.

そこで、本発明は、上記状況に鑑みてなされたものであり、ユーザが文書の特徴を理解する際に、従来よりも容易に文書の特徴を推測しうる情報処理装置を提供することを目的とする。   Therefore, the present invention has been made in view of the above situation, and an object of the present invention is to provide an information processing apparatus that allows a user to more easily infer a document feature than when a user understands the document feature. To do.

上記課題を解決するために、本発明に係る情報処理装置は、文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する情報処理装置であって、前記文書データを記憶する記憶手段と、前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成手段と、前記特徴語生成手段が生成した前記第1特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力手段とを備える。   In order to solve the above problems, an information processing apparatus according to the present invention performs morphological analysis processing on document data, detects morphemes in the document data, decomposes the document data into morpheme data, and converts the document data into An information processing apparatus for analyzing, a storage unit for storing the document data, and performing the morpheme analysis processing on the document data, and generating a first feature word composed of the morpheme data based on a predetermined first rule Feature word generating means, and output means for performing output processing of information indicating the tendency of the document data using the first feature word generated by the feature word generating means.

上記構成により、本発明に係る情報処理装置は、特徴語生成手段が、所定の第1規則により予め定められた規則に従って、分解された文書データの形態素データから第1特徴語を生成するので、文書の構文解析や意味解析等の処理を行うことなく定型的に特徴語を生成できるので、特徴語を生成する際の処理負荷を軽減することができる。また、文書データの形態素データを用いて生成された第1特徴語は、文書データの内容を含むため、第1特徴語を用いた文書データの傾向を表す情報には、文書に包含されている特性や思想等が示唆されている。従って、ユーザは当該情報を参照することで当該文書データの内容や傾向等を推測することができる。   With the above configuration, the information processing device according to the present invention generates the first feature word from the morpheme data of the decomposed document data according to the rule predetermined by the predetermined first rule. Since feature words can be routinely generated without performing processing such as document syntax analysis and semantic analysis, the processing load when generating feature words can be reduced. Further, since the first feature word generated using the morpheme data of the document data includes the contents of the document data, the information representing the tendency of the document data using the first feature word is included in the document. Characteristics and ideas are suggested. Therefore, the user can infer the contents and trends of the document data by referring to the information.

また、本発明に係る情報処理装置は、更に、前記分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第1品詞情報を生成する品詞情報生成手段を備え、前記第1特徴語は、前記第1品詞情報に所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記第1品詞情報の形態素データのうち、当該所定の格助詞より前に検出された形態素データである前方形態素データで構成されていることとしてもよい。   Furthermore, the information processing apparatus according to the present invention further associates each decomposed morpheme data, a predetermined part of speech corresponding to each morpheme data, and detection order information indicating a detection order of each morpheme data. Part-of-speech information generating means for generating one part-of-speech information, wherein the first feature word includes the first part-of-speech for each predetermined case particle when the first part-of-speech information includes a predetermined case particle; Of the morpheme data of information, it may be composed of forward morpheme data which is morpheme data detected before the predetermined case particle.

この構成によれば、情報処理装置は、品詞情報生成手段が生成する第1品詞情報により、文書データにおける所定の格助詞の有無や検出位置を判断することができる。一般的に、文書中の「を」「が」「の」等の格助詞の前には、文書の中の主体や目的等の単語が記載される。そのため、文書中の所定の格助詞毎の、その格助詞より前に検出された前方形態素データで構成される第1特徴語には、その文書における主体や目的等を示す形態素データが含まれる場合があり、ユーザは、出力された第1特徴語から文書の内容をより容易に把握することができる。   According to this configuration, the information processing apparatus can determine the presence / absence of the predetermined case particle and the detection position in the document data based on the first part of speech information generated by the part of speech information generation unit. Generally, words such as subject and purpose in a document are described before case particles such as “O”, “GA”, and “NO” in the document. Therefore, for each given case particle in the document, the first feature word composed of the forward morpheme data detected before that case particle contains morpheme data indicating the subject, purpose, etc. of the document The user can more easily grasp the contents of the document from the output first feature word.

また、前記第1規則は、前記第1品詞情報における所定の格助詞毎の前記前方形態素データのうち、前記第1品詞情報において当該所定の格助詞の直前に検出された前方形態素データから、品詞が第1分類以外の品詞に属する前方形態素データが検出されるまでの各前方形態素データを検出順に結合することとしてもよい。   Further, the first rule is, based on the front morpheme data detected immediately before the predetermined case particle in the first part of speech information among the front morpheme data for each predetermined case particle in the first part of speech information. The forward morpheme data until the forward morpheme data belonging to parts of speech other than the first category are detected may be combined in the order of detection.

この構成によれば、従来の一般的な形態素解析処理によって形態素データに付与される品詞を用い、その品詞が所定品詞に該当するか否か判断するだけで第1特徴語を生成することができるので、第1特徴語を容易に生成することができ、第1特徴語を生成する際の処理負荷を軽減することができる。   According to this configuration, the first feature word can be generated simply by determining whether or not the part of speech corresponds to the predetermined part of speech using the part of speech given to the morpheme data by the conventional general morpheme analysis process. Therefore, the first feature word can be easily generated, and the processing load when generating the first feature word can be reduced.

また、前記第1分類は、名詞であることとしてもよい。   Further, the first classification may be a noun.

また、前記品詞情報生成手段は、前記分解された形態素データのうち、前記所定の品詞のいずれにも該当しない形態素データの品詞を未知語として前記品詞情報を生成し、前記第1分類は、更に、前記未知語を含むこととしてもよい。   The part-of-speech information generation means generates the part-of-speech information by using, as an unknown word, a part-of-speech of morpheme data that does not correspond to any of the predetermined part-of-speech among the decomposed morpheme data. The unknown word may be included.

また、前記第1分類は、更に、記号及び形容詞を含むこととしてもよい。   The first classification may further include symbols and adjectives.

この構成によれば、所定の格助詞の直前に記載される名詞は、一般に、文書における主体や目的や対象等を示すことが多いので、ユーザは、所定の格助詞の直前に検出された名詞を結合させて生成された第1特徴語から、その文書における主題や思想等を推測することができる。また、未知語は、文書の作成者が独自に生成した造語や専門用語等であり、特に一般的な内容の文書でない場合には未知語が頻繁に用いられることがある。そのため、第1特徴語を生成する際に、名詞に加えて未知語を結合対象とすることで、一般的な内容の文書でない場合であっても、ユーザは文書の内容や特徴をより的確に把握することができる。   According to this configuration, since the noun described immediately before the predetermined case particle generally indicates the subject, purpose, object, etc. in the document, the user can detect the noun detected immediately before the predetermined case particle. From the first feature word generated by combining, the subject, idea, etc. in the document can be inferred. An unknown word is a coined word, technical term, or the like uniquely generated by a document creator, and an unknown word may be frequently used particularly when the document is not a general document. Therefore, when generating the first feature word, in addition to nouns, unknown words are to be combined, so even if the document is not a general content document, the user can more accurately identify the content and features of the document. I can grasp it.

また、記号は、例えば、文書の中で用いられる数値の単位や数式等を表すときに用いられ、文書において重要な意味を成すことが多く、形容詞は、主体や対象となる名詞の性質や状態、量や程度などを示すものである。そのため、これらを第1特徴語の結合対象とすることにより、文書の内容をより明確にユーザに理解させることができる。   Symbols are used, for example, to represent numerical units and mathematical formulas used in documents, and often have important meanings in documents. Adjectives are the nature and state of the subject or target noun. It indicates the amount and degree. Therefore, by using these as the first feature word combination target, it is possible to make the user understand the contents of the document more clearly.

また、前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、前記形態素解析処理は、前記特許請求の範囲データを処理対象とすることとしてもよい。   Further, the document data may be patent document data including claim scope data described as claims, and the morpheme analysis process may process the claim scope data.

特許出願明細書や特許請求の範囲等の特許文書を読み、各特許文書の技術的な特徴を把握するのは、特許文書に不慣れなユーザでなくとも多大な労力と負担を強いられる。また、特に、特許請求の範囲に記載される内容は、その特許文書の最も特徴的な技術的思想を表す部分であり、この記載内容を一読して特徴部分を即座に導き出すことは非常に困難である。この構成によれば、特許請求の範囲のデータから抽出された形態素データのうち、特許請求の範囲で主張される技術的思想の主体や対象等を示す形態素データを用いて第1特徴語を簡単に生成でき、ユーザは、第1特徴語からその特許文書の主題的な技術的特徴を推測することができる。   Reading a patent document such as a patent application specification and claims and grasping the technical characteristics of each patent document requires a great deal of labor and burden even if the user is not familiar with the patent document. In particular, the content described in the claims is the part that represents the most characteristic technical idea of the patent document, and it is very difficult to read the description and immediately derive the characteristic part. It is. According to this configuration, among the morpheme data extracted from the claim data, the first feature word can be easily obtained by using the morpheme data indicating the subject or object of the technical idea claimed in the claim. The user can infer the subject technical feature of the patent document from the first feature word.

また、前記出力手段は、前記第1特徴語を構成する前記形態素データの出現頻度に基づいて当該第1特徴語の出力順位を決定し、当該出力順位に応じた前記第1特徴語を出力することにより前記傾向を示す情報の出力処理を行うこととしてもよい。   The output means determines an output rank of the first feature word based on the appearance frequency of the morpheme data constituting the first feature word, and outputs the first feature word according to the output rank. It is good also as performing the output process of the information which shows the said tendency.

この構成によれば、出力手段が第1特徴語を出力する際、第1特徴語を構成する形態素データの出現頻度に基づく出力順位を決定し、その決定した出力順位に応じた出力を行うので、第1特徴語は、ある一定の秩序が保たれた状態で出力される。そのため、ユーザは、第1特徴語の出力状態から当該文書における第1特徴語の位置付けや第1特徴語間の関係性を推測することが容易となり、文書中のキーワード等を単に並べて出力させた場合と比べて、文書が有する特徴的な傾向をより容易に把握することができる。   According to this configuration, when the output unit outputs the first feature word, the output order is determined based on the appearance frequency of the morpheme data constituting the first feature word, and the output is performed according to the determined output order. The first feature word is output in a state where a certain order is maintained. Therefore, the user can easily estimate the position of the first feature word in the document and the relationship between the first feature words from the output state of the first feature word, and simply output the keywords in the document side by side. Compared to the case, the characteristic tendency of the document can be grasped more easily.

また、前記情報処理装置は、更に、前記特許請求の範囲データの記載形式が所定形式に合致しているか否か判断し、所定形式に合致していると判断した場合に、当該特許請求の範囲データにおいて、前記所定形式により予め定められた所定データで挟まれた範囲のデータを前記形態素解析処理対象として特定する特定手段を備えることとしてもよい。   Further, the information processing apparatus further determines whether or not the description format of the claim range data matches a predetermined format, and when determining that the description format matches the predetermined format, The data may include a specifying unit that specifies data in a range between predetermined data predetermined by the predetermined format as the morphological analysis processing target.

この構成によれば、例えば、特許文書において特徴的な文言でなく、特許請求の範囲を記載する上で極めて定型的な文言が含まれている場合があるが、特定手段により、そのような所定の文言を含む所定形式で特許請求の範囲が記載されているか否か判断できる。そのため、その特許請求の範囲に含まれる特徴部分ではない定型的な文言のデータを分析対象から予め除外することができ、第1特徴語を生成する際の精度を向上させることができる。   According to this configuration, for example, there may be a case where not a characteristic wording in a patent document but a very standard wording is included in describing the scope of claims. It is possible to determine whether or not the claims are described in a predetermined format including the following words. For this reason, it is possible to exclude in advance the data of a fixed phrase that is not a feature part included in the claims from the analysis target, and it is possible to improve the accuracy in generating the first feature word.

また、前記特許文書データは、複数の特許文書データであり、各特許文書データには、更に、当該文書の課題として複数の文字列データからなる課題情報が含まれており、前記情報処理装置は、更に、前記複数の特許文書データを、各特許文書データの課題情報に基づいて、クラスタに分類するクラスタ分類手段を備え、前記特徴語生成手段は、更に、前記所定の格助詞の前方形態素データのうち、 品詞が前記第1分類に属する前方形態素データを前記複数の文書データの特許請求の範囲データ群における解決語候補対象データとして抽出し、当該各解決語候補対象データの前記複数の特許文書データにおける出現頻度を算出し、算出した出現頻度の降順で所定順位以上の解決語候補対象データを解決語として抽出する解決語抽出手段と、前記各解決語の前記各クラスタにおける出現頻度を算出する解決語出現頻度算出手段とを備え、前記第1特徴語は、前記解決語を含んで結合されたものの前記複数の特許文書データにおける出現頻度が所定の基準を満たすものであり、前記第1特徴語を構成する前記形態素データの出現頻度は、当該第1特徴語に含まれる前記解決語の前記解決語抽出手段により算出された出現頻度であり、前記出力手段は、更に、前記第1特徴語に対応する前記解決語と、前記解決語出現頻度算出手段により算出された当該解決語の出現頻度とをクラスタ毎に出力することとしてもよい。   The patent document data is a plurality of patent document data, and each patent document data further includes problem information including a plurality of character string data as a problem of the document. And further comprising cluster classification means for classifying the plurality of patent document data into clusters based on the task information of each patent document data, wherein the feature word generation means further includes forward morpheme data of the predetermined case particles. Among them, the front morpheme data whose part of speech belongs to the first classification is extracted as solution word candidate target data in the claim data group of the plurality of document data, and the plurality of patent documents of the respective solution word candidate target data A solution word extraction means for calculating an appearance frequency in the data and extracting solution candidate object data having a predetermined rank or higher in descending order of the calculated appearance frequency as a solution word; A solution word appearance frequency calculating unit that calculates an appearance frequency of each solution word in each cluster, and the first feature word includes the solution word but has an appearance frequency in the plurality of patent document data. The appearance frequency of the morpheme data that satisfies a predetermined criterion and that constitutes the first feature word is the appearance frequency calculated by the solution word extraction unit of the solution word included in the first feature word The output unit may further output the solution word corresponding to the first feature word and the appearance frequency of the solution word calculated by the solution word appearance frequency calculation unit for each cluster.

この構成によれば、第1特徴語は、所定の格助詞の前に検出された品詞が第1分類に属する形態素データのうち、複数の特許文書データ群における出現頻度が一定以上の形態素データである解決語を含むものであるため、第1特徴語から、特許文書データ群全体において一般的又は有用な技術的文言を推測することができる。   According to this configuration, the first feature word is morpheme data whose frequency of appearance in a plurality of patent document data groups is a certain level or more among morpheme data in which the part of speech detected before a predetermined case particle belongs to the first classification. Since a certain solution word is included, a general or useful technical word can be inferred from the first feature word in the entire patent document data group.

また、クラスタ分類手段によって特許文書データ群を複数のクラスタに分類することができ、出力手段は、クラスタ毎に、各解決語と各解決語を含む各第1特徴語と、各解決語の各クラスタにおける出現頻度とを対応付けて出力するので、ユーザは、各解決語及び第1特徴語に対応するクラスタ毎の出現頻度を参照することにより、クラスタ毎の一般的技術や特徴的技術を把握することができる。更に、各解決語と各解決語を含む各第1特徴語は、出力手段により各解決語の特許文書データ群における出現頻度に基づく順位に応じた出力が行われるため、例えば、出現頻度の順に並べて出力された場合、ユーザは、解決語と第1特徴語の出力位置から特許文書データ群全体の技術的な傾向を容易に確認することができる。   Further, the patent document data group can be classified into a plurality of clusters by the cluster classification means, and the output means is provided for each cluster, each first feature word including each solution word and each solution word, and each solution word. Since the appearance frequency in the cluster is output in association with each other, the user can grasp the general technology and characteristic technology for each cluster by referring to the appearance frequency for each cluster corresponding to each solution word and the first feature word. can do. Furthermore, each solution word and each first feature word including each solution word are output according to the rank based on the appearance frequency in the patent document data group of each solution word by the output means, for example, in order of appearance frequency When output side by side, the user can easily confirm the technical tendency of the entire patent document data group from the output position of the solution word and the first feature word.

また、前記情報処理装置は、更に、前記各課題情報について形態素解析処理を行い、前記品詞情報生成手段は、更に、前記課題情報についての形態素解析処理によって分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第2品詞情報を生成し、前記クラスタ分類手段は、前記第2品詞情報の形態素データのうち、品詞が前記第1分類に属する形態素データについて各特許文書データにおける出現頻度を算出し、算出した各出現頻度を要素として各文書データの文書ベクトルを生成し、文書ベクトル間の類似度を算出して前記複数の特許文書データをクラスタに分類し、更に、前記品詞が第1分類に属する各形態素データの各特許文書データにおける検出順位を前記第2品詞情報に基づいて特定し、特定した検出順位が連続する各形態素データを結合させて結合形態素データを生成し、生成した各結合形態素データの各クラスタにおける出現頻度を算出し、当該出現頻度の降順で所定順位以上の各結合形態素データを、当該クラスタを示す課題語として抽出する課題語抽出手段を備え、前記出力手段は、更に、前記各クラスタを示す前記各課題語を出力することとしてもよい。   The information processing apparatus further performs a morpheme analysis process on each piece of task information, and the part-of-speech information generation unit further includes each morpheme data decomposed by the morpheme analysis process on the task information, and each morpheme data. Second part-of-speech information that associates a predetermined part-of-speech corresponding to the morpheme data with detection order information indicating the detection order of each morpheme data, Calculates the appearance frequency in each patent document data for the morpheme data belonging to the first classification, generates a document vector of each document data using each calculated appearance frequency as an element, calculates the similarity between the document vectors, and A plurality of patent document data is classified into clusters, and the detection order in each patent document data of each morpheme data whose part of speech belongs to the first classification Specify based on the second part-of-speech information, generate combined morpheme data by combining the identified morpheme data having consecutive detection orders, calculate the appearance frequency in each cluster of the generated combined morpheme data, and A task word extracting means for extracting each combined morpheme data of a predetermined order or more in descending order as a task word indicating the cluster, and the output means further outputs the task words indicating the clusters. Also good.

各特許文書データの課題情報は、各特許文書が主張する技術的思想を導く際に動機付けとなった技術的な課題を示すものである。この構成によれば、課題語抽出手段により各クラスタに属する特許文書データ群に共通する課題を一定規則に基づいて容易に抽出することができる。また、出力手段により、各解決語及び各第1特徴語と、各解決語の各クラスタにおける出現頻度と、各クラスタを示す課題語とが対応付けて出力されるので、ユーザは、課題語を参照することにより、各課題に対する技術的手段の差異や類似性等を比較することができる。   The problem information of each patent document data indicates a technical problem motivated when the technical idea claimed by each patent document is derived. According to this structure, the subject common to the patent document data group which belongs to each cluster can be easily extracted based on a fixed rule by a subject word extraction means. Further, the output means outputs each solution word and each first feature word, the appearance frequency of each solution word in each cluster, and the task word indicating each cluster, so that the user can select the task word. By referencing, differences in technical means and similarities for each problem can be compared.

また、前記出力手段は、前記各課題語と、前記各解決語及び当該解決語に対応する前記第1特徴語の組とを、マトリクスの各行及び各列のいずれかに表し、前記マトリクスの各要素として、当該要素を構成する前記行及び列が示す課題語及び解決語に対応する前記解決語の出現頻度の値を表すこととしてもよい。   Further, the output means represents each task word and each solution word and the set of the first characteristic words corresponding to the solution word in each row and each column of the matrix, and each matrix As an element, it is good also as representing the value of the appearance frequency of the said solution word corresponding to the subject word and solution word which the said row and column which comprise the said element show.

この構成によれば、出力手段により、各課題語と、各解決語及び各解決語を含む第1特徴語と、各解決語の各クラスタにおける出現頻度の値とがマトリクス上に出力されるので、ユーザは、各課題語に対する技術的手段の傾向を一見して確認することができる。   According to this configuration, the output unit outputs each task word, the first feature word including each solution word and each solution word, and the appearance frequency value in each cluster of each solution word on the matrix. The user can confirm the tendency of the technical means for each task word at a glance.

また、前記出力手段は、更に、前記クラスタ分類手段により生成された各文書データの前記文書ベクトルを用いて、当該クラスタの文書ベクトルを示すクラスタ文書ベクトルを生成し、各クラスタのクラスタ文書ベクトルを用いて、各クラスタ間の距離を算出することにより、クラスタ間の類似度を求めるクラスタ間類似度算出手段と、前記解決語頻度算出手段により算出された各解決語についての前記出現頻度の値を要素として各解決語のベクトルを生成し、当該各解決語のベクトルを用いて、各解決語間の距離を算出して解決語間の類似度を求める解決語間類似度算出手段と、前記クラスタ間類似度算出手段及び前記解決語間類似度算出手段により算出された各類似度について、類似度が最大の組合せを各々抽出し、抽出した前記クラスタと前記解決語の各々の組に含まれる各要素を基準要素とするクラスタ及び解決語の各基準連結の組を各々生成し、基準連結の基準要素を起点とする2つの連結方向の一方の前記連結方向を、クラスタ及び解決語の基準連結の各組の一方の基準連結に設定し、他方の前記連結方向を当該組の他方の基準連結に設定し、クラスタ及び解決語の前記各類似度の降順でクラスタの組及び解決語の組を各々順次選択し、所定条件に従って、選択した各組合せの要素を前記各基準連結に連結させる連結処理を各々行い、当該各連結処理結果に従って全ての前記クラスタ及び前記解決語の出力順を決定する出力順決定手段とを備え、前記所定の条件は、第1条件と第2条件を含み、前記第1条件は、前記選択したクラスタ及び解決語の各組合せにおいて、当該組合せに含まれる一方の要素がいずれかの基準連結に連結済であることであり、前記第2条件は、当該組合せに含まれる要素のいずれも未連結であることであり、前記連結処理は、前記選択した組合せのいずれか一方の要素が、第1条件を満たす場合に、当該第1条件を満たす連結済の要素を含む基準連結において設定された連結方向に当該組合せの未連結の要素を連結させる第1連結処理と、前記選択した組合せの各要素が前記第2条件を満たす場合に、当該組合せの各要素を新たな基準要素として新たな基準連結の組を生成する第2連結処理と、前記各基準連結に連結された各々の要素数に応じて各組の基準連結同士を連結させ、連結された各組の基準連結を所定規則に基づいて連結させる第3連結処理とを含み、前記出力は、前記出力順決定手段によって決定された各クラスタ及び各解決語の出力順に従い、前記マトリクスの各行及び各列に、各課題語と、各解決語及び当該解決語に対応する第1特徴語の組とを表すことにより行うこととしてもよい。   The output means further generates a cluster document vector indicating the document vector of the cluster using the document vector of each document data generated by the cluster classification means, and uses the cluster document vector of each cluster. Then, by calculating the distance between the clusters, the intercluster similarity calculating means for obtaining the similarity between the clusters, and the value of the appearance frequency for each solution word calculated by the solution word frequency calculating means A solution word similarity calculating means for calculating a distance between the solution words by calculating a distance between the solution words using the vector of each solution word, For each similarity calculated by the similarity calculation means and the solution word similarity calculation means, a combination having the maximum similarity is extracted, and the extracted class And a cluster having each element included in each set of solution words as a reference element and each reference link set of solution words, respectively, and the one of the two connection directions starting from the reference element of the reference link The connection direction is set to one reference connection of each set of the standard connection of the cluster and the solution word, the other connection direction is set to the other reference connection of the set, and the similarity of each of the clusters and the solution words is determined. A cluster set and a solution word set are sequentially selected in descending order, and according to a predetermined condition, a connection process is performed to connect the elements of each selected combination to each of the reference connections. And an output order determining means for determining an output order of the solution words, wherein the predetermined condition includes a first condition and a second condition, and the first condition is a combination of the selected cluster and solution word. In One element included in the combination is connected to any reference connection, and the second condition is that any element included in the combination is unconnected, and the connection process includes: When any element of the selected combination satisfies the first condition, the unconnected elements of the combination are connected in the connection direction set in the standard connection including the connected elements satisfying the first condition. And a first connection process for generating a new reference connection set using each element of the combination as a new reference element when each element of the selected combination satisfies the second condition; A third connection process for connecting the reference connections of each set according to the number of elements connected to each of the reference connections, and connecting the connected reference connections of each set based on a predetermined rule, The output is the output order determining means. Thus, according to the determined output order of each cluster and each solution word, in each row and each column of the matrix, each task word and each solution word and a set of first characteristic words corresponding to the solution word are represented. It may be done.

この構成によれば、クラスタ間類似度算出手段と解決語間類似度算出手段により、各クラスタ間及び各解決語間の類似度が算出され、出力順決定手段により、類似度の降順で選択されたクラスタや解決語の要素は、その要素と類似性が高い要素と同じ連結に連結される。また、クラスタ及び解決語は、マトリクスの行例が示す各軸において、ある一定の関連性を有する連結毎に出力され、各連結においては、その連結において最も類似度が高い基準要素に対して類似度が高い順に各要素が並べて出力される。従って、ユーザは、マトリクス上において、一定の関連性を有するクラスタ及び解決語の集合単位で、特許文書データ群全体における解決語の出現頻度の分布状況を確認することができる。例えば、マトリクス上の各セルに出力される出現頻度の値に応じて各セルに色を付した場合、ユーザは、出現頻度の分布状況を一目で確認することができ、特許文書データ群全体における課題に対する技術的特徴を直感的に把握することができる。   According to this configuration, the similarity between clusters and each solution word are calculated by the cluster similarity calculation means and the solution word similarity calculation means, and are selected in descending order of similarity by the output order determination means. The elements of the cluster and the solution word are connected in the same connection as the elements having high similarity to the elements. In addition, the cluster and the solution word are output for each connection having a certain relationship in each axis indicated by the matrix row example. In each connection, the cluster and the solution word are similar to the reference element having the highest similarity. The elements are output in order from the highest. Therefore, the user can confirm the distribution status of the appearance frequency of the solution word in the entire patent document data group in a set unit of clusters and solution words having a certain relationship on the matrix. For example, when a color is given to each cell according to the value of the appearance frequency output to each cell on the matrix, the user can check the distribution status of the appearance frequency at a glance, Intuitively understand the technical characteristics of the problem.

また、前記特徴語生成手段は、更に、前記第1品詞情報に前記所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記各所定の格助詞の間に検出された形態素データのうち、当該所定の格助詞より後に検出された形態素データである後方形態素データからなる前記第1特徴語に対応する第2特徴語を、第2規則に基づいて生成し、前記出力手段は、前記第1特徴語と共に、当該第1特徴語に対応する前記第2特徴語を出力することとしてもよい。   In addition, the feature word generation means is further detected between each predetermined case particle for each predetermined case particle when the predetermined part particle is included in the first part of speech information. Generating, based on a second rule, a second feature word corresponding to the first feature word composed of backward morpheme data which is morpheme data detected after the predetermined case particle among the morpheme data; May output the second feature word corresponding to the first feature word together with the first feature word.

この構成によれば、特徴語生成手段により、第1特徴語に対応する第2特徴語は、第1特徴語の生成に用いた所定の格助詞の後の後方形態素データから生成される。後方形態素データには、所定の格助詞の直前に記載される主体や対象等の状態や動作等を表す形態素が含まれているので、ユーザは、第1特徴語と対応する第2特徴語から、第1特徴語の意味内容を補完することができ、文書内容を容易に把握することができる。   According to this configuration, the second feature word corresponding to the first feature word is generated from the rear morpheme data after the predetermined case particle used for generating the first feature word by the feature word generation unit. Since the back morpheme data includes a morpheme representing the state or action of the subject or object described immediately before the predetermined case particle, the user can use the second feature word corresponding to the first feature word. The semantic content of the first feature word can be complemented, and the document content can be easily grasped.

また、前記第2規則は、前記所定の格助詞毎の前記後方形態素データのうち、当該所定の格助詞の直後に検出された後方形態素データから、品詞が第2分類以外の品詞に属する後方形態素データが検出されるまでの各後方形態素データを検出順に結合することとしてもよい。   In addition, the second rule is that a back morpheme whose part of speech belongs to a part of speech other than the second classification from back morpheme data detected immediately after the predetermined case particle among the back morpheme data for each of the predetermined case particles. The backward morpheme data until the data is detected may be combined in the detection order.

この構成によれば、従来の一般的な形態素解析処理によって形態素データに付与される品詞を用い、その品詞が所定品詞に該当するか否か判断するだけで第2特徴語を生成することができるので、第2特徴語を容易に生成することができ、第2特徴語を生成する際の処理負荷を軽減することができる。   According to this configuration, the second feature word can be generated simply by determining whether or not the part of speech corresponds to the predetermined part of speech using the part of speech given to the morpheme data by the conventional general morpheme analysis process. Therefore, the second feature word can be easily generated, and the processing load when generating the second feature word can be reduced.

また、前記第2分類は、名詞及び動詞であることとしてもよい。   The second classification may be a noun and a verb.

この構成によれば、特徴語生成手段により、第2特徴語は、所定格助詞の直後から連続する名詞又は動詞の後方形態素データが結合される。一般的に、所定格助詞の直後には、当該所定格助詞の直前に記載される語句との関係が深い単語が記載され、名詞や動詞は、所定格助詞の直前の記載される語句の存在、状態、動作等を表すので、ユーザは、第1特徴語とその第1特徴語に対応する第2特徴語から、第1特徴語の意味や文書内容をより理解しやすくなる。   According to this configuration, the feature word generation unit combines the back morpheme data of the noun or verb that continues from immediately after the predetermined case particle as the second feature word. In general, immediately after a given case particle, a word having a deep relationship with the word described immediately before the given case particle is described, and nouns and verbs are present in the word immediately before the given case particle. Therefore, it is easier for the user to understand the meaning and document content of the first feature word from the first feature word and the second feature word corresponding to the first feature word.

また、前記文書データは、複数の文書データであり、前記出力手段は、更に、前記複数の各文書データの前方形態素データ毎に、前記複数の文書データにおける出現頻度を算出する出現頻度算出手段を備え、前記第1特徴語を構成する前記形態素データの出現頻度は、当該第1特徴語を構成する各前方形態素データの前記出現頻度算出手段により算出された出現頻度であり、前記各文書データの前記第1特徴語及び当該第1特徴語に対応する第2特徴語の出力は、各第1特徴語の前方形態素データの出現頻度の大きさの順に従って行うこととしてもよい。   The document data is a plurality of document data, and the output means further includes an appearance frequency calculating means for calculating an appearance frequency in the plurality of document data for each front morpheme data of the plurality of document data. And the appearance frequency of the morpheme data constituting the first feature word is an appearance frequency calculated by the appearance frequency calculation means of each forward morpheme data constituting the first feature word, and each document data The output of the first feature word and the second feature word corresponding to the first feature word may be performed in the order of the appearance frequency of the front morpheme data of each first feature word.

この構成によれば、第1特徴語は、特徴語生成手段によって、文書データ中の所定格助詞毎に前方形態素データを結合させて生成されたものであり、文書データ群において一般的な用語として記載されたものとは言えないため、文書データ群における各第1特徴語の出現頻度には差が生じにくい。一方、第1特徴語を構成する前方形態素データの場合、文書データ群において一般的な用語として用いられやすいので、各前方形態素データの文書データ群における出現頻度の差が生じやすい。従って、各第1特徴語の出力を、当該第1特徴語を構成する前方形態素データの出現頻度を用いて行うことで、文書データ毎に各第1特徴語を序列化して出力することができるので、ユーザは、序列化して出力された各第1特徴語及び第2特徴語から、各文書データにおける各特徴語の位置付けを一見して確認することができ、各文書データの特徴的な傾向を把握することができる。   According to this configuration, the first feature word is generated by combining the front morpheme data for each predetermined case particle in the document data by the feature word generation unit, and is a general term in the document data group. Since it cannot be said that it has been described, a difference is unlikely to occur in the appearance frequency of each first feature word in the document data group. On the other hand, since the forward morpheme data constituting the first feature word is easily used as a general term in the document data group, a difference in appearance frequency in the document data group of each forward morpheme data is likely to occur. Therefore, by outputting each first feature word using the appearance frequency of the forward morpheme data constituting the first feature word, each first feature word can be ordered and output for each document data. Therefore, the user can confirm the position of each feature word in each document data at a glance from each first feature word and second feature word output in order, and the characteristic tendency of each document data Can be grasped.

また、前記情報処理装置は、更に、前記複数の文書データの各前方形態素データのうち、前記第1特徴語を構成する前方形態素データについて、各文書データにおける出現頻度を算出し、当該算出した出現頻度の値を要素とする文書ベクトルを生成し、当該各文書ベクトルを用いて、前記複数の各文書データ間の類似度を算出する類似度算出手段と、前記類似度算出手段により算出された各類似度について、類似度が最大の組合せを各々抽出し、抽出した各組に含まれる各文書データを各基準文書データとする各基準連結の組を生成し、基準連結の基準文書データを起点とする2つの連結方向の一方の前記連結方向を、基準連結の組の一方の基準連結に設定し、他方の前記連結方向を当該組の他方の基準連結に設定し、前記類似度の降順で文書データの組を順次選択し、所定条件に従って、選択した各組の文書データを前記各基準連結に連結させる連結処理を行い、当該各連結処理結果に従って全ての前記文書データの出力順を決定する決定手段とを備え、前記所定の条件は、第1条件と第2条件を含み、前記第1条件は、前記各組合せの各文書データについて、当該一方の文書データがいずれかの基準連結に連結済であることであり、前記第2条件は、いずれの文書データも未連結であることであり、前記連結処理は、前記選択した組合せのいずれか一方の文書データが、第1条件を満たす場合に、当該第1条件を満たす連結済の文書データを含む基準連結において設定された連結方向に当該組合せの未連結の文書データを連結させる第1連結処理と、前記選択した組合せの両方の文書データが前記第2条件を満たす場合に、当該両方の文書データを新たな基準文書データとして新たな基準連結の組を生成する第2連結処理と、前記各基準連結に連結された各文書データ数に応じて各組の基準連結同士を連結させ、連結された各組の基準連結を所定規則に基づいて連結させる第3連結処理とを含み、前記出力手段は、前記決定手段により決定された各文書データの順位に従い、前記各文書データの前記第1特徴語及び前記第2特徴語を、文書データ毎に出力することとしてもよい。   Further, the information processing apparatus further calculates an appearance frequency in each document data for the front morpheme data constituting the first feature word among the respective front morpheme data of the plurality of document data, and the calculated appearance A document vector having frequency values as elements is generated, and using each document vector, a similarity calculation unit that calculates a similarity between each of the plurality of document data, and each calculated by the similarity calculation unit As for the similarity, each combination having the maximum similarity is extracted, each reference data set included in each extracted set is generated as each reference document data, and the reference connection reference document data is used as the starting point. One of the two connection directions is set as one reference connection of a set of reference connections, the other connection direction is set as the other reference connection of the set, and the documents are arranged in descending order of the similarity. Decision to select a set of data sequentially, perform a concatenation process to concatenate each selected set of document data to each of the reference concatenations according to a predetermined condition, and determine the output order of all the document data according to the result of each concatenation process And the predetermined condition includes a first condition and a second condition, and the first condition is that each document data of each combination is linked to any one of the standard connections. The second condition is that any document data is unconnected, and the connection process is performed when any one of the selected combinations of document data satisfies the first condition. , The first connection process for connecting the unconnected document data of the combination in the connection direction set in the reference connection including the connected document data satisfying the first condition, and the document data of both of the selected combinations When the second condition is satisfied, the second connection processing for generating a new reference connection set using both the document data as new reference document data, and the number of document data connected to each reference connection And a third connection process for connecting the reference links of each set according to each other and connecting the connected reference links of each set based on a predetermined rule, wherein the output means is each document determined by the determining means. The first feature word and the second feature word of each document data may be output for each document data according to the order of data.

この構成によれば、類似度算出手段によって各文書データ間の類似度を算出し、決定手段により類似度の降順で選択された各文書データは、類似性が高い文書データと同じ連結に連結され、各連結においては最も類似度が高い基準文書データに対して類似度が高い順に各文書データが連結される。従って、各文書データの第1特徴語及び第2特徴語は、当該文書データと一定の関連性を有する文書データ群が分かるように出力されるので、ユーザが各文書データ間の特徴の差異を把握する負担を軽減することができる。   According to this configuration, the similarity between the document data is calculated by the similarity calculation unit, and each document data selected by the determination unit in descending order of the similarity is linked to the same connection as the document data having high similarity. In each connection, the document data are connected in the descending order of the similarity with respect to the reference document data having the highest similarity. Therefore, the first feature word and the second feature word of each document data are output so that a document data group having a certain relationship with the document data can be understood. The burden of grasping can be reduced.

本発明に係る情報処理方法は、文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する文書分析方法であって、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成ステップと、前記第1特徴語を構成する前記形態素データの出現頻度に基づいて当該第1特徴語の出力順位を決定し、当該出力順位に応じた第1特徴語の出力を行う出力ステップとを備える。
また、本発明に係るプログラムは、CPUを備える情報処理装置に実行させるプログラムであって、文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解するステップと、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成ステップと、前記第1特徴語を構成する前記形態素データの出現頻度に基づいて当該第1特徴語の出力順位を決定し、当該出力順位に応じた第1特徴語の出力を行う出力ステップとを備える。
An information processing method according to the present invention is a document analysis method that performs morpheme analysis processing on document data, detects morphemes in the document data, decomposes the document data into morpheme data, and analyzes the document data. , A feature word generation step of generating a first feature word composed of the morpheme data based on a predetermined first rule, and the first feature word based on the appearance frequency of the morpheme data constituting the first feature word And an output step of outputting the first feature word according to the output order.
The program according to the present invention is a program that is executed by an information processing apparatus including a CPU, performs morpheme analysis processing on document data, detects morpheme in the document data, and decomposes the document data into morpheme data. And a feature word generating step for generating a first feature word composed of the morpheme data based on a predetermined first rule, and a first feature word based on an appearance frequency of the morpheme data constituting the first feature word. An output step of determining the output order of one feature word and outputting the first feature word according to the output order.

上記構成により、本発明に係る情報処理方法及びプログラムは、特徴語生成ステップにより、所定の第1規則により予め定められた規則に従って、分解された文書データの形態素データから第1特徴語を生成するので、文書の構文解析や意味解析等の処理を行うことなく定型的に特徴語を生成できるので、特徴語を生成する際の処理負荷を軽減することができる。更に、出力ステップにより第1特徴語を出力する際、第1特徴語を構成する形態素データの出現頻度に基づく出力順位を決定し、その決定した出力順位に応じた出力を行うので、第1特徴語は、ある一定の秩序が保たれた状態で出力される。そのため、ユーザは、第1特徴語の出力状態から当該文書における第1特徴語の位置付けや第1特徴語間の関係性を推測することが容易となり、文書中のキーワード等を単に並べて出力させた場合と比べて、文書が有する特徴的な傾向をより容易に把握することができる。   With the above configuration, the information processing method and the program according to the present invention generate the first feature word from the morpheme data of the decomposed document data according to the rule predetermined by the predetermined first rule in the feature word generation step. As a result, feature words can be generated in a fixed manner without performing processing such as document syntax analysis and semantic analysis, thereby reducing the processing load when generating feature words. Furthermore, when outputting the first feature word in the output step, the output order is determined based on the appearance frequency of the morpheme data constituting the first feature word, and output according to the determined output order is performed. Words are output in a certain order. Therefore, the user can easily estimate the position of the first feature word in the document and the relationship between the first feature words from the output state of the first feature word, and simply output the keywords in the document side by side. Compared to the case, the characteristic tendency of the document can be grasped more easily.

また、前記情報処理装置において、前記記憶手段は、複数の前記特許文書データを記憶しており、前記特徴語生成手段は、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第1所定部分の前記形態素データを用いて前記第1特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第2所定部分の前記形態素データを用いて第3特徴語を生成し、前記情報処理装置は、更に、前記各第3特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第1出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第3特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定手段と、前記各第1特徴語の前記複数の特許文書データにおける第2出現頻度に基づいて前記各特許文書データの文書ベクトルを生成し、前記各文書ベクトルを用いて前記各第1特徴語を観測変数とする因子分析を行い、前記各第1特徴語の因子負荷量と前記各特許文書データの因子得点を算出する因子分析手段と、前記因子負荷量に基づいて前記各第1特徴語の因子を特定し、前記因子得点に基づいて前記各特許文書データの因子を特定する因子特定手段と、前記因子特定手段により特定された前記各因子に対応する前記第1特徴語を用いて当該因子を示す技術要素キーワードを生成し、前記クラスタ特定手段により特定された各クラスタに属する前記特許文書データの前記第3特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成手段とを備え、前記出力手段は、前記複数の特許文書データの傾向を表す情報として、前記因子特定手段により特定された各特許文書データの因子に基づき、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力することとしてもよい。   Further, in the information processing apparatus, the storage unit stores a plurality of the patent document data, and the feature word generation unit includes the patent document data in the claim data of each patent document data. The first feature word is generated using the morpheme data of the first predetermined part including the character string indicating the technical feature constituting the invention, and the patent document in the claim data of each patent document data A third feature word is generated using the morpheme data of a second predetermined portion including a character string indicating the subject of data invention, and the information processing apparatus further includes the morpheme data included in each third feature word The plurality of patent document data is clustered using the first appearance frequency in the plurality of patent document data, and each of the patent document data corresponding to each of the third feature words belongs. Generating a document vector of each patent document data based on a second appearance frequency in the plurality of patent document data of each of the first feature words, and using each document vector Based on the factor loading, factor analysis means for performing factor analysis using the first feature words as observation variables, calculating factor loadings of the first feature words and factor scores of the patent document data, and Factor specifying means for specifying the factor of each first characteristic word, specifying the factor of each patent document data based on the factor score, and the first corresponding to each factor specified by the factor specifying means A technical element keyword indicating the factor is generated using the feature word, and the third feature word of the patent document data belonging to each cluster specified by the cluster specifying means is used to generate the keyword. Keyword generating means for generating a product group keyword indicating a star, and the output means is based on the factor of each patent document data specified by the factor specifying means as information indicating the tendency of the plurality of patent document data The relation information indicating the relation between each technical element keyword and each product group keyword may be output.

この構成によれば、本発明に係る情報処理装置は、因子分析手段により、第1特徴語の出現頻度を用いた特許文書データ群の因子分析を行うことで、ユーザによる類推を必要とせずに、特許文書データ群に潜在する要素を明らかにでき、各因子について第1特徴語を用いた技術要素キーワードで表すことができる。更に、クラスタ特定手段により、特許文書データ群を分類する際の分類条件となる教師データを予め準備することなく、各特許文書データに対応する第3特徴語を用いて特許文書データ群のクラスタリングを高精度に行うことができ、各クラスタについて第3特徴語を用いた製品群キーワードで表すことができる。第1特徴語と第3特徴語は、共に特許文書データの発明の技術的範囲が記載されている特許請求の範囲データを対象に生成されるが、第1特徴語は特許文書データ群に含まれている各発明の技術を構成する技術的特徴を表すものであるのに対し、各特許文書データに対応する個々の第3特徴語は各特許文書データの発明の対象を表すものである。
従って、技術要素を表す第1特徴語を用いて生成された技術要素キーワードと発明の対象を表す第3特徴語を用いて生成された製品群キーワードにより、ユーザは、特許文書データ群に潜在する技術と特許文書データ群の発明が用いられる製品等を確認することができるので、特許文書データ群が対象とする技術や製品等の傾向を把握することができる。
また、本発明に係る情報処理装置は、各特許文書データの因子に基づいて、各技術要素キーワードと各製品群キーワードとの関係を示す関係情報を出力することができる。第1特徴語で構成された各技術要素キーワードは因子を示し、第3特徴語で構成された各製品群キーワードは各クラスタと対応している。従って、ユーザは、関係情報によって特許文書データ群に潜在する技術と各技術が用いられている製品等の関係を確認することができる。
According to this configuration, the information processing apparatus according to the present invention performs the factor analysis of the patent document data group using the appearance frequency of the first feature word by the factor analysis unit, without requiring analogy by the user. It is possible to clarify the elements that are latent in the patent document data group, and to express each factor by a technical element keyword using the first feature word. Further, clustering of the patent document data group using the third feature word corresponding to each patent document data is performed by the cluster specifying means without preparing teacher data as a classification condition for classifying the patent document data group in advance. It can be performed with high accuracy and can be represented by a product group keyword using a third feature word for each cluster. Both the first feature word and the third feature word are generated for the claim data in which the technical scope of the invention of the patent document data is described. The first feature word is included in the patent document data group. Each of the third characteristic words corresponding to each patent document data represents an object of the invention of each patent document data.
Therefore, the user is latent in the patent document data group by the technical element keyword generated using the first characteristic word representing the technical element and the product group keyword generated using the third characteristic word representing the subject of the invention. Since it is possible to confirm the products and the like for which the invention of the technology and patent document data group is used, it is possible to grasp the tendency of the technology or product targeted by the patent document data group.
Further, the information processing apparatus according to the present invention can output relationship information indicating the relationship between each technical element keyword and each product group keyword based on factors of each patent document data. Each technical element keyword composed of the first feature word indicates a factor, and each product group keyword composed of the third feature word corresponds to each cluster. Therefore, the user can confirm the relationship between the technology latent in the patent document data group and the product in which each technology is used by the relationship information.

また、前記情報処理装置において、前記特許請求の範囲データは、請求項毎の請求項データを含み、前記特徴語生成手段は、前記第1特徴語を生成する場合には、前記特許文書データの前記特許請求の範囲データにおける各請求項データの前記第1所定部分の前記形態素データを用い、前記第3特徴語を生成する場合には、前記各特許文書データの前記特許請求の範囲データにおける所定の請求項データの前記第2所定部分の前記形態素データを用いることとしてもよい。   In the information processing apparatus, the claim range data includes claim data for each claim, and the feature word generation unit generates the first feature word when the first feature word is generated. When the morpheme data of the first predetermined portion of each claim data in the claim data is used to generate the third feature word, the predetermined in the claim data of the patent document data The morpheme data of the second predetermined portion of the claim data may be used.

この構成によれば、第1特徴語は各特許文書データの特許請求の範囲データにおける全請求項データの第1所定部分を対象にしているため、特許文書データ群に包含された全ての発明について構成された技術要素を抽出することができる。また、第3特徴語は各特許文書データの発明の対象を示しており、各請求項データの記載において、発明の対象を示す文言が同じ記載箇所に含まれている場合が多い。そのため、各特許文書データの特定の請求項データにおける第2所定部分の形態素データのみを用いて第3特徴語を生成することで、第3特徴語生成のための処理負荷を軽減することができ、各特許文書データに係る発明の対象を容易に抽出することができる。   According to this configuration, since the first feature word targets the first predetermined portion of all the claim data in the claim data of each patent document data, all the inventions included in the patent document data group The configured technical elements can be extracted. The third feature word indicates the subject of the invention of each patent document data, and in the description of each claim data, the word indicating the subject of the invention is often included in the same description location. Therefore, the processing load for generating the third feature word can be reduced by generating the third feature word using only the morpheme data of the second predetermined portion in the specific claim data of each patent document data. The object of the invention relating to each patent document data can be easily extracted.

また、前記情報処理装置において、前記因子特定手段は、前記因子分析手段により算出された前記各第1特徴語の前記因子負荷量が第1閾値以上である因子を当該第1特徴語の因子として特定し、前記因子分析手段により算出された前記各特許文書データの前記因子得点が第2閾値以上である因子を当該特許文書データの因子として特定することとしてもよい。   Further, in the information processing apparatus, the factor specifying means uses, as a factor of the first feature word, a factor in which the factor load amount of each first feature word calculated by the factor analyzing means is equal to or greater than a first threshold value. It is also possible to identify and identify as a factor of the patent document data a factor whose factor score of each patent document data calculated by the factor analysis means is a second threshold value or more.

この構成によれば、各第1特徴語に対して一定以上の影響を与える因子を第1特徴語の因子として特定するので、特許文書データ群に含まれる技術要素と関連が深い技術を特定することができる。また、各特許文書データについて一定の寄与レベルを有する因子を特許文書データの因子として特定するので、各特許文書データの発明との関連性が高い技術を特定することができる。   According to this configuration, since a factor that has a certain influence on each first feature word is specified as a factor of the first feature word, a technology closely related to the technical elements included in the patent document data group is specified. be able to. Further, since a factor having a certain contribution level for each patent document data is specified as a factor of the patent document data, a technique highly relevant to the invention of each patent document data can be specified.

また、前記情報処理装置において、前記クラスタ特定手段による前記クラスタリングは、前記第2所定部分の各形態素データの前記各第3特徴語における第3出現頻度に基づいて前記各第3特徴語の文書ベクトルを生成し、前記各第3特徴語の前記複数の特許文書データにおける第4出現頻度が所定値以上の前記第3特徴語の前記文書ベクトル間の類似度を算出し、当該類似度に応じてクラスタを抽出する処理と、前記第4出現頻度が前記所定値より小さい前記第3特徴語と前記クラスタとの間の類似度を算出し、当該類似度に応じて当該第3特徴語の特許文書データを当該クラスタに含ませる処理とを含むこととしてもよい。   Further, in the information processing apparatus, the clustering by the cluster specifying means is performed based on a third appearance frequency in each third feature word of each morpheme data of the second predetermined portion, and the document vector of each third feature word And calculating a similarity between the document vectors of the third feature word having a fourth appearance frequency in the plurality of patent document data of each third feature word equal to or higher than a predetermined value, and according to the similarity A process of extracting a cluster, a similarity between the third feature word and the cluster having the fourth appearance frequency smaller than the predetermined value is calculated, and a patent document of the third feature word according to the similarity A process of including data in the cluster.

この構成によれば、特許文書データ群における第3特徴語の第3出現頻度が所定値より小さい第3特徴語を除いてクラスタを抽出し、当該第3特徴語との類似度が高いクラスタに当該第3特徴語を含ませるので、小さいクラスタが多数抽出されることを防止することができ、特許文書データ群において有益なクラスタを抽出することができる。   According to this configuration, clusters are extracted by excluding third feature words in which the third appearance frequency of the third feature words in the patent document data group is smaller than a predetermined value, and a cluster having high similarity with the third feature words is extracted. Since the third feature word is included, a large number of small clusters can be prevented from being extracted, and useful clusters can be extracted from the patent document data group.

また、前記情報処理装置において、前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第1特徴語のうち、当該因子の前記因子負荷量が第3閾値以上である前記第1特徴語を結合することにより前記技術要素キーワードを生成し、前記クラスタ特定手段により抽出されたクラスタ毎に、当該クラスタの重心ベクトルと当該クラスタに属する特許文書データの前記第3特徴語の前記文書ベクトルとの類似度を算出し、当該類似度に応じて当該クラスタに属する前記特許文書データの前記第3特徴語を結合させることにより前記製品群キーワードを生成することとしてもよい。   Moreover, in the information processing apparatus, the keyword generation unit includes a factor loading amount of the factor that is greater than or equal to a third threshold among the first feature words corresponding to the factors identified by the factor identification unit. The technical element keyword is generated by combining the first feature words, and for each cluster extracted by the cluster specifying means, the centroid vector of the cluster and the third feature word of the patent document data belonging to the cluster The product group keyword may be generated by calculating a similarity with the document vector and combining the third feature words of the patent document data belonging to the cluster according to the similarity.

この構成によれば、因子に対応する第1特徴語のうち因子負荷量が一定値以上である第1特徴語のみを結合させて当該因子を示す技術要素キーワードを生成することにより、当該因子の説明力が一定以上である第1特徴語のみを結合することができるので、当該因子を示す表現としてより適切な技術要素キーワードを生成することができる。また、クラスタの重心ベクトルと当該クラスタの特許文書データとの類似度合に応じて当該特許文書データの第3特徴語を結合させて当該クラスタを示す製品群キーワードを生成することにより、当該クラスタの中でより一般的な特許文書データの第3特徴語のみを結合することができる。つまり、当該クラスタを示す表現としてより適切な製品群キーワードを生成することができる。   According to this configuration, by combining only the first feature words having a factor load equal to or greater than a certain value among the first feature words corresponding to the factor, and generating the technical element keyword indicating the factor, Since only the first feature words whose descriptive power is above a certain level can be combined, a more appropriate technical element keyword can be generated as an expression indicating the factor. Further, by combining the third feature word of the patent document data according to the similarity between the cluster centroid vector and the patent document data of the cluster, and generating a product group keyword indicating the cluster, Thus, only the third feature word of more general patent document data can be combined. That is, a more appropriate product group keyword can be generated as an expression indicating the cluster.

また、前記情報処理装置において、前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記特許文書データの前記因子毎の件数を計数し、前記関係情報として、前記各製品群キーワードの前記因子毎の件数と当該因子を示す技術要素キーワードとを対応付けた情報を出力することとしてもよい。   Further, in the information processing apparatus, the output unit counts the number of cases for each factor of the patent document data belonging to the cluster corresponding to the product group keyword for each product group keyword, and as the relation information, It is good also as outputting the information which matched the number of cases for each said factor of each said product group keyword, and the technical element keyword which shows the said factor.

この構成によれば、出力手段により、特許文書データ群における技術要素キーワードと製品群キーワードとの関係情報として、技術要素キーワードを用いている製品群キーワードに属する特許文書データの件数を出力することができる。従って、例えば、ユーザは関係情報を参照することにより、ある企業の特許文書データ群に潜在する技術がどの製品等にどの程度用いられているかを確認することができ、当該企業における異なる製品開発において重複した研究開発が行われているか否か等を把握することができる。   According to this configuration, the output means can output the number of patent document data belonging to the product group keyword using the technical element keyword as the relation information between the technical element keyword and the product group keyword in the patent document data group. it can. Therefore, for example, by referring to the related information, the user can confirm how much the technology that is latent in the patent document data group of a certain company is used for which product. It is possible to know whether or not duplicate research and development is being conducted.

また、前記情報処理装置において、前記記憶手段は、更に、前記各複数の特許文書データに対応する評価値を記憶しており、前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記各特許文書データの前記評価値を前記因子毎に集計し、前記関係情報として、前記各製品群キーワードの前記因子毎の評価値の集計結果と当該因子を示す技術要素キーワードとを対応付けた情報を出力することとしてもよい。   In the information processing apparatus, the storage unit further stores evaluation values corresponding to the plurality of patent document data, and the output unit stores the product group keyword for each product group keyword. The evaluation value of each patent document data belonging to the corresponding cluster is totaled for each factor, and as the relation information, the evaluation result for each factor of each product group keyword and a technical element indicating the factor It is good also as outputting the information which matched the keyword.

この構成によれば、出力手段により、特許文書データ群における技術要素キーワードと製品群キーワードとの関係情報として、技術要素キーワードと関係する製品群キーワードに属する発明の評価値集計を出力することができる。従って、例えば、特許文書データ毎の評価値が当該特許文書データに係る発明の重要度を表している場合には、特許文書データ群に含まれている各技術について、当該技術がどの製品において重要であるか確認できると共に、各製品等で用いられる技術のうちどの技術が重要であるかを確認することができる。   According to this configuration, the output means can output the evaluation value aggregation of the invention belonging to the product group keyword related to the technical element keyword as the relation information between the technical element keyword and the product group keyword in the patent document data group. . Therefore, for example, when the evaluation value for each patent document data represents the importance of the invention related to the patent document data, for each technology included in the patent document data group, the technology is important in which product. It is possible to confirm which of the technologies used for each product is important.

実施の形態に係る情報処理装置の機能構成図を示している。The functional block diagram of the information processing apparatus which concerns on embodiment is shown. (a)は、実施の形態1に係る文書別品詞情報(1)テーブルの構成及びデータ例を示す図である。(b)は、実施の形態1に係る文書別品詞情報(2)テーブルの構成及びデータ例を示す図である。(c)は、実施の形態1に係る品詞情報(1)テーブルの構成及びデータ例を示す図である。(d)は、実施の形態1に係る課題文書ベクトル情報の構成及びデータ例を示す図である。(a) is a figure which shows the structure and example of data of the part-of-speech information according to Embodiment 1 (1) table. (b) is a figure which shows the structure and data example of a document-specific part-of-speech information (2) table which concern on Embodiment 1. FIG. (c) is a figure which shows the structure and data example of a part of speech information (1) table which concern on Embodiment 1. FIG. (d) is a figure which shows the structure and example of data of the subject document vector information which concern on Embodiment 1. FIG. (a)は、実施の形態1に係るクラスタ情報の構成及びデータ例を示す図である。(b)は、実施の形態1に係る結合形態素(2)情報の構成及びデータ例を示す図である。(c)は、実施の形態1に係る課題語抽出リストの構成及びデータ例を示す図である。(a) is a figure which shows the structure and data example of cluster information which concern on Embodiment 1. FIG. (b) is a figure which shows the structure and data example of combined morpheme (2) information which concern on Embodiment 1. FIG. (c) is a figure which shows the structure and example of data of a subject word extraction list which concern on Embodiment 1. FIG. (a)は、実施の形態1に係る解決語候補形態素情報の構成及びデータ例を示す図である。(b)は、実施の形態1に係る解決語リストの構成及びデータ例を示す図である。(c)は、実施の形態1に係る結合形態素(1)情報の構成及びデータ例を示す図である。(a) is a figure which shows the structure and data example of solution word candidate morpheme information which concern on Embodiment 1. FIG. (b) is a figure which shows the structure and data example of a solution word list which concern on Embodiment 1. FIG. (c) is a figure which shows the structure and data example of combined morpheme (1) information which concern on Embodiment 1. FIG. (a)は、実施の形態1に係る解決語別結合形態素(1)情報の構成及びデータ例を示す図である。 (b)は、実施の形態1に係る解決語別特徴語抽出情報の構成及びデータ例を示す図である。(a) is a figure which shows the structure and example of data of the combination morpheme classified by solution word (1) information which concerns on Embodiment 1. FIG. (b) is a figure which shows the structure of the feature word extraction information according to solution word which concerns on Embodiment 1, and a data example. (a)は、実施の形態1に係るマトリクス要素テーブルの構成及びデータ例を示す図である。(b)は、実施の形態1に係る解決語間類似度情報の構成及びデータ例を示している。(a) is a figure which shows the structure and data example of a matrix element table which concern on Embodiment 1. FIG. (b) has shown the structure and data example of the solution word similarity information which concern on Embodiment 1. FIG. (a)は、実施の形態1に係る出力順位決定処理を説明するためのクラスタ間の類似度の例を示す図である。(b)は、 (a)に示す類似度の組み合わせを抽出した結果を示す図である。(a) is a figure which shows the example of the similarity between clusters for demonstrating the output order determination process which concerns on Embodiment 1. FIG. (b) is a figure which shows the result of having extracted the combination of the similarity degree shown to (a). 実施の形態1に係る出力順位決定処理の連結リストを生成する過程を示す図である。It is a figure which shows the process of producing | generating the connection list | wrist of the output order determination process which concerns on Embodiment 1. FIG. 実施の形態1に係る課題・解決マトリクスの出力例を示す図である。5 is a diagram illustrating an output example of a problem / solution matrix according to Embodiment 1. FIG. 実施の形態1に係る情報処理装置1の動作フローを示す図である。3 is a diagram showing an operation flow of the information processing apparatus 1 according to Embodiment 1. FIG. 実施の形態1に係る情報処理装置1の動作フローを示す図である。3 is a diagram showing an operation flow of the information processing apparatus 1 according to Embodiment 1. FIG. (a)は、実施の形態1に係る解決情報を例示した図である。(b)実施の形態1に係る分析対象抽出処理フローを示す図である。(a) is the figure which illustrated the solution information which concerns on Embodiment 1. FIG. (B) It is a figure which shows the analysis object extraction process flow which concerns on Embodiment 1. FIG. 実施の形態1に係るクラスタリング処理フローを示す図である。6 is a diagram illustrating a clustering process flow according to Embodiment 1. FIG. 実施の形態1に係る課題語抽出処理フローを示す図である。It is a figure which shows the subject word extraction processing flow which concerns on Embodiment 1. FIG. 実施の形態1に係る形態素結合処理フローを示す図である。FIG. 5 is a diagram showing a morpheme combining process flow according to the first embodiment. 実施の形態1に係る解決語及び特徴語の抽出処理フローを示す図である。It is a figure which shows the extraction processing flow of the solution word and the feature word which concern on Embodiment 1. FIG. 実施の形態1に係る特徴語決定処理フローを示す図である。FIG. 6 is a diagram illustrating a feature word determination processing flow according to the first embodiment. 実施の形態1に係るクラスタの出力順位決定処理フローを示す図である。FIG. 9 is a diagram showing a cluster output order determination processing flow according to the first embodiment; 実施の形態1及び実施の形態2に係る出力順位決定処理フローを示す図である。It is a figure which shows the output order determination processing flow concerning Embodiment 1 and Embodiment 2. FIG. 実施の形態1及び実施の形態2に係る連結リスト順位決定処理フローを示す図である。It is a figure which shows the linked list order | rank determination processing flow which concerns on Embodiment 1 and Embodiment 2. FIG. 実施の形態1に係る解決語の出力順位決定処理フローを示す図である。FIG. 10 is a diagram showing a processing word output order determination processing flow according to Embodiment 1; 実施の形態1に係る課題・解決マトリクス出力処理フローを示す図である。FIG. 6 is a diagram illustrating a problem / solution matrix output process flow according to the first embodiment. 実施の形態2に係る文書別品詞情報テーブルの構成及びデータ例を示す図である。It is a figure which shows the structure and data example of a part-by-document part of speech information table which concern on Embodiment 2. FIG. 実施の形態2に係る文書別特徴語抽出リストの構成及びデータ例を示す図である。It is a figure which shows the structure of the feature word extraction list according to document which concerns on Embodiment 2, and a data example. (a)は、実施の形態2に係る文書別TF値テーブルの構成及びデータ例を示す図である。(b)は、実施の形態2に係る文書別GF値テーブルの構成及びデータ例を示す図である。(c)は、実施の形態2に係る文書別出力順位情報の構成及びデータ例を示す図である。(a) is a figure which shows the structure of the TF value table classified by document based on Embodiment 2, and a data example. (b) is a figure which shows the structure and example of a data of the GF value table classified by document based on Embodiment 2. FIG. (c) is a figure which shows the structure and data example of the output order information classified by document based on Embodiment 2. FIG. 実施の形態2に係る特徴語マップの出力例を示す図である。It is a figure which shows the example of an output of the feature word map which concerns on Embodiment 2. FIG. 実施の形態2に係る情報処理装置の動作フローを示す図である。FIG. 10 is a diagram illustrating an operation flow of the information processing apparatus according to the second embodiment. 実施の形態2に係る特徴語抽出処理フローを示す図である。FIG. 10 is a diagram showing a feature word extraction processing flow according to the second embodiment. 実施の形態2に係る特許文書データの出力順位決定処理フローを示す図である。FIG. 10 is a diagram showing a process flow for determining the output order of patent document data according to the second embodiment. 実施の形態2に係る特徴語情報の出力順位決定処理フローを示す図である。It is a figure which shows the output order determination processing flow of the feature word information which concerns on Embodiment 2. FIG. 実施の形態2に係る特徴語マップ出力処理フローを示す図である。It is a figure which shows the feature word map output processing flow which concerns on Embodiment 2. FIG. 実施の形態3に係る情報処理装置の機能構成を示す図である。6 is a diagram illustrating a functional configuration of an information processing device according to Embodiment 3. FIG. (a)は、実施の形態3における特許文書データテーブルの構成及びデータ例を示しており、(b)は、実施の形態3における出願番号別品詞情報テーブルの構成及びデータ例を示している。(a) shows the configuration and data example of the patent document data table in the third embodiment, and (b) shows the configuration and data example of the part-of-speech information table by application number in the third embodiment. (a)は、実施の形態3における技術要素対象語別文書ベクトル情報の構成及びデータ例を示しており、(b)は、実施の形態3における出願番号別文書ベクトル情報の構成及びデータ例を示している。(a) shows the configuration and data example of document vector information by technical element subject word in Embodiment 3, and (b) shows the configuration and data example of document vector information by application number in Embodiment 3. Show. (a)は、実施の形態3における請求項データの例を示しており、(b)は、実施の形態3における因子負荷量算出結果情報の構成及びデータ例を示し、(c)は、実施の形態3における因子得点算出結果情報の構成及びデータ例を示している。(a) shows an example of claim data in the third embodiment, (b) shows a configuration and data example of factor load amount calculation result information in the third embodiment, and (c) shows an implementation. The structure of factor score calculation result information in the form 3 and the example of data are shown. (a)は、実施の形態3における出願番号別帰属情報の構成及びデータ例を示し、 (b)は、実施の形態3における技術要素キーワード情報の構成及びデータ例を示し、 (c)は、実施の形態3における製品群キーワード情報の構成及びデータ例を示している。(a) shows the configuration and data example of application number-specific attribution information in Embodiment 3, (b) shows the configuration and data example of technical element keyword information in Embodiment 3, (c) The structure of the product group keyword information in Embodiment 3, and the example of data are shown. (a)は、実施の形態3におけるクラスタ別因子別件数情報の構成及びデータ例を示し、 (b)は、実施の形態3におけるクラスタ別因子別評価値情報の構成及びデータ例を示している。(a) shows the configuration and data example of the cluster-specific factor number information in the third embodiment, and (b) shows the configuration and data example of the cluster-specific factor evaluation value information in the third embodiment. . 実施の形態3に係る情報処理装置100の全体動作を示す動作フローを示している。10 shows an operation flow showing the overall operation of the information processing apparatus 100 according to Embodiment 3. 実施の形態3に係る形態素解析処理フローを示している。10 shows a morphological analysis process flow according to the third embodiment. 実施の形態3に係る製品群対象語生成処理フローを示している。The product group object word production | generation processing flow which concerns on Embodiment 3 is shown. 実施の形態3に係るクラスタリング処理フローを示している。10 illustrates a clustering process flow according to Embodiment 3. 実施の形態3に係る因子分析処理フローを示している。The factor analysis processing flow which concerns on Embodiment 3 is shown. 実施の形態3に係る因子特定処理フローを示している。The factor specific processing flow which concerns on Embodiment 3 is shown. 実施の形態3に係るキーワード生成処理フローを示している。10 shows a keyword generation processing flow according to the third embodiment. 実施の形態3に係る関係情報出力処理フローを示している。10 shows a related information output processing flow according to the third embodiment. (a)は、実施の形態3に係る第1関係情報の出力例を示し、(b)は第2関係情報の出力例を示している。(a) shows an output example of the first relation information according to Embodiment 3, and (b) shows an output example of the second relation information. 実施の形態3におけるクラスタスコアの算出処理の手順を示すフローチャートである。14 is a flowchart illustrating a procedure of cluster score calculation processing according to the third embodiment. 実施の形態3におけるパテントスコアの算出処理で利用する経過情報のデータ構成の一例を模擬的に示した図。The figure which simulated an example of the data structure of the progress information utilized by the calculation process of the patent score in Embodiment 3. FIG. 実施の形態3におけるパテントスコアの算出処理で利用する内容情報のデータ構成の一例を模擬的に示した図。The figure which simulated an example of the data structure of the content information utilized by the calculation process of the patent score in Embodiment 3. FIG. 実施の形態3におけるパテントスコアの算出処理の手順を示したフローチャート。10 is a flowchart illustrating a procedure of a patent score calculation process in the third embodiment. 実施の形態3において各特許データの評価値を算出する処理の詳細を示すフローチャート。10 is a flowchart showing details of processing for calculating an evaluation value of each patent data in the third embodiment.

符号の説明Explanation of symbols

1、100 情報処理装置
2 記憶部
3 入力部
4 表示部
10、110 制御部
101 入力受付部
102 データ取得部
103、111 形態素解析部
104 クラスタ分析部
105、112 特徴語抽出部
106 解決語抽出部
107 課題語抽出部
108 マップ生成部
109、117 出力制御部
113 因子分析部
114 因子特定部
115 クラスタ特定部
116 キーワード生成部
DESCRIPTION OF SYMBOLS 1,100 Information processing apparatus 2 Memory | storage part 3 Input part 4 Display part 10,110 Control part 101 Input reception part 102 Data acquisition part 103,111 Morphological analysis part 104 Cluster analysis part 105,112 Feature word extraction part 106 Solution word extraction part 107 task word extraction unit 108 map generation unit 109, 117 output control unit 113 factor analysis unit 114 factor identification unit 115 cluster identification unit 116 keyword generation unit

[実施の形態1] [Embodiment 1]

<概要>
本実施の形態に係る情報処理装置は、複数の文書データ群の特徴を解析し、その解析結果を出力するものである。
<Overview>
The information processing apparatus according to the present embodiment analyzes the characteristics of a plurality of document data groups and outputs the analysis results.

具体的には、本実施の形態に係る情報処理装置は、所定規則に従い、複数の文書データ中の単語を用いて、複数の文書データ群の特徴を示す特徴語を生成する。また、情報処理装置は、複数の文書データ群を複数のクラスタに分類し、各クラスタを示す情報と各特徴語とを序列化してマトリクスの行及び列の各軸に各々表示し、マトリクスの各行列で示される各セルには、各特徴語を構成する所定条件に合致する単語の各クラスタにおける出現頻度の値を表示する。   Specifically, the information processing apparatus according to the present embodiment generates a feature word indicating the characteristics of a plurality of document data groups using words in the plurality of document data according to a predetermined rule. In addition, the information processing apparatus classifies a plurality of document data groups into a plurality of clusters, ranks information indicating each cluster and each feature word, and displays them on each axis of the matrix rows and columns, respectively. In each cell indicated by the matrix, the value of the appearance frequency in each cluster of words that meet the predetermined condition constituting each feature word is displayed.

尚、本実施の形態において、複数の文書データは、日本国特許庁に出願された特許出願データであるものとし、ユーザによる国際特許分類(International Patent Classification(IPC)) 等の技術分野の指定を受付けることにより特許出願データから抽出した、特定の技術分野の特許文書データであるものとする。   In this embodiment, it is assumed that the plurality of document data is patent application data filed with the Japan Patent Office, and the user designates a technical field such as International Patent Classification (IPC). It is assumed that it is patent document data of a specific technical field extracted from patent application data by acceptance.

また、各特許文書データには、特許請求の範囲及び要約のデータと出願日や出願人名等の書誌的データが含まれているものとする。
以下、上述した本実施の形態に係る情報処理装置の詳細について説明する。
Each patent document data includes claims and summary data, and bibliographic data such as application date and applicant name.
Hereinafter, details of the information processing apparatus according to the above-described embodiment will be described.

<構成>
本実施の形態に係る情報処理装置の構成について説明する。
<Configuration>
A configuration of the information processing apparatus according to the present embodiment will be described.

図1は、本実施の形態に係る情報処理装置の機能構成を示す図である。
同図において、情報処理装置1は、記憶部2、入力部3、表示部4、及び制御部10で構成されている。
FIG. 1 is a diagram illustrating a functional configuration of the information processing apparatus according to the present embodiment.
In FIG. 1, the information processing apparatus 1 includes a storage unit 2, an input unit 3, a display unit 4, and a control unit 10.

以下、各部の機能について詳細に説明する。   Hereinafter, the function of each part will be described in detail.

記憶部2は、ハードディスクやCD−ROM (Compact Disc Read Only Memory)等の記録媒体であり、特許出願データや情報処理装置1による各処理によって生成されたデータ等を記憶する機能を有する。   The storage unit 2 is a recording medium such as a hard disk or a CD-ROM (Compact Disc Read Only Memory), and has a function of storing patent application data, data generated by each process by the information processing apparatus 1, and the like.

入力部3は、キーボードやマウス等で実現され、ユーザによる技術分野の指定等、情報処理装置1に対する指示を受付ける機能を有する。   The input unit 3 is realized by a keyboard, a mouse, or the like, and has a function of receiving an instruction to the information processing apparatus 1 such as designation of a technical field by a user.

表示部4は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどの表示装置であり、ユーザから技術分野の指定を受付けるための画像や上記マトリクスの画像等を表示する機能を有する。   The display unit 4 is a display device such as a CRT (Cathode Ray Tube) display or a liquid crystal display, and has a function of displaying an image for accepting designation of a technical field from a user, an image of the matrix, and the like.

また、制御部10は、CPU(Central Processing Unit) 及びメモリ(ROM(Read Only Memory)及びRAM(Random Access Memory)) で実現され、CPUがROMに格納されたプログラムを実行することにより、情報処理装置1の各部を制御する機能を有する。   The control unit 10 is realized by a CPU (Central Processing Unit) and a memory (ROM (Read Only Memory) and RAM (Random Access Memory)), and the CPU executes a program stored in the ROM to process information. It has a function of controlling each part of the device 1.

制御部10は、入力受付部101、データ取得部102、形態素解析部103、クラスタ分析部104、特徴語抽出部105、解決語抽出部106、課題語抽出部107、マップ生成部108、及び出力制御部109を含んで構成されている。   The control unit 10 includes an input reception unit 101, a data acquisition unit 102, a morpheme analysis unit 103, a cluster analysis unit 104, a feature word extraction unit 105, a solution word extraction unit 106, a task word extraction unit 107, a map generation unit 108, and an output. A control unit 109 is included.

以下、制御部10の各部について説明する。   Hereinafter, each part of the control part 10 is demonstrated.

入力受付部101は、入力部3を介してユーザからの指示を受付け、受付けた指示が文書データの技術分野を示す指示情報の場合には、データ取得部102に当該指示情報を送出する機能を有する。   The input receiving unit 101 has a function of receiving an instruction from the user via the input unit 3 and, when the received instruction is instruction information indicating a technical field of document data, sending the instruction information to the data acquisition unit 102. Have.

データ取得部102は、入力受付部101から受付けた指示情報が示す特許出願データ(以下、「指定特許文書データ群」と言う。)を記憶部2から抽出し、指定特許文書データ群に含まれる要約のデータのうち、「課題」として記載されている部分のデータ(以下、「課題情報」と言う。)と、特許請求の範囲のデータ(以下、「特許請求の範囲データ」と言う。)を形態素解析部103に送出する機能を有する。   The data acquisition unit 102 extracts patent application data (hereinafter referred to as “designated patent document data group”) indicated by the instruction information received from the input receiving unit 101 from the storage unit 2 and is included in the designated patent document data group. Of the summary data, the data of the part described as “issue” (hereinafter referred to as “issue information”) and the data of claims (hereinafter referred to as “claim data”). Is sent to the morphological analysis unit 103.

形態素解析部103は、データ取得部102から受付けた各特許文書データの各課題情報と各特許請求の範囲データの各々について形態素解析を行い、特許請求の範囲データの形態素解析処理結果として、特許文書データ毎の、形態素データの検出順位を示す識別No.と、形態素データと、形態素データが属する品詞とを対応付けた文書別品詞情報(1)テーブルを生成する。また、課題情報の形態素解析処理結果として、文書別品詞情報(1)テーブルと同様に、特許文書データ毎の文書別品詞情報(2)テーブルを生成し、文書別品詞情報(2)テーブルの各データを統合させて指定特許データ群の品詞情報(2)テーブルを生成する機能を有する。   The morpheme analysis unit 103 performs morpheme analysis on each of the problem information and each claim data of each patent document data received from the data acquisition unit 102, and as a morpheme analysis processing result of the claim data, a patent document A document-specific part-of-speech information (1) table in which an identification number indicating the detection order of morpheme data, morpheme data, and the part of speech to which the morpheme data belongs is generated for each data. In addition, as a result of morphological analysis of the task information, similarly to the document-specific part-of-speech information (1) table, a document-specific part-of-speech information (2) table is generated for each patent document data, and each document-specific part-of-speech information (2) table It has a function of integrating the data and generating a part-of-speech information (2) table of the designated patent data group.

尚、形態素解析を行う際に用いる文法情報や、品詞が対応付けられた単語リスト情報は、予め情報処理装置1内部に記憶されているものとする。また、本実施の形態において、特許請求の範囲データについて形態素解析処理を行う場合、形態素解析部103は、特許請求の範囲データにおいて形態素解析処理を行う分析対象部分の分析対象抽出処理を行う。   It is assumed that grammar information used when performing morphological analysis and word list information associated with parts of speech are stored in advance in the information processing apparatus 1. In the present embodiment, when morphological analysis processing is performed on the claim range data, the morpheme analysis unit 103 performs analysis target extraction processing on the analysis target portion that performs the morphological analysis processing on the claim range data.

ここで、分析対象抽出処理は、各特許文書データの特許請求の範囲データのうち、「請求項1」として記載されているデータ(以下、「解決情報」と言う。)を抽出し、解決情報の記載形式が所定形式に合致するか否か判断し、判断結果に応じて解決情報において形態素解析の対象となる部分データを抽出する処理である。   Here, the analysis object extraction process extracts data described as “Claim 1” (hereinafter referred to as “solution information”) from the claims data of each patent document data, and provides the solution information. This is a process of determining whether or not the description format matches a predetermined format and extracting partial data to be subjected to morphological analysis in the solution information according to the determination result.

クラスタ分析部104は、品詞情報(2)テーブルに基づいて、指定特許文書データ群をクラスタ分類する処理を行い、クラスタ分類の結果を示すクラスタ情報を生成する機能を有する。   The cluster analysis unit 104 has a function of performing cluster classification on the designated patent document data group based on the part of speech information (2) table and generating cluster information indicating the result of cluster classification.

本実施の形態におけるクラスタ分類処理について説明する。   The cluster classification process in this embodiment will be described.

クラスタ分類処理は、クラスタ分析部104が、品詞情報(2)テーブルにおいて品詞が名詞、記号、未知語、及び形容詞(以下、「第1分類」と言う。)のいずれかに相当する形態素(以下、「課題語候補対象データ」と言う。)について各指定特許文書データにおけるTF(Term Frequency)値とDF(Document Frequency)値を算出してTF値×IDF(Inverse Document Frequency)値(以下、「TF・IDF値」と言う。)を算出し、算出結果を示す課題文書ベクトル情報を生成する課題文書ベクトル情報生成処理と、課題文書ベクトル情報のTF・IDF値を要素とする各指定特許文書データの文書ベクトルを生成し、各指定特許文書データの文書ベクトルを用いて各指定特許文書データ間の余弦値を計算することにより指定特許文書データ間の類似度を算出する類似度算出処理とを含む。   In the cluster classification process, the cluster analysis unit 104 has a morpheme (hereinafter referred to as “first classification”) in which the part of speech in the part of speech information (2) table is a noun, a symbol, an unknown word, or an adjective (hereinafter referred to as “first classification”). And TF (Term Frequency) value and DF (Document Frequency) value in each designated patent document data to calculate “TF value × IDF (Inverse Document Frequency) value” (hereinafter referred to as “subject word candidate target data”). TF / IDF value ") and issue document vector information generation processing for generating assignment document vector information indicating the calculation result, and each designated patent document data having the TF / IDF value of the assignment document vector information as elements. And a similarity calculation process for calculating a similarity between designated patent document data by calculating a cosine value between the designated patent document data using the document vector of each designated patent document data. .

また、類似度が最大の指定特許文書データの組合せの文書ベクトルを一つのグループに属するものとしてクラスタ化する処理と、クラスタ化した後のクラスタと他の文書ベクトル又は他のクラスタとの間の類似度を最長距離法を用いて再計算し、上記クラスタ化する処理を繰り返し行って順次クラスタを生成し、各クラスタに属する指定特許文書データとクラスタとを対応付けたクラスタ情報を生成するクラスタ生成処理とを含む。   In addition, a process of clustering the document vectors of the combination of designated patent document data with the maximum similarity as belonging to one group, and the similarity between the cluster after clustering and another document vector or another cluster Cluster generation processing that recalculates the degree using the longest distance method, repeats the above clustering process, sequentially generates clusters, and generates cluster information that associates the specified patent document data belonging to each cluster with the cluster Including.

ここで、最長距離法を用いて類似度を再計算するとは、例えば、クラスタに属していない特許文書データの文書ベクトル(以下、「未クラスタ化文書ベクトル」と言う。)と、あるクラスタとの類似度を再計算する場合、そのクラスタに属する各特許文書データの各文書ベクトルと未クラスタ化文書ベクトルとの各々の類似度を算出し、算出した類似度のうち、最小の類似度を再計算結果として導出することである。クラスタ間の類似度を再計算する場合も前述と同様であり、各クラスタの各文書ベクトル間の類似度を算出したうちの最小の類似度を当該クラスタ間の再計算結果として導出する。   Here, the recalculation of the similarity using the longest distance method means, for example, that a document vector of patent document data that does not belong to a cluster (hereinafter referred to as “unclustered document vector”) and a certain cluster. When recalculating the similarity, calculate the similarity between each document vector and unclustered document vector of each patent document data belonging to the cluster, and recalculate the minimum similarity among the calculated similarities To derive as a result. The case of recalculating the similarity between clusters is the same as described above, and the minimum similarity among the calculated similarity between the document vectors of each cluster is derived as a recalculation result between the clusters.

尚、本実施の形態では最長距離法を用いているので、類似度の最大値が0より大きければクラスタの生成を繰り返し行い、最大値が0になったときにクラスタの生成を終了してクラスタ情報を生成するものとする。また、最長距離法以外の方法を用いる場合には、類似度の最大値が所定の閾値になるまでクラスタの生成を繰り返し行い、最大値が所定の閾値になったときにクラスタの生成を終了してクラスタ情報を生成するものとする。   In this embodiment, since the longest distance method is used, cluster generation is repeated if the maximum similarity value is greater than 0. When the maximum value is 0, cluster generation is terminated and the cluster generation is terminated. Information shall be generated. When a method other than the longest distance method is used, cluster generation is repeated until the maximum value of similarity reaches a predetermined threshold, and generation of the cluster is terminated when the maximum value reaches the predetermined threshold. Cluster information is generated.

次に、解決語抽出部105について説明する。   Next, the solution word extraction unit 105 will be described.

解決語抽出部105は、文書別品詞情報(1)テーブルに基づいて、指定特許文書データ群における解決語を抽出する解決語抽出処理機能と、クラスタ分析部104によって生成されたクラスタ情報に基づいて、各解決語の各クラスタにおけるGF(Global Frequency)値を算出し、各クラスタと各解決語のGF値とを対応付けたマトリクス要素テーブルを生成するマトリクス要素生成処理機能を有する。   The solution word extraction unit 105 is based on the solution word extraction processing function for extracting the solution word in the designated patent document data group based on the document-specific part-of-speech information (1) table and the cluster information generated by the cluster analysis unit 104. And a matrix element generation processing function for calculating a GF (Global Frequency) value in each cluster of each solution word and generating a matrix element table in which each cluster is associated with the GF value of each solution word.

ここで、解決語抽出処理は、解決語抽出部105が、文書別品詞情報(1)テーブルの品詞が所定の格助詞に該当する形態素毎に、当該格助詞の形態素より前に検出された形態素(以下、「前方形態素」と言う。)のうち、他の所定の格助詞との間の前方形態素(以下、「格助詞毎の前方形態素」と言う。)であって、品詞が第1分類に属する前方形態素(以下、「解決語候補形態素データ」と言う。)を抽出し、各解決語候補形態素データについて、指定特許文書データ群における出現頻度としてGF値を算出し、GF値の降順で各形態素の順位を定める算出処理と、GF値の降順で上位所定個数の解決語候補形態素データを指定特許文書データ群における解決語として抽出し、解決語リストを生成する解決語リスト生成処理を含む。   Here, the solution word extraction process 105 is performed by the solution word extraction unit 105 for each morpheme whose part of speech in the document-specific part of speech information (1) table corresponds to a predetermined case particle, before the morpheme of the case particle. (Hereinafter, referred to as “forward morpheme”), the morpheme between other predetermined case particles (hereinafter, referred to as “forward morpheme for each case particle”), and the part of speech is classified into the first category. Forward morphemes (hereinafter referred to as “solution candidate morpheme data”) belonging to, and for each solution word candidate morpheme data, a GF value is calculated as an appearance frequency in the designated patent document data group, and the GF values are descended in descending order. Includes calculation processing for determining the rank of each morpheme and solution word list generation processing for extracting a predetermined number of solution word candidate morpheme data in descending order of GF values as solution words in the designated patent document data group and generating a solution word list .

尚、本実施の形態における所定の格助詞は、格助詞「を」及び「が」であるものとする。これらの格助詞の前には主題や目的となる文字列が記載されていると考えられるため、本実施の形態では、各特許文書データの解決情報において格助詞「を」及び「が」に着目し、これらの格助詞の前方に記載されている文字列から、その特許文書データの解決情報において重要又は特徴となる単語を抜き出す。   Note that the predetermined case particles in the present embodiment are the case particles “ha” and “ga”. Since it is considered that a character string that is the subject or purpose is described before these case particles, in this embodiment, attention is paid to the case particles “O” and “GA” in the solution information of each patent document data. Then, words that are important or characteristic in the solution information of the patent document data are extracted from the character strings written in front of these case particles.

次に、特徴語抽出部105について説明する。   Next, the feature word extraction unit 105 will be described.

特徴語抽出部105は、文書別品詞情報(1)テーブルに基づいて、指定特許文書データ群における特徴語を抽出する特徴語抽出処理機能を有する。   The feature word extraction unit 105 has a feature word extraction processing function that extracts feature words in the designated patent document data group based on the document-specific part-of-speech information (1) table.

以下、特徴語抽出処理について説明する。   Hereinafter, the feature word extraction process will be described.

特徴語抽出処理は、特徴語抽出部105が、文書別品詞情報(1)テーブルの品詞が所定の格助詞毎に、当該格助詞毎の前方形態素のうち、当該格助詞の直前に検出された前方形態素から品詞が第1分類以外の前方形態素が検出されるまでの連続する各前方形態素を検出順に結合させて結合形態素(1)を生成する前方形態素結合処理と、指定特許文書データ群における結合形態素(1)のGF値とDF値を算出して、GF値×IDF値(以下、「GF・IDF値」と言う。)を算出する算出処理と、解決語を含む結合形態素(1)のうち、GF・IDF値の降順で上位所定個数の結合形態素(1)を特徴語として抽出して、抽出した特徴語と対応する解決語とを対応づけた解決語別の特徴語抽出情報を生成する特徴語抽出情報生成処理とを含む。   In the feature word extraction process, the feature word extraction unit 105 detects the part-of-speech in the document-specific part-of-speech information (1) table for each predetermined case particle, immediately before the case particle among the front morphemes for each case particle. Forward morpheme combining processing for generating combined morpheme (1) by combining consecutive forward morphemes from the front morpheme until the detection of forward morpheme whose part of speech is other than the first category is detected, and combining in the specified patent document data group A calculation process for calculating the GF value and the DF value of the morpheme (1) and calculating the GF value × IDF value (hereinafter referred to as “GF / IDF value”), and the combined morpheme (1) including the solution word Among them, the top predetermined number of combined morphemes (1) are extracted as feature words in descending order of GF / IDF values, and feature word extraction information for each solution word is generated by associating the extracted feature words with the corresponding solution words. And feature word extraction information generation processing.

次に、課題語抽出部107について説明する。   Next, the task word extraction unit 107 will be described.

課題語抽出部107は、品詞情報(2)テーブルに基づいて、指定特許文書データ群の課題語を抽出する課題語抽出処理機能を有する。   The task word extraction unit 107 has a task word extraction processing function for extracting a task word of the designated patent document data group based on the part-of-speech information (2) table.

課題語抽出処理は、課題語抽出部107が、品詞情報(2)テーブルにおいて課題語候補対象データを抽出し、課題語候補対象データを含む文書別品詞情報(2)テーブルに基づいて形態素結合処理を行い、結合形態素(2)を生成する処理と、クラスタ分析部104が生成したクラスタ情報を読み出し、クラスタ情報で示される各クラスタにおける各結合形態素(2)のGF・IDF値を算出する算出処理と、クラスタ毎にGF・IDF値の降順で上位所定個数の結合形態素(2)を課題語として決定し、各クラスタを示す情報と決定した課題語とを対応付けた課題語抽出リストを生成する課題語抽出リスト生成処理とを含む。   In the task word extraction process, the task word extraction unit 107 extracts task word candidate target data in the part-of-speech information (2) table, and based on the document-specific part-of-speech information (2) table including the task word candidate target data, Processing to generate the combined morpheme (2), and the calculation processing to read the cluster information generated by the cluster analysis unit 104 and calculate the GF / IDF value of each combined morpheme (2) in each cluster indicated by the cluster information Then, the top predetermined number of combined morphemes (2) are determined as task words in descending order of GF / IDF values for each cluster, and a task word extraction list in which information indicating each cluster is associated with the determined task word is generated. Task word extraction list generation processing.

ここで、上記形態素結合処理は、課題語候補対象データの各形態素データについて、文書別品詞情報(2)テーブルにおける識別No.を参照し、その識別No.が連続している形態素を結合させる処理である。   Here, the morpheme combining process refers to a process of referring to the identification numbers in the document-specific part-of-speech information (2) table for each morpheme data of the task word candidate target data and combining the morphemes in which the identification numbers are continuous. It is.

マップ生成部108は、クラスタ分析部104から受付けたクラスタ情報と課題文書ベクトル情報に基づいて、各クラスタに属する各特許文書データの文書ベクトルから当該クラスタの重心ベクトルを算出し、各重心ベクトル間の余弦値を算出することにより各クラスタ間の類似度を算出するクラスタ間類似度算出機能と、各クラスタ間の類似度に基づき、各クラスタを示す各課題語を出力するマトリクス上の行を定める出力順位情報を生成する出力順決定処理機能とを有する。   Based on the cluster information received from the cluster analysis unit 104 and the assignment document vector information, the map generation unit calculates a centroid vector of the cluster from the document vector of each patent document data belonging to each cluster, and An intercluster similarity calculation function that calculates the similarity between each cluster by calculating the cosine value, and an output that defines a row on the matrix that outputs each task word indicating each cluster based on the similarity between each cluster An output order determination processing function for generating rank information.

また、マップ生成部108は、解決語抽出情報とクラスタ情報とに基づいて、各解決語の各クラスタにおけるGF値を算出し、GF値を要素とする解決語毎のベクトルの内積値を算出して解決語間の類似度を算出する機能と、各解決語間の内積値に基づいて、各解決語と各解決語に対応する特徴語とを出力するマトリクス上の列を定める出力順位情報を生成する出力順決定処理機能とを有する。   Further, the map generation unit 108 calculates a GF value in each cluster of each solution word based on the solution word extraction information and the cluster information, and calculates an inner product value of vectors for each solution word having the GF value as an element. Output rank information that defines a column on a matrix for outputting each solution word and a feature word corresponding to each solution word based on a function for calculating similarity between solution words and an inner product value between each solution word And an output order determination processing function to be generated.

ここで、本実施の形態における出力順決定処理について説明する。
図7及び図8は、出力順決定処理を説明するための図であり、クラスタの出力順を決定する例を示している。解決語の出力順決定処理も同様であるため、クラスタを例に説明する。
Here, the output order determination process in the present embodiment will be described.
7 and 8 are diagrams for explaining the output order determination process, and show an example of determining the output order of clusters. Since the output order determination process of the solution word is the same, a cluster will be described as an example.

本実施の形態における出力順位情報は連結リスト構造で管理するものとし、各クラスタを示すa〜gの情報は予め所定のアドレスに記憶されているものとする。また、連結リストの各ノードは、次のノードのアドレスへのリンクを示すリンク情報を保持しており、リンク情報が示すノードの順が各クラスタの出力順位を示す。   It is assumed that the output order information in the present embodiment is managed by a linked list structure, and information on a to g indicating each cluster is stored in advance at a predetermined address. Each node in the linked list holds link information indicating a link to the address of the next node, and the order of the nodes indicated by the link information indicates the output order of each cluster.

以下、出力順位を決定するための連結リストの生成処理について、図7及び図8を用いて説明する。   The linked list generation process for determining the output order will be described below with reference to FIGS.

同図(a)は、クラスタ(a〜g)311及び312の各類似度を算出した結果を示す類似度情報310を示しており、類似度情報310のセル内の数値は、この例における類似度の降順の順位を示し、セル313が示すクラスタ(b,f)の類似度が最大である。   FIG. 6A shows similarity information 310 indicating the result of calculating the similarities of the clusters (a to g) 311 and 312, and the numerical value in the cell of the similarity information 310 is the similarity in this example. The descending order of degrees is shown, and the similarity of the cluster (b, f) indicated by the cell 313 is the maximum.

また、同図(b)は、同図(a)の類似度情報310に基づき、類似度順位321とその類似度の組合せ322を対応づけ、類似度の降順でクラスタの組合せを順次抽出した結果を示している。   FIG. 6B shows the result of associating the similarity ranking 321 with the similarity combination 322 based on the similarity information 310 of FIG. 5A and sequentially extracting the cluster combinations in descending order of similarity. Is shown.

以下、同図(b)を用い、クラスタの出力順位を決定する処理過程を図8に基づいて説明する。   Hereinafter, the process of determining the output order of clusters will be described with reference to FIG.

(1) 類似度が最大の組合せ(b,f)のノードb332及びノードf342を各々基準ノード(以下、「基準ノードb」、「基準ノードf」と言う。)とし、HEADポインタ331及びHEADポインタ341を各基準ノードに各々リンクさせ、各連結リスト(以下、「第1基準連結リスト330」、「第2基準連結リスト340」と言う。)を生成する。各基準連結リストの生成時に、各基準連結リストにおけるノードの挿入方向をHEAD側、即ち、HEADポインタと基準ノードとの間に挿入、又はTAIL側、即ち、各基準連結リストにおける末尾ノードに追加、のいずれか一方に設定する。但し、第1基準連結リスト330と第2基準連結リスト340のノード挿入方向は互いに異なる方向を設定する。   (1) The node b332 and the node f342 of the combination (b, f) having the maximum similarity are set as reference nodes (hereinafter referred to as “reference node b” and “reference node f”), and the HEAD pointer 331 and the HEAD pointer 341 is linked to each reference node to generate each linked list (hereinafter referred to as “first reference linked list 330” and “second reference linked list 340”). When generating each reference linked list, the insertion direction of the node in each reference linked list is inserted between the HEAD side, that is, between the HEAD pointer and the reference node, or added to the TAIL side, that is, the end node in each reference linked list. Set either one of these. However, the node insertion directions of the first reference linked list 330 and the second reference linked list 340 are set to different directions.

この例では、第1基準連結リスト330のノード挿入方向をHEAD側、第2基準連結リスト340のノード挿入方向をTAIL側に設定しているものとする。   In this example, the node insertion direction of the first reference linked list 330 is set to the HEAD side, and the node insertion direction of the second reference linked list 340 is set to the TAIL side.

(2) 続いて、類似度順位が2位の組合せ(b,d)の各ノードがいずれかの基準連結リストに連結済みか否か判断し、一方のノードのみが連結済であれば、その基準連結リストのノード挿入方向に従い、他方の未連結ノードを連結させる。   (2) Subsequently, it is determined whether or not each node of the combination (b, d) having the second similarity rank is linked to any reference linked list, and if only one node is linked, The other unconnected node is linked according to the node insertion direction of the reference linked list.

この例の場合、基準ノードb332が連結されている第1基準連結リスト330のノード挿入方向はHEAD側であるので、HEADポインタ331と基準ノードb332の間にノードd333を挿入しリンクを張り替える。   In this example, since the node insertion direction of the first reference linked list 330 to which the reference node b332 is linked is the HEAD side, the node d333 is inserted between the HEAD pointer 331 and the reference node b332, and the link is changed.

(3) 次に、類似度順位が3位の組合せ(f,g)の各ノードについて、上記(2)と同様の処理を行う。   (3) Next, the same processing as in the above (2) is performed for each node of the combination (f, g) having the third similarity ranking.

この例では、基準ノードf342が連結されている第2基準連結リスト340のノード挿入方向がTAIL側であるので、第2基準連結リスト340のTAILにノードg343を追加する。   In this example, since the node insertion direction of the second reference linked list 340 to which the reference node f342 is linked is the TAIL side, the node g343 is added to the TAIL of the second reference linked list 340.

(4) 次に、類似度順位が4位の組合せ(a,c)の各ノードについて、上記(2)と同様に、ノードa及びノードcの連結有無を判断する。いずれも未連結である場合には、各ノードを基準ノードとして各々の基準ノードの基準連結リストを生成する。   (4) Next, for each node of the combination (a, c) having the fourth similarity ranking, whether or not the node a and the node c are connected is determined in the same manner as (2). If both are unconnected, a reference linked list of each reference node is generated using each node as a reference node.

この例では、ノードaを基準ノードa351、ノードcを基準ノードc361として、各々について基準連結リスト(以下、「第3基準連結リスト350」、「第4基準連結リスト360」と言う。)を生成する。   In this example, a node a is a reference node a351 and a node c is a reference node c361, and a reference linked list (hereinafter referred to as a “third reference linked list 350” and a “fourth reference linked list 360”) is generated. To do.

(5) 続いて、類似度順位が5位の組合せ(b,e)の各ノードについて、上記(2)と同様の判断を行い、基準ノードb332が連結されている第1基準連結リスト330のノード挿入方向がHEAD側であるので、HEADポインタ331とノードd333との間にノードe334を挿入し、リンクを張り替える。   (5) Subsequently, for each node of the combination (b, e) having the fifth similarity rank, the same determination as in (2) above is performed, and the first reference linked list 330 to which the reference node b332 is linked is determined. Since the node insertion direction is the HEAD side, the node e334 is inserted between the HEAD pointer 331 and the node d333, and the link is changed.

続いて、(6)以降の処理について図8を用いて説明する。   Next, the processes after (6) will be described with reference to FIG.

(6) 全ての要素がいずれかの基準連結リストに連結済であれば、各基準連結リストに連結されているノード数をカウントし、基準連結リストを生成した際の基準ノードの組合せに従い、各基準連結リストを連結させて連結リストを生成する。   (6) If all the elements have been linked to any of the standard linked lists, the number of nodes linked to each standard linked list is counted, and according to the combination of the standard nodes when the standard linked list is generated, A linked list is generated by linking the reference linked list.

この例では、基準ノードb332の第1基準連結リスト330と、基準ノードf342の第2基準連結リスト340とを連結させて第1連結リスト370を生成し、基準ノードaの第3基準連結リストと、基準ノードcの第4基準連結リストとを連結させて第2連結リスト380を生成する。   In this example, the first reference linked list 330 of the reference node b332 and the second reference linked list 340 of the reference node f342 are linked to generate the first linked list 370, and the third reference linked list of the reference node a , The second linked list 380 is generated by linking the fourth reference linked list of the reference node c.

尚、2つの基準連結リストを連結させて連結リストを生成する際、各基準連結リストの基準ノード同士がリンクするように各基準連結リストを連結させ、リンクを張り替える。また、連結させた基準連結リストのノード数が少ない方の基準連結リストのノード挿入方向がTAILであれば、その連結リストのHEADポインタを当該基準連結リストの末尾ノードにHEADポインタを付け替え、各ノードのリンクを張り替える。また、ノード数が少ない方の基準連結リストのノード挿入方向がHEADであれば、当該基準連結リストの先頭ノードにHEADポインタを付ける。   Note that when generating a linked list by linking two reference linked lists, the reference linked lists are linked so that the reference nodes of each reference linked list are linked to each other, and the links are replaced. Also, if the node insertion direction of the reference linked list with the smaller number of nodes in the linked reference linked list is TAIL, the HEAD pointer of the linked list is replaced with the HEAD pointer at the end node of the linked list, and each node Relink the link. If the node insertion direction of the reference linked list with the smaller number of nodes is HEAD, a HEAD pointer is attached to the first node of the reference linked list.

この例では、第1基準連結リストと第2基準連結リストを連結させる場合、基準ノードb332と基準ノードf342にリンクを張り、ノード数が少ない第2基準連結リスト340の末尾のノードg343にHEADポインタ331を付け替え、同図に示す様に、各ノードのリンクを張り替えて第1連結リスト371を生成する。   In this example, when the first reference linked list and the second reference linked list are linked, a link is established between the reference node b332 and the reference node f342, and the HEAD pointer is set to the last node g343 of the second reference linked list 340 having a small number of nodes. 331 is replaced, and the first linked list 371 is generated by replacing the links of the nodes as shown in FIG.

同様に、第3基準連結リストと第4基準連結リストについても連結させ、同図に示す第2連結リスト380を生成する。   Similarly, the third reference linked list and the fourth reference linked list are also linked to generate the second linked list 380 shown in FIG.

(7) 続いて、第1連結リスト371と第2連結リスト380を連結させ、クラスタの出力順位を示す順位決定連結リスト390を生成する。   (7) Subsequently, the first linked list 371 and the second linked list 380 are linked to generate a rank determination linked list 390 indicating the output rank of the cluster.

連結リストを生成する際、連結リストに含まれる基準ノードの組合せの類似度が大きい順に、連結リストを連結させる。   When generating a linked list, the linked list is linked in descending order of similarity of combinations of reference nodes included in the linked list.

この例では、第1連結リストの基準ノードb及び基準ノードfの類似度と、第2連結リストの基準ノードaと基準ノードcの類似度とを比較すると、同図(b)より、第1連結リストの類似度が大きい。従って、第1連結リストの末尾ノードe334に第2連結リスト380のHEADポインタ381から順にノードa351、ノードc361を追加し、同図に示す順位決定連結リスト390を生成する。   In this example, when the similarity between the reference node b and the reference node f in the first linked list and the similarity between the reference node a and the reference node c in the second linked list are compared, as shown in FIG. The similarity of the linked list is large. Therefore, the node a351 and the node c361 are added in order from the HEAD pointer 381 of the second linked list 380 to the end node e334 of the first linked list, and the rank determining linked list 390 shown in FIG.

マップ生成部108は、上記の方法で生成した連結リストのリンク情報をクラスタ出力順位情報として出力制御部109に送出する。   The map generation unit 108 sends the link information of the linked list generated by the above method to the output control unit 109 as cluster output order information.

次に、出力制御部109について説明する。   Next, the output control unit 109 will be described.

出力制御部109は、マップ生成部108が生成したクラスタの出力順位情報と、解決語の出力順位情報と、マトリクス要素テーブルとに基づいて、課題語と、解決語及び特徴語と、各解決語のGF値とをマトリクス上に表した課題・解決マトリクスの各行列と各セルに配置する画像やデータ等の情報を生成し、表示部4に送出する機能を有する。   Based on the cluster output rank information, the solution word output rank information, and the matrix element table generated by the map generation unit 108, the output control unit 109 executes the task word, the solution word and the feature word, and each solution word. It has a function of generating information such as images and data to be arranged in each matrix and each cell of the problem / solution matrix in which the GF value is expressed on a matrix and sending it to the display unit 4.

<データ>
本実施の形態に係る情報処理装置1が用いるデータについて説明する。
<Data>
Data used by the information processing apparatus 1 according to the present embodiment will be described.

図2(a)は、形態素解析部103が、指定特許文書データ群の各特許文書データに含まれている各解決情報について形態素解析処理を行って生成する文書別品詞情報(1)テーブルの構成及びデータ例を示している。   FIG. 2A shows the structure of a part-by-document part-of-speech information (1) table generated by the morpheme analysis unit 103 by performing morpheme analysis processing on each piece of solution information included in each patent document data of the designated patent document data group. And an example of data is shown.

文書別品詞情報(1)テーブルは、解決語抽出部106や特徴語抽出部105が指定特許文書データ群の解決語及び特徴語を抽出する際に用いられ、特許ID111、識別No.112、形態素データ113、及び品詞114を対応付けて記憶している。   The document-specific part-of-speech information (1) table is used when the solution word extraction unit 106 and the feature word extraction unit 105 extract the solution word and the feature word of the designated patent document data group, and the patent ID 111, the identification number 112, the morpheme Data 113 and part of speech 114 are stored in association with each other.

ここで、識別No.112は、形態素解析処理によって特許文書データの解決情報毎に分解された各形態素データを識別するための識別番号を示し、形態素解析部103が解決情報毎に形態素データを検出した順に番号が割り振られる。また、形態素データ113は、形態素解析処理によって分解された解決情報の形態素データを示しており、品詞114は、各形態素データが属する品詞を示している。   Here, the identification number 112 indicates an identification number for identifying each morpheme data decomposed for each solution information of patent document data by morpheme analysis processing, and the morpheme analysis unit 103 detects morpheme data for each solution information. Numbers are assigned in the order in which they are performed. The morpheme data 113 indicates the morpheme data of the resolution information decomposed by the morpheme analysis process, and the part of speech 114 indicates the part of speech to which each morpheme data belongs.

同図(b)は、同図(a)と同様、形態素解析部103が、指定特許文書データ群の各特許文書データに含まれている課題情報について形態素解析処理を行って生成する文書別品詞情報(2)テーブルの構成及びデータ例を示している。   FIG. 6B shows the part-of-speech for each document generated by the morphological analysis unit 103 by performing morphological analysis processing on the problem information included in each patent document data of the designated patent document data group, as in FIG. The structure of the information (2) table and data examples are shown.

文書別品詞情報(2)テーブル120は、クラスタ分析部104や課題語抽出部107がクラスタ分類処理及び課題語の抽出を行う際に用いられ、特許ID121、識別No.122、形態素データ123、及び品詞124を対応付けて記憶しており、詳細は、上記文書別品詞情報(1)テーブル110と同様であるため説明を省略する。   Part-of-speech part-of-speech information (2) table 120 is used when cluster analysis unit 104 or task word extraction unit 107 performs cluster classification processing and task word extraction, and includes patent ID 121, identification number 122, morpheme data 123, and The parts of speech 124 are stored in association with each other, and the details are the same as those in the document-specific part of speech information (1) table 110 described above.

また、同図(c)は、品詞情報(2)テーブルを示している。   FIG. 5C shows a part-of-speech information (2) table.

同図の品詞情報(2)テーブル125は、上記文書別品詞情報(2)テーブル120の各形態素データのうち重複する形態素データを除いて統合させたものであり、クラスタ分類処理の際に用いられ、識別No.126と形態素データ127と品詞128とを対応づけて記憶している。   The part-of-speech information (2) table 125 in the figure is obtained by integrating the morpheme data of the above-mentioned document-specific part-of-speech information (2) table 120 by excluding duplicate morpheme data, and is used in the cluster classification process. ID No. 126, morpheme data 127, and part of speech 128 are stored in association with each other.

識別No.126は、文書別品詞情報(2)テーブル120の各形態素データを統合させる際に改めて付されるものであり、形態素データの各特許文書データにおける検出順位を示すものではない。形態素データ127は、文書別品詞情報(2)テーブル120の全形態素データにおいて重複する形態素データを除いた形態素データを示しており、品詞128は、形態素データ127が属する品詞を示している。   The identification number 126 is given again when integrating the morpheme data in the document-specific part-of-speech information (2) table 120, and does not indicate the detection order of the morpheme data in each patent document data. The morpheme data 127 indicates morpheme data excluding duplicate morpheme data in all morpheme data of the document-specific part-of-speech information (2) table 120, and the part-of-speech 128 indicates the part-of-speech to which the morpheme data 127 belongs.

次に、同図(d)について説明する。
同図(d)は、課題文書ベクトル情報の構成及びデータ例を示している。
Next, FIG. 4D will be described.
FIG. 6D shows the configuration and data example of assignment document vector information.

同図の課題文書ベクトル情報130は、クラスタ分析部104が上述の品詞情報(2)テーブル125から抽出した課題語候補対象データの各指定特許文書データにおけるTF・IDF値を算出した結果であり、クラスタ分析部104が指定特許文書データ群をクラスタ分類する際に用いる。   The problem document vector information 130 in FIG. 10 is a result of calculating the TF / IDF value in each designated patent document data of the problem word candidate target data extracted by the cluster analysis unit 104 from the part-of-speech information (2) table 125 described above. This is used when the cluster analysis unit 104 classifies the specified patent document data group into clusters.

ここで、課題文書ベクトル情報130は、識別No.131、形態素データ132、及び特許文書データ毎のTF・IDF値133を対応付けたものであり、識別No.131は、抽出された課題語候補対象データの品詞情報(2)テーブル125における識別番号を示し、形態素データ132は課題語候補対象データを示しており、TF・IDF値133は各指定特許文書データにおける各課題語候補対象データのTF・ IDF値を示している。   Here, the assignment document vector information 130 associates the identification number 131, the morpheme data 132, and the TF / IDF value 133 for each patent document data, and the identification number 131 is the extracted candidate word candidate. Part-of-speech information of target data (2) Indicates an identification number in the table 125, morpheme data 132 indicates target word candidate target data, and TF / IDF value 133 indicates TF of each target word candidate target data in each designated patent document data -Indicates the IDF value.

続いて、図3について説明する。
図3(a)は、クラスタ情報の構成及びデータ例を示している。
Next, FIG. 3 will be described.
FIG. 3A shows a configuration of cluster information and an example of data.

同図のクラスタ情報140は、クラスタ分析部104が指定特許文書データ群をクラスタ分類した結果を示している。   The cluster information 140 in FIG. 6 shows the result of the cluster analysis unit 104 classifying the designated patent document data group into clusters.

クラスタ情報140は、課題語抽出部107による課題語の抽出とマップ生成部108による各クラスタの出力順位決定処理の際に用いられ、クラスタ141、特許ID142、及び件数143を対応づけて記憶している。   The cluster information 140 is used when the task word extraction unit 107 extracts task words and the map generation unit 108 performs output rank determination processing for each cluster. The cluster information 140, the patent ID 142, and the number 143 are stored in association with each other. Yes.

ここで、クラスタ141は、クラスタ分類の際に生成された各クラスタを示す情報を示しており、特許ID142は、各クラスタに属する指定特許文書データの識別IDを示している。また、件数143は、各クラスタに属する指定特許文書データの件数を示している。   Here, the cluster 141 indicates information indicating each cluster generated at the time of cluster classification, and the patent ID 142 indicates the identification ID of designated patent document data belonging to each cluster. The number of cases 143 indicates the number of designated patent document data belonging to each cluster.

図3(b)は、課題語抽出部107によって結合された結合形態素(2)と各結合形態素(2)の各クラスタにおけるGF・IDF値の算出結果を示す結合形態素(2)情報の構成及びデータ例を示している。   FIG. 3B shows the structure of the combined morpheme (2) information indicating the calculation result of the GF / IDF value in each cluster of the combined morpheme (2) and each combined morpheme (2) combined by the task word extraction unit 107. An example of data is shown.

結合形態素(2)情報150は、課題語抽出部107が課題語を抽出する際に用いられ、結合形態素(2)151、クラスタ毎のGF・IDF値(順位)152を対応付けて記憶されている。   The combined morpheme (2) information 150 is used when the task word extraction unit 107 extracts task words, and is stored in association with the combined morpheme (2) 151 and the GF / IDF value (rank) 152 for each cluster. Yes.

ここで、結合形態素(2)151は、結合形態素(2)のデータを示し、GF・IDF値(順位)152は、各結合形態素(2)の各クラスタにおけるGF・IDF値と、各クラスタにおけるGF・IDF値の順位を示している。   Here, the combined morpheme (2) 151 indicates the data of the combined morpheme (2), and the GF • IDF value (rank) 152 indicates the GF • IDF value in each cluster of each combined morpheme (2), and in each cluster. The ranking of GF / IDF values is shown.

次に、同図(c)について説明する。
同図(c)は、課題語抽出リストの構成及びデータ例を示している。
Next, FIG. 3C will be described.
FIG. 4C shows the configuration and data example of the task word extraction list.

同図の課題語抽出リスト160は、上述した結合形態素(2)情報150のGF・IDF値の順位に基づいて、課題語抽出部107によりクラスタ毎に抽出された課題語を示している。   The task word extraction list 160 in FIG. 8 shows task words extracted for each cluster by the task word extraction unit 107 based on the rank of the GF / IDF values of the combined morpheme (2) information 150 described above.

ここで、課題語抽出リスト160は、クラスタ161と課題語(1〜5)162とを対応付けて記憶しており、クラスタ161は、各クラスタを示す情報を示し、課題語(1〜5)162は、各クラスタにおける課題語を示している。   Here, the task word extraction list 160 stores clusters 161 and task words (1-5) 162 in association with each other, and the cluster 161 indicates information indicating each cluster, and task words (1-5). Reference numeral 162 denotes a task word in each cluster.

例えば、同図において、クラスタ161が"課題1"の場合、"課題1"のクラスタの課題語として、課題語1"低下"、課題語2"濃度むら"、課題語3"ガサツキ等"、課題語4"長期"、及び課題語5"可能"が抽出されたことになる。   For example, in the same figure, when the cluster 161 is “task 1”, the task word 1 “decrease”, the task word 2 “density unevenness”, the task word 3 “gasiness, etc.” The task word 4 “long term” and the task word 5 “possible” are extracted.

続いて、図4について説明する。
図4(a)は、解決語候補形態素情報の構成及びデータ例を示している。
Next, FIG. 4 will be described.
FIG. 4A shows a configuration and data example of the solution word candidate morpheme information.

同図の解決語候補形態素情報170は、解決語抽出部106が解決語及び特徴語を抽出する際、上述の文書別品詞情報(1)テーブル110から抽出された解決語候補形態素データに基づいて生成される。   The solution word candidate morpheme information 170 shown in the figure is based on the solution word candidate morpheme data extracted from the document-specific part-of-speech information (1) table 110 when the solution word extraction unit 106 extracts solution words and feature words. Generated.

ここで、解決語候補形態素情報170は、形態素171、GF値172、及び順位173を対応付けて記憶しており、形態素171は、解決語候補の形態素データを示し、GF値172は、各解決語候補の形態素の指定特許文書データ群におけるGF値の算出結果を示しており、順位173はGF値172を降順に並べたときの順位を示している。   Here, the solution word candidate morpheme information 170 stores the morpheme 171, the GF value 172, and the rank 173 in association with each other, the morpheme 171 indicates the morpheme data of the solution word candidate, and the GF value 172 indicates each solution. The calculation result of the GF value in the designated patent document data group of the word candidate morpheme is shown, and the rank 173 indicates the rank when the GF values 172 are arranged in descending order.

また、同図(b)は、解決語リストの構成及びデータ例を示している。   FIG. 5B shows the configuration of the solution word list and data examples.

同図の解決語リスト180は、解決語抽出部106が解決語候補形態素情報170に基づいて抽出した指定特許データ群における解決語を記憶している。   The solution word list 180 in the figure stores solution words in the designated patent data group extracted by the solution word extraction unit 106 based on the solution word candidate morpheme information 170.

また、同図(c)は、結合形態素(1)情報の構成及びデータ例を示しており、結合形態素(1)情報は、特徴語抽出部105が特徴語を抽出する際に用いられる。   FIG. 6C shows the configuration and data example of combined morpheme (1) information. The combined morpheme (1) information is used when the feature word extraction unit 105 extracts feature words.

同図の結合形態素(1)情報190は、結合形態素(1)191と、GF・IDF値192と、形態素193とを対応付けて記憶している。   The combined morpheme (1) information 190 in the figure stores the combined morpheme (1) 191, the GF / IDF value 192, and the morpheme 193 in association with each other.

ここで、結合形態素(1)191は、文書別品詞情報(1)テーブル110の形態素データ113に基づいて結合された結合形態素(1)の各データを示しており、GF・IDF値192は、各結合形態素(1)の指定特許文書データ群におけるGF・IDF値を示し、形態素193は、各結合形態素(1)を構成する形態素の情報を示している。   Here, the combined morpheme (1) 191 indicates each piece of data of the combined morpheme (1) based on the morpheme data 113 of the document-specific part-of-speech information (1) table 110, and the GF / IDF value 192 is The GF / IDF value in the specified patent document data group of each combined morpheme (1) is shown, and the morpheme 193 shows information on the morpheme constituting each combined morpheme (1).

尚、形態素193の各形態素は、解決語抽出部106が格助詞毎に抽出した前方形態素データであり、形態素193の各々の形態素データについて、その形態素データが結合形態素(1)に含まれる場合には"1"、含まれない場合には"0"で表す。例えば、同図の結合形態素(1)191が"磁性トナー"の場合、形態素データ"トナー"が含まれるので、形態素193の"トナー"の欄に"1"が格納される。   Note that each morpheme of the morpheme 193 is forward morpheme data extracted by the solution word extraction unit 106 for each case particle, and when each morpheme data of the morpheme 193 is included in the combined morpheme (1), Is represented by “1”, and “0” when not included. For example, when the combined morpheme (1) 191 in the figure is “magnetic toner”, the morpheme data “toner” is included, so “1” is stored in the “toner” column of the morpheme 193.

次に、図5について説明する。
図5(a)は、解決語別結合形態素(1)情報の構成及びデータ例を示している。
Next, FIG. 5 will be described.
FIG. 5A shows the configuration and data example of the solution-specific combined morpheme (1) information.

同図の解決語別結合形態素(1)情報210は、特徴語抽出部105が上記結合形態素(1)情報190と解決語リスト180とに基づいて、解決語を含む結合形態素(1)を抽出した結果を示している。   In the combined morpheme (1) information 210 for each solution word in the figure, the feature word extraction unit 105 extracts the combined morpheme (1) including the solution word based on the above-described combined morpheme (1) information 190 and the solution word list 180. Shows the results.

ここで、解決語別結合形態素(1)情報210は、解決語211と、結合形態素(1)212とを対応付けて記憶しており、解決語211は、解決語リスト180に記憶されている各解決語を示し、結合形態素(1)212は、解決語211を含む結合形態素(1)を示している。   Here, the solution-specific combined morpheme (1) information 210 stores the solution word 211 and the connection morpheme (1) 212 in association with each other, and the solution word 211 is stored in the solution word list 180. Each solution word is shown, and a combined morpheme (1) 212 indicates a combined morpheme (1) including the solution word 211.

また、同図(b)は、解決語別特徴語抽出情報の構成及びデータ例を示している。   FIG. 5B shows the configuration and data example of the solution word-specific feature word extraction information.

同図の解決語別特徴語抽出情報220は、特徴語抽出部105が上記解決語別結合形態素(1)情報210と結合形態素(1)情報190とに基づいて特徴語を抽出した結果である。   The feature word extraction information 220 for each solution word in the figure is a result of the feature word extraction unit 105 extracting feature words based on the above-mentioned solution word combination morpheme (1) information 210 and the combination morpheme (1) information 190. .

解決語別特徴語抽出情報220は、解決語221と特徴語(1〜5)222とを対応付けて記憶しており、解決語221は、解決語リスト180の解決語を示し、特徴語222は、解決語別結合形態素(1)情報210の各解決語の結合形態素(1)のうち、結合形態素(1)情報190のGF・IDF値192の順位が、各解決語において上位5位までの各結合形態素(1)を示している。   The solution word-specific feature word extraction information 220 stores the solution word 221 and the feature word (1-5) 222 in association with each other. The solution word 221 indicates the solution word in the solution word list 180, and the feature word 222. The combined morpheme (1) information 210 of each solution word of the solution morpheme (1) information 210, the rank of the GF · IDF value 192 of the bond morpheme (1) information 190 to the top five in each solution word Each coupled morpheme (1) is shown.

次に、同図(c)について説明する。
同図(c)は、クラスタ間類似度情報の構成及びデータ例を示している。
Next, FIG. 3C will be described.
FIG. 3C shows the configuration and data example of the similarity information between clusters.

同図のクラスタ間類似度情報230は、マップ生成部108がクラスタ情報140と課題文書ベクトル情報130とに基づいて、各クラスタ間の類似度を算出した結果を示しており、クラスタ間類似度情報230は、マップ生成部108が各クラスタの出力順位を決定する際に用いられる。   The inter-cluster similarity information 230 in FIG. 6 shows the result of the similarity between the clusters calculated by the map generation unit 108 based on the cluster information 140 and the assignment document vector information 130. The inter-cluster similarity information 230 is used when the map generation unit 108 determines the output order of each cluster.

クラスタ間類似度情報230は、各クラスタを示す情報231、232とを対応づけたものであり、各クラスタを示す情報231、232で示されるセルの値は、それらが示す各クラスタ間の類似度を示している。   The inter-cluster similarity information 230 is obtained by associating information 231 and 232 indicating each cluster, and the value of the cell indicated by the information 231 and 232 indicating each cluster is the similarity between the clusters indicated by the clusters. Is shown.

続いて、図6について説明する。
図6(a)は、マトリクス要素テーブルの構成及びデータ例を示している。
Next, FIG. 6 will be described.
FIG. 6A shows the configuration and data example of the matrix element table.

同図のマトリクス要素テーブル240は、マップ生成部108が解決語毎に各クラスタにおけるGF値を算出した結果を示しており、解決語を出力する列を決定する際に用いられる。   The matrix element table 240 in FIG. 5 shows the result of the map generation unit 108 calculating the GF value in each cluster for each solution word, and is used when determining the column to output the solution word.

マトリクス要素テーブル240は、解決語241と各クラスタ(課題1〜課題n)242とを対応付けて記憶している。   The matrix element table 240 stores the solution word 241 and each cluster (task 1 to task n) 242 in association with each other.

ここで、解決語241は、解決語リスト180に格納されている解決語を示しており、クラスタ値242は、課題1〜課題nで示される各クラスタにおける各解決語のGF値を示している。   Here, the solution word 241 indicates a solution word stored in the solution word list 180, and the cluster value 242 indicates the GF value of each solution word in each cluster indicated by the tasks 1 to n. .

同図(b)は、解決語間類似度情報の構成及びデータ例を示している。   FIG. 2B shows the configuration and data example of the similarity information between solution words.

同図の解決語間類似度情報250は、マップ生成部108が各解決語を出力する列を決定する際に用いられる。   The solution similarity information 250 in the figure is used when the map generation unit 108 determines a column to output each solution word.

解決語間類似度情報250は、解決語251と解決語252は、解決語リストの各解決語を示し、各解決語251、252で示されるセルは解決語間の類似度の値を示している。   In the solution word similarity information 250, the solution word 251 and the solution word 252 indicate each solution word in the solution word list, and the cells indicated by the solution words 251 and 252 indicate the similarity value between the solution words. Yes.

<動作>
以下、本実施の形態に係る情報処理装置1の動作について説明する。
<Operation>
Hereinafter, the operation of the information processing apparatus 1 according to the present embodiment will be described.

図10及び図11は、本実施の形態に係る情報処理装置1の動作フローを示しており、同図に従って説明する。   10 and 11 show an operation flow of the information processing apparatus 1 according to the present embodiment, which will be described with reference to FIG.

情報処理装置1の入力受付部101は、入力部3を介して技術分野を示す情報(以下、「技術分野情報」と言う。) を指定する入力をユーザから受付けると、データ取得部102に受付けた技術分野情報を送出する(ステップS11)。   When the input receiving unit 101 of the information processing apparatus 1 receives an input designating information indicating a technical field (hereinafter referred to as “technical field information”) from the user via the input unit 3, the input receiving unit 101 receives the input from the user. Technical field information is transmitted (step S11).

データ取得部102は、ステップS11において入力受付部101から受付けた技術分野情報が示す技術分野に該当するM件の指定特許文書データ群を記憶部2から取得し、取得した指定特許文書データ群の各指定特許文書データにおける各課題情報と各特許請求の範囲データを抽出して形態素解析部103に送出する(ステップS12)。   The data acquisition unit 102 acquires M designated patent document data groups corresponding to the technical field indicated by the technical field information received from the input reception unit 101 in step S11 from the storage unit 2, and stores the acquired designated patent document data group. Each subject information in each designated patent document data and each claim scope data are extracted and sent to the morpheme analysis unit 103 (step S12).

形態素解析部103は、ステップS12においてデータ取得部102から受付けた各指定特許文書データの各課題情報について形態素解析処理を行い、指定特許文書データ毎の文書別品詞情報(2)テーブル120(図2(b))を生成し、文書別品詞情報(2)テーブルにおいて重複する形態素データを統合させ、指定特許データ群における品詞情報(2)テーブル125(図2(c))を生成して記憶部2に格納する(ステップS13)。   The morpheme analysis unit 103 performs morpheme analysis processing on each piece of subject information of each designated patent document data received from the data acquisition unit 102 in step S12, and the document-specific part-of-speech information (2) table 120 for each designated patent document data (FIG. 2). (b)) is generated, the overlapping morpheme data in the document-specific part-of-speech information (2) table is integrated, and the part-of-speech information (2) table 125 (FIG. 2 (c)) in the specified patent data group is generated. 2 (step S13).

続いて、形態素解析部103は、ステップS12においてデータ取得部102から受付けた各指定特許文書データの各特許請求の範囲データの各解決情報について、形態素解析対象となる分析対象抽出処理を行う(ステップS14)。   Subsequently, the morpheme analysis unit 103 performs an analysis object extraction process to be a morpheme analysis target for each solution information of each claim range data of each designated patent document data received from the data acquisition unit 102 in step S12 (step S12). S14).

ここで、分析対象抽出処理について図12を用いて説明する。
図12(a)は、特許請求の範囲データにおいて[請求項1]20として記載された解決情報を例示した図である。
Here, the analysis target extraction process will be described with reference to FIG.
FIG. 12A is a diagram exemplifying solution information described as [Claim 1] 20 in the claims data.

形態素解析部103は、解決情報が、同図の下線部21が示す"において、"(以下、「第1文字列」と言う。)と、下線部22が示す"ことを特徴とするXXX。"(以下、「第2文字列」と言う。)とを含む所定形式で記載されている場合には、第1文字列と第2文字列との間の各文字列を分析対象として抽出する。   The morphological analysis unit 103 is characterized in that the solution information is “indicated by the underlined portion 22” (hereinafter referred to as “first character string”) in the “underlined portion 21” of the drawing. "(Hereinafter referred to as" second character string "), the character string between the first character string and the second character string is extracted as an analysis target. .

同図(b)は、上記分析対象を抽出する処理のフローを示しており、同図に従って分析対象抽出の動作について説明する。   FIG. 5B shows a flow of processing for extracting the analysis target, and the analysis target extraction operation will be described with reference to FIG.

形態素解析部103は、各指定特許文書データの各特許請求の範囲データから各解決情報を抽出し(ステップS401)、解決情報毎に所定形式に合致するか否か判断する(ステップS402) 。   The morpheme analysis unit 103 extracts each piece of solution information from each claim range data of each designated patent document data (step S401), and determines whether each solution information matches a predetermined format (step S402).

ステップS402において、形態素解析部103が、解決情報が所定形式に合致すると判断した場合(ステップS402:Y)、形態素解析部103は、解決情報中の第1文字列と第2文字列の所定データに挟まれた範囲の各文字列を分析対象データとして抽出する(ステップS403)。   In step S402, when the morpheme analysis unit 103 determines that the solution information matches the predetermined format (step S402: Y), the morpheme analysis unit 103 sets the predetermined data of the first character string and the second character string in the solution information. Each character string in the range between the two is extracted as analysis target data (step S403).

また、ステップS402において、形態素解析部103が、解決情報が所定形式に合致しないと判断した場合(ステップS402:N)、形態素解析部103は、解決情報中の全文字列を分析対象データとして抽出する(ステップS404)。   In step S402, when the morpheme analysis unit 103 determines that the solution information does not match the predetermined format (step S402: N), the morpheme analysis unit 103 extracts all character strings in the solution information as analysis target data. (Step S404).

図10に戻り、形態素解析部103は、ステップS14で抽出した解決情報の分析対象部分のデータについて形態素解析処理を行い、特許文書データ毎に文書別品詞情報(1)テーブル110(図2(a))を生成し、記憶部2に格納する(ステップS15)。   Returning to FIG. 10, the morpheme analysis unit 103 performs morpheme analysis processing on the data of the analysis target portion of the solution information extracted in step S14, and for each patent document data, the document-specific part-of-speech information (1) table 110 (FIG. )) Is generated and stored in the storage unit 2 (step S15).

クラスタ分析部104は、品詞情報(2)テーブル125に基づいて、指定特許文書データ群を複数のクラスタに分類するクラスタリング処理を行う(ステップS16)。   The cluster analysis unit 104 performs clustering processing for classifying the designated patent document data group into a plurality of clusters based on the part-of-speech information (2) table 125 (step S16).

以下、クラスタリング処理について図13を用いて説明する。
クラスタ分析部104は、品詞情報(2)テーブル125を記憶部2から読み出し(ステップS501)、品詞情報(2)テーブル125の形態素データ123に格納されている形態素データのうち、品詞124が第1分類に属する形態素データを課題語候補対象データとして抽出する(ステップS502)。
Hereinafter, the clustering process will be described with reference to FIG.
The cluster analysis unit 104 reads the part-of-speech information (2) table 125 from the storage unit 2 (step S501). Of the morpheme data stored in the morpheme data 123 of the part-of-speech information (2) table 125, the part of speech 124 is the first. Morphological data belonging to the classification is extracted as task word candidate target data (step S502).

クラスタ分析部104は、ステップS502で抽出した各課題語候補対象データについて、各指定特許文書データにおけるTF・IDF値を算出して課題文書ベクトル情報130(図2(d))を生成し(ステップS503) 、課題文書ベクトル情報130のTF・IDF値を要素とする指定特許文書データ毎の文書ベクトルを生成する(ステップS504) 。   The cluster analysis unit 104 calculates the TF / IDF value in each designated patent document data for each subject word candidate target data extracted in step S502, and generates the subject document vector information 130 (FIG. 2 (d)). In step S503, a document vector for each designated patent document data having the TF / IDF value of the assignment document vector information 130 as an element is generated (step S504).

続いて、クラスタ分析部104は、ステップS504で生成した指定特許文書データ毎の各文書ベクトルを用いて、文書ベクトル間の余弦値を算出して指定特許文書データ間の類似度を求める(ステップS505)。   Subsequently, the cluster analysis unit 104 calculates a cosine value between the document vectors by using each document vector for each designated patent document data generated in step S504 to obtain a similarity between the designated patent document data (step S505). ).

クラスタ分析部104は、カウンタを1に設定し(ステップS506)、ステップS505で求めた類似度のうち、類似度が最大である指定特許文書データの文書ベクトル同士を統合させてクラスタを生成する(ステップS507)。   The cluster analysis unit 104 sets the counter to 1 (step S506), and generates a cluster by integrating the document vectors of the designated patent document data having the maximum similarity among the similarities obtained in step S505 (step S506). Step S507).

クラスタ分析部104は、カウンタ値が指定特許文書データ件数M−1より小さいか否か判断し(ステップS508)、M−1より小さい場合には(ステップS508:Y)、ステップS507で生成されたクラスタの各文書ベクトルと残りの各文書ベクトルとの間の類似度を、最長距離法を用いて再計算する(ステップS509)。   The cluster analysis unit 104 determines whether or not the counter value is smaller than the designated patent document data number M-1 (step S508). If the counter value is smaller than M-1 (step S508: Y), the cluster analysis unit 104 is generated in step S507. The similarity between each document vector of the cluster and the remaining document vectors is recalculated using the longest distance method (step S509).

クラスタ分析部104は、ステップS509で再計算した各類似度の最大値が0より大きいか否か判断し(ステップS510)、類似度の最大値が0より大きい場合には(ステップS510:Y)、カウンタ値に1を加算して(ステップS511)、上述したステップS507以下の処理を繰り返し行う。   The cluster analysis unit 104 determines whether or not the maximum value of each similarity recalculated in step S509 is greater than 0 (step S510), and if the maximum value of similarity is greater than 0 (step S510: Y). Then, 1 is added to the counter value (step S511), and the processing from step S507 onward is repeated.

また、ステップS510において、クラスタ分析部104が否定的な判断した場合、即ち、類似度の最大値が0の場合には(ステップS510:N)、文書ベクトルの統合処理結果として生成された各クラスタについて、当該クラスタに属する指定特許文書データの件数を計数し、クラスタを示す情報とクラスタに属する指定特許文書データと件数を対応づけたクラスタ情報140(図3(a))を生成し、記憶部2に格納する (ステップS512)。   If the cluster analysis unit 104 makes a negative determination in step S510, that is, if the maximum similarity is 0 (step S510: N), each cluster generated as a result of document vector integration processing is displayed. The number of designated patent document data belonging to the cluster is counted, and cluster information 140 (FIG. 3A) in which information indicating the cluster is associated with the designated patent document data belonging to the cluster is generated, and the storage unit 2 (step S512).

図10に戻り、課題語抽出部107は、文書別品詞情報(2)テーブル120とクラスタ情報140とに基づいて、ステップS16において生成された各クラスタを示す課題語を抽出する課題語抽出処理を行う(ステップS17)。   Returning to FIG. 10, the task word extraction unit 107 performs a task word extraction process of extracting task words indicating each cluster generated in step S <b> 16 based on the document-specific part-of-speech information (2) table 120 and the cluster information 140. This is performed (step S17).

以下、課題語抽出処理の詳細について図14を用いて説明する。
図14において、課題語抽出部107は、記憶部2から品詞情報(2)テーブル125と文書別品詞情報(2)テーブル120とを読み出し(ステップS601)、品詞情報(2)テーブル125から、品詞が第1分類に属する課題語候補対象データを抽出し(ステップS602)、抽出した各課題語候補対象データを含む文書別品詞情報(2)テーブル120を用いて形態素結合処理を行い、結合形態素(2)を生成する(ステップS603)。
Details of the task word extraction process will be described below with reference to FIG.
14, the task word extraction unit 107 reads the part of speech information (2) table 125 and the document-specific part of speech information (2) table 120 from the storage unit 2 (step S601), and the part of speech information (2) table 125 reads the part of speech. Extracts task word candidate target data belonging to the first category (step S602), performs morpheme combining processing using the document-specific part-of-speech information (2) table 120 including each extracted subject word candidate target data, 2) is generated (step S603).

ここで、形態素結合処理を図15に従って説明する。
図15のステップS310において、課題語抽出部107は、文書別品詞情報(2)テーブル120において、ステップS601で抽出した各課題語候補対象データと一致する形態素データを含む特許IDに対応する形態素データの識別No.を参照し、その各形態素データの識別No.を読み出す。
Here, the morpheme combining process will be described with reference to FIG.
In step S310 of FIG. 15, the task word extraction unit 107, in the document-specific part-of-speech information (2) table 120, the morpheme data corresponding to the patent ID including the morpheme data matching each task word candidate target data extracted in step S601. The identification number of each morpheme data is read with reference to the identification number.

課題語抽出部107は、ステップS310で読み出した識別No.に基づき、識別No.が連続する限り、その連続する形態素データを結合して結合形態素(2)を生成する(ステップS311)。   The task word extraction unit 107 generates a combined morpheme (2) by combining the continuous morpheme data as long as the identification numbers continue based on the identification numbers read in step S310 (step S311).

課題語抽出部107は、抽出した全ての課題語候補対象の形態素データについて結合処理が終了したか否か判断し(ステップS312)、全ての形態素データの結合処理が終了した場合には(ステップS312:Y)、ステップS311の形態素結合処理を終了し、終了していない場合には(ステップS312:N)、ステップS311以下の処理を繰り返し行う。   The task word extraction unit 107 determines whether or not the combining process has been completed for all the extracted morpheme data of the candidate word candidates (step S312), and when the combining process of all the morpheme data has been completed (step S312). : Y), the morpheme combining process in step S311 is ended. If not (step S312: N), the processes in and after step S311 are repeated.

図14に戻り、課題語抽出部107は、記憶部2からクラスタ情報140を読み出し(ステップS604)、上述したステップS311で生成した各結合形態素(2)について、クラスタ情報140の各クラスタに属する特許文書データ群におけるGF・IDF値を算出し、GF・IDF値の降順で順位を導出して結合形態素(2)情報150(図3(b))を生成する(ステップS605)。   Returning to FIG. 14, the task word extraction unit 107 reads the cluster information 140 from the storage unit 2 (step S604), and for each combined morpheme (2) generated in step S311 described above, patents belonging to each cluster of the cluster information 140 The GF / IDF value in the document data group is calculated, and the rank is derived in descending order of the GF / IDF value to generate the combined morpheme (2) information 150 (FIG. 3B) (step S605).

続いて、課題語抽出部107は、結合形態素(2)情報150のクラスタ毎のGF・IDF値152を参照し、クラスタ毎にGF・IDF値が上位5位までの各結合形態素(2)を課題語として決定し、課題語抽出リスト160(図3(c))を生成して記憶部2に格納する(ステップS606)。   Subsequently, the task word extraction unit 107 refers to the GF / IDF value 152 for each cluster in the combined morpheme (2) information 150, and determines each combined morpheme (2) having the top five GF / IDF values for each cluster. A task word extraction list 160 (FIG. 3C) is generated and stored in the storage unit 2 (step S606).

図10に戻り、解決語抽出部106及び特徴語抽出部105は、文書別品詞情報(1)テーブル110に基づいて、指定特許文書データ群における解決語及び特徴語を抽出する抽出処理を行う(ステップS18)。   Returning to FIG. 10, the solution word extraction unit 106 and the feature word extraction unit 105 perform an extraction process for extracting the solution word and the feature word in the designated patent document data group based on the document-specific part-of-speech information (1) table 110 ( Step S18).

以下、解決語及び特徴語の抽出処理について図16を用いて説明する。
図16のステップS701において、解決語抽出部106は、記憶部2から文書別品詞情報(1)テーブル110(図2(a))を読み出し、文書別品詞情報(1)テーブル110の品詞114が所定の格助詞の形態素データ毎に前方形態素データを抽出し、抽出した格助詞毎の前方形態素データのうち、品詞が第1分類に属する解決語候補形態素データを抽出する(ステップS702)。
The solution word and feature word extraction processing will be described below with reference to FIG.
In step S701 in FIG. 16, the solution word extraction unit 106 reads out the document-specific part-of-speech information (1) table 110 (FIG. 2A) from the storage unit 2, and the part-of-speech 114 in the document-specific part-of-speech information (1) table 110 The forward morpheme data is extracted for each morpheme data of a predetermined case particle, and the solution candidate morpheme data whose part of speech belongs to the first classification is extracted from the extracted front morpheme data for each extracted case particle (step S702).

ここで、例えば、文書別品詞情報(1)テーブル110に所定の格助詞「を」が格納されているレコード115の場合、この格助詞の前方形態素データは、"磁気""ブラシ""により""トナー"であり、これらの前方形態素データのうち、品詞が第1分類(名詞、未知語、記号、形容詞)に属する"磁気""ブラシ""トナー"が解決語候補形態素データとして抽出される。   Here, for example, in the case of the record 115 in which a predetermined case particle “O” is stored in the document-specific part-of-speech information (1) table 110, the front morpheme data of this case particle is expressed by “magnetic” “brush” ”. Among these forward morpheme data, “magnetic”, “brush”, and “toner” belonging to the first classification (noun, unknown word, symbol, adjective) are extracted as solution candidate morpheme data. .

ステップS702に続いて、解決語抽出部106は、各解決語候補形態素データについて、指定特許文書データ群におけるGF値を算出し、GF値の降順で順位を導出して解決語候補対象情報170(図4(a))を生成する(ステップS703)。   Subsequent to step S702, the solution word extraction unit 106 calculates the GF value in the designated patent document data group for each solution word candidate morpheme data, derives the rank in descending order of the GF value, and sets the solution word candidate target information 170 ( FIG. 4A) is generated (step S703).

解決語抽出部106は、ステップS703で生成した解決語候補対象情報170の順位173が所定順位までの形態素を解決語として決定し、解決語リスト180(図4(b))を生成する(ステップS704)。   The solution word extraction unit 106 determines, as solution words, morphemes in which the rank 173 of the solution word candidate target information 170 generated in step S703 reaches a predetermined rank, and generates a solution word list 180 (FIG. 4B) (steps). S704).

解決語抽出部106は、文書別品詞情報(1)テーブル110から、ステップS702と同様に所定の格助詞毎の前方形態素を抽出し(ステップS705)、抽出した格助詞毎の前方形態素データについて、文書別品詞情報(1)テーブル110において、その格助詞の直前に検出された前方形態素から順に、品詞が第1分類以外の前方形態素データが出現するまで各前方形態素を検出順に結合して結合形態素(1)を生成する前方形態素結合処理を行い、結合形態素(1)情報190(図4(c))に結合形態素(1)を格納する。また、解決語抽出部106は、各結合形態素(1)に、ステップS705で抽出した形態素が含まれる場合には、結合形態素(1)情報190の形態素193に "1"を格納する(ステップS706)。   The solution word extraction unit 106 extracts the forward morpheme for each predetermined case particle from the document-specific part-of-speech information (1) table 110 as in step S702 (step S705). Part-of-speech part-of-speech information (1) In the table 110, in order from the front morpheme detected immediately before the case particle, each front morpheme is combined in the detection order until front morpheme data other than the first classification appears. The forward morpheme combining process for generating (1) is performed, and the combined morpheme (1) is stored in the combined morpheme (1) information 190 (FIG. 4C). Further, when each combined morpheme (1) includes the morpheme extracted in step S705, the solution word extraction unit 106 stores “1” in the morpheme 193 of the combined morpheme (1) information 190 (step S706). ).

ここで、例えば、文書別品詞情報(1)テーブル110の品詞114に所定の格助詞「を」が格納されているレコード115の場合、上述したステップS702と同様に、格助詞「を」の前方形態素として"磁気""ブラシ""により""トナー"が抽出され、品詞が第1分類に属する前方形態素として"磁気""ブラシ""トナー"が特定される。特定したこれらの前方形態素の文書別品詞情報(1)テーブル110における識別No.は、"磁気=1""ブラシ=2""トナー=4"であるので、格助詞「を」の直前の前方形態素である"トナー"から順に識別No.の連続する前方形態素を結合すると、"トナー"が結合形態素(1)として生成される。また、結合形態素(1)情報190(図4(c))の結合形態素(1)"トナー"の構成形態素情報として、形態素193"トナー"に"1"が格納される。   Here, for example, in the case of the record 115 in which the predetermined case particle “O” is stored in the part of speech 114 of the document-specific part of speech information (1) table 110, the case particle “O” is preceded by the same as step S 702 described above. “Toner” is extracted by “magnetic” “brush” as the morpheme, and “magnetic” “brush” “toner” is specified as the front morpheme whose part of speech belongs to the first classification. The identification numbers in the document-specific part-of-speech information (1) table 110 of these identified front morphemes are “magnetism = 1”, “brush = 2”, “toner = 4”. When the front morphemes having consecutive identification numbers are combined in order from “toner” which is a morpheme, “toner” is generated as a combined morpheme (1). Also, “1” is stored in the morpheme 193 “toner” as the constituent morpheme information of the combined morpheme (1) information 190 (FIG. 4C) “toner”.

ステップS706に続いて、解決語抽出部106は、ステップS706で生成した各結合形態素(1)について指定特許文書データ群におけるGF・IDF値を各々算出し、結合形態素(1)情報190のGF・IDF値192に格納する(ステップS707)。   Subsequent to step S706, the solution word extraction unit 106 calculates the GF • IDF value in the designated patent document data group for each combined morpheme (1) generated in step S706, and the GF • ID of the combined morpheme (1) information 190 is calculated. Stored in the IDF value 192 (step S707).

特徴語抽出部105は、ステップS706及びステップS707で生成された結合形態素(1)情報190に基づいて、各解決語に対応する特徴語を決定する特徴語決定処理を行う(ステップS708)。   The feature word extraction unit 105 performs a feature word determination process for determining a feature word corresponding to each solution word based on the combined morpheme (1) information 190 generated in steps S706 and S707 (step S708).

ここで、特徴語決定処理について図17を用いて説明する。
図17のステップS709において、特徴語抽出部105は、結合形態素(1)情報190の結合形態素(1)191を参照し、形態素193の形態素のうち、解決語リスト180に格納された解決語と一致する形態素193に "1"が格納されている結合形態素(1)を抽出し、解決語別結合形態素(1)情報210(図5(a))を生成する。
Here, the feature word determination process will be described with reference to FIG.
In step S709 of FIG. 17, the feature word extraction unit 105 refers to the combined morpheme (1) 191 of the combined morpheme (1) information 190, and among the morphemes of the morpheme 193, the solution word stored in the solution word list 180 The combined morpheme (1) in which “1” is stored in the matching morpheme 193 is extracted, and the solution-specific combined morpheme (1) information 210 (FIG. 5A) is generated.

特徴語抽出部105は、解決語別結合形態素(1)情報210の結合形態素(1)について、結合形態素(1)情報190(図4(c))のGF・IDF値192を参照し、解決語211毎に、GF・IDF値の降順で上位5位までの結合形態素(1)212を抽出し(ステップS710)、抽出した結合形態素(1)212を特徴語として決定し、解決語別特徴語抽出情報220(図5(b))を生成して記憶部2に格納する(ステップS711)。   The feature word extraction unit 105 refers to the GF / IDF value 192 of the combined morpheme (1) information 190 (FIG. 4C) to resolve the combined morpheme (1) of the solution-specific combined morpheme (1) information 210. For each word 211, the top five combined morphemes (1) 212 in the descending order of GF / IDF values are extracted (step S 710), and the extracted combined morphemes (1) 212 are determined as feature words, and the features by solution word Word extraction information 220 (FIG. 5B) is generated and stored in the storage unit 2 (step S711).

図11のステップS19において、マップ生成部108は、クラスタ情報140(図3(a))と課題文書ベクトル情報130(図2(c))に基づいて、各クラスタの課題語を出力するマトリクスの行を決定する出力順位決定処理を行う。   In step S19 of FIG. 11, the map generation unit 108 generates a matrix word for outputting the task word of each cluster based on the cluster information 140 (FIG. 3A) and the task document vector information 130 (FIG. 2C). An output order determination process for determining a row is performed.

ここで、クラスタの出力順位決定処理の詳細について図18を用いて説明する。   Details of the cluster output order determination processing will be described with reference to FIG.

図18のステップS801において、マップ生成部108は、記憶部2からクラスタ情報140と課題文書ベクトル情報130を読み出す。   In step S <b> 801 of FIG. 18, the map generation unit 108 reads the cluster information 140 and the assignment document vector information 130 from the storage unit 2.

マップ生成部108は、課題文書ベクトル情報130の各特許文書データのTF・IDF値133を参照し、クラスタ情報140の特許ID142毎の各文書ベクトルの要素として、課題文書ベクトル情報130の当該特許IDのTF・IDF値133を各々抽出する。続いて、マップ生成部108は、抽出したクラスタ毎の文書ベクトル群を用いてクラスタ毎の重心ベクトルを算出する(ステップS802)。   The map generation unit 108 refers to the TF / IDF value 133 of each patent document data of the assignment document vector information 130, and uses the patent ID of the assignment document vector information 130 as an element of each document vector for each patent ID 142 of the cluster information 140. The TF / IDF value 133 is extracted. Subsequently, the map generation unit 108 calculates a centroid vector for each cluster using the extracted document vector group for each cluster (step S802).

マップ生成部108は、ステップS802で算出したクラスタ毎の重心ベクトルを用いて、重心ベクトル間の余弦値を算出してクラスタ間の類似度を求め、クラスタ間類似度情報230(図5(c))を生成する(ステップS803)。   The map generation unit 108 calculates the cosine value between the centroid vectors using the centroid vector for each cluster calculated in step S802 to obtain the similarity between the clusters, and the intercluster similarity information 230 (FIG. 5C). ) Is generated (step S803).

続いて、マップ生成部108は、クラスタ間類似度情報230の類似度の降順でクラスタの組合せを順次抽出する(ステップS804)。   Subsequently, the map generation unit 108 sequentially extracts combinations of clusters in descending order of similarity in the inter-cluster similarity information 230 (step S804).

マップ生成部108は、ステップS804で順次抽出したクラスタの各組み合わせについて、クラスタの出力順位情報を定めた連結リストの生成処理を行う(ステップS805)。   The map generation unit 108 generates a linked list that defines the output rank information of the clusters for each combination of clusters sequentially extracted in step S804 (step S805).

以下、連結リストの生成処理について図19を用いて説明する。
図19のステップS31において、マップ生成部108は、ステップS804で順次抽出されるクラスタの各組合せについて、組合せに含まれる各クラスタ(以下、「要素」と言う。)がいずれも未連結であるか否か判断する。
The linked list generation process will be described below with reference to FIG.
In step S31 of FIG. 19, for each combination of clusters sequentially extracted in step S804, the map generation unit 108 determines whether each cluster (hereinafter referred to as “element”) included in the combination is unconnected. Judge whether or not.

マップ生成部108が、ステップS31においていずれも未連結であると判断した場合(ステップS31:Y)、組合せの各要素を各々基準ノードとして基準連結リストを生成し、各基準連結リストにおいてHEAD又はTAILの一方をノード挿入方向として決定する(ステップS32)。   When the map generation unit 108 determines that all of them are unconnected in step S31 (step S31: Y), it generates a reference linked list using each element of the combination as a reference node, and HEAD or TAIL in each reference linked list Is determined as the node insertion direction (step S32).

また、マップ生成部108が、ステップS31においていずれも未連結でないと判断した場合(ステップS31:N)、マップ生成部108は、当該組合せのいずれか一方の要素のみが基準連結リストに連結済であるか否か判断する(ステップS33)。   In addition, when the map generation unit 108 determines that none of them is unconnected in step S31 (step S31: N), the map generation unit 108 has only one element of the combination has been connected to the reference linked list. It is determined whether or not there is (step S33).

ステップS33において、マップ生成部108が肯定的な判断をした場合(ステップS33:Y)、当該組合せの連結済みノードを含む基準連結リストにおけるノード挿入方向に従い、当該組合せの未連結ノードを挿入する(ステップS34)。   If the map generation unit 108 makes a positive determination in step S33 (step S33: Y), the unconnected nodes of the combination are inserted according to the node insertion direction in the reference linked list including the connected nodes of the combination ( Step S34).

また、ステップS33において、マップ生成部108が否定的な判断をした場合(ステップS33:N)、即ち、当該組合せのいずれの要素も連結済である場合には、全てのクラスタを示す全てのノードが基準連結リストに連結済であるか否か判断する(ステップS35)。   If the map generation unit 108 makes a negative determination in step S33 (step S33: N), that is, if any element of the combination is connected, all nodes indicating all clusters are displayed. Is already connected to the reference link list (step S35).

マップ生成部108が、ステップS35において全てのクラスタの要素が連結済みであると判断した場合(ステップS35:Y)、各基準連結リストのノード数を計数してメモリに格納する(ステップS36)。   If the map generation unit 108 determines in step S35 that all cluster elements have been linked (step S35: Y), the number of nodes in each reference linked list is counted and stored in the memory (step S36).

マップ生成部108は、ステップS32において各基準連結リストを生成した際の基準ノード同士にリンクを張り、各基準連結リストを連結させて連結リストを生成する(ステップS37)。   The map generation unit 108 links the reference nodes when the reference linked lists are generated in step S32, and links the reference linked lists to generate a linked list (step S37).

続いて、マップ生成部108は、ステップS37で生成された各連結リストの出力順位を決定する連結リスト順位決定処理を行う(ステップS38)。   Subsequently, the map generation unit 108 performs linked list rank determination processing for determining the output rank of each linked list generated in step S37 (step S38).

以下、連結リスト順位決定処理の詳細について、図20を用いて説明する。   Details of the linked list order determination process will be described below with reference to FIG.

図20のステップS41において、マップ生成部108は、図19のステップS36で計数した各基準連結リストのノード数をメモリから読み出し、各連結リストにおいて、各連結リストを構成する基準連結リストのノード数が小さい方の基準連結リストを特定する(ステップS42)。   In step S41 in FIG. 20, the map generation unit 108 reads out from the memory the number of nodes in each reference linked list counted in step S36 in FIG. 19, and in each linked list, the number of nodes in the reference linked list constituting each linked list. A reference linked list having a smaller value is specified (step S42).

マップ生成部108は、ステップS42で特定した基準連結リストのノード挿入方向がTAILか否か判断し(ステップS43)、TAIL側であると判断した場合には(ステップS43:Y)、当該基準連結リストを含む連結リストのHEADポインタを当該連結リストの末尾ノードに付け、リンクを張り替える(ステップS44)。   The map generation unit 108 determines whether or not the node insertion direction of the reference linked list identified in step S42 is TAIL (step S43). If it is determined that the node is on the TAIL side (step S43: Y), the reference linked list The HEAD pointer of the linked list including the list is attached to the end node of the linked list, and the link is changed (step S44).

また、マップ生成部108は、ステップS43において、TAIL側でないと判断した場合(ステップS43:N)、即ち、ステップS42で特定した基準連結リストのノード挿入方向がHEADである場合には、当該基準連結リストの先頭ノードにHEADポインタを付け、リンクを張り替える(ステップS45)。   If the map generation unit 108 determines in step S43 that it is not the TAIL side (step S43: N), that is, if the node insertion direction of the reference linked list identified in step S42 is HEAD, the reference A HEAD pointer is attached to the first node of the linked list, and the link is changed (step S45).

続いて、マップ生成部108は、各連結リストの基準ノード間の類似度が大きい順に、各連結リストの先頭ノードから順に連結し、全連結リストを連結後の各リンク情報で示されるノードの順序を、各ノードが示す各クラスタの課題語の出力順序として決定する(ステップS46)。   Subsequently, the map generation unit 108 connects in order from the first node of each linked list in descending order of similarity between the reference nodes of each linked list, and the order of the nodes indicated by each linked information after the linked list is linked. Are determined as the output order of the task words of each cluster indicated by each node (step S46).

図11に戻り、マップ生成部108は、ステップS19に続いて、解決語リスト180(図4(b))とクラスタ情報140(図3(a))とに基づいて、各解決語をマトリクスの列に出力する出力順位決定処理を行う(ステップS20)。   Returning to FIG. 11, following step S19, the map generation unit 108 assigns each solution word to a matrix based on the solution word list 180 (FIG. 4B) and the cluster information 140 (FIG. 3A). An output order determination process for outputting to a column is performed (step S20).

以下、解決語の出力順位決定処理について図21を用いて説明する。   The solution word output order determination process will be described below with reference to FIG.

図21のステップS901において、マップ生成部108は、記憶部2から解決語リスト180とクラスタ情報140を読み出し、クラスタ情報140の特許ID142と解決語リスト180の解決語を参照し、クラスタ毎の特許文書データ群における各解決語のGF値を算出して、マトリクス要素テーブル240(図6(a))を生成する(ステップS902)。   In step S901 of FIG. 21, the map generation unit 108 reads the solution word list 180 and the cluster information 140 from the storage unit 2, refers to the patent ID 142 of the cluster information 140 and the solution word of the solution word list 180, and patents for each cluster. The matrix element table 240 (FIG. 6A) is generated by calculating the GF value of each solution word in the document data group (step S902).

マップ生成部108は、ステップS902で生成したマトリクス要素テーブル240の各GF値を要素とする解決語毎のベクトルを生成し(ステップS903)、生成した各文書ベクトル間の内積値を算出して各解決語間の類似度を求め、解決語間類似度情報250(図6(b))を生成する(ステップS904)。   The map generation unit 108 generates a vector for each solution word having each GF value of the matrix element table 240 generated in step S902 as an element (step S903), calculates an inner product value between the generated document vectors, The similarity between the solution words is obtained, and the solution similarity information 250 (FIG. 6B) is generated (step S904).

続いて、マップ生成部108は、ステップS904で生成した解決語間類似度情報250の類似度の降順で解決語の組合せを順次抽出し(ステップS905)、ステップS905で順次抽出した解決語の各組み合わせについて、解決語の出力順位情報を定めた連結リストの生成処理を行う(ステップS906)。   Subsequently, the map generation unit 108 sequentially extracts combinations of solution words in descending order of similarity of the solution word similarity information 250 generated in step S904 (step S905), and each solution word sequentially extracted in step S905. For the combination, a linked list generating process for defining output order information of the solution word is performed (step S906).

尚、解決語についての連結リストの生成処理は上述したステップS805と同様であるため説明を省略する。   The linked list generation process for the solution word is the same as that in step S805 described above, and a description thereof will be omitted.

マップ生成部108は、ステップS906で生成された連結リストのリンク情報で示される各ノードの順を、各ノードで示される解決語の出力順位情報として決定する(ステップS907)。   The map generation unit 108 determines the order of each node indicated by the link information of the linked list generated in step S906 as the output order information of the solution word indicated by each node (step S907).

図11に戻り、マップ生成部108は、ステップS20に続いて、解決語別特徴語抽出情報220(図5(b))と、課題語抽出リスト160(図3(c))と、クラスタ情報140(図3(a))と、クラスタ及び解決語の出力順位情報と、マトリクス要素テーブル240(図6(a))とに基づき、課題・解決マトリクスを生成して出力する課題・解決マトリクス出力処理を行う(ステップS21)。   Returning to FIG. 11, following step S20, the map generation unit 108 includes the feature word extraction information 220 (FIG. 5B), the task word extraction list 160 (FIG. 3C), and cluster information. 140 (FIG. 3 (a)), output order information of clusters and solution words, and a matrix / element table 240 (FIG. 6 (a)), a problem / solution matrix output for generating and outputting a problem / solution matrix Processing is performed (step S21).

以下、課題・解決マトリクス出力処理について図22を用いて説明する。   Hereinafter, the problem / solution matrix output processing will be described with reference to FIG.

出力制御部109は、記憶部2からクラスタ情報140と、解決語別課題語抽出リスト160と、クラスタの出力順位情報を読み出し(ステップS211)、クラスタの出力順位情報に従い、クラスタを示す課題語を出力するマトリクス上の所定領域の各行に、クラスタを示す課題語のデータを出力する(ステップS212)。   The output control unit 109 reads the cluster information 140, the solution word-specific task word extraction list 160, and the cluster output rank information from the storage unit 2 (step S211), and determines the task word indicating the cluster according to the cluster output rank information. Data of a task word indicating a cluster is output to each row of a predetermined area on the matrix to be output (step S212).

続いて出力制御部109は、解決語別特徴語抽出情報220と、解決語の出力順位情報とを記憶部2から読み出し(ステップS213)、解決語の出力順位情報に従い、各解決語と各解決語に対応する特徴語を出力するマトリクス上の所定領域の各列に、各解決語と特徴語のデータを各々出力する(ステップS214)。   Subsequently, the output control unit 109 reads the feature word extraction information 220 for each solution word and the output order information of the solution word from the storage unit 2 (Step S213), and each solution word and each solution according to the output word information of the solution word. Data of each solution word and feature word is output to each column of a predetermined area on the matrix for outputting the feature word corresponding to the word (step S214).

ステップS214に続いて、出力制御部109は、記憶部2からマトリクス要素テーブル240を読み出し(ステップS215)、上記マトリクス上の各セルを構成する各行及び各列が示すクラスタと解決語の組合せのGF値を、マトリクス要素テーブル240から読み出して各セルに出力する(ステップS216)。   Subsequent to step S214, the output control unit 109 reads the matrix element table 240 from the storage unit 2 (step S215), and the GF of the cluster and solution word combination indicated by each row and each column constituting each cell on the matrix. The value is read from the matrix element table 240 and output to each cell (step S216).

ここで、出力制御部109が、上記ステップS213〜ステップS216の各処理を行って出力した課題・解決マトリクスの出力例を図9に示す。   Here, FIG. 9 shows an output example of the problem / solution matrix output by the output control unit 109 after performing the processes in steps S213 to S216.

同図に示す課題・解決マトリクス260において、上述の課題語抽出リスト160の各クラスタ161と課題語162の各データを出力する所定領域は同図の破線矩形262で示される部分であり、矩形262の各行にクラスタを示す情報265とクラスタ265に対応する課題語266とを出力する。上述の解決語別特徴語抽出情報220の解決語221と特徴語222の各データを出力する所定領域は同図の破線矩形261で示される部分であり、矩形261の各列に解決語264と特徴語263とを出力する。また、上述のマトリクス要素テーブル240のGF値242の各データは、各データに対応するクラスタ242と解決語241に一致するマトリクス260上の行及び列が示す各セルに出力される。   In the problem / solution matrix 260 shown in the figure, the predetermined area for outputting the data of each cluster 161 and the problem word 162 in the above-described problem word extraction list 160 is a portion indicated by a broken-line rectangle 262 in the figure, and the rectangle 262 The information 265 indicating the cluster and the task word 266 corresponding to the cluster 265 are output in each row of. The predetermined area for outputting the data of the solution word 221 and the feature word 222 of the solution word-specific feature word extraction information 220 described above is a portion indicated by a broken-line rectangle 261 in FIG. The feature word 263 is output. Further, each data of the GF value 242 of the matrix element table 240 described above is output to each cell indicated by a row and a column on the matrix 260 corresponding to the cluster 242 and the solution word 241 corresponding to each data.

<考察>
上述した本実施の形態における課題・解決マトリクスでは、上述した連結リストで示されるクラスタ及び解決語の出力順位情報において、連結リストに含まれる2つの基準連結リストのうちノード数が少ない方の基準連結リストの末尾又は先頭ノードが、マトリクス260の上又は左に配置される。これは、マトリクスの要素である解決語のクラスタにおけるGF値が大きいものほど、マトリクスのセル領域のうち左上側の各セルに出力させるためである。
<Discussion>
In the problem / solution matrix in the above-described embodiment, in the cluster and solution word output rank information indicated in the above-described linked list, the reference link having the smaller number of nodes among the two reference linked lists included in the linked list. The end or top node of the list is placed above or to the left of the matrix 260. This is because the larger the GF value in the solution word cluster that is an element of the matrix, the greater the cell output in the upper left cell of the matrix cell region.

例えば、GF値に応じて各セルの色を変えて表示させた場合には、ユーザはマトリクスの各セルの色によって、指定特許文書データ群の解決語や特徴語が指定特許文書データ群のどの類似特許文書データ群で頻繁に用いられているか一目で確認することができる。逆に、指定特許文書データ群においてあまり頻繁に用いられていない解決語や特徴語も一見して確認することができるので、その解決語や特徴語が指定特許文書データ群において特徴的なものであるかどうかを容易に判断することができる。   For example, when changing the color of each cell according to the GF value and displaying it, the user determines which solution or feature word of the designated patent document data group is in the designated patent document data group by the color of each cell of the matrix. It can be confirmed at a glance whether the data is frequently used in the similar patent document data group. Conversely, solution words and feature words that are not frequently used in the designated patent document data group can be confirmed at a glance, and the solution words and feature words are characteristic in the designated patent document data group. It can be easily determined whether or not there is.

[実施の形態2] [Embodiment 2]

<概要>
上述した実施の形態1は、ある技術分野に属する特許文書データ群が有する各課題情報に基づいてクラスタ分類し、クラスタ毎の特許文書データ群の特徴をマトリクスで表わすことにより、当該技術分野において類似する特許文書データ群毎の主要な技術や特徴的な技術をユーザに容易に理解させることができるものである。
<Overview>
The first embodiment described above is similar in the technical field by classifying clusters based on each problem information included in a patent document data group belonging to a certain technical field and representing the characteristics of the patent document data group for each cluster in a matrix. This makes it possible for the user to easily understand the main technology and characteristic technology for each patent document data group.

本発明に係る情報処理装置は、上述した実施の形態1に加えて、各特許文書データについての技術的な特徴をユーザに容易に理解させると同時に、他の特許文書データとの間において特徴を容易に比較しうるものである。   In addition to the first embodiment described above, the information processing apparatus according to the present invention allows the user to easily understand the technical features of each patent document data, and at the same time, features the other patent document data. It can be easily compared.

本実施の形態では、上述した実施の形態1で示した課題・解決マトリクスにおいて、ユーザからあるクラスタの指定を受付け、そのクラスタに属する特許文書データ毎の特徴語を抽出して、そのクラスタにおける各特許文書データの技術的特徴の指向性をユーザが容易に把握できるように出力する。   In the present embodiment, in the problem / solution matrix shown in the first embodiment described above, designation of a certain cluster is accepted from the user, feature words for each patent document data belonging to the cluster are extracted, and each cluster in the cluster is extracted. The directivity of the technical features of the patent document data is output so that the user can easily grasp it.

<構成>
本実施の形態に係る情報処理装置は、上記実施の形態1に係る情報処理装置を用いるものとし、以下、実施の形態1で説明した各構成の機能と異なる部分について説明する。
<Configuration>
The information processing apparatus according to the present embodiment uses the information processing apparatus according to the first embodiment, and the following description is about parts different from the functions of the components described in the first embodiment.

尚、本実施の形態では、実施の形態1で生成したクラスタ情報140(図3(a))及び文書別品詞情報(1)テーブル110(図2(a))が記憶部2に記憶されているものとする。   In the present embodiment, the cluster information 140 (FIG. 3A) and the document-specific part-of-speech information (1) table 110 (FIG. 2A) generated in the first embodiment are stored in the storage unit 2. It shall be.

入力受付部101は、入力部3を介して、上述の課題・解決マトリクス上のクラスタを指定し、当該クラスタに属する各特許文書データの特徴を分析する個別特徴分析指示をユーザから受付け、個別特徴分析指示に係るクラスタを示す情報(以下、「分析対象クラスタ情報」と言う。)と、個別特徴分析指示を受付けた旨を示す指示受付情報をデータ取得部102に送出する機能を有する。   The input receiving unit 101 designates a cluster on the above-described problem / solution matrix via the input unit 3 and receives an individual feature analysis instruction for analyzing the characteristics of each patent document data belonging to the cluster from the user. It has a function of sending to the data acquisition unit 102 information indicating a cluster related to the analysis instruction (hereinafter referred to as “analysis target cluster information”) and instruction reception information indicating that the individual feature analysis instruction has been received.

データ取得部102は、入力受付部101から分析対象クラスタ情報と指示受付情報を受付け、上述したクラスタ情報140(図3(a))の特許ID142を参照し、分析対象クラスタ情報で示されるクラスタの各特許文書データを記憶部2から取得する機能を有する。   The data acquisition unit 102 receives the analysis target cluster information and the instruction reception information from the input reception unit 101, refers to the above-described patent ID 142 of the cluster information 140 (FIG. 3A), and determines the cluster indicated by the analysis target cluster information. Each patent document data has a function of acquiring from the storage unit 2.

形態素解析部103は、データ取得部102が取得した特許IDが示す各特許文書データの各特許請求の範囲データについて、上述の分析対象抽出処理を行って形態素解析処理を施し、特許文書データ毎の文書別品詞情報テーブルを生成する機能を有する。   The morpheme analysis unit 103 performs the above-described analysis target extraction processing for each claim document data of each patent document data indicated by the patent ID acquired by the data acquisition unit 102, performs morpheme analysis processing, It has a function of generating a document-specific part-of-speech information table.

本実施の形態では、上述したように、実施の形態1で生成した文書別品詞情報(1)テーブル110を用いるので、形態素解析部103は、文書別品詞情報(1)テーブル110からデータ取得部103により受付けた各特許IDに対応する品詞情報(1)を抽出するものとする。また、抽出した品詞情報(1)は、以下「文書別品詞情報」と称し、後述する文書別品詞情報テーブルとして記憶部2に記憶するものとする。   In this embodiment, as described above, since the document-specific part-of-speech information (1) table 110 generated in the first embodiment is used, the morphological analysis unit 103 uses the data acquisition unit from the document-specific part-of-speech information (1) table 110. The part-of-speech information (1) corresponding to each patent ID received in 103 is extracted. The extracted part-of-speech information (1) is hereinafter referred to as “document-specific part-of-speech information” and is stored in the storage unit 2 as a document-specific part-of-speech information table to be described later.

特徴語抽出部105は、形態素解析部103が生成した文書別品詞情報テーブルを参照し、実施の形態1と同様、格助詞毎の前方形態素のうちの品詞が第1分類に属する各前方形態素(以下、「第1分類前方形態素」と言う。)について、上述した前方形態素結合処理を施して結合形態素を生成する。本実施の形態において、前方形態素結合処理を施して生成された結合形態素を、以下「特徴語1」と称する。   The feature word extraction unit 105 refers to the document-specific part-of-speech information table generated by the morpheme analysis unit 103, and in the same way as in the first embodiment, the part-of-speech of the front morpheme for each case particle belongs to the first morpheme ( Hereinafter, the above-described forward morpheme combination process is performed on “first classification forward morpheme”) to generate a combined morpheme. In the present embodiment, the combined morpheme generated by performing the forward morpheme combining process is hereinafter referred to as “feature word 1”.

特徴語抽出部105は、更に、形態素解析部103が抽出した文書別品詞情報において、実施の形態1と同様、品詞が所定の格助詞"を"及び"が"の形態素毎に、当該格助詞より後に検出された形態素(以下、「後方形態素」と言う。)のうち、他の格助詞との間に検出された後方形態素(以下、「格助詞毎の後方形態素」と言う。)について、当該格助詞の直後に検出された後方形態素から、第1分類の品詞に動詞を加えた品詞(以下、「第2分類」と言う。)以外の後方形態素が検出されるまでの連続する各後方形態素(以下、「第2分類後方形態素」と言う。)を検出順に結合させる後方形態素結合処理を行い、格助詞毎の結合形態素を生成する機能を有する。本実施の形態において、上記後方形態素結合処理を施して生成される結合形態素を、以下「特徴語2」と称する。   The feature word extraction unit 105 further extracts the case particle for each morpheme whose part of speech is a predetermined case particle "" and "" in the document-specific part of speech information extracted by the morpheme analysis unit 103, as in the first embodiment. Among the morphemes detected later (hereinafter referred to as “backward morphemes”), the backward morphemes detected between other case particles (hereinafter referred to as “backward morphemes for each case particle”) are as follows: Each successive back morpheme until a back morpheme other than a part of speech (hereinafter referred to as “second class”) obtained by adding a verb to the part of speech of the first class is detected from the back morpheme detected immediately after the case particle. It has a function of generating a combined morpheme for each case particle by performing a backward morpheme combining process of combining morphemes (hereinafter referred to as “second classification backward morpheme”) in the order of detection. In the present embodiment, the combined morpheme generated by performing the backward morpheme combining process is hereinafter referred to as “feature word 2”.

また、特徴語抽出部105は、各特許文書データの特徴語1と特徴語1を構成する前方形態素、特徴語2と特徴語2を構成する後方形態素等を対応付けた文書別特徴語抽出リストを生成する文書別特徴語抽出リスト生成処理を行う機能と、特許文書データ群の第1分類前方形態素について各特許文書データにおけるTF値を算出する機能と、上記文書別特徴語抽出リストの特許文書データ毎の各前方形態素について、特許文書データ群におけるGF値を算出し、GF値の降順で各前方形態素のGF順位を定める機能を有する。   Also, the feature word extraction unit 105 is a feature word extraction list for each document in which feature words 1 and forward morphemes constituting the feature words 1 of each patent document data, feature words 2 and backward morphemes constituting the feature words 2 and the like are associated with each other. A document-specific feature word extraction list generation process, a function of calculating a TF value in each patent document data for the first classification forward morpheme of the patent document data group, and a patent document of the document-specific feature word extraction list For each forward morpheme for each data, it has a function of calculating the GF value in the patent document data group and determining the GF ranking of each forward morpheme in descending order of the GF value.

マップ生成部108は、特徴語生成部105によって算出された特許文書データ毎の各TF値を要素とする文書ベクトルを生成し、各文書ベクトル間の内積値を算出して特許文書データ間の類似度を求める機能と、算出した特許文書データ間の内積値の降順で特許文書データの組合せを順次抽出して、各特許文書データに係る各出力情報の表示部4における出力領域上の出力位置を示す出力順位を決定する順位決定処理を行う機能とを有する。   The map generation unit 108 generates a document vector having each TF value for each patent document data calculated by the feature word generation unit 105 as an element, calculates an inner product value between the document vectors, and similarity between the patent document data A combination of patent document data is sequentially extracted in descending order of the inner product value between the calculated patent document data and the output position on the output area in the display unit 4 of each output information related to each patent document data And a function of performing order determination processing for determining the output order to be shown.

尚、本実施の形態において、上記特許文書データに係る出力情報とは、各特許文書データに含まれる出願人情報、出願番号、発明の名称等の書誌的情報と、当該特許文書データの特徴語1及び特徴語2(以下、「特徴語情報」と言う。)である。   In the present embodiment, the output information related to the patent document data includes bibliographic information such as applicant information, application number, and the name of the invention included in each patent document data, and feature words of the patent document data. 1 and feature word 2 (hereinafter referred to as “feature word information”).

また、上記順位決定処理は、上述した実施の形態1の順位決定処理と同様の方法により行うものとする。   The rank determination process is performed by the same method as the rank determination process of the first embodiment.

マップ生成部108は、各特許文書データの各出力領域において、当該特許文書データの特徴語情報の出力領域(以下、「特徴語出力領域」と言う。)における各特徴語情報の出力位置を決定する特徴語出力位置決定処理を行う機能と、上記順位決定処理によって決定された各特許文書データの出力順位と当該特許文書データにおける特徴語情報の出力位置とを示す文書別出力順位情報を生成する機能を有する。   The map generation unit 108 determines the output position of each feature word information in the feature word information output area of the patent document data (hereinafter referred to as “feature word output area”) in each output area of each patent document data. Generating document-specific output order information indicating a function for performing feature word output position determination processing, an output order of each patent document data determined by the order determination process, and an output position of feature word information in the patent document data It has a function.

出力制御部109は、マップ生成部108から受付けた出力順位情報に基づいて、特許文書データの書誌的情報と特徴語情報のデータ及び画像を表示部4の出力領域に送出する機能を有する。   The output control unit 109 has a function of sending bibliographic information of patent document data, feature word information data, and an image to the output area of the display unit 4 based on the output order information received from the map generation unit 108.

<データ>
以下、本実施の形態に係る情報処理装置1で用いるデータについて説明する。
<Data>
Hereinafter, data used in the information processing apparatus 1 according to the present embodiment will be described.

図23は、形態素解析部103が生成する文書別品詞情報テーブルの構成及びデータ例を示している。   FIG. 23 shows the configuration and data example of the document-specific part-of-speech information table generated by the morpheme analyzer 103.

同図の文書別品詞情報テーブル30は、特徴語抽出部105が特徴語情報を生成する際に用いられるものであり、特許ID31、識別ID32、形態素33、及び品詞34を対応付けて記憶している。   The document-specific part-of-speech information table 30 shown in the figure is used when the feature word extraction unit 105 generates feature word information. The patent ID 31, the identification ID 32, the morpheme 33, and the part of speech 34 are stored in association with each other. Yes.

文書別品詞情報テーブル30の構成は、上述の実施の形態1で説明した文書別品詞情報(1)テーブル110と同様であるため説明を省略する。   The structure of the document-specific part-of-speech information table 30 is the same as that of the document-specific part-of-speech information (1) table 110 described in the first embodiment, and a description thereof will be omitted.

図24は、特徴語抽出部105が生成する文書別特徴語抽出リストの構成及びデータ例を示している。   FIG. 24 shows the configuration and data example of the document-specific feature word extraction list generated by the feature word extraction unit 105.

同図の文書別特徴語抽出リスト40は、特許ID41、出願番号42、識別ID43、前方形態素44、特徴語1(45)、後方形態素46、及び特徴語2(47)を対応付けて記憶している。   The document-specific feature word extraction list 40 in the figure stores patent ID 41, application number 42, identification ID 43, forward morpheme 44, feature word 1 (45), backward morpheme 46, and feature word 2 (47) in association with each other. ing.

ここで、特許ID41は、個別特徴分析指示に係る分析対象クラスタ情報が示す特許文書データの特許IDを示しており、出願番号42は、特許ID41が示す各特許文書データに含まれる出願番号を示し、識別ID43は、特許ID41が示す特許文書データの文書別品詞情報テーブル30における所定の格助詞の識別IDを示している。   Here, the patent ID 41 indicates the patent ID of the patent document data indicated by the analysis target cluster information related to the individual feature analysis instruction, and the application number 42 indicates the application number included in each patent document data indicated by the patent ID 41. The identification ID 43 indicates an identification ID of a predetermined case particle in the document-specific part-of-speech information table 30 of the patent document data indicated by the patent ID 41.

前方形態素44は、識別ID41で示される格助詞について特徴語1を生成する際に用いた第1分類前方形態素を示しており、特徴語1(45)は、前方形態素44で示される各前方形態素を結合して生成された結合形態素を示している。また、後方形態素46は、識別ID41で示される格助詞について特徴語2を生成する際に用いた第2分類後方形態素を示しており、特徴語2(47)は、後方形態素46で示される各後方形態素を結合して生成された結合形態素を示している。   The forward morpheme 44 indicates the first classification forward morpheme used when generating the feature word 1 for the case particle indicated by the identification ID 41, and the feature word 1 (45) indicates each forward morpheme indicated by the forward morpheme 44. The combined morpheme generated by combining is shown. The backward morpheme 46 indicates the second classification backward morpheme used when generating the feature word 2 for the case particle indicated by the identification ID 41, and the feature word 2 (47) represents each of the backward morphemes 46. A combined morpheme generated by combining backward morphemes is shown.

図25(a)は、文書別TF値テーブルの構成及びデータ例を示しており、特徴語抽出部105が全特許文書データの特徴語1及び特徴語2を構成する各前方形態素について各特許文書データにおけるTF値を算出した結果を示している。   FIG. 25A shows the structure and data example of the TF value table for each document, and the feature word extraction unit 105 uses each patent document for each front morpheme constituting the feature word 1 and the feature word 2 of all patent document data. The result of calculating the TF value in the data is shown.

同図の文書別TF値テーブル50は、マップ生成部108が各特許文書データに係る出力情報の出力位置を決定する際に用いられ、前方形態素51及び特許ID52を対応付けて記憶している。   The document-specific TF value table 50 shown in the figure is used when the map generation unit 108 determines the output position of the output information related to each patent document data, and stores the front morpheme 51 and the patent ID 52 in association with each other.

ここで、前方形態素51は、文書別特徴語抽出リスト40の前方形態素44に格納されている全ての前方形態素を示しており、特許ID52は、個別特徴分析対象の各特許IDの各特許文書データにおける各前方形態素のTF値を示している。   Here, the forward morpheme 51 indicates all the forward morphemes stored in the forward morpheme 44 of the document-specific feature word extraction list 40, and the patent ID 52 is the patent document data of each patent ID of the individual feature analysis target. Shows the TF value of each forward morpheme.

図25(b)は、文書別GF値テーブルの構成及びデータ例を示しており、特徴語抽出部105が特許文書データ毎の各前方形態素について個別特徴分析対象の特許文書データ群におけるGF値を算出した結果を示している。   FIG. 25B shows the structure and data example of the document-specific GF value table. The feature word extraction unit 105 calculates the GF value in the patent document data group subject to individual feature analysis for each forward morpheme for each patent document data. The calculated result is shown.

同図の文書別GF値テーブル60は、特許ID61、前方形態素62、GF値63及びGF順位64を対応付けて記憶している。   The document-specific GF value table 60 in the figure stores a patent ID 61, a front morpheme 62, a GF value 63, and a GF ranking 64 in association with each other.

ここで、特許ID61は、個別特徴分析対象の各特許文書データの特許IDを示しており、前方形態素62は、特許ID61の特許文書データの前方形態素を示している。また、GF値63は、特許ID61に対応する各前方形態素62の個別特徴分析対象の特許文書データ群におけるGF値を示しており、GF順位64は、特許ID61毎の各GF値63を降順に並べた場合の順位を示している。   Here, the patent ID 61 indicates the patent ID of each patent document data subject to individual feature analysis, and the forward morpheme 62 indicates the forward morpheme of the patent document data of the patent ID 61. The GF value 63 indicates the GF value in the patent document data group subject to individual feature analysis of each forward morpheme 62 corresponding to the patent ID 61, and the GF ranking 64 indicates the GF value 63 for each patent ID 61 in descending order. The order when arranged is shown.

図25(c)は、文書別出力順位情報の構成及びデータ例を示しており、マップ生成部108によって決定された個別特徴分析対象の各特許文書データに係る出力情報と特徴語情報の出力位置を示している。   FIG. 25C shows the structure and data example of the output order information for each document, and the output position and feature word information output position relating to each patent document data determined by the map generation unit 108. Is shown.

出力順位情報70は、特許ID71、文書出力順位72、特徴語1(73)、前方形態素74、及び特徴語出力順位75を対応付けて記憶している。   The output order information 70 stores patent ID 71, document output order 72, feature word 1 (73), forward morpheme 74, and feature word output order 75 in association with each other.

ここで、特許ID71は、個別特徴分析対象の各特許文書データの特許IDを示しており、文書出力順位72は、各特許IDの特許文書データに係る出力情報の各出力位置を示している。尚、文書出力順位で示される各順位と各出力位置は各々対応しているものとする。   Here, the patent ID 71 indicates the patent ID of each patent document data subject to individual feature analysis, and the document output order 72 indicates each output position of the output information related to the patent document data of each patent ID. It is assumed that each rank indicated by the document output rank corresponds to each output position.

また、特徴語1(73)は、特許ID71で示される特許文書データ毎に生成された特徴語1を示しており、前方形態素74は、特徴語1(73)を構成する前方形態素の一つであり、特徴語1の出力順位決定の際に基準となった前方形態素を示している。特徴語出力順位75は、前方形態素74の各前方形態素の文書別GF値テーブル60におけるGF順位64を示しており、特徴語出力順位で示される各順位と各特許文書データの特徴語出力領域における各特徴語出力位置は対応しているものとする。   The feature word 1 (73) indicates the feature word 1 generated for each patent document data indicated by the patent ID 71, and the forward morpheme 74 is one of the forward morphemes constituting the feature word 1 (73). The forward morpheme that is used as a reference when determining the output rank of the feature word 1 is shown. The feature word output rank 75 indicates the GF rank 64 in the document-specific GF value table 60 of each forward morpheme 74, and each rank indicated by the feature word output rank and the feature word output area of each patent document data. Assume that each feature word output position corresponds.

<動作>
次に、本実施の形態に係る情報処理装置1の動作について説明する。
<Operation>
Next, the operation of the information processing apparatus 1 according to this embodiment will be described.

図27は、本実施の形態に係る情報処理装置の動作フローを示しており、同図に従って動作説明を行う。   FIG. 27 shows an operation flow of the information processing apparatus according to the present embodiment, and the operation will be described with reference to FIG.

同図のステップS110において、情報処理装置1は、特徴語抽出処理を行う。   In step S110 of the figure, the information processing apparatus 1 performs a feature word extraction process.

以下、特徴語抽出処理の詳細について図28を用いて説明する。   Details of the feature word extraction process will be described below with reference to FIG.

入力受付部101は、ユーザから入力部3を介して個別特徴分析対象となる特許文書データ群を示す分析対象クラスタ情報の入力を受付け、分析対象クラスタ情報と指示受付情報とをデータ取得部102に送出する(ステップS111)。   The input receiving unit 101 receives input of analysis target cluster information indicating a patent document data group that is an individual feature analysis target from the user via the input unit 3, and sends the analysis target cluster information and instruction reception information to the data acquisition unit 102. It is sent out (step S111).

データ取得部102は、ステップS111において入力受付部101が送出した分析対象クラスタ情報を受付けると、記憶部2からクラスタ情報140を読み出し、分析対象クラスタ情報が示すクラスタの特許ID142を読み出し、読み出した特許IDの特許文書データを記憶部2から取得し、読み出した特許ID142を形態素解析部103に送出する(ステップS112)。   When the data acquisition unit 102 receives the analysis target cluster information sent by the input reception unit 101 in step S111, the data acquisition unit 102 reads the cluster information 140 from the storage unit 2, reads the patent ID 142 of the cluster indicated by the analysis target cluster information, and reads the read patent. The patent document data of the ID is acquired from the storage unit 2, and the read patent ID 142 is sent to the morphological analysis unit 103 (step S112).

形態素解析部103は、データ取得部102から指示受付情報と特許ID142とを受付けると、記憶部2から文書別品詞情報(1)テーブル110を読み出し、文書別品詞情報(1)テーブル110から特許ID142に対応する品詞情報(1)を抽出し(ステップS112)、文書別品詞情報テーブル30(図23)を生成する(ステップS113)。   When the morphological analysis unit 103 receives the instruction reception information and the patent ID 142 from the data acquisition unit 102, the morphological analysis unit 103 reads the document-specific part-of-speech information (1) table 110 from the storage unit 2, and the patent ID 142 from the document-specific part-of-speech information (1) table 110. The part-of-speech information (1) corresponding to is extracted (step S112), and the document-specific part-of-speech information table 30 (FIG. 23) is generated (step S113).

特徴語抽出部105は、記憶部2から文書別品詞情報テーブル30を読み出し、文書別品詞情報テーブル30の特許ID31毎に、品詞34が所定の格助詞である形態素毎の前方形態素及び後方形態素を抽出する(ステップS114)。   The feature word extraction unit 105 reads the document-specific part-of-speech information table 30 from the storage unit 2, and for each patent ID 31 of the document-specific part-of-speech information table 30, the front morpheme and the rear morpheme for each morpheme whose part of speech 34 is a predetermined case particle. Extract (step S114).

続いて、特徴語抽出部105は、ステップS114で抽出した各特許IDの格助詞毎の前方形態素及び後方形態素の各々について、前方形態素結合処理及び後方形態素結合処理を行って特許ID毎の特徴語1及び特徴語2を生成し(ステップS115)、特許ID毎に生成した特徴語1及び特徴語2と、特徴語1及び特徴語2の各々を構成する前方形態素及び後方形態素を対応付けて文書別特徴語抽出リスト40(図24)を生成する(ステップS116)。   Subsequently, the feature word extraction unit 105 performs the forward morpheme combination process and the backward morpheme combination process for each of the front morpheme and the rear morpheme for each case particle of each patent ID extracted in step S114, and the feature word for each patent ID. 1 and feature word 2 are generated (step S115), and the feature word 1 and feature word 2 generated for each patent ID are associated with the front morpheme and the rear morpheme that constitute each of the feature word 1 and feature word 2. Another feature word extraction list 40 (FIG. 24) is generated (step S116).

ここで、文書別品詞情報テーブル30の特許ID"特許2"の識別ID"30"の格助詞"を"を例に、ステップS114及びステップS115の処理について説明する。   Here, the processing of step S114 and step S115 will be described taking the patent ID “patent 2 of identification ID“ 30 ”of patent 2” in the document-specific part-of-speech information table 30 as an example.

特徴語抽出部105は、文書別品詞情報テーブル30において、所定の格助詞"を"に該当する識別ID"30"に着目する。   The feature word extraction unit 105 pays attention to the identification ID “30” corresponding to “a predetermined case particle” in the document-specific part-of-speech information table 30.

特徴語抽出部105は、識別ID"30"〜"18"の間にある識別ID"30"の各前方形態素を抽出し(ステップS114)、識別ID"30"の直前の識別ID"29"の前方形態素から順に、品詞34が第1分類以外の品詞"助詞"の形態素、同図の識別ID"26"、形態素"の"が出現するまでの各前方形態素、"トナー""残り""現像"を識別ID順に結合し、識別ID"30"の特徴語1として"現像残りトナー"を生成する(ステップS115)。   The feature word extraction unit 105 extracts each front morpheme with the identification ID “30” between the identification IDs “30” to “18” (step S114), and the identification ID “29” immediately before the identification ID “30”. In order from the front morpheme, the part of speech 34 is the morpheme of the part of speech “participant” other than the first class, the identification ID “26” of the same figure, each of the front morpheme until “of the morpheme” appears, “toner” “remaining” ” The “development residual toner” is generated as the feature word 1 of the identification ID “30” by combining the “development” in the order of the identification ID (step S115).

また、特徴語抽出部105は、識別ID"30"から"34"の間にある識別ID"30"の各後方形態素を抽出し(ステップS114)、識別ID"30"の直後の識別ID"31"の後方形態素から順に、品詞34が第2分類以外の形態素が出現するまでの後方形態素、"剥ぎ""取る""こと"を識別ID順に結合し、識別ID"30"の特徴語2として"剥ぎ取ること"を生成する(ステップS115)。   Also, the feature word extraction unit 105 extracts each rear morpheme of the identification ID “30” between the identification IDs “30” to “34” (step S114), and the identification ID “immediately after the identification ID“ 30 ”” In order from the rear morpheme of 31 ", the part of speech 34 is combined with the rear morpheme until the appearance of a morpheme other than the second classification," stripping "," take "," to ", in the order of the identification ID, and the feature word 2 of the identification ID" 30 " Is generated (step S115).

図27に戻り、ステップS120以下の処理について説明する。   Returning to FIG. 27, the processing after step S120 will be described.

ステップS110に続いて、マップ生成部108は、記憶部2から文書別特徴語抽出リスト40を読み出し、特許文書データの出力位置を決定する出力順位決定処理を行う(ステップS120)。   Subsequent to step S110, the map generation unit 108 reads the document-specific feature word extraction list 40 from the storage unit 2, and performs output order determination processing for determining the output position of the patent document data (step S120).

以下、特許文書データの出力順位決定処理について、図29を用いて説明する。   Hereinafter, the process of determining the output order of patent document data will be described with reference to FIG.

同図のステップS121において、マップ生成部108は、文書別特徴語抽出リスト40の前方形態素44の全ての前方形態素を抽出し、個別特徴分析対象の各特許文書データにおけるTF値を算出し、文書別TF値テーブル50(図25(a))を生成する。   In step S121 of the figure, the map generation unit 108 extracts all the forward morphemes of the forward morpheme 44 in the document-specific feature word extraction list 40, calculates the TF value in each patent document data of the individual feature analysis target, Another TF value table 50 (FIG. 25A) is generated.

続いて、マップ生成部108は、文書別TF値テーブル50の特許ID毎の各TF値を要素とする特許ID毎の文書ベクトルを生成し(ステップS122)、各文書ベクトル間の内積値を算出する(ステップS123)。   Subsequently, the map generation unit 108 generates a document vector for each patent ID including each TF value for each patent ID in the document-specific TF value table 50 (step S122), and calculates an inner product value between the document vectors. (Step S123).

マップ生成部108は、ステップS123で算出した内積値の降順で特許IDの組合せを順次抽出し(ステップS124)、特許文書データの出力順位情報を生成するための連結リスト生成処理を行う(ステップS125)。   The map generation unit 108 sequentially extracts combinations of patent IDs in descending order of the inner product values calculated in step S123 (step S124), and performs a linked list generation process for generating output order information of patent document data (step S125). ).

尚、連結リスト生成処理の詳細説明については、上述の実施の形態1と同様であるため、ここでは説明を省略する。   Note that the detailed description of the linked list generation process is the same as that in the first embodiment, and thus the description thereof is omitted here.

マップ生成部108は、ステップS125で生成した連結リストのリンク情報が示すノードの順を各特許IDが示す特許文書データの出力順位として決定し、文書別出力順位情報70(図25(c))の各特許ID71に対応する文書出力順位72に決定した順位を格納する(ステップS126)。   The map generation unit 108 determines the order of the nodes indicated by the link information of the linked list generated in step S125 as the output order of the patent document data indicated by each patent ID, and the output order information 70 for each document (FIG. 25 (c)). The determined rank is stored in the document output rank 72 corresponding to each patent ID 71 (step S126).

図27に戻り、マップ生成部108は、ステップS120に続いて、各特許文書データの特徴語情報の出力領域における出力位置を定める出力順位決定処理を行う(ステップS130)。   Returning to FIG. 27, following step S120, the map generation unit 108 performs an output order determination process for determining an output position in the output area of the feature word information of each patent document data (step S130).

以下、特徴語情報の出力順位決定処理の詳細について、図30を用いて説明する。   The details of the feature word information output order determination process will be described below with reference to FIG.

マップ生成部108は、記憶部2から文書別特徴語抽出リスト40(図24)を読み出し、特許ID41の特許ID毎の各前方形態素44について、個別特徴分析対象の特許文書データ群におけるGF値を算出し(ステップS131)、算出したGF値の降順で、特許ID毎の前方形態素44のGF順位を決定し、文書別GF値テーブル60を生成する(ステップS132)。   The map generation unit 108 reads the document-specific feature word extraction list 40 (FIG. 24) from the storage unit 2, and calculates the GF value in the patent document data group of the individual feature analysis target for each front morpheme 44 for each patent ID of the patent ID 41. The GF ranking of the forward morpheme 44 for each patent ID is determined in descending order of the calculated GF value (step S131), and the document-specific GF value table 60 is generated (step S132).

続いて、マップ生成部108は、文書別特徴語抽出リスト40の前方形態素44を参照し(ステップS133) 、特徴語1(45)毎に、その特徴語1が複数の前方形態素で構成されているか否か判断する(ステップS134)。   Subsequently, the map generation unit 108 refers to the forward morpheme 44 in the document-specific feature word extraction list 40 (step S133), and for each feature word 1 (45), the feature word 1 is composed of a plurality of forward morphemes. It is determined whether or not there is (step S134).

マップ生成部108は、ステップS135において、特徴語1が複数の前方形態素で構成されていると判断した場合(ステップS134:Y)、文書別特徴語抽出リスト40の各特徴語1(45)の前方形態素44のうち、文書別GF値テーブル60において、その特徴語1の前方形態素のGF順位64が最上位の前方形態素とその順位を特定し、特定した前方形態素と順位とを、文書別出力順位情報70のその特徴語1に対応する前方形態素74と特徴語出力順位75に設定する(ステップS135)。   If the map generation unit 108 determines in step S135 that the feature word 1 is composed of a plurality of forward morphemes (step S134: Y), the map generation unit 108 stores each feature word 1 (45) in the document-specific feature word extraction list 40. Among the front morphemes 44, in the document-specific GF value table 60, the front morpheme with the GF rank 64 of the front morpheme of the feature word 1 identifies the highest morpheme and its rank, and the identified forward morpheme and rank are output by document. The forward morpheme 74 corresponding to the feature word 1 in the rank information 70 and the feature word output rank 75 are set (step S135).

また、マップ生成部108は、ステップS134において、特徴語1が複数の前方形態素で構成されていないと判断した場合(ステップS134:N)、即ち、特徴語1が一つの前方形態素で構成されている場合には、文書別GF値テーブル60において、その特徴語1と一致する前方形態素62とその前方形態素のGF順位64とを、文書別出力順位情報70のその特徴語1に対応する前方形態素74と特徴語出力順位75に設定する (ステップS136)。   If the map generation unit 108 determines in step S134 that the feature word 1 is not composed of a plurality of forward morphemes (step S134: N), that is, the feature word 1 is composed of one forward morpheme. In the document-specific GF value table 60, the forward morpheme 62 that matches the feature word 1 and the GF rank 64 of the forward morpheme are represented by the forward morpheme corresponding to the feature word 1 of the document-specific output rank information 70. 74 and feature word output ranking 75 are set (step S136).

図27に戻り、ステップS130に続いて出力制御部109は、文書別出力順位情報70に基づいて、個別特徴分析対象の特許文書データ群の各出力情報を表した特徴語マップの出力処理を行う(ステップS140)。   Returning to FIG. 27, following step S <b> 130, the output control unit 109 performs output processing of a feature word map representing each output information of the patent document data group of the individual feature analysis target based on the document output order information 70. (Step S140).

以下、特徴語マップ出力処理の詳細について、図31を用いて説明する。   Details of the feature word map output processing will be described below with reference to FIG.

出力制御部109は、記憶部2から文書別出力順位情報70(図25(c))を読み出し、データ取得部102が図28のステップS112で取得した個別特徴分析対象の特許文書データの各書誌的情報を読み出す(ステップS141)。   The output control unit 109 reads out the document-specific output order information 70 (FIG. 25C) from the storage unit 2, and each bibliography of the patent document data for individual feature analysis acquired by the data acquisition unit 102 in step S112 of FIG. Target information is read out (step S141).

続いて、出力制御部109は、文書別出力順位情報70の文書出力順位72を参照し、文書出力順位の各々に対応する特許文書データ別の出力領域に、各特許文書データの書誌的情報のデータを出力する指示を表示部4に送出する(ステップS142)。   Subsequently, the output control unit 109 refers to the document output order 72 of the document output order information 70, and stores the bibliographic information of each patent document data in the output area for each patent document data corresponding to each document output order. An instruction to output data is sent to the display unit 4 (step S142).

出力制御部109は、文書別出力順位情報70の特徴語出力順位75を参照し、各特許文書データの特徴語情報出力領域において、特徴語出力順位の各々に対応する出力位置に当該特許文書データの特徴語1を出力する指示を表示部4に送出する (ステップS143)。   The output control unit 109 refers to the feature word output order 75 of the document-specific output order information 70, and in the feature word information output area of each patent document data, the patent document data is output to the output position corresponding to each feature word output order. An instruction to output the feature word 1 is sent to the display unit 4 (step S143).

ステップS143に続いて、出力制御部109は、文書別特徴語抽出リスト40(図24)を読み出し、ステップS143において出力指示を行った各特許文書データの各特徴語1に対応する各特徴語2を、ステップS143で指示した各特徴語1の出力位置と対応する出力位置に出力する指示を表示部4に送出する(ステップS144)。   Subsequent to step S143, the output control unit 109 reads the document-specific feature word extraction list 40 (FIG. 24), and each feature word 2 corresponding to each feature word 1 of each patent document data for which an output instruction has been issued in step S143. Is sent to the display unit 4 at the output position corresponding to the output position of each feature word 1 instructed in step S143 (step S144).

ここで、表示部4が出力制御部109から上述した出力指示を受付けて表示した特徴語マップの出力例を図26に示す。   Here, an output example of the feature word map displayed by the display unit 4 receiving the above-described output instruction from the output control unit 109 is shown in FIG.

同図の特徴語マップ80において、破線矩形81a〜81cが示す各出力領域(以下、「出力領域81a、81b、81c」と言う。)は、特許文書データ毎の出力領域を各々示している。これらの各出力領域は、特許文書データの出力順位と各々対応しており、本実施の形態では、上の出力領域から順に出力順位が高い特許文書データの出力情報が表示される。   In the feature word map 80 in the figure, each output area indicated by broken-line rectangles 81a to 81c (hereinafter referred to as "output areas 81a, 81b, 81c") indicates an output area for each patent document data. Each of these output areas corresponds to the output order of patent document data, and in this embodiment, output information of patent document data having a higher output order is displayed in order from the upper output area.

次に、出力領域81a、81b、81cにおける書誌的情報、及び特徴語情報の出力位置について、出力領域81aを例に説明する。   Next, bibliographic information and output positions of feature word information in the output areas 81a, 81b, and 81c will be described using the output area 81a as an example.

矩形82で及び矩形84で示される各出力領域(以下、「出力領域82」「出力領域84」と言う。)は、出力領域81aに出力する特許文書データの書誌的情報が出力される領域を示しており、出力領域82は、当該特許文書データの出願番号と発明の名称の各データを上下に表示し、出力領域84は、当該特許文書データの出願人のデータを表示する。また、各矩形83で示される出力領域(以下、「出力領域83」と言う。)は、当該特許文書データの特徴語情報出力領域を示しており、各出力領域83と特徴語出力順位とが対応している。   Each output area indicated by a rectangle 82 and a rectangle 84 (hereinafter referred to as “output area 82” and “output area 84”) is an area in which bibliographic information of patent document data to be output to the output area 81a is output. The output area 82 displays the data of the application number of the patent document data and the name of the invention up and down, and the output area 84 displays the data of the applicant of the patent document data. An output area indicated by each rectangle 83 (hereinafter referred to as “output area 83”) indicates a feature word information output area of the patent document data. It corresponds.

本実施の形態では、特徴語出力領域の左側から順に特徴語出力順位の高い、即ち、GF値の高い前方形態素で構成された特徴語情報が表示される。   In the present embodiment, feature word information composed of forward morphemes having a high feature word output order, that is, a high GF value, is displayed in order from the left side of the feature word output area.

例えば、出力領域81aに出力されている特許文書データは、文書別出力順位情報70の特許ID"特許1"のデータを示しており、"特許1"の特徴語1のうち、特徴語出力順位が最も高い"現像"が特徴語出力領域の左端の出力領域83の上段85に表示され、下段86に特徴語1"現像"に対応する特徴語2"行う"が表示される。特徴語出力順位が下がるほど順に右端の出力領域に、特徴語1及び特徴語2が表示される。   For example, the patent document data output to the output area 81a indicates the data of the patent ID “patent 1” of the document-specific output order information 70. Among the feature words 1 of “patent 1”, the feature word output order “Development” having the highest is displayed in the upper stage 85 of the output area 83 at the left end of the feature word output area, and the feature word 2 “perform” corresponding to the feature word 1 “development” is displayed in the lower stage 86. Feature word 1 and feature word 2 are displayed in the output area at the right end in order as the feature word output rank decreases.

尚、文書別出力順位情報70の特許ID毎の特徴語出力順位が同順位である特徴語1及び特徴語2を出力する場合、同図の各矩形87に示すように、特徴語1と特徴語2の各組み合わせを縦に並べて表示する。   When feature word 1 and feature word 2 having the same feature word output order for each patent ID in document-specific output order information 70 are output, as shown in each rectangle 87 in FIG. Each combination of word 2 is displayed vertically.

<考察>
上述した特徴語マップ80は、技術的関連性が高い特許文書データの集合単位に、各特許文書データの特徴語を表示するので、ある技術分野に属する特許文書データ群の中でも、より関連性の高い特許文書データ群毎の技術的特徴をユーザに示すことができる。
<Discussion>
The feature word map 80 described above displays the feature words of each patent document data in a set unit of patent document data having high technical relevance, so that it is more relevant among patent document data groups belonging to a certain technical field. The technical characteristics of each high patent document data group can be shown to the user.

また、各特許文書データの特徴語1及び特徴語2は、各特許文書データの特徴語出力領域において、特徴語1を構成する形態素データのGF順位に応じて出力されるので、ユーザは、各特徴語出力領域において序列化された特徴語1及び特徴語2が、個別分析対象の特許文書データ群において一般的に用いられているものか、又は独創的に用いられているものか類推することができる。   Further, the feature word 1 and the feature word 2 of each patent document data are output according to the GF rank of the morpheme data constituting the feature word 1 in the feature word output area of each patent document data. To infer whether feature word 1 and feature word 2 ranked in the feature word output area are commonly used in the patent document data group to be individually analyzed or originally used Can do.

[実施の形態3]
<概要>
本実施の形態に係る情報処理装置は、分析対象となる企業等における技術資産を可視化するものである。具体的には、本実施の形態における技術資産は、当該企業の特許文書データ群に含まれる発明を構成する技術要素と、各技術要素によって構成される発明の対象である製品等であり、本実施の形態では、特許文書データ群に含まれる発明を構成する技術要素を示す第1特徴語(以下、「技術要素対象語」と言う。)と、各特許文書データの発明の対象を表す第3特徴語(以下、「製品群対象語」と言う。)を抽出し、特許文書データ群の発明に潜在する技術因子を表す技術要素キーワードを第1特徴語を用いて表し、特許文書データ群の製品等を表す製品群キーワードを第3特徴語を用いて表す。また、特許文書データ群における各製品等にどのような技術因子が関係しているか等、技術要素キーワードと製品群キーワードとの関係を示す関係情報を出力する。
以下、本実施の形態における情報処理装置の詳細について説明する。
[Embodiment 3]
<Overview>
The information processing apparatus according to the present embodiment visualizes technical assets in a company to be analyzed. Specifically, the technical assets in the present embodiment are the technical elements that constitute the invention included in the patent document data group of the company, the product that is the subject of the invention constituted by each technical element, etc. In the embodiment, a first characteristic word (hereinafter, referred to as “technical element object word”) indicating a technical element constituting an invention included in a patent document data group, and a first characteristic word indicating an object of invention of each patent document data. Three feature words (hereinafter referred to as “product group target words”) are extracted, and a technical element keyword representing a technical factor latent in the invention of the patent document data group is expressed using the first feature word, and the patent document data group A product group keyword representing the product or the like is represented using a third feature word. In addition, relationship information indicating the relationship between the technical element keyword and the product group keyword, such as what technical factors are related to each product in the patent document data group, is output.
Details of the information processing apparatus in the present embodiment will be described below.

<構成>
本実施の形態に係る情報処理装置の機能構成を説明する。
図32は、本実施の形態に係る情報処理装置の機能構成図を示している。
以下、同図に従って情報処理装置100の各部について説明するが、同図において上述した実施の形態1及び実施の形態2と同じ符号を付した構成については実施の形態1及び実施の形態2と同様であるため説明を省略する。
<Configuration>
A functional configuration of the information processing apparatus according to the present embodiment will be described.
FIG. 32 shows a functional configuration diagram of the information processing apparatus according to the present embodiment.
Hereinafter, each part of the information processing apparatus 100 will be described with reference to the same figure, but the configuration denoted by the same reference numerals as those of the first and second embodiments described above is the same as that of the first and second embodiments. Therefore, the description is omitted.

情報処理装置100は、記憶部2、入力部3、表示部4及び制御部110を含んで構成されており、制御部110は、入力受付部101、データ取得部102、形態素解析部111、特徴語抽出部112、因子分析部113、因子特定部114、クラスタ特定部115、キーワード生成部116、及び出力制御部117を含む。   The information processing apparatus 100 includes a storage unit 2, an input unit 3, a display unit 4, and a control unit 110. The control unit 110 includes an input reception unit 101, a data acquisition unit 102, a morpheme analysis unit 111, and features. A word extraction unit 112, a factor analysis unit 113, a factor specification unit 114, a cluster specification unit 115, a keyword generation unit 116, and an output control unit 117 are included.

制御部110は、CPUとROMやRAM等のメモリで実現され、ROMに格納されたプログラムをCPUが読み出して実行することにより情報処理装置100の各部を制御する機能を有する。   The control unit 110 is realized by a CPU and a memory such as a ROM and a RAM, and has a function of controlling each unit of the information processing apparatus 100 when the CPU reads and executes a program stored in the ROM.

以下、制御部110の各部について説明する。
形態素解析部111は、データ取得部102から分析対象の特許文書データ群を受付け、特許文書データ群の各特許文書データにおける特許請求の範囲データの各請求項データの記載形式が所定形式か否かに応じて、各請求項データの所定部分、又は全請求項データ及び当該特許文書データの発明の名称として記載された発明の名称データから形態素を検出し、検出した形態素に品詞を対応づけた出願番号別品詞情報を生成して記憶する機能を有する。
Hereinafter, each part of the control part 110 is demonstrated.
The morpheme analysis unit 111 receives the patent document data group to be analyzed from the data acquisition unit 102, and whether or not the description format of each claim data of the claim data in each patent document data of the patent document data group is a predetermined format. In accordance with the application, the morpheme is detected from the specified part of each claim data, or the invention data described as the name of the invention of all the claim data and the patent document data, and the part of speech is associated with the detected morpheme It has a function of generating and storing part-of-speech information by number.

ここで、上記所定部分は、各特許文書データの特許請求の範囲データにおける各請求項データ中の第1所定部分(以下、「技術要素対象部分」と言う。)と、当該特許請求の範囲データの請求項1として記載された第1請求項データ中の第2所定部分(以下、「製品群対象部分」と言う。)とを含む。   Here, the predetermined portion includes a first predetermined portion (hereinafter referred to as “technical element target portion”) in each claim data in the claim data of each patent document data, and the claim range data. And a second predetermined portion (hereinafter referred to as “product group target portion”) in the first claim data described as claim 1.

形態素解析部111は、各特許文書データにおける各請求項データが所定形式で記載されている場合には上記技術要素対象部分の文字列(以下、「技術要素対象データ」と言う。)と上記製品群対象部分の文字列(以下、「製品群対象データ」と言う。)について形態素解析を行い、各々の形態素解析処理により第1形態素、第2形態素を検出する。また、特許文書データの各請求項データが所定形式でない場合には、当該特許文書データの各請求項データと発明の名称データについて各々形態素解析を行い、第1形態素、第2形態素を検出する。   When each claim data in each patent document data is described in a predetermined format, the morpheme analyzer 111 reads the character string of the technical element target part (hereinafter referred to as “technical element target data”) and the product. Morphological analysis is performed on the character string of the group target portion (hereinafter referred to as “product group target data”), and the first morpheme and the second morpheme are detected by each morpheme analysis process. If each claim data of the patent document data is not in a predetermined format, a morpheme analysis is performed on each claim data of the patent document data and the name data of the invention to detect the first morpheme and the second morpheme.

尚、上記所定形式は、例えば、「〜において、・・・することを特徴とする***。」等のジェプソンタイプの記載形式である。形態素解析部111は、 各請求項データについて、"において、"(以下、「第1文字列」と言う。)と、 "ことを特徴とする"(以下、「第2文字列」と言う。) が含まれているか判断し、技術要素対象部分は第1文字列と第2文字列の間にある"・・・すること"の部分であり、製品群対象部分は第1請求項の第2文字列以降に記載された"***"の部分である。   The predetermined format is, for example, a Jepson type description format such as “..., characterized by ...”. For each claim data, the morpheme analysis unit 111 refers to “in” (hereinafter referred to as “first character string”) and “characteristic” (hereinafter referred to as “second character string”). ) Is included, and the technical element target part is the “to do” part between the first character string and the second character string, and the product group target part is the first part of the first claim. The part of “***” written after the second character string.

特徴語解析部111は、形態素解析部111が生成した出願番号別品詞情報の各特許文書データの各請求項データについて、上述した実施の形態1と同様、品詞が第1格助詞の第1形態素毎に、当該第1形態素より前に検出された各第1形態素(以下、「第1格助詞毎の前方第1形態素」と言う。)のうち、検出順位が連続する所定品詞の前方第1形態素を結合して技術要素対象語を生成し、生成した各技術要素対象語を示す技術要素対象語情報を因子分析部113へ送出する機能を有する。また、特徴語解析部111は、上記出願番号別品詞情報の各特許文書データの各請求項データについて、第2形態素の品詞に基づいて第2形態素を結合して文節を順次生成し、当該特許文書データにおける文節生成順位が最後の文節から順に、文節生成順位が連続する第2格助詞を含む文節を結合して製品群対象語を生成し、生成した製品群対象語と当該製品群対象語に対応する特許文書データの出願番号とを示す製品群対象語情報をクラスタ特定部115へ送出する機能を有する。   The feature word analysis unit 111 uses the first morpheme whose part of speech is the first case particle for each claim data of each piece of patent document data of the part number information by application number generated by the morpheme analysis unit 111, as in the first embodiment. For each of the first morphemes detected before the first morpheme (hereinafter referred to as “front first morpheme for each first case particle”), the first front part of the predetermined part-of-speech in which the detection order is continuous. It has a function of generating technical element target words by combining morphemes, and sending technical element target word information indicating each generated technical element target word to the factor analysis unit 113. In addition, the feature word analysis unit 111 sequentially generates clauses by combining the second morpheme based on the part of speech of the second morpheme for each claim data of each patent document data of the part number of part information by application number, and the patent The product group target word is generated by combining the clauses containing the second case particles with the phrase generation order continuing in order from the last phrase in the document data, starting with the last phrase generation order, and the generated product group target word and the product group target word The product group target word information indicating the application number of the patent document data corresponding to is sent to the cluster specifying unit 115.

尚、本実施の形態における第1格助詞は、"の"及び"が"であり、第2格助詞は"の"であり、所定品詞は、"名詞""未知語"であるものとする。また、特許文書データ毎に生成した各文節には当該特許文書データにおける生成順位を対応づけて記憶するものとする。   In this embodiment, the first case particle is “no” and “is”, the second case particle is “no”, and the predetermined part of speech is “noun” “unknown word”. . In addition, each clause generated for each patent document data is stored in association with the generation order in the patent document data.

次に、因子分析部113について説明する。
因子分析部113は、特許文書データテーブルと出願番号別品詞情報と技術要素対象語情報を読み出し、各分析対象特許文書データの全請求項データにおける各技術要素対象語のTF(Term Frequency)値を導出し、各TF値を当該特許文書データの全TF値合計で除算した各値を成分とする各技術要素対象語の文書ベクトル情報を生成する機能を有する。また、因子分析部113は、各技術要素対象語を観測変数として、各技術要素対象語の文書ベクトル情報を用いて下記の因子分析を行う機能を有する。尚、本実施の形態における因子分析は、SPSS(登録商標)やR等の統計分析ソフトを用いて行うものとする。
Next, the factor analysis unit 113 will be described.
The factor analysis unit 113 reads the patent document data table, the part-of-speech information by application number, and the technical element target word information, and calculates the TF (Term Frequency) value of each technical element target word in all the claim data of each analyzed patent document data. Derived and has a function of generating document vector information of each technical element target word having each value as a component obtained by dividing each TF value by the total of all TF values of the patent document data. Further, the factor analysis unit 113 has a function of performing the following factor analysis using document vector information of each technical element target word using each technical element target word as an observation variable. The factor analysis in the present embodiment is performed using statistical analysis software such as SPSS (registered trademark) or R.

(I)分析対象特許文書データ群(特許文書データ数I件)について、各特許文書データの技術要素対象語(n個)を観測変数とし、n個の因子(第1因子〜第n因子)を初期因子として設定する。
(II)上記設定に基づき、SMC法及び主因子法を用いて各技術要素対象語の上記各因子に対する因子負荷量を算出する。
(III)上記各因子のうち固有値が所定の閾値以上である因子を分析対象特許文書データ群の対象因子(N個)として抽出する。なお、本実施の形態では固有値が1以上である因子を抽出するものとする。
(IV)対象因子について、バリマックス法を用いて因子軸を回転させて因子負荷行列を求める。
(V)上記(IV)で算出した各技術要素対象語の因子負荷行列を用いて、各分析対象特許文書データの因子得点を算出する。
また、因子分析部113は、更に、対象因子を示す対象因子情報を因子特定部113とキーワード生成部116へ送出する機能と、上記(IV)(V)によって算出した因子負荷量と因子得点の各々の算出結果を示す因子負荷量算出結果情報と因子得点算出結果情報とを記憶する機能を有する。
(I) With respect to a group of patent document data to be analyzed (number of patent document data I), n factors (1st factor to nth factor) with the technical element target words (n) of each patent document data as observation variables Is set as the initial factor.
(II) Based on the above settings, the factor loading for each factor of each technical element subject word is calculated using the SMC method and the principal factor method.
(III) Among the above factors, factors whose eigenvalues are equal to or greater than a predetermined threshold are extracted as target factors (N) of the analysis target patent document data group. In this embodiment, a factor having an eigenvalue of 1 or more is extracted.
(IV) For the target factor, the factor load matrix is obtained by rotating the factor axis using the varimax method.
(V) The factor score of each analysis target patent document data is calculated using the factor load matrix of each technical element target word calculated in (IV) above.
In addition, the factor analysis unit 113 further transmits the target factor information indicating the target factor to the factor specification unit 113 and the keyword generation unit 116, and the factor load amount and factor score calculated by the above (IV) and (V). It has a function of storing factor load amount calculation result information indicating each calculation result and factor score calculation result information.

次に、因子特定部114の機能について説明する。
因子特定部114は、因子分析部113から送出された対象因子を示す情報を受付け、因子負荷量の算出結果情報において各技術要素対象語の因子負荷量が第1閾値以上の対象因子を当該技術要素対象語の帰属対象因子として特定し、各技術要素対象語の帰属対象因子を示す技術要素帰属対象因子情報をキーワード生成部116へ送出する機能と、因子得点算出結果情報において各分析対象特許文書データの因子得点が第2閾値以上の対象因子を当該分析対象特許文書データの帰属対象因子として特定し、各分析対象特許文書データの帰属対象因子を示す文書帰属対象因子情報を記憶する機能とを有する。尚、本実施の形態において、例えば第1閾値を0.2、第2閾値を1.0として予めROMに記憶されているものとする。
Next, the function of the factor specifying unit 114 will be described.
The factor specifying unit 114 receives the information indicating the target factor sent from the factor analysis unit 113, and in the calculation result information of the factor load amount, the factor load amount of each technical element target word is the target factor having the first threshold value or more. A function to send the element information to be assigned to the keyword generation unit 116, which is specified as the element to be attributed to the element subject word, and to indicate the factor to be assigned to each technical element object word, and each analysis target patent document in the factor score calculation result information A function for specifying a target factor having a data factor score equal to or higher than a second threshold as an attribution target factor of the analysis target patent document data, and storing document attribution target factor information indicating an attribution target factor of each analysis target patent document data. Have. In this embodiment, it is assumed that the first threshold value is 0.2 and the second threshold value is 1.0 and stored in the ROM in advance.

クラスタ特定部115は、特徴語抽出部112から製品群対象語情報を受け付け、各製品群対象語について、分析対象特許文書データ群の第1請求項データの製品群対象部分又は発明の名称データにおける製品群対象語のDF値を求める機能と、出願番号別品詞情報の各第2形態素の各製品群対象語におけるTF値と、全製品群対象語における各第2形態素のIDF(Inverse Document Frequency)値とを求め、各第2形態素のTF値とIDF値とを乗算した値を成分とする分析対象特許文書データの文書ベクトルを生成し、各文書ベクトルを示す出願番号別文書ベクトル情報をキーワード生成部116へ送出する機能を有する。   The cluster identification unit 115 receives product group target word information from the feature word extraction unit 112, and for each product group target word, in the product group target part of the first claim data of the analysis target patent document data group or the name data of the invention Function to obtain the DF value of the product group target word, TF value in each product group target word of each second morpheme of part-of-speech information by application number, and IDF (Inverse Document Frequency) of each second morpheme in all product group target words The document vector of the analyzed patent document data whose component is the value obtained by multiplying the TF value of each second morpheme and the IDF value is generated, and the document vector information by application number indicating each document vector is generated as a keyword A function of sending to the unit 116.

また、クラスタ特定部115は、各分析対象特許文書データの製品群対象語のうち、所定値以上のDF値を有する製品群対象語の文書ベクトル(以下、「高DF文書ベクトル」と言う。)間の類似度を算出してクラスタを抽出するクラスタリング処理機能と、上記所定値より小さいDF値を有する製品群対象語の文書ベクトル(以下、「低DF文書ベクトル」と言う。)と、上記抽出した各クラスタに属する各文書ベクトルとの類似度を算出し、低DF文書ベクトルと類似度が最も高い文書ベクトルを含むクラスタに当該低DF文書ベクトルを所属させる機能と、各分析対象特許文書データが属するクラスタを示すクラスタ情報を記憶し、クラスタ情報をキーワード生成部116へ送出する機能を有する。   Further, the cluster identification unit 115 is a document vector of product group target words having a DF value equal to or greater than a predetermined value among the product group target words of each analysis target patent document data (hereinafter referred to as “high DF document vector”). A clustering processing function for calculating a similarity between them and extracting a cluster, a document vector of a product group target word having a DF value smaller than the predetermined value (hereinafter referred to as “low DF document vector”), and the extraction The degree of similarity with each document vector belonging to each cluster is calculated, the function of assigning the low DF document vector to the cluster including the document vector having the highest similarity with the low DF document vector, and each analysis target patent document data It has a function of storing cluster information indicating a cluster to which it belongs and sending the cluster information to the keyword generating unit 116.

尚、本実施の形態における上記類似度は、クラスタ特定部115が文書ベクトル間の余弦値を算出することにより求め、クラスタの抽出は、類似度が最大の文書ベクトル同士を一つのグループとして順次クラスタを生成し、クラスタに未所属の文書ベクトルとクラスタ又はクラスタ間の類似度を算出し最長距離法を用いて、未所属の文書ベクトルを各クラスタに含ませることにより行う。   Note that the similarity in the present embodiment is obtained by the cluster specifying unit 115 calculating cosine values between document vectors, and the cluster extraction is performed by sequentially clustering the document vectors having the maximum similarity as one group. Is generated by calculating the similarity between the document vectors not belonging to the clusters and the clusters or the clusters, and including the unaffiliated document vectors in each cluster using the longest distance method.

キーワード生成部116は、因子分析部113から対象因子を示す対象因子情報と因子特定部114から各技術要素対象語の帰属対象因子を示す帰属対象因子情報とを受け付け、各技術要素対象語の因子負荷量算出結果情報に基づいて、各対象因子に帰属する技術要素対象語のうち、因子負荷量が第3閾値以上の技術要素対象語を結合することにより技術要素キーワードを生成し、生成した対象因子毎の技術要素キーワード情報を記憶する機能を有する。また、キーワード生成部116は、クラスタ特定部115からクラスタ情報と出願番号別文書ベクトル情報を受け付ける機能と、クラスタ情報の各クラスタに属する特許文書データの文書ベクトルを用いて、当該クラスタの重心ベクトルを算出し、当該重心ベクトルと当該クラスタに属する各文書ベクトルとの類似度を算出する機能と、当該クラスタにおける類似度の降順で所定順位以上に該当する文書ベクトルを有する分析対象特許文書データの製品群対象語を結合することにより当該クラスタを示す製品群キーワードを生成し、生成したクラスタ毎の製品群キーワード情報を記憶する機能と技術要素キーワード情報と製品群キーワード情報を出力制御部へ送出する機能を有する。尚、本実施の形態において、例えば上記第3閾値を0.2として予めROMに記憶されているものとする。   The keyword generation unit 116 receives the target factor information indicating the target factor from the factor analysis unit 113 and the attribution target factor information indicating the attribution target factor of each technical element target word from the factor specifying unit 114, and the factor of each technical element target word Based on the load amount calculation result information, among the technical element target words belonging to each target factor, a technical element keyword is generated by combining technical element target words with a factor load of the third threshold or more, and the generated target It has a function of storing technical element keyword information for each factor. Further, the keyword generation unit 116 uses the function of receiving the cluster information and the document vector information by application number from the cluster specifying unit 115 and the document vector of the patent document data belonging to each cluster of the cluster information, and calculates the centroid vector of the cluster. A product group of analysis-target patent document data having a function of calculating and calculating a similarity between the centroid vector and each document vector belonging to the cluster, and a document vector corresponding to a predetermined rank or higher in descending order of similarity in the cluster A function for generating a product group keyword indicating the cluster by combining the target words, a function for storing the product group keyword information for each generated cluster, and a function for sending the technical element keyword information and the product group keyword information to the output control unit. Have. In the present embodiment, for example, it is assumed that the third threshold is stored in advance in the ROM as 0.2.

出力制御部117は、キーワード生成部116から技術要素キーワード情報と製品群キーワード情報を受け付け、出願番号別帰属情報と特許文書データ情報に基づいて、各クラスタに属する特許文書データの帰属対象因子毎の件数を計数してクラスタ別因子別件数情報を生成する機能と、各クラスタに属する特許文書データの帰属対象因子毎の評価値合計を算出してクラスタ別因子別評価値情報を生成する機能と、技術要素キーワード情報と製品群キーワード情報に基づいて、クラスタ別因子別件数情報の各件数と、当該件数に対応する技術要素キーワード及び製品群キーワードを対応付けた第1関係情報を表示部4に表示させる機能と、クラスタ別因子別評価値情報の各評価値と、当該評価値に対応する技術要素キーワード及び製品群キーワードを対応付けた第2関係情報を表示部4に表示させる機能とを有する。   The output control unit 117 receives the technical element keyword information and the product group keyword information from the keyword generation unit 116, and for each attribution target factor of the patent document data belonging to each cluster, based on the application number attribute information and the patent document data information. A function for counting the number of cases and generating the number-by-factor factor-specific information, a function for calculating the total evaluation value for each attribution target factor of patent document data belonging to each cluster, and generating the cluster-by-factor factor-specific evaluation value information, Based on the technical element keyword information and the product group keyword information, the number of cases by the cluster-specific factor number information and the first relation information in which the technical element keyword and the product group keyword corresponding to the number are associated are displayed on the display unit 4. Function, each evaluation value of evaluation value information by factor for each cluster, technical element keyword and product group keyword corresponding to the evaluation value A function of causing the display unit 4 to display the second relation information associated with the mode.

ここで、上記第1関係情報と第2関係情報の例を図46を用いて説明する。
図46(a)は、本実施の形態における第1関係情報の例を示しており、同図の第1関係情報630において、製品群キーワード1〜M(632)は製品群キーワード情報の各製品群キーワードを示しており、技術要素キーワード1〜N(631)は、技術要素キーワード情報の各技術要素キーワードを示しており、各製品群キーワードと各技術要素キーワードに対応する各セルは特許文書データ件数を示している。例えば、セル633は、製品群キーワード2に帰属する特許文書データであって、技術要素キーワードNを帰属対象因子とする特許文書データの件数が5件であることを示している。
Here, examples of the first relation information and the second relation information will be described with reference to FIG.
FIG. 46A shows an example of the first relation information in the present embodiment. In the first relation information 630 of FIG. 46, product group keywords 1 to M (632) are the products of the product group keyword information. Group element keywords 1 to N (631) indicate element element keywords of the element element keyword information, and each product group keyword and each cell corresponding to each element element keyword are patent document data. The number of cases is shown. For example, the cell 633 indicates that the number of patent document data belonging to the product group keyword 2 and having the technical element keyword N as the attribution target factor is five.

また、図46(b)は、本実施の形態における第2関係情報の例を示しており、同図の第2関係情報640は、X軸に技術要素キーワード1〜N(631)、Y軸に製品群キーワード1〜M(642)、Z軸に評価値643を設定した3次元グラフである。例えば、同図の円柱644は、製品群キーワード1に属する特許文書データであって、技術要素キーワード1を帰属対象因子とする特許文書データの評価値合計の値を示している。   FIG. 46B shows an example of the second relation information in the present embodiment. The second relation information 640 in FIG. 46 includes the technical element keywords 1 to N (631) on the X axis and the Y axis. Is a three-dimensional graph in which product group keywords 1 to M (642) and an evaluation value 643 are set on the Z axis. For example, a column 644 in the figure shows the total value of the evaluation values of patent document data belonging to the product group keyword 1 and having the technical element keyword 1 as an attribution target factor.

<データ>
以下、本実施の形態に係る情報処理装置100の記憶部2又はメモリに格納されているデータ構造について説明する。
<Data>
Hereinafter, the data structure stored in the storage unit 2 or the memory of the information processing apparatus 100 according to the present embodiment will be described.

図33(a)は、特許文書データテーブルの構成及びデータ例を示している。
特許文書データテーブル510は、本実施の形態の分析対象として入力受付部101が受け付けた出願人の特許文書データをデータ取得部102が取得する際に読み出される。
FIG. 33A shows the configuration and data example of the patent document data table.
The patent document data table 510 is read when the data acquisition unit 102 acquires the applicant's patent document data received by the input reception unit 101 as an analysis target of the present embodiment.

同図の特許文書データテーブル510は、出願番号511と出願人512と発明の名称513と請求の範囲514と評価値515とを対応付けて記憶している。   The patent document data table 510 in the figure stores an application number 511, an applicant 512, an invention name 513, a claim 514, and an evaluation value 515 in association with each other.

出願番号511は、各特許文書データに係る特許出願の出願番号であり、出願人は当該特許出願の出願人名称であり、発明の名称513は、当該特許出願の出願明細書中に発明の名称として記載されたデータであり、請求の範囲514は、当該特許出願において特許請求の範囲又は請求の範囲として記載されたデータであり、当該特許出願の全請求項のデータが請求項毎に格納されている。また、評価値515は、所定の算出方法により予めユーザが設定した当該特許出願に係る発明の評価を示すデータである。   The application number 511 is the application number of the patent application relating to each patent document data, the applicant is the name of the applicant of the patent application, and the name of the invention 513 is the name of the invention in the application specification of the patent application. The claims 514 are data described as claims or claims in the patent application, and all claims data of the patent application are stored for each claim. ing. The evaluation value 515 is data indicating the evaluation of the invention according to the patent application preset by the user by a predetermined calculation method.

図33(b)は、出願番号別品詞情報テーブルの構成及びデータ例を示している。
出願番号別品詞情報テーブル520は、形態素解析部111が分析対象の各特許文書データの特許文書データテーブル510の請求の範囲514のデータ又は発明の名称513のデータについて形態素解析を行った際に生成される。
FIG. 33B shows the configuration and data example of the part number part-of-speech information table by application number.
The part number part-of-speech information table 520 is generated when the morphological analysis unit 111 performs morphological analysis on the data of the claim 514 of the patent document data table 510 or the data of the invention name 513 of each patent document data to be analyzed. Is done.

同図の出願番号別品詞情報テーブル520は、出願番号521と第1ID522と第1形態素523と品詞524と第2ID525と第2形態素526と品詞527とを対応づけて記憶されている。   The part number part-of-speech information table 520 of FIG. 5 stores an application number 521, a first ID 522, a first morpheme 523, a part of speech 524, a second ID 525, a second morpheme 526, and a part of speech 527 in association with each other.

出願番号521は、形態素解析された特許文書データの出願番号であり、第1ID522は、当該特許文書データの請求の範囲514の各請求項データにおける技術要素対象部分において検出された形態素の当該請求項データの請求項番号と当該請求項データにおける検出順位を示すデータである。例えば、第1ID522が"1−1"である場合、第1請求項において検出順位が第1番目であることを示している。   The application number 521 is the application number of the patent document data subjected to morphological analysis, and the first ID 522 is the claim of the morpheme detected in the technical element target portion in each claim data of the claim 514 of the patent document data. This is data indicating the claim number of the data and the detection order in the claim data. For example, when the first ID 522 is “1-1”, it indicates that the detection order is the first in the first claim.

また、第1形態素523は当該特許文書データの各請求項データの技術要素対象部分から検出された形態素のデータであり、品詞524は、第1形態素523の各形態素に対応する品詞である。また、第2ID525は、当該特許文書データの請求の範囲514の第1請求項データにおける製品群対象部分において検出された形態素の検出順位を示すデータであり、第2形態素526は、当該特許文書データの第1請求項データの製品群対象部分から検出された形態素のデータであり、品詞527は、第2形態素526の各形態素に対応する品詞である。   The first morpheme 523 is morpheme data detected from the technical element target portion of each claim data of the patent document data, and the part of speech 524 is a part of speech corresponding to each morpheme of the first morpheme 523. The second ID 525 is data indicating the detection order of the morphemes detected in the product group target portion in the first claim data of the claim 514 of the patent document data, and the second morpheme 526 is the patent document data. Morpheme data detected from the product group target portion of the first claim data, and the part of speech 527 is a part of speech corresponding to each morpheme of the second morpheme 526.

図34(a)は、技術要素対象語別文書ベクトル情報の構成及びデータ例を示している。
同図の技術要素対象語別文書ベクトル情報530は、因子分析部113が分析対象の特許文書データ群の因子分析を行う際に、特徴語抽出部112により生成された技術要素対象語情報と当該特許文書データ群の全請求項データに基づいて生成される。
FIG. 34A shows the configuration and data example of the technical element target word-specific document vector information.
The technical element target word-specific document vector information 530 shown in FIG. 5 includes the technical element target word information generated by the feature word extraction unit 112 when the factor analysis unit 113 performs factor analysis of the patent document data group to be analyzed. It is generated based on all the claim data of the patent document data group.

技術要素対象語別文書ベクトル情報530は、出願番号531と各技術要素対象語532とを対応づけて記憶している。   The technical element target word-specific document vector information 530 stores an application number 531 and each technical element target word 532 in association with each other.

出願番号531は、因子分析対象となる特許文書データの出願番号であり、技術要素対象語532は、特徴語抽出部112によって生成された各技術要素対象語について、各特許文書データの全請求項データにおける技術要素対象語の各TF値を特許文書データ毎のTF値合計で除算することにより求めた当該技術要素対象語の文書ベクトルの成分である。   The application number 531 is the application number of the patent document data to be subjected to factor analysis, and the technical element target word 532 is a claim of all patent document data for each technical element target word generated by the feature word extraction unit 112. This is a component of the document vector of the technical element target word obtained by dividing each TF value of the technical element target word in the data by the total TF value for each patent document data.

図34(b)は、出願番号別文書ベクトル情報の構成及びデータ例を示している。
同図の出願番号別文書ベクトル情報540は、クラスタ特定部115が分析対象の特許文書データ群をクラスタリングする際、特徴語抽出部112によって生成された製品群対象語と各特許文書データの第1請求項データ又は発明の名称データに基づいて生成される。
FIG. 34B shows the configuration and data example of document vector information by application number.
The document number-specific document vector information 540 in FIG. 11 is obtained by using the product group target word generated by the feature word extraction unit 112 and the first of each patent document data when the cluster specifying unit 115 clusters the patent document data group to be analyzed. It is generated based on the claim data or the name data of the invention.

出願番号別文書ベクトル情報540は、出願番号541と製品群対象語542とDF543と収納箱等544とを対応付けて記憶している。
出願番号541は、分析対象の各特許文書データの出願番号であり、製品群対象語542は、当該特許文書データにおいて特徴語抽出部112によって抽出された製品群対象語であり、DF543は、特許文書データ群の第1請求項データの製品群対象部分における各製品群対象語のDF値のデータであり、収納箱等544は、各第2形態素の各製品群対象語における各TF値に全製品群対象語における当該第2形態素のIDF値を乗算した値を示している。
Application number-specific document vector information 540 stores application number 541, product group target word 542, DF 543, storage box and the like 544 in association with each other.
The application number 541 is the application number of each patent document data to be analyzed, the product group target word 542 is a product group target word extracted by the feature word extraction unit 112 in the patent document data, and the DF 543 is a patent DF value data of each product group target word in the product group target portion of the first claim data of the document data group, and the storage box etc. 544 is added to each TF value in each product group target word of each second morpheme. A value obtained by multiplying the IDF value of the second morpheme in the product group target word is shown.

尚、DF543は、クラスタ特定部115が高DF文書ベクトルと低DF文書ベクトルを区別するための基準値として用いられる。   The DF 543 is used as a reference value for the cluster identification unit 115 to distinguish between a high DF document vector and a low DF document vector.

図35(b)は、因子負荷量算出結果情報の構成及びデータ例を示している。
同図の因子負荷量算出結果情報550は、因子分析部113が技術要素対象語別文書ベクトル情報530の各文書ベクトルを用いて各技術要素対象語の因子負荷量を算出した際に生成される。
FIG. 35B shows the configuration and data example of factor load amount calculation result information.
The factor load amount calculation result information 550 shown in the figure is generated when the factor analysis unit 113 calculates the factor load amount of each technical element target word using each document vector of the technical element target word-specific document vector information 530. .

因子負荷量算出結果情報550は、技術要素対象語551と第1因子〜第N因子552とを対応づけて記憶されている。
技術要素対象語551は、分析対象特許文書データ群から抽出された技術要素対象語であり、第1因子〜第N因子552は対象因子であり、各技術要素対象語と各対象因子に対応する各セルには当該技術要素対象語の当該対象因子に対する因子負荷量の値が格納される。
The factor load amount calculation result information 550 stores the technical element target word 551 and the first factor to the Nth factor 552 in association with each other.
The technical element target word 551 is a technical element target word extracted from the analysis target patent document data group, and the first factor to the Nth factor 552 are target factors, and correspond to each technical element target word and each target factor. Each cell stores a factor load value for the target factor of the technical element target word.

図35(c)は、因子得点算出結果情報の構成及びデータ例を示している。
同図の因子得点算出結果情報560は、因子負荷量算出結果情報550に基づいて各特許文書データの因子得点を算出した際に生成される。
FIG. 35C shows the configuration and data example of factor score calculation result information.
The factor score calculation result information 560 in the figure is generated when the factor score of each patent document data is calculated based on the factor load amount calculation result information 550.

因子得点算出結果情報560は、出願番号561と第1因子〜第N因子562とを対応づけて記憶されている。
出願番号561は、因子分析対象の各特許文書データの出願番号であり、第1因子〜第N因子562は対象因子であり、各出願番号と各対象因子に対応する各セルには当該出願番号の当該対象因子に対する因子得点の値が格納される。
The factor score calculation result information 560 is stored in association with the application number 561 and the first to Nth factors 562.
The application number 561 is the application number of each patent document data subject to factor analysis, the first factor to the N-th factor 562 are target factors, and each cell corresponding to each application number and each target factor has its application number. The factor score value for the target factor is stored.

図36(a)は、出願番号別帰属情報の構成及びデータ例を示している。
同図の出願番号別帰属情報570は、クラスタ特定部115が分析対象の特許文書データ群についてクラスタリングを行った際に各特許文書データが帰属するクラスタのクラスタ情報が格納され、因子特定部114が各特許文書データの帰属対象因子を特定した際に文書帰属対象因子情報が格納される。
FIG. 36 (a) shows the configuration and data example of attribution information by application number.
The application number-specific attribution information 570 in FIG. 8 stores cluster information of clusters to which each patent document data belongs when the cluster identification unit 115 performs clustering on the patent document data group to be analyzed, and the factor identification unit 114 stores the cluster information. Document attribution target factor information is stored when the attribution target factor of each patent document data is specified.

出願番号別帰属情報570は、出願番号571とクラスタNo.572と帰属対象因子573とを対応づけて記憶されている。
出願番号571は、分析対象の各特許文書データの出願番号であり、クラスタNo.572は、当該特許文書データが属するクラスタのクラスタ番号であり、帰属対象因子573は、当該特許文書データが帰属する対象因子の情報を示している。
The application number-specific attribution information 570 stores an application number 571, a cluster number 572, and an attribution target factor 573 in association with each other.
Application number 571 is the application number of each patent document data to be analyzed, cluster No. 572 is the cluster number of the cluster to which the patent document data belongs, and attribution target factor 573 is attributed to the patent document data. The target factor information is shown.

図36(b)は、技術要素キーワード情報の構成及びデータ例を示している。
同図の技術要素キーワード情報580は、因子分析部113から受け付けた対象因子情報と因子特定部113から受け付けた帰属対象因子情報と、因子負荷量算出結果情報550に基づいて、キーワード生成部116が各対象因子を示す技術要素キーワードを生成した際に記憶される。
FIG. 36B shows the configuration and data example of the technical element keyword information.
The technical element keyword information 580 in FIG. 5 is generated by the keyword generation unit 116 based on the target factor information received from the factor analysis unit 113, the attribution target factor information received from the factor specifying unit 113, and the factor load amount calculation result information 550. It is stored when a technical element keyword indicating each target factor is generated.

技術要素キーワード情報580は、対象因子581と技術要素キーワード582とを対応づけて記憶されている。
対象因子581は、因子特定部113からキーワード生成部116が受け付けた対象因子情報の各対象因子を示しており、技術要素キーワード582は、当該対象因子を帰属対象因子とする技術要素対象語を結合させた技術要素キーワードを示している。例えば、技術要素キーワード1は、"合金元素同士"と"合金元素"と"薄片"と"粒子"の各技術要素対象語の間にカンマを挿入して結合させたものである。尚、他の技術要素キーワードも同様に生成されるが、説明の便宜上、技術要素キーワード2、技術要素キーワード3・・等の表現を用いるものとする。
The technical element keyword information 580 stores the target factor 581 and the technical element keyword 582 in association with each other.
The target factor 581 indicates each target factor of the target factor information received by the keyword generation unit 116 from the factor specifying unit 113, and the technical element keyword 582 combines technical element target words having the target factor as an attribute target factor. Indicates the technical element keyword. For example, the technical element keyword 1 is obtained by inserting a comma between technical element target words “alloying elements”, “alloying elements”, “flakes”, and “particles” and combining them. Other technical element keywords are also generated in the same manner, but for the sake of convenience of description, expressions such as technical element keyword 2, technical element keyword 3,.

図36(c)は、製品群キーワード情報の構成及びデータ例を示している。
同図の製品群キーワード情報590は、出願番号別文書ベクトル情報540と出願番号別帰属情報570のクラスタ情報に基づいて、キーワード生成部116が各クラスタを示す製品群キーワードを生成した際に記憶される。
FIG. 36C shows the configuration and data example of product group keyword information.
The product group keyword information 590 shown in the figure is stored when the keyword generation unit 116 generates a product group keyword indicating each cluster based on the cluster information of the document vector information 540 by application number and the attribution information 570 by application number. The

製品群キーワード情報590は、クラスタNo.591と製品群キーワード592とを対応づけて記憶されている。
クラスタNo.591は、上記クラスタ情報の各クラスタのクラスタ番号を示しており、製品群キーワード592は、当該クラスタに帰属する特許文書データのうちの製品群対象語を結合して生成された製品群キーワードを示している。例えば、製品群キーワード1は、 "スライドファスナー"と"スライドファスナー用スライダー"の各製品群対象語を上記技術要素キーワードと同様に結合させて生成したものであり、他の製品群キーワードも同様である。
The product group keyword information 590 stores a cluster number 591 and a product group keyword 592 in association with each other.
Cluster No. 591 indicates the cluster number of each cluster in the cluster information, and the product group keyword 592 is a product group generated by combining product group target words in patent document data belonging to the cluster. Indicates a keyword. For example, product group keyword 1 is generated by combining the product group target words of “slide fastener” and “slider fastener slider” in the same manner as the above technical element keyword, and the other product group keywords are the same. is there.

図37(a)は、クラスタ別因子別件数情報の構成及びデータ例を示している。
同図のクラスタ別因子別件数情報610は、出願番号別帰属情報570と特許文書データテーブル510に基づいて、出力制御部117が第1関係情報として、各クラスタに属する特許文書データの帰属対象因子毎に特許文書データ件数を出力する際に生成される。
FIG. 37A shows the configuration and data example of the cluster-specific factor number information.
The number-by-cluster factor number information 610 in FIG. 11 is based on the application number attribution information 570 and the patent document data table 510. The output control unit 117 uses the attribution information of the patent document data belonging to each cluster as the first relation information. It is generated when the number of patent document data is output every time.

クラスタ別因子別件数情報610は、クラスタ1〜クラスタM612と第1因子〜第N因子611とを対応づけて記憶されている。
クラスタ1〜クラスタM612は、出願番号別帰属情報570のクラスタ情報の各クラスタであり、第1因子〜第N因子611は、各対象因子を示しており、例えば、クラスタ1及び第N因子で示されるセル613には、クラスタ1に属し、且つ、第N因子に帰属する特許文書データの件数が格納される。
The cluster-specific factor number information 610 stores clusters 1 to M612 and first to Nth factors 611 in association with each other.
Cluster 1 to cluster M 612 are each cluster of cluster information of attribution information 570 by application number, and first factor to N factor 611 indicate each target factor, for example, indicated by cluster 1 and N factor. The cell 613 stores the number of patent document data belonging to the cluster 1 and belonging to the Nth factor.

図37(b)は、クラスタ別因子別評価値情報の構成及びデータ例を示している。
同図のクラスタ別因子別評価値情報620は、出願番号別帰属情報570と特許文書データテーブル510に基づいて、出力制御部117が第2関係情報として、各クラスタに属する特許文書データの帰属対象因子毎に特許文書データの評価値合計を出力する際に生成される。
FIG. 37B shows a configuration and data example of cluster-based factor-by-factor evaluation value information.
The cluster-based factor-specific evaluation value information 620 in the figure is based on the application number attribution information 570 and the patent document data table 510, and the output control unit 117 uses the second relation information as the attribution object of the patent document data belonging to each cluster. Generated when outputting the total evaluation value of patent document data for each factor.

クラスタ別因子別評価値情報620は、クラスタ1〜クラスタM622と第1因子〜第N因子621とを対応づけて記憶されている。
クラスタ1〜クラスタM622は、出願番号別帰属情報570のクラスタ情報の各クラスタであり、第1因子〜第N因子621は、各対象因子を示しており、例えば、クラスタ2及び第N因子で示されるセル623には、クラスタ2に属し、且つ第N因子に帰属する特許文書データの評価値合計が格納される。
The cluster-specific factor-by-factor evaluation value information 620 stores clusters 1 to M622 and first to N-th factors 621 in association with each other.
Cluster 1 to cluster M 622 are each cluster of the cluster information of attribution information 570 by application number, and first factor to N factor 621 indicate each target factor, for example, indicated by cluster 2 and N factor. The cell 623 stores the total evaluation value of patent document data belonging to the cluster 2 and belonging to the Nth factor.

<動作>
以下、上述した本実施の形態に係る情報処理装置100の動作について説明する。
図38は、情報処理装置100の全体動作を示す動作フローを示している。以下、同図に従って説明する。
<Operation>
Hereinafter, the operation of the information processing apparatus 100 according to the present embodiment will be described.
FIG. 38 shows an operation flow showing the overall operation of the information processing apparatus 100. Hereinafter, description will be given with reference to FIG.

ステップS1100において、情報処理装置100の入力受付部101は、入力部3を介してユーザから分析対象となる特許文書データ群の出願人の指定入力を受け付け、入力受付部101はデータ取得部102に指定された出願人を示す分析対象情報を送出する。   In step S <b> 1100, the input receiving unit 101 of the information processing apparatus 100 receives a designation input by the applicant of the patent document data group to be analyzed from the user via the input unit 3, and the input receiving unit 101 receives the data acquiring unit 102. Sends analysis target information indicating the specified applicant.

データ取得部102は、記憶部2から特許文書データテーブル510を読み出し、入力受付部101から受け付けた分析対象情報に対応する特許文書データを読み出し、形態素解析部111へ読み出した分析対象の特許文書データ群の情報を送出する(ステップS1200)。   The data acquisition unit 102 reads the patent document data table 510 from the storage unit 2, reads patent document data corresponding to the analysis target information received from the input reception unit 101, and reads the analysis target patent document data to the morpheme analysis unit 111. The group information is transmitted (step S1200).

形態素解析部111は、データ取得部102から受け付けた特許文書データ群の情報を用いて形態素解析処理を行う(ステップS1300)。   The morpheme analysis unit 111 performs morpheme analysis processing using the information of the patent document data group received from the data acquisition unit 102 (step S1300).

ここで、形態素解析処理の詳細について図39を用いて説明する。
形態素解析部111は、分析対象の特許文書データ群の各特許文書データについて、当該特許文書データの請求の範囲データ514における各請求項データを抽出する(ステップS1310)。
Here, the details of the morphological analysis processing will be described with reference to FIG.
The morpheme analysis unit 111 extracts each claim data in the claim data 514 of the patent document data for each patent document data of the patent document data group to be analyzed (step S1310).

形態素解析部111は、ステップS1310で抽出した各請求項データについて、当該請求項データの記載形式が所定形式に合致するか否か判断する(ステップS1320)。尚、所定形式に合致するか否かは、所定の文字列が含まれているか否かによって判断する。例えば、図35(a)に示す請求項データの場合、下線50Aの"において、"の第1文字列と下線50Cの"ことを特徴とする"の第2文字列が請求項データに含まれているので当該請求項データは所定形式に合致していると判断する。   For each claim data extracted in step S1310, the morpheme analyzer 111 determines whether or not the description format of the claim data matches a predetermined format (step S1320). Whether or not it conforms to a predetermined format is determined by whether or not a predetermined character string is included. For example, in the claim data shown in FIG. 35A, in the underline 50A, the first character string “characterized by” and the second character string “characterized by the underline 50C” are included in the claim data. Therefore, it is determined that the claim data conforms to a predetermined format.

ステップS1320において、形態素解析部111が当該請求項データの記載形式が所定形式に合致していると判断した場合(ステップS1320:Y)、形態素解析部111は、当該請求項データの技術要素対象部分のデータを抽出する(ステップS1330)。上述した図35(a)の例の請求項データの場合、下線50Aの第1文字列と下線50Cの第2文字列に挟まれた各文字列、即ち、下線50Bで示される文字列部分が技術要素対象部分であり、下線50Bの各文字列が抽出される。   In step S1320, when the morpheme analysis unit 111 determines that the description format of the claim data matches the predetermined format (step S1320: Y), the morpheme analysis unit 111 determines the technical element target portion of the claim data. Are extracted (step S1330). In the case of the claim data in the example of FIG. 35A described above, each character string sandwiched between the first character string of the underline 50A and the second character string of the underline 50C, that is, the character string portion indicated by the underline 50B is Each character string of the underline 50B, which is a technical element target portion, is extracted.

続いて、形態素解析部111は、当該請求項データが第1請求項データであるか否か判断し(ステップS1340)、当該請求項データが第1請求項データであると判断した場合(ステップS1340:Y)、当該請求項データ中の製品群対象部分のデータに含まれる形態素を検出し、検出した各形態素を第2形態素として抽出する(ステップS1350)。上述の図35(a)に示す請求項データの場合、下線50Cの第2文字列以降の文字列、即ち、下線50Dで示される文字列の部分が製品群対象部分であり、下線50Dの各文字列から第2形態素が抽出される。   Subsequently, the morphological analysis unit 111 determines whether or not the claim data is the first claim data (step S1340), and determines that the claim data is the first claim data (step S1340). : Y), the morpheme included in the data of the product group target part in the claim data is detected, and each detected morpheme is extracted as the second morpheme (step S1350). In the case of the claim data shown in FIG. 35A, the character string after the second character string of the underline 50C, that is, the part of the character string indicated by the underline 50D is the product group target part, and each of the underline 50D A second morpheme is extracted from the character string.

形態素解析部111は、ステップS1330で抽出した当該請求項データの技術要素対象データに含まれる形態素を検出し、検出した形態素を第1形態素として抽出する(ステップS1360)。   The morpheme analyzer 111 detects the morpheme included in the technical element target data of the claim data extracted in step S1330, and extracts the detected morpheme as the first morpheme (step S1360).

続いて、形態素解析部111は、ステップS1350及びステップS1360で抽出した当該請求項データの第1形態素と第2形態素に対応する品詞を対応づけ、当該請求項データにおいて検出した順に第1形態素及び第2形態素の各々について検出順位を示す第1ID522及び第2ID525を付して出願番号別品詞情報520をメモリに記憶し、特徴語抽出部112に形態素解析処理を終了した旨を示す終了情報を送出する(ステップS1370)。   Subsequently, the morpheme analysis unit 111 associates the first morpheme and the second morpheme corresponding to the first morpheme and the second morpheme of the claim data extracted in steps S1350 and S1360, and detects the first morpheme and the first morpheme in the order detected in the claim data. The first ID 522 and the second ID 525 indicating the detection order are attached to each of the two morphemes, the part-of-speech information 520 by application number is stored in the memory, and end information indicating that the morpheme analysis processing is ended is sent to the feature word extraction unit 112. (Step S1370).

また、ステップS1320において、形態素解析部111が当該請求項データの記載形式が所定形式ではないと判断した場合(ステップS1320:N)、形態素解析部111は、当該請求項データの全文字列を技術要素対象部分のデータとして形態素を検出し、検出した形態素を第1形態素として抽出する(ステップS1380)。続いて、形態素解析部111は、特許文書データテーブル510における当該請求項データの出願番号に対応する発明の名称513から形態素を検出し、検出した形態素を第2形態素として抽出し(ステップS1390)、抽出した第1形態素及び第2形態素について上述したステップS1370の処理を行う。   In step S1320, if the morpheme analysis unit 111 determines that the description format of the claim data is not a predetermined format (step S1320: N), the morpheme analysis unit 111 uses all character strings of the claim data as a technology. A morpheme is detected as element target portion data, and the detected morpheme is extracted as a first morpheme (step S1380). Subsequently, the morpheme analysis unit 111 detects a morpheme from the name 513 of the invention corresponding to the application number of the claim data in the patent document data table 510, and extracts the detected morpheme as a second morpheme (step S1390). The above-described processing in step S1370 is performed on the extracted first morpheme and second morpheme.

図38に戻り、ステップS1400以下の各処理について説明する。
特徴語抽出部112は、ステップS1300において形態素解析部112から終了情報を受付けると、メモリ上の出願番号別品詞情報520の第1形態素523及び第2形態素526に格納されている各形態素データを用いて、分析対象特許データ群における技術要素対象語と分析対象特許データ毎の製品群対象語とを生成する(ステップS1400)。
Returning to FIG. 38, each processing after step S1400 will be described.
When the feature word extraction unit 112 receives the end information from the morpheme analysis unit 112 in step S1300, the feature word extraction unit 112 uses the morpheme data stored in the first morpheme 523 and the second morpheme 526 of the part number part-of-speech information 520 in the memory. Thus, the technical element target word in the analysis target patent data group and the product group target word for each analysis target patent data are generated (step S1400).

ここで、上記ステップS1400の処理の詳細について図40を用いて説明する。
特徴語抽出部112は、メモリから出願番号別品詞情報520を読み出し(ステップS1410)、出願番号別品詞情報520の出願番号521に記憶されている各出願番号の請求項データ毎に、品詞524に"の"又は"が"の第1格助詞が記憶されている第1形態素523について、当該第1形態素の前方第1形態素を抽出する(ステップS1420)。
Details of the processing in step S1400 will be described with reference to FIG.
The feature word extraction unit 112 reads the part-of-speech information by application number 520 from the memory (step S1410), and stores the part-of-speech information in the part-of-speech 524 for each claim number of each application number stored in the application number 521 of the part-of-speech information by application number 520. For the first morpheme 523 in which the first case particle of “no” or “is” is stored, the front first morpheme of the first morpheme is extracted (step S1420).

特徴語抽出部112は、ステップS1420で抽出した各出願番号の請求項データ毎の前方第1形態素のうち、第1ID522が連続する所定品詞の前方第1形態素を結合し、技術要素対象語を生成する(ステップS1430)。   The feature word extraction unit 112 generates the technical element target word by combining the first morpheme of the predetermined part of speech with the continuous first ID 522 among the first morpheme for each claim data of each application number extracted in step S1420. (Step S1430).

続いて、特徴語抽出部112は、出願番号別品詞情報520の各出願番号について、第2形態素を結合して文節を順次生成すると共に、生成した各文節に生成順位を対応づける (ステップS1440)。   Subsequently, the feature word extraction unit 112 sequentially generates a phrase by combining the second morphemes for each application number of the part-of-speech information 520 by application number, and associates the generation order with each generated phrase (step S1440). .

特徴語抽出部112は、ステップS1440において出願番号毎に生成した文節について、文節生成順位が最後の文節から文節生成順位が連続し、文節に含まれる第2形態素の品詞527において第2格助詞"の"を含む文節までを結合して製品群対象語を生成する。また、ステップS1430で生成した技術要素対象語の技術要素対象語情報を因子分析部113へ送出し、製品群対象語を示す製品群対象語情報をクラスタ特定部115へ送出する(ステップS1450)。   The feature word extraction unit 112, for the clauses generated for each application number in step S1440, the phrase generation order is continuous from the last phrase generation order, and the second case particle in the part of speech 527 of the second morpheme included in the phrase " A product group target word is generated by combining up to the phrase including "". Further, the technical element target word information of the technical element target word generated in step S1430 is sent to the factor analysis unit 113, and the product group target word information indicating the product group target word is sent to the cluster specifying unit 115 (step S1450).

図38に戻り、クラスタ特定部115は、特徴語抽出部112から製品群対象語情報を受け付けると、製品群対象語情報の各製品群対象語情報を用いて分析対象特許文書データ群のクラスタリングを行う(ステップS1500)。   Returning to FIG. 38, upon receiving the product group target word information from the feature word extraction unit 112, the cluster specifying unit 115 performs clustering of the analysis target patent document data group using each product group target word information of the product group target word information. This is performed (step S1500).

以下、上記クラスタリングの処理の詳細について図41に基づいて説明する。
図41のステップS1510において、クラスタ特定部115は、記憶部2の特許文書データテーブル510とメモリ上の出願番号別品詞情報520を読み出す。
Details of the clustering process will be described below with reference to FIG.
In step S1510 of FIG. 41, the cluster specifying unit 115 reads the patent document data table 510 in the storage unit 2 and the part-of-speech information 520 by application number in the memory.

クラスタ特定部115は、製品群対象語情報の各製品群対象語について、分析対象特許文書データ群の特許文書データテーブル510の請求の範囲514に含まれる第1請求項データの記載形式が所定形式である場合には第1請求項データ、第1請求項データの記載形式が所定形式でない場合には発明の名称513における当該製品群対象語のDF値を導出し、当該DF値と当該DF値に対応する特許文書データの出願番号と製品群対象語とを対応づけて出願番号別文書ベクトル情報540に格納する(ステップS1520)   The cluster specifying unit 115 sets the description format of the first claim data included in the claims 514 of the patent document data table 510 of the analysis target patent document data group for each product group target word of the product group target word information as a predetermined format. If the description format of the first claim data is not a predetermined format, the DF value of the product group target word in the invention name 513 is derived, and the DF value and the DF value The application number of the patent document data corresponding to and the product group target word are associated with each other and stored in the document vector information 540 by application number (step S1520).

クラスタ特定部115は、出願番号別品詞情報520の出願番号毎に、各第2形態素の当該出願番号に対応する製品対象語におけるTF値を算出し、全製品群対象語における各第2形態素のIDF値を算出する(ステップS1530)。   The cluster specifying unit 115 calculates the TF value in the product target word corresponding to the application number of each second morpheme for each application number of the part-of-speech information 520 by application number, and the second morpheme in all product group target words. An IDF value is calculated (step S1530).

クラスタ特定部115は、ステップS1530において算出した出願番号毎の各第2形態素のTF値と当該第2形態素のIDF値とを乗算した結果を当該出願番号の製品群対象語の文書ベクトルの成分として出願番号別文書ベクトル情報540に記憶する(ステップS1540)。   The cluster specifying unit 115 multiplies the TF value of each second morpheme calculated for each application number calculated in step S1530 and the IDF value of the second morpheme as a component of the document vector of the product group target word of the application number. It is stored in the document vector information 540 by application number (step S1540).

続いて、クラスタ特定部115は、ステップS1530で記憶した出願番号別文書ベクトル情報540のDF543を参照して、高DF文書ベクトルを抽出し、抽出した高DF文書ベクトル間の余弦値を求めることにより製品群対象語間の類似度を算出し、最長距離法を用いてクラスタを抽出する(ステップS1550)。   Subsequently, the cluster specifying unit 115 refers to the DF 543 of the document vector information 540 by application number stored in step S1530, extracts a high DF document vector, and obtains a cosine value between the extracted high DF document vectors. Similarity between product group target words is calculated, and clusters are extracted using the longest distance method (step S1550).

クラスタ特定部115は、出願番号別文書ベクトル情報540のDF543を参照して低DF文書ベクトルを抽出し、ステップS1550で抽出した各クラスタに属する文書ベクトルと各低DF文書ベクトル間の類似度を算出し、当該低DF文書ベクトルとの類似度が最も高い文書ベクトルを含むクラスタに当該低DF文書ベクトルを所属させることにより全製品群対象語の帰属クラスタを決定する。クラスタ特定部115は、各製品群対象語に対応する出願番号及び帰属クラスタのクラスタ番号を対応づけたクラスタ情報を出願番号別帰属情報570に記憶し、クラスタ情報をキーワード生成部116に送出する(ステップS1560)。   The cluster specifying unit 115 extracts the low DF document vector by referring to the DF 543 of the document vector information 540 by application number, and calculates the similarity between the document vector belonging to each cluster extracted in step S1550 and each low DF document vector. Then, by assigning the low DF document vector to a cluster including the document vector having the highest similarity with the low DF document vector, the belonging cluster of all product group target words is determined. The cluster specifying unit 115 stores the cluster information in which the application number corresponding to each product group target word and the cluster number of the belonging cluster are associated with each other in the application number belonging information 570, and sends the cluster information to the keyword generating unit 116 ( Step S1560).

図38に戻り、ステップS1600において、因子分析部113は、ステップS1400において特徴語抽出部112から技術要素対象語情報を受け付けると、技術要素対象語情報の各技術要素対象語の分析対象特許文書データにおける出現頻度を用いて分析対象特許文書データ群の因子分析を行う。   38, when the factor analysis unit 113 receives the technical element target word information from the feature word extraction unit 112 in step S1400 in step S1600, the analysis target patent document data of each technical element target word in the technical element target word information. The factor analysis of the patent document data group to be analyzed is performed using the appearance frequency in.

以下、上記ステップS1600の動作の詳細について図42を用いて説明する。
因子分析部113は、特徴語抽出部112から受け付けた技術要素対象語情報の各技術要素対象語について、各分析対象特許文書データの出願番号に対応する特許文書データテーブル510の請求の範囲514におけるTF値を導出し(ステップS1610)、ステップS1610で導出した出願番号毎の技術要素対象語のTF値を当該出願番号のTF値合計で除算した値を各技術要素対象語の文書ベクトルの成分として技術要素対象語別文書ベクトル情報530に格納する(ステップS1620)。
Details of the operation in step S1600 will be described below with reference to FIG.
The factor analysis unit 113, for each technical element target word of the technical element target word information received from the feature word extraction unit 112, in the claim 514 of the patent document data table 510 corresponding to the application number of each analysis target patent document data A TF value is derived (step S1610), and a value obtained by dividing the TF value of the technical element object word for each application number derived in step S1610 by the total TF value of the application number is used as a document vector component of each technical element object word. The document is stored in the technical element target word-specific document vector information 530 (step S1620).

続いて、因子分析部113は、各技術要素対象語を観測変数、技術要素対象語の数を初期因子数とし、技術要素対象語別文書ベクトル情報530の各文書ベクトルを用いて因子分析を行って、各技術要素対象語の因子負荷量を算出し、固有値が1以上の因子を対象因子として抽出する。また、因子分析部113は、対象因子について因子軸を回転させて因子負荷行列を求め、当該因子負荷行列を用いて各分析対象特許文書データの因子得点を算出する(ステップS1630)。   Subsequently, the factor analysis unit 113 performs each factor analysis using each document vector of the document vector information 530 for each technical element target word, with each technical element target word as an observation variable and the number of technical element target words as an initial factor number. Then, the factor loading of each technical element target word is calculated, and a factor having an eigenvalue of 1 or more is extracted as the target factor. Further, the factor analysis unit 113 calculates a factor load matrix by rotating the factor axis for the target factor, and calculates a factor score of each analysis target patent document data using the factor load matrix (step S1630).

因子分析部113は、ステップS1630で抽出した対象因子情報を因子特定部114に送出し、ステップS1630で求めた回転後の因子負荷量を因子負荷量算出結果情報550として記憶し、各分析対象特許文書データの因子得点の算出結果を因子得点算出結果情報560として記憶する (ステップS1640)。   The factor analysis unit 113 sends the target factor information extracted in step S1630 to the factor specifying unit 114, stores the factor load amount after rotation obtained in step S1630 as factor load amount calculation result information 550, and each analysis target patent. The calculation result of the factor score of the document data is stored as factor score calculation result information 560 (step S1640).

図38に戻り、ステップS1700において、因子特定部114は、ステップS1600で因子分析部113から受け付けた対象因子情報と因子負荷量算出結果情報550と因子得点算出結果情報560とに基づいて、各技術要素対象語と各分析対象特許文書データの各々が帰属する対象因子を特定する。   Returning to FIG. 38, in step S1700, the factor specifying unit 114 determines each technique based on the target factor information, factor load amount calculation result information 550, and factor score calculation result information 560 received from the factor analysis unit 113 in step S1600. The target factor to which each of the element target word and each analysis target patent document data belongs is specified.

以下、上記ステップS1700の詳細について図43を用いて説明する。
図43のステップS1710において、因子特定部114は、因子分析部113から対象因子情報を受付けると、因子負荷量算出結果情報550と因子得点算出結果情報560とを読み出す。
Details of step S1700 will be described below with reference to FIG.
In step S <b> 1710 of FIG. 43, upon receiving the target factor information from the factor analysis unit 113, the factor specifying unit 114 reads the factor load amount calculation result information 550 and the factor score calculation result information 560.

因子特定部114は、因子負荷量算出結果情報550の技術要素対象語551の各技術要素対象語について、当該技術要素対象語に対応する対象因子の因子負荷量が第1閾値以上である対象因子を当該技術要素対象語の帰属対象因子として特定し、当該対象因子を帰属先とする技術要素対象語と当該対象因子とを対応付けた技術要素帰属対象因子情報をキーワード生成部116へ送出する(ステップS1720)。   For each technical element target word of the technical element target word 551 in the factor load amount calculation result information 550, the factor specifying unit 114 is a target factor whose factor load amount of the target factor corresponding to the technical element target word is equal to or greater than the first threshold. Is specified as the attribution target factor of the technical element target word, and the technical element attribution target factor information in which the technical factor target word to which the target factor belongs is associated with the target factor is sent to the keyword generation unit 116 ( Step S1720).

続いて、因子特定部114は、因子得点算出結果情報560の出願番号561の各出願番号の特許文書データについて、当該出願番号に対応する対象因子の因子得点が第2閾値以上の対象因子を当該出願番号の特許文書データの帰属対象因子として特定し、当該対象因子を帰属先とする出願番号と当該対象因子とを対応付けた文書帰属対象因子情報をキーワード生成部116へ送出する(ステップS1730)。   Subsequently, for the patent document data of each application number of the application number 561 of the factor score calculation result information 560, the factor specifying unit 114 applies the target factor whose factor score of the target factor corresponding to the application number is the second threshold value or more. The document attribution target factor information in which the application number with the target factor as an attribution destination is identified and associated with the target factor is sent to the keyword generation unit 116 (step S1730). .

図38へ戻り、ステップS1800において、キーワード生成部116は、因子特定部114から受け付けた技術要素帰属対象因子情報と文書帰属対象因子情報に基づき、技術要素対象語を用いて各対象因子を示す技術要素キーワードを生成し、製品群対象語を用いて各クラスタを示す製品群キーワードを生成する。   Returning to FIG. 38, in step S1800, the keyword generation unit 116 uses the technical element target word to indicate each target factor based on the technical element attribution target factor information and the document attribution target factor information received from the factor specifying unit 114. An element keyword is generated, and a product group keyword indicating each cluster is generated using the product group target word.

ここで、上記ステップS1800の詳細について図44を用いて説明する。
キーワード生成部116は、ステップS1500においてクラスタ特定部115から送出されたクラスタ情報と、ステップS1700において因子特定部114から送出された技術要素帰属対象因子情報及び文書帰属対象因子情報を受け付けると、因子負荷量算出結果情報550を読み出す(ステップS1810)。
Details of step S1800 will be described with reference to FIG.
Upon receiving the cluster information sent from the cluster specifying unit 115 in step S1500 and the technical element attribution target factor information and document attribution target factor information sent from the factor specifying unit 114 in step S1700, the keyword generating unit 116 receives the factor load The amount calculation result information 550 is read (step S1810).

キーワード生成部116は、技術要素帰属対象因子情報の各対象因子に帰属する技術要素対象語のうち、因子負荷量算出結果情報550において因子負荷量が第3閾値以上である技術要素対象語を結合して当該対象因子を示す技術要素キーワードを対象因子毎に生成する。また、キーワード生成部116は、出力制御部117へ技術要素キーワード情報580を送出して、当該技術要素キーワード情報580を記憶する(ステップS1820)。   The keyword generation unit 116 combines the technical element target words whose factor loading is equal to or larger than the third threshold in the factor loading calculation result information 550 among the technical element target words belonging to each target factor of the technical element attribution target factor information. Then, a technical element keyword indicating the target factor is generated for each target factor. Further, the keyword generating unit 116 sends the technical element keyword information 580 to the output control unit 117 and stores the technical element keyword information 580 (step S1820).

キーワード生成部116は、ステップS1810において受け付けたクラスタ情報の各クラスタに帰属する特許文書データの出願番号の出願番号別文書ベクトル情報540の文書ベクトルを用いて、当該クラスタの重心ベクトルを求め、当該クラスタに帰属する各出願番号の文書ベクトルと重心ベクトルの余弦値を算出することにより当該クラスタと当該クラスタに帰属する特許文書データとの類似度を算出する(ステップS1830)。   The keyword generating unit 116 obtains the center-of-gravity vector of the cluster using the document vector of the application number-specific document vector information 540 of the application number of the patent document data belonging to each cluster of the cluster information received in step S1810, and the cluster The degree of similarity between the cluster and the patent document data belonging to the cluster is calculated by calculating the cosine value of the document vector and the center-of-gravity vector of each application number belonging to (Step S1830).

キーワード生成部116は、ステップS1830で算出した各クラスタと当該クラスタに属する特許文書データとの類似度の降順で所定順位以上の文書ベクトルを有する特許文書データに対応する製品群対象語を結合して当該クラスタを示す製品群キーワードを生成する。また、キーワード生成部116は、出力制御部117へ製品群キーワード情報590を送出して、当該製品群キーワード情報590を記憶する(ステップS1840)。   The keyword generating unit 116 combines the product group target words corresponding to the patent document data having document vectors of a predetermined rank or higher in descending order of similarity between each cluster calculated in step S1830 and the patent document data belonging to the cluster. A product group keyword indicating the cluster is generated. Further, the keyword generation unit 116 sends the product group keyword information 590 to the output control unit 117, and stores the product group keyword information 590 (step S1840).

図38に戻り、ステップS1900において、出力制御部117は、ステップS1800でキーワード生成部116が生成した各製品群キーワードと各技術要素キーワードとの関係情報を生成して出力する。   Returning to FIG. 38, in step S1900, the output control unit 117 generates and outputs the relationship information between each product group keyword and each technical element keyword generated by the keyword generation unit 116 in step S1800.

以下、上記ステップS1900の詳細について図45を用いて説明する。
図45のステップS1910において、出力制御部117は、ステップS1800においてキーワード生成部116から送出された製品群キーワード情報590と技術要素キーワード情報580とを受付け、ステップS1920において、出力制御部117は、メモリ上の出願番号別帰属情報570と分析対象の特許文書データを読み出す。
Details of step S1900 will be described below with reference to FIG.
45, the output control unit 117 receives the product group keyword information 590 and the technical element keyword information 580 sent from the keyword generation unit 116 in step S1800. In step S1920, the output control unit 117 The above-mentioned attribution information by application number 570 and the patent document data to be analyzed are read out.

出力制御部117は、出願番号別帰属情報570における各クラスタに属する特許文書データの帰属対象因子毎の件数を計数し、計数した各クラスタの対象因子毎の件数をクラスタ別因子別件数情報610として記憶する(ステップS1930)。   The output control unit 117 counts the number of patent document data belonging to each cluster in the attribution number-specific attribution information 570 for each factor to be attributed, and the counted number of each factor for each target factor as cluster-specific factor number information 610. Store (step S1930).

続いて、出力制御部117は、ステップS1910で読み出した分析対象の特許文書データの評価値を読み出し、出願番号別帰属情報570における各クラスタに属する特許文書データの帰属対象因子毎の評価値合計を算出し、算出した各クラスタの対象因子毎の評価値合計をクラスタ別因子別評価値情報620として記憶する(ステップS1940)。   Subsequently, the output control unit 117 reads the evaluation value of the analysis target patent document data read in step S1910, and calculates the total evaluation value for each attribution target factor of the patent document data belonging to each cluster in the application number attribution information 570. The calculated evaluation value sum for each target factor of each cluster is stored as cluster-specific factor evaluation value information 620 (step S1940).

出力制御部117は、クラスタ別因子別件数情報610の各件数と当該件数に対応する対象因子を示す技術要素キーワードを技術要素キーワード情報580から読み出し、当該件数に対応するクラスタを示す製品群キーワードを製品群キーワード情報590から読み出し、各件数と各件数に対応する技術要素キーワードと製品群キーワードとを対応づけた第1関係情報(図46(a))を表示部4に表示させる(ステップS1950)。   The output control unit 117 reads the technical element keyword indicating the number of cases in the cluster-specific factor number information 610 and the target factor corresponding to the number of cases from the technical element keyword information 580, and selects the product group keyword indicating the cluster corresponding to the number of cases. Read from the product group keyword information 590, and display the first relation information (FIG. 46A) in which the number of cases, the technical element keyword corresponding to each number of cases, and the product group keyword are associated with each other (step S1950). .

続いて、出力制御部117は、クラスタ別因子別評価値情報620の各評価値と当該評価値に対応する対象因子を示す技術要素キーワードを技術要素キーワード情報580から読み出し、当該評価値に対応するクラスタを示す製品群キーワードを製品群キーワード情報590から読み出し、各評価値と各評価値に対応する技術要素キーワードと製品群キーワードとを対応づけた第2関係情報(図46(b))を表示部4に表示させる (ステップS1960)。   Subsequently, the output control unit 117 reads out from the technical element keyword information 580 the technical element keyword indicating each evaluation value of the cluster-specific evaluation value information 620 and the target factor corresponding to the evaluation value, and corresponds to the evaluation value. The product group keyword indicating the cluster is read from the product group keyword information 590, and the second relation information (FIG. 46B) in which each evaluation value is associated with the technical element keyword corresponding to each evaluation value and the product group keyword is displayed. It is displayed on the part 4 (step S1960).

<クラスタ別因子別評価値の算出処理>
つぎに、上述したクラスタ別因子別評価値の算出処理について説明する。ここで算出するクラスタ別因子別評価値を「クラスタスコア」と称することにする。
図47は、本発明の実施形態のクラスタスコアの算出処理の手順を示すフローチャートである。このクラスタスコアの算出処理は、情報処理装置100の出力制御部117或いは図示しないクラスタスコア算出部により実行される。
なお、図47の処理を行う前に、各クラスタ及び因子に属する特許文献毎のパテントスコア(PS)が算出されているものとする。そして、情報処理装置100のメモリ(或いは記憶部2)には、特許文献を識別する情報(公報番号)毎に、その特許文献の「パテントスコア(PS)」と、その特許が権利放棄されているか否かを示す「放棄情報(拒絶が確定しているか否かの情報も含まれるものとする)」とを対応付けた情報(以下、「PS情報」という)が格納されているものとする。なお、パテントスコア(PS)の算出手順は、後述する図48〜図51で説明する。
<Calculation processing of evaluation values by factor by cluster>
Next, the cluster-based factor-by-factor evaluation value calculation process described above will be described. The cluster-based factor-based evaluation value calculated here is referred to as a “cluster score”.
FIG. 47 is a flowchart illustrating a procedure of cluster score calculation processing according to the embodiment of this invention. The cluster score calculation process is executed by the output control unit 117 of the information processing apparatus 100 or a cluster score calculation unit (not shown).
It is assumed that the patent score (PS) for each patent document belonging to each cluster and factor is calculated before performing the processing of FIG. Then, in the memory (or storage unit 2) of the information processing apparatus 100, for each information (gazette number) identifying the patent document, the “patent score (PS)” of the patent document and the patent are abandoned. It is assumed that information (hereinafter referred to as “PS information”) in association with “abandonment information (including information indicating whether rejection has been confirmed)” indicating whether or not is stored is stored. . The procedure for calculating the patent score (PS) will be described with reference to FIGS.

具体的には、情報処理装置100は、入力部3を介して、ユーザからクラスタスコアの算出処理の要求を受け付ける(S2010)。なお、ユーザは、クラスタスコアの算出処理を要求する際、算出の対象となる区分も指定する。
算出の対象となる区分として、例えば、出願番号別帰属情報570における各クラスタに属する特許文書データの帰属対象因子毎の分類を指定する。
Specifically, the information processing apparatus 100 receives a request for cluster score calculation processing from the user via the input unit 3 (S2010). Note that when the user requests the cluster score calculation process, the user also designates a category to be calculated.
As a classification to be calculated, for example, a classification for each attribution target factor of patent document data belonging to each cluster in the application number-specific attribution information 570 is designated.

つぎに、情報処理装置100は、S2010で受け付けたクラスタスコアの算出対象となる区分(クラスタ及び因子)に属する特許文献のパテントスコア(PS)を取得する(S2020)。
具体的には、情報処理装置100は、メモリに記憶されている「クラスタ毎及び因子毎に特許文献を対応付けた情報(出願番号別帰属情報570)」、および「PS情報」を利用して、算出対象となるクラスタ及び因子に属する特許文献の「パテントスコア(PS)」および「放棄情報」を取得する。
Next, the information processing apparatus 100 acquires a patent score (PS) of a patent document belonging to a category (cluster and factor) that is a cluster score calculation target received in S2010 (S2020).
Specifically, the information processing apparatus 100 uses “information in which patent documents are associated with each cluster and each factor (application number-specific attribution information 570)” and “PS information” stored in the memory. The “patent score (PS)” and “abandonment information” of the patent documents belonging to the clusters and factors to be calculated are acquired.

つぎに、情報処理装置100は、取得した算出対象となるクラスタ及び因子に属する特許文献の「パテントスコア(PS)」および「放棄情報」を利用し、権利放棄されていないパテントスコア(PS)について、各々、その標準値を求める(S2030)。   Next, the information processing apparatus 100 uses the “patent score (PS)” and “abandonment information” of the patent documents belonging to the acquired cluster and factors to be calculated, and the patent score (PS) that has not been abandoned. Each of the standard values is obtained (S2030).

具体的には、情報処理装置100は、「放棄情報」を参照し、指定されたクラスタ及び因子に属する特許文献のうち、権利放棄されていない特許文献(特許庁に係属中の出願も含める)のパテントスコア(PS)を特定する。
情報処理装置100は、特定した各パテントスコア(PS)について、母集団(例えば、クラスタ抽出処理の行われた分析対象文書群のうちの権利放棄されていない特許文献)における標準値を求める。より具体的には、情報処理装置100は、以下に示す(数1)と、上記の特定したパテントスコア(PS)とを用いて、特定したパテントスコア(PS)毎に標準値を求める。
Specifically, the information processing apparatus 100 refers to the “waiver information” and, among the patent documents belonging to the designated cluster and factor, patent documents that have not been surrendered (including applications pending at the Patent Office) Specify a patent score (PS).
The information processing apparatus 100 obtains a standard value for the specified patent score (PS) in a population (for example, a patent document that has not been surrendered in the analysis target document group subjected to cluster extraction processing). More specifically, the information processing apparatus 100 obtains a standard value for each identified patent score (PS) using the following (Equation 1) and the identified patent score (PS).

以下に示す(数1)では、権利放棄されていない特許文献のパテントスコア(PS)が母集団内に「m」個あるものとし、パテントスコア(PS)に添え字iを付け、「PSi(1≦i≦m(mは1以上の整数))」で示している。
また、(式1)では、m個の特許文献のPSiのうち、特定のクラスタ及び因子に属する各特許文献jの「パテントスコアPSj」の標準値を求めている。

Figure 2009001696
In (Equation 1) shown below, it is assumed that there are “m” patent scores (PS) of patent documents that have not been waived in the population, and a subscript i is added to the patent score (PS), and “PSi ( 1 ≦ i ≦ m (m is an integer of 1 or more)) ”.
Further, in (Expression 1), the standard value of “patent score PSj” of each patent document j belonging to a specific cluster and factor among the PSis of m patent documents is obtained.
Figure 2009001696

つぎに、情報処理装置100は、S2030で求めた特定のクラスタ及び因子に属する特許文献の各パテントスコアPSjの標準値のうち、閾値以上のパテントスコアPSjの標準値の合計値を求め、その合計値を当該クラスタ及び因子の「クラスタスコア」とする(S2040)。また、情報処理装置100は、本ステップにおいて、S2030で求めた特定のクラスタ及び因子に属する特許文献の各パテントスコアPSjの標準値のうち、最大値を求める。   Next, the information processing apparatus 100 obtains the total value of the standard values of the patent score PSj greater than or equal to the threshold value among the standard values of the patent scores PSj of the patent documents belonging to the specific cluster and factor obtained in S2030, and the total The value is set as the “cluster score” of the cluster and the factor (S2040). In this step, the information processing apparatus 100 obtains the maximum value among the standard values of the patent scores PSj of the patent documents belonging to the specific cluster and factor obtained in S2030.

具体的には、情報処理装置100は、以下に示す(数2)と、S2030で求めたパテントスコア(PSj)の標準値とを用いて、ユーザから指定されたクラスタ及び因子に対する「クラスタスコア」を算出する。また、情報処理装置100は、S2030で求めた各パテントスコアPSjの標準値の中から最大(MAX)の標準値を選択し、選択した標準値を当該クラスタ及び因子における最大値とする。
なお、(数2)では、S2030で求めた各パテントスコアPSjの標準値のうち、閾値以上のパテントスコアPSjの標準値の数が当該クラスタ及び因子に「n」個あるものとしている。また、(数2)では閾値PSstdの例として、S2030で求めた各パテントスコアPSiの標準値の母集団での平均([数1]によれば0となる)を用いている。
Specifically, the information processing apparatus 100 uses the following (Equation 2) and the standard value of the patent score (PSj) obtained in S2030, and the “cluster score” for the cluster and factor specified by the user. Is calculated. Further, the information processing apparatus 100 selects the maximum (MAX) standard value from the standard values of each patent score PSj obtained in S2030, and sets the selected standard value as the maximum value in the cluster and factor.
In (Expression 2), among the standard values of the patent scores PSj obtained in S2030, the number of standard values of the patent score PSj equal to or greater than the threshold is “n” in the cluster and factor. In (Expression 2), as an example of the threshold value PSstd, the average of the standard values of each patent score PSi obtained in S2030 (0 according to [Expression 1]) is used.

Figure 2009001696
Figure 2009001696

そして、情報処理装置100によりクラスタスコアが算出されると、図45のS1960(出力)の処理に移行する。
なお、図47のフローでは、1つのクラスタ及び因子に対するクラスタスコアを算出しているが、あくまでもこれは例示である。複数のクラスタ及び因子のクラスタスコアを算出する要求を受けた場合には、各クラスタ及び因子について、S2020〜S2040の処理を行い、クラスタ毎及び因子毎に、クラスタスコアおよび最大値を求める。
When the cluster score is calculated by the information processing apparatus 100, the process proceeds to S1960 (output) in FIG.
In the flow of FIG. 47, the cluster score for one cluster and factor is calculated, but this is merely an example. When a request for calculating the cluster scores of a plurality of clusters and factors is received, the processing of S2020 to S2040 is performed for each cluster and factor, and the cluster score and the maximum value are obtained for each cluster and each factor.

図45のS1960では、出力装置4により、S2040で求めたクラスタスコアを出力する。或いは、出力装置4により、クラスタスコアと共に、そのクラスタ及び因子での最大値を出力する。   In S1960 of FIG. 45, the output device 4 outputs the cluster score obtained in S2040. Alternatively, the output device 4 outputs the maximum value of the cluster and factor together with the cluster score.

このように、本実施形態では、権利放棄されていない特許文献のパテントスコア(PSi)を利用して、クラスタスコアを算出するようにしている。このようにしたのは以下の理由による。例えば、ある企業において、技術分野毎の特許の評価をしようとした場合、ある技術分野(クラスタ及び因子)に分類される特許文献の件数は非常に多いが、その多くが放棄されている出願(或いは拒絶査定の確定している出願)であったとする。このような場合、その技術分野の特許の評価に、すでに放棄されている出願(或いは拒絶が確定している出願)を含めてしまうと、特許権を多く保持していない技術分野が高く評価されてしまい、適切な分析ができない。
そこで、本実施形態では、権利放棄されていない特許文献のパテントスコア(PSi)を利用してクラスタスコアを算出するようにして、スコアの精度を高めるようにしている。
As described above, in the present embodiment, the cluster score is calculated using the patent score (PSi) of a patent document that has not been waived. The reason for this is as follows. For example, when a company tries to evaluate patents for each technical field, the number of patent documents classified into a certain technical field (cluster and factor) is very large, but many of them are abandoned ( Or an application for which a decision of rejection has been finalized). In such a case, if an application that has already been abandoned (or an application for which refusal has been finalized) is included in the evaluation of a patent in that technical field, the technical field that does not hold many patent rights will be highly evaluated. Therefore, proper analysis is not possible.
Therefore, in the present embodiment, the cluster score is calculated using the patent score (PSi) of a patent document that has not been abandoned so as to improve the accuracy of the score.

また、本実施形態では、パテントスコア(PSi)の標準値を算出する際に、単なる標準値ではなく、一般的な標準値に係数を乗算するようにしている((数1)では10倍している)。これは、求めた標準値間の差異を判別し易くするためである。なお、(数1)では10倍しているがあくまでも例示である。   Further, in the present embodiment, when calculating the standard value of the patent score (PSi), a general standard value is multiplied by a coefficient instead of a simple standard value ((Equation 1) is multiplied by 10). ing). This is for facilitating the discrimination between the obtained standard values. In (Equation 1), it is 10 times, but it is only an example.

また、本実施形態では、クラスタスコアの算出に閾値を超えるパテントスコアPSiの標準値だけを利用するようにしている。これは、クラスタスコアの値が受ける特許文献の件数の影響を緩和するためである。
例えば、クラスタ毎及び因子毎に、クラスタスコアを求め、その求めたクラスタスコアを比較してクラスタ毎及び因子毎の技術傾向を分析しようとしたとする。この場合に本実施形態のように閾値を考慮しないとすれば、出願件数が多いクラスタ及び因子のクラスタスコアの値が高くなり過ぎる傾向にあり、精度の高い分析ができなくなるおそれがある。
確かに、特定技術分野の特許を過不足なく抽出して分析対象文書群(母集団)としたような場合には、各クラスタ及び因子の出願件数の多寡そのものも十分に有意な数値と考えることができる。しかし、そうではない任意の方法で分析対象文書群(母集団)を抽出したような場合には、各クラスタ及び因子の出願件数の多寡にとらわれてしまうと、精度の高い分析ができなくなる可能性がある。
また、膨大な数の特許を含む分析対象文書群(母集団)から重要な要素を選出することを主眼とした場合には、「個々の重要度の低い多数の特許」より「個々の重要度の高い特許」が含まれている方を重視した方が好ましい場合もある。
そのため、本実施形態では、パテントスコアPSiの標準値のうち、所定値以上のものだけを利用するようにして、当該所定値以上の重要特許を含むクラスタ及び因子にのみ高いクラスタスコアが付与されるようにしてクラスタスコアの精度を高めるようにした。
特に、例えば平均が0となるようにパテントスコアを標準化し、平均(0)以上の標準値を集計してクラスタスコアとする場合には、平均以下のパテントスコアの値を捨象できるだけでなく、平均付近のパテントスコアが多数あってもクラスタスコアの値に与える影響が小さく、平均から飛び抜けて高いものがあればクラスタスコアの値に大きな影響を与える。従って、技術要素に含まれる件数の影響を更に緩和し、重要度の高い特許が含まれている技術要素を的確に抽出することができる。
In this embodiment, only the standard value of the patent score PSi exceeding the threshold is used for calculating the cluster score. This is to alleviate the influence of the number of patent documents that the cluster score value receives.
For example, it is assumed that a cluster score is obtained for each cluster and each factor, and the obtained cluster score is compared to analyze the technical tendency for each cluster and each factor. In this case, if the threshold value is not taken into consideration as in the present embodiment, the cluster score having a large number of applications and the cluster score values of factors tend to be too high, and there is a possibility that analysis with high accuracy cannot be performed.
Certainly, if the patents in a particular technical field are extracted without excess or deficiency and used as the analysis target document group (population), the number of applications for each cluster and factor itself should be considered as a sufficiently significant value. Can do. However, if an analysis target document group (population) is extracted by an arbitrary method that is not so, if the number of applications for each cluster and factor is limited, there is a possibility that a highly accurate analysis cannot be performed. There is.
In addition, when the focus is on selecting important elements from a group of documents to be analyzed (population) including a huge number of patents, the “individual importance” is more than the “large number of patents with low individual importance”. In some cases, it is preferable to focus on those that include “high patents”.
For this reason, in the present embodiment, only the standard value of the patent score PSi that is equal to or greater than a predetermined value is used, and a high cluster score is given only to clusters and factors that include important patents that are equal to or greater than the predetermined value. In this way, the accuracy of the cluster score was increased.
In particular, for example, when a patent score is standardized so that the average becomes 0 and a standard value equal to or higher than the average (0) is aggregated to obtain a cluster score, not only the patent score value below the average can be discarded, but also the average Even if there are many patent scores in the vicinity, the influence on the value of the cluster score is small, and if there is something that is far from the average and is high, the value of the cluster score is greatly affected. Therefore, it is possible to further reduce the influence of the number of cases included in the technical elements and accurately extract the technical elements including the patents with high importance.

本実施形態においては、クラスタスコアを算出するにあたりパテントスコアが平均以下の公報を除外して合計しているため、平均以下の公報が多くを占めるクラスタ及び因子、若しくはすべての公報が平均以下であるクラスタ及び因子については、クラスタスコアは0に近い値となるか、若しくは0となる。従って、クラスタ及び因子間のコントラストが明瞭になり、その結果、クラスタ及び因子間の序列や評価が視覚的に把握し易くなる。   In this embodiment, when calculating the cluster score, since the patent scores are excluded excluding publications with less than average, the clusters and factors that occupy many publications with less than average, or all publications are less than average. For clusters and factors, the cluster score is close to 0 or 0. Therefore, the contrast between the clusters and the factors becomes clear, and as a result, the order and evaluation between the clusters and the factors can be easily grasped visually.

なお、本実施形態では、閾値に母集団での平均を利用するようにしているが、特にこれに限定するものではない。例えば、情報処理装置100に、特定出願人の特許群でのパテントスコアPSiの標準値の平均や、その他のユーザが定めた閾値を設定するようにしてもよい。
また、本実施形態では、パテントスコアPSiの標準値を利用するようにしているが、特にこれに限定するものではない。例えば、標準化していないパテントスコアPSiのうち所定値以上のものだけを加算した場合であっても、件数の影響を緩和することができる。
In the present embodiment, the average of the population is used as the threshold, but the present invention is not particularly limited to this. For example, an average of the standard values of the patent score PSi in the patent group of the specific applicant or other threshold values determined by other users may be set in the information processing apparatus 100.
In the present embodiment, the standard value of the patent score PSi is used, but the present invention is not limited to this. For example, the influence of the number of cases can be mitigated even when only non-standardized patent scores PSi are added that are greater than or equal to a predetermined value.

また、本実施形態によれば、ユーザにクラスタスコアを提示する際、そのクラスタ及び因子に分類される特許文献のパテントスコア(PSj)の標準値の最高値も提示することができるようになる。これにより、ユーザは、高評価の特許がどの技術要素(クラスタ及び因子)に含まれるのかを把握できるようになる。また、それに伴いユーザは、技術要素(クラスタ及び因子)全体としての評価値は低くても、高評価の特許が含まれる技術要素(クラスタ及び因子)を把握することができる。
例えば、ある企業において、技術分野毎の特許の評価をしようとして、その企業(出願人)のクラスタ毎及び因子毎のクラスタスコアを求めたとする。この場合、各クラスタ及び因子での最高値を提示することにより、自社のどの技術分野に、強い特許があるのかを把握できるようになる。
Further, according to the present embodiment, when the cluster score is presented to the user, the highest standard value of the patent score (PSj) of the patent document classified into the cluster and the factor can be presented. As a result, the user can grasp which technical element (cluster and factor) the highly evaluated patent is included in. Accordingly, even if the evaluation value as a whole of the technical elements (clusters and factors) is low, the user can grasp the technical elements (clusters and factors) including the highly evaluated patent.
For example, assume that a company obtains a cluster score for each cluster and each factor of the company (applicant) in an attempt to evaluate a patent for each technical field. In this case, by presenting the maximum value for each cluster and factor, it is possible to grasp which technical field of the company has a strong patent.

<パテントスコア(PS)について>
つぎに、図48〜図51を用いて、上記実施形態におけるクラスタスコアの算出に利用したパテントスコア(PS)について説明する。
なお、パテントスコア(PS)の算出処理は、情報処理装置100の出力制御部117或いは図示しないパテントスコア算出部により行うようにしているが、特にこれに限定するものではない。
CPU(Central Processing Unit)、メモリ等を備える、別のコンピュータがパテントスコアの算出処理を行うようにしてもかまわない。この場合、別のコンピュータに、パテントスコア算出機能を実現するプログラム(PS算出プログラム)を記憶させておく。そして、別のコンピュータのCPUが「PS算出プログラム」を実行することにより、パテントスコアPSを算出し、上述したPS情報を生成する。情報処理装置100は、別のコンピュータが生成したPS情報を取得してメモリに記憶させておく。
<About patent score (PS)>
Next, the patent score (PS) used for calculating the cluster score in the embodiment will be described with reference to FIGS. 48 to 51.
The patent score (PS) calculation process is performed by the output control unit 117 of the information processing apparatus 100 or a patent score calculation unit (not shown), but is not particularly limited thereto.
Another computer having a CPU (Central Processing Unit), a memory, and the like may perform the patent score calculation process. In this case, a program for realizing the patent score calculation function (PS calculation program) is stored in another computer. Then, the CPU of another computer executes the “PS calculation program”, thereby calculating the patent score PS and generating the above-described PS information. The information processing apparatus 100 acquires PS information generated by another computer and stores it in the memory.

(データ構成)
先ず、パテントスコアPSの算出に利用するデータ構成について説明する。
なお、記憶部2には、特許データ(特許公報を示す電子データ)と、特許属性情報とが格納されている。特許公報を示す電子データには、少なくとも、その特許データID(公報番号等)、出願日、IPCコード等の書誌情報が含まれるものとする。
また、特許属性情報には、その特許文献の経過情報300(優先権主張の有無や、他の特許出願の審査での被引用回数などの情報)、および内容情報400(請求項の数や、明細書の枚数等の情報)が含まれる。以下、経過情報300、および内容情報400のデータ構成を説明する。
(Data structure)
First, the data structure used for calculating the patent score PS will be described.
The storage unit 2 stores patent data (electronic data indicating a patent gazette) and patent attribute information. The electronic data indicating the patent publication includes at least the patent data ID (gazette number, etc.), the application date, and the bibliographic information such as the IPC code.
The patent attribute information includes progress information 300 of the patent document (information such as whether priority is claimed or the number of citations in examination of other patent applications), and content information 400 (number of claims, Information such as the number of specifications). Hereinafter, the data structure of the progress information 300 and the content information 400 will be described.

先ず、経過情報300のデータ構成の一例を図48に示す。
図48は、本実施形態で利用する経過情報のデータ構成の一例を模擬的に示した図である。
図示するように、経過情報300は、「特許データID(公報番号等)」を登録するためのフィールド301と、「出願日からの経過日数」を登録するためのフィールド302と、「審査請求日からの経過日数」を登録するためのフィールド303と、「登録日からの経過日数」を登録するためのフィールド304と、「分割出願」の有無を示す情報を登録するためのフィールド305と、「早期審査」の有無を示す情報を登録するためのフィールド306と、「不服審判特許審決」の有無を示す情報を登録するためのフィールド307と、「異議申立維持決定」の有無を示す情報を登録するためのフィールド308と、「無効審判維持審決」の有無を示す情報を登録するためのフィールド309と、「優先権主張」の有無を示す情報を登録するためのフィールド310と、「PCT出願」の有無を示す情報を登録するためのフィールド311と、「包袋閲覧」の有無を示す情報を登録するためのフィールド312と、「被引用回数」を示す情報を登録するためのフィールド313とを備えて、1つのレコードが構成される。なお、経過情報300は、複数のレコードよりなる。
First, an example of the data structure of the progress information 300 is shown in FIG.
FIG. 48 is a diagram schematically showing an example of the data configuration of the progress information used in the present embodiment.
As shown in the figure, the progress information 300 includes a field 301 for registering “patent data ID (gazette number, etc.)”, a field 302 for registering “the number of days elapsed from the filing date”, and “examination request date”. A field 303 for registering "elapsed days since", a field 304 for registering "elapsed days since registration date", a field 305 for registering information indicating whether "divisional application" exists, A field 306 for registering information indicating the presence / absence of “early examination”, a field 307 for registering information indicating the presence / absence of “trial decision of appeal”, and information indicating the presence / absence of “opposition maintenance decision” are registered. A field 308 for registering, a field 309 for registering information indicating the presence / absence of “invalidation trial decision”, and information indicating the presence / absence of “priority claim” A field 310 for registering information indicating the presence / absence of “PCT application”, a field 312 for registering information indicating the presence / absence of “packaging browsing”, and “number of times cited” And a field 313 for registering the information to be shown constitutes one record. The progress information 300 includes a plurality of records.

ここで、「出願からの経過日数」、「審査請求からの経過日数」、および「登録日からの経過日数」は、該当する特許データの期間に関する情報である。「出願からの経過日数」は出願日、「審査請求からの経過日数」は出願審査請求日、「登録日からの経過日数」は特許権設定登録日に基づき、それぞれ評価日(パテントスコアの算出日)まで又は評価日に近い所定日付までの経過日数を算出したものが記憶部2に格納される。未だ出願審査請求されていない特許出願についての「審査請求からの経過日数」はNULLとなり、未だ設定登録されていない特許出願についての「登録日からの経過日数」はNULLとなる。   Here, “elapsed days from application”, “elapsed days from examination request”, and “elapsed days from registration date” are information relating to the period of the corresponding patent data. “Elapsed days from application” is the application date, “Elapsed days from examination request” is the application examination request date, and “Elapsed days from registration date” is the evaluation date (calculation of patent score). The number of elapsed days up to a predetermined date close to the evaluation date is calculated and stored in the storage unit 2. “Elapsed days from examination request” for a patent application that has not yet been requested for examination of application is NULL, and “elapsed days from registration date” for a patent application that has not yet been set and registered is NULL.

経過情報300のうち、「分割出願」、「早期審査」、「不服審判特許審決」、「異議申立維持決定」、「無効審判維持審決」、「包袋閲覧」、「優先権」は、特許データに対する所定行為の有無を示す情報である。「分割出願」は当該特許出願をもとの出願として分割出願がなされているか否か、「早期審査」は当該特許出願の早期審査がなされているか否か、「不服審判特許審決」は当該特許出願について拒絶査定不服審判が請求され、且つ当該審判において特許審決がなされているか否か、「異議申立維持決定」は当該特許について特許異議申立がなされ、且つ維持決定がなされているか否か、「無効審判維持審決」は当該特許について特許無効審判が請求され、且つ当該審判において請求棄却審決がなされているか否か、「優先権」は当該特許出願が先の特許出願等に基づく優先権主張を伴っているか否か、或いは当該特許出願が特許協力条約に基づく国際出願を国内に移行したものであるか否か、「包袋閲覧」は当該特許出願について閲覧請求がなされているか否かに基づき、それぞれ所定行為がなされている場合は例えば1が与えられ、なされていない場合は例えば0が与えられる。   Among the progress information 300, “divisional application”, “accelerated examination”, “approval appeal decision”, “opposition maintenance decision”, “invalidity decision maintenance decision”, “packaging browsing”, “priority” This is information indicating the presence or absence of a predetermined action on the data. "Divisional application" is whether the divisional application has been filed based on the patent application, "Rapid examination" is whether the patent application has been expedited, and Whether an appeal against a decision to reject the application has been requested and whether a patent trial decision has been made in that trial, whether or not the opposition maintenance decision has been made, whether or not a patent opposition has been made and a maintenance decision has been made on the patent, The “invalidation trial maintenance decision” is whether the patent invalidation trial has been requested for the patent, and whether the appeal has been rejected in the trial, “priority” is the priority claim based on the previous patent application etc. Whether or not the patent application is an international application based on the Patent Cooperation Treaty and whether or not it is a domestic application. Based on whether it is, respectively given 1 for example if the predetermined action has been performed, if not been given a 0, for example.

つぎに、内容情報400のデータ構成を図49に示す。
図49は、本実施形態で利用する内容情報のデータ構成の一例を模擬的に示した図である。
Next, the data structure of the content information 400 is shown in FIG.
FIG. 49 is a diagram schematically illustrating an example of a data configuration of content information used in the present embodiment.

図示するように、内容情報400は、「特許データID(公報番号等)」を登録するためのフィールド401と、その特許データの「請求項数」を登録するためのフィールド402と、「請求項の平均文字数」を登録するためのフィールド403と、その特許データの「明細書枚数」を登録するためのフィールド404とを備えて1つのレコードが構成される。なお、内容情報400は、複数のレコードよりなる。
ここで、「請求項数」は、当該特許出願の請求項数を示す情報であり、「請求項の平均文字数」は、当該特許出願の請求項1項あたりの平均文字数(又は単語数)を示す情報である。「明細書頁数」は、当該特許出願の明細書頁数又は公報頁数を示す情報である。これらの情報は各特許出願の公開特許公報その他の特許データより抽出される。
As shown in the figure, the content information 400 includes a field 401 for registering “patent data ID (gazette number, etc.)”, a field 402 for registering “number of claims” of the patent data, and “claim One record is composed of a field 403 for registering the “average number of characters” and a field 404 for registering the “number of specifications” of the patent data. The content information 400 includes a plurality of records.
Here, the “number of claims” is information indicating the number of claims of the patent application, and the “average number of characters of the claim” is the average number of characters (or the number of words) per claim of the patent application. It is information to show. The “number of specification pages” is information indicating the number of specification pages or publication pages of the patent application. Such information is extracted from published patent gazettes and other patent data of each patent application.

(パテントスコア算出処理)
続いて、図50を用いて説明する。図50は、本実施形態のパテントスコアの算出処理の手順を示したフローチャートである。
(Patent score calculation process)
Next, description will be made with reference to FIG. FIG. 50 is a flowchart showing a procedure of a patent score calculation process according to this embodiment.

図50に示すように、情報処理装置100は、ユーザからのIPCコードの入力を受け付け、特許データ(特許公報を示す電子データ)を取得する(S400)。
具体的には、情報処理装置100は、ユーザからのIPCコードの入力を受け付けると、記憶部2にアクセスし、そのIPCコードに分類される特許データを取得する。なお、特許データには、その特許出願の出願日の情報や優先日の情報(優先権を主張している場合に限る)等の書誌情報が含まれている
As shown in FIG. 50, the information processing apparatus 100 receives an IPC code input from the user and acquires patent data (electronic data indicating a patent publication) (S400).
Specifically, when receiving an IPC code input from a user, the information processing apparatus 100 accesses the storage unit 2 and acquires patent data classified into the IPC code. The patent data includes bibliographic information such as the filing date information and priority date information of the patent application (only when priority is claimed).

つぎに、情報処理装置100は、取得した特許データの書誌情報のうち出願日の情報又は優先日の情報等を用いて、特許データを所定期間ごと(本実施形態では出願年ごと、優先日が属する年ごと等)のグループtに分類する(S500)。
つぎに、情報処理装置100は、各特許データの評価値を算出する(S600)。この処理の詳細を、図51に基づいて説明する。
Next, the information processing apparatus 100 uses the application date information or the priority date information among the bibliographic information of the acquired patent data, and converts the patent data every predetermined period (in this embodiment, every application year, the priority date is (S500).
Next, the information processing apparatus 100 calculates an evaluation value of each patent data (S600). Details of this processing will be described with reference to FIG.

図51は、本実施形態の各特許データの評価値を算出する処理の詳細を示すフローチャートである。
情報処理装置100は、S210の分類によって生成されたグループに属する特許データについて、経過情報300および内容情報400を取得する(S610)。具体的には、情報処理装置100は、取得した特許データの書誌情報に含まれる特許ID(公報番号等)を利用して、記憶部2に格納されている経過情報300および内容情報400の中から、取得した特許データの特許IDに関連付けられている経過情報300および内容情報400を取得する。
ここで、図51では、当該取得した1つのグループがJ件の特許データからなるものとし、J件のそれぞれを区別するため添え字j(j=1,2,・・・,J)を用いる。
J件の特許データを取得したら、これらJ件の特許データの経過情報300および内容情報400を用いて、後述のS6302〜S6304で用いる「評価項目の該当有無データのJ件分の合計値」等を予め求めておく。
FIG. 51 is a flowchart showing details of processing for calculating an evaluation value of each patent data according to the present embodiment.
The information processing apparatus 100 acquires the progress information 300 and the content information 400 for the patent data belonging to the group generated by the classification of S210 (S610). Specifically, the information processing apparatus 100 uses the patent ID (gazette number or the like) included in the bibliographic information of the acquired patent data to store the progress information 300 and the content information 400 stored in the storage unit 2. From the above, the progress information 300 and the content information 400 associated with the patent ID of the acquired patent data are acquired.
Here, in FIG. 51, it is assumed that the obtained one group is composed of J patent data, and a subscript j (j = 1, 2,..., J) is used to distinguish each of the J cases. .
When J patent data is acquired, using the J patent data progress information 300 and content information 400, “total value for J of the evaluation item corresponding data” used in S6302 to S6304, which will be described later, etc. Is obtained in advance.

次に、変数jを1にセットし(S620)、次のようにして特許データjの評価素点を算出する。   Next, the variable j is set to 1 (S620), and the evaluation raw score of the patent data j is calculated as follows.

まず、経過情報300の各フィールドに登録されている情報を評価項目とし、I個の評価項目i(i=1,2,・・・,I)について、評価項目ごとに予め設定された評価点算出方法を選択する(S6301)。   First, information registered in each field of the progress information 300 is used as an evaluation item, and I evaluation items i (i = 1, 2,..., I) are evaluated in advance for each evaluation item. A calculation method is selected (S6301).

本実施形態における評価点算出方法には次の3通りがある。すなわち、フィールド305、306、307、308、309、310、311、312に登録されている情報については、当該特許データに対する所定行為の有無を示す情報としてS6302〔有無型〕を選択する。また、フィールド302、303、304については、当該特許データの期間に関する情報としてS6303〔時間減衰型〕を選択する。また、フィールド313については、当該特許データの引用回数を示す情報としてS6304〔回数型〕を選択する。   There are the following three evaluation point calculation methods in the present embodiment. That is, for information registered in the fields 305, 306, 307, 308, 309, 310, 311 and 312, S6302 [Presence / absence type] is selected as information indicating the presence / absence of a predetermined action on the patent data. For fields 302, 303, and 304, S6303 [time decay type] is selected as information related to the period of the patent data. In the field 313, S6304 [number-of-times] is selected as information indicating the number of times the patent data is cited.

評価点算出方法を選択したら、I個の評価項目iの各々について、特許データjの評価点を算出する(S6302、S6303、S6304)。   When the evaluation score calculation method is selected, the evaluation score of the patent data j is calculated for each of the I evaluation items i (S6302, S6303, S6304).

(有無型における評価点の算出)
S6302〔有無型〕が選択された評価項目iについては、次の[数3]により評価点を算出する。

Figure 2009001696
(Evaluation score for presence / absence type)
For the evaluation item i for which S6302 [presence / absence type] is selected, the evaluation score is calculated by the following [Equation 3].
Figure 2009001696

ここで分子に配置された「評価項目iの該当有無データ」は、例えば「分割出願」については、上述のように分割出願がなされていれば1、なされていなければ0となる。   Here, the “existence / non-existence data of the evaluation item i” arranged in the numerator is, for example, “1” if the divisional application has been filed as described above, and “0” if it has not been made.

分母には、上記「評価項目iの該当有無データ」の当該グループ内合計値の正の平方根が配置されている。従って、当該グループ内に評価項目該当の特許データが多数存在する場合は分母が大きく、当該グループ内に評価項目該当の特許データが少数しか存在しない場合は分母が小さくなる。該当件数の多い評価項目(「包袋閲覧」等)を有する特許よりも、該当件数の少ない評価項目(「無効審判維持審決」等)を有する特許の方が、特許権設定登録後の維持率が高い傾向がある(一般に、維持率の高さは、維持費(特許料)に見合う経済的価値の高さを示すと考えられる)ので、各評価項目の重み付けが自動的になされる。また、所定期間ごとのグループ単位で集計しているので、例えば古い特許ほど多くの経過情報が付加され、公開されて間もない新しい特許には未だ経過情報が付加されていないことが多いが、それだけの理由で新しい特許に低い評価が与えられるという傾向を緩和することができる。
特許データの属性情報は、分析対象母集団内での相対評価に有用であるが、この分析対象母集団内の特許出願又は特許権を平等に扱ってしまうと適切な評価はできない。本実施形態によれば、分析対象母集団を時期ごとのグループに分類し、この分類されたグループごとに求めた値を分母として用いることで、異なる時期の特許出願又は特許権を含む分析対象母集団内において、適切な相対評価が可能となる。
また、例えばある技術分野において、特許出願が少ない同時期グループにおける1件の価値と、特許出願が多くなった同時期グループにおける1件の価値とでは、前者の価値の方が高いことが多い。一方で例えば、出願公開されて間もない特許出願より、数年経過した特許出願の方が、閲覧請求を受けた等の経過情報が付与される可能性は必然的に高いが、だからといって出願公開されて間もない特許出願をそのまま低く評価するのは誤りである。同時期グループ内の特許出願の中で、例えば閲覧請求を受けたものが数少ない場合、その閲覧請求を受けた特許出願は格別注目度の高い特許出願であり、高く評価されるべきである。逆に、同時期グループ内の特許出願の中で、閲覧請求を受けたものが数多い場合、その閲覧請求を受けた特許出願は、閲覧請求を受けたというだけの理由で高く評価されるべきものではない。
本実施形態によれば、各グループに属する各特許データの特許属性情報を利用して求めた値と、該グループに属する各特許データの特許属性情報を利用して求めた値を該グループ毎に合計した値の減少関数の値と、の積により評価点を算出する。この構成によれば、それぞれのグループにおける各特許データの相対的な位置づけを考慮した値を評価値として求めることができる。その結果、経過情報に基づく数値情報の前記同時期グループにおける合計値が低いほど高い重み付けをし、逆に当該合計値が高いほど低い重み付けをすることにより、分析対象文書群における特許出願又は特許権の適切な評価が可能となる。
In the denominator, the positive square root of the in-group total value of the above “evaluation item i presence / absence data” is arranged. Therefore, the denominator is large when there are many patent data corresponding to the evaluation items in the group, and the denominator is small when there are only a few patent data corresponding to the evaluation items in the group. Patents with fewer evaluation items (such as “Invalidation Trial Maintenance Decision”) than patents with a higher number of evaluation items (such as “Bag Viewing”) will be maintained after patent registration (In general, a high maintenance rate is considered to indicate a high economic value commensurate with the maintenance cost (patent fee)), and thus each evaluation item is automatically weighted. In addition, since it is tabulated in groups for each predetermined period, for example, older patents have more progress information added, and new patents that have just been published often do not yet have progress information added. It can alleviate the tendency for new patents to be given low ratings for that reason.
The attribute information of the patent data is useful for relative evaluation within the analysis target population, but proper evaluation cannot be performed if the patent applications or patent rights in the analysis target population are treated equally. According to the present embodiment, the analysis object population including patent applications or patent rights at different periods is classified by classifying the analysis object population into groups for each period and using the value obtained for each classified group as a denominator. Appropriate relative assessment is possible within the population.
For example, in a certain technical field, the former value is often higher between one value in a simultaneous group with few patent applications and one value in a simultaneous group with many patent applications. On the other hand, for example, a patent application that has passed several years is more likely to be given progress information, such as a request for browsing, than a patent application that has just been published. It is an error to underestimate a patent application that has just been made. For example, if only a few of the patent applications in the same period group have been requested to be browsed, the patent application that has received the request for browsing is a patent application with a particularly high degree of attention and should be highly evaluated. On the other hand, if there are a large number of requests for inspection among patent applications in the same period group, the patent application that received the request for inspection should be highly evaluated just because it was requested for inspection. is not.
According to the present embodiment, the value obtained using the patent attribute information of each patent data belonging to each group and the value obtained using the patent attribute information of each patent data belonging to the group are determined for each group. The evaluation score is calculated by multiplying the sum of the values by the value of the decreasing function. According to this structure, the value which considered the relative positioning of each patent data in each group can be calculated | required as an evaluation value. As a result, the lower the total value of the numerical information based on the progress information in the simultaneous group, the higher the weight, and conversely the lower the higher the total value, the lower the weight, so that Appropriate evaluation is possible.

(時間減衰型における評価点の算出)
S6303〔時間減衰型〕が選択された評価項目iについては、次の[数4]により評価点を算出する。

Figure 2009001696
(Calculation of evaluation points for time decay type)
For the evaluation item i for which S6303 [Time decay type] is selected, the evaluation score is calculated by the following [Equation 4].
Figure 2009001696

ここで分子に配置された「Exp(−(Min(経過時間,年限))/年限)」は、「審査請求からの経過日数」については、当該「審査請求からの経過日数(年数換算値)」と「年限」のうち何れか小さい方の値を「年限」で除算し−1を乗算した値で、ネイピア数eをべき乗した値である。「年限」は出願日から特許権存続期間満了までの最大年数(日本の現行法では20年)とする。「登録日からの経過日数」の場合も同じ計算式を用い、「年限」は出願日から特許権存続期間満了までの最大年数(日本の現行法では20年)とする。「出願日からの経過日数」の場合も同じ計算式を用いるが、「年限」は出願日から出願審査請求期限までの年数(日本の現行法では3年)とする。これによると、経過時間が短いうちは分子の値はExp(0)=1に近い値であるが、時間の経過とともに減衰して経過時間≧年限となるとExp(−1)=1/eにまで低下する。指数関数にする利点は、価値に対する減価償却効果を導入できることと、評価値分布の離散化をなくし滑らかな分布にできることである。「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」は、多くの特許に該当する基本評価項目であり、これら3評価項目しか該当しない特許群の同点化を避けることができる。   “Exp (− (Min (elapsed time, year limit)) / year limit)” placed in the numerator here is the “number of days elapsed since the request for examination”. ”Or“ year ”, which is the value obtained by dividing the smaller value by“ year ”and multiplying by −1 and the power of the Napier number e. The “year” is the maximum number of years from the filing date until the expiration of the patent right (20 years under the current Japanese law). The same formula is used for “elapsed days from registration date”, and “year” is the maximum number of years from the filing date to the expiration of the patent term (20 years under the current Japanese law). The same formula is used for the “elapsed days from the filing date”, but the “year” is the number of years from the filing date to the application examination request deadline (3 years in the current Japanese law). According to this, while the elapsed time is short, the value of the numerator is a value close to Exp (0) = 1. However, when the elapsed time ≧ years, the value of Exp (−1) = 1 / e. To fall. The advantage of using an exponential function is that a depreciation effect on the value can be introduced and that the evaluation value distribution can be eliminated and a smooth distribution can be achieved. “Elapsed days from request for examination”, “Elapsed days from application date”, and “Elapsed days from registration date” are basic evaluation items applicable to many patents. Tying can be avoided.

分母は上記S6302〔有無型〕と同様の式が配置されているが、「審査請求からの経過日数」については、当該特許出願につき出願審査請求されていれば例えば1、されていなければ例えば0の値を当該グループ内で合計し正の平方根をとったものである。「登録日からの経過日数」についても、当該特許出願につき特許権設定登録されていれば1、されていなければ0の値を当該グループ内で合計し正の平方根をとったものが分母となる。「出願からの経過日数」については、すべての特許データが該当するので、当該評価項目の該当有無データを1とすれば、分母の値はグループ内の特許データの件数の正の平方根に等しくなる。何れの場合も、当該グループ内に評価項目該当の特許データが多数存在する場合は分母が大きく、当該グループ内に評価項目該当の特許データが少数しか存在しない場合は分母が小さくなる。上述のように「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」は、多くの特許に該当する基本評価項目であるので、これら評価項目の配点は小さくなりやすい。   The denominator has the same formula as the above S6302 [Presence / absence type], but the “days since examination request” is, for example, 1 if an application examination request is made for the patent application, and if not, for example 0 Are summed within the group to obtain a positive square root. For the “elapsed days from the date of registration”, the denominator is a value obtained by adding a value of 1 within the group by taking the positive square root by adding 1 if the patent application has been registered for patent right setting and not being registered. . Since all patent data falls under “Elapsed days since filing”, the value of the denominator is equal to the positive square root of the number of patent data in the group, assuming that the evaluation data of the relevant evaluation item is 1. . In any case, the denominator is large when there are many patent data corresponding to the evaluation items in the group, and the denominator is small when there are only a few patent data corresponding to the evaluation items in the group. As described above, “Elapsed days from request for examination”, “Elapsed days from application date”, and “Elapsed days from registration date” are basic evaluation items applicable to many patents. Tends to be small.

このS6303〔時間減衰型〕で算出された評価点は、更に内容情報による補正を行う。
なお、以下では、図49に示した内容情報400を利用する。
経過情報のみにより評価する場合、出願公開後又は特許権設定登録後間もない特許出願又は特許権には、今後付与されると期待される経過情報がなく評価が正しく行えない可能性がある。従ってこれを補正するため、経過情報による評価に内容情報を加味する。しかし、内容情報は、経過情報ほど維持率との相関が高くない傾向にあり、不用意に内容情報を加味すると却って評価の精度が落ちる可能性がある。
そこで、経過情報が十分に付与された特許の評価には内容情報の影響を小さくとどめ、経過情報が不十分な特許の評価に内容情報を効果的に反映させるため、このS223C〔時間減衰型〕で算出された評価点にのみ、内容情報に基づく補正係数を乗算する。
このように本実施形態によれば、出願の古い新しいを問わず、どの特許データにも一律に付与されやすい特性を有する期間に関する情報に、各々の特許データの内容情報を加味することができる。その結果、経過情報があまり付与されていない新しい出願からなる特許データについても、適切な評価を行うことができる。
The evaluation score calculated in S6303 [time decay type] is further corrected by content information.
In the following, the content information 400 shown in FIG. 49 is used.
When the evaluation is based only on the progress information, there is a possibility that the patent application or the patent right shortly after the publication of the application or the registration of the patent right does not have the progress information expected to be granted in the future and the evaluation cannot be performed correctly. Therefore, in order to correct this, content information is added to the evaluation based on the progress information. However, the content information tends not to have a high correlation with the maintenance rate as the progress information, and if the content information is inadvertently added, the accuracy of the evaluation may decrease.
Therefore, in order to keep the influence of the content information small in the evaluation of a patent with sufficient progress information and to effectively reflect the content information in the evaluation of a patent with insufficient progress information, this S223C [time decay type] Only the evaluation score calculated in (5) is multiplied by the correction coefficient based on the content information.
As described above, according to the present embodiment, regardless of whether the application is old or new, it is possible to add the content information of each patent data to the information related to the period having characteristics that are easily given to any patent data. As a result, it is possible to perform appropriate evaluation even for patent data consisting of a new application to which little progress information is given.

具体的には、上記[数4]の各評価点に、
×a×a
ここで、
=21/3(請求項当たりの平均文字数が平均以下の場合)又は
-1/3(請求項当たりの平均文字数が平均以上の場合)
=21/3(全頁数が平均以上の場合)又は
-1/3(全頁数が平均以下の場合)
=21/3(請求項数が平均値±1標準偏差以内の場合)又は
-1/3(請求項数が上記範囲外の場合)
を乗算する。a、a、aの最大値をそれぞれ21/3とすることにより、a×a×aを最大値とする補正にとどめている。なお、上記実施形態では、a×a×aの値が最大で2になるようにしている。
Specifically, for each evaluation point in [Equation 4],
a 1 × a 2 × a 3
here,
a 1 = 2 1/3 (when the average number of characters per claim is below average) or 2 -1/3 (when the average number of characters per claim is above average)
a 2 = 2 1/3 (when the total number of pages is above average) or 2 -1/3 (when the total number of pages is below average)
a 3 = 2 1/3 (when the number of claims is within an average value ± 1 standard deviation) or 2 −1/3 (when the number of claims is outside the above range)
Multiply By setting the maximum values of a 1 , a 2 , and a 3 to 2 1/3 , the correction is limited to a 1 × a 2 × a 3 as the maximum value. In the above embodiment, the value of a 1 × a 2 × a 3 is set to 2 at the maximum.

(回数型における評価点の算出)
S6304〔回数型〕が選択された評価項目iについては、次の[数5]により評価点を算出する。

Figure 2009001696
(Evaluation score calculation for the frequency type)
For the evaluation item i for which S6304 [number-of-times] is selected, an evaluation score is calculated by the following [Equation 5].
Figure 2009001696

ここで分子に配置された「f(引用)×log(n+1)」は、「被引用回数」については、当該「被引用回数n」に1を加えた値の対数に重みf(引用)を乗算したものである。本発明者らの検証により、被引用の有無にとどまらずその回数によっても特許権の維持率が変化することがわかっているが、両者に比例関係はなく、被引用回数の増加による維持率の増加は次第に頭打ちの傾向を示すため、対数をとることとしたものである。Here, “f (quotation) × log (n j +1)” arranged in the numerator is the weight of the logarithm of the value obtained by adding 1 to the “cited count n j ” for the “cited count”. Quoting). According to the verification by the present inventors, it has been found that the maintenance rate of the patent right changes depending on the number of citations as well as the presence or absence of citations. Since the increase gradually shows a tendency to peak, the logarithm is taken.

分母には、上記「f(引用)×log(n+1)」の当該グループ内合計値の正の平方根が配置されている。従って、当該グループ内に他の出願で引用された特許データが多数存在する場合は分母が大きく、当該グループ内に他の出願で引用された特許データが少数しか存在しない場合は分母が小さくなる。In the denominator, the positive square root of the total value in the group of “f (quotation) × log (n j +1)” is arranged. Accordingly, the denominator is large when there are many patent data cited in other applications in the group, and the denominator is small when there are only a few patent data cited in other applications in the group.

上記[数5]の分子及び分母において、重みf(引用)は任意の正数を用いることができるが、他社の特許出願で引用された回数(他社引用回数)njotherと自社の他の特許出願で引用された回数(自社引用回数)njselfとで区別し、それぞれの対数に異なる重みを付与する。この場合、上記[数5]に代え、次の[数6]を用いる。

Figure 2009001696

具体的な重みとしては、他社引用の場合のf(引用other)と、自社引用の場合のf(引用self)との比を、1:2とした。In the numerator and denominator of [Formula 5], an arbitrary positive number can be used as the weight f (quotation), but the number of times cited in other patent applications (number of times other companies cited) n jother and other patents of the company It is distinguished from the number of times cited in the application (in-house citation number) n jself, and a different weight is assigned to each logarithm. In this case, instead of the above [Equation 5], the following [Equation 6] is used.
Figure 2009001696

As a specific weight, the ratio of f (quoting other ) in the case of other company citations and f (quoting self ) in the case of company citations was set to 1: 2.

被引用回数は、特許の価値との間に高い相関がある。更に、本発明者らの検証によれば、他社の特許出願の審査において引用(他社引用)された回数と、自社の他の特許出願の審査において引用(自社引用)された回数とでは、後者と特許の価値との相関が有意に高いことが認められた。自社の他の特許出願の審査において引用された発明は、自社の実施技術において中核となる基本発明であることが多いことによるものと推測される。そして、そのような基本発明を自社が既に出願していることを認識しつつ、その改良技術をも出願し強固な特許ポートフォリオの構築を図った可能性が高い。
本実施形態によれば、被引用回数を他社引用と自社引用とに分けて考え、後者の回数をより大きく評価値に反映させることにより、特許出願又は特許権の適切な評価が可能となる。
The number of times cited is highly correlated with the value of a patent. Furthermore, according to the verification by the present inventors, the number of times cited in the examination of patent applications of other companies (citation of other companies) and the number of times cited (in-house quotation) in examinations of other patent applications of the company are the latter. Was found to be significantly higher in correlation with patent value. The invention cited in the examination of other patent applications of the company is presumed to be due to the fact that it is often the basic invention that is the core in the implementation technology of the company. And while recognizing that the company has already applied for such a basic invention, there is a high possibility that the company has applied for the improved technology and built a strong patent portfolio.
According to this embodiment, it is possible to appropriately evaluate a patent application or a patent right by considering the number of citations separately from other company citations and company citations, and reflecting the latter number more largely in the evaluation value.

(評価素点の算出)
全ての評価項目i(i=1,2,・・・,I)について、特許データjの評価点が算出されたら、これに基づいて当該特許データjの評価素点を、次の[数7]により算出する(S640)。

Figure 2009001696

この式に示されるように、評価素点は、I個の評価点の二乗和の正の平方根、又は0となる。評価素点が0となるのは、審査請求期限までに出願審査請求しなかった場合、出願を取下げ又は放棄した場合、拒絶査定が確定した場合、その他特許出願が失効した場合と、異議申立による取消決定や無効審判による無効審決が確定した場合、特許権を放棄した場合、特許権の存続期間が満了した場合、その他の特許権が消滅した場合である。これらの情報も各特許データの経過情報から読み取り、該当する場合は評価素点を0とする。
上述のようにS6303〔時間減衰型〕で算出された評価点に対しては、内容情報による補正を行う。具体的には、「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」に基づき上述の[数4]で算出された評価点にそれぞれ上述のa×a×aを乗算した上で、[数7]に従い二乗和の平方根をとる。(Calculation of evaluation raw score)
When the evaluation score of the patent data j is calculated for all the evaluation items i (i = 1, 2,..., I), the evaluation score of the patent data j is calculated based on the evaluation score of the following [Expression 7]. ] (S640).
Figure 2009001696

As shown in this equation, the evaluation raw score is a positive square root of the sum of squares of I evaluation points, or 0. The evaluation score is 0 because the application request is not requested by the deadline for requesting examination, the application is withdrawn or abandoned, the decision of refusal is finalized, other patent applications have expired, The case where the decision of revocation or the trial for invalidation by the trial for invalidation is finalized, the patent right is abandoned, the duration of the patent right expires, or the other patent right is extinguished. These pieces of information are also read from the progress information of each patent data, and the evaluation raw score is set to 0 when applicable.
As described above, the evaluation score calculated in S6303 [time decay type] is corrected by the content information. Specifically, each of the evaluation points calculated in the above [Equation 4] based on “the number of days elapsed since the request for examination”, “the number of days elapsed since the application date”, and “the number of days elapsed since the registration date” After multiplying by 1 × a 2 × a 3 , the square root of the sum of squares is taken according to [Equation 7].

複数の評価項目による評価点iから評価素点を算出する方法として、各評価点iの総和を求める方法がある(単純和法)。しかしこの算出方法によると、特許の維持率(経済的価値)との相関を有する経過情報が多数付与された特許の評価が高く算出されるので、評価点iの総和を評価素点とすることは一見合理的であるが、維持率との相関があまり高くない経過情報を多数付与されている特許の(低い評価点が多数加算される)評価素点が、維持率との相関が極めて高い経過情報を少数付与されている特許の評価素点を超えてしまうことがあり得るので注意が必要である。
この問題を解決する1つの方法として、各評価点iのうち最大値を評価素点とする方法もある(最大値法)。しかしこの算出方法によると、特に、ある経過情報と特許群の維持率との相関を調べる場合に、他にどんな経過情報が付与されているか無関係に相関を調べた場合には、ある特許の維持率は、最高の維持率を持つ経過情報の維持率で最もよく表現できると期待されるので、評価点iの最大値を評価素点とすることは一見合理的であるが、評価点iの最大値が2つの特許で同じである場合に優劣がつけられない。さらに、最大値法を用いた場合は、出願人、特許庁及び競合他社の異なる3主体の観点を加味した評価を行うことができず、それらの主体のうちのいずれか一者の観点のみが反映されることとなってしまい、残りの主体の観点を特許データの評価に反映させることができない。
二乗和の平方根をとる上述の方法は、単純和法と最大値法の長所を兼ね備えた方法ということができる。すなわち、二乗和の平方根をとることにより、ある特許データjに関するI個の評価項目iの中に高い評価点iがあるときは、その高い評価点iが評価素点に大きく影響する。そして、評価点iの高い評価項目以外の評価点についても、幾らか考慮された評価素点となる。従って、評価点iの高くなりやすい「早期審査」、「異議申立維持決定」、「無効審判維持審決」等に複数該当するような特許データjに対しては、突出して高い評価素点を与えることができる。
このように本実施形態では、特許属性情報の種類に応じて算出した評価点を全て加味した特許評価を行うようにしている(S630、S640)。その結果、特許データの価値を多面的に評価することが可能となる。
As a method of calculating an evaluation raw score from an evaluation point i based on a plurality of evaluation items, there is a method of calculating a sum of each evaluation point i (simple sum method). However, according to this calculation method, since the evaluation of a patent to which a lot of historical information having a correlation with the patent maintenance rate (economic value) is given is calculated high, the sum of the evaluation points i should be used as an evaluation raw score. Is reasonable at first glance, but the evaluation score of a patent that has been granted a lot of historical information that does not have a high correlation with the maintenance rate (a lot of low evaluation points are added) has a very high correlation with the maintenance rate Care should be taken because it may exceed the evaluation score of a patent to which a small amount of progress information is granted.
As one method for solving this problem, there is a method in which the maximum value among the evaluation points i is used as an evaluation raw score (maximum value method). However, according to this calculation method, especially when investigating the correlation between certain historical information and the maintenance rate of a group of patents, when investigating the correlation regardless of what other historical information is given, maintaining a certain patent Since the rate is expected to be best expressed by the maintenance rate of the historical information having the highest maintenance rate, it is reasonable to use the maximum value of the evaluation point i as an evaluation raw score. If the maximum value is the same in the two patents, no superiority or inferiority is given. Furthermore, when the maximum value method is used, it is not possible to carry out an evaluation that takes into account the viewpoints of three different entities of the applicant, the JPO, and competitors, and only the viewpoints of any one of those entities The viewpoint of the remaining subject cannot be reflected in the evaluation of patent data.
The above-described method for taking the square root of the sum of squares can be said to be a method that combines the advantages of the simple sum method and the maximum value method. That is, by taking the square root of the sum of squares, when there is a high evaluation point i in I evaluation items i related to a certain patent data j, the high evaluation point i greatly affects the evaluation raw score. The evaluation points other than the evaluation item having a high evaluation point i are also evaluation raw points that are somewhat considered. Therefore, a high evaluation score is given to patent data j that corresponds to multiple items such as “early examination”, “opposition to maintain opposition”, and “invalidation maintenance decision” that tend to be high. be able to.
As described above, in this embodiment, patent evaluation is performed in consideration of all evaluation points calculated according to the type of patent attribute information (S630, S640). As a result, it is possible to evaluate the value of patent data from multiple aspects.

(評価値の算出)
評価素点が算出されたら、その対数を算出して当該特許データjの評価値とする(S650)。
経過情報又は内容情報に基づいて算出される評価値は、特異な経過又は内容が読み取れる数少ない特許出願又は特許権に対しては高い値が与えられるが、その他大勢の特許出願又は特許権に対しては低い値が与えられることが多い。従って評価値別の件数分布を見ると、評価値が高い特許出願又は特許権は数少なくまばらな分布となり、評価値が低い特許出願又は特許権は数多く密集した分布となる。
このような場合には、評価値の高い少数の特許出願又は特許権によって平均値(相加平均値)が大きく左右されるので、このような平均値との比較によって評価する際は注意が必要となる。また例えば高い評価値が得られた2つの特許出願又は特許権を比較する場合に、数値の上では評価値に大きな差があるように見えたとしても、実際には有意な差ではないこともある。
(Calculation of evaluation value)
When the evaluation raw score is calculated, its logarithm is calculated and used as the evaluation value of the patent data j (S650).
The evaluation value calculated based on the progress information or content information is given a high value for a few patent applications or patent rights whose unique progress or content can be read, but for many other patent applications or patent rights. Is often given a low value. Accordingly, looking at the distribution of the number of evaluation values, the number of patent applications or patent rights with high evaluation values is a few and sparse distribution, and the number of patent applications or patent rights with low evaluation values is a dense distribution.
In such a case, the average value (arithmetic average value) is greatly influenced by a small number of patent applications or patent rights with high evaluation values, so care must be taken when evaluating by comparison with such average values. It becomes. In addition, for example, when comparing two patent applications or patent rights that have obtained high evaluation values, even if it appears that there is a large difference in evaluation values, it may not be a significant difference in practice. is there.

次に、すべての特許データjについて評価値を算出したか否かを判定し(S660)、算出していない場合(S660:NО)、S670に進み、変数jをj+1にセットし、S630に戻って次の特許データについて評価値を算出する。
すべての特許データjについて評価値を算出した場合は(S660:YES)、当該グループに属する特許データに関する評価値の算出処理を終了する。
このように本実施形態では、特性の異なる複数の特許データを、技術分野ごと、出願時期ごとの特性を加味した上で評価するようにしている。その結果、特許データの価値をより適切に評価することができる。
Next, it is determined whether or not evaluation values have been calculated for all patent data j (S660). If not calculated (S660: NO), the process proceeds to S670, the variable j is set to j + 1, and the process returns to S630. The evaluation value is calculated for the following patent data.
When the evaluation values are calculated for all the patent data j (S660: YES), the evaluation value calculation processing for the patent data belonging to the group ends.
As described above, in the present embodiment, a plurality of patent data having different characteristics are evaluated in consideration of the characteristics for each technical field and each filing time. As a result, the value of patent data can be more appropriately evaluated.

S610〜S670までの評価値算出処理は、S400で取得した特許データをS500で分類して得られたすべてのグループtについて実行する。
すべてのグループtについて評価値を算出したら図50に戻り、この評価値に基づいて、S400で取得した分析対象母集団における偏差値をパテントスコアPSとして算出する(S700)。この偏差値は、本来ならば比較することが困難な、異なる技術分野間の特許データの相対比較(S400で異なるIPCにより別途選択される分析対象母集団との比較)をも可能とするものである。
The evaluation value calculation processing from S610 to S670 is executed for all the groups t obtained by classifying the patent data acquired in S400 in S500.
When the evaluation values are calculated for all the groups t, the process returns to FIG. 50, and the deviation value in the analysis target population acquired in S400 is calculated as the patent score PS based on the evaluation values (S700). This deviation value also enables relative comparison of patent data between different technical fields that are difficult to compare (comparison with a population to be analyzed separately selected by different IPCs in S400). is there.

そして、本実施形態では、上記の手順により求めたパテントスコアPSを基にして、クラスタスコアを算出するようにしているため、上記実施形態に比べて、以下のような利点がある。
具体的には、上記実施形態では、クラスタスコアの基となるパテントスコアPSは、経過情報の種類に応じた重みを考慮している。そして、そのパテントスコアPSを用いて、クラスタスコアを求めるようにしているため、本実施形態では、より精度が高いスコアが算出される。
本実施形態のパテントスコアによれば、分析対象母集団を時期ごとのグループに分類し、この分類されたグループごとに求めた値を分母として用いることで、異なる時期の特許出願又は特許権を含む分析対象母集団内において、適切な相対評価が可能としている。
そのため、出願が古い特許データが多く分類されているクラスタ及び因子のクラスタスコアに、高い評価値が算出されてしまう可能性を低減できる。
In this embodiment, since the cluster score is calculated based on the patent score PS obtained by the above procedure, there are the following advantages compared to the above embodiment.
Specifically, in the above embodiment, the patent score PS that is the basis of the cluster score takes into account the weight according to the type of progress information. Since the cluster score is obtained using the patent score PS, a score with higher accuracy is calculated in this embodiment.
According to the patent score of the present embodiment, the analysis target population is classified into groups for each period, and the values obtained for each classified group are used as denominators, thereby including patent applications or patent rights at different periods. Appropriate relative evaluation is possible within the analysis population.
Therefore, it is possible to reduce the possibility that a high evaluation value is calculated for the cluster and the cluster score of factors in which many patent data whose applications are old are classified.

<考察>
上述したように、本実施の形態に係る情報処理装置は、技術要素キーワードと製品群キーワードとを対応づけた第1関係情報又は第2関係情報を出力することができるので、ユーザは、企業における研究開発技術とその技術を用いた製品等との関係を把握することができる。具体的には、相互に独立した製品群に共通した技術要素が用いられているか否かを確認することができるので重複した研究開発を未然に防止することができる。また、例えば、多くの製品に化体される技術要素と製品化されないまま保持されている技術要素とが偏在する状態等、各技術要素の製品への利用状況を確認することができるので、企業の技術資産を有効に活用して研究開発等の効率化を図ることができる。
<Discussion>
As described above, the information processing apparatus according to the present embodiment can output the first relation information or the second relation information in which the technical element keyword and the product group keyword are associated with each other. It is possible to grasp the relationship between R & D technology and products using that technology. Specifically, since it is possible to confirm whether or not technical elements common to mutually independent product groups are used, it is possible to prevent duplicate research and development. In addition, for example, it is possible to check the usage status of each technical element to the product, such as the state where the technical elements embodied in many products and the technical elements that are not commercialized are unevenly distributed. It is possible to improve the efficiency of research and development by effectively utilizing the technical assets of the company.

<補足>
本発明に係る情報処理装置について、上記実施の形態1及び実施の形態2を用いて説明したが、本発明に係る情報処理装置はこれに限られるものではなく、以下に示す変形例も含む。
<Supplement>
The information processing apparatus according to the present invention has been described using the first embodiment and the second embodiment, but the information processing apparatus according to the present invention is not limited to this, and includes the following modifications.

(1)上述した実施の形態1のクラスタ生成処理において、生成したクラスタの特許文書データ数が所定数以下である場合には、一旦生成されたクラスタを解除し、当該クラスタに属していた各特許文書データについて、他のクラスタとの類似度を各々算出し、類似度が最大となるクラスタに当該特許文書データを所属させることとしてもよい。    (1) In the cluster generation processing of the first embodiment described above, if the number of patent document data of the generated cluster is less than or equal to the predetermined number, the generated cluster is canceled and each patent belonging to the cluster is released. It is also possible to calculate the degree of similarity with other clusters for the document data, and make the patent document data belong to the cluster with the highest degree of similarity.

(2)上述の実施の形態1では、クラスタ生成処理には最長距離法を用いるものとして説明したが、これに限定されるものではなく、最短距離法やウォード法等の方法によってクラスタ生成処理を行ってもよい。    (2) In Embodiment 1 described above, the longest distance method is used for the cluster generation processing. However, the present invention is not limited to this, and the cluster generation processing is performed by a method such as the shortest distance method or the Ward method. You may go.

(3)上述した実施の形態では、格助詞毎の前方形態素及び後方形態素の形態素結合処理において、品詞が第1分類又は第2分類以外の形態素が出現するまでの各形態素を検出順に結合するものとして説明したが、格助詞毎の前方形態素の場合、その前方形態素のうち品詞が第1分類に属する前方形態素を一旦抽出し、抽出した前方形態素について、格助詞の直前の前方形態素から検出順位が連続する限り前方形態素を結合させてもよい。また、格助詞毎の後方形態素についても同様に、後方形態素のうち品詞が第2分類に属する後方形態素を一旦抽出し、抽出した後方形態素について、格助詞の直後の後方形態素から検出順位が連続する限り後方形態素を結合させることとしてもよい。   (3) In the embodiment described above, in the morpheme combination process of the front morpheme and the back morpheme for each case particle, the morpheme until the morpheme other than the first classification or the second classification appears in the part of speech is combined in the detection order. However, in the case of the front morpheme for each case particle, the front morpheme whose part of speech belongs to the first classification is extracted once from among the front morphemes, and the extracted front morpheme has a detection rank from the front morpheme immediately before the case particle. The forward morphemes may be combined as long as they are continuous. Similarly, for the back morphemes of each case particle, the back morpheme whose part of speech belongs to the second classification is once extracted from the back morphemes, and the detection order of the extracted back morphemes continues from the back morpheme immediately after the case particles. As long as backward morphemes are combined, they may be combined.

(4)上述した実施の形態2では、マップ生成部108は、文書別特徴語抽出リスト40(図24)の全ての特徴語1及び特徴語2を特徴語マップに出力するものとして説明したが、例えば、特徴語出力領域に出力する特徴語情報の上限数を予め設定してもよい。その場合、文書別出力順位情報70(図25(c))の特徴語出力順位75の上位所定個数をユーザに選択させる等により、特徴語出力領域に出力する特徴語情報を制限する。   (4) In the second embodiment described above, the map generation unit 108 has been described as outputting all the feature words 1 and 2 in the document-specific feature word extraction list 40 (FIG. 24) to the feature word map. For example, an upper limit number of feature word information to be output to the feature word output area may be set in advance. In that case, the feature word information to be output to the feature word output area is restricted by allowing the user to select a predetermined upper number of the feature word output rankings 75 of the document-specific output order information 70 (FIG. 25C).

また、実施の形態2では、特徴語出力領域の各出力領域と特徴語出力順位とが1対1に対応しているものとして説明したが、例えば、特徴語出力領域の一つの出力領域に複数の連続する出力順位を対応づけることとしてもよい。   In the second embodiment, the description has been made assuming that each output area of the feature word output area and the feature word output order correspond to each other one by one. It is good also as making a continuous output order correspond.

(5)また、上述した実施の形態2の特徴語マップの特徴語出力領域の各出力領域を出力順位に応じた色を付して出力することとしてもよい。   (5) Further, each output area of the feature word output area of the feature word map of the second embodiment described above may be output with a color according to the output order.

(6)上述した実施の形態1では、課題情報として各特許出願データに含まれる要約データを用いることとして説明したが、特許出願データに含まれる明細書のデータにおいて「発明が解決しようとする課題」として記載されているデータを用いることとしてもよい。   (6) In the first embodiment described above, the summary data included in each patent application data is used as the problem information. However, in the specification data included in the patent application data, the “problem to be solved by the invention” is described. It is good also as using the data described as "."

また、実施の形態1及び実施の形態2では、解決情報として特許請求の範囲の「請求項1」として記載されたデータを用いるものとして説明したが、他の請求項のデータであってもよいし、特許請求の範囲の全てのデータを用いてもよい。   In the first and second embodiments, the data described as “Claim 1” in the scope of claims is used as the solution information. However, the data of other claims may be used. However, all the data in the claims may be used.

(7)上述した実施の形態では、格助詞毎の前方形態素について形態素結合処理を行う場合、品詞が第1分類である名詞、未知語、記号及び形容詞のいずれかに該当する前方形態素を検出順に結合させるものとして説明したが、例えば、品詞が名詞のみの前方形態素を結合させてもよいし、名詞と未知語、又は、名詞と未知語若しくは記号若しくは形容詞の前方形態素を結合させてもよい。   (7) In the embodiment described above, when the morpheme combination process is performed on the forward morpheme for each case particle, the forward morpheme corresponding to any of the noun, unknown word, symbol, and adjective whose part of speech is the first classification is detected in the order of detection. Although described as a combination, for example, a front morpheme whose part of speech is only a noun may be combined, or a noun and an unknown word, or a noun and an unknown word or a symbol or an adjective front morpheme may be combined.

また、実施の形態2では、格助詞毎の後方形態素について後方形態素結合処理を行う場合、品詞が第2分類である名詞、未知語、記号、形容詞及び動詞のいずれかに該当する後方形態素を検出順に結合させるものとして説明したが、上記前方形態素の結合と同様、名詞と動詞、又は、名詞と動詞若しくは未知語若しくは記号若しくは形容詞の後方形態素を結合させてもよい。   Further, in the second embodiment, when the backward morpheme combination processing is performed on the backward morpheme for each case particle, the backward morpheme corresponding to any of the noun, unknown word, symbol, adjective and verb whose part of speech is the second classification is detected. Although described as being combined sequentially, the noun and verb, or the noun and verb or unknown word or symbol or adjective backward morpheme may be combined in the same manner as the above combination of the front morpheme.

(8)上述した実施の形態2では、実施の形態1で出力した課題・解決マトリクスにおけるクラスタをユーザが指定することにより、そのクラスタに属する各特許文書データにおける特徴語情報を生成し、特徴語マップを生成して出力するものとして説明したが、ユーザから、1又は複数の特許文書データを指定する入力を受付け、その指定された特許文書データについて特徴語情報を生成し、指定された特許文書データについての特徴語マップを生成して出力することとしてもよい。   (8) In the second embodiment described above, when the user designates a cluster in the problem / solution matrix output in the first embodiment, feature word information in each patent document data belonging to the cluster is generated, and the feature word Although described as generating and outputting a map, it accepts input specifying one or more patent document data from the user, generates feature word information for the specified patent document data, and specifies the specified patent document. It is good also as producing | generating and outputting the feature word map about data.

(9)また、上述した実施の形態では、特徴語を抽出する際に、所定の格助詞「を」及び「が」について着目することとして説明したが、「に」や「の」等の他の格助詞に着目することとしてもよい。   (9) In the above-described embodiment, it has been described that when extracting a feature word, attention is given to predetermined case particles “O” and “GA”. It is also possible to focus on the case particles.

(10)上述した実施の形態では、形態素解析処理を行う際、「上記」「前記」等、文書において頻繁に用いられるが文書において特徴的な単語ではないもの(以下、「不要語」と言う。)も形態素解析処理を行って品詞情報を生成することとして説明したが、予め不要語リストを情報処理装置に記憶させ、不要語リストに登録されている単語については品詞情報に含めないようにしてもよい。   (10) In the above-described embodiment, when performing morphological analysis processing, such as “above” and “above” are frequently used in the document but are not characteristic words in the document (hereinafter referred to as “unnecessary words”). .) Has also been described as generating part-of-speech information by performing morphological analysis processing, but an unnecessary word list is stored in the information processing apparatus in advance, and words registered in the unnecessary word list are not included in the part-of-speech information. May be.

また、特徴語を生成する際、品詞が第1分類である記号に含まれる句読点が形態素結合処理の結合対象となる場合には、句読点を除く形態素について結合させることとしてもよい。   In addition, when generating a feature word, when punctuation included in a symbol whose part of speech is the first classification is a combination target of morpheme combination processing, morphemes excluding punctuation may be combined.

(11)上述した実施の形態1の課題語と解決語の出力位置は、上述した連結リスト生成処理により類似度の最も高い課題語同士及び解決語同士がマトリクスの各軸上において隣合う位置に配置され、その類似度が最も高い組合せの課題語及び解決語を各々起点とする各軸の2方向において、類似度が高い順にその他の課題語及び解決語が配置されるものとして説明したが、例えば、課題語の軸についてのみ上記連結リスト生成処理を適用して各課題語を配置し、解決語の軸については、解決語のGF値の降順や昇順等、解決語の出現頻度の順番に各解決語を配置することとしてもよい。   (11) The output position of the task word and the solution word in the first embodiment described above is the position where the task words having the highest similarity and the solution words are adjacent to each other on each axis of the matrix by the linked list generation process described above. Although it has been described that the other task words and solution words are arranged in descending order of similarity in the two directions of each axis starting from the combination of task words and solution words having the highest similarity, respectively. For example, apply the above linked list generation process only for the axis of the task word and place each task word, and for the axis of the solution word, in the order of the appearance frequency of the solution word, such as descending order or ascending order of the GF value of the solution word Each solution word may be arranged.

これによれば、ユーザは、マトリクスのセルの値を参照せずに、指定特許文書データ群において頻繁に用いられている又は用いられていない解決語及び特徴語を一見して確認することができ、指定特許文書データ群全体の技術的傾向を推測することができる。また、課題語の軸上の各課題語は、上述した連結リスト生成処理により配置されているため、ユーザは、マトリクス上で類似する課題語間における解決語及び特徴語の出現頻度の確認が容易であり、類似特許文書データ群間の各課題を解決するための技術的手段の差異や類似性を把握しやすい。   According to this, the user can check at a glance the solution words and feature words that are frequently used or not used in the designated patent document data group without referring to the values of the cells in the matrix. The technical tendency of the entire designated patent document data group can be estimated. In addition, since the task words on the task word axis are arranged by the linked list generation process described above, the user can easily confirm the appearance frequency of the solution words and feature words between similar task words on the matrix. Therefore, it is easy to grasp the difference and similarity of technical means for solving each problem between similar patent document data groups.

(12)また、上述した実施の形態1では、連結リスト生成処理により生成された基準連結リストの組合せが複数ある場合において、各組の基準連結リストを連結して複数の連結リストを生成し、複数の連結リスト同士を連結する際、各連結リストにおける各基準ノード間の類似度の降順に各連結リストを連結させるものとして説明したが、各連結リストにおける各基準ノード間の類似度の昇順や、各連結リストの各先頭ノード又は各末尾ノード間の類似度に応じて各連結リストを連結させることとしてもよい。   (12) In the first embodiment described above, when there are a plurality of combinations of the reference linked lists generated by the linked list generation process, a plurality of linked lists are generated by linking the reference linked lists of each set, When connecting a plurality of linked lists, it has been described that each linked list is linked in descending order of similarity between each reference node in each linked list, but ascending order of similarity between each reference node in each linked list The linked lists may be linked according to the similarity between the head nodes or the tail nodes of the linked lists.

(13)また、上述した実施の形態2では、特徴語1及び特徴語2の出力位置を決定する際、特徴語1を構成する前方形態素のGF値を用いるものとして説明したが、例えば、前方形態素の指定特許文書データ群におけるDF値を用いてもよいし、特徴語1若しくは特徴語1を構成する前方形態素の分析対象となる文書データにおける検出位置が後方になるほど、その特徴語1に高い重みを付ける等、特徴語1や特徴語1を構成する前方形態素の検出位置に応じた重みを用いてもよい。   (13) In the above-described second embodiment, when the output positions of the feature word 1 and the feature word 2 are determined, the GF value of the front morpheme constituting the feature word 1 is used. The DF value in the specified patent document data group of the morpheme may be used, and the feature word 1 is higher as the detection position in the document data to be analyzed of the front morpheme constituting the feature word 1 or the feature word 1 is higher A weight corresponding to the detected position of the feature word 1 or the front morpheme constituting the feature word 1, such as weighting, may be used.

(14)また、上述した実施の形態では、分析対象文書として日本語で出願された特許出願データを用いるものとして説明したが、例えば、文書の主題や課題が明示された、技術論文などの技術文書データや、HTML(HyperText Markup Language)等のマークアップ言語で記載された文書データを用いてもよいし、日本語と文法が類似する韓国語で記載された特許出願データを用いてもよい。   (14) In the above-described embodiment, the description has been made on the assumption that patent application data filed in Japanese is used as the analysis target document. For example, a technology such as a technical paper in which the subject matter or problem of the document is clearly indicated. Document data or document data described in a markup language such as HTML (HyperText Markup Language) may be used, or patent application data described in Korean whose grammar is similar to Japanese may be used.

(15)また、上述した実施の形態では、データ取得部102は、情報処理装置1の記憶部2に予め記憶された特許文書データ群から分析対象となる特許文書データを取得するものとして説明したが、例えば、情報処理装置1とネットワーク接続されたサーバ等の外部の端末から特許文書データを取得することとしてもよい。また、上述した実施の形態では、情報処理装置1は、情報処理装置1の入力部3を介してユーザから分析対象となる特許文書データ群を示す情報を受付けるものとして説明したが、例えば、情報処理装置1とネットワーク接続されたコンピュータ等の外部端末を介してユーザから分析対象となる特許文書データを示す情報を受付けてもよい。   (15) In the above-described embodiment, the data acquisition unit 102 has been described as acquiring patent document data to be analyzed from the patent document data group stored in advance in the storage unit 2 of the information processing apparatus 1. However, for example, patent document data may be acquired from an external terminal such as a server connected to the information processing apparatus 1 via a network. In the above-described embodiment, the information processing apparatus 1 has been described as receiving information indicating a patent document data group to be analyzed from the user via the input unit 3 of the information processing apparatus 1. Information indicating patent document data to be analyzed may be received from a user via an external terminal such as a computer connected to the processing apparatus 1 via a network.

(16)また、本発明は、上記実施の形態で示す方法であるとしてもよいし、これらの方法をコンピュータにより実現するコンピュータプログラムであってもよいし、前記コンピュータプログラムからなるデジタル信号であってもよい。   (16) Further, the present invention may be the method described in the above embodiment, a computer program that implements these methods by a computer, or a digital signal composed of the computer program. Also good.

また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、ハードディスク、CD―ROM、DVD等のコンピュータで読み取り可能な記録媒体に記録したものとしてもよいし、前記記録媒体に記録されている前記コンピュータプログラム又はデジタル信号であるとしてもよい。   Further, the present invention may be the computer program or the digital signal recorded on a computer-readable recording medium such as a hard disk, CD-ROM, or DVD, or the computer recorded on the recording medium. It may be a program or a digital signal.

また、本発明は、前記コンピュータプログラム又はデジタル信号を、インターネットや、無線又は有線通信回線等の電気通信回線を経由して伝送するものとしてもよい。
(17)また、上述した実施の形態3では、特許請求の範囲データの各請求項データの記載形式が所定形式か否か判断する際、第1文字列"〜において、"と第2文字列"〜ことを特徴とする"のデータが含まれているか否か判断するものとして説明したが、例えば、第1文字列は"〜であって、"、"であり、"等の読点を含む前提条件を示す文字列であってもよいし、一つの請求項データに第1文字列が複数含まれている場合には、当該請求項データにおける最後の文字列と同一の文字列が、当該請求項データにおいて最後に記載された第1文字列の直前に記載されていれば、当該最後の第1文字列を上記所定形式の判断基準としてもよい。
(18)また、上述した実施の形態3では、因子分析部113による因子分析をSPSS(登録商標)やR等の統計解析ソフトを用いるものとして説明したが、上記因子分析(I)の初期設定に基づいて因子分析を行うプログラムであればこれに限らない。また、因子分析部113が、上記因子分析(I)の設定条件に基づいて、因子負荷行列及び因子得点行列を仮定し、技術要素対象語別文書ベクトル情報に基づいて変数の相関行列を求め、SMC法やMAX法を用いて共通性の推定を行い、主因子法や最小二乗法を用いて因子負荷量を算出し、算出した因子負荷量に基づいて上記対象因子を決定し、対象因子について因子軸を直交回転又は斜交回転させた因子負荷量を算出し、回転後の因子負荷量及び相関行列を用いて因子得点を算出することとしてもよい。
(19)また、上述した実施の形態3では、製品群キーワードと関係する各技術要素キーワードについて、当該製品群キーワードをクラスタとして帰属する特許文書データ件数を示す第1関係情報(図46(a))を出力するものとして説明したが、各製品群キーワードについて、当該製品群キーワードと各技術要素キーワードが関係するか否かを示す情報を出力することとしてもよい。この場合、例えば、関係する技術要素キーワードを1、関係しない技術要素キーワードを0にする等、数値や記号を用いて関係情報を表す。
(20)また、上述した実施の形態3では、第1関係情報及び第2関係情報を出力するものとして説明したが、ユーザの指定により第1関係情報又は第2関係情報を出力することとしてもよい。
(21)また、上述した実施の形態3では、第1関係情報を2次元で表し、第2関係情報を3次元で表すものとして説明したが、いずれの関係情報も2次元及び3次元で表すこととしてもよい。
(22)また、上述した実施の形態3における特許文書データテーブルは、日本国特許庁において出願された各特許出願データに含まれる一部の項目のデータを抽出したものであるが、全項目のデータであってもよい。
(23)また、上述した実施の形態3では、キーワード生成部が製品群キーワードを生成する際、クラスタの重心ベクトルと当該クラスタに属する特許文書データの文書ベクトルとの類似度の降順で所定順位以上の特許文書データに対応する製品群対象語を結合するものとして説明したが、例えば、類似度が所定値以上である特許文書データの製品群対象語を結合対象とするなど、クラスタとの類似度に応じて結合対象となる製品群対象語を決定してもよい。
(24)また、上述した実施の形態3では、因子分析部が各分析対象特許文書データの全請求項データにおける各技術要素対象語のTF値を当該分析対象特許文書データの全TF値合計で除算することにより各技術要素対象語の文書ベクトル成分を求めるものとして説明した。上記のように各分析対象特許文書データの全TF値合計で各TF値を除算する方法は、請求項データの文字数に応じて技術要素対象語の重みが異なることを考慮する場合、即ち、請求項データの文字数が多い特許文書データと少ない特許文書データとでは同じTF値でも重みが異なることを考慮する場合に有効な方法であるが、請求項データの文字数を考慮しない場合には、各技術要素対象語のTF値を文書ベクトルの成分として用いてもよい。
また、実施の形態3では、文書ベクトルの成分としてTF値を用いるものとして説明したが、各技術要素対象語の各TF値に全分析対象特許文書データにおける当該技術要素対象語のIDF値を乗算した値等、技術要素対象語の出現率を用いて技術要素対象語の文書ベクトルの成分を求めることとしてもよい。
In the present invention, the computer program or the digital signal may be transmitted via the Internet or an electric communication line such as a wireless or wired communication line.
(17) In the third embodiment described above, when determining whether the description format of each claim data of the claim data is a predetermined format, in the first character string “˜”, “and the second character string”. Although it has been described that it is determined whether or not the data of “characteristic” is included, for example, the first character string is “˜,” “,” and includes a reading mark such as “”. It may be a character string indicating a precondition, or when one claim data includes a plurality of first character strings, the same character string as the last character string in the claim data is If it is described immediately before the first character string described last in the claim data, the last first character string may be used as the determination criterion of the predetermined format.
(18) In the third embodiment described above, the factor analysis by the factor analysis unit 113 has been described as using statistical analysis software such as SPSS (registered trademark) or R. However, the initial setting of the factor analysis (I) is described above. If it is a program which performs factor analysis based on this, it will not be restricted to this. Further, the factor analysis unit 113 assumes a factor load matrix and a factor score matrix based on the setting conditions of the factor analysis (I), obtains a correlation matrix of variables based on the technical element target word-specific document vector information, Estimate commonality using the SMC method or MAX method, calculate the factor loading using the principal factor method or least squares method, determine the target factor based on the calculated factor loading, and It is also possible to calculate the factor load amount obtained by rotating the factor axis orthogonally or obliquely, and calculating the factor score using the factor load amount after the rotation and the correlation matrix.
(19) In the third embodiment described above, for each technical element keyword related to the product group keyword, the first relation information indicating the number of patent document data to which the product group keyword belongs as a cluster (FIG. 46 (a)). However, for each product group keyword, information indicating whether or not the product group keyword and each technical element keyword are related may be output. In this case, for example, the related technical element keyword is set to 1, and the unrelated technical element keyword is set to 0. For example, the related information is expressed using numerical values and symbols.
(20) In Embodiment 3 described above, the first relation information and the second relation information are output. However, the first relation information or the second relation information may be output according to the user's designation. Good.
(21) In Embodiment 3 described above, the first relationship information is represented in two dimensions, and the second relationship information is represented in three dimensions. However, any relationship information is represented in two dimensions and three dimensions. It is good as well.
(22) In addition, the patent document data table in the third embodiment described above is obtained by extracting data of some items included in each patent application data filed at the Japan Patent Office. It may be data.
(23) In the third embodiment described above, when the keyword generation unit generates the product group keyword, a predetermined rank or higher in descending order of the similarity between the centroid vector of the cluster and the document vector of the patent document data belonging to the cluster. The product group target words corresponding to the patent document data of the above are described as being combined. However, for example, the product group target words of the patent document data whose similarity is equal to or greater than a predetermined value are to be combined, and the similarity to the cluster Depending on the product group target words to be combined may be determined.
(24) In the third embodiment described above, the factor analysis unit calculates the TF value of each technical element target word in all the claim data of each analysis target patent document data as the total of all TF values of the analysis target patent document data. The description has been made assuming that the document vector component of each technical element target word is obtained by division. As described above, the method of dividing each TF value by the total of all TF values of each patent document data to be analyzed considers that the weight of the technical element target word is different depending on the number of characters of the claim data, that is, the request. This is an effective method when considering the fact that the weight of patent document data with a large number of characters in the term data is different from the weight of patent document data with a small number of patent documents data. You may use TF value of an element object word as a component of a document vector.
In the third embodiment, the TF value is used as the component of the document vector. However, each TF value of each technical element target word is multiplied by the IDF value of the technical element target word in all analysis target patent document data. The component of the document vector of the technical element target word may be obtained by using the appearance rate of the technical element target word such as the calculated value.

本発明に係る情報処理装置は、ある目的を達成する為に記載された工業、商業等の産業一般における技術論文や説明書等の文書データの解析や、ユーザが所望する文書の検索等に利用することができる。   The information processing apparatus according to the present invention is used to analyze document data such as technical papers and manuals in general industries such as industry and commerce, and to search for a document desired by a user, in order to achieve a certain purpose. can do.

Claims (27)

文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する情報処理装置であって、
前記文書データを記憶する記憶手段と、
前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成手段と、
前記特徴語生成手段が生成した前記第1特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力手段と
を備えることを特徴とする情報処理装置。
An information processing apparatus that performs morphological analysis processing on document data, detects morphemes in the document data, decomposes the document data into morpheme data, and analyzes the document data,
Storage means for storing the document data;
A feature word generating means for performing the morpheme analysis processing on the document data and generating a first feature word composed of the morpheme data based on a predetermined first rule;
An information processing apparatus comprising: an output unit configured to output information indicating a tendency of the document data using the first feature word generated by the feature word generation unit.
前記情報処理装置は、更に、
前記分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第1品詞情報を生成する品詞情報生成手段を備え、
前記特徴語生成手段は、前記第1品詞情報に所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記第1品詞情報の形態素データのうち、当該所定の格助詞より前に検出された形態素データである前方形態素データを用いて前記第1特徴語を生成すること
を特徴とする請求項1記載の情報処理装置。
The information processing apparatus further includes:
Part-of-speech information generation means for generating first part-of-speech information that associates each decomposed morpheme data, a predetermined part-of-speech corresponding to each piece of morpheme data, and detection rank information indicating the detection order of each piece of morpheme data;
In the case where the predetermined participle is included in the first part of speech information, the feature word generating unit includes, for each predetermined case particle, from the predetermined case particle out of the morpheme data of the first part of speech information. The information processing apparatus according to claim 1, wherein the first feature word is generated using forward morpheme data which is morpheme data detected before.
前記第1規則は、前記第1品詞情報における所定の格助詞毎の前記前方形態素データのうち、前記第1品詞情報において当該所定の格助詞の直前に検出された前方形態素データから、品詞が第1分類以外の品詞に属する前方形態素データが検出されるまでの各前方形態素データを検出順に結合すること
を特徴とする請求項2記載の情報処理装置。
The first rule is that, among the front morpheme data for each predetermined case particle in the first part-of-speech information, the part-of-speech is from the front morpheme data detected immediately before the predetermined case particle in the first part-of-speech information. The information processing apparatus according to claim 2, wherein the front morpheme data until the front morpheme data belonging to parts of speech other than one category are detected is combined in the order of detection.
前記第1分類は、名詞であること
を特徴とする請求項3記載の情報処理装置。
The information processing apparatus according to claim 3, wherein the first classification is a noun.
前記品詞情報生成手段は、前記分解された形態素データのうち、前記所定の品詞のいずれにも該当しない形態素データの品詞を未知語として前記品詞情報を生成し、
前記第1分類は、更に、前記未知語を含むこと
を特徴とする請求項4記載の情報処理装置。
The part-of-speech information generating means generates the part-of-speech information by using, as an unknown word, part-of-speech of morpheme data that does not correspond to any of the predetermined part-of-speech among the decomposed morpheme data,
The information processing apparatus according to claim 4, wherein the first classification further includes the unknown word.
前記第1分類は、更に、記号及び形容詞を含むこと
を特徴とする請求項5記載の情報処理装置。
The information processing apparatus according to claim 5, wherein the first classification further includes a symbol and an adjective.
前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
前記形態素解析処理は、前記特許請求の範囲データを処理対象とすること
を特徴とする請求項3記載の情報処理装置。
The document data is patent document data including claim scope data described as claims,
The information processing apparatus according to claim 3, wherein the morphological analysis process targets the range data of the claims.
前記出力手段は、前記第1特徴語を構成する前記形態素データの出現頻度に基づいて当該第1特徴語の出力順位を決定し、当該出力順位に応じた前記第1特徴語を出力することにより前記傾向を示す情報の出力処理を行う
ことを特徴とする請求項1記載の情報処理装置。
The output means determines an output rank of the first feature word based on the appearance frequency of the morpheme data constituting the first feature word, and outputs the first feature word according to the output rank The information processing apparatus according to claim 1, wherein an output process of information indicating the tendency is performed.
前記情報処理装置は、更に、
前記特許請求の範囲データの記載形式が所定形式に合致しているか否か判断し、所定形式に合致していると判断した場合に、当該特許請求の範囲データにおいて、前記所定形式により予め定められた所定データで挟まれた範囲のデータを前記形態素解析処理対象として特定する特定手段を備えること
を特徴とする請求項8記載の情報処理装置。
The information processing apparatus further includes:
It is determined whether or not the description format of the claim range data matches a predetermined format, and when it is determined that the description format matches the predetermined format, the claim format data is predetermined by the predetermined format. The information processing apparatus according to claim 8, further comprising: a specifying unit that specifies data in a range between the predetermined data as the morpheme analysis processing target.
前記特許文書データは、複数の特許文書データであり、各特許文書データには、更に、当該文書の課題として複数の文字列データからなる課題情報が含まれており、
前記情報処理装置は、更に、
前記複数の特許文書データを、各特許文書データの課題情報に基づいて、クラスタに分類するクラスタ分類手段を備え、
前記特徴語生成手段は、更に、前記所定の格助詞の前方形態素データのうち、 品詞が前記第1分類に属する前方形態素データを前記複数の文書データの特許請求の範囲データ群における解決語候補対象データとして抽出し、当該各解決語候補対象データの前記複数の特許文書データにおける出現頻度を算出し、算出した出現頻度の降順で所定順位以上の解決語候補対象データを解決語として抽出する解決語抽出手段と、
前記各解決語の前記各クラスタにおける出現頻度を算出する解決語出現頻度算出手段とを備え、
前記第1特徴語は、前記解決語を含み、且つ、前記解決語を含んで結合されたもののうち、前記複数の特許文書データにおける出現頻度が所定の基準を満たすものであり、
前記第1特徴語を構成する前記形態素データの出現頻度は、当該第1特徴語に含まれる前記解決語の前記解決語抽出手段により算出された出現頻度であり、
前記出力手段は、更に、前記第1特徴語に対応する前記解決語と、前記解決語出現頻度算出手段により算出された当該解決語の出現頻度とをクラスタ毎に出力すること
を特徴とする請求項8記載の情報処理装置。
The patent document data is a plurality of patent document data, and each patent document data further includes problem information including a plurality of character string data as a problem of the document,
The information processing apparatus further includes:
Cluster classification means for classifying the plurality of patent document data into clusters based on problem information of each patent document data,
The feature word generation means further includes, among the front morpheme data of the predetermined case particle, the front morpheme data whose part of speech belongs to the first classification is a solution word candidate target in the claim data group of the plurality of document data A solution word that is extracted as data, calculates the appearance frequency of each of the solution word candidate target data in the plurality of patent document data, and extracts the solution word candidate target data having a predetermined rank or higher in descending order of the calculated appearance frequency as the solution word Extraction means;
A solution word appearance frequency calculating means for calculating an appearance frequency of each solution word in each cluster;
The first feature word includes the solution word, and among the combinations including the solution word, the appearance frequency in the plurality of patent document data satisfies a predetermined criterion,
The appearance frequency of the morpheme data constituting the first feature word is an appearance frequency calculated by the solution word extraction unit of the solution word included in the first feature word,
The output means further outputs the solution word corresponding to the first feature word and the appearance frequency of the solution word calculated by the solution word appearance frequency calculation means for each cluster. Item 9. The information processing apparatus according to Item 8.
前記情報処理装置は、更に、前記各課題情報について形態素解析処理を行い、
前記品詞情報生成手段は、更に、前記課題情報についての形態素解析処理によって分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第2品詞情報を生成し、
前記クラスタ分類手段は、前記第2品詞情報の形態素データのうち、品詞が前記第1分類に属する形態素データについて各特許文書データにおける出現頻度を算出し、算出した各出現頻度を要素として各文書データの文書ベクトルを生成し、文書ベクトル間の類似度を算出して前記複数の特許文書データをクラスタに分類し、
更に、前記品詞が第1分類に属する各形態素データの各特許文書データにおける検出順位を前記第2品詞情報に基づいて特定し、特定した検出順位が連続する各形態素データを結合させて結合形態素データを生成し、生成した各結合形態素データの各クラスタにおける出現頻度を算出し、当該出現頻度の降順で所定順位以上の各結合形態素データを、当該クラスタを示す課題語として抽出する課題語抽出手段を備え、
前記出力手段は、更に、前記各クラスタを示す前記各課題語を出力すること
を特徴とする請求項10記載の情報処理装置。
The information processing apparatus further performs a morphological analysis process on each piece of task information,
The part-of-speech information generation means further includes each morpheme data decomposed by morpheme analysis processing on the task information, a predetermined part-of-speech corresponding to each morpheme data, and detection order information indicating a detection order of each morpheme data. Generate second part-of-speech information
The cluster classification means calculates an appearance frequency in each patent document data for morpheme data in which the part of speech belongs to the first classification among the morpheme data of the second part of speech information, and each document data with each calculated appearance frequency as an element A plurality of patent document data is classified into clusters by calculating a similarity between the document vectors,
Furthermore, the detection order in each patent document data of each morpheme data in which the part of speech belongs to the first classification is specified based on the second part of speech information, and the combined morpheme data by combining the morpheme data having the specified detection order continues A task word extracting means for calculating the appearance frequency in each cluster of each generated combined morpheme data, and extracting each combined morpheme data in a descending order of the appearance frequency as a task word indicating the cluster. Prepared,
The information processing apparatus according to claim 10, wherein the output unit further outputs the task words indicating the clusters.
前記出力手段は、前記各課題語と、前記各解決語及び当該解決語に対応する前記第1特徴語の組とを、マトリクスの各行及び各列のいずれかに表し、前記マトリクスの各要素として、当該要素を構成する前記行及び列が示す課題語及び解決語に対応する前記解決語の出現頻度の値を表すこと
を特徴とする請求項11記載の情報処理装置。
The output means represents each task word and each solution word and the set of the first characteristic words corresponding to the solution word in each row and each column of the matrix, and as each element of the matrix The information processing apparatus according to claim 11, wherein a value of an appearance frequency of the solution word corresponding to the task word and the solution word indicated by the row and the column configuring the element is represented.
前記出力手段は、更に、
前記クラスタ分類手段により生成された各文書データの前記文書ベクトルを用いて、当該クラスタの文書ベクトルを示すクラスタ文書ベクトルを生成し、各クラスタのクラスタ文書ベクトルを用いて、各クラスタ間の距離を算出することにより、クラスタ間の類似度を求めるクラスタ間類似度算出手段と、
前記解決語頻度算出手段により算出された各解決語についての前記出現頻度の値を要素として各解決語のベクトルを生成し、当該各解決語のベクトルを用いて、各解決語間の距離を算出して解決語間の類似度を求める解決語間類似度算出手段と、
前記クラスタ間類似度算出手段及び前記解決語間類似度算出手段により算出された各類似度について、類似度が最大の組合せを各々抽出し、抽出した前記クラスタと前記解決語の各々の組に含まれる各要素を基準要素とするクラスタ及び解決語の各基準連結の組を各々生成し、基準連結の基準要素を起点とする2つの連結方向の一方の前記連結方向を、クラスタ及び解決語の基準連結の各組の一方の基準連結に設定し、他方の前記連結方向を当該組の他方の基準連結に設定し、クラスタ及び解決語の前記各類似度の降順でクラスタの組及び解決語の組を各々順次選択し、所定条件に従って、選択した各組合せの要素を前記各基準連結に連結させる連結処理を各々行い、当該各連結処理結果に従って全ての前記クラスタ及び前記解決語の出力順を決定する出力順決定手段とを備え、
前記所定の条件は、第1条件と第2条件を含み、前記第1条件は、前記選択したクラスタ及び解決語の各組合せにおいて、当該組合せに含まれる一方の要素がいずれかの基準連結に連結済であることであり、前記第2条件は、当該組合せに含まれる要素のいずれも未連結であることであり、
前記連結処理は、前記選択した組合せのいずれか一方の要素が、第1条件を満たす場合に、当該第1条件を満たす連結済の要素を含む基準連結において設定された連結方向に当該組合せの未連結の要素を連結させる第1連結処理と、前記選択した組合せの各要素が前記第2条件を満たす場合に、当該組合せの各要素を新たな基準要素として新たな基準連結の組を生成する第2連結処理と、前記各基準連結に連結された各々の要素数に応じて各組の基準連結同士を連結させ、連結された各組の基準連結を所定規則に基づいて連結させる第3連結処理とを含み、
前記出力は、前記出力順決定手段によって決定された各クラスタ及び各解決語の出力順に従い、前記マトリクスの各行及び各列に、各課題語と、各解決語及び当該解決語に対応する第1特徴語の組とを表すことにより行うこと
を特徴とする請求項12記載の情報処理装置。
The output means further includes:
A cluster document vector indicating the document vector of the cluster is generated using the document vector of each document data generated by the cluster classification means, and a distance between the clusters is calculated using the cluster document vector of each cluster. By doing so, an inter-cluster similarity calculation means for obtaining the similarity between the clusters,
A vector of each solution word is generated using the value of the appearance frequency for each solution word calculated by the solution word frequency calculation means as an element, and a distance between each solution word is calculated using the vector of each solution word And a means for calculating the similarity between the solutions to obtain the similarity between the solutions,
For each similarity calculated by the inter-cluster similarity calculation means and the inter-solution similarity calculation means, a combination having the maximum similarity is extracted and included in each of the extracted cluster and solution word pairs. Each set of reference concatenations of clusters and solution words with each element as a reference element is generated, and one of the two connection directions starting from the reference element of the reference connection is defined as the reference of the cluster and the solution word. Set one reference connection of each set of connections, set the other connection direction to the other reference connection of the set, and set the cluster set and solution set in descending order of the respective similarities of the cluster and solution Are sequentially selected, and according to a predetermined condition, each of the selected combination elements is connected to each of the reference connections, and according to the result of each connection process, all the clusters and the output order of the solution words are performed. And an output order determining means for determining,
The predetermined condition includes a first condition and a second condition. In the first condition, in each combination of the selected cluster and the solution word, one element included in the combination is connected to any reference connection. The second condition is that any of the elements included in the combination is unconnected,
In the connection process, when any one element of the selected combination satisfies the first condition, the combination process is not performed in the connection direction set in the reference connection including the connected elements satisfying the first condition. A first connection process for connecting the elements of the connection, and when each element of the selected combination satisfies the second condition, a first reference connection set is generated using each element of the combination as a new reference element 2 connection process and a third connection process for connecting the reference connections of each set according to the number of elements connected to each of the reference connections and connecting the connected reference connections of each set based on a predetermined rule Including
The output is in accordance with the output order of each cluster and each solution word determined by the output order determining means, each task word, each solution word, and each solution word corresponding to the first word corresponding to each row and each column of the matrix. The information processing apparatus according to claim 12, wherein the information processing apparatus is performed by representing a set of feature words.
前記特徴語生成手段は、更に、前記第1品詞情報に前記所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記各所定の格助詞の間に検出された形態素データのうち、当該所定の格助詞より後に検出された形態素データである後方形態素データからなる前記第1特徴語に対応する第2特徴語を、第2規則に基づいて生成し、
前記出力手段は、前記第1特徴語と共に、当該第1特徴語に対応する前記第2特徴語を出力すること
を特徴とする請求項8記載の情報処理装置。
The feature word generation means further includes, for each predetermined case particle, morpheme data detected between the predetermined case particles when the first part of speech information includes the predetermined case particle. A second feature word corresponding to the first feature word composed of backward morpheme data that is morpheme data detected after the predetermined case particle is generated based on the second rule,
The information processing apparatus according to claim 8, wherein the output unit outputs the second feature word corresponding to the first feature word together with the first feature word.
前記第2規則は、前記所定の格助詞毎の前記後方形態素データのうち、当該所定の格助詞の直後に検出された後方形態素データから、品詞が第2分類以外の品詞に属する後方形態素データが検出されるまでの各後方形態素データを検出順に結合すること
を特徴とする請求項14記載の情報処理装置。
The second rule is that, of the backward morpheme data for each predetermined case particle, backward morpheme data whose part of speech belongs to a part of speech other than the second category is determined from the backward morpheme data detected immediately after the predetermined case particle. The information processing apparatus according to claim 14, wherein the backward morpheme data until detection is combined in the order of detection.
前記第2分類は、名詞及び動詞であること
を特徴とする請求項15記載の情報処理装置。
The information processing apparatus according to claim 15, wherein the second classification is a noun and a verb.
前記文書データは、複数の文書データであり、
前記出力手段は、更に、前記複数の各文書データの前方形態素データ毎に、前記複数の文書データにおける出現頻度を算出する出現頻度算出手段を備え、
前記第1特徴語を構成する前記形態素データの出現頻度は、当該第1特徴語を構成する各前方形態素データの前記出現頻度算出手段により算出された出現頻度であり、
前記各文書データの前記第1特徴語及び当該第1特徴語に対応する第2特徴語の出力は、各第1特徴語の前方形態素データの出現頻度の大きさの順に従って行うこと
を特徴とする請求項14記載の情報処理装置。
The document data is a plurality of document data,
The output means further includes an appearance frequency calculating means for calculating an appearance frequency in the plurality of document data for each front morpheme data of the plurality of document data.
The appearance frequency of the morpheme data constituting the first feature word is an appearance frequency calculated by the appearance frequency calculation means of each front morpheme data constituting the first feature word,
The output of the first feature word of each document data and the second feature word corresponding to the first feature word is performed in the order of the appearance frequency of the front morpheme data of each first feature word. The information processing apparatus according to claim 14.
前記情報処理装置は、更に、
前記複数の文書データの各前方形態素データのうち、前記第1特徴語を構成する前方形態素データについて、各文書データにおける出現頻度を算出し、当該算出した出現頻度の値を要素とする文書ベクトルを生成し、当該各文書ベクトルを用いて、前記複数の各文書データ間の類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された各類似度について、類似度が最大の組合せを各々抽出し、抽出した各組に含まれる各文書データを各基準文書データとする各基準連結の組を生成し、基準連結の基準文書データを起点とする2つの連結方向の一方の前記連結方向を、基準連結の組の一方の基準連結に設定し、他方の前記連結方向を当該組の他方の基準連結に設定し、前記類似度の降順で文書データの組を順次選択し、所定条件に従って、選択した各組の文書データを前記各基準連結に連結させる連結処理を行い、当該各連結処理結果に従って全ての前記文書データの出力順を決定する決定手段とを備え、
前記所定の条件は、第1条件と第2条件を含み、前記第1条件は、前記各組合せの各文書データについて、当該一方の文書データがいずれかの基準連結に連結済であることであり、前記第2条件は、いずれの文書データも未連結であることであり、
前記連結処理は、前記選択した組合せのいずれか一方の文書データが、第1条件を満たす場合に、当該第1条件を満たす連結済の文書データを含む基準連結において設定された連結方向に当該組合せの未連結の文書データを連結させる第1連結処理と、前記選択した組合せの両方の文書データが前記第2条件を満たす場合に、当該両方の文書データを新たな基準文書データとして新たな基準連結の組を生成する第2連結処理と、前記各基準連結に連結された各文書データ数に応じて各組の基準連結同士を連結させ、連結された各組の基準連結を所定規則に基づいて連結させる第3連結処理とを含み、
前記出力手段は、前記決定手段により決定された各文書データの順位に従い、前記各文書データの前記第1特徴語及び前記第2特徴語を、文書データ毎に出力すること
を特徴とする請求項17記載の情報処理装置。
The information processing apparatus further includes:
Of the front morpheme data of the plurality of document data, for the front morpheme data constituting the first feature word, the appearance frequency in each document data is calculated, and a document vector having the calculated appearance frequency value as an element is calculated. A similarity calculating means for generating and calculating a similarity between each of the plurality of document data using each document vector;
For each similarity calculated by the similarity calculation means, a combination having the maximum similarity is extracted, and a set of each reference link is generated using each document data included in each extracted set as each reference document data. The connection direction of one of the two connection directions starting from the reference document data of the reference connection is set as one reference connection of the reference connection set, and the other connection direction is set as the other reference connection of the set. Set, sequentially select a set of document data in descending order of similarity, perform a connection process to connect each selected set of document data to each reference connection according to a predetermined condition, Determining means for determining the output order of the document data;
The predetermined condition includes a first condition and a second condition, and the first condition is that, for each document data of each combination, the one document data is already connected to any one of the standard connections. The second condition is that any document data is unlinked,
The concatenation process is performed when the document data of any one of the selected combinations satisfies the first condition, and the combination is set in the concatenation direction set in the standard concatenation including the connected document data satisfying the first condition. When both document data of the selected combination and the selected combination satisfy the second condition, a new reference connection is made using both document data as new reference document data. A second connection process for generating a set of the above, and connecting the reference links of each set according to the number of each document data connected to each of the reference links, the reference link of each connected group based on a predetermined rule Including a third connection process to be connected,
The output means outputs the first feature word and the second feature word of each document data for each document data according to the order of each document data determined by the determination means. The information processing apparatus according to 17.
文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する文書分析方法であって、
所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成ステップと、
前記第1特徴語を構成する前記形態素データの出現頻度に基づいて当該第1特徴語の出力順位を決定し、当該出力順位に応じた第1特徴語の出力を行う出力ステップと
を備えることを特徴とする文書分析方法。
A document analysis method for performing morphological analysis processing on document data, detecting morphemes in the document data, decomposing the document data into morpheme data, and analyzing the document data,
A feature word generation step of generating a first feature word composed of the morpheme data based on a predetermined first rule;
An output step of determining an output rank of the first feature word based on an appearance frequency of the morpheme data constituting the first feature word, and outputting the first feature word according to the output rank. Characteristic document analysis method.
CPUを備える情報処理装置に実行させるプログラムであって、
文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解するステップと、
所定の第1規則に基づいて、前記形態素データからなる第1特徴語を生成する特徴語生成ステップと、
前記第1特徴語を構成する前記形態素データの出現頻度に基づいて当該第1特徴語の出力順位を決定し、当該出力順位に応じた第1特徴語の出力を行う出力ステップと
を備えることを特徴とするプログラム。
A program to be executed by an information processing apparatus including a CPU,
Performing morpheme analysis on the document data, detecting morphemes in the document data, and decomposing the document data into morpheme data;
A feature word generation step of generating a first feature word composed of the morpheme data based on a predetermined first rule;
An output step of determining an output rank of the first feature word based on an appearance frequency of the morpheme data constituting the first feature word, and outputting the first feature word according to the output rank. A featured program.
前記記憶手段は、複数の前記特許文書データを記憶しており、
前記特徴語生成手段は、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第1所定部分の前記形態素データを用いて前記第1特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第2所定部分の前記形態素データを用いて第3特徴語を生成し、
前記情報処理装置は、更に、
前記各第3特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第1出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第3特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定手段と、
前記各第1特徴語の前記複数の特許文書データにおける第2出現頻度に基づいて前記各特許文書データの文書ベクトルを生成し、前記各文書ベクトルを用いて前記各第1特徴語を観測変数とする因子分析を行い、前記各第1特徴語の因子負荷量と前記各特許文書データの因子得点を算出する因子分析手段と、
前記因子負荷量に基づいて前記各第1特徴語の因子を特定し、前記因子得点に基づいて前記各特許文書データの因子を特定する因子特定手段と、
前記因子特定手段により特定された前記各因子に対応する前記第1特徴語を用いて当該因子を示す技術要素キーワードを生成し、前記クラスタ特定手段により特定された各クラスタに属する前記特許文書データの前記第3特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成手段とを備え、
前記出力手段は、前記複数の特許文書データの傾向を表す情報として、前記因子特定手段により特定された各特許文書データの因子に基づき、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力する
ことを特徴とする請求項7記載の情報処理装置。
The storage means stores a plurality of the patent document data,
The feature word generation means uses the morpheme data of a first predetermined portion including a character string indicating a technical feature constituting the invention of each patent document data in the claim data of each patent document data. A third feature is generated by generating the first feature word and using the morpheme data of a second predetermined portion including a character string indicating an object of invention of the patent document data in the claim data of each patent document data. Generate words,
The information processing apparatus further includes:
The plurality of patent document data is clustered using first appearance frequencies in the plurality of patent document data of the morpheme data included in the third feature words, and the patent documents corresponding to the third feature words Cluster identification means for identifying the cluster to which the data belongs;
A document vector of each patent document data is generated based on a second appearance frequency in the plurality of patent document data of each first feature word, and each first feature word is defined as an observation variable using each document vector. Factor analysis means for performing factor analysis to calculate the factor loading of each first feature word and the factor score of each patent document data;
Factor identifying means for identifying the factor of each first feature word based on the factor loading, and for identifying the factor of each patent document data based on the factor score;
A technical element keyword indicating the factor is generated using the first feature word corresponding to each factor identified by the factor identifying unit, and the patent document data belonging to each cluster identified by the cluster identifying unit Keyword generating means for generating a product group keyword indicating the cluster using the third feature word;
The output means, as information representing the tendency of the plurality of patent document data, based on the factor of each patent document data specified by the factor specifying means, the relationship between each technical element keyword and each product group keyword The information processing apparatus according to claim 7, wherein the relationship information is output.
前記特許請求の範囲データは、請求項毎の請求項データを含み、
前記特徴語生成手段は、前記第1特徴語を生成する場合には、前記特許文書データの前記特許請求の範囲データにおける各請求項データの前記第1所定部分の前記形態素データを用い、前記第3特徴語を生成する場合には、前記各特許文書データの前記特許請求の範囲データにおける所定の請求項データの前記第2所定部分の前記形態素データを用いること
を特徴とする請求項21記載の情報処理装置。
The claim data includes claim data for each claim,
When generating the first feature word, the feature word generation means uses the morpheme data of the first predetermined portion of each claim data in the claim data of the patent document data, and 22. The morpheme data of the second predetermined portion of the predetermined claim data in the claim data of each patent document data is used when generating three characteristic words. Information processing device.
前記因子特定手段は、前記因子分析手段により算出された前記各第1特徴語の前記因子負荷量が第1閾値以上である因子を当該第1特徴語の因子として特定し、前記因子分析手段により算出された前記各特許文書データの前記因子得点が第2閾値以上である因子を当該特許文書データの因子として特定すること
を特徴とする請求項21記載の情報処理装置。
The factor specifying means specifies, as the factor of the first feature word, a factor for which the factor loading amount of each first feature word calculated by the factor analyzing means is equal to or greater than a first threshold, and the factor analyzing means The information processing apparatus according to claim 21, wherein a factor having the calculated factor score of each patent document data equal to or greater than a second threshold is specified as a factor of the patent document data.
前記クラスタ特定手段による前記クラスタリングは、前記第2所定部分の各形態素データの前記各第3特徴語における第3出現頻度に基づいて前記各第3特徴語の文書ベクトルを生成し、前記各第3特徴語の前記複数の特許文書データにおける第4出現頻度が所定値以上の前記第3特徴語の前記文書ベクトル間の類似度を算出し、当該類似度に応じてクラスタを抽出する処理と、前記第4出現頻度が前記所定値より小さい前記第3特徴語と前記クラスタとの間の類似度を算出し、当該類似度に応じて当該第3特徴語の特許文書データを当該クラスタに含ませる処理とを含むこと
を特徴とする請求項21記載の情報処理装置。
The clustering by the cluster specifying means generates a document vector of each third feature word based on a third appearance frequency in each third feature word of each morpheme data of the second predetermined portion, and each third Calculating a similarity between the document vectors of the third feature word having a fourth appearance frequency of the feature word in the plurality of patent document data equal to or higher than a predetermined value, and extracting a cluster according to the similarity; A process of calculating a similarity between the third feature word and the cluster having a fourth appearance frequency smaller than the predetermined value, and including the patent document data of the third feature word in the cluster according to the similarity The information processing apparatus according to claim 21, further comprising:
前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第1特徴語のうち、当該因子の前記因子負荷量が第3閾値以上である前記第1特徴語を結合することにより前記技術要素キーワードを生成し、前記クラスタ特定手段により抽出されたクラスタ毎に、当該クラスタの重心ベクトルと当該クラスタに属する特許文書データの前記第3特徴語の前記文書ベクトルとの類似度を算出し、当該類似度に応じて当該クラスタに属する前記特許文書データの前記第3特徴語を結合させることにより前記製品群キーワードを生成すること
を特徴とする請求項21記載の情報処理装置。
The keyword generating unit combines the first feature words having the factor loading amount of the factor equal to or greater than a third threshold among the first feature words corresponding to the factors specified by the factor specifying unit. For each cluster extracted by the cluster specifying means, the technical element keyword is generated, and the similarity between the centroid vector of the cluster and the document vector of the third feature word of the patent document data belonging to the cluster is calculated. The information processing apparatus according to claim 21, wherein the product group keyword is generated by calculating and combining the third feature words of the patent document data belonging to the cluster according to the similarity.
前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記特許文書データの前記因子毎の件数を計数し、前記関係情報として、前記各製品群キーワードの前記因子毎の件数と当該因子を示す技術要素キーワードとを対応付けた情報を出力すること
を特徴とする請求項21記載の情報処理装置。
The output means counts, for each product group keyword, the number of cases for each factor of the patent document data belonging to the cluster corresponding to the product group keyword, and uses the factor of each product group keyword as the relation information. The information processing apparatus according to claim 21, wherein information associating the number of cases with a technical element keyword indicating the factor is output.
前記記憶手段は、更に、前記各複数の特許文書データに対応する評価値を記憶しており、
前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記各特許文書データの前記評価値を前記因子毎に集計し、前記関係情報として、前記各製品群キーワードの前記因子毎の評価値の集計結果と当該因子を示す技術要素キーワードとを対応付けた情報を出力すること
を特徴とする請求項21記載の情報処理装置。
The storage means further stores evaluation values corresponding to the plurality of patent document data,
The output means, for each product group keyword, aggregates the evaluation values of the patent document data belonging to the cluster corresponding to the product group keyword for each factor, and uses the product group keyword as the relation information. The information processing apparatus according to claim 21, further comprising: outputting information in which evaluation results for each factor are associated with a technical element keyword indicating the factor.
JP2009520467A 2007-06-22 2008-06-13 Information processing apparatus, program, and information processing method Withdrawn JPWO2009001696A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007165693 2007-06-22
JP2007165693 2007-06-22
PCT/JP2008/060916 WO2009001696A1 (en) 2007-06-22 2008-06-13 Information processing device, program and information processing method

Publications (1)

Publication Number Publication Date
JPWO2009001696A1 true JPWO2009001696A1 (en) 2010-08-26

Family

ID=40185515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009520467A Withdrawn JPWO2009001696A1 (en) 2007-06-22 2008-06-13 Information processing apparatus, program, and information processing method

Country Status (2)

Country Link
JP (1) JPWO2009001696A1 (en)
WO (1) WO2009001696A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
CN102541862B (en) 2010-12-14 2014-05-07 阿里巴巴集团控股有限公司 Cross-website information display method and system
JP6023254B1 (en) * 2015-04-09 2016-11-09 真之 正林 Information processing apparatus and method, and program
JP6734174B2 (en) * 2016-10-06 2020-08-05 真之 正林 Information processing equipment
JP7178388B2 (en) * 2020-07-09 2022-11-25 真之 正林 Information processing device and method, and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034630A (en) * 1999-07-22 2001-02-09 Fujitsu Ltd System and method for document base retrieval
JP2007148630A (en) * 2005-11-25 2007-06-14 Nec Corp Patent analyzing device, patent analyzing system, patent analyzing method and program
WO2007069408A1 (en) * 2005-12-13 2007-06-21 Intellectual Property Bank Corp. Technical document attribute association analysis supporting apparatus

Also Published As

Publication number Publication date
WO2009001696A1 (en) 2008-12-31

Similar Documents

Publication Publication Date Title
Burger et al. Discriminating gender on Twitter
US9460195B1 (en) System and methods for determining term importance, search relevance, and content summarization
US10565313B2 (en) Automatic semantic rating and abstraction of literature
Luyckx et al. The effect of author set size and data size in authorship attribution
Zhang et al. Mining millions of reviews: a technique to rank products based on importance of reviews
Paltoglou et al. A study of information retrieval weighting schemes for sentiment analysis
WO2009150758A1 (en) Information processing device, program and information processing method
Carenini et al. Extracting knowledge from evaluative text
US8495042B2 (en) Information extraction apparatus and methods
Zhou et al. Exploring various knowledge in relation extraction
US8594998B2 (en) Multilingual sentence extractor
JP4600045B2 (en) Opinion extraction learning device and opinion extraction classification device
JPWO2009001696A1 (en) Information processing apparatus, program, and information processing method
CN105701076B (en) A kind of paper plagiarizes detection method and system
JP3820878B2 (en) Information search device, score determination device, information search method, score determination method, and program recording medium
Islamaj et al. PubMed Text Similarity Model and its application to curation efforts in the Conserved Domain Database
CN105701086B (en) A kind of sliding window document detection method and system
Bouadjenek et al. Literature consistency of bioinformatics sequence databases is effective for assessing record quality
JP5599073B2 (en) Kansei analysis system and program
JP2008217064A (en) Request extraction apparatus, method and program
JPWO2008053949A1 (en) Document group analyzer
Shamir UDAT: Compound quantitative analysis of text using machine learning
Wladislav et al. Sentilyzer: Aspect-oriented sentiment analysis of product reviews
Marcińczuk et al. Inforex—a collaborative systemfor text corpora annotation and analysis goes open
Veselovská Sentence-level sentiment analysis in Czech

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110906