WO2021125252A1 - 情報処理装置、読解支援方法およびプログラム - Google Patents
情報処理装置、読解支援方法およびプログラム Download PDFInfo
- Publication number
- WO2021125252A1 WO2021125252A1 PCT/JP2020/047078 JP2020047078W WO2021125252A1 WO 2021125252 A1 WO2021125252 A1 WO 2021125252A1 JP 2020047078 W JP2020047078 W JP 2020047078W WO 2021125252 A1 WO2021125252 A1 WO 2021125252A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- text
- display
- indicating
- patent document
- information processing
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims description 18
- 239000000470 constituent Substances 0.000 claims abstract description 66
- 238000004458 analytical method Methods 0.000 claims description 117
- 238000011156 evaluation Methods 0.000 claims description 72
- 230000001419 dependent effect Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 6
- 239000010410 layer Substances 0.000 description 23
- 238000000605 extraction Methods 0.000 description 20
- 239000000284 extract Substances 0.000 description 15
- 239000012634 fragment Substances 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000011247 coating layer Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Definitions
- the present invention relates to an information processing device, a reading comprehension support method, and a program.
- Patent Document 1 discloses a device that outputs a diagram showing a relationship between an element indicated by a character string designated from the description of the claims and an element lower than the element.
- Patent Document 2 discloses a device that divides the description of the claims into clauses and generates information in which the relationship between the divided description fragments is structured.
- Patent Document 1 or Patent Document 2 cannot grasp the description of the scope of claims at a glance when reading a large amount of patent documents, and lacks the speed of reading.
- Patent Document 1 divides the description of the claims into a plurality of elements according to a set rule, and analyzes the structure of the description of the claims by extracting the relationship between the divided elements. , Accepts the designation of the character string included in the claims, extracts the structural information corresponding to the specified character string from the structural information of the document obtained by the structural analysis, extracts the information, and extracts the extracted structural information. Supports reading by graphically outputting.
- Patent Document 2 is a claim structure information generator that generates claim structure information indicating a description fragment in which the text of the claim is separated and the structure of the description fragment, and is a text of the claims.
- a storage unit for storing the claims information a morphological analysis unit for morphologically analyzing the claims information, a clause specifying unit for specifying the demarcation position of the clauses of the claims information, and a delimiter for the description fragment.
- the surface delimiter information storage unit that stores two or more surface delimiter information having a surface clue information indicating the relationship between the description fragments and a token corresponding to the surface clue information, and the hand of the surface layer in the claims information.
- a token giving part that grants a token corresponding to the clue information on the surface layer to a position corresponding to the overhang information, a clue information of the part of the phrase that separates the description fragment, and a delimiter clause type corresponding to the clue information of the part.
- the clause type correspondence information storage unit that stores two or more clause type correspondence information, and the clause that corresponds to the clue information of the part of the claim, is given the delimiter clause type corresponding to the clue information of the part of the word.
- the structure of the description fragment of the claims information is shown by using the type granting unit, the token given to the claims information, and the delimited clause type according to a predetermined rule indicating the structure of the claims.
- Patent Document 1 or Patent Document 2 is suitable for the purpose of deeply reading the disclosed contents of one patent document, but for the purpose of improving the readability of the description of the claims. Because it is not specialized, it is not suitable for the purpose of reading the description of the claims sufficiently quickly and accurately when it is necessary to read a large amount of patent documents.
- the present invention has been made to solve this in view of the above circumstances, and an object of the present invention is to support quick and accurate reading of the description of the claims.
- the present invention has the following configurations.
- An analysis unit that analyzes text data indicating the scope of claims included in the patent document data and specifies the constituent requirements of the invention for each claim included in the claims.
- a display control unit for displaying a text indicating each claim in the claims on a display device by dividing the text according to the constituent requirements is provided.
- Information processing device Information processing device.
- the analysis unit further identifies important words indicating important terms from the text data indicating the scope of claims.
- the display control unit emphasizes the text indicating the important word in the text indicating each claim in the claims and causes the display device to display the text.
- the information processing device according to [1].
- the analysis unit further analyzes the text data indicating the specification included in the patent document data, and is a term used in the description of the invention in the specification, which precedes the description within the scope of the claims. Further identify new words that indicate terms without
- the display control unit emphasizes the text indicating the new word in the text indicating each claim in the claims and causes the display device to display the text.
- the information processing device according to [1] or [2].
- An operation reception unit that receives input of evaluation results by the user regarding the patent document data, and An evaluation registration unit for registering the evaluation result in association with the patent document data is further provided.
- the display control unit causes the display device to display the evaluation result.
- the information processing device according to any one of [1] to [3].
- the display control unit displays the patent document data analyzed by the analysis unit and the evaluation result registered in the evaluation registration unit on a device used by a plurality of users.
- the information processing device according to [4].
- the display control unit graphically displays the divided constituent requirements as a structural diagram.
- the information processing device according to any one of [1] to [5].
- the text data indicating the scope of claims included in the patent document data is analyzed, and the constituent requirements of the invention are specified for each claim included in the claims.
- the text indicating each claim in the claims is divided and displayed according to the constituent requirements. Reading comprehension support method.
- On the computer A step of analyzing text data indicating the scope of claims included in the patent document data and identifying the constituent requirements of the invention for each claim included in the claims.
- the display control unit switches between a display including the text indicating each claim in the claims and a display not including the text according to the operation of the user, and causes the display device to display the display.
- the information processing device according to [9] or [10].
- An operation reception unit that receives input of evaluation results by the user regarding the patent document data, and An evaluation registration unit for registering the evaluation result in association with the patent document data is further provided.
- the display control unit causes the display device to display the evaluation result.
- the information processing device according to any one of [9] to [11].
- the display control unit displays the patent document data analyzed by the analysis unit and the evaluation result registered in the evaluation registration unit on a device used by a plurality of users.
- the information processing device according to [12].
- the analysis unit selects the text indicating the subject from the text data indicating the claim.
- the information processing device according to any one of [9] to [13].
- the analysis unit selects a phrase having a length that uniquely represents the invention and is easy for the user to identify the invention from the text data indicating the claims.
- the text indicating the subject The information processing device according to any one of [9] to [13].
- the text data indicating the scope of claims included in the patent document data is analyzed, and the subject of the invention is specified for each claim included in the claims.
- the text indicating the subject and the number of the claim are displayed in association with each other. Reading comprehension support method.
- the display control unit further displays the text indicating the subject and the number of the claim on the display device in association with each other.
- the information processing device according to [18].
- the analysis unit further specifies the constituent requirements of the invention for each claim included in the claims.
- the display control unit divides the text indicating each claim in the claims into the constituent requirements and causes the display device to further display the text.
- the information processing apparatus according to [18] or [19].
- the analysis unit further specifies the constituent requirements of the invention for each claim included in the claims.
- the display control unit is based on the identified dependency relationship. With respect to the independent claims, the text indicating each claim in the claims is divided and displayed for each of the constituent requirements.
- the text indicating the subject and the number of the claim are displayed in association with each other, and the text indicating each claim of the claims divided according to the constituent requirements is displayed.
- a display format or a split display format that does not display text indicating each claim in the claims is selected, and the display device is displayed in the selected display format.
- the information processing device according to [19].
- An operation reception unit that receives input of evaluation results by the user regarding the patent document data, and An evaluation registration unit for registering the evaluation result in association with the patent document data is further provided.
- the display control unit causes the display device to display the evaluation result.
- the information processing device according to any one of [18] to [21].
- the display control unit displays the patent document data analyzed by the analysis unit and the evaluation result registered in the evaluation registration unit on a device used by a plurality of users.
- the information processing device according to [22].
- the analysis unit classifies the unknown claim of the dependency into an independent claim.
- the information processing device according to any one of [18] to [23].
- the text data indicating the claims included in the patent document data is analyzed to identify the dependency of the claims included in the claims. Display text indicating independent claims within the scope of the claims, based on the identified dependency. Reading comprehension support method.
- FIG. 1 is a diagram showing an example of a system configuration of a reading comprehension support system according to an embodiment.
- the reading comprehension support system 1 is a system that supports reading comprehension of patent documents. Specifically, the reading comprehension support system 1 includes an information processing device 10, a patent document extraction device 20, and a terminal device 30. The information processing device 10, the patent document extraction device 20, and the terminal device 30 are communicably connected to each other via a network 40.
- the information processing device 10 analyzes data indicating a patent document (hereinafter referred to as patent document data) and generates screen data to be displayed on the screen based on the analysis result.
- the generated screen data is data showing a screen in which the description of the claims included in the patent document data is easy to read.
- the patent document extraction device 20 receives a search condition designation by a user operation via the terminal device 30, and extracts patent document data from a database such as a patent gazette or a public gazette based on the search condition. Then, the patent document extraction device 20 transmits the extracted patent document data to the information processing device 10 by the user's operation via the terminal device 30.
- the terminal device 30 instructs the information processing device 10 or the patent document extraction device 20 to execute various functions, or receives screen data from the information processing device 10 or the patent document extraction device 20. , A device that displays received screen data.
- FIG. 2 is a diagram showing an example of the hardware configuration of the information processing device according to the embodiment.
- the information processing device 10 includes a CPU (Central Processing Unit) 101, a main storage device 102, an auxiliary storage device 103, an input device 104, a display device 105, a communication interface device 106, and a drive device 107. Each of these devices is connected by a bus.
- CPU Central Processing Unit
- the CPU 101 is a main control unit that controls the operation of the information processing device 10, and realizes various functions described later by reading and executing a program stored in the main storage device 102.
- the main storage device 102 reads a program from the auxiliary storage device 103 and stores it when the information processing device 10 is started.
- the auxiliary storage device 103 stores the installed program and also stores files, data, and the like necessary for various functions described later.
- the input device 104 is a device for inputting various types of information, and is realized by, for example, a keyboard or a pointing device.
- the display device 105 is for displaying various kinds of information, and is realized by, for example, a display or the like.
- the communication interface device 106 includes a LAN card and the like, and is used for connecting to a network.
- the program according to this embodiment is at least a part of various programs for controlling the information processing device 10.
- the program is provided, for example, by distributing the storage medium 108, downloading from a network, or the like.
- the storage medium 108 on which the program is recorded is a storage medium such as a CD-ROM, a flexible disk, a magneto-optical disk, or the like that optically, electrically, or magnetically records information, and an electric information such as a ROM or a flash memory.
- Various types of storage media such as a semiconductor memory for recording can be used.
- the program is installed in the auxiliary storage device 103 from the storage medium 108 via the drive device 107.
- the program downloaded from the network is installed in the auxiliary storage device 103 via the communication interface device 106.
- FIG. 3 is a diagram showing an example of the function of the information processing device according to the embodiment.
- the information processing device 10 includes a storage unit 11, a patent document acquisition unit 12, an analysis unit 13, a display control unit 14, an evaluation registration unit 15, and an operation reception unit 16.
- the storage unit 11 stores various data, programs, and the like. Specifically, the storage unit 11 stores the trained model 17.
- the trained model 17 is a model constructed by machine learning for analysis of patent documents.
- the trained model 17 may be, for example, a neural network, a decision tree, a support vector machine, or the like, or may be a model constructed by deep learning.
- the trained model 17 is preferably specialized in language analysis, and may be, for example, "IBM WATSON (registered trademark)".
- the "IBM WATSON (registered trademark)" used as the trained model 17 may be customized for analysis of patent documents.
- Machine learning is a technology in which a computer autonomously generates an algorithm from learning data in order to efficiently execute a specific task depending on patterns and inferences.
- the trained model 17 according to the present embodiment is a model showing the algorithm generated in this way.
- the patent document acquisition unit 12 acquires patent document data. Specifically, the patent document acquisition unit 12 receives the patent document data extracted by the patent document extraction device 20.
- the data to be transmitted is data indicating a set of one or more patent documents (hereinafter, referred to as set data).
- the set data may be, for example, a file in CSV (Comma-Separated Values) format or the like.
- the set data is an example of patent document data.
- the analysis unit 13 analyzes the set data. Specifically, the analysis unit 13 applies the algorithm shown in the trained model 17 to analyze each patent document included in the aggregate data.
- the analysis unit 13 identifies the constituent requirements of the invention based on the description of the scope of claims included in each patent document. Then, the analysis unit 13 decomposes the description of each claim for each constituent requirement.
- the constituent requirement is an element that specifies the invention, and is a requirement necessary for the object to be included in the scope of the invention.
- the constituent requirement may be an element such as a part included in the product, but is not limited thereto.
- the analysis unit 13 may decompose the same component contained in the object into a plurality of constituent requirements.
- the trained model 17 is constructed in advance as an algorithm that decomposes each claim into constituent requirements having a length that is easy to read by machine learning. Then, the analysis unit 13 inputs the text data indicating each claim according to the algorithm defined in the trained model 17 constructed in this way, and makes the description of each claim a constituent requirement having a length that is easy to read. Output the decomposed text data.
- the analysis unit 13 determines a text indicating the subject of the invention for each claim.
- the trained model 17 is constructed in advance as an algorithm for extracting the subject of the invention from the text data for each claim by machine learning. Then, the analysis unit 13 inputs the text data indicating each claim as input according to the algorithm defined in the trained model 17 constructed in this way, and outputs the text data indicating the subject of the invention of each claim.
- the analysis unit 13 classifies each claim into an independent form claim and a citation form claim.
- a stand-alone claim hereinafter referred to as an independent claim
- the trained model 17 is constructed in advance by machine learning as an algorithm for identifying the dependency of claims included in the claims based on text data indicating the claims.
- the analysis unit 13 classifies each claim into an independent claim and a dependent claim by inputting text data indicating the scope of claims according to the algorithm defined in the trained model 17 constructed in this way. Output the data.
- the output data also includes data indicating the claim number cited by the dependent claim.
- the classification of independent claims and dependent claims is determined by using the certainty that each claim is an independent claim (also called certainty, reliability, probability) and the certainty that each claim is a dependent claim. May be done. In this case, the algorithm defined in the trained model 17 outputs these accuracy.
- the analysis unit 13 classifies the claim into an independent claim. Further, the analysis unit 13 classifies the claim into a dependent claim when the certainty that the claim is a dependent claim is equal to or higher than a predetermined value.
- the analysis unit 13 has a claim that does not correspond to an independent claim or a dependent claim (that is, the probability of being an independent claim is less than a predetermined value, and the probability of being a dependent claim is a predetermined value. Claims that are less than) are classified as independent claims.
- analysis unit 13 may execute rule-based preprocessing before applying the algorithm shown in the trained model 17 to the set data in order to improve the accuracy of the various analyzes described above.
- the analysis unit 13 may extract a text as an index for dividing each claim from the description of the scope of claims included in each patent document. Specifically, the analysis unit 13 may extract a text indicating each claim number, a text immediately before a punctuation mark, or a text such as "featuring".
- the analysis unit 13 extracts texts such as "the above” or “the” as texts indicating antecedents from the description of the claims included in each patent document in order to improve the specific accuracy of the constituent requirements. You may. In this case, the word following the extracted character string is a candidate for text indicating the constituent requirements.
- the analysis unit 13 may extract texts such as “includes”, “contains”, or “consists of” as texts indicating the structure, and further, “procedures including” as texts indicating the structure of the procedure. , “Procedures for " may be extracted.
- the analysis unit 13 may extract texts such as “here”, “by it”, or “about it” as texts indicating the relationship between cause and effect.
- the analysis unit 13 may extract a text such as "is” or "in” as a text for specifying the preamble in particular from the constituent requirements.
- the analysis unit 13 may extract texts such as “greater than or equal to”, “less than or equal to”, “less than”, or “from ... to " as texts for specifying that the description content is in the numerical range. ..
- the analysis unit 13 uses texts such as “further” and “described in " used in the dependent claims in order to improve the accuracy of classifying each claim into an independent claim or a dependent claim. May be extracted.
- the analysis unit 13 may perform morphological analysis as a preprocessing. For example, the analysis unit 13 divides the description for each claim into each morpheme, selects a text candidate indicating a constituent requirement from the divided morphemes, and calculates the number included in each claim or the description of the claims. count.
- the analysis unit 13 inputs the results of these preprocessings into the trained model 17 together with the texts for each patent document included in the aggregate data, and obtains the analysis results output from the trained model 17.
- the analysis unit 13 may execute processing having different contents for each language used in the description of each patent document as these preprocessing. Further, the analysis unit 13 may analyze using a trained model 17 having different contents for each language used in the description of each patent document. More preferably, the analysis unit 13 may perform preprocessing with different contents or analysis using a learned model 17 with different contents for each application target (specific country or international application). As a result, the analysis unit 13 can perform analysis according to the characteristics according to the language or the characteristics according to the subject of the application.
- the analysis unit 13 determines the language used from the description of each patent document. Then, as shown in Table 1, the analysis unit 13 extracts the text for each language corresponding to the above-mentioned case.
- the analysis unit 13 may extract the English or Chinese text shown in Table 1.
- the set data may include a text indicating the subject of the application for each patent document.
- the text indicating each patent document includes texts such as "US” indicating the United States of America, "EP” indicating Europe, and "PCT” indicating an international application. Therefore, the analysis unit 13 may extract a text indicating the object of the application from the text indicating each patent document and perform analysis using a trained model 17 having different preprocessing or different contents for each object of the application. ..
- the trained model 17 may include a plurality of models that differ depending on the content of the analysis.
- the analysis unit 13 may realize the identification of the constituent requirements, the determination of the text indicating the subject of the invention, and the classification of each claim into an independent claim or a dependent claim by using separate models. good.
- the display control unit 14 causes the display device 105 or the terminal device 30 to display various screens described later based on the analysis result of the analysis unit 13 in order to support the reading comprehension of the patent document.
- the evaluation registration unit 15 registers the result of evaluating the patent document according to the user's operation received by the operation reception unit 16.
- the registered evaluation content is displayed on the screen of the display device 105 or the terminal device 30 by the display control unit 14.
- the operation reception unit 16 receives a user operation from the input device 104 or the terminal device 30. Specifically, the operation receiving unit 16 receives input to various input devices such as a keyboard, a mouse, and a touch panel included in the input device 104 or the terminal device 30.
- FIG. 4 is a flowchart showing an example of reading comprehension support processing of the information processing device according to the embodiment.
- the patent document extraction device 20 transmits a signal requesting the start of the reading comprehension support process to the information processing device 10 in response to the user's operation.
- the information processing device 10 starts the reading comprehension support process in response to the request signal transmitted from the patent document extraction device 20.
- the patent document acquisition unit 12 acquires a set data of patent documents (step S11).
- the patent document extraction device 20 searches the patent document from the patent document database in response to the designation of the search condition. Then, the patent document extraction device 20 transmits the searched one or a plurality of patent documents as one set data to the information processing device 10.
- the set data to be transmitted is, for example, CSV format data.
- the analysis unit 13 analyzes the set data received and acquired (step S12). Specifically, the analysis unit 13 analyzes the set data of the patent documents according to the algorithm defined in the trained model 17, and outputs the analysis result for each patent document.
- the output analysis results are text data in which the description of each claim is decomposed into easy-to-read length components, text data indicating the subject of the invention of each claim, and each claim is dependent on an independent claim. Includes data classified as claims.
- the display control unit 14 causes the display device 105 or the terminal device 30 to display the analysis result screen in response to the user's operation received by the operation reception unit 16 (step S13).
- the analysis result screen to be displayed is a screen that supports reading comprehension of patent documents. The specific display contents will be described later.
- the evaluation registration unit 15 registers the evaluation result input by the user (step S14). Specifically, the operation reception unit 16 receives an operation of the user and acquires information indicating the evaluation result input in the evaluation input field included in the analysis result screen. The evaluation registration unit 15 stores information indicating the evaluation result acquired by the operation reception unit 16 in the storage unit 11.
- the stored information indicating the evaluation result is associated with the patent document.
- the display control unit 14 displays an analysis result screen including an evaluation result associated with the patent document.
- the information processing device 10 may transmit information indicating the registered evaluation result to the patent document extraction device 20.
- the display control unit 14 of the information processing device 10 causes the display device 105 or the terminal device 30 to display the set list screen in response to the user's operation received by the operation reception unit 16.
- the set list screen includes a list of set data of the patent documents acquired by the patent document acquisition unit 12 in step S11 of the reading comprehension support process described above.
- the display column of each set data includes, for example, a panel header, a panel list, and a memo column.
- the name of the analysis project for the set data is displayed.
- the attribute information of the set data such as the title of the set data, the number of publications included in the set data, the creation date or the latest modification date, the creator or the latest modification person, etc. is displayed in a list format. There is.
- the GUI Graphic User Interface
- the button for popping up the memo edit screen for receiving the input of the memo text to be added to the aggregate data and the input memo text are displayed.
- the display control unit 14 of the information processing device 10 causes the display device 105 or the terminal device 30 to display the publication list screen in response to the user's operation received by the operation reception unit 16.
- the publication list screen includes, for example, a list of publications included in the set data selected on the set list screen.
- the publication list screen includes a publication selection area and an analysis button.
- the list of publications includes, for example, item numbers, flags, publication numbers, names, applicants, evaluations, statuses, and objects of invention as items.
- the value of the item "item number” is the number of the publication in the aggregate data.
- the flag set on the analysis result screen described later is displayed.
- the flag is used, for example, to record that the publication is of interest to the user.
- Publication number is the number of the publication in which each patent document such as a patent publication and a publication publication is published.
- the value of the item "evaluation" is the evaluation result registered on the analysis result screen described later.
- the value of the item "object of invention” is a text indicating the subject of the invention determined by the analysis unit 13 by analyzing each patent document.
- the publication selection area is a check box for selecting a publication.
- the display control unit 14 sends the display device 105 or the terminal device 30 to the display device 105 or the terminal device 30 according to the user's operation received by the operation reception unit 16.
- the analysis result screen showing the analysis result of the selected patent document is displayed.
- the display of the set list screen and the display of the list of publications may also be displayed on a plurality of display devices 105 or terminal devices 30 used by other users who are permitted to share information.
- the evaluation result input in the evaluation registration unit 15 can be shared and managed by a team consisting of specific users. Further, by managing the set of patent documents by the team, the reading comprehension of the patent documents can be shared and the burden on each user can be reduced.
- FIG. 5 is a diagram showing an example of the analysis result screen according to the embodiment.
- the analysis result screen includes a header 1021, a navigation display field 1022, a claim display field 1023, an evaluation registration field 1024, a text display field 1025, and a drawing display field 1026.
- the header 1021 includes the name of the set data, a link to the publication list screen, and the like. Further, the header 1021 includes the applicant, the name of the invention, the status display 1031, the icon center 1032, etc. for the selected patent document.
- the icon center 1032 includes, for example, a button for displaying icons such as a family presence / absence display, a detailed display button, a flag button, a full-text display button, a PDF (Portable Document Format) button, a CSV output button, and a print output button, and a button for accepting operations.
- the status display 1031 indicates by color whether or not the patent right of the selected patent document is still alive. For example, if the patent right is in existence, the status display 1031 is green indicating that it is in existence, and if the patent right has expired, the status display 1031 indicates that it is not in existence. It turns yellow.
- the display control unit 14 determines whether or not the patent right is still in effect based on the filing date of the patent document and the like, and determines the color of the status display 1031 based on the result of the determination.
- the family presence / absence display turns red to indicate that the patent family exists, and if the patent family does not exist, the family presence / absence display indicates that the patent family does not exist in gray. become.
- data indicating the existence or nonexistence of the patent family is included for each patent document of the set data acquired by the patent document extraction device 20, and the display control unit 14 determines the existence or nonexistence of the patent family included in the set data. Based on the data shown, the color of the family presence / absence display is determined.
- the detail display button is, for example, a GUI for displaying a pop-up screen for displaying the details of the patent family. Data showing the details of the patent family is also included for each patent document of the aggregate data acquired by the patent document extraction device 20.
- the flag button is, for example, a GUI for receiving an operation of setting a flag in the selected patent document.
- the flag is set, the set flag is displayed on the above-mentioned publication list screen and the navigation display field described later.
- the full-text display button is a GUI for displaying a pop-up screen including a description of the specification, claims, drawings, abstract, etc. included in the selected patent document.
- the PDF button is a GUI for generating and downloading a PDF file containing a description of a specification, claims, drawings, abstracts, etc. included in the selected patent document.
- the CSV output button is a GUI for outputting the text displayed in the claim display field 1023 as a CSV format file according to the display format.
- the description of each claim decomposed for each constituent requirement is obtained in a CSV format file, it can be used for detailed analysis such as use in claim chart analysis based on the CSV format file.
- the print output button is a GUI for printing the claim display field 1023 being displayed.
- the navigation display field 1022 includes a list of publications selected on the publication list screen, and receives an operation of selecting a patent document to be displayed in the header 1021, the claim display field 1023, the text display field 1025, the drawing display field 1026, and the like. It is a display column of.
- the claim display column 1023 is a display column for reading the description of the scope of claims based on the analysis result of the analysis unit 13 for the selected patent document.
- the claim display field 1023 includes a full billing button 1033, an independent billing button 1034, a split display format switching button 1038, a folding symbol 1039, a claim number display field 1040, and a configuration requirement display field 1041.
- the all claim button 1033 and the independent claim button 1034 display the number of all claims and the number of independent claims, respectively, and are being displayed from the two display targets of "all claims" and “independent claims". It is a GUI for selecting the display target of. When the display target is "all claims”, all claims including independent claims and dependent claims are displayed, and when the display target is “independent claims”, only independent claims are displayed.
- split display format switching button 1038 Each time the split display format switching button 1038 is pressed, the format in which the description of the claims is divided into a plurality of constituent requirements is displayed as "all claims expanded", “all claims hidden”, and “independent claims". This is a GUI for switching and selecting from the three split display formats of "only”. The selected split display format is displayed next to the split display format switching button 1038.
- the split display format is "Expand all claims"
- the constituent requirements of all claims selected as display targets are displayed.
- the split display format is "Hide all claims”
- the constituent requirements of all the claims selected to be displayed are not displayed.
- the split display format is "only independent claims”
- the constituent requirements of only the independent claims among the claims selected as the display target are displayed.
- FIG. 5 is an example of a screen in which "all claims" is selected as a display target and "all claims expansion" is selected as a divided display format
- FIG. 6 described later is another example thereof.
- FIG. 7 described later is an example of a screen in which "all claims” is selected as the display target and "only independent claims” is selected as the divided display format
- FIG. 8 shows “all claims” as the display target.
- This is an example of a screen in which "Hide all claims" is selected as the divided display format.
- the folding symbol 1039 is a symbol indicating whether or not the constituent requirements of each claim are displayed. As shown in FIG. 5, when the split display format is "all claims expansion", the constituent requirements are displayed for all the claims selected as the display target, so that the folding symbol 1039 is used. It is a down arrow indicating that the configuration requirements are displayed.
- the claim number display field 1040 includes the number of each claim, the text indicating the subject of the invention of each claim, and the number of the claim to be cited in the case of a dependent claim.
- the text indicating the subject of the invention of each claim, the number of the claim cited by the dependent claim, etc. are included in the analysis result of the analysis unit 13. Then, based on the analysis result, the display control unit 14 associates the text indicating the subject with the number of the claim and causes the display device 105 or the terminal device 30 to display the text.
- the background color in the case of the independent claim is different from the background color in the case of the dependent claim so that the independent claim and the dependent claim can be distinguished at a glance. It has become.
- the text indicating each claim is arranged and displayed in a different display column for each configuration requirement.
- the text indicating each constituent requirement is a text decomposed into a length that is easy to read by the analysis unit 13 according to the algorithm defined in the trained model 17.
- the display control unit 14 divides the text indicating each claim in the claims into each component and displays it on the display device 105 or the terminal device 30.
- the user can reduce the time to search for the constituent requirement delimiters and improve the reading speed.
- the accuracy of reading comprehension is improved because it is less likely that the constituent requirements are separated by mistake.
- evaluation registration column 1024 options for evaluation results are displayed. It is possible to set for each user the options to be displayed with priority from the preset options.
- the display control unit 14 causes the display device 105 or the terminal device 30 to display the evaluation input screen. The evaluation input screen will be described later.
- the registered evaluation result is displayed in the evaluation registration column 1024.
- a "text display” link is displayed in the text display field 1025.
- the display control unit 14 causes the display device 105 or the terminal device 30 to display the text described in the specification of the selected patent document.
- FIG. 6 is a diagram showing another example of the analysis result screen according to one embodiment.
- the text indicating each claim may be further divided into a plurality of layers and displayed in the claim display field 1023.
- the text indicating each claim is divided and displayed as the configuration requirement display column (upper layer) 1042, and displayed in the configuration requirement display column (upper layer) 1042.
- the text obtained by further dividing the text is displayed as the configuration requirement display field (lower layer) 1043.
- the configuration requirement display column (upper layer) 1042 and the configuration requirement display column (lower layer) 1043 are displayed in association with each other.
- the configuration requirement display column (lower layer) 1043 is located at the lower side of the screen than the configuration requirement display column (upper layer) 1042, which is the upper layer thereof.
- FIG. 6 shows an example of a hierarchical display having two or less layers, a hierarchical display having three or more layers may be included.
- the configuration requirement display column (upper layer) 1042 which is a layer other than the lowest layer, is less conspicuous than the non-layered configuration requirement display column 1041 and the configuration requirement display column (lower layer) 1043, which is the lowest layer. It has become.
- the sentence structure becomes easy to understand even when the text indicating each claim includes a description of a complicated compound sentence structure or a constituent requirement having a long sentence. Therefore, it leads to fast and accurate reading comprehension.
- the claim display column 1023 is displayed graphically as a structural drawing.
- the claim number display column 1040 is linked to the configuration requirement display column 1041, the configuration requirement display column (upper layer) 1042, or the configuration requirement display column (lower layer) 1043 with a line. That is, in the claim display field 1023, the relationship between the constituent requirements is graphically displayed as a structural diagram.
- the configuration requirement display column 1041 constitutes a part of the structural drawing by indicating the configuration requirements as a group by being surrounded by a frame.
- FIG. 7 is a diagram showing still another example of the analysis result screen according to one embodiment.
- the claim number display field 1040 and the configuration requirement display field 1041 are displayed.
- the claim number display field 1040 is displayed, and the configuration requirement display field 1041 is not displayed.
- the folding symbol 1039 displayed next to the claim number display field 1040 of the independent claim is a downward arrow indicating that the constituent requirements are displayed.
- the folding symbol 1039 displayed next to the claim number display field 1040 of the dependent claim is a right-pointing arrow indicating that the constituent elements are not displayed.
- FIG. 8 is a diagram showing still another example of the analysis result screen according to the embodiment.
- the folding symbol 1039 displayed next to the claim number display field 1040 of each claim is a right-pointing arrow indicating that the constituent requirements are not displayed.
- the independent claim button 1034 is pressed to select "independent claim” as the display target, and the split display format switching button 1038 is pressed to display the split display format.
- the display of "Hide all claims” is selected, only the claim number display field 1040 is displayed, the constituent requirement display field 1041 is not displayed, and the independent claims are dependent on the selected patent document.
- the claim neither the claim number display field 1040 nor the constituent requirement display field 1041 is displayed.
- the evaluation input screen can be displayed in a pop-up when the "evaluation input display" link in the evaluation registration field 1024 of the analysis result screen of FIGS. 5, 6, 7 or 8 is selected.
- the evaluation input screen can include an evaluation selection button, a category selection pull-down, a text input field, and a registration button.
- the evaluation selection button is, for example, a GUI for selecting a preset option that is set to be displayed with priority for each user.
- the evaluation input screen may be provided with an evaluation selection pull-down in addition to the evaluation selection button.
- the evaluation selection pull-down is a GUI for selecting an evaluation result from options other than the options set to be preferentially displayed for each user among the preset options.
- the category selection pull-down is, for example, a GUI for selecting an evaluation category from the options set in the patent document extraction device 20.
- the text input field is, for example, an input field for inputting text such as remarks and comments.
- the registration button is, for example, a GUI for registering selected and input information.
- the evaluation registration unit 15 stores the selected and input information in association with the selected patent document in the storage unit 11 and transmits the selected and input information to the patent document extraction device 20.
- the user can read the patent document, record the evaluation result, and use the evaluation result by himself / herself, and can make the evaluation result known to other users and use it.
- the evaluation registration unit 15 may be able to register the evaluation result evaluated for each claim or each constituent requirement.
- the reading comprehension support system 1 since the information necessary for reading comprehension is arranged in the analysis result screen, the contents of the patent document can be read quickly and accurately.
- the analysis unit 13 analyzes the trained model 17 by utilizing the trained model 17, and the display control unit 14 displays the description of the claim for each decomposed configuration requirement.
- the text indicating the subject of the invention of each claim is displayed in a list, so that the user can grasp the configuration of the entire claims at a glance.
- the accuracy of reading comprehension of patent documents by the user is improved, so that the number of search processes requested by the user for the patent document extraction device 20 is reduced, and the patent document extraction device is used. Suppress the processing load of 20.
- the data indicating the patent documents included in the aggregate data is the data described in the publications such as patent publications and publication publications.
- the data indicating the patent document is not limited to the data described in the publication.
- the data indicating the patent document indicates the scope of claims, and if the text data described for each claim is included, the data indicating the specification, drawings, abstract, etc., such as a so-called draft claim, is included. It does not have to be.
- the text indicating the subject of the invention in the present embodiment is a text indicating the object of the invention. More specifically, as the text indicating the subject of the invention, a phrase that uniquely represents the invention and has a length that makes it easy for the user to identify the invention is selected from the text of each claim. ..
- the text indicating the subject of the invention may be the same as the title of the invention, or in the case of Japanese, the same phrase as the wording at the end of each claim, or a phrase different from these descriptions. ..
- not only the wording at the end of each claim such as "current collector for power storage device” but also other inventions in the art such as "current collector for power storage device having a coating layer formed”. It may contain words that indicate specific characteristics of the invention that can be differentiated.
- the display control unit 14 may control the configuration requirement display field 1041 shown in FIGS. 5, 6 or 7 so as to emphasize and display important words, new words, etc. in the claims.
- the new word is a term that does not have a preceding description within the scope of claims, and is a term that is used to explain the invention in the specification. New words may overlap with important words and may be limited to terms other than technical terms, general terms or technical terms.
- the analysis unit 13 extracts new words, important words, etc. in the claims based on the description and the description of the claims, and the display control unit 14 configures based on the analysis result. Control may be performed to display a new word in the requirement display field 1041 in a color different from other character colors such as blue and an important word in red. By emphasizing new words, important words, etc. in this way, it is possible to immediately find a point to be noted within the scope of claims.
- the information processing device 10 may output the description of the claims decomposed into each constituent requirement by reflecting it in the table data in the format of spreadsheet software or the like.
- the user can use the output data as it is for the original data such as the survey material.
- the information processing device 10, the patent document extraction device 20, and the terminal device 30 according to the present embodiment are separate devices, some or all of them may be realized by the same device.
- the display device 105 and the terminal device 30 are examples of display devices that are controlled by the display control unit 14 to display a screen, respectively.
- the display device is not limited to this, and a projector, a monitor, or the like may be used as long as the screen can be displayed.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定する解析部と、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示装置に表示させる表示制御部と、を備える情報処理装置である。
Description
本発明は、情報処理装置、読解支援方法およびプログラムに関する。
従来から、特許文献の読解を支援する技術が開発されている。特に、特許文献に含まれる特許請求の範囲の記載は、一般の文書に比べて難解な場合が多い。そのため、特許文献、特に特許請求の範囲の記載の読解を支援する技術が研究されている。
例えば、特許文献1には、特許請求の範囲の記載の中から指定された文字列が示す要素と、当該要素の下位の要素との関係を示す図を出力する装置が開示されている。また、特許文献2には、特許請求の範囲の記載を文節ごとに区切り、区切られた複数の記述断片の関係を構造化した情報を生成する装置が開示されている。
調査、研究等のさまざまな業務の目的で、特許文献を読解する作業が行われている。そのような業務においては、大量の特許文献を読解する必要に迫られる場合が多く、特許請求の範囲の記載を迅速かつ正確に読解することが重要である。
しかしながら、特許文献1または特許文献2に開示された技術は、大量の特許文献を読解するとき、特許請求の範囲の記載を一目で把握することはできず、読解の迅速性に欠ける。
特許文献1開示の発明は、設定された規則に従って、特許請求の範囲の記載を複数の要素に分割し、分割した要素間の関係を抽出することにより特許請求の範囲の記載の構造解析を行い、特許請求の範囲の記載に含まれる文字列の指定を受け付け、構造解析により得られた文書の構造情報から指定された文字列に対応する構造情報を抽出する情報抽出し、抽出された構造情報を図式化して出力することにより、読解支援する。
特許文献2開示の発明は、特許請求項のテキストが区切られた記述断片と当該記述断片の構造とを示す請求項構造情報を生成する請求項構造情報生成装置であって、特許請求項のテキストである特許請求項情報が記憶される記憶部と、特許請求項情報を形態素解析する形態素解析部と、特許請求項情報の文節の区切位置を特定する文節特定部と、記述断片の区切となると共に記述断片間の関係を示す表層の手がかり情報と、表層の手がかり情報に対応するトークンとを有する表層区切情報が2以上記憶される表層区切情報記憶部と、特許請求項情報において、表層の手かがり情報に該当する位置に、表層の手がかり情報に対応するトークンを付与するトークン付与部と、記述断片の区切となる文節の品詞の手がかり情報と、品詞の手がかり情報に対応する区切文節タイプとを有する文節タイプ対応情報が2以上記憶される文節タイプ対応情報記憶部と、特許請求項情報において、品詞の手がかり情報に該当する文節に、品詞の手がかり情報に対応する区切文節タイプを付与する区切文節タイプ付与部と、特許請求項情報に付与されたトークンと区切文節タイプとを用い、あらかじめ規定されている特許請求項の構造を示す規則に応じて、特許請求項情報の記述断片の構造を示す請求項構造情報を生成する生成部と、生成部が生成した請求項構造情報を出力する出力部と、を備えることにより、より深い構造を持つ特許請求項について構造解析を行う。
このように、特許文献1または特許文献2に開示された技術は、ひとつの特許文献の開示内容を深く読解する目的には適しているものの、特許請求の範囲の記載の可読性の向上という目的には特化していないため、大量の特許文献を読解する必要がある場合において、特許請求の範囲の記載を十分に迅速かつ正確に読解するという目的には適していない。
本発明は、上記事情に鑑みてこれを解決すべくなされたものであり、特許請求の範囲の記載の迅速かつ正確な読解を支援することを目的としている。
本発明は、以下に示す構成を備える。
[1] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定する解析部と、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示装置に表示させる表示制御部と、を備える、
情報処理装置。
[2] 前記解析部は、特許請求の範囲を示す前記テキストデータから、重要な用語を示す重要語をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストの中で、前記重要語を示すテキストを強調して前記表示装置に表示させる、
[1]に記載の情報処理装置。
[3] 前記解析部は、前記特許文献データに含まれる明細書を示すテキストデータをさらに解析し、前記明細書において発明の説明に用いられる用語であって、前記特許請求の範囲において先行する記載の無い用語を示す新出語をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストの中で、前記新出語を示すテキストを強調して前記表示装置に表示させる、
[1]または[2]に記載の情報処理装置。
[4] 前記特許文献データについてのユーザによる評価結果の入力を受ける操作受付部と、
前記評価結果を前記特許文献データと関連付けて登録する評価登録部と、をさらに備え、
前記表示制御部は、前記評価結果を前記表示装置に表示させる、
[1]から[3]のいずれか1つに記載の情報処理装置。
[5] 前記表示制御部は、前記解析部が解析の対象とした前記特許文献データと、前記評価登録部に登録された前記評価結果と、を複数のユーザが使用する装置に表示させる、
[4]に記載の情報処理装置。
[6] 前記表示制御部は、分割された前記構成要件を、構造図として図式化して表示させる、
[1]から[5]のいずれか1つに記載の情報処理装置。
[7] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定し、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示する、
読解支援方法。
[8] コンピュータに、
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定するステップと、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示装置に表示させるステップと、
を実行させるためのプログラム。
[9] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の主題を特定する解析部と、
前記主題を示すテキストと前記請求項の番号とを対応付けて表示装置に表示させる表示制御部と、を備える、
情報処理装置。
[10] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して前記表示装置にさらに表示させる、
[9]に記載の情報処理装置。
[11] 前記表示制御部は、ユーザの操作に応じて、前記特許請求の範囲の各請求項を示す前記テキストを含む表示と含まない表示とを切り替えて、前記表示装置に表示させる、
[9]または[10]に記載の情報処理装置。
[12] 前記特許文献データについてのユーザによる評価結果の入力を受ける操作受付部と、
前記評価結果を前記特許文献データと関連付けて登録する評価登録部と、をさらに備え、
前記表示制御部は、前記評価結果を前記表示装置に表示させる、
[9]から[11]のいずれか1つに記載の情報処理装置。
[13] 前記表示制御部は、前記解析部が解析の対象とした前記特許文献データと、前記評価登録部に登録された前記評価結果と、を複数のユーザが使用する装置に表示させる、
[12]に記載の情報処理装置。
[14] 前記解析部は、前記請求項を示す前記テキストデータの中から、前記主題を示す前記テキストを選択する、
[9]から[13]のいずれか1つに記載の情報処理装置。
[15] 前記解析部は、前記特許請求の範囲を示す前記テキストデータの中から、前記発明を一義的に表し、かつ、ユーザが発明を識別しやすい程度の長さのフレーズを選択して、前記主題を示す前記テキストとする、
[9]から[13]のいずれか1つに記載の情報処理装置。
[16] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の主題を特定し、
前記主題を示すテキストと前記請求項の番号とを対応付けて表示する、
読解支援方法。
[17] コンピュータに、
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の主題を特定するステップと、
前記主題を示すテキストと前記請求項の番号とを対応付けて表示装置に表示させるステップと、
を実行させるためのプログラム。
[18] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定する解析部と、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示装置に表示させる表示制御部と、を備える、
情報処理装置。
[19] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の主題をさらに特定し、
前記表示制御部は、前記主題を示すテキストと前記請求項の番号とを対応付けて表示装置にさらに表示させる、
[18]に記載の情報処理装置。
[20] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して前記表示装置にさらに表示させる、
[18]または[19]に記載の情報処理装置。
[21] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件をさらに特定し、
前記表示制御部は、特定された前記従属関係に基づいて、
独立請求項については、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示させ、
従属請求項については、前記主題を示すテキストと前記請求項の番号とを対応付けて表示させるとともに、前記構成要件ごとに分割された前記特許請求の範囲の各請求項を示すテキストを表示させる分割表示形式と、前記特許請求の範囲の各請求項を示すテキストを表示させない分割表示形式と、のいずれかの表示形式を選択させて、選択された前記表示形式で前記表示装置に表示させる、
[19]に記載の情報処理装置。
[22] 前記特許文献データについてのユーザによる評価結果の入力を受ける操作受付部と、
前記評価結果を前記特許文献データと関連付けて登録する評価登録部と、をさらに備え、
前記表示制御部は、前記評価結果を前記表示装置に表示させる、
[18]から[21]のいずれか1つに記載の情報処理装置。
[23]
前記表示制御部は、前記解析部が解析の対象とした前記特許文献データと、前記評価登録部に登録された前記評価結果と、を複数のユーザが使用する装置に表示させる、
[22]に記載の情報処理装置。
[24]
前記解析部は、前記従属関係を特定する処理において、前記従属関係の不明な請求項を独立請求項に分類する、
[18]から[23]のいずれか1つに記載の情報処理装置。
[25] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定し、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示する、
読解支援方法。
[26] コンピュータに、
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定するステップと、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示装置に表示させるステップと、
を実行させるためのプログラム。
[1] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定する解析部と、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示装置に表示させる表示制御部と、を備える、
情報処理装置。
[2] 前記解析部は、特許請求の範囲を示す前記テキストデータから、重要な用語を示す重要語をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストの中で、前記重要語を示すテキストを強調して前記表示装置に表示させる、
[1]に記載の情報処理装置。
[3] 前記解析部は、前記特許文献データに含まれる明細書を示すテキストデータをさらに解析し、前記明細書において発明の説明に用いられる用語であって、前記特許請求の範囲において先行する記載の無い用語を示す新出語をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストの中で、前記新出語を示すテキストを強調して前記表示装置に表示させる、
[1]または[2]に記載の情報処理装置。
[4] 前記特許文献データについてのユーザによる評価結果の入力を受ける操作受付部と、
前記評価結果を前記特許文献データと関連付けて登録する評価登録部と、をさらに備え、
前記表示制御部は、前記評価結果を前記表示装置に表示させる、
[1]から[3]のいずれか1つに記載の情報処理装置。
[5] 前記表示制御部は、前記解析部が解析の対象とした前記特許文献データと、前記評価登録部に登録された前記評価結果と、を複数のユーザが使用する装置に表示させる、
[4]に記載の情報処理装置。
[6] 前記表示制御部は、分割された前記構成要件を、構造図として図式化して表示させる、
[1]から[5]のいずれか1つに記載の情報処理装置。
[7] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定し、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示する、
読解支援方法。
[8] コンピュータに、
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定するステップと、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示装置に表示させるステップと、
を実行させるためのプログラム。
[9] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の主題を特定する解析部と、
前記主題を示すテキストと前記請求項の番号とを対応付けて表示装置に表示させる表示制御部と、を備える、
情報処理装置。
[10] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して前記表示装置にさらに表示させる、
[9]に記載の情報処理装置。
[11] 前記表示制御部は、ユーザの操作に応じて、前記特許請求の範囲の各請求項を示す前記テキストを含む表示と含まない表示とを切り替えて、前記表示装置に表示させる、
[9]または[10]に記載の情報処理装置。
[12] 前記特許文献データについてのユーザによる評価結果の入力を受ける操作受付部と、
前記評価結果を前記特許文献データと関連付けて登録する評価登録部と、をさらに備え、
前記表示制御部は、前記評価結果を前記表示装置に表示させる、
[9]から[11]のいずれか1つに記載の情報処理装置。
[13] 前記表示制御部は、前記解析部が解析の対象とした前記特許文献データと、前記評価登録部に登録された前記評価結果と、を複数のユーザが使用する装置に表示させる、
[12]に記載の情報処理装置。
[14] 前記解析部は、前記請求項を示す前記テキストデータの中から、前記主題を示す前記テキストを選択する、
[9]から[13]のいずれか1つに記載の情報処理装置。
[15] 前記解析部は、前記特許請求の範囲を示す前記テキストデータの中から、前記発明を一義的に表し、かつ、ユーザが発明を識別しやすい程度の長さのフレーズを選択して、前記主題を示す前記テキストとする、
[9]から[13]のいずれか1つに記載の情報処理装置。
[16] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の主題を特定し、
前記主題を示すテキストと前記請求項の番号とを対応付けて表示する、
読解支援方法。
[17] コンピュータに、
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の主題を特定するステップと、
前記主題を示すテキストと前記請求項の番号とを対応付けて表示装置に表示させるステップと、
を実行させるためのプログラム。
[18] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定する解析部と、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示装置に表示させる表示制御部と、を備える、
情報処理装置。
[19] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の主題をさらに特定し、
前記表示制御部は、前記主題を示すテキストと前記請求項の番号とを対応付けて表示装置にさらに表示させる、
[18]に記載の情報処理装置。
[20] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して前記表示装置にさらに表示させる、
[18]または[19]に記載の情報処理装置。
[21] 前記解析部は、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件をさらに特定し、
前記表示制御部は、特定された前記従属関係に基づいて、
独立請求項については、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示させ、
従属請求項については、前記主題を示すテキストと前記請求項の番号とを対応付けて表示させるとともに、前記構成要件ごとに分割された前記特許請求の範囲の各請求項を示すテキストを表示させる分割表示形式と、前記特許請求の範囲の各請求項を示すテキストを表示させない分割表示形式と、のいずれかの表示形式を選択させて、選択された前記表示形式で前記表示装置に表示させる、
[19]に記載の情報処理装置。
[22] 前記特許文献データについてのユーザによる評価結果の入力を受ける操作受付部と、
前記評価結果を前記特許文献データと関連付けて登録する評価登録部と、をさらに備え、
前記表示制御部は、前記評価結果を前記表示装置に表示させる、
[18]から[21]のいずれか1つに記載の情報処理装置。
[23]
前記表示制御部は、前記解析部が解析の対象とした前記特許文献データと、前記評価登録部に登録された前記評価結果と、を複数のユーザが使用する装置に表示させる、
[22]に記載の情報処理装置。
[24]
前記解析部は、前記従属関係を特定する処理において、前記従属関係の不明な請求項を独立請求項に分類する、
[18]から[23]のいずれか1つに記載の情報処理装置。
[25] 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定し、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示する、
読解支援方法。
[26] コンピュータに、
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定するステップと、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示装置に表示させるステップと、
を実行させるためのプログラム。
特許請求の範囲の記載の迅速かつ正確な読解を支援することができる。
以下に、図面を参照して、本発明に係る読解支援システムの実施の形態について説明する。
図1は、一実施形態に係る読解支援システムのシステム構成の一例を示す図である。
読解支援システム1は、特許文献の読解を支援するシステムである。具体的には、読解支援システム1は、情報処理装置10と、特許文献抽出装置20と、端末装置30と、を備える。情報処理装置10と特許文献抽出装置20と端末装置30とは、ネットワーク40を介して互いに通信可能に接続されている。
情報処理装置10は、特許文献を示すデータ(以下、特許文献データ)を解析して、解析結果に基づいて画面に表示するための画面データを生成する。生成される画面データは、特許文献データに含まれる特許請求の範囲の記載を読解しやすい画面を示すデータである。
特許文献抽出装置20は、端末装置30を介したユーザの操作によって検索条件の指定を受けて、特許公報、公開公報等のデータベースから検索条件に基づいて、特許文献データを抽出する。そして、特許文献抽出装置20は、端末装置30を介したユーザの操作によって、抽出された特許文献データを情報処理装置10に送信する。
端末装置30は、ユーザの操作を受けて、情報処理装置10または特許文献抽出装置20に、各種機能の実行を指示したり、情報処理装置10または特許文献抽出装置20から画面データを受信して、受信された画面データを表示したりする装置である。
次に、情報処理装置10のハードウェア構成について説明する。
図2は、一実施形態に係る情報処理装置のハードウェア構成の一例を示す図である。
情報処理装置10は、CPU(Central Processing Unit)101、主記憶装置102、補助記憶装置103、入力装置104、表示装置105、通信インターフェース装置106、ドライブ装置107を備える。これらの各装置は、バスで接続されている。
CPU101は、情報処理装置10の動作を制御する主制御部であり、主記憶装置102に格納されたプログラムを読みだして実行することで、後述する各種の機能を実現する。
主記憶装置102は、情報処理装置10の起動時に補助記憶装置103からプログラムを読み出して格納する。補助記憶装置103は、インストールされたプログラムを格納すると共に、後述する各種機能に必要なファイル、データ等を格納する。
入力装置104は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等により実現される。表示装置105は、各種の情報の表示を行うためものであり、例えばディスプレイ等により実現される。通信インターフェース装置106は、LANカード等を含み、ネットワークに接続する為に用いられる。
本実施形態に係るプログラムは、情報処理装置10を制御する各種プログラムの少なくとも一部である。プログラムは、例えば記憶媒体108の配布やネットワークからのダウンロード等によって提供される。プログラムを記録した記憶媒体108は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。
また、プログラムは、プログラムを記録した記憶媒体108がドライブ装置107にセットされると、記憶媒体108からドライブ装置107を介して補助記憶装置103にインストールされる。ネットワークからダウンロードされたプログラムは、通信インターフェース装置106を介して補助記憶装置103にインストールされる。
次に、情報処理装置10の機能について説明する。
図3は、一実施形態に係る情報処理装置の機能の一例を示す図である。
情報処理装置10は、記憶部11と、特許文献取得部12と、解析部13と、表示制御部14と、評価登録部15と、操作受付部16と、を備える。
記憶部11は、各種のデータ、プログラム等を記憶する。具体的には、記憶部11は、学習済みモデル17を記憶する。
学習済みモデル17は、特許文献の解析のために機械学習によって構築されたモデルである。学習済みモデル17は、例えばニューラルネットワーク、決定木、サポートベクターマシン等であっても良く、ディープラーニングによって構築されたモデルであっても良い。具体的には、学習済みモデル17は、言語解析に特化したものであることが望ましく、例えば「IBM WATSON(登録商標)」であっても良い。学習済みモデル17として使用する「IBM WATSON(登録商標)」は、特許文献の解析用にカスタマイズされたものであっても良い。
なお、機械学習とは、コンピュータが、パターンと推論に依存して、特定の課題を効率的に実行するために、学習データから自律的にアルゴリズムを生成する技術である。本実施形態に係る学習済みモデル17は、このようにして生成されたアルゴリズムを示すモデルである。
特許文献取得部12は、特許文献データを取得する。具体的には、特許文献取得部12は、特許文献抽出装置20において抽出された特許文献データを受信する。送信されるデータは、1つまたは複数の特許文献の集合を示すデータ(以下、集合データと呼ぶ)である。集合データは、例えば、CSV(Comma-Separated Values)形式等のファイルであっても良い。なお、集合データは特許文献データの一例である。
解析部13は、集合データを解析する。具体的には、解析部13は、学習済みモデル17に示されるアルゴリズムを適用して、集合データに含まれる特許文献ごとに解析する。
解析部13は、各特許文献に含まれる特許請求の範囲の記載に基づいて、発明の構成要件を特定する。そして、解析部13は、各請求項の記載を構成要件ごとに分解する。
ここで、構成要件とは、発明を特定する要素であり、対象が発明の範囲に含まれるために必要な要件である。具体的には、構成要件は、物の発明の場合には、物が備える部品等の要素であっても良いが、それに限られない。例えば、解析部13は、物に含まれる同一の部品を複数の構成要件に分解しても良い。
一般に、請求項ごとの発明の範囲を把握するために、請求項ごとの記載を構成要件に分解して検討することが行われている。また、このように分解された各構成要件の記載が長すぎても短すぎても、発明の範囲を把握しにくいことが知られている。
そこで、学習済みモデル17は、あらかじめ機械学習によって、各請求項を読解しやすい長さの構成要件に分解するアルゴリズムとして構築されていることが望ましい。そして、解析部13は、そのように構築された学習済みモデル17に規定されたアルゴリズムに従って、各請求項を示すテキストデータを入力として、各請求項の記載を読解しやすい長さの構成要件に分解したテキストデータを出力する。
また、解析部13は、請求項ごとに、発明の主題を示すテキストを決定する。具体的には、学習済みモデル17は、あらかじめ機械学習によって、請求項ごとのテキストデータから発明の主題を抽出するアルゴリズムとして構築されている。そして、解析部13は、そのように構築された学習済みモデル17に規定されたアルゴリズムに従って、各請求項を示すテキストデータを入力として、各請求項の発明の主題を示すテキストデータを出力する。
さらに、解析部13は、各請求項を独立形式請求項と引用形式請求項とに分類する。独立形式請求項(以下、独立請求項と記載する。)とは、他の請求項とは独立に記述されている請求項であり、引用形式請求項(以下、従属請求項と記載する。)とは、他の請求項を引用して記述される請求項である。具体的には、学習済みモデル17は、あらかじめ機械学習によって、特許請求の範囲を示すテキストデータに基づいて特許請求の範囲に含まれる請求項の従属関係を特定するアルゴリズムとして、構築されている。そして、解析部13は、そのように構築された学習済みモデル17に規定されたアルゴリズムに従って、特許請求の範囲を示すテキストデータを入力として、各請求項を独立請求項と従属請求項とに分類したデータを出力する。なお、出力されるデータには、従属請求項が引用する請求項の番号を示すデータも含まれる。各請求項を分類する際に、判別が不明となる場合には、独立請求項と分類することもできる。
独立請求項と従属請求項との分類は、各請求項が独立請求項である確度(確信度、信頼度、確率ともいう)と、各請求項が従属請求項である確度とを用いて判別されてもよい。この場合、学習済みモデル17に規定されたアルゴリズムは、これらの確度を出力する。解析部13は、請求項が独立請求項である確度が所定の値以上であると、その請求項を独立請求項に分類する。また、解析部13は、請求項が従属請求項である確度が所定の値以上であると、その請求項を従属請求項に分類する。また、解析部13は、独立請求項にも従属請求項にも該当しない請求項(つまり、独立請求項である確度が所定の値未満であり、かつ、従属請求項である確度が所定の値未満である請求項)は、独立請求項に分類する。
各請求項において、判別不明の場合や出力された確度が低い場合にフェールセーフの観点から、独立請求項に分類することにより、ユーザによる独立請求項の読み飛ばしを防ぐことができる。
なお、解析部13は、前述した各種の解析の精度を高めるため、集合データに対して学習済みモデル17に示されるアルゴリズムを適用する前に、ルールベースの前処理を実行しても良い。
例えば、解析部13は、各特許文献に含まれる特許請求の範囲の記載から、請求項ごとに分割するための指標となるテキストを抽出しても良い。具体的には、解析部13は、各請求項番号を示すテキスト、句点の直前のテキスト、または「を特徴とする」等のテキストを抽出しても良い。
なお、特許文献の形式によっては、特許請求の範囲の記載の中に「請求項」という記載がない形式が考えられる。しかし、特許請求の範囲の記載は、少なくとも各請求項番号を示すテキストを含むと考えられるため、解析部13は、各請求項番号の前後のテキストの規則性に基づいて、請求項ごとに分割するための指標となるテキストを抽出することが望ましい。
また、解析部13は、構成要件の特定の精度を高めるために、各特許文献に含まれる特許請求の範囲の記載から、先行詞を示すテキストとして「前記」または「該」等のテキストを抽出しても良い。この場合、抽出された文字列に続く単語が構成要件を示すテキストの候補となる。
解析部13は、構造を示すテキストとして、「を備える」、「を含む」または「からなる」等のテキストを抽出しても良く、さらに、手順の構造を示すテキストとして、「を備える手順」、「・・・するための手順」等のテキストを抽出しても良い。
解析部13は、原因と結果の関係等を示すテキストとして、「ここで」、「それにより」または「それについて」等のテキストを抽出しても良い。
また、解析部13は、構成要件のうち、特にプリアンブルを特定するためのテキストとして、「であって」または「において」等のテキストを抽出しても良い。
解析部13は、記載内容が数値範囲であることを特定するテキストとして、「以上」、「以下」、「未満」または「・・・から・・・まで」等のテキストを抽出しても良い。
また、解析部13は、各請求項の独立請求項または従属請求項への分類の精度を高めるために、従属請求項に使用される「さらに」、「・・・に記載の」等のテキストを抽出しても良い。
さらに、解析部13は、前処理として、形態素解析を行っても良い。例えば、解析部13は、請求項ごとの記載を形態素ごとに分割し、分割された形態素から構成要件を示すテキストの候補を選択し、各請求項または特許請求の範囲の記載に含まれる個数を数える。
解析部13は、これらの前処理の結果を、集合データに含まれる特許文献ごとのテキストとともに学習済みモデル17に入力し、学習済みモデル17から出力される解析結果を得る。
なお、好ましくは、解析部13は、これらの前処理として、各特許文献の記載に用いられた言語ごとに異なる内容の処理を実行しても良い。また、解析部13は、各特許文献の記載に用いられた言語ごとに異なる内容の学習済みモデル17を用いて解析しても良い。より好ましくは、解析部13は、出願の対象(特定の国または国際出願)ごとに異なる内容の前処理または異なる内容の学習済みモデル17を用いた解析を行っても良い。これによって、解析部13は、言語による特性または出願の対象による特性に応じた解析を行うことができる。
具体的には、解析部13は、各特許文献の記載から、用いられている言語を判別する。そして、解析部13は、表1に示されるように、前述した事例に対応する言語ごとのテキストを抽出する。
例えば、解析部13は、英語または中国語の特許文献であると判別すると、表1に示す英語または中国語のテキストを抽出しても良い。
また、集合データは、特許文献ごとに、出願の対象を示すテキストを含んでいても良い。例えば、各特許文献を示すテキストは、アメリカ合衆国を示す「US」、欧州を示す「EP」、国際出願を示す「PCT」等のテキストを含む。そこで、解析部13は、各特許文献を示すテキストから出願の対象を示すテキストを抽出して、出願の対象ごとに異なる前処理または異なる内容の学習済みモデル17を用いた解析を行っても良い。
また、学習済みモデル17は、解析の内容ごとに異なる複数のモデルを含んでも良い。例えば、解析部13は、構成要件の特定と、発明の主題を示すテキストの決定と、各請求項の独立請求項または従属請求項への分類と、を別々のモデルを用いて実現しても良い。
表示制御部14は、特許文献の読解を支援するために、解析部13の解析結果に基づいて、後述する各種の画面を表示装置105または端末装置30に表示させる。
評価登録部15は、操作受付部16が受けたユーザの操作に応じて、特許文献を評価した結果を登録する。登録された評価内容は、表示制御部14によって、表示装置105または端末装置30の画面に表示される。
操作受付部16は、入力装置104または端末装置30からユーザの操作を受ける。具体的には、操作受付部16は、入力装置104または端末装置30が備えるキーボード、マウス、タッチパネル等の各種の入力機器に対する入力を受ける。
次に、情報処理装置10の動作について説明する。
図4は、一実施形態に係る情報処理装置の読解支援処理の一例を示すフローチャートである。
特許文献抽出装置20は、ユーザの操作に応じて、読解支援処理の開始を要求する信号を情報処理装置10に送信する。情報処理装置10は、特許文献抽出装置20から送信される要求信号に応じて、読解支援処理を開始する。特許文献取得部12は、特許文献の集合データを取得する(ステップS11)。
具体的には、特許文献抽出装置20は、検索条件の指定を受けて、特許文献のデータベースから特許文献を検索する。そして、特許文献抽出装置20は、検索された1つまたは複数の特許文献を1つの集合データとして、情報処理装置10に送信する。送信される集合データは、例えば、CSV形式のデータである。
次に、解析部13は、受信して取得した集合データを解析する(ステップS12)。具体的には、解析部13は、特許文献の集合データを学習済みモデル17に規定されたアルゴリズムにしたがって解析し、特許文献ごとの解析結果を出力する。
出力される解析結果は、各請求項の記載を読解しやすい長さの構成要件に分解したテキストデータと、各請求項の発明の主題を示すテキストデータと、各請求項を独立請求項と従属請求項とに分類したデータと、を含む。
次に、表示制御部14は、操作受付部16が受けたユーザの操作に応じて、表示装置105または端末装置30に、解析結果画面を表示させる(ステップS13)。表示させる解析結果画面は、特許文献の読解を支援する画面である。具体的な表示内容については、後述する。
次に、評価登録部15は、ユーザによって入力された評価結果を登録する(ステップS14)。具体的には、操作受付部16が、ユーザの操作を受けて、解析結果画面に含まれる評価入力欄に入力される評価結果を示す情報を取得する。評価登録部15は、操作受付部16が取得した評価結果を示す情報を、記憶部11に格納する。
なお、格納された評価結果を示す情報は、特許文献に関連付けられる。表示制御部14は、特許文献を表示させる際、その特許文献に関連付けられた評価結果を含む解析結果画面を表示させる。また、情報処理装置10は、登録した評価結果を示す情報を、特許文献抽出装置20に送信しても良い。
次に、表示制御部14が表示装置105または端末装置30に表示させる画面について説明する。
情報処理装置10の表示制御部14は、操作受付部16が受けたユーザの操作に応じて、表示装置105または端末装置30に、集合一覧画面を表示させる。集合一覧画面には、上述の読解支援処理のステップS11において、特許文献取得部12が取得した特許文献の集合データの一覧が含まれる。
各集合データの表示欄には、例えば、パネルヘッダと、パネルリストと、メモ欄と、が含まれる。
パネルヘッダには、例えば、集合データを対象とする解析プロジェクトの名称が表示される。
パネルリストには、例えば、集合データのタイトル、集合データに含まれる公報件数、作成日または直近の修正日、作成者または直近の修正者等、の集合データの属性情報がリスト形式で表示されている。
また、メモ欄には、例えば、集合データに付与するメモ用のテキストの入力を受けるメモ編集画面をポップアップ表示するためのボタンのGUI(Graphical User Interface)と、入力されたメモ用のテキストを表示する表示欄と、が含まれる。
情報処理装置10の表示制御部14は、操作受付部16が受けたユーザの操作に応じて、表示装置105または端末装置30に、公報一覧画面を表示させる。
公報一覧画面には、例えば、集合一覧画面で選択された集合データに含まれる公報の一覧が含まれる。また、公報一覧画面には、公報選択エリアと、解析ボタンと、が含まれる。
公報の一覧は、項目として、例えば、項番と、フラグと、公報番号と、名称と、出願人と、評価と、ステータスと、発明の対象と、を含む。
項目「項番」の値は、集合データにおける公報の番号である。
項目「フラグ」の値は、後述する解析結果画面で設定されたフラグが表示される。当該フラグは、例えば、ユーザが注目すべき公報であることを記録するために使用される。
項目「公報番号」の値は、特許公報、公開公報等の各特許文献が掲載された公報の番号である。
項目「名称」の値は、各特許文献の発明の名称である。
項目「出願人」の値は、各特許文献の出願人の名称である。
項目「評価」の値は、後述する解析結果画面で登録された評価結果である。
項目「ステータス」の値は、各特許文献の審査状況等である。
項目「発明の対象」の値は、解析部13が各特許文献を解析して決定した発明の主題を示すテキストである。
公報選択エリアは、公報を選択するチェックボックスである。ユーザによって、公報選択エリアにおいて特許文献が選択され、解析ボタンが押下されると、表示制御部14は、操作受付部16が受けたユーザの操作に応じて、表示装置105または端末装置30に、選択された特許文献の解析結果を示す解析結果画面を表示させる。
集合一覧画面の表示および公報の一覧の表示は、情報の共有を許可された他のユーザが利用する複数の表示装置105または端末装置30にも表示されてもよい。これにより、特定のユーザからなるチームにより、評価登録部15において入力された評価結果を共有して管理することができる。また、チームにより特許文献の集合を管理することにより、特許文献の読解を分担して進めることができ、ユーザ一人当たりの負担を軽減することができる。
図5は、一実施形態に係る解析結果画面の一例を示す図である。
解析結果画面は、ヘッダ1021と、ナビゲーション表示欄1022と、請求項表示欄1023と、評価登録欄1024と、本文表示欄1025と、図面表示欄1026と、を含む。
ヘッダ1021は、集合データの名称、公報一覧画面へのリンク等を含む。また、ヘッダ1021は、選択中の特許文献について、出願人、発明の名称、ステータス表示1031、アイコンセンター1032等を含む。アイコンセンター1032は、例えば、ファミリ有無表示、詳細表示ボタン、フラグボタン、全文表示ボタン、PDF(Portable Document Format)ボタン、CSV出力ボタン、プリント出力ボタン等のアイコン表示や操作を受け付けるボタン等を含む。
ステータス表示1031は、選択中の特許文献の特許権が存続中であるか否かを色によって示されたものである。例えば、特許権が存続中である場合、ステータス表示1031は、存続中であることを示す緑色であり、特許権の存続期間が終了している場合、ステータス表示1031は、存続中でないことを示す黄色となる。
具体的には、表示制御部14は、特許文献の出願日等に基づいて、特許権が存続中であるか否かを判定して、判定した結果によってステータス表示1031の色を決定する。
ファミリ有無表示では、選択中の特許文献に、いわゆるパテントファミリが存在するか否かを色によって示されても良い。
例えば、特許文献にパテントファミリが存在する場合、ファミリ有無表示は、パテントファミリが存在することを示す赤色になり、パテントファミリが存在しない場合、ファミリ有無表示は、パテントファミリが存在しないことを示す灰色になる。
具体的には、パテントファミリの存在有無を示すデータが、特許文献抽出装置20が取得した集合データの特許文献ごとに含まれ、表示制御部14は、集合データに含まれるパテントファミリの存在有無を示すデータに基づいて、ファミリ有無表示の色を決定する。
詳細表示ボタンは、例えば、パテントファミリの詳細を表示する画面をポップアップ表示するためのGUIである。パテントファミリの詳細を示すデータも、特許文献抽出装置20が取得した集合データの特許文献ごとに含まれる。
フラグボタンは、例えば、選択中の特許文献にフラグをセットする操作を受けるためのGUIである。フラグがセットされると、前述の公報一覧画面および後述するナビゲーション表示欄にセットされたフラグが表示される。
全文表示ボタンは、選択中の特許文献に含まれる明細書、特許請求の範囲、図面、要約書等の記載を含むポップアップ画面を表示するためのGUIである。
PDFボタンは、選択中の特許文献に含まれる明細書、特許請求の範囲、図面、要約書等の記載を含むPDFファイルを生成して、ダウンロードするためのGUIである。
CSV出力ボタンは、請求項表示欄1023において表示されているテキストを、表示形式に沿ったCSV形式のファイルとして出力するためのGUIである。構成要件ごとに分解された各請求項の記載をCSV形式のファイルで得ると、CSV形式のファイルを元として、クレームチャート解析に用いるなど、詳細な分析に用いることができる。
プリント出力ボタンは、表示中の請求項表示欄1023を印刷するためのGUIである。
ナビゲーション表示欄1022は、公報一覧画面で選択された公報の一覧を含み、ヘッダ1021、請求項表示欄1023、本文表示欄1025、図面表示欄1026等に表示する特許文献を選択する操作を受けるための表示欄である。
請求項表示欄1023は、選択中の特許文献についての解析部13の解析結果に基づいて、特許請求の範囲の記載を読解するための表示欄である。
請求項表示欄1023は、全請求ボタン1033と、独立請求ボタン1034と、分割表示形式切替ボタン1038と、折り畳み記号1039と、請求項番号表示欄1040と、構成要件表示欄1041と、を含む。
また、全請求ボタン1033および独立請求ボタン1034は、全請求項の数および独立請求項の数をそれぞれ表示するとともに、「全請求項」、「独立請求項」の2つの表示対象から、表示中の表示対象を選択するためのGUIである。表示対象を「全請求項」とすると、独立請求項および従属請求項を含むすべての請求項が表示され、表示対象を「独立請求項」とすると、独立請求項のみが表示される。
分割表示形式切替ボタン1038は、押下する度に、特許請求の範囲の記載を複数の構成要件に分割表示をする形式を「全請求項展開」、「全請求項非表示」、「独立請求項のみ」の3つの分割表示形式から順に切り替えて選択するためのGUIである。分割表示形式切替ボタン1038の横には、選択された分割表示形式が表示される。
分割表示形式が「全請求項展開」の場合には、表示対象として選択されているすべての請求項の構成要件が表示される。分割表示形式が「全請求項非表示」の場合には、表示対象として選択されているすべての請求項の構成要件が表示されない。また、分割表示形式が「独立請求項のみ」の場合には、表示対象として選択されている請求項のうち、独立請求項のみの構成要件が表示される。
なお、図5は、表示対象として「全請求項」、分割表示形式として「全請求項展開」がそれぞれ選択された画面の一例であり、後述する図6は、その別の一例である。また、後述する図7は、表示対象として「全請求項」、分割表示形式として「独立請求項のみ」がそれぞれ選択された画面の一例であり、図8は、表示対象として「全請求項」、分割表示形式として「全請求項非表示」がそれぞれ選択された画面の一例である。
折り畳み記号1039は、各請求項の構成要件を表示しているか否かを示す記号である。なお、図5に示すように、分割表示形式が「全請求項展開」の場合には、表示対象として選択されているすべての請求項について構成要件を表示しているため、折り畳み記号1039は、構成要件を表示していることを示す下向き矢印となる。
請求項番号表示欄1040は、各請求項の番号と、各請求項の発明の主題を示すテキストと、従属請求項の場合には引用する請求項の番号と、を含む。
各請求項の発明の主題を示すテキスト、従属請求項が引用する請求項の番号等は、解析部13の解析結果に含まれる。そして、表示制御部14は、解析結果に基づいて、主題を示すテキストと前記請求項の番号とを対応付けて、表示装置105または端末装置30に表示させる。
請求項番号表示欄1040は、例えば、独立請求項の場合の地の色が、従属請求項の場合の地の色と異なっていて、独立請求項と従属請求項とが一目で見分けられるようになっている。
構成要件表示欄1041では、各請求項を示すテキストが、構成要件ごとに異なる表示欄に整列して表示されている。各構成要件を示すテキストは、学習済みモデル17に規定されたアルゴリズムに従って、解析部13によって、読解しやすい長さに分解されたテキストである。
表示対象が「全請求項」、かつ、分割表示形式が「全請求項展開」の場合の請求項表示欄1023の表示によって、ユーザは、特許請求の範囲に含まれる全ての請求項の記載を網羅的に確認しつつ、各請求項の記載を速く正確に読解することができる。
表示制御部14は、特許請求の範囲の各請求項を示すテキストを、構成要件ごとに分割して、表示装置105または端末装置30に表示させる。ユーザは、構成要件ごとに分割されたテキストを読むことによって、構成要件の区切りを探す時間が短縮され、読解の速度が向上する。また、構成要件の区切りを間違えることが少なくなるため、読解の正確性が向上する。
評価登録欄1024には、評価結果の選択肢が表示される。あらかじめ設定された選択肢から優先して表示する選択肢をユーザごとに設定可能となっている。評価登録欄1024に含まれる「評価入力表示」リンクが選択されると、表示制御部14は、表示装置105または端末装置30に、評価入力画面を表示させる。評価入力画面については後述する。
選択中の特許文献について、すでにユーザによる評価の結果が登録されている場合は、評価登録欄1024には、登録された評価の結果が表示されている。
本文表示欄1025には、「本文表示」リンクが表示される。「本文表示」リンクが選択されると、表示制御部14は、表示装置105または端末装置30に、選択中の特許文献の明細書に記載されたテキストを表示させる。
図面表示欄1026には、選択中の特許文献の代表図と各図面が表示される。図面表示欄1026には、図面書類の図以外にも、明細書中において、「表1」などで示される表、「式1」などで示される化学式や計算式等、もしくは、「化1」などで示される化学構造図が表示されてもよい。
図6は、一実施形態に係る解析結果画面の別の一例を示す図である。
請求項表示欄1023には、図6に示すように、各請求項を示すテキストが、さらに複数の階層に分割して表示されてもよい。具体的には、請求項表示欄1023には、各請求項を示すテキストを分割したテキストが構成要件表示欄(上位階層)1042として表示され、構成要件表示欄(上位階層)1042に表示されたテキストをさらに分割したテキストが構成要件表示欄(下位階層)1043として表示される。
構成要件表示欄(上位階層)1042と構成要件表示欄(下位階層)1043とは、互いに紐づけられて表示される。構成要件表示欄(下位階層)1043は、その上位の階層である構成要件表示欄(上位階層)1042よりも画面の下方向に位置する。
なお、図6では2階層以下の階層表示の例を示しているが、3階層以上の階層表示が含まれていても良い。
また、階層化されていない構成要件表示欄1041および最下位の階層である構成要件表示欄(下位階層)1043だけを読むことによって、各請求項を示すテキストを重複なくすべて読むことができるため、最下位以外の階層である構成要件表示欄(上位階層)1042は、階層化されていない構成要件表示欄1041および最下位の階層である構成要件表示欄(下位階層)1043よりも目立たない表示となっている。
各請求項を示すテキストが複数の階層に分かれて表示されることによって、各請求項を示すテキストが複雑な複文構成や長文を有する構成要件の記載を含む場合でも、文章構造が理解し易くなるため、速く正確な読解につながる。
なお、請求項表示欄1023は、構造図として図式化して表示されている。例えば、請求項番号表示欄1040は、構成要件表示欄1041、構成要件表示欄(上位階層)1042または構成要件表示欄(下位階層)1043と、互いに線で紐づけられている。すなわち、請求項表示欄1023には、構造図として、構成要件どうしの関係が図式化して表示される。
構成要件表示欄1041は、枠で囲まれることによって構成要件がひとまとまりとして示されていることにより構造図の一部を構成する。
また、構造図として図式化されていることにより、各請求項を示すテキストの複雑な文章構成が可視化される。そして、構造図として図式化され、可視化されていることにより、例えば、1階層の場合には、複数の構成要件が同列であることを、複数階層以上の場合には、請求項を示すテキストが複雑な階層関係を有することを、素早く認識することができる。
図7は、一実施形態に係る解析結果画面のさらに別の一例を示す図である。
図7は、図5に示す解析結果画面の、全請求ボタン1033が押下されて表示対象として「全請求項」が選択され、また、分割表示形式切替ボタン1038が押下されて分割表示形式として「独立請求項のみ」が選択された画面の一例である。
この分割表示形式では、独立請求項の場合、請求項番号表示欄1040と構成要件表示欄1041とが表示される。従属請求項の場合、請求項番号表示欄1040のみが表示され、構成要件表示欄1041は表示されない。
独立請求項の請求項番号表示欄1040の横に表示される折り畳み記号1039は、構成要件を表示していることを示す下向き矢印となる。従属請求項の請求項番号表示欄1040の横に表示される折り畳み記号1039は、構成要件を表示していないことを示す右向き矢印となる。
分割表示形式が「独立請求項のみ」となっていると、選択中の特許文献の特許権について、権利範囲に直接関係する独立請求項のみが構成要件に展開して表示され、権利範囲に直接関係しない従属請求項については記載内容が表示されない。したがって、画面内に必要性の高い情報のみが表示されるため、ユーザは、効率良く読解することができ、それによって、特許権の権利範囲を速く正確に把握することができる。
図8は、一実施形態に係る解析結果画面のさらに別の一例を示す図である。
図8は、図5に示す解析結果画面の、全請求ボタン1033が押下されて表示対象として「全請求項」が選択され、また、分割表示形式切替ボタン1038が押下されて分割表示形式として「全請求項非表示」が選択された画面の一例である。
この分割表示形式では、すべての請求項について、請求項番号表示欄1040のみが表示され、構成要件表示欄1041は表示されない。
それぞれの請求項の請求項番号表示欄1040の横に表示される折り畳み記号1039は、構成要件を表示していないことを示す右向き矢印となる。
分割表示形式が「全請求項非表示」となっていると、各請求項の内容が表示されず、各請求項の発明の主題を示すテキストが画面内により多く表示され、独立請求項と従属請求項とが一目で見分けられる。したがって、ユーザは、特許請求の範囲全体の構成を一目で把握することができる。また、請求項の発明の主題を示すテキストのみが表示されるので、読解する必要のない特許文献である場合に、ユーザが迅速にスキップすることができる。
また、発明の主題を示すテキストを見ることによって、請求項の記載を読み込む前に、詳細に読解する必要がある請求項かどうかを速く判断することができるため、全体的な特許文献の読解の速度が向上する。
図示していないが、図5に示す解析結果画面の、独立請求ボタン1034が押下されて表示対象として「独立請求項」が選択され、また、分割表示形式切替ボタン1038が押下されて分割表示形式として「全請求項非表示」表示が選択されると、選択中の特許文献において、独立請求項については、請求項番号表示欄1040のみが表示され、構成要件表示欄1041は表示されず、従属請求項については、請求項番号表示欄1040と構成要件表示欄1041とはいずれも表示されない。
評価入力画面は、図5、図6、図7または図8の解析結果画面の評価登録欄1024の「評価入力表示」リンクが選択された場合にポップアップ表示されるものとすることができる。
評価入力画面は、評価選択ボタンと、区分選択プルダウンと、テキスト入力欄と、登録ボタンと、を含むことができる。
評価選択ボタンは、例えば、あらかじめ設定された選択肢のうち、ユーザごとに優先して表示する設定をされた選択肢を選択するためのGUIである。
評価入力画面には、評価選択ボタンに加えて、評価選択プルダウンが設けられてもよい。評価選択プルダウンは、あらかじめ設定された選択肢のうち、ユーザごとに優先して表示する設定をされた選択肢以外の選択肢から評価結果を選択するためのGUIである。
区分選択プルダウンは、例えば、特許文献抽出装置20に設定された選択肢から評価の区分を選択するためのGUIである。
テキスト入力欄は、例えば、備考、コメント等のテキストを入力するための入力欄である。
登録ボタンは、例えば、選択および入力された情報を登録するためのGUIである。評価登録部15は、登録ボタンが押下されると、選択および入力された情報を選択中の特許文献に関連付けて記憶部11に格納するとともに、特許文献抽出装置20に送信する。
これによって、ユーザは、特許文献を読解して評価した結果を記録して、自ら評価の結果を使用することができ、また、評価の結果を他のユーザに周知し、利用させることができる。
なお、評価結果を特許文献に関連付ける例を示したが、評価登録部15が、請求項ごと、または構成要件ごとに評価された評価結果を登録できるようにしても良い。
本実施形態に係る読解支援システム1によれば、解析結果画面内に読解に必要な情報が配置されているため、特許文献の内容を速く正確に読解することができる。
従来、特許請求の範囲に含まれる請求項の記載を読解する際には、担当者等が請求項の記載を構成要件ごとに分解して、構成要件ごとに検討する必要があった。
しかし、図5、図6または図7に示されるように、解析部13が学習済みモデル17を活用して解析して、表示制御部14が請求項の記載を分解された構成要件ごとに表示させることによって、構成要件に分解する作業の負担が軽減され、構成要件への分解が適切でないことによる誤解等のリスクを回避できる。
また、図7に示されるように、独立請求項のみが構成要件に展開して表示されることによって、例えば、権利範囲に注目して読解したい場合には、画面内に必要性の高い情報のみが表示されるため、ユーザは、読み飛ばすリスクを回避しつつ、効率良く読解することができる。
さらに、図8に示されるように、各請求項の発明の主題を示すテキストが一覧で表示されることによって、ユーザは、特許請求の範囲全体の構成を一目で把握することができる。
本実施形態に係る読解支援システム1によれば、ユーザによる特許文献の読解の精度が向上することによって、特許文献抽出装置20がユーザから要求を受ける検索処理の回数が低下し、特許文献抽出装置20の処理の負荷を抑制する。
また、特許文献の調査作業の精度が向上するため、製品開発等における特許発明の利活用が促進され、特許権の侵害のリスクが軽減される。
本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
本実施形態においては、集合データに含まれる特許文献を示すデータが、特許公報、公開公報等の公報に記載されたデータである例を示した。しかし、特許文献を示すデータは公報に記載されたデータに限られない。特許文献を示すデータは、特許請求の範囲を示し、請求項ごとに記載されたテキストデータが含まれていれば、例えば、いわゆるクレーム案など、明細書、図面、要約書等を示すデータが含まれていなくても良い。
本実施形態における発明の主題を示すテキストとは、発明の対象を示すテキストである。より具体的には、発明の主題を示すテキストとしては、各請求項のテキストの中から、発明を一義的に表し、かつ、ユーザが発明を識別しやすい程度の長さのフレーズが選択される。発明の主題を示すテキストは、発明の名称と同じでも良いし、日本語等の場合には各請求項の末尾の文言等と同じフレーズでも良いし、これらの記載と異なるフレーズであっても良い。例えば、「蓄電デバイス用集電体」というような各請求項の末尾の文言だけではなく、「被覆層が形成された蓄電デバイス用集電体」のように、当該技術分野の他の発明と差別化しうる、具体的な発明の特徴を示す文言が含まれていても良い。
ユーザは、このような発明の主題を示すテキストを見るだけで、発明の内容がざっくりと理解できれば、請求項の記載を読み込む前に、詳細に読解する必要がある請求項かどうかを速く判断することができる。
表示制御部14は、図5、図6または図7に示した構成要件表示欄1041に、特許請求の範囲の重要語、新出語等を強調して表示するように制御しても良い。
重要語とは、特許請求の範囲の中で、発明の本質的な部分に関連する重要な用語として使用されていて、その用語について、後述に詳細な説明が記載されている用語である。例えば、特許請求の範囲の中で、繰り返し記載されていることを要件の一つとして、重要語が抽出されてもよい。
新出語とは、特許請求の範囲の中において、先行する記載の無い用語であり、さらに、明細書中において発明の説明に用いられる用語である。新出語は、重要語と重複してもよく、技術用語、一般用語または専門用語以外の用語に限定しても良い。
その場合、解析部13が、明細書および特許請求の範囲の記載に基づいて、特許請求の範囲の新出語、重要語等を抽出し、表示制御部14が、解析結果に基づいて、構成要件表示欄1041の新出語を青、重要語を赤等のように、他の文字色と異なる色で表示する制御を行っても良い。新出語、重要語等がこのように強調して表示されることにより、特許請求の範囲内において、着目すべきポイントを即座に見つけることができる。
情報処理装置10は、各構成要件に分解した請求項の記載を、表計算ソフトウェア等の形式の表データに反映して、出力しても良い。ユーザは、出力されたデータを調査資料等の元データにそのまま使用することができる。
本実施形態に係る情報処理装置10、特許文献抽出装置20および端末装置30は、別々の装置である例を示したが、これらの一部または全部が同一の装置で実現されていても良い。
表示装置105および端末装置30は、それぞれ、表示制御部14が制御して画面を表示する表示装置の一例である。表示装置はこれに限らず、画面を表示することができれば、プロジェクタ、モニタ等でも良い。
本実施形態においては、特許文献および各種の表示画面が日本語である例を示したが、他の言語であっても良い。例えば、英語の特許文献の場合には、英語の特許文献に特化した学習済みモデル17を構築すれば、日本語の特許文献の場合と同様の仕組みで読解支援システム1を実現できる。
また、本国際出願は、2019年12月20日に出願された日本国特許出願2019-230888、日本国特許出願2019-230889および日本国特許出願2019-230890に基づく優先権を主張するものであり、当該日本国特許出願の全内容を本国際出願に援用する。
1 読解支援システム
10 情報処理装置
11 記憶部
12 特許文献取得部
13 解析部
14 表示制御部
15 評価登録部
16 操作受付部
17 学習済みモデル
20 特許文献抽出装置
30 端末装置
40 ネットワーク
101 CPU
102 主記憶装置
103 補助記憶装置
104 入力装置
105 表示装置
106 通信インターフェース装置
107 ドライブ装置
108 記憶媒体
1021 ヘッダ
1022 ナビゲーション表示欄
1023 請求項表示欄
1024 評価登録欄
1025 本文表示欄
1026 図面表示欄
1031 ステータス表示
1032 アイコンセンター
1033 全請求ボタン
1034 独立請求ボタン
1038 分割表示形式切替ボタン
1039 折り畳み記号
1040 請求項番号表示欄
1041 構成要件表示欄
1042 構成要件表示欄(上位階層)
1043 構成要件表示欄(下位階層)
10 情報処理装置
11 記憶部
12 特許文献取得部
13 解析部
14 表示制御部
15 評価登録部
16 操作受付部
17 学習済みモデル
20 特許文献抽出装置
30 端末装置
40 ネットワーク
101 CPU
102 主記憶装置
103 補助記憶装置
104 入力装置
105 表示装置
106 通信インターフェース装置
107 ドライブ装置
108 記憶媒体
1021 ヘッダ
1022 ナビゲーション表示欄
1023 請求項表示欄
1024 評価登録欄
1025 本文表示欄
1026 図面表示欄
1031 ステータス表示
1032 アイコンセンター
1033 全請求ボタン
1034 独立請求ボタン
1038 分割表示形式切替ボタン
1039 折り畳み記号
1040 請求項番号表示欄
1041 構成要件表示欄
1042 構成要件表示欄(上位階層)
1043 構成要件表示欄(下位階層)
Claims (19)
- 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定する解析部と、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示装置に表示させる表示制御部と、を備える、
情報処理装置。 - 前記解析部は、特許請求の範囲を示す前記テキストデータから、重要な用語を示す重要語をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストの中で、前記重要語を示すテキストを強調して前記表示装置に表示させる、
請求項1に記載の情報処理装置。 - 前記解析部は、前記特許文献データに含まれる明細書を示すテキストデータをさらに解析し、前記明細書において発明の説明に用いられる用語であって、前記特許請求の範囲において先行する記載の無い用語を示す新出語をさらに特定し、
前記表示制御部は、前記特許請求の範囲の各請求項を示すテキストの中で、前記新出語を示すテキストを強調して前記表示装置に表示させる、
請求項1または2に記載の情報処理装置。 - 前記特許文献データについてのユーザによる評価結果の入力を受ける操作受付部と、
前記評価結果を前記特許文献データと関連付けて登録する評価登録部と、をさらに備え、
前記表示制御部は、前記評価結果を前記表示装置に表示させる、
請求項1から3のいずれか1項に記載の情報処理装置。 - 前記表示制御部は、前記解析部が解析の対象とした前記特許文献データと、前記評価登録部に登録された前記評価結果と、を複数のユーザが使用する装置に表示させる、
請求項4に記載の情報処理装置。 - 前記表示制御部は、分割された前記構成要件を、構造図として図式化して表示させる、
請求項1から5のいずれか1項に記載の情報処理装置。 - 前記解析部は、前記特許文献データに含まれる前記特許請求の範囲を示す前記テキストデータを解析して、前記特許請求の範囲に含まれる前記請求項ごとに、前記発明の主題を特定し、
前記表示制御部は、前記主題を示すテキストと前記請求項の番号とを対応付けて前記表示装置に表示させる、
請求項1から6のいずれか1項に記載の情報処理装置。 - 前記表示制御部は、ユーザの操作に応じて、前記特許請求の範囲の各請求項を示す前記テキストを含む表示と含まない表示とを切り替えて、前記表示装置に表示させる、
請求項7に記載の情報処理装置。 - 前記解析部は、前記請求項を示す前記テキストデータの中から、前記主題を示す前記テキストを選択する、
請求項7または8に記載の情報処理装置。 - 前記解析部は、前記請求項を示す前記テキストデータの中から、前記発明を一義的に表し、かつ、ユーザが発明を識別しやすい程度の長さのフレーズを選択して、前記主題を示す前記テキストとする、
請求項7または8に記載の情報処理装置。 - 前記解析部は、前記特許文献データに含まれる前記特許請求の範囲を示す前記テキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定し、
前記表示制御部は、特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示装置に表示させる、
請求項1から10のいずれか1項に記載の情報処理装置。 - 前記解析部は、前記特許文献データに含まれる前記特許請求の範囲を示す前記テキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定し、
前記表示制御部は、特定された前記従属関係に基づいて、
独立請求項については、前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示させ、
従属請求項については、前記主題を示すテキストと前記請求項の番号とを対応付けて表示させるとともに、前記構成要件ごとに分割された前記特許請求の範囲の各請求項を示すテキストを表示させる分割表示形式と、前記特許請求の範囲の各請求項を示すテキストを表示させない分割表示形式と、のいずれかの表示形式を選択させて、選択された前記表示形式で前記表示装置に表示させる、
請求項7から10のいずれか1項に記載の情報処理装置。 - 前記解析部は、前記従属関係を特定する処理において、前記従属関係の不明な請求項を独立請求項に分類する、
請求項11または12に記載の情報処理装置。 - 特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定し、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示する、
読解支援方法。 - 前記特許文献データに含まれる前記特許請求の範囲を示す前記テキストデータを解析して、前記特許請求の範囲に含まれる前記請求項ごとに、前記発明の主題を特定し、
前記主題を示すテキストと前記請求項の番号とを対応付けて表示する、
請求項14に記載の読解支援方法。 - 前記特許文献データに含まれる前記特許請求の範囲を示す前記テキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定し、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを表示する、
請求項14または15に記載の読解支援方法。 - コンピュータに、
特許文献データに含まれる特許請求の範囲を示すテキストデータを解析して、前記特許請求の範囲に含まれる請求項ごとに、発明の構成要件を特定するステップと、
前記特許請求の範囲の各請求項を示すテキストを、前記構成要件ごとに分割して表示装置に表示させるステップと、
を実行させるためのプログラム。 - 前記コンピュータに、
前記特許文献データに含まれる前記特許請求の範囲を示す前記テキストデータを解析して、前記特許請求の範囲に含まれる前記請求項ごとに、前記発明の主題を特定するステップと、
前記主題を示すテキストと前記請求項の番号とを対応付けて前記表示装置に表示させるステップと、
をさらに実行させるための請求項17に記載のプログラム。 - 前記コンピュータに、
前記特許文献データに含まれる前記特許請求の範囲を示す前記テキストデータを解析して、前記特許請求の範囲に含まれる請求項の従属関係を特定するステップと、
特定された前記従属関係に基づいて、前記特許請求の範囲に含まれる独立請求項を示すテキストを前記表示装置に表示させるステップと、
をさらに実行させるための請求項17または18に記載のプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202080087033.8A CN114830122A (zh) | 2019-12-20 | 2020-12-17 | 信息处理装置、阅读理解辅助方法及程序 |
US17/757,375 US20230334252A1 (en) | 2019-12-20 | 2020-12-17 | Information processing device, reading comprehension support method, and program |
JP2021565637A JPWO2021125252A1 (ja) | 2019-12-20 | 2020-12-17 | |
EP20901455.4A EP4080444A4 (en) | 2019-12-20 | 2020-12-17 | INFORMATION PROCESSING DEVICE, READING COMPREHENSION SUPPORT METHOD, AND PROGRAM |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019230889 | 2019-12-20 | ||
JP2019230890 | 2019-12-20 | ||
JP2019-230888 | 2019-12-20 | ||
JP2019-230889 | 2019-12-20 | ||
JP2019-230890 | 2019-12-20 | ||
JP2019230888 | 2019-12-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021125252A1 true WO2021125252A1 (ja) | 2021-06-24 |
Family
ID=76477611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/047078 WO2021125252A1 (ja) | 2019-12-20 | 2020-12-17 | 情報処理装置、読解支援方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230334252A1 (ja) |
EP (1) | EP4080444A4 (ja) |
JP (1) | JPWO2021125252A1 (ja) |
CN (1) | CN114830122A (ja) |
WO (1) | WO2021125252A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7536375B1 (ja) | 2024-03-24 | 2024-08-20 | 株式会社椿知財サービス | 情報処理装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050108652A1 (en) * | 2003-11-07 | 2005-05-19 | Beretich Guy R.Jr. | Patent claims analysis system and method |
JP3682535B2 (ja) * | 2002-10-03 | 2005-08-10 | 独立行政法人情報通信研究機構 | 文書差分検出装置及びプログラム |
JP2006260597A (ja) * | 2006-05-26 | 2006-09-28 | Intec Web & Genome Informatics Corp | 修辞構造解析システム |
JP2007065745A (ja) * | 2005-08-29 | 2007-03-15 | Canon Inc | 文書検索方法および文書検索装置、プログラム |
JP2012003517A (ja) | 2010-06-17 | 2012-01-05 | Intec Inc | 請求項構造情報生成装置、請求項構造情報生成方法、及びプログラム |
JP2014219833A (ja) | 2013-05-08 | 2014-11-20 | 株式会社リコー | 文書読解支援装置、文書読解支援システムおよびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7823061B2 (en) * | 2004-05-20 | 2010-10-26 | Wizpatent Pte Ltd | System and method for text segmentation and display |
US9372923B2 (en) * | 2007-05-09 | 2016-06-21 | Lexisnexis Group | Systems and methods for analyzing documents |
-
2020
- 2020-12-17 WO PCT/JP2020/047078 patent/WO2021125252A1/ja unknown
- 2020-12-17 EP EP20901455.4A patent/EP4080444A4/en active Pending
- 2020-12-17 US US17/757,375 patent/US20230334252A1/en active Pending
- 2020-12-17 JP JP2021565637A patent/JPWO2021125252A1/ja active Pending
- 2020-12-17 CN CN202080087033.8A patent/CN114830122A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3682535B2 (ja) * | 2002-10-03 | 2005-08-10 | 独立行政法人情報通信研究機構 | 文書差分検出装置及びプログラム |
US20050108652A1 (en) * | 2003-11-07 | 2005-05-19 | Beretich Guy R.Jr. | Patent claims analysis system and method |
JP2007065745A (ja) * | 2005-08-29 | 2007-03-15 | Canon Inc | 文書検索方法および文書検索装置、プログラム |
JP2006260597A (ja) * | 2006-05-26 | 2006-09-28 | Intec Web & Genome Informatics Corp | 修辞構造解析システム |
JP2012003517A (ja) | 2010-06-17 | 2012-01-05 | Intec Inc | 請求項構造情報生成装置、請求項構造情報生成方法、及びプログラム |
JP2014219833A (ja) | 2013-05-08 | 2014-11-20 | 株式会社リコー | 文書読解支援装置、文書読解支援システムおよびプログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP4080444A4 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7536375B1 (ja) | 2024-03-24 | 2024-08-20 | 株式会社椿知財サービス | 情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20230334252A1 (en) | 2023-10-19 |
EP4080444A1 (en) | 2022-10-26 |
CN114830122A (zh) | 2022-07-29 |
JPWO2021125252A1 (ja) | 2021-06-24 |
EP4080444A4 (en) | 2024-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Higuchi | KH Coder 3 reference manual | |
JP2011501258A (ja) | 情報抽出装置および方法 | |
WO2007032095A1 (ja) | ドキュメントデータの管理方法、管理システム及びコンピュータソフトウェア | |
US20110320459A1 (en) | Term identification method and apparatus | |
US20120179702A1 (en) | Method for setting metadata, system for setting metadata, and program | |
JP7165163B2 (ja) | 発明文書分析システム及び発明文書分析処理プログラム | |
JP2004341753A (ja) | 検索支援装置、検索支援方法、およびプログラム | |
WO2021125252A1 (ja) | 情報処理装置、読解支援方法およびプログラム | |
JP2021043955A5 (ja) | 発明文書分析システム、発明文書分析方法及び発明文書分析処理プログラム | |
JPH09223007A (ja) | 入力シートシステム | |
Higuchi | KH Coder 2. x reference manual | |
CN107534710B (zh) | 电子设备以及标记处理方法 | |
KR20140007233A (ko) | 전자문서에 대한 키워드맵 제공 방법 및 이를 위한 키워드맵 제공 프로그램을 기록한 컴퓨터로 판독가능한 기록매체 | |
JP2019179470A (ja) | 情報処理プログラム、情報処理方法、および情報処理装置 | |
US8903754B2 (en) | Programmatically identifying branding within assets | |
JP4356541B2 (ja) | 特許マップ作成支援システム、そのプログラム、及び分析装置 | |
JP2006331001A (ja) | 専門家抽出装置および辞書提供装置 | |
JP7238411B2 (ja) | 情報処理装置及びプログラム | |
US20200411200A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2004342016A (ja) | 情報探索プログラム及び情報探索プログラムを記録した媒体 | |
KR101078966B1 (ko) | 문서 분석 시스템 | |
JP4713098B2 (ja) | 選択項目表示装置、選択項目表示方法、および選択項目表示プログラム | |
JP2008052553A (ja) | ウェブテキスト抽出装置、方法及びプログラム | |
JP2004348774A (ja) | 文書情報管理装置および文書情報管理方法 | |
JP2004348774A5 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20901455 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021565637 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2020901455 Country of ref document: EP Effective date: 20220720 |